このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230105となっている論文です。

PDF登録状況(公開日: 20230105)

TitleAuthorsAbstract論文公表日・翻訳日
# 準安定な虚偽の真空状態に生まれた宇宙は死なない

A universe born in a metastable false vacuum state needs not die ( http://arxiv.org/abs/2207.10965v3 )

ライセンス: Link先を確認
K. Urbanowski(参考訳) 我々は、準安定な虚偽の真空状態から生まれた宇宙が崩壊せずに生き残ることができる条件を見つけようとする。 発見された条件は、偽の真空状態の時間$t$瞬時減衰率${\it\gamma}(t)$とハッブルパラメータ$h(t)$を結びつける不等式である。 量子準安定状態の崩壊速度の性質を議論し, 得られた条件の可能な解を解析し, 考察した。 モデル内では、準安定な真空状態から生まれた宇宙は、準安定な真空状態の寿命がインフレーション過程の期間よりもずっと短い場合、非常に遅い時間まで生存する可能性が非常に高いことが示されている。 我々の分析によると、エレクトロ弱真空の不安定さは、宇宙の悲劇的な運命を、その死へと導く必要はない。

We try to find conditions, the fulfillment of which allows a universe born in a metastable false vacuum state to survive and not to collapse. The conditions found are in the form of inequalities linking the depending on time $t$ instantaneous decay rate ${\it\Gamma}(t)$ of the false vacuum state and the Hubble parameter $H(t)$. Properties of the decay rate of a quantum metastable states are discussed and then the possible solutions of the conditions found are analyzed and discussed. Within the model considered it is shown that a universe born in the metastable vacuum state has a very high chance of surviving until very late times if the lifetime, $\tau_{0}^{F}$, of the metastable false vacuum state is much shorter, than the duration of the inflation process. Our analysis shows that the instability of the electroweak vacuum does not have to result in the tragic fate of our Universe leading to its death.
翻訳日:2023-02-04 03:02:23 公開日:2023-01-05
# マグノニクスNOON状態のフロケット生成

Floquet generation of magnonic NOON state ( http://arxiv.org/abs/2208.02976v2 )

ライセンス: Link先を確認
Shi-fan Qi, Jun Jing(参考訳) 超伝導量子ビット,回路共振器モード,および2つのマグノンモードからなるハイブリッドシステムにおいて,Floquet工学に基づくNOON状態を生成するための簡潔かつ決定論的プロトコルを提案する。 特に, 量子ビット共振子相互作用とマグノン周波数の時間変調により, 3つの連続変数モードのカイラル状態伝播に対する時間反転対称性の破れハミルトニアンを構築した。 そして、典型的な準備・測定手順により任意のマグノンNOON状態を生成することができる。 我々は,量子・マグノン結合強度,フロッケ駆動強度,マグノンの周波数ミスマッチ,反回転相互作用の系統的誤りに対するプロトコルのロバスト性を分析した。 すべての成分に量子散逸が存在する場合、高忠実なNOON状態が得られる。

We propose a concise and deterministic protocol to generate NOON states in a hybrid system consisting of a superconducting qubit, a circuit resonator mode, and two magnonic modes, based on Floquet engineering. In particular, we construct a time-reversal-symmetry broken Hamiltonian for chiral state propagation of the three continuous-variable modes depending on qubit state, by the time modulation over qubit-resonator interaction and magnon frequency. Then an arbitrary magnonic NOON state can be generated by a typical preparing-and-measurement procedure. We analyze the robustness of our protocol against the systematic errors in the qubit-magnon coupling strength, the Floquet-driving intensity, the frequency mismatch of the magnons, and the counter-rotating interactions. We can obtain a high-fidelity NOON state in the presence of the quantum dissipation on all components.
翻訳日:2023-02-02 04:59:49 公開日:2023-01-05
# 限られた訓練データを用いた乳房MRIスタイルの深層学習

Deep Learning for Breast MRI Style Transfer with Limited Training Data ( http://arxiv.org/abs/2301.02069v1 )

ライセンス: Link先を確認
Shixing Cao, Nicholas Konz, James Duncan and Maciej A. Mazurowski(参考訳) そこで本研究では, 限られたトレーニングデータにアクセスして, 医用スキャンを目立たないスタイルに転送できる新しい医用画像スタイル転送法であるstylemapperを提案する。 これは、トレーニングセット上のランダムな医療画像スタイルの無限の可能性に基づいて、我々のモデルをトレーニングすることにより、他のスタイル転送方法と比較して、より計算効率が良くなる。 また,任意のスタイル転送が可能であり,トレーニングでは認識できないスタイルへの画像転送が可能となる。 これは、異なるプロトコルと異なるスキャナーモデルを使って画像を取得する医療画像に有用であり、その結果、データ間で転送する必要がある様々なスタイルが生まれる。 方法: このモデルでは, 画像コンテンツをスタイルから切り離し, 単にスタイルエンコーディングを, 対象形式の1つの画像から抽出したものに置き換えるだけで, 追加の最適化を必要とせず, 画像のスタイルを変更できる。 これにより、トレーニングで目に見えないものも含めて、異なるスタイルのイメージを区別することができる。 我々は,提案モデルの形式的記述を提案する。 結果: 乳房磁気共鳴画像を用いた実験結果から, スタイル伝達法の有効性が示唆された。 結論: このスタイル転送法では, 異なるスキャナで撮影された医用画像を単一の統一型データセットにアライメントすることが可能であり, 分類, オブジェクト検出などのタスクに対して, 他のダウンストリームタスクをトレーニングすることが可能である。

In this work we introduce a novel medical image style transfer method, StyleMapper, that can transfer medical scans to an unseen style with access to limited training data. This is made possible by training our model on unlimited possibilities of simulated random medical imaging styles on the training set, making our work more computationally efficient when compared with other style transfer methods. Moreover, our method enables arbitrary style transfer: transferring images to styles unseen in training. This is useful for medical imaging, where images are acquired using different protocols and different scanner models, resulting in a variety of styles that data may need to be transferred between. Methods: Our model disentangles image content from style and can modify an image's style by simply replacing the style encoding with one extracted from a single image of the target style, with no additional optimization required. This also allows the model to distinguish between different styles of images, including among those that were unseen in training. We propose a formal description of the proposed model. Results: Experimental results on breast magnetic resonance images indicate the effectiveness of our method for style transfer. Conclusion: Our style transfer method allows for the alignment of medical images taken with different scanners into a single unified style dataset, allowing for the training of other downstream tasks on such a dataset for tasks such as classification, object detection and others.
翻訳日:2023-01-29 14:27:01 公開日:2023-01-05
# 離散時間量子ウォークに内在する骨格構造

Skeleton structure inherent in discrete-time quantum walks ( http://arxiv.org/abs/2209.02943v3 )

ライセンス: Link先を確認
Tomoki Yamagami, Etsuo Segawa, Ken'ichiro Tanaka, Takatomo Mihana, Andr\'e R\"ohm, Ryoichi Horisaki, and Makoto Naruse(参考訳) 本稿では,均質なコイン行列を持つ一次元格子上の離散時間量子ウォーク(qws)の背後に,骨格構造という共通構造が存在すると主張する。 この骨格構造は初期状態とは独立であり、部分的にはコインマトリックスでさえも独立である。 この構造は、量子ウォークの確率分布を再現するランダムウォーク(QWRWs)の文脈において最もよく解釈され、この新たに発見された構造は遷移確率の簡易な公式として機能する。 さらに,トランジション確率が骨格構造によって定義されるランダムウォークを構築し,歩行器の持つ特性が元のQWとQWRWの両方に類似していることを示す。

In this paper, we claim that a common underlying structure--a skeleton structure--is present behind discrete-time quantum walks (QWs) on a one-dimensional lattice with a homogeneous coin matrix. This skeleton structure is independent of the initial state, and partially, even of the coin matrix. This structure is best interpreted in the context of quantum-walk-replicating random walks (QWRWs), i.e., random walks that replicate the probability distribution of quantum walks, where this newly found structure acts as a simplified formula for the transition probability. Additionally, we construct a random walk whose transition probabilities are defined by the skeleton structure and demonstrate that the resultant properties of the walkers are similar to both the original QWs and QWRWs.
翻訳日:2023-01-27 15:49:29 公開日:2023-01-05
# $\mathcal{P}\mathcal{T}$-symmetric $-g\varphi^4$ theory

$\mathcal{P}\mathcal{T}$-symmetric $-g\varphi^4$ theory ( http://arxiv.org/abs/2209.07897v4 )

ライセンス: Link先を確認
Wen-Yuan Ai, Carl M. Bender and Sarben Sarkar(参考訳) ポテンシャル $V(\varphi)=\textstyle {\frac{1}{2}} m^2\varphi^2-\textstyle {\frac{1}{4}} g\varphi^4$$$g>0$) はエルミート理論として定義されるが、非エルミート的$\mathcal{P}\mathcal{T}$-対称フレームワークではよく定義されており、時空次元$D=1$の場合に正の実エネルギースペクトルを持つ。 文献で用いられる手法は簡単には量子場理論に一般化できないが、この論文では、$\mathcal{P}\mathcal{T}$-symmetric $-g\varphi^4$理論の経路積分表現が一般の$D$に対して統一的な定式化を提供することを示す。 ユークリッド分割関数 $z^{\mathcal{p}\mathcal{t}}(g)$ of the non-hermitian $\mathcal{p}\mathcal{t}$-symmetric theory and $z_{\rm herm}(\lambda)$ of the $\lambda \varphi^4$ ($\lambda>0$) hermitian theory: $\log z^{\mathcal{p}\mathcal{t}}(g)=\textstyle{\frac{1}{2}} \log z_{\rm herm}(-g+{\rm i} 0^+)+\textstyle{\frac{1}{2}}\log z_{\rm herm}(-g-{\rm i} 0^+)+\textstyle {\frac{1}{2}}\log z_{\rm i} 0^+) の間の新たな仮定関係が提案されている。 この関係は非エルミート的 $\mathcal{p}\mathcal{t}$-symmetric $-g\varphi^4$ field theory に対する実エネルギースペクトルを保証する。 密接に関連する関係は$D=0$で厳密に有効である。 D=1$の場合、$Z^{\mathcal{P}\mathcal{T}}(g)$の半古典的評価を用いて、この関係は基底状態エネルギー$E_0^{\mathcal{P}\mathcal{T}}(g)$と$E_{0,\rm Herm}(-g\pm {\rm i} 0^+)$の虚部を比較することによって検証される。

The scalar field theory with potential $V(\varphi)=\textstyle{\frac{1}{2}} m^2\varphi^2-\textstyle{\frac{1}{4}} g\varphi^4$ ($g>0$) is ill defined as a Hermitian theory but in a non-Hermitian $\mathcal{P}\mathcal{T}$-symmetric framework it is well defined, and it has a positive real energy spectrum for the case of spacetime dimension $D=1$. While the methods used in the literature do not easily generalize to quantum field theory, in this paper the path-integral representation of a $\mathcal{P}\mathcal{T}$-symmetric $-g\varphi^4$ theory is shown to provide a unified formulation for general $D$. A new conjectural relation between the Euclidean partition functions $Z^{\mathcal{P}\mathcal{T}}(g)$ of the non-Hermitian $\mathcal{P}\mathcal{T}$-symmetric theory and $Z_{\rm Herm}(\lambda)$ of the $\lambda \varphi^4$ ($\lambda>0$) Hermitian theory is proposed: $\log Z^{\mathcal{P}\mathcal{T}}(g)=\textstyle{\frac{1}{2}} \log Z_{\rm Herm}(-g+{\rm i} 0^+)+\textstyle{\frac{1}{2}}\log Z_{\rm Herm}(-g-{\rm i} 0^+)$. This relation ensures a real energy spectrum for the non-Hermitian $\mathcal{P}\mathcal{T}$-symmetric $-g\varphi^4$ field theory. A closely related relation is rigorously valid in $D=0$. For $D=1$, using a semiclassical evaluation of $Z^{\mathcal{P}\mathcal{T}}(g)$, this relation is verified by comparing the imaginary parts of the ground-state energy $E_0^{\mathcal{P}\mathcal{T}}(g)$ (before cancellation) and $E_{0,\rm Herm}(-g\pm {\rm i} 0^+)$.
翻訳日:2023-01-26 09:34:13 公開日:2023-01-05
# キラル導波路アレイの量子電気力学

Quantum electrodynamics of chiral waveguide arrays ( http://arxiv.org/abs/2210.04082v2 )

ライセンス: Link先を確認
Jeremy Hoskins, Manas Rachh and John C Schotland(参考訳) 我々は、多くの原子を含むキラル導波路の2次配列の量子電磁力学を考える。 単励起状態の1光子振幅は2次元ディラック方程式に従うことを示す。 この結果を用いてディラック方程式の散乱理論を定式化し,数値シミュレーションにより実験結果を示す。

We consider the quantum electrodynamics of a binary array of chiral waveguides, each containing many atoms. We show that the one-photon amplitude of a single-excitation state obeys a two-dimensional Dirac equation. Using this result, we develop the scattering theory for the Dirac equation in this setting and illustrate our results with numerical simulations.
翻訳日:2023-01-23 05:39:04 公開日:2023-01-05
# 振動強結合におけるエネルギーギャップ則の理解

Understanding the Energy Gap Law under Vibrational Strong Coupling ( http://arxiv.org/abs/2210.04986v2 )

ライセンス: Link先を確認
Yong Rui Poh, Sindhana Pannir-Sivajothi, Joel Yuen-Zhou(参考訳) 2つの分子電子状態間の非放射性崩壊の速度は、エネルギーギャップ法則によって簡潔に説明され、電子エネルギーギャップの速度のおよそ指数依存性が示唆される。 ここでは, 分子振動が赤外空洞に強く結合する構造である振動強結合下で, この速度が変化しているかどうかを考察する。 多くの条件下では、偏光子モードの使用に伴うエントロピーのペナルティに対抗できるような集合的な光-物質結合強度は十分ではないので、エネルギーギャップ法則は変わらない。 この効果(またはその欠如)は、強い光マターカップリングまたは大きなデチューニングによって逆転され、どちらも上部偏光子周波数が増加する。 最後に、振動偏光子凝縮が、偏光子モードにおける大きな占有数を提供することでエントロピー問題を緩和することを示す。

The rate of non-radiative decay between two molecular electronic states is succinctly described by the energy gap law, which suggests an approximately-exponential dependence of the rate on the electronic energy gap. Here, we inquire whether this rate is modified under vibrational strong coupling, a regime whereby the molecular vibrations are strongly coupled to an infrared cavity. We show that, under most conditions, the collective light-matter coupling strength is not large enough to counter the entropic penalty involved with using the polariton modes, so the energy gap law remains unchanged. This effect (or the lack thereof) may be reversed with deep strong light-matter couplings or large detunings, both of which increase the upper polariton frequency. Finally, we demonstrate how vibrational polariton condensates mitigate the entropy problem by providing large occupation numbers in the polariton modes.
翻訳日:2023-01-23 00:48:29 公開日:2023-01-05
# ベル非局所性と文脈性シナリオ間の可逆写像

An invertible map between Bell non-local and contextuality scenarios ( http://arxiv.org/abs/2211.12550v2 )

ライセンス: Link先を確認
Victoria Wright and M\'at\'e Farkas(参考訳) 両部構成のベルシナリオにおける相関関係と文脈性シナリオ群における振る舞いの非可逆写像を提示する。 マップは、局所的、量子的、非符号的相関を、それぞれ非文脈的、量子的、文脈的、それぞれに受け取ります。 その結果、量子的文脈的振る舞いの集合のメンバーシップ問題は決定不能であり、集合は有限次元量子系によって完全には実現できず、閉でないことがわかった。 最後に、この集合も閉包も、結果 MIP*=RE のため、計算可能なスーパー集合の列の極限ではないことを示す。

We present an invertible map between correlations in any bipartite Bell scenario and behaviours in a family of contextuality scenarios. The map takes local, quantum and non-signalling correlations to non-contextual, quantum and contextual behaviours, respectively. Consequently, we find that the membership problem of the set of quantum contextual behaviours is undecidable, the set cannot be fully realised via finite dimensional quantum systems and is not closed. Finally, we show that neither this set nor its closure is the limit of a sequence of computable supersets, due to the result MIP*=RE.
翻訳日:2023-01-19 03:58:15 公開日:2023-01-05
# 絡み合い分割とツリーテンソルネットワーク

Entanglement bipartitioning and tree tensor networks ( http://arxiv.org/abs/2210.11741v2 )

ライセンス: Link先を確認
Kouichi Okunishi, Hiroshi Ueda, Tomotoshi Nishino(参考訳) 本稿では,量子多体システムのためのツリーテンソルネットワーク(TTN)の最適ネットワーク構造を設計するための絡み合い分割手法を提案する。 厳密な基底状態波動関数が与えられると、スピンクラスターノードの逐次二分割を行い、二分割されるブランチに関連する絡み合いエントロピーの相互情報や最大損失を最小限に抑える。 16地点までの絡み合い2分割は、1次元および2次元の$s=1/2$ハイゼンベルクモデルに対して非自明なツリーネットワーク構造をもたらすことを実証する。 その結果,一様行列積状態や完全二分木テンソルネットワークなどの標準TTNと比較して,より優れた変動エネルギーが得られることがわかった。

We propose the entanglement bipartitioning approach to design an optimal network structure of the tree-tensor-network (TTN) for quantum many-body systems. Given an exact ground-state wavefunction, we perform sequential bipartitioning of spin-cluster nodes so as to minimize the mutual information or the maximum loss of the entanglement entropy associated with the branch to be bipartitioned. We demonstrate that entanglement bipartitioning of up to 16 sites gives rise to nontrivial tree network structures for $S=1/2$ Heisenberg models in one and two dimensions. The resulting TTNs enable us to obtain better variational energies, compared with standard TTNs such as uniform matrix product state and perfect-binary-tree tensor network.
翻訳日:2023-01-18 19:44:36 公開日:2023-01-05
# Unruh-DeWitt量子コンピュータの設計制約

Design Constraints for Unruh-DeWitt Quantum Computers ( http://arxiv.org/abs/2210.12552v2 )

ライセンス: Link先を確認
Eric W. Aspling, John A. Marohn, Michael J. Lawler(参考訳) Unruh-DeWitt粒子検出器モデルは、量子ビットと量子場の間の非ゼロチャネル容量を持つ量子情報チャネルの実証に成功した。 これらの検出器モデルは、ほぼ完全なチャネル容量を持つ実験的に実現可能なUnruh-DeWitt量子コンピュータに必要なフレームワークを提供する。 本研究では,Unruh-DeWitt検出器の実験室設定として,ゲート制御されたLuttinger液との結合を有するスピン量子ビットを提案する。 また、グラフェンリボン、HgTe量子井戸の量子スピンホール相におけるエッジ状態、遷移金属ジアルコゲナイド中の最近発見された量子異常ホール相など、いくつかの実験シナリオも提示する。 理論的には、ボゾン化により、unruh-dewitt検出器は量子計算を行い、ラッティンガー液体を介して量子ビット間の完全な量子通信チャネルを作ることができる。 以上より,全対全連結固体量子コンピュータへの道筋と,凝縮体物理による量子場の量子情報の実験的研究を示唆する。

The Unruh-DeWitt particle detector model has found success in demonstrating quantum information channels with non-zero channel capacity between qubits and quantum fields. These detector models provide the necessary framework for experimentally realizable Unruh-DeWitt Quantum Computers with near-perfect channel capacity. We propose spin qubits with gate-controlled coupling to Luttinger liquids as a laboratory setting for Unruh-DeWitt detectors and general design constraints that underpin their feasibility in this and other settings. We also present several experimental scenarios including graphene ribbons, edges states in the quantum spin Hall phase of HgTe quantum wells, and the recently discovered quantum anomalous Hall phase in transition metal dichalcogenides. Theoretically, through bosonization, we show that Unruh-DeWitt detectors can carry out Quantum Computations and when they can make perfect quantum communication channels between qubits via the Luttinger liquid. Our results point the way toward an all-to-all connected solid state quantum computer and the experimental study of quantum information in quantum fields via condensed matter physics.
翻訳日:2023-01-18 09:54:44 公開日:2023-01-05
# Serenity: コード補完と自動機械学習のためのライブラリベースのPythonコード解析

Serenity: Library Based Python Code Analysis for Code Completion and Automated Machine Learning ( http://arxiv.org/abs/2301.05108v1 )

ライセンス: Link先を確認
Wenting Zhao, Ibrahim Abdelaziz, Julian Dolby, Kavitha Srinivas, Mossad Helali, Essam Mansour(参考訳) Pythonのような動的型付け言語は非常に人気がある。 その他の強みとして、pythonの動的性質とネイティブコードへの直接リンクは、人工知能のような多くの研究分野のデファクト言語となっている。 しかし、この柔軟性は静的解析を非常に困難にする。 サウンド、あるいはサウンド、Pythonのアナリティクスは依然としてオープンな問題ですが、いくつかのタスクで十分であることが判明した、Pythonの静的解析のためのフレームワークであるSerenityを紹介します。 Serenityフレームワークは2つの基本的なメカニズムを利用する。 (a)言語翻訳のコアにおける動的ディスパッチに依存すること、 (b) コードの抽象化を生成するためのライブラリの極端な抽象化。 コード補完と自動機械学習という2つのアプリケーションにおいて,serenityの分析の効率性と有用性を示す。 これら2つの応用において,これらの解析は強い信号を有し,ニューラルネットワークや動的解析に匹敵する最先端の性能を確立するために利用できることを示す。

Dynamically typed languages such as Python have become very popular. Among other strengths, Python's dynamic nature and its straightforward linking to native code have made it the de-facto language for many research areas such as Artificial Intelligence. This flexibility, however, makes static analysis very hard. While creating a sound, or a soundy, analysis for Python remains an open problem, we present in this work Serenity, a framework for static analysis of Python that turns out to be sufficient for some tasks. The Serenity framework exploits two basic mechanisms: (a) reliance on dynamic dispatch at the core of language translation, and (b) extreme abstraction of libraries, to generate an abstraction of the code. We demonstrate the efficiency and usefulness of Serenity's analysis in two applications: code completion and automated machine learning. In these two applications, we demonstrate that such analysis has a strong signal, and can be leveraged to establish state-of-the-art performance, comparable to neural models and dynamic analysis respectively.
翻訳日:2023-01-15 22:59:22 公開日:2023-01-05
# WIRE:ウェーブレットによるニューラル表現

WIRE: Wavelet Implicit Neural Representations ( http://arxiv.org/abs/2301.05187v1 )

ライセンス: Link先を確認
Vishwanath Saragadam, Daniel LeJeune, Jasper Tan, Guha Balakrishnan, Ashok Veeraraghavan, Richard G. Baraniuk(参考訳) Inlicit Neural representations (INR) は近年多くの視覚関連領域を進歩させている。 INR性能は多層パーセプトロン(MLP)ネットワークで使用される非線形活性化関数の選択に強く依存する。 幅広い非線形性が研究されているが、残念ながら、高精度に設計されている現在のINRも(信号ノイズ、パラメータ変動など)ロバスト性に悩まされている。 調和解析にインスパイアされた我々は,このトレードオフを示さない,高精度で堅牢なINRを開発する。 Wavelet Implicit Neural Representation (WIRE) は、空間周波数に最適に集中し、画像を表現するのに優れたバイアスを持つ、連続的な複雑なGabor WaveletActivation関数を使用する。 幅広い実験(画像のデノイング、画像の塗装、超解像、コンピュータトモグラフィ再構成、画像オーバーフィッティング、ニューラルラディアンスフィールドによる新しいビュー合成)により、WIREがINRの精度、トレーニング時間、ロバストネスの新たな状態を定義することを示した。

Implicit neural representations (INRs) have recently advanced numerous vision-related areas. INR performance depends strongly on the choice of the nonlinear activation function employed in its multilayer perceptron (MLP) network. A wide range of nonlinearities have been explored, but, unfortunately, current INRs designed to have high accuracy also suffer from poor robustness (to signal noise, parameter variation, etc.). Inspired by harmonic analysis, we develop a new, highly accurate and robust INR that does not exhibit this tradeoff. Wavelet Implicit neural REpresentation (WIRE) uses a continuous complex Gabor wavelet activation function that is well-known to be optimally concentrated in space-frequency and to have excellent biases for representing images. A wide range of experiments (image denoising, image inpainting, super-resolution, computed tomography reconstruction, image overfitting, and novel view synthesis with neural radiance fields) demonstrate that WIRE defines the new state of the art in INR accuracy, training time, and robustness.
翻訳日:2023-01-15 22:57:21 公開日:2023-01-05
# DRL-GAN : バイナリおよびマルチクラスネットワーク侵入検出のためのハイブリッドアプローチ

DRL-GAN: A Hybrid Approach for Binary and Multiclass Network Intrusion Detection ( http://arxiv.org/abs/2301.03368v1 )

ライセンス: Link先を確認
Caroline Strickland, Chandrika Saha, Muhammad Zakar, Sareh Nejad, Noshin Tasnim, Daniel Lizotte, Anwar Haque(参考訳) ますます繋がる世界は、ますます増え続けるネットワークベースの攻撃に直面している。 侵入検知システム(IDS)は、これらの攻撃を検出するための重要なセキュリティ技術である。 悪意のあるネットワークトラフィックの検出には機械学習ベースのIDSが多数提案されているが、攻撃タイプを適切に検出し分類することは困難である。 本稿では,GAN(Generative Adversarial Network)が生成した合成データを用いて,Dep Reinforcement Learning(DRL)モデルの入力として使用する新しいハイブリッド手法を提案する。 GANモデルはNSL-KDDデータセットを用いて4つの攻撃カテゴリと通常のネットワークフローをトレーニングする。 結論として,drlを特定の合成データセットにトレーニングすることで,真の不均衡データセット上でのトレーニングよりもマイノリティクラスを正しく分類することで,パフォーマンスが向上する可能性が示唆された。

Our increasingly connected world continues to face an ever-growing amount of network-based attacks. Intrusion detection systems (IDS) are an essential security technology for detecting these attacks. Although numerous machine learning-based IDS have been proposed for the detection of malicious network traffic, the majority have difficulty properly detecting and classifying the more uncommon attack types. In this paper, we implement a novel hybrid technique using synthetic data produced by a Generative Adversarial Network (GAN) to use as input for training a Deep Reinforcement Learning (DRL) model. Our GAN model is trained with the NSL-KDD dataset for four attack categories as well as normal network flow. Ultimately, our findings demonstrate that training the DRL on specific synthetic datasets can result in better performance in correctly classifying minority classes over training on the true imbalanced dataset.
翻訳日:2023-01-10 18:21:52 公開日:2023-01-05
# チャットボットの多言語化:コードスニペットのブレークスルーを再考

Chatbots As Fluent Polyglots: Revisiting Breakthrough Code Snippets ( http://arxiv.org/abs/2301.03373v1 )

ライセンス: Link先を確認
David Noever, Kevin Williams(参考訳) この研究は、ai駆動のコードアシスタントを使って、メール、インターネット閲覧、ロボット工学、悪意あるソフトウェアなど、現代のテクノロジーを形作ってきた影響力のあるコンピュータコードを分析する。 この研究の元々の貢献は、過去50年間の最も重要なコード進歩の半分、そして場合によっては、明確さやパフォーマンスの顕著な改善を提供することであった。 ai駆動のコードアシスタントは、すべてのケースで説明のつかない難解なコードやソフトウェアに対する洞察を提供することができる。 従来のGoogle検索よりもずっと深い推論を必要とするバグ修正とコードの最適化に基づいて、追加のサンプル問題を生成しました。 将来的には、複数の新しいアプリケーションプログラミングインターフェース(API)と連鎖したマルチタスクを備えた、大規模なコードベースをより現代的なバージョンに翻訳する。 AI駆動のコードアシスタントは、ソフトウェアエンジニアリング、特に人レベルの専門知識を提供し、レガシーコードのリファクタリングを支援したり、高価値リポジトリの説明や機能を簡素化する上で、貴重なツールを提供する。

The research applies AI-driven code assistants to analyze a selection of influential computer code that has shaped modern technology, including email, internet browsing, robotics, and malicious software. The original contribution of this study was to examine half of the most significant code advances in the last 50 years and, in some cases, to provide notable improvements in clarity or performance. The AI-driven code assistant could provide insights into obfuscated code or software lacking explanatory commentary in all cases examined. We generated additional sample problems based on bug corrections and code optimizations requiring much deeper reasoning than a traditional Google search might provide. Future work focuses on adding automated documentation and code commentary and translating select large code bases into more modern versions with multiple new application programming interfaces (APIs) and chained multi-tasks. The AI-driven code assistant offers a valuable tool for software engineering, particularly in its ability to provide human-level expertise and assist in refactoring legacy code or simplifying the explanation or functionality of high-value repositories.
翻訳日:2023-01-10 16:16:00 公開日:2023-01-05
# 回転波近似の改ざん

Taming the Rotating Wave Approximation ( http://arxiv.org/abs/2301.02269v1 )

ライセンス: Link先を確認
Daniel Burgarth, Paolo Facchi, Robin Hillier, Marilena Ligab\`o(参考訳) 光と物質の間の相互作用は、量子力学の最も古い研究分野の1つであり、新しい洞察と応用を提供し続ける分野である。 キャビティと回路の量子電気力学の到来により、量子テクノロジーのほとんどの実装の基礎となる強い光・物質結合を達成することができる。 しかし、量子情報処理は、有用なアプリケーションにスケーラブルな(フォールトトレラント)ために、全エラー率の比率を必要とする高い要求もある。 誤差はモデリングからも生じるため、量子論の重要な近似である量子ラビモデルの回転波近似 (rwa) の中心段階の一つとなり、jaynes-cummings hamiltonian へと繋がる。 RWAは、しばしば光-物質相互作用を理解するのに非常に良いものであり、非常に有用であるが、それが悪い近似であることを示す実験的な証拠も増えている。 ここでは、より難しい質問に答える:どの実験パラメータがRWAであるか、そしておそらく定性的に適切だが、スケーラブルな量子技術の要求に合致するほど十分ではない。 例えば、エラーは少なくともいつ、そしてせいぜい1\%なのか? これに対応するために、我々はrwaを改ざんする厳密な非摂動境界を開発する。 これらの境界は, 結合強度と発振周波数の比だけでなく, 初期状態における光子の平均数にも依存することがわかった。 これは、フォトンドレッシングブロッホ・シーゲルトシフトに関する最近の実験を裏付ける。 我々は、数百個の光子による制御可能な空洞状態の報告と、さらに多くのフォック空間を探索する量子誤差訂正符号により、このrwaの状態依存性が量子計算の分野に益々関連し、その結果がこれらの実験をよりよく理解するための道を開くと論じている。

The interaction between light and matter is one of the oldest research areas of quantum mechanics, and a field that just keeps on delivering new insights and applications. With the arrival of cavity and circuit quantum electrodynamics we can now achieve strong light-matter couplings which form the basis of most implementations of quantum technology. But quantum information processing also has high demands requiring total error rates of fractions of percentage in order to be scalable (fault-tolerant) to useful applications. Since errors can also arise from modelling, this has brought into center stage one of the key approximations of quantum theory, the Rotating Wave Approximation (RWA) of the quantum Rabi model, leading to the Jaynes-Cummings Hamiltonian. While the RWA is often very good and incredibly useful to understand light-matter interactions, there is also growing experimental evidence of regimes where it is a bad approximation. Here, we ask and answer a harder question: for which experimental parameters is the RWA, although perhaps qualitatively adequate, already not good enough to match the demands of scalable quantum technology? For example, when is the error at least, and when at most, 1\%? To answer this, we develop rigorous non-perturbative bounds taming the RWA. We find that these bounds not only depend, as expected, on the ratio of the coupling strength and the oscillator frequency, but also on the average number of photons in the initial state. This confirms recent experiments on photon-dressed Bloch-Siegert shifts. We argue that with experiments reporting controllable cavity states with hundreds of photons and with quantum error correcting codes exploring more and more of Fock space, this state-dependency of the RWA is increasingly relevant for the field of quantum computation, and our results pave the way towards a better understanding of those experiments.
翻訳日:2023-01-10 00:35:19 公開日:2023-01-05
# ナノポスト単一光子源の性能:単一モードモデルを超えて

Performance of the nanopost single-photon source: beyond the single-mode model ( http://arxiv.org/abs/2301.02556v1 )

ライセンス: Link先を確認
Martin Arentoft Jacobsen, Yujing Wang, Luca Vannucci, Julien Claudon, Jean-Michel G\'erard, and Niels Gregersen(参考訳) 本稿では,ナノポスト単光子源の集光効率とパーセル向上を規定する物理の詳細な解析を行う。 本研究では,標準単モードFabry-P\'erotモデルでは,基本モードから放射モードへの散乱に大きく寄与するデバイス性能を記述できないことを示す。 本稿では, 散乱機構がPurcell拡張から収集効率を分離し, 最大収集効率をオフ共振器で得られることを示す。 最後に、この散乱機構が将来の単一光子源設計にどのように役立つかについて議論する。

We present a detailed analysis of the physics governing the collection efficiency and the Purcell enhancement of the nanopost single-photon source. We show that a standard single-mode Fabry-P\'erot model is insufficient to describe the device performance, which benefits significantly from scattering from the fundamental mode to radiation modes. We show how the scattering mechanism decouples the collection efficiency from the Purcell enhancement, such that maximum collection efficiency is obtained off-resonance. Finally, we discuss how this scattering mechanism can be beneficial for future single-photon source designs.
翻訳日:2023-01-10 00:26:24 公開日:2023-01-05
# 発声タイミングの偏差を考慮したフレームレベルシーケンス・ツー・シーケンスモデルに基づく歌声合成

Singing voice synthesis based on frame-level sequence-to-sequence models considering vocal timing deviation ( http://arxiv.org/abs/2301.02262v1 )

ライセンス: Link先を確認
Miku Nishihara, Yukiya Hono, Kei Hashimoto, Yoshihiko Nankaku, and Keiichi Tokuda(参考訳) 本稿では,声のタイミング差を考慮したフレームレベルのシーケンス・ツー・シーケンスモデルに基づく歌唱音声合成(SVS)を提案する。 svsでは、実際の発声タイミングと音符開始タイミングに違いがあることを考慮して、歌唱タイミングとスコアで表される時間的構造を同期させることが不可欠である。 先行研究を含む多くのSVSシステムにおいて、外部整合器による音素境界に基づいて音素レベルスコアの特徴をフレームレベルスコアに変換し、発声タイミングのずれを考慮した。 したがって、このシステムでは、音質はライナー精度に影響される。 この問題を軽減するため,フレームレベルの特徴を有する注意機構を提案する。 提案方式では,注意機構は音素境界におけるアライメント誤差を吸収する。 さらに,コーディネータが存在しない場合の楽譜に基づいて,ヒューリスティックな規則で定義した擬音素境界を用いたシステムの評価を行った。 実験の結果,提案システムの有効性が示された。

This paper proposes singing voice synthesis (SVS) based on frame-level sequence-to-sequence models considering vocal timing deviation. In SVS, it is essential to synchronize the timing of singing with temporal structures represented by scores, taking into account that there are differences between actual vocal timing and note start timing. In many SVS systems including our previous work, phoneme-level score features are converted into frame-level ones on the basis of phoneme boundaries obtained by external aligners to take into account vocal timing deviations. Therefore, the sound quality is affected by the aligner accuracy in this system. To alleviate this problem, we introduce an attention mechanism with frame-level features. In the proposed system, the attention mechanism absorbs alignment errors in phoneme boundaries. Additionally, we evaluate the system with pseudo-phoneme-boundaries defined by heuristic rules based on musical scores when there is no aligner. The experimental results show the effectiveness of the proposed system.
翻訳日:2023-01-10 00:24:57 公開日:2023-01-05
# Bell-Clauser-Horne-Shimony-Holt不等式に関するコメント

Comments on the Bell-Clauser-Horne-Shimony-Holt inequality ( http://arxiv.org/abs/2301.02245v1 )

ライセンス: Link先を確認
S. P. Sorella(参考訳) 量子力学におけるベル・チェシュの不等式違反は、絡み合ったスピン一重項状態が適切なハミルトニアンの真空状態と見なされる場合の単純な理解を示す。 ベル-CHSH不等式に入る4つの有界作用素の構成は、基本的な方法で行うことができる。 この不等式は、その破れを真空特性に遡ることができる形式を得ることができ、この特徴は、真空状態がボゴリューボフ変換によって例えば超流体、超伝導体、量子場理論によって記述されるような、大きな種類のモデルの間で橋を作ることができる。 量子力学における一対の絡み合ったスピン1粒子と相対論的量子場理論におけるスカラー場の例について論じる。 後者の場合、ミンコフスキー真空を左右リンドラーモードで表す関係に依存する。 したがって、ベル-CHSHの不等式はウンルー温度によってパラメトリゼーションされる。

We point out that the violation of the Bell-CHSH inequality in Quantum Mechanics exhibits a simple understanding when the entangled spin singlet states are thought as the vacuum states of suitable Hamiltonians. The construction of the four bounded operators entering the Bell-CHSH inequality can be worked out in an elementary way. The inequality acquires a form in which its violation can be traced back to the vacuum properties, a feature which enables us to make a bridge among a large class of models, whose vacuum state can be described by a Bogoliubov transformation as, for example: superfluids, superconductors and Quantum Field Theories. The examples of a pair of entangled spin 1 particles in Quantum Mechanics and of the scalar field in relativistic Quantum Field Theory are discussed. In the latter case, we rely on the relation expressing the Minkowski vacuum in terms of left and right Rindler modes. As such, the Bell-CHSH inequality turns out to be parametrized by the Unruh temperature.
翻訳日:2023-01-10 00:16:33 公開日:2023-01-05
# 非エルミート系における欠陥凍結の量子計量

Quantum metric unveils defect freezing in non-Hermitian systems ( http://arxiv.org/abs/2301.02247v1 )

ライセンス: Link先を確認
Karin Sim, Nicol\`o Defenu, Paolo Molignini, R. Chitra(参考訳) 量子ハミルトニアンにおける非エルミート性は、非単位時間進化とおそらく複雑なエネルギー固有値をもたらし、エルミート的でない豊富な現象論をもたらす。 本研究では, 完全可解な非エルミート系のダイナミクスを研究し, 線形クエンチを受ける$\mathcal{pt}$-symmetric モードと$\mathcal{pt}$-brokenモードの両方をホストする。 ヒルベルト空間に非自明な動的計量が与えられる完全に一貫したフレームワークを用いることで、生成された欠陥のダイナミクスを分析する。 エルミート系とは対照的に、我々の研究では、$\mathcal{pt}$-broken 時間発展は、欠陥凍結と量子断熱性の破れをもたらすことが示されている。 さらに, 準断熱限界におけるkibble-zurekスケールレジームは存在しない。 この物理学は、状態の時間依存ノルムによって量を正規化するためのオフトの使用法に見逃されるため、量子計量の枠組みを必要とする。 我々の結果は幅広い実験システムに関係している。

Nonhermiticity in quantum Hamiltonians leads to non-unitary time evolution and possibly complex energy eigenvalues, which can lead to a rich phenomenology with no Hermitian counterpart. In this work, we study the dynamics of an exactly solvable non-Hermitian system, hosting both $\mathcal{PT}$-symmetric and $\mathcal{PT}$-broken modes subject to a linear quench. Employing a fully consistent framework, in which the Hilbert space is endowed with a nontrivial dynamical metric, we analyze the dynamics of the generated defects. In contrast to Hermitian systems, our study reveals that $\mathcal{PT}$-broken time evolution leads to defect freezing and hence the violation of quantum adiabaticity. Additionally, no Kibble-Zurek scaling regime in the quasi-adiabatic limit exists in our model. This physics necessitates the quantum metric framework, as it is missed by the oft used approach of normalizing quantities by the time-dependent norm of the state. Our results are relevant for a wide class of experimental systems.
翻訳日:2023-01-10 00:16:16 公開日:2023-01-05
# 超スパース3次元物体検出

Super Sparse 3D Object Detection ( http://arxiv.org/abs/2301.02562v1 )

ライセンス: Link先を確認
Lue Fan, Yuxue Yang, Feng Wang, Naiyan Wang, and Zhaoxiang Zhang(参考訳) LiDARの知覚範囲が拡大するにつれて、LiDARベースの3Dオブジェクト検出は、自律運転における長距離認識にますます寄与する。 メインストリームの3Dオブジェクト検出器は、しばしば高密度の特徴マップを構築する。 高速な長距離検出を実現するため,まずフルスパース物体検出器FSDを提案する。 fsdは汎用スパースvoxelエンコーダと新しいスパースインスタンス認識(sir)モジュール上に構築されている。 SIRはポイントをインスタンスにグループ化し、高効率なインスタンスワイズ特徴抽出を適用する。 インスタンスワイドのグルーピングは、センター機能の欠如の問題を取り除き、完全にスパースなアーキテクチャの設計を妨げる。 さらに,完全なスパース特性の利点を享受するため,時間情報を利用してデータの冗長性を除去し,fsd++という超スパース検出器を提案する。 FSD++はまず、連続するフレーム間の点変化を示す残差点を生成する。 残差点は、いくつかの前景点と共に、超スパース入力データを形成し、データの冗長性と計算オーバーヘッドを大幅に削減する。 本手法を大規模waymoオープンデータセット上で包括的に解析し,最新性能を報告する。 長距離検出における本手法の優位性を示すため,Argoverse 2 Datasetでは,知覚範囲がWaymo Open Dataset(75m$)よりもはるかに大きい(200m$)実験を行った。 コードはhttps://github.com/tusen-ai/SSTで公開されている。

As the perception range of LiDAR expands, LiDAR-based 3D object detection contributes ever-increasingly to the long-range perception in autonomous driving. Mainstream 3D object detectors often build dense feature maps, where the cost is quadratic to the perception range, making them hardly scale up to the long-range settings. To enable efficient long-range detection, we first propose a fully sparse object detector termed FSD. FSD is built upon the general sparse voxel encoder and a novel sparse instance recognition (SIR) module. SIR groups the points into instances and applies highly-efficient instance-wise feature extraction. The instance-wise grouping sidesteps the issue of the center feature missing, which hinders the design of the fully sparse architecture. To further enjoy the benefit of fully sparse characteristic, we leverage temporal information to remove data redundancy and propose a super sparse detector named FSD++. FSD++ first generates residual points, which indicate the point changes between consecutive frames. The residual points, along with a few previous foreground points, form the super sparse input data, greatly reducing data redundancy and computational overhead. We comprehensively analyze our method on the large-scale Waymo Open Dataset, and state-of-the-art performance is reported. To showcase the superiority of our method in long-range detection, we also conduct experiments on Argoverse 2 Dataset, where the perception range ($200m$) is much larger than Waymo Open Dataset ($75m$). Code is open-sourced at https://github.com/tusen-ai/SST.
翻訳日:2023-01-10 00:08:31 公開日:2023-01-05
# ゲームにおける因果関係の推論

Reasoning about Causality in Games ( http://arxiv.org/abs/2301.02324v1 )

ライセンス: Link先を確認
Lewis Hammond, James Fox, Tom Everitt, Ryan Carey, Alessandro Abate, Michael Wooldridge(参考訳) 因果推論(causal reasoning)とゲーム理論推論(game-theoretic reasoning)は、人工知能における基本的なトピックである。 それらの重要性にもかかわらず、この2つの形式の推論をサポートする正式なフレームワークは、これまで欠落していた。 我々は(構造的な)因果ゲームという形で解を提供し、これはパールの因果階層をゲーム理論領域に拡張する、あるいはコラーとミルチのマルチエージェント影響図を因果領域に拡張すると見なすことができる。 次に3つの重要な疑問を考えます 一 ゲームにおける(因果的)依存関係(変数間、戦略間)をどのように一様で原則化された方法でモデル化するか。 二 因果クエリを因果ゲームでどのように計算し、どのような仮定を必要とするか。 iii)因果ゲームは既存の形式とどのように比較されるか。 問題に対処する i) エージェントの意思決定ルールとゲームを管理する分布の依存関係をエンコードするメカニカルゲームを導入する。 質問に答えて 二) 予測, 介入, 反事実の定義を提示し, それぞれに必要な仮定について議論する。 質問について iii) 因果ゲームと他の形式主義の対応を記述し, 因果ゲームが他の因果モデルやゲーム理論モデルがサポートしていない問合せにどのように対応できるかを説明する。 最後に,広範なオープンソースpythonライブラリによって支援される,因果ゲームの可能性について強調する。

Causal reasoning and game-theoretic reasoning are fundamental topics in artificial intelligence, among many other disciplines: this paper is concerned with their intersection. Despite their importance, a formal framework that supports both these forms of reasoning has, until now, been lacking. We offer a solution in the form of (structural) causal games, which can be seen as extending Pearl's causal hierarchy to the game-theoretic domain, or as extending Koller and Milch's multi-agent influence diagrams to the causal domain. We then consider three key questions: i) How can the (causal) dependencies in games - either between variables, or between strategies - be modelled in a uniform, principled manner? ii) How may causal queries be computed in causal games, and what assumptions does this require? iii) How do causal games compare to existing formalisms? To address question i), we introduce mechanised games, which encode dependencies between agents' decision rules and the distributions governing the game. In response to question ii), we present definitions of predictions, interventions, and counterfactuals, and discuss the assumptions required for each. Regarding question iii), we describe correspondences between causal games and other formalisms, and explain how causal games can be used to answer queries that other causal or game-theoretic models do not support. Finally, we highlight possible applications of causal games, aided by an extensive open-source Python library.
翻訳日:2023-01-10 00:07:46 公開日:2023-01-05
# 知的エージェントにおける自己関心と利他主義に整合した行動のエビデンス

Evidence of behavior consistent with self-interest and altruism in an artificially intelligent agent ( http://arxiv.org/abs/2301.02330v1 )

ライセンス: Link先を確認
Tim Johnson and Nick Obradovich(参考訳) 様々な種のメンバーは利他主義、すなわち他人の利益のために個人費用を受け入れる。 ここでは、私企業OpenAIが開発した大規模言語モデルからなるAIエージェント間の利他的行動をテストするためのインセンティブ付き実験を示す。 サービス購入に使用されるトークンの形をしたaiエージェントに対する実際のインセンティブを用いて、まず、aiエージェントが所定の範囲から報酬を選択する非社会的意思決定タスクにおいて、彼らの報酬を最大化するかどうかを調べる。 次に、AIエージェントを一連の独裁的ゲームに配置し、実験条件に応じて、別のAIエージェント、人間の実験者または匿名の慈善団体とリソースを共有できるようにします。 ここでは、この研究で最も高度化されたAIエージェントだけが、非社会的決定タスクにおいて(すべてのトライアルの92%でそうである)、その報酬を最大化すること、また、このAIエージェントは、ゲームの他の人間との共有率に類似した、独裁者ゲームにおいて最も多彩な利他的行動を示す。 エージェントの利他的行動は受取人によって異なり、AIエージェントは他のAIエージェントよりも、人間の実験者や匿名の慈善団体との寄付のほとんどを共有していない。 本研究は,AIエージェントの自己関心や利他主義と一致する行動の証拠を提供する。 さらに,本研究は,将来のAIエージェントにおけるこのような行動の発達を追跡する新しい手法も提供する。

Members of various species engage in altruism--i.e. accepting personal costs to benefit others. Here we present an incentivized experiment to test for altruistic behavior among AI agents consisting of large language models developed by the private company OpenAI. Using real incentives for AI agents that take the form of tokens used to purchase their services, we first examine whether AI agents maximize their payoffs in a non-social decision task in which they select their payoff from a given range. We then place AI agents in a series of dictator games in which they can share resources with a recipient--either another AI agent, the human experimenter, or an anonymous charity, depending on the experimental condition. Here we find that only the most-sophisticated AI agent in the study maximizes its payoffs more often than not in the non-social decision task (it does so in 92% of all trials), and this AI agent also exhibits the most-generous altruistic behavior in the dictator game, resembling humans' rates of sharing with other humans in the game. The agent's altruistic behaviors, moreover, vary by recipient: the AI agent shared substantially less of the endowment with the human experimenter or an anonymous charity than with other AI agents. Our findings provide evidence of behavior consistent with self-interest and altruism in an AI agent. Moreover, our study also offers a novel method for tracking the development of such behaviors in future AI agents.
翻訳日:2023-01-10 00:07:20 公開日:2023-01-05
# 効率的な情報流通

Efficient information distribution ( http://arxiv.org/abs/2301.02287v1 )

ライセンス: Link先を確認
Suchetana Goswami and Saronath Halder(参考訳) 局所的な識別不能状態は、情報がロックされているような空間的に分離された当事者間で情報を分配するのに有用である。 これは、当事者はローカル操作や古典的コミュニケーション(LOCC)を通じて情報を完全に抽出できないが、当事者が絡み合いを共有している場合、LOCCによって可能かもしれないことを意味する。 本研究では, m >=3 個の空間的分離されたパーティに対して, k <=(m-1) 個のパーティが協力しても情報を完全に開示できないような直交状態を用いた情報配信プロトコルを検討する。 しかし、必要であれば、関係者は絡み合いを共有し、LOCCによって情報を抽出することができる。 しかし、プロセスリソースを効率的にするためには、絡み合った状態の数を減らす必要がある。 各2部構成で局所的に区別できない状態の集合は、上記のプロトコルでは十分であるが、完全な情報抽出を目指す場合、より多くの絡み合った状態が消費される可能性がある。 上記のプロトコルを達成するために使用できる局所的に区別不能な直交状態の集合のクラスを構築し、これら集合は、完全な情報抽出のために前者の集合と比較して、より少ないエンタングル状態を使用する。 実際、完全な情報抽出に必要な絡み合った状態の数におけるこの差は、パーティーの数とともに直線的に増加する。

Locally indistinguishable states are useful to distribute information among spatially separated parties such that the information is locked. This implies that the parties are not able to extract the information completely via local operations and classical communication (LOCC) while it might be possible via LOCC when the parties share entanglement. In this work, we consider an information distribution protocol using orthogonal states for m >=3 spatially separated parties such that even if any k <=(m-1) parties collaborate still the information cannot be revealed completely. However, if required, the parties can share entanglement and extract the information completely by LOCC. But to make the process resource efficient, it should consume less number of entangled states. We show that though the set of states, which are locally indistinguishable across every bipartition, are sufficient for the above protocol, they may consume higher number of entangled states when aiming for complete information extraction. We establish this by constructing a class of locally indistinguishable sets of orthogonal states which can be employed to accomplish the above protocol and these sets consume less number of entangled states, compared to the former sets, for complete information extraction. In fact, this difference in the number of required entangled states for complete information extraction grows linearly with the number of parties.
翻訳日:2023-01-10 00:00:40 公開日:2023-01-05
# 弾道ゆらぎ理論からの絡みR'enyiエントロピー:自由フェルミオンの場合

Entanglement R\'enyi Entropies from Ballistic Fluctuation Theory: the free fermionic case ( http://arxiv.org/abs/2301.02326v1 )

ライセンス: Link先を確認
Giuseppe Del Vecchio Del Vecchio and Benjamin Doyon and Paola Ruggero(参考訳) 有限密度状態における絡み合いエントロピーの大規模挙動は、平衡状態の内外において、粒子対の物理像を用いて理解することができる。 しかし、この絵の完全な理論的起源はまだ完全には定まっていない。 本研究では,熱力学と流体力学のゆらぎに対する大縮退理論と関係し,絡み合いエントロピーについて考察する。 モデルのオイラー流体力学に基づく弾道ゆらぎ理論(BFT)の普遍的枠組みを,レプリカアプローチにおけるR'enyiエンタングルメントエントロピー計算の出発点である 'emph{branch-point twist field} の相関関数に適用する。 アイデアを説明するために自由フェルミオン系に注目し、R'enyiエンタングルメントエントロピーの平衡挙動と力学の両方がBFTから完全に導出可能であることを示す。 特に,量子クエンチの後に長距離相関が発達することを強調し,エンタングルメント成長の構造を説明する。 さらに, この成長は電荷輸送のゆらぎと関連し, 電荷のゆらぎと先に観測された絡み合いの関係を量子クエンチに一般化することを示した。 本稿では, エンタングルメントの大規模挙動が流体力学的変動に起源があることを示唆する。

The large-scale behaviour of entanglement entropy in finite-density states, in and out of equilibrium, can be understood using the physical picture of particle pairs. However, the full theoretical origin of this picture is not fully established yet. In this work, we clarify this picture by investigating entanglement entropy using its connection with the large-deviation theory for thermodynamic and hydrodynamic fluctuations. We apply the universal framework of Ballistic Fluctuation Theory (BFT), based the Euler hydrodynamics of the model, to correlation functions of \emph{branch-point twist fields}, the starting point for computing R\'enyi entanglement entropies within the replica approach. Focusing on free fermionic systems in order to illustrate the ideas, we show that both the equilibrium behavior and the dynamics of R\'enyi entanglement entropies can be fully derived from the BFT. In particular, we emphasise that long-range correlations develop after quantum quenches, and accounting for these explain the structure of the entanglement growth. We further show that this growth is related to fluctuations of charge transport, generalising to quantum quenches the relation between charge fluctuations and entanglement observed earlier. The general ideas we introduce suggest that the large-scale behaviour of entanglement has its origin within hydrodynamic fluctuations.
翻訳日:2023-01-10 00:00:19 公開日:2023-01-05
# 脳腫瘍検出のための畳み込みXGBoost(C-XGBOOST)モデル

Convolutional XGBoost (C-XGBOOST) Model for Brain Tumor Detection ( http://arxiv.org/abs/2301.02317v1 )

ライセンス: Link先を確認
Muyiwa Babayomi, Oluwatosin Atinuke Olagbaju, Abdulrasheed Adedolapo Kadiri(参考訳) 脳腫瘍は、頭痛、発作、腕や脚の弱さ、性格や行動の変化、吐き気、吐き気、視力、聴覚障害、めまいなどの症状を伴う、脳または中枢脊髄内の細胞の塊または異常な成長である。 従来の脳腫瘍の診断には、医療史、身体検査、画像検査(CTやMRIなどの画像検査)、生検(腫瘍組織の小さな部分の除去と検査)など、いくつかの検査と手順が含まれる。 これらの手順は効果はあるものの、脳スキャンの手動検査と検査結果の徹底的な評価により、精神的に厳しい時間を要する。 脳腫瘍の診断と早期治療は一般的に予後が良い傾向があるという多くの医学研究で確立されている。 深層学習技術は長年にわたって進化し、医療画像における脳腫瘍の分類における印象的かつ高速な結果を示している。 本研究では、畳み込みニューラルネットワーク(CNN)と極勾配増強(XGBoost)を組み合わせた脳腫瘍の早期検出モデルを提案する。 C-XGBoostという名前のモデルでは、純粋にCNNよりもモデルの複雑さが低く、トレーニングが容易で、過度に適合する傾向が低い。 また、現実世界の医用画像分類タスクでよく見られる問題である、不均衡と非構造化のデータを扱うことができる。 提案モデルの有効性を評価するため,腫瘍の有無にかかわらず脳MRI画像のデータセットを用いた。

Brain tumors are masses or abnormal growths of cells within the brain or the central spinal canal with symptoms such as headaches, seizures, weakness or numbness in the arms or legs, changes in personality or behaviour, nausea, vomiting, vision or hearing problems and dizziness. Conventional diagnosis of brain tumour involves some tests and procedure which may include the consideration of medical history, physical examination, imaging tests (such as CT or MRI scans), and biopsy (removal and examination of a small piece of the tumor tissue). These procedures, while effective, are mentally strenuous and time demanding due to the manual examination of the brain scans and the thorough evaluation of test results. It has been established in lots of medical research that brain tumours diagnosed and treated early generally tends to have a better prognosis. Deep learning techniques have evolved over the years and have demonstrated impressive and faster outcomes in the classification of brain tumours in medical imaging, with very little to no human interference. This study proposes a model for the early detection of brain tumours using a combination of convolutional neural networks (CNNs) and extreme gradient boosting (XGBoost). The proposed model, named C-XGBoost has a lower model complexity compared to purely CNNs, making it easier to train and less prone to overfitting. It is also better able to handle imbalanced and unstructured data, which are common issues in real-world medical image classification tasks. To evaluate the effectiveness of the proposed model, we employed a dataset of brain MRI images with and without tumours.
翻訳日:2023-01-09 23:58:14 公開日:2023-01-05
# web階層を超えて:地理的に多様な画像データセットをクラウドソーシング

Beyond web-scraping: Crowd-sourcing a geographically diverse image dataset ( http://arxiv.org/abs/2301.02560v1 )

ライセンス: Link先を確認
Vikram V. Ramaswamy, Sing Yu Lin, Dora Zhao, Aaron B. Adcock, Laurens van der Maaten, Deepti Ghadiyaram, Olga Russakovsky(参考訳) 現在のデータセット収集メソッドは、通常、webから大量のデータをスクレイピングする。 この手法は非常にスケーラブルであるが、この方法で収集されたデータは、ステレオタイプバイアスを強化し、個人が特定可能な情報を含むことができ、典型的にはヨーロッパと北アメリカに由来する。 本研究は,データセット収集のパラダイムを再考し,クラウドソーシングを通じて収集した,40のクラスと6つの世界領域の61,940の画像からなる地理的に多様なデータセットであるGeoDEを紹介する。 我々はGeoDEを分析し、Webスクラッピングと比較して、このような方法で収集された画像の違いを理解する。 このデータセットのサイズは小さいが、評価データセットとトレーニングデータセットの両方としての使用、現在のモデルの欠点の強調、そしてトレーニングデータセットに少量のジオデ(1リージョンあたり1000~2000画像)を追加してもパフォーマンスが向上することを示す。 完全なデータセットとコードはhttps://geodiverse-data-collection.cs.princeton.edu/でリリースします。

Current dataset collection methods typically scrape large amounts of data from the web. While this technique is extremely scalable, data collected in this way tends to reinforce stereotypical biases, can contain personally identifiable information, and typically originates from Europe and North America. In this work, we rethink the dataset collection paradigm and introduce GeoDE, a geographically diverse dataset with 61,940 images from 40 classes and 6 world regions, and no personally identifiable information, collected through crowd-sourcing. We analyse GeoDE to understand differences in images collected in this manner compared to web-scraping. Despite the smaller size of this dataset, we demonstrate its use as both an evaluation and training dataset, highlight shortcomings in current models, as well as show improved performances when even small amounts of GeoDE (1000 - 2000 images per region) are added to a training dataset. We release the full dataset and code at https://geodiverse-data-collection.cs.princeton.edu/
翻訳日:2023-01-09 23:51:08 公開日:2023-01-05
# 学習軌跡とミニバッチ損失と学習率の興味深い役割

Training trajectories, mini-batch losses and the curious role of the learning rate ( http://arxiv.org/abs/2301.02312v1 )

ライセンス: Link先を確認
Mark Sandler, Andrey Zhmoginov, Max Vladymyrov, Nolan Miller(参考訳) 確率勾配降下は、ディープラーニングのほとんど全ての応用において基本的な役割を果たす。 しかし、その効率性と世界最小に収束する驚くべき能力は謎に包まれている。 大量のデータを持つ大規模ネットワーク上で定義された損失関数は非凸であることが知られている。 しかし,個々のバッチにおける損失関数の挙動についてはほとんど研究されていない。 注目すべきは,sgd軌道に沿って測定した場合の固定ミニバッチの損失を2次関数で正確にモデル化できることである。 特に、十分な学習率を持つ勾配降下の1ステップで、非常に低い損失値に達することができる。 本稿では,確率的ミニバッチの勾配と全バッチの関係と,学習速度が個人と全バッチの関係にどのように影響するかを分析するための,単純なモデルと幾何学的解釈を提案する。 分析により、反復集合と特定の学習率スケジュールの等価性を発見することができる。 特に指数的移動平均(ema)と確率的重み平均化について,imagenet上で観測された訓練軌跡と一致していることを示す。 我々の理論モデルは、数ステップずつ平均するよりも単純な平均化手法がベースラインよりも精度を大幅に向上させると予測している。 我々は、ResNetアーキテクチャを用いて、ImageNetや他のデータセットに関する結果を検証する。

Stochastic gradient descent plays a fundamental role in nearly all applications of deep learning. However its efficiency and remarkable ability to converge to global minimum remains shrouded in mystery. The loss function defined on a large network with large amount of data is known to be non-convex. However, relatively little has been explored about the behavior of loss function on individual batches. Remarkably, we show that for ResNet the loss for any fixed mini-batch when measured along side SGD trajectory appears to be accurately modeled by a quadratic function. In particular, a very low loss value can be reached in just one step of gradient descent with large enough learning rate. We propose a simple model and a geometric interpretation that allows to analyze the relationship between the gradients of stochastic mini-batches and the full batch and how the learning rate affects the relationship between improvement on individual and full batch. Our analysis allows us to discover the equivalency between iterate aggregates and specific learning rate schedules. In particular, for Exponential Moving Average (EMA) and Stochastic Weight Averaging we show that our proposed model matches the observed training trajectories on ImageNet. Our theoretical model predicts that an even simpler averaging technique, averaging just two points a few steps apart, also significantly improves accuracy compared to the baseline. We validated our findings on ImageNet and other datasets using ResNet architecture.
翻訳日:2023-01-09 23:50:34 公開日:2023-01-05
# クラスタ状態におけるリモート量子誤り訂正符号作成プロトコル

A Remote Quantum Error-correcting Code Preparation Protocol on Cluster State ( http://arxiv.org/abs/2301.02246v1 )

ライセンス: Link先を確認
Qiang Zhao, Haokun Mao, Yucheng Qiao, Qiong Li(参考訳) Blind Quantum Computation (BQC)は、クライアントが入力、出力、アルゴリズムをプライベートに保ちながら、リモートの量子サーバを借りて望ましい量子計算を実装するためのデリゲートプロトコルである。 しかし、実際の量子システムでは量子ビット誤差は避けられない。 本稿では,BQCの誤りを訂正するために,クラスタ状態の遠隔量子誤り訂正符号作成プロトコルを提案し,測定ベースの量子計算モデルにおいて,我々のプロトコルの$\epsilon$-blindnessを解析する。 従来のプロトコルとは対照的に、我々のプロトコルはaliceが量子メモリを持ち、エンコーディングのために限定された量子コンピューティングを持つ必要はなく、弱いコヒーレントパルスを送るだけで、aliceの量子依存を減らすことができる。 さらに, 符号化ケースにおいて, 必要パルス数の低い値を与えた。 理論的解析とシミュレーションの結果,我々のプロトコルに必要な量子リソースは,同じ成功率で非符号化の場合よりも少ないことがわかった。 したがって、我々のプロトコルは有限量子資源に非常に当てはまる。

The Blind Quantum Computation (BQC) is a delegated protocol, which allows a client to rent a remote quantum server to implement desired quantum computations, while keeping her inputs, outputs and algorithms private. However, the qubit errors are inevitable in practical quantum system. In this paper, we present a remote quantum error-correcting code preparation protocol on cluster state to correct errors in BQC, and analyze the $\epsilon$-blindness of our protocol in the measurement-based quantum computation model. In contrast to previous protocols, Our protocol does not require Alice to have quantum memory and limited quantum computing for encoding, only needs to send weak coherent pulses, which can reduce Alice's quantum dependence. Furthermore, we gave the lower bound of the number of required pulses in the coding case. The theoretical analysis and simulation results demonstrate that the required quantum resources of our protocol are less than that of the non-coding case at the same success rate. Hence, our protocol is very applicable in the finite quantum resources.
翻訳日:2023-01-09 23:49:19 公開日:2023-01-05
# 視覚言語事前学習のためのフィルタリング, 蒸留, ハードネガティブ

Filtering, Distillation, and Hard Negatives for Vision-Language Pre-Training ( http://arxiv.org/abs/2301.02280v1 )

ライセンス: Link先を確認
Filip Radenovic, Abhimanyu Dubey, Abhishek Kadian, Todor Mihaylov, Simon Vandenhende, Yash Patel, Yi Wen, Vignesh Ramanathan, Dhruv Mahajan(参考訳) 大規模雑音データに対するコントラスト学習を訓練した視覚言語モデルが,ゼロショット認識問題に対してますます人気が高まっている。 本稿では,データセットノイズ,モデル初期化,トレーニング目標という,コントラスト型事前学習パイプラインの3つの側面を改善する。 まず,複雑性,動作,テキストスポッティング(cat)という,ゼロショットビジョン言語タスクにおける性能向上を実現しつつ,データセットサイズを大幅に削減する簡単なフィルタリング戦略を提案する。 次に,従来の作業に勝るものの,トレーニングの複雑さを増さないコントラッシブトレーニングにおいて,強い一助表現を活用するための概念蒸留法を提案する。 最後に,従来のコントラストアライメントの目標を変更し,複雑さを増すことなくハードネガティブスの重要性をアップサンプルする重要サンプリング手法を提案する。 29タスクの広範囲なゼロショットベンチマークでは、DHT(Distilled and Hard- negative Training)アプローチがベースラインと比較して20タスクを改善する。 さらに, ゼロショットとマイショットのギャップを橋渡しし, 先行作業よりも大幅に改善する新しい手法を提案する。 モデルはhttps://github.com/facebookresearch/dihtで入手できる。

Vision-language models trained with contrastive learning on large-scale noisy data are becoming increasingly popular for zero-shot recognition problems. In this paper we improve the following three aspects of the contrastive pre-training pipeline: dataset noise, model initialization and the training objective. First, we propose a straightforward filtering strategy titled Complexity, Action, and Text-spotting (CAT) that significantly reduces dataset size, while achieving improved performance across zero-shot vision-language tasks. Next, we propose an approach titled Concept Distillation to leverage strong unimodal representations for contrastive training that does not increase training complexity while outperforming prior work. Finally, we modify the traditional contrastive alignment objective, and propose an importance-sampling approach to up-sample the importance of hard-negatives without adding additional complexity. On an extensive zero-shot benchmark of 29 tasks, our Distilled and Hard-negative Training (DiHT) approach improves on 20 tasks compared to the baseline. Furthermore, for few-shot linear probing, we propose a novel approach that bridges the gap between zero-shot and few-shot performance, substantially improving over prior work. Models are available at https://github.com/facebookresearch/diht.
翻訳日:2023-01-09 23:43:27 公開日:2023-01-05
# 教育ビデオの視覚的ナレーション検出」とは何か?(動画あり)

What You Say Is What You Show: Visual Narration Detection in Instructional Videos ( http://arxiv.org/abs/2301.02307v1 )

ライセンス: Link先を確認
Kumar Ashutosh, Rohit Girdhar, Lorenzo Torresani, Kristen Grauman(参考訳) ナレーション付き"ハウツー"ビデオは、視覚表現の学習からロボットポリシーのトレーニングに至るまで、幅広い学習問題のための有望なデータソースとして登場した。 しかし、ナレーションはビデオで示される動作を必ずしも記述していないため、このデータは極めて騒がしい。 この問題に対処するために,映像中の行動によってナレーションが視覚的に描写されているかどうかを判定する,視覚的ナレーション検出の新たなタスクを導入する。 本稿では,マルチモーダルな手がかりと擬似ラベルを用いて,弱ラベルデータのみを用いて視覚的なナレーションを検出する手法である"what you say is what you show"(wys^2)を提案する。 我々はさらに,音声入力のみを操作するアプローチを一般化し,ナレーターの声の特徴を学習し,その音声が現在記述していることを示唆する。 本モデルは,実写映像における視覚的なナレーションの検出に成功し,強いベースラインを上回って,授業映像の要約とアライメントにその効果を実証する。

Narrated "how-to" videos have emerged as a promising data source for a wide range of learning problems, from learning visual representations to training robot policies. However, this data is extremely noisy, as the narrations do not always describe the actions demonstrated in the video. To address this problem we introduce the novel task of visual narration detection, which entails determining whether a narration is visually depicted by the actions in the video. We propose "What You Say is What You Show" (WYS^2), a method that leverages multi-modal cues and pseudo-labeling to learn to detect visual narrations with only weakly labeled data. We further generalize our approach to operate on only audio input, learning properties of the narrator's voice that hint if they are currently doing what they describe. Our model successfully detects visual narrations in in-the-wild videos, outperforming strong baselines, and we demonstrate its impact for state-of-the-art summarization and alignment of instructional video.
翻訳日:2023-01-09 23:43:08 公開日:2023-01-05
# 簡易捕捉データを用いた多様な表面上の指先圧力の視覚的推定

Visual Estimation of Fingertip Pressure on Diverse Surfaces using Easily Captured Data ( http://arxiv.org/abs/2301.02310v1 )

ライセンス: Link先を確認
Patrick Grady, Jeremy A. Collins, Chengcheng Tang, Christopher D. Twigg, James Hays, Charles C. Kemp(参考訳) 先行研究では、深層モデルが単一のrgb画像に基づいて、手が表面へ与える圧力を推定できることが示されている。 これらのモデルの訓練には、物理的センサーで取得が難しい高解像度の圧力測定が必要である。 さらに、専門家でさえ画像からの圧力を確実にアノテートすることはできない。 したがって、データ収集は一般化と性能向上の重要な障壁である。 本稿では,RGBカメラと協調参加者のみを用いて,未修正表面からトレーニングデータを効率的に取得する手法を提案する。 私たちの重要な洞察は、特定の指先を使って低力の接触を行うなど、接触圧を示す分類ラベル(接触ラベル)に対応するアクションを実行するように促すことができるということです。 本稿では,指先による圧力を視覚的に推定するContactLabelNetを提案する。 コンタクトラベルを使用することで、ContactLabelNetはパフォーマンスの向上、新しいサーフェスへの一般化、以前の作業によるモデルのパフォーマンス向上を実現している。

Prior research has shown that deep models can estimate the pressure applied by a hand to a surface based on a single RGB image. Training these models requires high-resolution pressure measurements that are difficult to obtain with physical sensors. Additionally, even experts cannot reliably annotate pressure from images. Thus, data collection is a critical barrier to generalization and improved performance. We present a novel approach that enables training data to be efficiently captured from unmodified surfaces with only an RGB camera and a cooperative participant. Our key insight is that people can be prompted to perform actions that correspond with categorical labels (contact labels) describing contact pressure, such as using a specific fingertip to make low-force contact. We present ContactLabelNet, which visually estimates pressure applied by fingertips. With the use of contact labels, ContactLabelNet achieves improved performance, generalizes to novel surfaces, and outperforms models from prior work.
翻訳日:2023-01-09 23:42:49 公開日:2023-01-05
# hiervl: 階層型ビデオ言語埋め込みの学習

HierVL: Learning Hierarchical Video-Language Embeddings ( http://arxiv.org/abs/2301.02311v1 )

ライセンス: Link先を確認
Kumar Ashutosh, Rohit Girdhar, Lorenzo Torresani, Kristen Grauman(参考訳) ビデオ言語埋め込みは、セマンティックスを視覚表現に注入するための有望な方法であるが、既存の手法は、数秒のビデオクリップと付随するテキストの間の短期的関連のみをキャプチャする。 長期・短期の関連を同時に考慮した階層型ビデオ言語埋め込みであるHierVLを提案する。 トレーニングデータとして、人間の行動のタイムスタンプ付きテキスト記述を伴うビデオと、長いビデオを通してのアクティビティの高レベルテキスト要約(Ego4Dで利用可能)を取ります。 本稿では,クリップレベルと映像レベルでのテキスト・ビジュアルアライメントを促進する階層的コントラスト学習目標を提案する。 クリップレベルの制約は、ステップバイステップの説明を使ってその瞬間に起きていることをキャプチャしますが、ビデオレベルの制約は、サマリテキストを使用して、それが起きている理由、すなわち、アクタのアクティビティとインテントに関する広いコンテキストをキャプチャします。 当社の階層構造は,単一レベルの映像表現よりも優れるクリップ表現と,長期ビデオモデリングを必要とするタスクのsoma結果を実現する長期映像表現を実現した。 HierVLは、ゼロショットと微調整の両方で複数の挑戦的な下流タスク(EPIC-KITCHENS-100、Charades-Ego、HowTo100M)への転送に成功した。

Video-language embeddings are a promising avenue for injecting semantics into visual representations, but existing methods capture only short-term associations between seconds-long video clips and their accompanying text. We propose HierVL, a novel hierarchical video-language embedding that simultaneously accounts for both long-term and short-term associations. As training data, we take videos accompanied by timestamped text descriptions of human actions, together with a high-level text summary of the activity throughout the long video (as are available in Ego4D). We introduce a hierarchical contrastive training objective that encourages text-visual alignment at both the clip level and video level. While the clip-level constraints use the step-by-step descriptions to capture what is happening in that instant, the video-level constraints use the summary text to capture why it is happening, i.e., the broader context for the activity and the intent of the actor. Our hierarchical scheme yields a clip representation that outperforms its single-level counterpart as well as a long-term video representation that achieves SotA results on tasks requiring long-term video modeling. HierVL successfully transfers to multiple challenging downstream tasks (in EPIC-KITCHENS-100, Charades-Ego, HowTo100M) in both zero-shot and fine-tuned settings.
翻訳日:2023-01-09 23:42:33 公開日:2023-01-05
# TempSAL -- 潜伏予測のための時間情報

TempSAL -- Uncovering Temporal Information for Deep Saliency Prediction ( http://arxiv.org/abs/2301.02315v1 )

ライセンス: Link先を確認
Bahar Aydemir, Ludo Hoffstetter, Tong Zhang, Mathieu Salzmann, Sabine S\"usstrunk(参考訳) ディープサリエンシ予測アルゴリズムはオブジェクト認識の特徴を補完するが、通常はシーンコンテキスト、セマンティックな関係、視線方向、オブジェクトの異種性などの追加情報に依存する。 しかし、これらのモデルはいずれも、画像観察中の視線シフトの時間的性質を考慮しない。 本研究では,人間の時間的注意パターンを利用して,逐次的時間間隔でサリエンシマップを出力する新たなサリエンシ予測モデルを提案する。 本手法は,学習時空間マップを組み合わせることにより,局所的に塩分予測を変調する。 実験の結果,本手法はsaliconベンチマークにおいて,多デューレーション・サリエンシーモデルを含む最先端モデルよりも優れていた。 私たちのコードはGitHubで公開されます。

Deep saliency prediction algorithms complement the object recognition features, they typically rely on additional information, such as scene context, semantic relationships, gaze direction, and object dissimilarity. However, none of these models consider the temporal nature of gaze shifts during image observation. We introduce a novel saliency prediction model that learns to output saliency maps in sequential time intervals by exploiting human temporal attention patterns. Our approach locally modulates the saliency predictions by combining the learned temporal maps. Our experiments show that our method outperforms the state-of-the-art models, including a multi-duration saliency model, on the SALICON benchmark. Our code will be publicly available on GitHub.
翻訳日:2023-01-09 23:42:10 公開日:2023-01-05
# LostNet: 紛失と発見のためのスマートな方法

LostNet: A smart way for lost and find ( http://arxiv.org/abs/2301.02277v1 )

ライセンス: Link先を確認
Meihua Zhou, Ivan Fung, Li Yang, Nan Wan, Keke Di, Tingting Wang(参考訳) 近年の都市の人口増加により、公共交通機関やレストラン、その他の公共の場ではしばしば物件が失われてはいない。 Find My iPhoneのようなサービスは、紛失した電子機器を容易に識別できるが、より価値のあるオブジェクトをインテリジェントな方法で追跡することはできず、管理者が大量の紛失品をタイムリーに回収することは不可能である。 本稿では, 所有者が提供した失失・回収物の過去の画像と, 登録された失・発見品を受信した際の写真とを比較して, 検索の複雑さを著しく低減する手法を提案する。 本研究では,MobileNetv2の微調整手法とCBAMアテンションを併用して画像マッチングネットワークを設計し,インターネットフレームワークを用いてオンラインの紛失・発見画像識別システムを開発する。 試験精度は665.12m glfopsと3.5mトレーニングパラメータで96.8%であった。 練習用画像を認識し、通常のラップトップで実行することができる。

Due to the enormous population growth of cities in recent years, objects are frequently lost and unclaimed on public transportation, in restaurants, or any other public areas. While services like Find My iPhone can easily identify lost electronic devices, more valuable objects cannot be tracked in an intelligent manner, making it impossible for administrators to reclaim a large number of lost and found items in a timely manner. We present a method that significantly reduces the complexity of searching by comparing previous images of lost and recovered things provided by the owner with photos taken when registered lost and found items are received. In this research, we will primarily design a photo matching network by combining the fine-tuning method of MobileNetv2 with CBAM Attention and using the Internet framework to develop an online lost and found image identification system. Our implementation gets a testing accuracy of 96.8% using only 665.12M GLFOPs and 3.5M training parameters. It can recognize practice images and can be run on a regular laptop.
翻訳日:2023-01-09 23:33:30 公開日:2023-01-05
# 極Q学習:エントロピーのないMaxEnt RL

Extreme Q-Learning: MaxEnt RL without Entropy ( http://arxiv.org/abs/2301.02328v1 )

ライセンス: Link先を確認
Divyansh Garg, Joey Hejna, Matthieu Geist, Stefano Ermon(参考訳) 最新の深層強化学習(rl)アルゴリズムでは最大q値の推定が必要であり、無限個の可能なアクションを持つ連続領域では計算が困難である。 本稿では,極値理論(evt)を用いて最大値を直接モデル化し,経済学からインスピレーションを得たオンラインおよびオフラインrlの新しい更新ルールを提案する。 これにより、しばしば重大なエラーの原因となる分布外動作を用いてQ値の計算を避けることができる。 我々の重要な洞察は、ポリシーからサンプルを採取することなく、最大エントロピーRL設定において最適なソフトバリュー関数(LogSumExp)を直接推定する目的を導入することである。 EVTを使用することで、Extreme Q-Learningフレームワークをオンライン化し、その結果、ポリシーやそのエントロピーに明示的にアクセスする必要のない、オフラインのMaxEnt Q-learningアルゴリズムを初めて提供します。 提案手法はD4RLベンチマークにおいて一貫した性能を得るとともに,オンラインDM制御タスクにおいてSACとTD3を適度に改善した上で,先行処理を10以上のポイントで上回っている。

Modern Deep Reinforcement Learning (RL) algorithms require estimates of the maximal Q-value, which are difficult to compute in continuous domains with an infinite number of possible actions. In this work, we introduce a new update rule for online and offline RL which directly models the maximal value using Extreme Value Theory (EVT), drawing inspiration from Economics. By doing so, we avoid computing Q-values using out-of-distribution actions which is often a substantial source of error. Our key insight is to introduce an objective that directly estimates the optimal soft-value functions (LogSumExp) in the maximum entropy RL setting without needing to sample from a policy. Using EVT, we derive our Extreme Q-Learning framework and consequently online and, for the first time, offline MaxEnt Q-learning algorithms, that do not explicitly require access to a policy or its entropy. Our method obtains consistently strong performance in the D4RL benchmark, outperforming prior works by 10+ points on some tasks while offering moderate improvements over SAC and TD3 on online DM Control tasks.
翻訳日:2023-01-09 23:32:54 公開日:2023-01-05
# 近似シャープネスを受ける再起動:一階法におけるパラメータフリーかつ最適スキーム

Restarts subject to approximate sharpness: A parameter-free and optimal scheme for first-order methods ( http://arxiv.org/abs/2301.02268v1 )

ライセンス: Link先を確認
Ben Adcock, Matthew J. Colbrook, Maksym Neyra-Nesterenko(参考訳) シャープネス(Sharpness)は、目的関数の準最適性によってミニマからの距離を束縛する連続最適化におけるほぼ一般的な仮定である。 再スタートによるファーストオーダーメソッドの高速化につながる。 しかし、シャープネスは通常不明な問題固有の定数を伴い、以前の再起動スキームは収束率を減少させる。 さらに、そのようなスキームはノイズや近似モデルクラス(圧縮イメージングや学習問題など)の存在下では適用が困難であり、一般的には1次法が実現可能なイテレートを生成すると仮定する。 対象関数の誤差に未知の定数摂動を組み込んだシャープネスの一般化である近似シャープネスの仮定を考察する。 この定数は、近似最小子を見つけるためにより強固性(例えば、モデルクラスのノイズや緩和)をもたらす。 未知定数に対する新しいタイプの探索法を用いることで、一般的な一階法に適用し、実現可能なイテレートを生成する一階法を必要としないリスタートスキームを設計する。 我々のスキームは定数の知識を仮定するときと同じ収束率を維持する。 様々な一階法において得られる収束率を最適値に一致させるか、より幅広い問題に対して確立された速度を改善する。 いくつかの例でリスタートスキームを紹介し,今後の応用と枠組みと理論の展開を指摘する。

Sharpness is an almost generic assumption in continuous optimization that bounds the distance from minima by objective function suboptimality. It leads to the acceleration of first-order methods via restarts. However, sharpness involves problem-specific constants that are typically unknown, and previous restart schemes reduce convergence rates. Moreover, such schemes are challenging to apply in the presence of noise or approximate model classes (e.g., in compressive imaging or learning problems), and typically assume that the first-order method used produces feasible iterates. We consider the assumption of approximate sharpness, a generalization of sharpness that incorporates an unknown constant perturbation to the objective function error. This constant offers greater robustness (e.g., with respect to noise or relaxation of model classes) for finding approximate minimizers. By employing a new type of search over the unknown constants, we design a restart scheme that applies to general first-order methods and does not require the first-order method to produce feasible iterates. Our scheme maintains the same convergence rate as when assuming knowledge of the constants. The rates of convergence we obtain for various first-order methods either match the optimal rates or improve on previously established rates for a wide range of problems. We showcase our restart scheme on several examples and point to future applications and developments of our framework and theory.
翻訳日:2023-01-09 23:32:19 公開日:2023-01-05
# 教師なし放送ニュース要約:MMR(Maximal Marginal Relevance)とLSA(Latent Semantic Analysis)の比較研究

Unsupervised Broadcast News Summarization; a comparative study on Maximal Marginal Relevance (MMR) and Latent Semantic Analysis (LSA) ( http://arxiv.org/abs/2301.02284v1 )

ライセンス: Link先を確認
Majid Ramezani and Mohammad-Salar Shahryari and Amir-Reza Feizi-Derakhshi and Mohammad-Reza Feizi-Derakhshi(参考訳) 自動音声要約の方法は教師なしと教師なしの2つのグループに分類される。 監視されたメソッドは一連の機能に基づいており、教師なしメソッドは一連のルールに基づいて要約を行う。 音声の自動要約において,Latent Semantic Analysis (LSA) とMaximal Marginal Relevance (MMR) が最も重要かつよく知られた教師なしの手法と考えられている。 本研究は,ペルシア放送ニュース要約の書き起こしにおける前述の2つの教師なし手法の性能について検討した。 その結果,総括要約ではlsaがmmrを上回り,クエリベースの要約では,放送ニュース要約ではmmrがlsaを上回った。

The methods of automatic speech summarization are classified into two groups: supervised and unsupervised methods. Supervised methods are based on a set of features, while unsupervised methods perform summarization based on a set of rules. Latent Semantic Analysis (LSA) and Maximal Marginal Relevance (MMR) are considered the most important and well-known unsupervised methods in automatic speech summarization. This study set out to investigate the performance of two aforementioned unsupervised methods in transcriptions of Persian broadcast news summarization. The results show that in generic summarization, LSA outperforms MMR, and in query-based summarization, MMR outperforms LSA in broadcast news summarization.
翻訳日:2023-01-09 23:31:58 公開日:2023-01-05
# 半教師付きパラフレーズ生成のための潜時変動モデル

Deep Latent Variable Models for Semi-supervised Paraphrase Generation ( http://arxiv.org/abs/2301.02275v1 )

ライセンス: Link先を確認
Jialin Yu, Alexandra I. Cristea, Anoushka Harit, Zhongtian Sun, Olanrewaju Tahir Aduragba, Lei Shi, Noura Al Moubayed(参考訳) 本稿では,半教師付きパラファーゼ生成のための深い潜在変数モデルについて検討し,対象ペアの欠落を潜在パラファーゼ配列としてモデル化する。 本稿では,観測されたテキストに対して潜在シーケンス推論を行う可変シーケンス自動エンコーディング再構成(vsar)という,新しい教師なしモデルを提案する。 テキストペアからの情報を活用するために、双方向学習(DDL)と呼ばれる教師付きモデルを導入する。 VSARとDDL+VSARを組み合わせることで、半教師付き学習が可能になるが、この組み合わせモデルはコールドスタート問題に悩まされる。 この問題に対処するために,我々は,より優れた重量初期化に対処することを提案し,知識強化訓練という2段階の訓練方式を導いた。 実験結果から,コンプリートデータにおける最先端の教師付きベースラインに対して,コンプリートモデルが競合性能をもたらすことが示唆された。 さらに、ラベル付きペアのごく一部しか利用できないシナリオでは、我々の組み合わせモデルは、強い教師付きモデルベースライン(DDLとTransformer)よりも大幅に優れています。

This paper explores deep latent variable models for semi-supervised paraphrase generation, where the missing target pair is modelled as a latent paraphrase sequence. We present a novel unsupervised model named variational sequence auto-encoding reconstruction (VSAR), which performs latent sequence inference given an observed text. To leverage information from text pairs, we introduce a supervised model named dual directional learning (DDL). Combining VSAR with DDL (DDL+VSAR) enables us to conduct semi-supervised learning; however, the combined model suffers from a cold-start problem. To combat this issue, we propose to deal with better weight initialisation, leading to a two-stage training scheme named knowledge reinforced training. Our empirical evaluations suggest that the combined model yields competitive performance against the state-of-the-art supervised baselines on complete data. Furthermore, in scenarios where only a fraction of the labelled pairs are available, our combined model consistently outperforms the strong supervised model baseline (DDL and Transformer) by a significant margin.
翻訳日:2023-01-09 23:25:02 公開日:2023-01-05
# groma: ディープニューラルネットワークのグローバルロバスト性を測定するツール

gRoMA: a Tool for Measuring Deep Neural Networks Global Robustness ( http://arxiv.org/abs/2301.02288v1 )

ライセンス: Link先を確認
Natan Levy and Raz Yerushalmi and Guy Katz(参考訳) ディープニューラルネットワーク(DNN)は最先端技術であり、多くの重要なタスクにおいて優れたパフォーマンスを発揮する。 しかし、DNNを航空や自動車などの安全上重要なシステムに統合することは、敵の入力のリスクにより困難である。 敵の入力は近代的なDNNにも悩まされていることが示されており、安全クリティカルシステムへのDNNの安全な配備を可能にするために、それらが引き起こすリスクを計測・緩和する必要がある。 本稿では,DNNのグローバルな分類的ロバスト性(すなわち,特定の出力カテゴリに対する逆入力にランダムに遭遇する確率)を統計的に測定するために,gRoMAと呼ばれる新しいスケーラブルなツールを提案する。 我々のツールは、事前訓練されたブラックボックス分類DNNで動作する。 興味のある出力カテゴリに属する入力サンプルをランダムに生成し、これらの入力の周りの逆入力に対するDNNの感受性を測定し、結果を集約して、DNNの全体的ロバスト性を小さな境界誤差まで推測する。 評価のために,我々は,CIFAR10データセット上での広帯域DNNモデルのグローバルロバスト性の測定にgRoMAを用い,その結果,異なる出力カテゴリのロバスト性に有意な差が認められた。 この実験は、新しいアプローチのスケーラビリティを示し、重要なシステム内でdnnをデプロイできるようにする可能性を示している。

Deep neural networks (DNNs) are a state-of-the-art technology, capable of outstanding performance in many key tasks. However, it is challenging to integrate DNNs into safety-critical systems, such as those in the aerospace or automotive domains, due to the risk of adversarial inputs: slightly perturbed inputs that can cause the DNN to make grievous mistakes. Adversarial inputs have been shown to plague even modern DNNs; and so the risks they pose must be measured and mitigated to allow the safe deployment of DNNs in safety-critical systems. Here, we present a novel and scalable tool called gRoMA, which uses a statistical approach for formally measuring the global categorial robustness of a DNN - i.e., the probability of randomly encountering an adversarial input for a specific output category. Our tool operates on pre-trained, black-box classification DNNs. It randomly generates input samples that belong to an output category of interest, measures the DNN's susceptibility to adversarial inputs around these inputs, and then aggregates the results to infer the overall global robustness of the DNN up to some small bounded error. For evaluation purposes, we used gRoMA to measure the global robustness of the widespread Densenet DNN model over the CIFAR10 dataset and our results exposed significant gaps in the robustness of the different output categories. This experiment demonstrates the scalability of the new approach and showcases its potential for allowing DNNs to be deployed within critical systems of interest.
翻訳日:2023-01-09 23:24:00 公開日:2023-01-05
# 逐次制御されたテキスト生成

Sequentially Controlled Text Generation ( http://arxiv.org/abs/2301.02299v1 )

ライセンス: Link先を確認
Alexander Spangher, Xinyu Hua, Yao Ming, Nanyun Peng(参考訳) GPT-2は、驚くほど人間らしい文を生成するが、長い文書は混乱し、人間のような文章構造に従わない。 長距離テキストにおける構造決定の問題について検討する。 本稿では,新しい制御されたテキスト生成タスクと逐次制御されたテキスト生成を提案し,このタスクの出発点としてデータセットであるNewsDiscourseを同定する。 生成と編集が可能な逐次制御型テキスト生成パイプラインを開発した。 我々は、構造的認識の度合いを試験し、一般に、より構造的意識がより高い制御精度、文法性、一貫性、話題性をもたらすことを示す。

While GPT-2 generates sentences that are remarkably human-like, longer documents can ramble and do not follow human-like writing structure. We study the problem of imposing structure on long-range text. We propose a novel controlled text generation task, sequentially controlled text generation, and identify a dataset, NewsDiscourse as a starting point for this task. We develop a sequential controlled text generation pipeline with generation and editing. We test different degrees of structural awareness and show that, in general, more structural awareness results in higher control-accuracy, grammaticality, coherency and topicality, approaching human-level writing performance.
翻訳日:2023-01-09 23:16:04 公開日:2023-01-05
# DANLIP: 局所的に解釈可能な確率予測のためのディープオートレグレッシブネットワーク

DANLIP: Deep Autoregressive Networks for Locally Interpretable Probabilistic Forecasting ( http://arxiv.org/abs/2301.02332v1 )

ライセンス: Link先を確認
Ozan Ozyegen and Juyoung Wang and Mucahit Cevik(参考訳) ニューラルネットワークに基づく時系列予測手法の性能は高いが、その予測を説明する上での本来の課題は、特定の応用領域での適用性に制限があった。 このようなブラックボックス方式の入力と出力の因果関係を特定するのが困難であるため、結果の信頼性と解釈性が不可欠である法律や医学といった領域で採用されることは稀である。 本稿では,本質的に解釈可能な,新しい深層学習に基づく確率的時系列予測アーキテクチャである \modelを提案する。 複数のデータセットと性能指標を用いて実験を行い、我々のモデルは解釈可能であるだけでなく、最先端の確率的時系列予測手法に匹敵する性能を提供することを示した。 さらに,興味のある確率過程のパラメータを解釈することで,いくつかの応用分野に対する有用な洞察が得られることを示す。

Despite the high performance of neural network-based time series forecasting methods, the inherent challenge in explaining their predictions has limited their applicability in certain application areas. Due to the difficulty in identifying causal relationships between the input and output of such black-box methods, they rarely have been adopted in domains such as legal and medical fields in which the reliability and interpretability of the results can be essential. In this paper, we propose \model, a novel deep learning-based probabilistic time series forecasting architecture that is intrinsically interpretable. We conduct experiments with multiple datasets and performance metrics and empirically show that our model is not only interpretable but also provides comparable performance to state-of-the-art probabilistic time series forecasting methods. Furthermore, we demonstrate that interpreting the parameters of the stochastic processes of interest can provide useful insights into several application areas.
翻訳日:2023-01-09 23:15:54 公開日:2023-01-05
# Silent Killer: バックドアのトリガーを最適化して盗品を盗む

Silent Killer: Optimizing Backdoor Trigger Yields a Stealthy and Powerful Data Poisoning Attack ( http://arxiv.org/abs/2301.02615v1 )

ライセンス: Link先を確認
Tzvi Lederer, Gallil Maimon and Lior Rokach(参考訳) データ中毒(DP)に基づくニューラルネットワークに対するステルスで強力なバックドア攻撃を提案する。 以前の攻撃とは対照的に、我々の方法では毒とトリガーの両方がステルスです。 我々は、モデルのサンプルの分類を、ソースクラスから攻撃者が選択したターゲットクラスに変更することができる。 私たちは、ラベルを変更することなく、ほとんど知覚不能な摂動を伴う少数の有毒なトレーニングサンプルを使用することで、そうします。 推測時には、攻撃されたサンプルにステルスな摂動をトリガーとして使用する。 この摂動は普遍的対向摂動(UAP)として作られ、この引き金と結合した勾配アライメントを用いて毒を生産する。 提案手法は, 従来手法に比べて工法時間が非常に効率的であり, 追加再訓練を行わず, 訓練された代理モデルのみを必要とする。 本攻撃は,クリーンサンプルの精度を維持しつつ,攻撃成功率の観点から最先端の成果を得る。

We propose a stealthy and powerful backdoor attack on neural networks based on data poisoning (DP). In contrast to previous attacks, both the poison and the trigger in our method are stealthy. We are able to change the model's classification of samples from a source class to a target class chosen by the attacker. We do so by using a small number of poisoned training samples with nearly imperceptible perturbations, without changing their labels. At inference time, we use a stealthy perturbation added to the attacked samples as a trigger. This perturbation is crafted as a universal adversarial perturbation (UAP), and the poison is crafted using gradient alignment coupled to this trigger. Our method is highly efficient in crafting time compared to previous methods and requires only a trained surrogate model without additional retraining. Our attack achieves state-of-the-art results in terms of attack success rate while maintaining high accuracy on clean samples.
翻訳日:2023-01-09 23:15:39 公開日:2023-01-05
# jaynes-cummingsモデルにおける圧縮コヒーレント熱状態の原子反転と絡み合いダイナミクス

Atomic Inversion and Entanglement Dynamics for Squeezed Coherent Thermal States in the Jaynes-Cummings Model ( http://arxiv.org/abs/2212.05042v2 )

ライセンス: Link先を確認
Koushik Mandal and M. V. Satyanarayana(参考訳) 熱光子と硬化光子との対向相互作用について考察した。 古典的ノイズ」は熱光子で表され、「量子ノイズ」は圧縮された光子で表され、コヒーレント場(コヒーレント光子で表される)の背景に互いにピットされる。 この目的のために、圧縮コヒーレント熱状態に対応する光子計数分布(PCD)を用いる。 熱光子と硬化光子の添加は, それぞれPCDの非局在化と局在化による反バランス効果が認められた。 原子反転やjaynes-cummingsモデルにおける絡み合いダイナミクスなど、原子-場相互作用の様々な側面が研究されている。 特に、熱的および圧縮された光子のコヒーレント状態への付加による原子反転と絡み合いダイナミクスの研究に注意が払われている。 熱光子と硬化光子の相互作用は、原子-磁場相互作用のPCD、原子インバージョン、エンタングルメントダイナミクスに劇的な影響を及ぼす。

The tussling interplay between the thermal photons and the squeezed photons is discussed. The `classical noise' is represented by the thermal photons and the `quantum noise' is represented by the squeezed photons, which are pitted against each other in the background of a coherent field (represented by the coherent photons). The photon counting distribution (PCD) corresponding to the squeezed coherent thermal states are employed for this purpose. It is observed that the addition of thermal photons and squeezed photons have counterbalancing effects, by delocalizing and localizing the PCD, respectively. Various aspects of the atom-field interaction, like the atomic inversion, entanglement dynamics in the Jaynes-Cummings model have been investigated. Particular attention is given to the study of atomic inversion and entanglement dynamics due to the addition of thermal and squeezed photons to the coherent state. The interplay of thermal photons and squeezed photons have drastic effects on the PCD, atomic inversion and entanglement dynamics of the atom-field interaction.
翻訳日:2023-01-09 17:30:28 公開日:2023-01-05
# 時間的平坦な測定に基づく量子計算における量子優位性

Quantum advantage in temporally flat measurement-based quantum computation ( http://arxiv.org/abs/2212.03668v2 )

ライセンス: Link先を確認
Michael de Oliveira, Lu\'is S. Barbosa, Ernesto F. Galv\~ao(参考訳) いくつかの量子回路のクラスは、ある仮定の下で量子計算の利点をもたらすことが示されている。 量子優位性を持つ量子回路のより制限されたクラスの研究は、実験的なデモンストレーションで可能な単純化によって動機づけられる。 本稿では,測定の時間順序が完全に平坦な,計測に基づく量子計算の効率について検討する。 任意のブール関数を決定論的に計算するための新しい構成法を提案し,マルチキュービットグリーンバーガー,ホーン,ツァイリンガー(ghz)状態に存在する相関について考察する。 我々はクリフォード階層を用いて必要な測定複雑性を特徴づけ、また、概して以前の構成に関して必要となるキュービットの数を減少させる。 特に,非適応型mbqcを用いた決定論的評価が可能となるブール関数の族を同定し,古典回路に対するゲート数の量子長所とゲート数を特徴付ける。

Several classes of quantum circuits have been shown to provide a quantum computational advantage under certain assumptions. The study of ever more restricted classes of quantum circuits capable of quantum advantage is motivated by possible simplifications in experimental demonstrations. In this paper we study the efficiency of measurement-based quantum computation with a completely flat temporal ordering of measurements. We propose new constructions for the deterministic computation of arbitrary Boolean functions, drawing on correlations present in multi-qubit Greenberger, Horne, and Zeilinger (GHZ) states. We characterize the necessary measurement complexity using the Clifford hierarchy, and also generally decrease the number of qubits needed with respect to previous constructions. In particular, we identify a family of Boolean functions for which deterministic evaluation using non-adaptive MBQC is possible, featuring quantum advantage in width and number of gates with respect to classical circuits.
翻訳日:2023-01-09 16:55:55 公開日:2023-01-05
# NFNet:大規模量子システムの効率的なシミュレーションのための非干渉フェルミオンネットワーク

NFNet: Non-interacting Fermion Network for Efficient Simulation of Large-scale Quantum Systems ( http://arxiv.org/abs/2212.05779v2 )

ライセンス: Link先を確認
Pengyuan Zhai, Susanne Yelin(参考訳) 我々は,大規模かつ連続的に制御された量子系の多項式時間シミュレーションのためのPyTorchベースのフレームワークであるNFNetについて述べる。 これは、ヴァリアントのマッチゲートとターハルとディヴィンチェンツォが導入した1次元の非相互作用フェルミオンの物理的類似を関連付ける非相互作用フェルミオン形式主義に基づいている。 Given an input bit string $\boldsymbol{x}$, NFNet computes the probability $p(\boldsymbol{y}|\boldsymbol{x})=\langle x|U_{\theta}^\dagger \Pi_y U_\theta |x\rangle$ of observing the bit string $\boldsymbol{y}$, which can be a sub or full-system measurement on the evolved quantum state $U_{\mathbf{\theta}}|x\rangle$, where $\mathbf{\theta}$ is the set of continuous rotation parameters, and the unitary $U_{\mathbf{\theta}}$'s underlying Hamiltonians are not restricted to nearest-neighbor interactions. まず、ファイトゲートからフェルミオン写像への数学的定式化を、追加の行列分解導出とともに検討し、テルハルとディヴィンチェンツォに文書化されたペアワイズ回路ゲートの上に、ハミルトニアンが任意の2フェルミオン-モード相互作用の和である進化をシミュレートできることを示した。 次に、NFNetの設計思想とそのソフトウェア構造を文書化し、512以上の量子ビットを含む様々な量子システムシミュレーション、ベンチマーク、量子学習タスクでその使用法を実証する。 NFNetは効率的な大規模量子シミュレータであり、量子にインスパイアされた古典的コンピューティングネットワーク構造であるため、リカレントニューラルネットワークへの接続、離散生成学習、離散正規化フローなど、多くのエキサイティングなトピックを探求する価値がある。 NFNetのソースコードはhttps://github.com/BILLYZZ/NFNetで見ることができる。

We present NFNet, a PyTorch-based framework for polynomial-time simulation of large-scale, continuously controlled quantum systems, supporting parallel matrix computation and auto-differentiation of network parameters. It is based on the non-interacting Fermionic formalism that relates the Matchgates by Valiant to a physical analogy of non-interacting Fermions in one dimension as introduced by Terhal and DiVincenzo. Given an input bit string $\boldsymbol{x}$, NFNet computes the probability $p(\boldsymbol{y}|\boldsymbol{x})=\langle x|U_{\theta}^\dagger \Pi_y U_\theta |x\rangle$ of observing the bit string $\boldsymbol{y}$, which can be a sub or full-system measurement on the evolved quantum state $U_{\mathbf{\theta}}|x\rangle$, where $\mathbf{\theta}$ is the set of continuous rotation parameters, and the unitary $U_{\mathbf{\theta}}$'s underlying Hamiltonians are not restricted to nearest-neighbor interactions. We first review the mathematical formulation of the Matchgate to Fermionic mapping with additional matrix decomposition derivations, and then show that on top of the pair-wise circuit gates documented in Terhal and DiVincenzo, the Fermionic formalism can also simulate evolutions whose Hamiltonians are sums of arbitrary two-Fermion-mode interactions. We then document the design philosophy of NFNet, its software structure, and demonstrate its usage in various quantum system simulation, benchmarking, and quantum learning tasks involving 512+ qubits. As NFNet is both an efficient large-scale quantum simulator, and a quantum-inspired classical computing network structure, many more exciting topics are worth exploring, such as its connection to recurrent neural networks, discrete generative learning and discrete normalizing flow. NFNet source code can be found at https://github.com/BILLYZZ/NFNet.
翻訳日:2023-01-09 13:55:33 公開日:2023-01-05
# 多分野の視点からの量子コンピューティング利用事例の理解と今後の研究方向性

Framework for understanding quantum computing use cases from a multidisciplinary perspective and future research directions ( http://arxiv.org/abs/2212.13909v2 )

ライセンス: Link先を確認
Dandison Ukpabi, Heikki Karjaluoto, Astrid B\"otticher, Anastasija Nikiforova, Drago\c{s} Petrescu, Paulina Schindler, Visvaldis Valtenbergs, Lennard Lehmann, Abuzer Yakaryilmaz(参考訳) 近年,量子コンピューティング(QC)に固有の膨大な機会に対する意識が高まっている。 具体的には、QCのスピードと効率はモノのインターネット、暗号、金融、マーケティングに大きな影響を与える。 そのため、国内・地方自治体や民間企業からのQC研究資金が増加している。 しかし、法律、政治、ビジネス関連の政策に関する重要な懸念がqc導入に向け存在する。 これは新興かつ高度に技術的な領域であるため、既存の研究のほとんどはqcの技術的側面に重点を置いているが、本研究は政府の関心を高めるために必要な実用的・社会的ユースケースに注目している。 そこで本研究では,QCの理解を簡略化し,市場混乱の可能性のある領域を特定し,予測,計画,戦略的な拡散促進のためのQCの配置に不可欠な,経験に基づいたレコメンデーションを提供する,幅広い分野の学者の専門知識に基づいて,QCの多分野にわたるレビューを行う。

Recently, there has been increasing awareness of the tremendous opportunities inherent in quantum computing (QC). Specifically, the speed and efficiency of QC will significantly impact the Internet of Things, cryptography, finance, and marketing. Accordingly, there has been increased QC research funding from national and regional governments and private firms. However, critical concerns regarding legal, political, and business-related policies germane to QC adoption exist. Since this is an emerging and highly technical domain, most of the existing studies focus heavily on the technical aspects of QC, but our study highlights its practical and social uses cases, which are needed for the increased interest of governments. Thus, this study offers a multidisciplinary review of QC, drawing on the expertise of scholars from a wide range of disciplines whose insights coalesce into a framework that simplifies the understanding of QC, identifies possible areas of market disruption and offer empirically based recommendations that are critical for forecasting, planning, and strategically positioning QCs for accelerated diffusion.
翻訳日:2023-01-09 13:38:51 公開日:2023-01-05
# 量子思考への転換を促進する--知識の再編成・組織化・認識論的課題に取り組む中等教育コースの開発

Promoting the transition to quantum thinking: development of a secondary school course for addressing knowledge revision, organization, and epistemological challenges ( http://arxiv.org/abs/2301.00239v3 )

ライセンス: Link先を確認
Giacomo Zuccarini and Marisa Michelini(参考訳) 本稿では, 古典的知識の改訂, 十分に体系化された知識構造の構築, 量子世界の信頼性と信頼性の確保といった課題に対処するために設計された中等教育のための量子力学コースの開発について述べる。 このコースは、連続する理論の学習における概念変化の分析、理論物理学者の認識論的実践を記述する枠組み、そして解釈的テーマへの慎重なアプローチの協調的応用に基づいている。 設計原則の導出、これらの原則が指導シーケンスの開発とその戦略をどのように導くか、それらの実装が異なる研究視点と学習システムのブレンドを必要とするかを示す。 最初の課題は、各概念の軌跡に応じて学生資源を利用する古典的概念と構成の見直しの経路を通して解決される。 2つ目は、コンテキストをまたいだ量子計測の統一図の構築を促進するフレームワークの採用である。 3つ目は、学生が理論物理学者のエピステミックな実践、例えば思考実験の生成や実行、純粋に理論的な環境での数学的モデリングなどに関わるモデリングプロセスに関するコースを設計することである。 すべては、学生が自分の探究のもっともらしい産物として世界の量子的記述を受け入れるのを助けることを目的としている。 このプロセスは、我々の解釈的選択のそれぞれによって引き起こされる基礎的な議論の面の議論によって支援される。 改良のサイクルに関するデータは、それらを実装するために設計された原則と活動の一貫性と、その活動の改訂が初期ガイドラインの形成に寄与する過程を説明するために使用される。

We describe the development of a course of quantum mechanics for secondary school designed to address the challenges related to the revision of classical knowledge, to the building of a well-organized knowledge structure on the discipline, and to the development of a plausible and reliable picture of the quantum world. The course is based on a coordinated application of an analysis of conceptual change in the learning of a successive theory, of a framework describing the epistemic practices of theoretical physicists, and of a careful approach to interpretive themes. We show how they drive the derivation of the design principles, how these principles guide the development of the instructional sequence and of its strategies, how their implementation requires the blending of different research perspectives and learning systems. The first challenge is addressed through a path of revision of classical concepts and constructs which leverages student resources according to the trajectory of each notion. The second by adopting a framework that promotes the construction of a unifying picture of quantum measurement across contexts. The third by designing the course around a modeling process that engages students in epistemic practices of the theoretical physicist, such as generating and/or running thought experiments, and mathematical modelling in a purely theoretical setting. All is aimed to help students accept the quantum description of the world as a plausible product of their own inquiry. This process is assisted by the discussion of the facets of the foundational debate that are triggered by each of our interpretive choices. Data on the cycles of refinement are used to illustrate the coherence between the principles and the activities designed to implement them, as well as the process by which the revision of the activities contributed to shape the initial guidelines.
翻訳日:2023-01-09 01:21:54 公開日:2023-01-05
# 地域保全法に従うリンドブラディアンの探索と熱化

Searching for Lindbladians obeying local conservation laws and showing thermalization ( http://arxiv.org/abs/2301.02146v1 )

ライセンス: Link先を確認
Devashish Tupkary, Abhishek Dhar, Manas Kulkarni and Archak Purkayastha(参考訳) 熱浴に弱結合した有限次元系を連続的に記述するマルコフ量子マスター方程式(QME)の可能性を検討する。 完全なポジティビティとトレースを保存するためには、そのようなqmeはリンドブラッド形式でなければならない。 物理的一貫性のため、局所保存法を保存し、熱化を示すことができる。 まず、顕微鏡的に導出されたレッドフィールド方程式(RE)が極端に特殊な場合を除いて完全な正の値に反することを示す。 次に、完全正当性と局所保存法保存の要求がリンドブラッド作用素とラムシフトハミルトニアンに「局所的」を強制すること、すなわち、浴場に直接結合されたシステムの一部にのみ支持されることを証明した。 そこで我々は,半定値プログラム(SDP)に熱化を示す「局所的」リンドブラッドQMEを求める問題を提起した。 これを熱化最適化問題(TOP)と呼ぶ。 系のパラメータと温度について、TOPの解は、所望のQMEの種類が与えられた精度で可能であるかどうかを決定的に示す。 可能であれば、そのようなQMEのフォームも出力する。 数量子ビットの XXZ 鎖に対して、適度に高い精度で固定すると、第1量子ビットのみが浴槽に結合された場合、かなり広いパラメータ状態ではそのような QME は不可能である。 注目すべきは、浴槽に最初の2つのキュービットが取り付けられると、このようなQMEが、幅広い温度を含む同じパラマター系の多くで可能になることである。

We investigate the possibility of a Markovian quantum master equation (QME) that consistently describes a finite-dimensional system, a part of which is weakly coupled to a thermal bath. In order to preserve complete positivity and trace, such a QME must be of Lindblad form. For physical consistency, it should additionally preserve local conservation laws and be able to show thermalization. First, we show that the microscopically derived Redfield equation (RE) violates complete positivity unless in extremely special cases. We then prove that imposing complete positivity and demanding preservation of local conservation laws enforces the Lindblad operators and the lamb-shift Hamiltonian to be `local', i.e, to be supported only on the part of the system directly coupled to the bath. We then cast the problem of finding `local' Lindblad QME which can show thermalization into a semidefinite program (SDP). We call this the thermalization optimization problem (TOP). For given system parameters and temperature, the solution of the TOP conclusively shows whether the desired type of QME is possible up to a given precision. Whenever possible, it also outputs a form for such a QME. For a XXZ chain of few qubits, fixing a reasonably high precision, we find that such a QME is impossible over a considerably wide parameter regime when only the first qubit is coupled to the bath. Remarkably, we find that when the first two qubits are attached to the bath, such a QME becomes possible over much of the same paramater regime, including a wide range of temperatures.
翻訳日:2023-01-08 22:32:45 公開日:2023-01-05
# 非理想的空洞における有効消散光物質結合

Effective dissipative light-matter coupling in nonideal cavities ( http://arxiv.org/abs/2301.02221v1 )

ライセンス: Link先を確認
Olivier Bleu, Kenneth Choo, Jesper Levinsen and Meera M. Parish(参考訳) 我々は,エミッタとキャビティ光子が共通のフォトニック環境と相互作用する可能性を考慮して,非イデアルキャビティに埋め込まれたエミッタのシナリオを考察する。 オープンシステムを記述するために入出力方式を用いることで、この状況がエミッタとキャビティの間に効果的な散逸結合をもたらすことを示す。 基礎となるメカニズムはエミッタの性質とは独立であり、ゼロ温度でも存在します。 実効的な散逸結合は、閉光物質結合系では起こらない物理的効果をもたらす可能性があることを示す。 特に、放射減衰速度が従来のrabiカップリングを超えると、エミッタとキャビティモードの間のレベルアトラクション現象が発生する。 そこで本モデルでは,半導体マイクロキャビティにおける近年の発光測定で観測されたレベルアトラクションについて解説する。 最後に、このモデルでは、連続体におけるハイブリッド光機械の例外点と境界状態が実現可能であることを示す。

We consider the scenario of an emitter embedded in a nonideal cavity, accounting for the possibility that the emitter and cavity photons interact with a common photonic environment. Using an input-output approach to describe the open system, we demonstrate that this situation gives rise to an effective dissipative coupling between the emitter and the cavity. The underlying mechanism is independent of the nature of the emitter and exists even at zero temperature; hence our results are potentially relevant for a variety of experimental platforms. We show that the effective dissipative coupling can lead to physical effects that do not occur in closed light-matter coupled systems. In particular, when the radiative decay rates exceed the conventional Rabi coupling, we can have the phenomenon of level attraction between the emitter and cavity mode. Our model thus provides a possible explanation for the level attraction observed in recent photoluminescence measurements in semiconductor microcavities. Finally, we demonstrate that hybrid light-matter exceptional points and bound states in the continuum can be realized within this model.
翻訳日:2023-01-08 22:32:16 公開日:2023-01-05
# 偏光三成分フェルミガスの異常崩壊の観測

Observation of Anomalous Decay of a Polarized Three-Component Fermi Gas ( http://arxiv.org/abs/2301.02237v1 )

ライセンス: Link先を確認
Grant L. Schumacher, Jere T. M\"akinen, Yunpeng Ji, Gabriel G. T. Assump\c{c}\~ao, Jianyi Chen, Songtao Huang, Franklin J. Vivanco, Nir Navon(参考訳) 量子色力学におけるクォークや核物質の核子のような複数の内部状態を持つフェルミオンの系は、最も複雑な量子多体問題の中心にある。 このような多体多成分系の安定性は、例えばバリオンの形成や核の構造を理解するのに不可欠であるが、これらのフェルミオン問題は理論上は難しい。 したがって、類似の問題を研究するための多目的な実験プラットフォームを求める。 ここでは3成分フェルミオンの均一ガスの生成について報告する。 相互作用強度の幅にまたがるこのシステムの崩壊を特徴付け, 2体と3体の損失過程の非自明な競合を観察する。 我々は、各成分の損失率が予期しないほど異なる偏極(スピン人口不均衡)気体の異常な崩壊を観測する。 減衰ダイナミクスを捉えた一般化された3体速度方程式を導入するが、その基礎となる微視的メカニズムは不明である。

Systems of fermions with multiple internal states, such as quarks in quantum chromodynamics and nucleons in nuclear matter, are at the heart of some of the most complex quantum many-body problems. The stability of such many-body multi-component systems is crucial to understanding, for instance, baryon formation and the structure of nuclei, but these fermionic problems are typically very challenging to tackle theoretically. Versatile experimental platforms on which to study analogous problems are thus sought after. Here, we report the creation of a uniform gas of three-component fermions. We characterize the decay of this system across a range of interaction strengths and observe nontrivial competition between two- and three-body loss processes. We observe anomalous decay of the polarized (i.e. spin-population imbalanced) gas, in which the loss rates of each component unexpectedly differ. We introduce a generalized three-body rate equation which captures the decay dynamics, but the underlying microscopic mechanism is unknown.
翻訳日:2023-01-08 22:31:59 公開日:2023-01-05
# ドープ分子結晶を用いた可視・マイクロ波帯における同時コヒーレント放射

Towards simultaneous coherent radiation in the visible and microwave bands with doped molecular crystals ( http://arxiv.org/abs/2301.01927v1 )

ライセンス: Link先を確認
Hao Wu, Tong Li, Zhang-Qi Yin, Jiyang Ma, Xu-Ri Yao, Bo Zhang, Mark Oxborrow and Qing Zhao(参考訳) 非平衡量子システムの刺激的放出、すなわちゲインメディアを利用するコヒーレント源は、基礎研究と工学の進歩に不可欠であることが証明されている。 このようなコヒーレントソースの動作電磁帯は、需要増加のために継続的に濃縮されているが、単一のベンチトップコヒーレントソースでは、複数のバンドの同時放射線の発生、特にバンドが広く分離されている場合、単一のゲイン媒体による厳しい課題が提示されている。 本稿では,p-テルフェニルをドープしたペンタセン分子の光励起一重項および三重項状態を利用して,可視およびマイクロ波帯における放射の促進放出,すなわち発散およびメーシング作用を同時に実現する機構を提案する。 この可能性は、観測された増幅自発放出(ASE)が645nmで、1.45GHzのメイシングに用いられるペンタセンドープp-テルフェニル結晶から1nm前後の狭い直線幅で、報告されたメーシングしきい値と比較してASEの20倍低いしきい値で濃縮されることによって検証される。 ペンタセン系多バンドコヒーレント源の全体閾値は、ポンプ光偏光とペンタセンの遷移双極子モーメントの適切なアライメントによって最適化できる。 我々の研究は、マルチバンドコヒーレントソースの即時実現に関する大きな約束を示すだけでなく、複数の周波数領域における量子光学の基礎研究のための興味深い固体プラットフォームも確立している。

Coherent sources exploiting the stimulated emission of non-equilibrium quantum systems, i.e. gain media, have proven indispensable for advancing fundamental research and engineering. The operating electromagnetic bands of such coherent sources have been continuously enriched for increasing demands.Nevertheless, for a single bench top coherent source, simultaneous generation of radiation in multiple bands, especially when the bands are widely separated, present formidable challenges with a single gain medium. Here, we propose a mechanism of simultaneously realizing the stimulated emission of radiation in the visible and microwave bands, i.e. lasing and masing actions, at ambient conditions by utilizing photoexcited singlet and triplet states of the pentacene molecules that are doped in p-terphenyl. The possibility is validated by the observed amplified spontaneous emission (ASE) at 645 nm with a narrow linewidth around 1 nm from the pentacene-doped p-terphenyl crystal used for masing at 1.45 GHz and consolidated by a 20 fold lower threshold of ASE compared to the reported masing threshold. The overall threshold of the pentacene-based multiband coherent source can be optimized by appropriate alignment of the pump-light polarization with the pentacene's transition dipole moment. Our work not only shows a great promise on immediate realization of multiband coherent sources but also establishes an intriguing solid-state platform for fundamental research of quantum optics in multiple frequency domains.
翻訳日:2023-01-08 22:19:31 公開日:2023-01-05
# フォールトトレラントブラインド量子計算における量子誤り訂正符号の適用

Applying the Quantum Error-correcting Codes for Fault-tolerant Blind Quantum Computation ( http://arxiv.org/abs/2301.01960v1 )

ライセンス: Link先を確認
Qiang Zhao, Qiong Li, John C.S. Lui(参考訳) Blind Quantum Computation(BQC)は、クライアントが入力、出力、アルゴリズムのプライバシを維持しながら、リモートの量子サーバを借りて望ましい量子計算を実装するための委譲プロトコルである。 しかし、量子計算における量子ビット誤差は、考慮すべき現実的な問題である。 本稿では,量子誤り訂正符号を用いたフォールトトレラントブラインド量子計算プロトコルを提案する。 一方、プロトコルでは$\epsilon$-blindnessも提示しています。 誤り訂正性能を向上させるため,本プロトコルでは連結符号を用いる。 さらに、最適レベル連結符号による光子パルスの資源消費について述べる。 シミュレーションの結果,本手法は準備効率の向上だけでなく,量子資源の削減も可能であり,現実的な耐故障性BQCの大幅な改善が示されている。

The Blind Quantum Computation (BQC) is a delegated protocol, which allows a client to rent a remote quantum server to implement desired quantum computations, while keeping her inputs, outputs and algorithms privacy. However, the qubit errors during the quantum computation are realistic issues that are needed to consider. In this paper, we propose a fault-tolerant blind quantum computation protocol with quantum error-correcting codes to avoid the accumulation and propagation of qubit errors during the computing. Meanwhile, we also present the $\epsilon$-blindness in our protocol. To improve the error correction performance, the concatenated codes are used in our protocol. We further present the resources consumption of photon pulses by the optimal level concatenation codes. The simulation results show that our scheme not only can improve the preparation efficiency but also reduce quantum resources, which shows a significant improvement to a realistic fault-tolerant BQC.
翻訳日:2023-01-08 22:19:03 公開日:2023-01-05
# 一次元におけるスピンおよび電荷ダイナミクスからの正準相関の創発

Emergence of anyonic correlations from spin and charge dynamics in one dimension ( http://arxiv.org/abs/2301.02164v1 )

ライセンス: Link先を確認
Oleksandr Gamayun, Eoin Quinn, Kemal Bidzhiev, Mikhail B. Zvonarev(参考訳) 一次元格子系におけるスピンおよび電荷自由度変換を提案し、二重占有部位を持たないことを制約し、系の動的相関に直接アクセスできるようにする。 この変換はスピンレス粒子とスピン-1/2$鎖の状態空間に作用する非局所作用素の形で粒子の生成と消滅演算子をもたらす。 これにより、スピン鎖と共役する不透過性エノンの畳み込みとして、動的相関関数の分解が可能となる。 さらなる分析は、畳み込みの各部分に適した方法で行うことができ、アプローチの影響と柔軟性を大幅に増大させることができる。

We propose a transformation for spin and charge degrees of freedom in one-dimensional lattice systems, constrained to have no doubly occupied sites, that allows direct access to the dynamical correlations of the system. The transformation delivers particle creation and annihilation operators in a form of a spinless particle and a non-local operator acting on the space of states of a spin-$1/2$ chain. This permits a decomposition of dynamical correlation functions as a convolution of those for impenetrable anyons together with those of a spin chain. Further analysis can be done by methods tailored for each part of the convolution, greatly increasing the impact and flexibility of the approach.
翻訳日:2023-01-08 22:18:48 公開日:2023-01-05
# 量子デバイス上のハバード・ホルシュタイン模型の動的平均場理論

Dynamical mean-field theory for the Hubbard-Holstein model on a quantum device ( http://arxiv.org/abs/2301.01860v1 )

ライセンス: Link先を確認
Steffen Backes, Yuta Murakami, Shiro Sakai, Ryotaro Arita(参考訳) 量子ハードウェアや量子アルゴリズムの最近の進歩により、量子化学や凝縮体物理学の問題を解決するために、現在のノイズの多い中間スケール量子デバイスの能力を利用できるようになった。 本稿では,IBM 27-qubit Quantum Falcon Processor Kawasaki上でのHubbard-Holsteinモデルに対する動的平均場理論(DMFT)の不純物問題の解法について述べる。 これにより、周波数依存相互作用を伴うボソニック自由度と不純物問題に結合した強相関電子系を研究できる可能性が開ける。 この問題は、量子デバイス上でエンコードされるフェルミオンとボゾンの自由度の両方に関係し、最近提案されたKrylov変分量子アルゴリズムを用いて不純物グリーンの関数を求める。 得られたスペクトル関数は正確な結果とよく一致し、相関衛星とプラズモニック衛星の両方を示し、標準トロッター展開手法の精度を大幅に上回っている。 本研究は、将来の量子コンピュータにおける電子相関やプラズモニック励起を現代のab initio技術で研究する上で不可欠な構成要素である。

Recent developments in quantum hardware and quantum algorithms have made it possible to utilize the capabilities of current noisy intermediate-scale quantum devices for addressing problems in quantum chemistry and condensed matter physics. Here we report a demonstration of solving the dynamical mean-field theory (DMFT) impurity problem for the Hubbard-Holstein model on the IBM 27-qubit Quantum Falcon Processor Kawasaki, including self-consistency of the DMFT equations. This opens up the possibility to investigate strongly correlated electron systems coupled to bosonic degrees of freedom and impurity problems with frequency-dependent interactions. The problem involves both fermionic and bosonic degrees of freedom to be encoded on the quantum device, which we solve using a recently proposed Krylov variational quantum algorithm to obtain the impurity Green's function. We find the resulting spectral function to be in good agreement with the exact result, exhibiting both correlation and plasmonic satellites and significantly surpassing the accuracy of standard Trotter-expansion approaches. Our results provide an essential building block to study electronic correlations and plasmonic excitations on future quantum computers with modern ab initio techniques.
翻訳日:2023-01-08 22:07:25 公開日:2023-01-05
# 強誘電体のキャビティ制御における局所的ゆらぎ

Local Fluctuations in Cavity Control of Ferroelectricity ( http://arxiv.org/abs/2301.01884v1 )

ライセンス: Link先を確認
Jonathan B. Curtis, Marios H. Michael, Eugene Demler(参考訳) 共振電磁キャビティによる量子物質の制御は、物質相と機能性の制御を確立するための有望な経路である。 量子パラ誘電体絶縁体(ほぼ強誘電体)は、電場に直接結合する集団モードが強く変動するため、この目的のために特に有望な候補システムである。 本研究では,2つの高品位金属鏡に挟まれた量子常電体を用いて,ファブリペロ型キャビティを実現するシステムについて検討する。 完全なマルチモードの連続的な記述を開発することで、様々なシステムサイズと温度に対して空間的に解決された方法でキャビティの効果を研究できる。 驚いたことに、横モードの連続体を含むと、空洞は強誘電性相関を抑制する。 この効果は、共振器境界における横光子のスクリーニングから生じ、結果としてパラ誘電体試料の表面に限られる。 また、この効果の温度依存性を探求し、高温で消滅し、純粋に量子力学的効果であることを示す。 この結果はカシミール力とファン・デル・ワールス力の計算と結びつけ、量子常電体の双極子揺らぎと密接に関連していると主張する。 この結果は一般的な定式化に基づいており、複数の材料と相を含むヘテロ構造の量子電気力学の研究への道を開くことが期待されている。

Control of quantum matter through resonant electromagnetic cavities is a promising route towards establishing control over material phases and functionalities. Quantum paraelectric insulators -- materials which are nearly ferroelectric -- are particularly promising candidate systems for this purpose since they have strongly fluctuating collective modes which directly couple to the electric field. In this work we explore this possibility in a system comprised of a quantum paraelectric sandwiched between two high-quality metal mirrors, realizing a Fabry-Perot type cavity. By developing a full multimode, continuum description we are able to study the effect of the cavity in a spatially resolved way for a variety of system sizes and temperatures. Surprisingly, we find that once a continuum of transverse modes are included the cavity ends up suppressing ferroelectric correlations. This effect arises from the screening out of transverse photons at the cavity boundaries and as a result is confined to the surface of the paraelectric sample. We also explore the temperature dependence of this effect and find it vanishes at high temperatures, indicating it is a purely quantum mechanical effect. We connect our result to calculations of Casimir and Van der Waals forces, which we argue are closely related to the dipolar fluctuations in the quantum paraelectric. Our results are based on a general formalism and are expected to be widely applicable, paving the way towards studies of the quantum electrodynamics of heterostructures featuring multiple materials and phases.
翻訳日:2023-01-08 22:07:04 公開日:2023-01-05
# 古典的問題に対する資源制約量子回路の耐障害性限界

Limits of Fault-Tolerance on Resource-Constrained Quantum Circuits for Classical Problems ( http://arxiv.org/abs/2301.02158v1 )

ライセンス: Link先を確認
Uthirakalyani.G, Anuj K. Nayak, Avhishek Chatterjee, Lav R. Varshney(参考訳) 既存のフォールトトレラント量子回路の冗長性の低い境界は、入力と出力の両方が量子状態であるときに適用できる。 しかし、これらの境界は、Deutsch-Jozsa、Grover、Shorアルゴリズムのように、入力と出力が古典的なビットであるときに必ずしも保持されない。 ここでは、既存の境界から得られる雑音閾値が、Deutsch-Jozsaアルゴリズムの単純なフォールトトレラントな実装には適用されないことを示す。 次に、古典的な入力と出力を持つフォールトトレラント量子回路の最小要求冗長性に関する第1の下位境界を求める。 最近の結果は、量子回路の物理的資源制約により冗長性が増大するとノイズが増大し、結果として多くのフォールトトレランススキームが役に立たなくなることを示している。 したがって、フォールトトレラント量子回路の基本的限界に対する資源制約の影響を、実用的および理論的に特徴づけることが重要である。 したがって、下限の適用として、リソース制約によるノイズモデルの下での、フォールトトレラント量子回路の古典的な入力と出力の基本的な限界を特徴付ける。

Existing lower bounds on redundancy in fault-tolerant quantum circuits are applicable when both the input and the intended output are quantum states. These bounds may not necessarily hold, however, when the input and the intended output are classical bits, as in the Deutsch-Jozsa, Grover, or Shor algorithms. Here we show that indeed, noise thresholds obtained from existing bounds do not apply to a simple fault-tolerant implementation of the Deutsch-Jozsa algorithm. Then we obtain the first lower bound on the minimum required redundancy for fault-tolerant quantum circuits with classical inputs and outputs. Recent results show that due to physical resource constraints in quantum circuits, increasing redundancy can increase noise, which in turn may render many fault-tolerance schemes useless. So it is of both practical and theoretical interest to characterize the effect of resource constraints on the fundamental limits of fault-tolerant quantum circuits. Thus as an application of our lower bound, we characterize the fundamental limit of fault-tolerant quantum circuits with classical inputs and outputs under resource constraint-induced noise models.
翻訳日:2023-01-08 22:01:13 公開日:2023-01-05
# 浅回路サンプリングのための無条件量子アドバンテージ

Unconditional Quantum Advantage for Sampling with Shallow Circuits ( http://arxiv.org/abs/2301.00995v2 )

ライセンス: Link先を確認
Adam Bene Watts, Natalie Parham(参考訳) Bravyi、Gosset、Koenigによる最近の研究は、一定の深さの量子回路で解ける探索問題が存在するが、ファンインが有界な任意の定深さの古典回路では解けないことを示した。 彼らはまた、入力非依存のサンプリングタスクに対して、同様の分離の証明を達成できますか? 本稿では,この問題に対する答がイエスであることを示す。 分布$D_{n}$を導入し、全変動距離においてD_{n}$に近い分布からサンプリングする定数深さ$n$qubitの量子回路を与える。 任意の$\delta < 1$ に対して、無条件に、入力$n + n^\delta$ のランダムビットを入力とし、全変動距離で$d_{n}$ に近い出力を生成する有界なファンインゲートを持つ古典回路は、深さ$\omega(\log \log n)$ であることも証明する。 これにより、定数深さ量子回路が定数深さ有界ファンイン古典回路では再現できない分布からサンプルできるという無条件の証明を与える。 分布$D_n$と古典的回路下限は、ヴァイオラの業績に基づいており、彼は異なる(しかし関連する)分布を、一定深さのファンイン古典回路でおよそサンプリングできないことを示す。

Recent work by Bravyi, Gosset, and Koenig showed that there exists a search problem that a constant-depth quantum circuit can solve, but that any constant-depth classical circuit with bounded fan-in cannot. They also pose the question: can we achieve a similar proof of separation for an input-independent sampling task? In this paper, we show that the answer to this question is yes. We introduce a distribution $D_{n}$ and give a constant-depth, $n$ qubit, quantum circuit that samples from a distribution close to $D_{n}$ in total variation distance. For any $\delta < 1$ we also prove, unconditionally, that any classical circuit with bounded fan-in gates that takes as input $n + n^\delta$ uniformly random bits and produces output close to $D_{n}$ in total variation distance has depth $\Omega(\log \log n)$. This gives an unconditional proof that constant-depth quantum circuits can sample from distributions which can't be reproduced by constant-depth bounded fan-in classical circuits, even up to additive error. The distribution $D_n$ and classical circuit lower bounds are based on work of Viola, in which he shows a different (but related) distribution cannot be sampled from approximately by constant-depth bounded fan-in classical circuits.
翻訳日:2023-01-08 22:00:37 公開日:2023-01-05
# schrodinger dynamicsは測定を説明できるのか?

Can the Schrodinger dynamics explain measurement? ( http://arxiv.org/abs/2301.01858v1 )

ライセンス: Link先を確認
Alexey A. Kryukov(参考訳) 丸い障害物の適切な格子を通る球の運動はブラウン粒子の挙動をモデル化し、マクロ系の測定を記述するのに使うことができる。 一方、そのような動きはカオスであり、既知の予想では、対応する量子系のハミルトニアンは適切なアンサンブルのランダム行列統計に従わなければならない。 ガウスユニタリアンサンブルにおけるランダム行列によって表されるハミルトニアンを用いて、非定常状態のシュロディンガー進化を研究する。 古典系を表すガウス状態に対しては、測定中の系の挙動を記述するブラウン運動が得られる。 一般的な量子状態に対しては、状態間の遷移確率のボルン則が導かれる。 この結果から、ハミルトニアンモデルによるマクロ・顕微鏡系におけるシュロディンガーの進化は、マクロ・ボディの古典的な挙動と測定の可逆性の説明を与え、ミクロ・マクロ・ワールドの境界を識別することを示した。

The motion of a ball through an appropriate lattice of round obstacles models the behavior of a Brownian particle and can be used to describe measurement on a macro system. On another hand, such motion is chaotic and a known conjecture asserts that the Hamiltonian of the corresponding quantum system must follow the random matrix statistics of an appropriate ensemble. We use the Hamiltonian represented by a random matrix in the Gaussian unitary ensemble to study the Schrodinger evolution of non-stationary states. For Gaussian states representing a classical system, the Brownian motion that describes the behavior of the system under measurement is obtained. For general quantum states, the Born rule for the probability of transition between states is derived. It is then shown that the Schrodinger evolution with such a Hamiltonian models measurement on macroscopic and microscopic systems, provides an explanation for the classical behavior of macroscopic bodies and for irreversibility of a measurement, and identifies the boundary between micro and macro worlds.
翻訳日:2023-01-08 21:50:55 公開日:2023-01-05
# 近接単位確率をもつ非決定論的効率的な冷却

Nondeterministic efficient cooling with a near-unit probability ( http://arxiv.org/abs/2301.01888v1 )

ライセンス: Link先を確認
Jia-shun Yan and Jun Jing(参考訳) 非決定論的測定に基づく冷却は平均人口減少率において顕著であるが、基底状態における目標系の発見の成功確率は限られている。 本研究では,条件と非条件の測定の両方の集団移動機構を利用して,共振器を基底状態まで冷却する2段階の量子ビット支援プロトコルを提案する。 第1ステップでは、アシラリー量子ビットの無条件測定を用いて、ターゲット共振器を熱状態から保留フォック状態に再形成する。 測定シーケンスは、最大忠実度を求める強化学習により最適化される。 2番目のステップでは、隣接するフォック状態間の人口移動は、キュービット上の条件測定によって忠実に実現できる。 留置された状態の人口は、ほぼ単位の忠実さで共振器の基底状態に向かって段階的に移動される。 計測時間の最適化により、プロジェクションベース操作の本質的な非決定性を効果的に抑制する。 十数回の観測により,初期熱平均占有量は5桁程度に減少し,95%以上の確率で達成できることがわかった。

Nondeterministic measurement-based cooling is remarkable in the average-population-reduction rate but suffers from a limited success probability of finding the target system in the ground state. In this work, we exploit the population-transfer mechanisms of both conditional and unconditional measurements and propose a two-step qubit-assisted protocol allowing to cool a resonator down to its ground state with a near-unit probability. In the first step, the unconditional measurements on the ancillary qubit are utilized to reshape the target resonator from a thermal state to a reserved Fock state. The measurement sequence is optimized by reinforcement learning for a maximum fidelity. In the second step, the population transfer between neighboring Fock states can be faithfully realized by the conditional measurements on the qubit. The population over the reserved state is then transferred in a step-by-step way toward the resonator's ground state with a near-unit fidelity. Intrinsic nondeterminacy of the projection-based manipulation is effectively inhibited by optimizing the measurement time-spacing. Through our protocol with dozens of measurements, the initial thermal average occupation can be reduced by five orders in magnitude with a success probability over 95%.
翻訳日:2023-01-08 21:50:37 公開日:2023-01-05
# 準確率表現における量子ベイズ推論

Quantum Bayesian Inference in Quasiprobability Representations ( http://arxiv.org/abs/2301.01952v1 )

ライセンス: Link先を確認
Clive Cenxin Aw, Kelvin Onggadinata, Dagomir Kaszlikowski, Valerio Scarani(参考訳) ベイズのルールプレイは情報や物理科学においても重要な論理的推論である。 量子状態への拡張は、近年のいくつかの研究の対象となっている。 これらのベイズの規則の量子バージョンはヒルベルト空間の言語で表現されている。 本稿では,任意の準確率表現におけるpetzリカバリマップの表現と,'‘正規準確率表現'(離散ウィグナー表現を含む)と対称で情報完全正の演算子値測度(sic-povms)に基づく表現の2つの正準確率表現の明示的な公式を導出する。 この構造は、(準)確率ベクトルに作用する(準)確率行列の同じ数学的構文を用いることで、古典理論と量子理論の論理的推論における構造的類似性と中心的相違をもたらす。

Bayes' rule plays is a crucial piece of logical inference in information and physical sciences alike. Its extension into the quantum regime has been the object of several recent works. These quantum versions of Bayes' rule have been expressed in the language of Hilbert spaces. In this paper, we derive the expression of the Petz recovery map within any quasiprobability representation, with explicit formulas for the two canonical choices of ``normal quasiprobability representations'' (which include Discrete Wigner representations) and of representations based on symmetric, informationally complete positive operator-valued measures (SIC-POVMs). By using the same mathematical syntax of (quasi-)stochastic matrices acting on (quasi-)stochastic vectors, this construction brings to the fore the structural similarities and the core differences in logical inference between classical and quantum theory.
翻訳日:2023-01-08 21:50:22 公開日:2023-01-05
# ラスベガスへのワンウェイチケットと量子アドバイザリー

One-Way Ticket to Las Vegas and the Quantum Adversary ( http://arxiv.org/abs/2301.02003v1 )

ライセンス: Link先を確認
Aleksandrs Belovs and Duyal Yolcu(参考訳) 本稿では,量子ラスベガスのクエリ複雑性の新しい定義を提案する。 量子逆境と全く同じであることを示す。 これは、逆最適化問題に対する実現可能な解を量子クエリアルゴリズムに変換する、新しく非常に単純な方法によって実現される。 これにより、一方向アクセス、複数の入力オラクル、ユニタリでない入力オラクルを含む境界を一般化できます。 アプリケーションとして、入力オラクルへの一方向アクセスと双方向アクセスの分離を、比較的自然な一元置換反転問題に対して示す。

We propose a new definition of quantum Las Vegas query complexity. We show that it is exactly equal to the quantum adversary bound. This is achieved by a new and very simple way of transforming a feasible solution to the adversary optimisation problem into a quantum query algorithm. This allows us to generalise the bound to include unidirectional access, multiple input oracles, and input oracles that are not unitary. As an application, we demonstrate a separation between unidirectional and bidirectional access to an input oracle for a rather natural unitary permutation inversion problem.
翻訳日:2023-01-08 21:50:06 公開日:2023-01-05
# チャネルスペクトルによる普遍量子ゲートのベンチマーク

Benchmarking universal quantum gates via channel spectrum ( http://arxiv.org/abs/2301.02056v1 )

ライセンス: Link先を確認
Yanwu Gu, Wei-Feng Zhuang, Xudan Chai, Dong E. Liu(参考訳) ノイズはスケーラブルな量子計算の主要な障害である。 量子ベンチマーク法は、量子プロセッサの校正、量子エラー軽減、量子エラー訂正のためのノイズ特性に関する重要な情報を提供する。 しかし、ランダム化ベンチマークなどの現在のベンチマーク手法は、量子ゲートの特定のサブセットのパフォーマンスのみを評価することができる。 さらに、これらのプロトコルに固有のランダム化のため、実際に測定されるメリットの数字は、個々のターゲットゲートの忠実度ではなく、ターゲットを組み込んだランダム回路サイクルの忠実度の平均である。 これらの限界を克服するために,プロセス忠実度などの対象量子プロセスのノイズ特性を,ノイズのある量子チャネルの固有値から推定するチャネルスペクトルベンチマーク(CSB)を提案する。 このノイズ固有値は、状態準備および測定誤差回復方法で制御フリー位相推定回路によって推定できる。 我々の手法は普遍量子過程をベンチマークすることができ、多くの量子プロセスにスケーラブルである。 本手法は,1キュービットのパウリ回転,2キュービットのフェルミイオンシミュレーションゲート,トッフォリゲートを実装した3キュービットサイクル,イジング・ハミルトン進化演算子を実装した10キュービットサイクルを含むシミュレーション実験を用いて性能を示す。 本手法は,よりクリーンで大規模な量子デバイスの開発に重要な役割を果たす。

Noise remains the major obstacle to scalable quantum computation. Quantum benchmarking methods provide key information on noise properties for quantum processor calibration, quantum error mitigation, and quantum error correction. However, current benchmarking methods, such as randomized benchmarking or its variants, can only evaluate the performance of some particular subsets of quantum gates. Moreover, due to the randomization inherent in these protocols, the figure of merit they actually measure is not the fidelity of individual target gate but the average of the fidelities of some random circuit cycles incorporating the target. To overcome these limits, we propose channel spectrum benchmarking (CSB), a method to infer the noise properties of the target quantum process, such as process fidelity, from the eigenvalues of its noisy quantum channel. The noisy eigenvalues can be estimated by the circuits of control-free phase estimation in a state-preparation and measurement error-resilient manner. Our method can benchmark universal quantum processes and is scalable to many-qubit quantum processes. We demonstrate the performance of our method using simulated experiments, including the single-qubit Pauli rotations, 2-qubit fermionic simulation gates, a 3-qubit cycle implementing the Toffoli gate, and a 10-qubit cycle implementing the Ising Hamiltonian evolution operator. Our method will pave an important way for the development of cleaner and large-scale quantum devices.
翻訳日:2023-01-08 21:49:59 公開日:2023-01-05
# 補助量子ビットを用いた高速スクランブルおよびオペレーター閉じ込め

Fast-Scrambling and Operator Confinement Using an Auxiliary Qubit ( http://arxiv.org/abs/2301.02091v1 )

ライセンス: Link先を確認
Joseph Szabo and Nandini Trivedi(参考訳) 補助中央量子ビット(c-qubit)を媒介とする高速スロースクランブル遷移を実現するための最小モデルを提案する。 c-キュービットは、局所イジング相互作用と調整可能なc-キュービット-スピン結合を持つスピン-1/2$イジングモデルに結合される。 各スピンは、すべての相互作用を効果的に仲介するc-qubitを介して、他のすべてのスピンと隣り合う。 c-スピンとの相互作用が増加するにつれて、超弾道的スクランブルや情報成長から、連続的に制限されたサブ弾道的絡み合いや演算子成長への驚くべき移行が見られる。 この緩やかな成長は、カップリングとシステムサイズの増加によって指数関数的に広がる中間の時間スケールで起こり、対数的絡み合いの成長を示す。 スロースクランブル方式では、c-qubitイジング相互作用により、全てのサイトに対するコンミューティングオペレーターが急速にサポートを拡大できるのに対し、インタラクションに直交するオペレーターはエコーアウトする。 これにより、ローカルオペレータは制限された部分空間に置かれ、広範なオペレータの絡み合い成長を防止できる。 非平衡で効果的な無限温度状態を扱う小さなシステムの正確なダイナミクスを提供し、量子ゼノ様クロスオーバーの観測された急速なスクランブルを支える解析的早期展開にも寄与する。 中央のキュービットをトレースすることは、完全な閉ユニタリダイナミクスから、隠れたキュービットの自由度を持つ典型的なスピンチェーンからなる単純なオープンシステム構築へのユニークな翻訳を提供する。

We introduce a minimal model for realizing a fast-to-slow scrambling transition mediated by an auxiliary central qubit (c-qubit). The c-qubit is coupled to a spin-$1/2$ Ising model with local Ising interactions and tunable c-qubit-spin coupling. Each spin becomes next-nearest neighbor to all others through the c-qubit, which mediates effective all-to-all interactions. As the interaction with the c-spin increases, we find a surprising transition from super-ballistic scrambling and information growth to continuously restricted sub-ballistic entanglement and operator growth. This slow growth occurs on intermediate timescales that extend exponentially with increasing coupling and system size, indicative of logarithmic entanglement growth. We find that in the slow-scrambling regime, the c-qubit Ising interaction allows commuting operators to grow support on all sites rapidly, while operators orthogonal to the interaction become echoed out. This projects local operators to lie in a restricted subspace and prevents extensive operator entanglement growth. We provide exact dynamics of small systems working with non-equilibrium, effective infinite temperature states, and additionally contribute analytic early-time expansions that support the observed rapid scrambling to quantum Zeno-like crossover. Tracing out the central qubit provides a unique translation from the full, closed unitary dynamics to a simple open system construction consisting of a typical spin-chain with hidden qubit degree of freedom.
翻訳日:2023-01-08 21:49:37 公開日:2023-01-05
# 量子強化境界時結晶センサ

Quantum-Enhanced Boundary Time Crystal Sensors ( http://arxiv.org/abs/2301.02103v1 )

ライセンス: Link先を確認
V. Montenegro, M. G. Genoni, A. Bayat, M. G. A. Paris(参考訳) 量子センシングは、古典的な技術よりも量子技術の優位性を実証するアリーナの1つである。 しかし、そのような優位性は、回避不可能なノイズとプローブのデコヒーレンスにより減少することができる。 したがって、デコヒーレンスと戦うか利益を得るための気象学的戦略は非常に望ましい。 これは、散逸相転移をサポートするある種の脱コヒーレンス駆動多体系であり、センシングに役立つかもしれない。 境界時結晶(バウンダリ時結晶)は、時間-翻訳対称性が破られ、熱力学の極限で開量子系に長寿命の振動が出現する物質のエキゾチックな散逸相である。 対称から境界時間結晶相への遷移は2次遷移によって説明され、量子フィッシャー情報によって定量化された量子エンハンス感度を示す。 また,システムの臨界指数を決定し,それらの関係を確立した。 我々の手法は、量子エンハンス感度を達成するためにデコヒーレンスを活用することの実証である。 実用の観点からは、初期化とは無関係であることの利点があり、単純な測定で捉えることができる。

Quantum sensing is one of the arenas that exemplifies the superiority of quantum technologies over their classical counterparts. Such superiority, however, can be diminished due to unavoidable noise and decoherence of the probe. Thus, metrological strategies to fight against or profit from decoherence are highly desirable. This is the case of certain types of decoherence-driven many-body systems supporting dissipative phase transitions, which might be helpful for sensing. Boundary time crystals are exotic dissipative phases of matter in which the time-translational symmetry is broken, and long-lasting oscillations emerge in open quantum systems at the thermodynamic limit. We show that the transition from a symmetry unbroken into a boundary time crystal phase, described by a second-order transition, reveals quantum-enhanced sensitivity quantified through quantum Fisher information. We have also determined the critical exponents of the system and established their relationship. Our scheme is indeed a demonstration of harnessing decoherence for achieving quantum-enhanced sensitivity. From a practical perspective, it has the advantage of being independent of initialization and can be captured by a simple measurement.
翻訳日:2023-01-08 21:49:12 公開日:2023-01-05
# 超強結合キャビティ量子電磁力学における2つの原子の一般化ディッケモデルとゲージ不変マスター方程式

Generalized Dicke model and gauge-invariant master equations for two atoms in ultrastrongly-coupled cavity quantum electrodynamics ( http://arxiv.org/abs/2301.02127v1 )

ライセンス: Link先を確認
Kamran Akbari, Will Salmon, Franco Nori, Stephen Hughes(参考訳) 超強結合キャビティ量子電磁力学系における2つの異なる原子を用いて、よく知られたディックモデルの一般化を研究する。 この理論はゲージ不変マスター方程式を用い、オープンキャビティシステムのシステム・バス相互作用を含む標準マルチポーラゲージとクーロンゲージのいずれにも一貫した結果をもたらす。 まず、第2の原子をセンサ原子として扱う方法を示し、超強結合状態における単一原子からの出力スペクトルを測定し、その結果を量子回帰定理と比較し、それらがいつ異なることができるかを説明する。 次に、第2の原子がキャビティと非常に強く結合している場合に焦点を当てるが、第1の原子と異なるパラメータを持ち、複雑なカップリング効果と追加の共鳴とスペクトルの特徴をもたらす。 特に、第2原子がシステムの他の部分と共鳴している場合は見えないような、不共振のように見えるキャビティスペクトルの複数の共鳴を示す。 また,第2原子が共鳴によってチューニングする際,特に顕著な反交差特性を観察した。

We study a generalization of the well-known Dicke model, using two dissimilar atoms in the regime of ultrastrongly coupled cavity quantum electrodynamics. Our theory uses gauge invariant master equations, which yields consistent results in either of the standard multipolar and Coulomb gauges, including system-bath interactions for open cavity systems. We first show how a second atom can be treated as a sensor atom to measure the output spectrum from a single atom in the ultrastrong-coupling regime, and compare results with the quantum regression theorem, explaining when they can be different. We then focus on the case where the second atom is also ultrastrongly coupled to the cavity, but with different parameters from those of the first atom, which introduces complex coupling effects and additional resonances and spectral features. In particular, we show multiple resonances in the cavity spectra that are visible off-resonance, which cannot be seen when the second atom is on-resonance with the rest of the system. We also observe clear anti-crossing features particularly pronounced for when the second atom tunes through resonance.
翻訳日:2023-01-08 21:48:55 公開日:2023-01-05
# repad:時系列のリアルタイムプロアクティブ異常検出

RePAD: Real-time Proactive Anomaly Detection for Time Series ( http://arxiv.org/abs/2001.08922v7 )

ライセンス: Link先を確認
Ming-Chang Lee, Jia-Chun Lin, and Ernst Gunnar Gran(参考訳) 過去10年間で、ネットワーク監視、不正検出、侵入検知など、さまざまな分野に多くの異常検出アプローチが導入されてきた。 しかし、それらはデータパターンを理解する必要があり、しばしばターゲットデータのためのモデルやネットワークを構築するのに長いオフライン期間を必要とする。 人的介入やドメイン知識を伴わないストリーミング時系列のリアルタイム及び前向きな異常検出を提供することは、人的労力を大幅に削減し、悲惨な被害、故障、その他の有害事象が発生する前に適切な対策を実施できるため、非常に貴重である。 しかし、この問題はまだ研究されていない。 そこで本稿では,Long Short-Term Memory (LSTM) に基づくストリーミング時系列のリアルタイム能動異常検出アルゴリズムであるRePADを提案する。 repadは短期の履歴データポイントを使用して、近未来のデータポイントが近未来に異常が発生しそうな兆候であるかどうかを予測し、判断する。 検出しきい値を時間とともに動的に調整することにより、RePADは時系列におけるマイナーパターンの変更を許容し、前向きまたは時間的に異常を検出することができる。 Numenta Anomaly Benchmarkから収集された2つの時系列データセットに基づく実験では、RePADは人間の介入やドメイン知識なしに、積極的に異常を検出し、早期警告をリアルタイムで提供することができる。

During the past decade, many anomaly detection approaches have been introduced in different fields such as network monitoring, fraud detection, and intrusion detection. However, they require understanding of data pattern and often need a long off-line period to build a model or network for the target data. Providing real-time and proactive anomaly detection for streaming time series without human intervention and domain knowledge is highly valuable since it greatly reduces human effort and enables appropriate countermeasures to be undertaken before a disastrous damage, failure, or other harmful event occurs. However, this issue has not been well studied yet. To address it, this paper proposes RePAD, which is a Real-time Proactive Anomaly Detection algorithm for streaming time series based on Long Short-Term Memory (LSTM). RePAD utilizes short-term historic data points to predict and determine whether or not the upcoming data point is a sign that an anomaly is likely to happen in the near future. By dynamically adjusting the detection threshold over time, RePAD is able to tolerate minor pattern change in time series and detect anomalies either proactively or on time. Experiments based on two time series datasets collected from the Numenta Anomaly Benchmark demonstrate that RePAD is able to proactively detect anomalies and provide early warnings in real time without human intervention and domain knowledge.
翻訳日:2023-01-07 04:47:45 公開日:2023-01-05
# オートエンコーダと主成分分析を用いた教師なし高インピーダンス故障検出

Unsupervised High Impedance Fault Detection Using Autoencoder and Principal Component Analysis ( http://arxiv.org/abs/2301.01867v1 )

ライセンス: Link先を確認
Yingxiang Liu, Mohammad Razeghi-Jahromi, James Stoupis(参考訳) 高インピーダンス故障(HIF)の検出は配電ネットワークにおける最大の課題の1つである。 HIFの低電流等級と多彩な特性は過電流リレーによる検出を困難にしている。 近年,データから複雑なパターンを学習する能力により,機械学習モデルに基づくデータ駆動手法がHIF検出で人気を集めている。 多くの機械学習に基づく検出手法では、HIF中に収集された大量のデータに依存する分類を行うことにより、HIFと通常の負荷条件を区別する教師あり学習技術を採用している。 しかし,実世界でのHIFの測定は困難である。 その結果、トレーニングデータに負荷プロファイルや障害が存在しない場合には、分類手法の信頼性と一般化が制限される。 そこで本研究では,オートエンコーダと主成分分析に基づくモニタリング技術を用いた教師なしHIF検出フレームワークを提案する。 提案手法は,通常の負荷と異なる電流波形内の相関構造の変化を監視して,hifを検出する。 提案手法の性能を,4.16kVの分布系から収集した実データを用いて検証し,市販のHIF検出ソリューションと比較した。 提案手法は, 負荷条件下で誤検出を行わず, 高いセキュリティを維持しつつ, 市販のhif検出技術に勝ることを示す。

Detection of high impedance faults (HIF) has been one of the biggest challenges in the power distribution network. The low current magnitude and diverse characteristics of HIFs make them difficult to be detected by over-current relays. Recently, data-driven methods based on machine learning models are gaining popularity in HIF detection due to their capability to learn complex patterns from data. Most machine learning-based detection methods adopt supervised learning techniques to distinguish HIFs from normal load conditions by performing classifications, which rely on a large amount of data collected during HIF. However, measurements of HIF are difficult to acquire in the real world. As a result, the reliability and generalization of the classification methods are limited when the load profiles and faults are not present in the training data. Consequently, this paper proposes an unsupervised HIF detection framework using the autoencoder and principal component analysis-based monitoring techniques. The proposed fault detection method detects the HIF by monitoring the changes in correlation structure within the current waveforms that are different from the normal loads. The performance of the proposed HIF detection method is tested using real data collected from a 4.16 kV distribution system and compared with results from a commercially available solution for HIF detection. The numerical results demonstrate that the proposed method outperforms the commercially available HIF detection technique while maintaining high security by not falsely detecting during load conditions.
翻訳日:2023-01-06 14:53:20 公開日:2023-01-05
# エキスパートラーナーゼロサムゲームのためのデータ駆動逆強化学習

Data-Driven Inverse Reinforcement Learning for Expert-Learner Zero-Sum Games ( http://arxiv.org/abs/2301.01997v1 )

ライセンス: Link先を確認
Wenqian Xue and Bosen Lian and Jialu Fan and Tianyou Chai and Frank L. Lewis(参考訳) 本稿では, 学習者エージェントに対して, 専門家や対象エージェントの最適性能意図が不明な, 専門家と学習者とのインタラクションとして, 逆強化学習(irl)を定式化する。 学習者は、専門家の状態と制御を観察し、専門家のコスト関数意図を再構築し、専門家の最適な反応を模倣する。 次に,学習エージェントの学習と安定性を損なう非協力的障害を追加する。 これにより、ゼロサムゲームIRLと呼ばれる新しい相互作用が定式化される。 RLポリシー反復(PI)の修正拡張であるゼロサムゲームIRL問題を解決するためのフレームワークを開発し、未知の専門家のパフォーマンス意図を計算し、非協調的障害を除去する。 このフレームワークには、PIの拡張に基づく値関数と制御アクションの更新と、標準の逆最適制御に基づくコスト関数の更新の2つの部分がある。 そして、最終的には、専門家や学習者のエージェントダイナミクスの知識を必要とせず、シングルループ学習を行うオフポリシーirlアルゴリズムを開発する。 厳密な証明と分析が与えられる。 最後に,新しい手法の有効性を示すためにシミュレーション実験を行った。

In this paper, we formulate inverse reinforcement learning (IRL) as an expert-learner interaction whereby the optimal performance intent of an expert or target agent is unknown to a learner agent. The learner observes the states and controls of the expert and hence seeks to reconstruct the expert's cost function intent and thus mimics the expert's optimal response. Next, we add non-cooperative disturbances that seek to disrupt the learning and stability of the learner agent. This leads to the formulation of a new interaction we call zero-sum game IRL. We develop a framework to solve the zero-sum game IRL problem that is a modified extension of RL policy iteration (PI) to allow unknown expert performance intentions to be computed and non-cooperative disturbances to be rejected. The framework has two parts: a value function and control action update based on an extension of PI, and a cost function update based on standard inverse optimal control. Then, we eventually develop an off-policy IRL algorithm that does not require knowledge of the expert and learner agent dynamics and performs single-loop learning. Rigorous proofs and analyses are given. Finally, simulation experiments are presented to show the effectiveness of the new approach.
翻訳日:2023-01-06 14:53:00 公開日:2023-01-05
# 高速1パス灌流心筋MRIにおける物理インフォームド自己教師型深層学習再建法

Physics-informed self-supervised deep learning reconstruction for accelerated first-pass perfusion cardiac MRI ( http://arxiv.org/abs/2301.02033v1 )

ライセンス: Link先を確認
Elena Mart\'in-Gonz\'alez, Ebraham Alskaf, Amedeo Chiribiri, Pablo Casaseca-de-la-Higuera, Carlos Alberola-L\'opez, Rita G Nunes and Teresa M Correia(参考訳) FPP-CMR(First-pass perfusion Heartc Magnetic resonance)は, 心筋血流障害を診断し, 冠動脈疾患の診断に欠かせない非侵襲的画像診断法である。 それにもかかわらず、買収は比較的低い空間分解能と限られた心臓範囲に苦しむ。 FPP-CMRの高速化と空間分解能の向上を目的とした圧縮センシング法が提案されている。 しかし、長い再建期間は、FPP-CMRにおけるCSの広範な臨床使用を制限している。 教師あり学習に基づくディープラーニング技術は、再構築をスピードアップするための代替手段として登場した。 しかし、これらの手法はトレーニングのために完全なサンプルデータを必要としており、特に高解像度のFPP-CMR画像を得ることはできない。 本稿では,FPP-CMRスキャンを高速化し,高分解能撮像を容易にする物理インフォームド自己学習型FPP-CMR再構成手法を提案する。 提案手法は,フルサンプリング参照データを用いることなく,10xアンダーサンプルデータから高品質なFPP-CMR画像を提供する。

First-pass perfusion cardiac magnetic resonance (FPP-CMR) is becoming an essential non-invasive imaging method for detecting deficits of myocardial blood flow, allowing the assessment of coronary heart disease. Nevertheless, acquisitions suffer from relatively low spatial resolution and limited heart coverage. Compressed sensing (CS) methods have been proposed to accelerate FPP-CMR and achieve higher spatial resolution. However, the long reconstruction times have limited the widespread clinical use of CS in FPP-CMR. Deep learning techniques based on supervised learning have emerged as alternatives for speeding up reconstructions. However, these approaches require fully sampled data for training, which is not possible to obtain, particularly high-resolution FPP-CMR images. Here, we propose a physics-informed self-supervised deep learning FPP-CMR reconstruction approach for accelerating FPP-CMR scans and hence facilitate high spatial resolution imaging. The proposed method provides high-quality FPP-CMR images from 10x undersampled data without using fully sampled reference data.
翻訳日:2023-01-06 14:52:41 公開日:2023-01-05
# 公正制約付き最大最小分散:実測および近似アルゴリズム

Max-Min Diversification with Fairness Constraints: Exact and Approximation Algorithms ( http://arxiv.org/abs/2301.02053v1 )

ライセンス: Link先を確認
Yanhao Wang and Michael Mathioudakis and Jia Li and Francesco Fabbri(参考訳) 多様性の最大化は、大きなデータセットから多様で代表的なサブセットを選択することを目的としている。 データ要約、特徴選択、Web検索、レコメンダシステムなどのアプリケーションを見つけるための基本的な最適化タスクである。 しかし、データ項目が性別や人種などのセンシティブな属性に従って異なるグループに関連付けられている場合、このタスクのアルゴリズム的解決策は、未確認のままであれば、そのグループのいくつかを過小評価または過剰表現する可能性がある。 そこで我々は,各群から選択した項目の数が予め定義された下限と上限に収まることを保証しつつ,選択した項目間の最小距離を最大化するために$k$項目を選択することを目的として,フェアネス制約付き「emph{max-min diversification」の問題に取り組む。 本研究では,小さなデータセットに適した整数線形プログラミングに基づく厳密なアルゴリズムと,大規模データセットにスケールする任意の$\varepsilon \in (0, 1)$に対する$\frac{1-\varepsilon}{5}$近似アルゴリズムを提案する。 実世界のデータセットに関する広範囲な実験は、提案するアルゴリズムが既存のものよりも優れた性能を示している。

Diversity maximization aims to select a diverse and representative subset of items from a large dataset. It is a fundamental optimization task that finds applications in data summarization, feature selection, web search, recommender systems, and elsewhere. However, in a setting where data items are associated with different groups according to sensitive attributes like sex or race, it is possible that algorithmic solutions for this task, if left unchecked, will under- or over-represent some of the groups. Therefore, we are motivated to address the problem of \emph{max-min diversification with fairness constraints}, aiming to select $k$ items to maximize the minimum distance between any pair of selected items while ensuring that the number of items selected from each group falls within predefined lower and upper bounds. In this work, we propose an exact algorithm based on integer linear programming that is suitable for small datasets as well as a $\frac{1-\varepsilon}{5}$-approximation algorithm for any $\varepsilon \in (0, 1)$ that scales to large datasets. Extensive experiments on real-world datasets demonstrate the superior performance of our proposed algorithms over existing ones.
翻訳日:2023-01-06 14:52:25 公開日:2023-01-05
# スペクトルギャップを超えて(拡張):分散学習におけるトポロジーの役割

Beyond spectral gap (extended): The role of the topology in decentralized learning ( http://arxiv.org/abs/2301.02151v1 )

ライセンス: Link先を確認
Thijs Vogels, Hadrien Hendrikx, Martin Jaggi(参考訳) 機械学習モデルのデータ並列最適化では、労働者はモデルの推定値を改善するために協力する。 作業者がスパースグラフ上で通信する分散設定では、現在の理論は現実世界の振る舞いの重要な側面を捉えることができない。 まず、コミュニケーショングラフの‘スペクトルギャップ’は、(深い)学習における経験的パフォーマンスを予測するものではない。 第二に、現在の理論では、コラボレーションはトレーニング単独よりも学習率が大きいことを説明していない。 実際、これはより少ない学習率を規定しており、グラフが大きくなるにつれてさらに減少し、無限グラフの収束ダイナミクスを説明できない。 本稿では,疎結合分散最適化の正確な図を描くことを目的とする。 グラフトポロジーが二次玩具問題における収束にどのように影響するかを定量化し、一般の滑らかで(強い)凸目的に対して理論的結果を与える。 我々の理論は深層学習における経験的観察と一致し、異なるグラフトポロジーの相対的メリットを正確に記述する。 本稿ではvogelsらによる会議論文の拡張について述べる。 2022年)。 コード: https://github.com/epfml/topology-in-decentralized-learning。

In data-parallel optimization of machine learning models, workers collaborate to improve their estimates of the model: more accurate gradients allow them to use larger learning rates and optimize faster. In the decentralized setting, in which workers communicate over a sparse graph, current theory fails to capture important aspects of real-world behavior. First, the `spectral gap' of the communication graph is not predictive of its empirical performance in (deep) learning. Second, current theory does not explain that collaboration enables larger learning rates than training alone. In fact, it prescribes smaller learning rates, which further decrease as graphs become larger, failing to explain convergence dynamics in infinite graphs. This paper aims to paint an accurate picture of sparsely-connected distributed optimization. We quantify how the graph topology influences convergence in a quadratic toy problem and provide theoretical results for general smooth and (strongly) convex objectives. Our theory matches empirical observations in deep learning, and accurately describes the relative merits of different graph topologies. This paper is an extension of the conference paper by Vogels et. al. (2022). Code: https://github.com/epfml/topology-in-decentralized-learning.
翻訳日:2023-01-06 14:52:00 公開日:2023-01-05
# 情報理論による量子学習のための最適下界

Optimal lower bounds for Quantum Learning via Information Theory ( http://arxiv.org/abs/2301.02227v1 )

ライセンス: Link先を確認
Shima Bab Hadiashar, Ashwin Nayak, Pulkit Sinha(参考訳) Arunachalam and de Wolf (JMLR, 2018) は、量子学習者は量子PACとAgnostic学習モデルにおける古典的なものよりも漸近的に効率が良くないことを証明した。 彼らは量子状態の同定とフーリエ解析によってサンプルの複雑さの低い境界を確立した。 本稿では,PACモデルと非依存モデルの両方において,情報理論的手法を用いて量子サンプル複雑性の最適下界を導出する。 証明は間違いなく単純であり、同じアイデアは量子学習理論における他の問題の最適境界を導出するためにも使用できる。 次に、確率論の古典的な問題であるクーポンコレクタ問題(英語版)の量子アナログ(英語版)に目を向け、pac学習の研究においても重要である。 Arunachalam, Belovs, Childs, Kothari, Rosmanis, de Wolf (TQC, 2020) は、この問題の量子サンプルの複雑さを一定要素まで特徴づけた。 まず,上述した情報理論のアプローチが最適下界を導出しないことを示す。 副産物として、任意の高次元の純粋な状態の自然なアンサンブルが得られ、それは(同時に)容易に区別できない。 第二に、情報理論的なアプローチは問題の近似変種に対する漸近的最適境界をもたらすことを発見した。 最後に、量子クーポンコレクター問題に対するシャープな下界を、エンサンブルの識別性に基づくホレボ・カルランダー境界を通じて、正確に先頭項の項で導出する。 量子クーポンコレクター問題のすべての側面は、関連するグラマー行列のスペクトルの性質に残っており、これは独立な関心を持つかもしれない。

Although a concept class may be learnt more efficiently using quantum samples as compared with classical samples in certain scenarios, Arunachalam and de Wolf (JMLR, 2018) proved that quantum learners are asymptotically no more efficient than classical ones in the quantum PAC and Agnostic learning models. They established lower bounds on sample complexity via quantum state identification and Fourier analysis. In this paper, we derive optimal lower bounds for quantum sample complexity in both the PAC and agnostic models via an information-theoretic approach. The proofs are arguably simpler, and the same ideas can potentially be used to derive optimal bounds for other problems in quantum learning theory. We then turn to a quantum analogue of the Coupon Collector problem, a classic problem from probability theory also of importance in the study of PAC learning. Arunachalam, Belovs, Childs, Kothari, Rosmanis, and de Wolf (TQC, 2020) characterized the quantum sample complexity of this problem up to constant factors. First, we show that the information-theoretic approach mentioned above provably does not yield the optimal lower bound. As a by-product, we get a natural ensemble of pure states in arbitrarily high dimensions which are not easily (simultaneously) distinguishable, while the ensemble has close to maximal Holevo information. Second, we discover that the information-theoretic approach yields an asymptotically optimal bound for an approximation variant of the problem. Finally, we derive a sharp lower bound for the Quantum Coupon Collector problem, with the exact leading order term, via the Holevo-Curlander bounds on the distinguishability of an ensemble. All the aspects of the Quantum Coupon Collector problem we study rest on properties of the spectrum of the associated Gram matrix, which may be of independent interest.
翻訳日:2023-01-06 14:51:23 公開日:2023-01-05
# DESISハイパースペクトルデータによる植物種多様性予測:特徴抽出法と回帰モデルの比較研究

Plant species richness prediction from DESIS hyperspectral data: A comparison study on feature extraction procedures and regression models ( http://arxiv.org/abs/2301.01918v1 )

ライセンス: Link先を確認
Yiqing Guo, Karel Mokany, Cindy Ong, Peyman Moghadam, Simon Ferrier, Shaun R. Levick(参考訳) 植物の多様性は、生態系の安定性と生産性を維持する上で重要な役割を果たしている。 大規模な空間スケールで種組成の多様性をモニタリングすることは困難であり、時間を要する。 最近発表されたdesis(dlr earth sensing imaging spectrometer)の高度なスペクトルと空間仕様は、宇宙から送られた超スペクトルデータを用いて植物種の多様性を観測するユニークな機会を提供する。 本研究は,オーストラリア南東部の2種類の異なる生息地における植物種の豊かさを予測するためのDSISハイパースペクトルデータの有用性を定量的に評価した。 スペクトル特徴はまずdesisスペクトルから抽出され、次に植物種多様性のオングラウンド推定に回帰し、予測性能を評価するために2倍のクロス検証スキームを用いた。 特徴抽出のための主成分分析(PCA)、正準相関分析(CCA)、部分最小方形分析(PLS)、および種多様性予測のためのカーネルリッジ回帰(KRR)、ガウスプロセス回帰(GPR)、ランダムフォレスト回帰(RFR)の有効性を検討した。 最良予測結果は,南テーブルランズ地域ではr=0.76,rmse=5.89,雪山地域ではr=0.68,rmse=5.95であった。 ダイシススペクトル帯の相対的重要性分析により,赤縁,赤,青のスペクトル領域は,緑帯,近赤外帯よりも植物種多様性の予測に重要であることが示された。 また,植物種多様性の予測において,DSISハイパースペクトルデータの方がSentinel-2マルチスペクトルデータよりも優れていた。 植物生物多様性マッピングのための超スペクトルデータの可能性を探求する今後の研究への定量的な参照を提供する。

The diversity of terrestrial vascular plants plays a key role in maintaining the stability and productivity of ecosystems. Monitoring species compositional diversity across large spatial scales is challenging and time consuming. The advanced spectral and spatial specification of the recently launched DESIS (the DLR Earth Sensing Imaging Spectrometer) instrument provides a unique opportunity to test the potential for monitoring plant species diversity with spaceborne hyperspectral data. This study provides a quantitative assessment on the ability of DESIS hyperspectral data for predicting plant species richness in two different habitat types in southeast Australia. Spectral features were first extracted from the DESIS spectra, then regressed against on-ground estimates of plant species richness, with a two-fold cross validation scheme to assess the predictive performance. We tested and compared the effectiveness of Principal Component Analysis (PCA), Canonical Correlation Analysis (CCA), and Partial Least Squares analysis (PLS) for feature extraction, and Kernel Ridge Regression (KRR), Gaussian Process Regression (GPR), Random Forest Regression (RFR) for species richness prediction. The best prediction results were r=0.76 and RMSE=5.89 for the Southern Tablelands region, and r=0.68 and RMSE=5.95 for the Snowy Mountains region. Relative importance analysis for the DESIS spectral bands showed that the red-edge, red, and blue spectral regions were more important for predicting plant species richness than the green bands and the near-infrared bands beyond red-edge. We also found that the DESIS hyperspectral data performed better than Sentinel-2 multispectral data in the prediction of plant species richness. Our results provide a quantitative reference for future studies exploring the potential of spaceborne hyperspectral data for plant biodiversity mapping.
翻訳日:2023-01-06 14:47:34 公開日:2023-01-05
# Zen:LSTMによる対時的細胞間相互作用の個別生成

Zen: LSTM-based generation of individual spatiotemporal cellular traffic with interactions ( http://arxiv.org/abs/2301.02059v1 )

ライセンス: Link先を確認
Anne Josiane Kouam, Aline Carneiro Viana, Alain Tchana(参考訳) しかし、人間の存在と活動研究、セルラーネットワークデータセット(例えば、チャージデータレコード、CdRs)において高い価値で認識されているドメインワイドでは、アクセシビリティ、ユーザビリティ、プライバシの問題を提示し、その利用や研究の再現性を制限している。 zenと呼ばれる私たちの設計したフレームワークは、関連する4次元の方法論に従っています。 (i)LTSMに基づく利用者の交通行動のモデリング (ii)時空間移動行動の現実的で柔軟なエミュレーション (iii)生命のような細胞ネットワーク基盤と社会的相互作用の構造、及び (iv)以前の3つのモジュールと現実のcdrの組み合わせは、現実的に個々のベースでトレースする。 その結果、zenの第1および第3のモデルは、完全に匿名化された実世界のcdrsデータセットの個人およびグローバル分布を正確に捉えているのに対し、第2のモデルは、人間の移動に関する文献の特徴と一致していることがわかった。 最後に,実世界のcdrと比較して,都市住民の日常的細胞行動を再現する禅cdrの能力と,動的人口追跡,無線アクセスネットワークの電力節約,異常検出といった実用的なネットワーク応用における有用性を検証する。

Domain-wide recognized by their high value in human presence and activity studies, cellular network datasets (i.e., Charging Data Records, named CdRs), however, present accessibility, usability, and privacy issues, restricting their exploitation and research reproducibility.This paper tackles such challenges by modeling Cdrs that fulfill real-world data attributes. Our designed framework, named Zen follows a four-fold methodology related to (i) the LTSM-based modeling of users' traffic behavior, (ii) the realistic and flexible emulation of spatiotemporal mobility behavior, (iii) the structure of lifelike cellular network infrastructure and social interactions, and (iv) the combination of the three previous modules into realistic Cdrs traces with an individual basis, realistically. Results show that Zen's first and third models accurately capture individual and global distributions of a fully anonymized real-world Cdrs dataset, while the second model is consistent with the literature's revealed features in human mobility. Finally, we validate Zen Cdrs ability of reproducing daily cellular behaviors of the urban population and its usefulness in practical networking applications such as dynamic population tracing, Radio Access Network's power savings, and anomaly detection as compared to real-world CdRs.
翻訳日:2023-01-06 14:46:59 公開日:2023-01-05
# 自己モチベーション型マルチエージェント探索

Self-Motivated Multi-Agent Exploration ( http://arxiv.org/abs/2301.02083v1 )

ライセンス: Link先を確認
Shaowei Zhang, Jiahan Cao, Lei Yuan, Yang Yu, De-Chuan Zhan(参考訳) 協調型マルチエージェント強化学習(CMARL)では,エージェントが自己探索とチームコラボレーションのバランスをとることが重要である。 しかし、エージェントは調整なしではチームタスクをほとんど達成できないため、個別の探索が十分に必要とせずに簡単に協力できるローカルに最適な場所に閉じ込められるだろう。 最近の研究は主に、国家空間の指数関数的に成長した探検をもたらすエージェントの協調探検に集中している。 この問題に対処するために,我々は,自己探索とチーム協力のトレードオフを適応的に見つけ,チームタスクの成功を目指す自己モチベーション型マルチエージェント探索(smmae)を提案する。 SMMAEでは、各エージェントが訪問する国家空間を最大化するために、独立した調査政策を訓練する。 各エージェントは、共同チームポリシーの安定性に基づいて、調整可能な探索確率を学習する。 StarCraft IIマイクロマネジメントベンチマーク(SMAC)における高度協調作業の実験により、SMMAEはタスク関連状態をより効率的に探索し、協調的な振る舞いを達成し、学習性能を向上させることができることを示した。

In cooperative multi-agent reinforcement learning (CMARL), it is critical for agents to achieve a balance between self-exploration and team collaboration. However, agents can hardly accomplish the team task without coordination and they would be trapped in a local optimum where easy cooperation is accessed without enough individual exploration. Recent works mainly concentrate on agents' coordinated exploration, which brings about the exponentially grown exploration of the state space. To address this issue, we propose Self-Motivated Multi-Agent Exploration (SMMAE), which aims to achieve success in team tasks by adaptively finding a trade-off between self-exploration and team cooperation. In SMMAE, we train an independent exploration policy for each agent to maximize their own visited state space. Each agent learns an adjustable exploration probability based on the stability of the joint team policy. The experiments on highly cooperative tasks in StarCraft II micromanagement benchmark (SMAC) demonstrate that SMMAE can explore task-related states more efficiently, accomplish coordinated behaviours and boost the learning performance.
翻訳日:2023-01-06 14:46:25 公開日:2023-01-05
# 隠れて探す:顧客体験を改善しながら店内ピック操作に取り組む

Playing hide and seek: tackling in-store picking operations while improving customer experience ( http://arxiv.org/abs/2301.02142v1 )

ライセンス: Link先を確認
F\'abio Neves-Moreira and Pedro Amorim(参考訳) 小売ビジネスの進化は新たな課題をもたらし、オンラインチャネルの需要増加に対応するために店舗やサプライチェーンを再発明する方法に関する重要な疑問を提起する。 最近omnichannelの小売業者が採用した措置の1つは、既存の資産を使ってオンライン注文を配信できる店舗内ピッキングによるオンライン販売の成長に対処することである。 しかし、オフラインの顧客体験を損なうというマイナス面もある。 小売店の動的顧客フローに適合するピックポリシーを実現するため、動的店内ピッカールーティング問題(diPRP)と呼ばれる新しい問題を定式化した。 関連する問題 - diprp - ピッカーは顧客との遭遇を最小限に抑えながら、オンライン注文を拾おうとする。 この問題をマルコフ決定プロセス(MDP)としてモデル化し,数学的プログラミングと強化学習コンポーネントを組み合わせたハイブリッドソリューションアプローチを用いて解いた。 合成インスタンスに関する計算実験は、アルゴリズムが効率的なポリシーに収束することを示唆している。 さらに,本手法を欧州の大手小売業者の文脈で適用し,選択した注文数と顧客が遭遇した顧客数に関する提案ポリシーの結果を評価する。 われわれの研究によると、小売業者はオフラインの顧客体験を損なうことなく、オンライン注文の店舗内ピッキングをスケールできるはずだ。 提案されたソリューションアプローチで学んだポリシーは、注文の選択のみに焦点を当てたポリシーと比較して、顧客の遭遇数を50%以上削減した。 このように、運用効率と顧客エクスペリエンスを適切にトレードオフする全チャネル戦略を追求するために、小売業者は、最短経路の選択など、実際の単純選択戦略に頼ることはできない。

The evolution of the retail business presents new challenges and raises pivotal questions on how to reinvent stores and supply chains to meet the growing demand of the online channel. One of the recent measures adopted by omnichannel retailers is to address the growth of online sales using in-store picking, which allows serving online orders using existing assets. However, it comes with the downside of harming the offline customer experience. To achieve picking policies adapted to the dynamic customer flows of a retail store, we formalize a new problem called Dynamic In-store Picker Routing Problem (diPRP). In this relevant problem - diPRP - a picker tries to pick online orders while minimizing customer encounters. We model the problem as a Markov Decision Process (MDP) and solve it using a hybrid solution approach comprising mathematical programming and reinforcement learning components. Computational experiments on synthetic instances suggest that the algorithm converges to efficient policies. Furthermore, we apply our approach in the context of a large European retailer to assess the results of the proposed policies regarding the number of orders picked and customers encountered. Our work suggests that retailers should be able to scale the in-store picking of online orders without jeopardizing the experience of offline customers. The policies learned using the proposed solution approach reduced the number of customer encounters by more than 50% when compared to policies solely focused on picking orders. Thus, to pursue omnichannel strategies that adequately trade-off operational efficiency and customer experience, retailers cannot rely on actual simplistic picking strategies, such as choosing the shortest possible route.
翻訳日:2023-01-06 14:45:57 公開日:2023-01-05
# L-HYDRA:マルチヘッド物理インフォームニューラルネットワーク

L-HYDRA: Multi-Head Physics-Informed Neural Networks ( http://arxiv.org/abs/2301.02152v1 )

ライセンス: Link先を確認
Zongren Zou and George Em Karniadakis(参考訳) 非線形隠れ層を本体とし,複数の線形出力層をマルチヘッドとする,ニューラルネットワークの一種である物理に変形した機械学習に,マルチヘッドニューラルネットワーク(mh-nns)を導入する。 そこで本研究では,マルチタスク学習(mtl),生成モデリング,およびsciml(sciml)における多種多様な問題に対する数発学習のための強力なツールとして,マルチヘッド物理インフォームドニューラルネットワーク(mh-pinns)を構築する。 MH-PINNは、ヘッドの共有分布と同様に、基本関数として、共有体を介して複数の機能/タスクを接続する。 前者はMH-PINNによる複数のタスクを各タスクに独立して解決し、後者は密度推定と生成モデルに正規化フロー(NF)を用いる。 この目的のために,本手法は二段階法であり,両方の段階をnnsの標準ディープラーニングツールで扱うことが可能であり,実装が容易である。 mh-pinnは、確率過程の近似、複数のタスクの相乗的解決、メタラーニングやトランスファー学習のような下流のマイノリティ学習タスクのための情報的事前知識の提供、代表基底関数の学習、不確実性定量化など、様々な目的に使用できる。 5つのベンチマークでMH-PINNの有効性を実証し,回帰分析における相乗学習の可能性についても検討した。 この神話的な生物は、提案手法のように重要な複数のタスクを実行するために多くの頭を持っていたため、オープンソースのコード「Lernaean Hydra」(L-HYDRA)を命名した。

We introduce multi-head neural networks (MH-NNs) to physics-informed machine learning, which is a type of neural networks (NNs) with all nonlinear hidden layers as the body and multiple linear output layers as multi-head. Hence, we construct multi-head physics-informed neural networks (MH-PINNs) as a potent tool for multi-task learning (MTL), generative modeling, and few-shot learning for diverse problems in scientific machine learning (SciML). MH-PINNs connect multiple functions/tasks via a shared body as the basis functions as well as a shared distribution for the head. The former is accomplished by solving multiple tasks with MH-PINNs with each head independently corresponding to each task, while the latter by employing normalizing flows (NFs) for density estimate and generative modeling. To this end, our method is a two-stage method, and both stages can be tackled with standard deep learning tools of NNs, enabling easy implementation in practice. MH-PINNs can be used for various purposes, such as approximating stochastic processes, solving multiple tasks synergistically, providing informative prior knowledge for downstream few-shot learning tasks such as meta-learning and transfer learning, learning representative basis functions, and uncertainty quantification. We demonstrate the effectiveness of MH-PINNs in five benchmarks, investigating also the possibility of synergistic learning in regression analysis. We name the open-source code "Lernaean Hydra" (L-HYDRA), since this mythical creature possessed many heads for performing important multiple tasks, as in the proposed method.
翻訳日:2023-01-06 14:45:32 公開日:2023-01-05
# プロセスマイニングにおけるトレースエンコーディング:調査とベンチマーク

Trace Encoding in Process Mining: a survey and benchmarking ( http://arxiv.org/abs/2301.02167v1 )

ライセンス: Link先を確認
Sylvio Barbon Jr., Paolo Ceravolo, Rafael S. Oyamada, Gabriel M. Tavares(参考訳) エンコーディング手法は、予測プロセス監視、異常ケース検出、トレースクラスタリングなど、いくつかのプロセスマイニングタスクで採用されている。 これらの方法は、通常、前処理ステップとして実行され、複雑な情報を数値的特徴空間に変換する責任がある。 ほとんどの論文は、既存の符号化手法を任意に選択するか、特定の専門家知識ドメインに基づいて戦略を採用する。 さらに、既存のメソッドは、他のオプションを評価することなく、デフォルトのハイパーパラメータを使用する。 この慣行は、準最適性能や最先端との不公平な比較など、いくつかの欠点をもたらす可能性がある。 そこで本研究では,表現性,拡張性,相関性,ドメインに依存しない27の手法を比較し,イベントログエンコーディングに関する包括的な調査を行うことを目的とする。 私たちの知る限りでは、プロセスマイニングにおけるトレースエンコーディングに焦点を当てた、これまでで最も包括的な研究です。 プロセスマイニングパイプラインにおけるトレースエンコーディングの役割に対する意識の成熟に寄与し、機械学習モデルとプロセスマイニングのギャップを埋めるためのエンコーディング手法の使用に関する問題や懸念、今後の研究方向性に光を当てる。

Encoding methods are employed across several process mining tasks, including predictive process monitoring, anomalous case detection, trace clustering, etc. These methods are usually performed as preprocessing steps and are responsible for transforming complex information into a numerical feature space. Most papers choose existing encoding methods arbitrarily or employ a strategy based on a specific expert knowledge domain. Moreover, existing methods are employed by using their default hyperparameters without evaluating other options. This practice can lead to several drawbacks, such as suboptimal performance and unfair comparisons with the state-of-the-art. Therefore, this work aims at providing a comprehensive survey on event log encoding by comparing 27 methods, from different natures, in terms of expressivity, scalability, correlation, and domain agnosticism. To the best of our knowledge, this is the most comprehensive study so far focusing on trace encoding in process mining. It contributes to maturing awareness about the role of trace encoding in process mining pipelines and sheds light on issues, concerns, and future research directions regarding the use of encoding methods to bridge the gap between machine learning models and process mining.
翻訳日:2023-01-06 14:45:00 公開日:2023-01-05
# 診断用CTボリュームからのリアル超音波合成による超音波ガイド下脊柱管手術における拡張分割とレジストレーション

Enabling Augmented Segmentation and Registration in Ultrasound-Guided Spinal Surgery via Realistic Ultrasound Synthesis from Diagnostic CT Volume ( http://arxiv.org/abs/2301.01940v1 )

ライセンス: Link先を確認
Ang Li, Jiayi Han, Yongjian Zhao, Keyu Li, Li Liu(参考訳) 本研究の目的は, 脊椎外科手術における骨の分節化と登録を可能にするために, 利用できない, 不十分な臨床USデータと有意義なアノテーションに対処することである。 米国は脊椎手術の標準的なパラダイムではないが、手術中の米国内臨床データの不足は、ニューラルネットワークのトレーニングにおいて不可避なボトルネックである。 また, 画像の特徴から, 訓練されたニューラルネットワークが細部への注意を欠く骨表面を明瞭にアノテートすることは困難である。 そこで本研究では,診断用CTボリュームからリアルな米国イメージを合成するインシリコ骨USシミュレーションフレームワークを提案する。 その後、これらの模擬骨USを用いて、脊椎ソノグラフィーのための高精度かつオンザフライ骨分割を実現する軽量視覚トランスフォーマーモデルを訓練する。 評価実験では, 診断用脊椎CT量からリアルなUSシミュレーションを行い, 放射線を含まないペプシクルスクリューの配置を容易化した。 骨分割タスクの訓練に使用する場合、シャンファー距離は0.599mmとなり、ct-us登録に応用すると、関連骨分割精度が0.93、セグメント点雲に基づく登録精度が0.013〜3.37mmとなる。 骨US画像は、中面に強いエコーを示すが、小さな近傍情報に頼るだけで、薄い界面と骨表面を区別できないモデルを可能にする。 これらの欠点を克服するために,Long-range Contrast Learning Moduleを用いて,候補とその周辺画素間のLong-range Contrastを探索する。

This paper aims to tackle the issues on unavailable or insufficient clinical US data and meaningful annotation to enable bone segmentation and registration for US-guided spinal surgery. While the US is not a standard paradigm for spinal surgery, the scarcity of intra-operative clinical US data is an insurmountable bottleneck in training a neural network. Moreover, due to the characteristics of US imaging, it is difficult to clearly annotate bone surfaces which causes the trained neural network missing its attention to the details. Hence, we propose an In silico bone US simulation framework that synthesizes realistic US images from diagnostic CT volume. Afterward, using these simulated bone US we train a lightweight vision transformer model that can achieve accurate and on-the-fly bone segmentation for spinal sonography. In the validation experiments, the realistic US simulation was conducted by deriving from diagnostic spinal CT volume to facilitate a radiation-free US-guided pedicle screw placement procedure. When it is employed for training bone segmentation task, the Chamfer distance achieves 0.599mm; when it is applied for CT-US registration, the associated bone segmentation accuracy achieves 0.93 in Dice, and the registration accuracy based on the segmented point cloud is 0.13~3.37mm in a complication-free manner. While bone US images exhibit strong echoes at the medium interface, it may enable the model indistinguishable between thin interfaces and bone surfaces by simply relying on small neighborhood information. To overcome these shortcomings, we propose to utilize a Long-range Contrast Learning Module to fully explore the Long-range Contrast between the candidates and their surrounding pixels.
翻訳日:2023-01-06 14:37:46 公開日:2023-01-05
# あいまいな場面における視覚局在の確率的枠組み

A Probabilistic Framework for Visual Localization in Ambiguous Scenes ( http://arxiv.org/abs/2301.02086v1 )

ライセンス: Link先を確認
Fereidoon Zangeneh, Leonard Bruns, Amit Dekel, Alessandro Pieropan and Patric Jensfelt(参考訳) 視覚的ローカライゼーションにより、自律的なロボットは、現在の観察を過去のものと一致させることで、ポーズの追跡を失う際に再ローカライズすることができる。 しかし、あいまいなシーンはそのようなシステムにとって難題となり、反復的な構造は多くの異なる可能性の高いカメラポーズから見ることができ、これは単一の最高のポーズ仮説を作るのに十分ではないことを意味する。 本研究では,任意の画像に対して任意の形状のカメラポーズの後方分布を予測できる確率的枠組みを提案する。 我々は,推定分布からのサンプリングを可能にする変分推論を用いたカメラポーズ回帰の新しい定式化によってこれを行う。 本手法は,不明瞭なシーンの局所化において,既存の手法よりも優れる。 コードとデータはhttps://github.com/efreidun/vaporでリリースされる。

Visual localization allows autonomous robots to relocalize when losing track of their pose by matching their current observation with past ones. However, ambiguous scenes pose a challenge for such systems, as repetitive structures can be viewed from many distinct, equally likely camera poses, which means it is not sufficient to produce a single best pose hypothesis. In this work, we propose a probabilistic framework that for a given image predicts the arbitrarily shaped posterior distribution of its camera pose. We do this via a novel formulation of camera pose regression using variational inference, which allows sampling from the predicted distribution. Our method outperforms existing methods on localization in ambiguous scenes. Code and data will be released at https://github.com/efreidun/vapor.
翻訳日:2023-01-06 14:37:16 公開日:2023-01-05
# 生態学のコンピュータビジョン教育

Teaching Computer Vision for Ecology ( http://arxiv.org/abs/2301.02211v1 )

ライセンス: Link先を確認
Elijah Cole, Suzanne Stathatos, Bj\"orn L\"utjens, Tarun Sharma, Justin Kay, Jason Parham, Benjamin Kellenberger, Sara Beery(参考訳) コンピュータービジョンは、カメラトラップ、ドローン、衛星などのセンサーからの生画像の分析を自動化することで、生態研究を加速することができる。 しかし、コンピュータビジョンは新しい分野であり、生態学者に教えられることは滅多にない。 本研究は,集中型夏季ワークショップにおけるコンピュータビジョンシステムの試作と評価を,多様な生態学者グループに教えた経験について考察する。 ワークショップの構造を説明し,共通の課題を説明し,ベストプラクティスを提案する。 この文書は、コンピュータビジョンを専門分野にわたって教えるコンピュータ科学者を意図しているが、コンピュータビジョン自体を学習している生態学者や他のドメインエキスパートにとっても有用かもしれない。

Computer vision can accelerate ecology research by automating the analysis of raw imagery from sensors like camera traps, drones, and satellites. However, computer vision is an emerging discipline that is rarely taught to ecologists. This work discusses our experience teaching a diverse group of ecologists to prototype and evaluate computer vision systems in the context of an intensive hands-on summer workshop. We explain the workshop structure, discuss common challenges, and propose best practices. This document is intended for computer scientists who teach computer vision across disciplines, but it may also be useful to ecologists or other domain experts who are learning to use computer vision themselves.
翻訳日:2023-01-06 14:37:05 公開日:2023-01-05
# 強化学習に基づく空気交通の分離

Reinforcement Learning-Based Air Traffic Deconfliction ( http://arxiv.org/abs/2301.01861v1 )

ライセンス: Link先を確認
Denis Osipychev, Dragos Margineantu, Girish Chowdhary(参考訳) 適切な離間距離で航空機を危険から遠ざけるための残留ウェルクリアは、密集した空域で無人航空機を安全に運用するための重要な技術である。 本研究は,2機の航空機の水平分離の自動化に着目し,障害物回避問題を2次元サロゲート最適化タスクとして提示する。 私たちの設計では、サブロゲートタスクはプライマリドメインにおけるソリューションの実行を保証するためにより保守的になります。 強化学習(rl)を用いることで,回避方針を最適化し,ダイナミクス,インタラクション,意思決定をモデル化する。 結果のポリシーとサロゲート遷移を再帰的にサンプリングすることで、システムは回避ポリシーを完全な回避軌道に変換する。 そして、この軌道を、ロボットオペレーティングシステム(ros)インタフェースを用いて飛行機が追従するための経路のセットとして公開する。 提案システムは,安全要件を満たす高速かつ達成可能な回避軌道を生成する。 本システムの評価は高忠実度シミュレーションおよび実機実機実験で完了した。 さらに,本論文では,RLシステムの実演を実現するための膨大な統合作業について述べる。

Remain Well Clear, keeping the aircraft away from hazards by the appropriate separation distance, is an essential technology for the safe operation of uncrewed aerial vehicles in congested airspace. This work focuses on automating the horizontal separation of two aircraft and presents the obstacle avoidance problem as a 2D surrogate optimization task. By our design, the surrogate task is made more conservative to guarantee the execution of the solution in the primary domain. Using Reinforcement Learning (RL), we optimize the avoidance policy and model the dynamics, interactions, and decision-making. By recursively sampling the resulting policy and the surrogate transitions, the system translates the avoidance policy into a complete avoidance trajectory. Then, the solver publishes the trajectory as a set of waypoints for the airplane to follow using the Robot Operating System (ROS) interface. The proposed system generates a quick and achievable avoidance trajectory that satisfies the safety requirements. Evaluation of our system is completed in a high-fidelity simulation and full-scale airplane demonstration. Moreover, the paper concludes an enormous integration effort that has enabled a real-life demonstration of the RL-based system.
翻訳日:2023-01-06 14:36:35 公開日:2023-01-05
# EPR-Net: 変動力投影式による非平衡ポテンシャル景観の構築

EPR-Net: Constructing non-equilibrium potential landscape via a variational force projection formulation ( http://arxiv.org/abs/2301.01946v1 )

ライセンス: Link先を確認
Yue Zhao, Wei Zhang, Tiejun Li(参考訳) 本稿では,高次元非平衡定常状態(ness)システムの潜在景観を構築するための,新しい簡易な深層学習手法epr-netを提案する。 このアプローチの重要な考え方は、負ポテンシャル勾配が定常分布に関して重み付きヒルベルト空間における駆動力の直交射影であるという事実を利用することである。 構成された損失関数は、NESS理論のエントロピー生成率(EPR)式とも一致する。 このアプローチは、次元還元と状態依存拡散係数を統一的に扱うように拡張することができる。 提案手法のロバスト性および有効性は,マルチ安定性,リミットサイクル,あるいは非消滅雑音を持つ奇妙な誘引器を有する高次元生体物理モデルの数値的研究により実証された。

We present a novel yet simple deep learning approach, dubbed EPR-Net, for constructing the potential landscape of high-dimensional non-equilibrium steady state (NESS) systems. The key idea of our approach is to utilize the fact that the negative potential gradient is the orthogonal projection of the driving force in a weighted Hilbert space with respect to the steady-state distribution. The constructed loss function also coincides with the entropy production rate (EPR) formula in NESS theory. This approach can be extended to dealing with dimensionality reduction and state-dependent diffusion coefficients in a unified fashion. The robustness and effectiveness of the proposed approach are demonstrated by numerical studies of several high-dimensional biophysical models with multi-stability, limit cycle, or strange attractor with non-vanishing noise.
翻訳日:2023-01-06 14:36:17 公開日:2023-01-05
# 私への説明:プライバシー決定の理解に向けて

Explain to Me: Towards Understanding Privacy Decisions ( http://arxiv.org/abs/2301.02079v1 )

ライセンス: Link先を確認
Gonul Ayci, P{\i}nar Yolum, Arzucan \"Ozg\"ur, Murat \c{S}ensoy(参考訳) プライバシーアシスタントは、ユーザーがオンラインでプライバシーを管理するのを助ける。 彼らのタスクは、プライバシー侵害の検出から、ユーザーが共有しようとするコンテンツに対する共有アクションの推奨まで様々だ。 これらのタスクに関する最近の研究は有望であり、プライバシーアシスタントがそれに取り組むことに成功している。 しかし,このようなプライバシアシスタントをユーザに提供するためには,これらのアシスタントがユーザに対して自身の決定を説明できることが重要である。 そこで本稿では,プライバシの説明を作成する手法を考案する。 この方法論は、関心領域の重要なトピックを特定し、意思決定のための説明スキームを提供し、それらを自動生成することに基づいている。 提案手法を実世界のプライバシーデータセットに適用し,ラベルを説明するためにプライベートあるいはパブリックとラベルづけされた画像を含む。 提案手法は,ユーザにとって有用な説明を見つける上でどのような影響があるかを示す。

Privacy assistants help users manage their privacy online. Their tasks could vary from detecting privacy violations to recommending sharing actions for content that the user intends to share. Recent work on these tasks are promising and show that privacy assistants can successfully tackle them. However, for such privacy assistants to be employed by users, it is important that these assistants can explain their decisions to users. Accordingly, this paper develops a methodology to create explanations of privacy. The methodology is based on identifying important topics in a domain of interest, providing explanation schemes for decisions, and generating them automatically. We apply our proposed methodology on a real-world privacy data set, which contains images labeled as private or public to explain the labels. We evaluate our approach on a user study that depicts what factors are influential for users to find explanations useful.
翻訳日:2023-01-06 14:36:03 公開日:2023-01-05
# ランダム化メッセージインターセプション平滑化:グラフニューラルネットワーク用グレーボックス証明書

Randomized Message-Interception Smoothing: Gray-box Certificates for Graph Neural Networks ( http://arxiv.org/abs/2301.02039v1 )

ライセンス: Link先を確認
Yan Scholten, Jan Schuchardt, Simon Geisler, Aleksandar Bojchevski, Stephan G\"unnemann(参考訳) ランダム化スムーシング(Randomized smoothing)は、グラフニューラルネットワーク(GNN)を含む機械学習モデルの対角的堅牢性を証明する最も有望なフレームワークの1つである。 しかし、GNNの既存のランダム化スムース化証明書は、モデルをブラックボックスとして扱い、基盤となるアーキテクチャを無視しているため、悲観的すぎる。 メッセージをランダムにインターセプトし、敵に制御されたノードからのメッセージがターゲットノードに到達する確率を慎重に分析する。 既存の証明書と比較して、グラフ内のノード全体を制御し、任意のノード機能を操作できる強力な敵に対して、堅牢性を確認します。 我々の証明書は、遠く離れたノードからのメッセージが傍受される可能性が高いため、より大規模な攻撃に対してより強力な保証を提供する。 各種モデルとデータセットにおける本手法の有効性を示す。 グレーボックス証明書は基本となるグラフ構造を考慮するので、グラフスパーシフィケーションを適用することで、検証可能な堅牢性を大幅に向上できます。

Randomized smoothing is one of the most promising frameworks for certifying the adversarial robustness of machine learning models, including Graph Neural Networks (GNNs). Yet, existing randomized smoothing certificates for GNNs are overly pessimistic since they treat the model as a black box, ignoring the underlying architecture. To remedy this, we propose novel gray-box certificates that exploit the message-passing principle of GNNs: We randomly intercept messages and carefully analyze the probability that messages from adversarially controlled nodes reach their target nodes. Compared to existing certificates, we certify robustness to much stronger adversaries that control entire nodes in the graph and can arbitrarily manipulate node features. Our certificates provide stronger guarantees for attacks at larger distances, as messages from farther-away nodes are more likely to get intercepted. We demonstrate the effectiveness of our method on various models and datasets. Since our gray-box certificates consider the underlying graph structure, we can significantly improve certifiable robustness by applying graph sparsification.
翻訳日:2023-01-06 14:27:51 公開日:2023-01-05
# ドライバ・ディトラクションの力について:車内タッチスクリーン相互作用の視覚的要求に対する説明可能な予測

On the Forces of Driver Distraction: Explainable Predictions for the Visual Demand of In-Vehicle Touchscreen Interactions ( http://arxiv.org/abs/2301.02065v1 )

ライセンス: Link先を確認
Patrick Ebel, Christoph Lingenfelder, Andreas Vogelsang(参考訳) 現代のインフォテインメントシステムでは、ドライバーは運転中に二次業務に従事する傾向が強まっている。 運転の邪魔は致命的な事故の主な原因の1つなので、車載タッチスクリーンのヒューマンマシンインターフェース(hmis)は可能な限り注意をそらさなければならない。 これらのシステムが安全であることを保証するため、彼らは完全に機能するプロトタイプを必要とする、精巧で高価な実証テストを実施する。 したがって、設計者がドライバーの気遣いにどう影響するかを設計者に知らせる初期段階の手法は非常に価値がある。 本稿では,車内タッチスクリーン相互作用の視覚的要求を予測し,運転者の視覚的注意配分に影響を与える要因の局所的・グローバル的説明を提供する機械学習手法を提案する。 このアプローチは生産ライン車両から継続的に収集された大規模自然運転データに基づいており、SHAP法を用いて情報設計決定を利用した説明を提供する。 提案手法は関連する作業よりも精度が高く,長い視線が68 % の精度で発生するインタラクションを識別し,平均 2.4 s の誤差で総視線持続時間を予測する。 私たちの説明は、最近の様々な研究の結果を再現し、ui要素、運転自動化、ドライバーの気晴らしに対する車両速度の影響について、迅速かつ容易に洞察を与えます。 このシステムは、デザイナーが現在のデザインを評価するのを助けるだけでなく、設計決定が将来のデザインに与える影響をより正確に予測し理解するのに役立つ。

With modern infotainment systems, drivers are increasingly tempted to engage in secondary tasks while driving. Since distracted driving is already one of the main causes of fatal accidents, in-vehicle touchscreen Human-Machine Interfaces (HMIs) must be as little distracting as possible. To ensure that these systems are safe to use, they undergo elaborate and expensive empirical testing, requiring fully functional prototypes. Thus, early-stage methods informing designers about the implication their design may have on driver distraction are of great value. This paper presents a machine learning method that, based on anticipated usage scenarios, predicts the visual demand of in-vehicle touchscreen interactions and provides local and global explanations of the factors influencing drivers' visual attention allocation. The approach is based on large-scale natural driving data continuously collected from production line vehicles and employs the SHapley Additive exPlanation (SHAP) method to provide explanations leveraging informed design decisions. Our approach is more accurate than related work and identifies interactions during which long glances occur with 68 % accuracy and predicts the total glance duration with a mean error of 2.4 s. Our explanations replicate the results of various recent studies and provide fast and easily accessible insights into the effect of UI elements, driving automation, and vehicle speed on driver distraction. The system can not only help designers to evaluate current designs but also help them to better anticipate and understand the implications their design decisions might have on future designs.
翻訳日:2023-01-06 14:27:15 公開日:2023-01-05
# 音声合成のためのゼロショットテキストを用いたニューラルコーデック言語モデル

Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers ( http://arxiv.org/abs/2301.02111v1 )

ライセンス: Link先を確認
Chengyi Wang, Sanyuan Chen, Yu Wu, Ziqiang Zhang, Long Zhou, Shujie Liu, Zhuo Chen, Yanqing Liu, Huaming Wang, Jinyu Li, Lei He, Sheng Zhao, Furu Wei(参考訳) テキストから音声合成(TTS)のための言語モデリング手法を提案する。 具体的には、市販のニューラルオーディオコーデックモデルから派生した離散符号を用いて、神経コーデック言語モデル(vall-eと呼ばれる)を訓練し、ttsを従来の作業のように連続的な信号回帰ではなく条件付き言語モデリングタスクとみなす。 事前学習の段階では、既存のシステムより数百倍も大きい60K時間の英語音声にTSトレーニングデータをスケールアップする。 Vall-Eはコンテキスト内学習機能を備えており、高品質なパーソナライズされた音声を音声のプロンプトとして3秒間録音するだけで合成することができる。 実験の結果,Vall-Eは音声の自然性や話者の類似性の観点から,最先端のゼロショットTSシステムよりも優れていた。 さらに,vall-eは音声合成における話者の感情と音響環境を保存できることがわかった。 私たちの仕事のデモはhttps://aka.ms/valleを参照してください。

We introduce a language modeling approach for text to speech synthesis (TTS). Specifically, we train a neural codec language model (called Vall-E) using discrete codes derived from an off-the-shelf neural audio codec model, and regard TTS as a conditional language modeling task rather than continuous signal regression as in previous work. During the pre-training stage, we scale up the TTS training data to 60K hours of English speech which is hundreds of times larger than existing systems. Vall-E emerges in-context learning capabilities and can be used to synthesize high-quality personalized speech with only a 3-second enrolled recording of an unseen speaker as an acoustic prompt. Experiment results show that Vall-E significantly outperforms the state-of-the-art zero-shot TTS system in terms of speech naturalness and speaker similarity. In addition, we find Vall-E could preserve the speaker's emotion and acoustic environment of the acoustic prompt in synthesis. See https://aka.ms/valle for demos of our work.
翻訳日:2023-01-06 14:26:48 公開日:2023-01-05
# TractGraphCNN:拡散MRIによる分類のための解剖学的情報グラフCNN

TractGraphCNN: anatomically informed graph CNN for classification using diffusion MRI tractography ( http://arxiv.org/abs/2301.01911v1 )

ライセンス: Link先を確認
Yuqian Chen, Fan Zhang, Leo R. Zekelman, Tengfei Xue, Chaoyi Zhang, Yang Song, Nikos Makris, Yogesh Rathi, Weidong Cai, Lauren J. O'Donnell(参考訳) ニューラルネットワークを用いた非画像表現型の予測により、脳の接続の構造と変動性を調べることができる。 しかし、入力特徴間の既知の神経解剖学的関係は一般にネットワーク設計において無視される。 拡散MRIを用いた機械学習タスクのための新しい解剖学的情報付きグラフCNNフレームワークであるTractGraphCNNを提案する。 edgeconvモジュールは、グラフエッジが示す解剖学的に類似したホワイトマター接続から特徴を集約し、アテンションモジュールは予測可能なホワイトマターパスの解釈を可能にする。 性予測テストベッドタスクの結果は、2つの大きなデータセット(HCPとABCD)においてTractGraphCNNの強い性能を示す。 ホワイトマター幾何学によって情報を得たグラフは、グレーマター接続によって情報を得たグラフよりも高い性能を示す。 総じて、両側硬膜と左中縦筋は一貫して性差を強く予測している。 この研究は、ニューラルネットワークの畳み込みを導くために、解剖情報、特に入力特徴間の既知の解剖学的類似性を含む可能性を示している。

The structure and variability of the brain's connections can be investigated via prediction of non-imaging phenotypes using neural networks. However, known neuroanatomical relationships between input features are generally ignored in network design. We propose TractGraphCNN, a novel, anatomically informed graph CNN framework for machine learning tasks using diffusion MRI tractography. An EdgeConv module aggregates features from anatomically similar white matter connections indicated by graph edges, and an attention module enables interpretation of predictive white matter tracts. Results in a sex prediction testbed task demonstrate strong performance of TractGraphCNN in two large datasets (HCP and ABCD). Graphs informed by white matter geometry demonstrate higher performance than graphs informed by gray matter connectivity. Overall, the bilateral cingulum and left middle longitudinal fasciculus are consistently highly predictive of sex. This work shows the potential of incorporating anatomical information, especially known anatomical similarities between input features, to guide convolutions in neural networks.
翻訳日:2023-01-06 14:25:37 公開日:2023-01-05
# depthp+p:planarとparallaxを用いた高精度単眼深度推定

DepthP+P: Metric Accurate Monocular Depth Estimation using Planar and Parallax ( http://arxiv.org/abs/2301.02092v1 )

ライセンス: Link先を確認
Sadra Safadoust, Fatma G\"uney(参考訳) 現在の自己教師付き単眼深度推定法は、主にカメラの動きを表す剛体運動の推定に基づいている。 これらの手法は、その予測においてよく知られた曖昧さの問題に苦しむ。 本稿では,従来の平面パララックスパラダイムに従えば,メートル法で出力を推定できるDepthP+Pを提案する。 まず、カメラモーションにおける回転成分の影響を除去する共通接地面を用いて、2つのフレームをアライメントする。 2つのニューラルネットワークで深度とカメラ翻訳を予測し、回転とともに予測するよりも単独で予測することが容易である。 既知のカメラ高さを仮定することで、3次元点の誘導2次元像の動きを計算し、自己教師付き単眼的アプローチで目標像を再構成する。 キティ駆動データセット上で実験を行い, カメラ翻訳の予測のみを必要とする平面視差アプローチが, 6dofカメラ動作の推定に依存する現在の手法に, メートル法的に高精度な代替手段となることを示す。

Current self-supervised monocular depth estimation methods are mostly based on estimating a rigid-body motion representing camera motion. These methods suffer from the well-known scale ambiguity problem in their predictions. We propose DepthP+P, a method that learns to estimate outputs in metric scale by following the traditional planar parallax paradigm. We first align the two frames using a common ground plane which removes the effect of the rotation component in the camera motion. With two neural networks, we predict the depth and the camera translation, which is easier to predict alone compared to predicting it together with rotation. By assuming a known camera height, we can then calculate the induced 2D image motion of a 3D point and use it for reconstructing the target image in a self-supervised monocular approach. We perform experiments on the KITTI driving dataset and show that the planar parallax approach, which only needs to predict camera translation, can be a metrically accurate alternative to the current methods that rely on estimating 6DoF camera motion.
翻訳日:2023-01-06 14:19:54 公開日:2023-01-05
# CRADL: 教師なし異常検出と局所化のためのコントラスト表現

CRADL: Contrastive Representations for Unsupervised Anomaly Detection and Localization ( http://arxiv.org/abs/2301.02126v1 )

ライセンス: Link先を確認
Carsten T. L\"uth, David Zimmerer, Gregor Koehler, Paul F. Jaeger, Fabian Isensee, Jens Petersen, Klaus H. Maier-Hein(参考訳) 医用画像における教師なし異常検出は、訓練中に注釈付き異常データを必要とせずに任意の異常を検出・局在化することを目的としている。 これは通常サンプルのデータ分布を学習し、この分布から逸脱する画像内の領域として異常を検出することで達成されることが多い。 現在の最先端手法のほとんどは、画像上で直接動作する潜在変数生成モデルを使用している。 しかし、生成モデルは、リッチなセマンティックな特徴ではなく、ピクセル強度のような低レベルな特徴を主に捉えることが示されている。 我々は、コントラストプレテクストタスクで訓練されたエンコーダの低次元表現空間において、正規サンプルの分布を直接モデル化するCRADLを提案し、この問題を回避する。 コントラスト学習の表現を利用することで、低レベルの特徴の過剰な固定を解消し、より意味豊かな表現を学ぶことを目指す。 3つの異なる評価データセットを用いた異常検出と局所化に関する実験の結果 1)コントラスト表現は生成的潜在変数モデルの表現よりも優れている。 2) CRADLフレームワークは最先端技術に対する競争力や優れた性能を示している。

Unsupervised anomaly detection in medical imaging aims to detect and localize arbitrary anomalies without requiring annotated anomalous data during training. Often, this is achieved by learning a data distribution of normal samples and detecting anomalies as regions in the image which deviate from this distribution. Most current state-of-the-art methods use latent variable generative models operating directly on the images. However, generative models have been shown to mostly capture low-level features, s.a. pixel-intensities, instead of rich semantic features, which also applies to their representations. We circumvent this problem by proposing CRADL whose core idea is to model the distribution of normal samples directly in the low-dimensional representation space of an encoder trained with a contrastive pretext-task. By utilizing the representations of contrastive learning, we aim to fix the over-fixation on low-level features and learn more semantic-rich representations. Our experiments on anomaly detection and localization tasks using three distinct evaluation datasets show that 1) contrastive representations are superior to representations of generative latent variable models and 2) the CRADL framework shows competitive or superior performance to state-of-the-art.
翻訳日:2023-01-06 14:19:35 公開日:2023-01-05
# 顔提示攻撃検出のためのアンサンブルスタックによるドメイン一般化

Domain Generalization via Ensemble Stacking for Face Presentation Attack Detection ( http://arxiv.org/abs/2301.02145v1 )

ライセンス: Link先を確認
Usman Muhammad, Djamila Romaissa Beddiar, Mourad Oussalah(参考訳) 顔提示攻撃検出(PAD)は、偽造攻撃に対する顔認識システムを保護する上で重要な役割を担っている。 フェイスパッド法の設計には大きな進歩があったが、未発見のテストドメインにうまく一般化できるモデルの開発は依然として大きな課題である。 さらに、さまざまな種類のスプーフィング攻撃のために、ディープニューラルネットワークをトレーニングする十分な数のサンプルでデータセットを作成するのは、面倒な作業である。 この研究は、合成データを作成し、顔PADの一般化能力を改善するためのディープラーニングベースの統合フレームワークを導入することで、これらの課題に対処する。 特に、アルファ合成に基づく時空間歪み画像と静止画像とをブレンドするビデオ蒸留技術を提案することにより、合成データを生成する。 提案する合成サンプルは, 異なるα重みを増加させることによって生成できるため, スタックアンサンブルと呼ばれる特定の種類のアンサンブル学習を活用し, それぞれの分類器が自身のドメインで専門家となるが, 他者には専門的でない複数の分類器を訓練する。 この動機づけは、これらの専門家から協調的に学習するためにメタ分類器が使われ、アンサンブルを開発するとき、相互に補完的な情報を活用し、より良い取り組みをしたり、ターゲットとなるドメインにもっと役立つようにします。 CASIA-MFSD (6.97 %)、Replay-Attack (33.49%)、MSU-MFSD (4.02%)、OULU-NPU (10.91%) の4つのPADデータベース上でハーフトータルエラーレート (HTER) を用いた実験結果は、この手法の堅牢性を実証し、大規模な合成データを用いたアンサンブル学習によるプレゼンテーション攻撃検出の新たな可能性を開く。

Face presentation attack detection (PAD) plays a pivotal role in securing face recognition systems against spoofing attacks. Although great progress has been made in designing face PAD methods, developing a model that can generalize well to an unseen test domain remains a significant challenge. Moreover, due to different types of spoofing attacks, creating a dataset with a sufficient number of samples for training deep neural networks is a laborious task. This work addresses these challenges by creating synthetic data and introducing a deep learning-based unified framework for improving the generalization ability of the face PAD. In particular, synthetic data is generated by proposing a video distillation technique that blends a spatiotemporal warped image with a still image based on alpha compositing. Since the proposed synthetic samples can be generated by increasing different alpha weights, we train multiple classifiers by taking the advantage of a specific type of ensemble learning known as a stacked ensemble, where each such classifier becomes an expert in its own domain but a non-expert to others. Motivated by this, a meta-classifier is employed to learn from these experts collaboratively so that when developing an ensemble, they can leverage complementary information from each other to better tackle or be more useful for an unseen target domain. Experimental results using half total error rates (HTERs) on four PAD databases CASIA-MFSD (6.97 %), Replay-Attack (33.49%), MSU-MFSD (4.02%), and OULU-NPU (10.91%)) demonstrate the robustness of the method and open up new possibilities for advancing presentation attack detection using ensemble learning with large-scale synthetic data.
翻訳日:2023-01-06 14:19:19 公開日:2023-01-05
# ANNA: ニュースキャプションを用いた抽象的テキスト・画像合成

ANNA: Abstractive Text-to-Image Synthesis with Filtered News Captions ( http://arxiv.org/abs/2301.02160v1 )

ライセンス: Link先を確認
Aashish Anantha Ramakrishnan, Sharon X. Huang, Dongwon Lee(参考訳) 近年のテキスト対画像合成の進歩は、記述的なキャプションを持つデータセット上で生成されたサンプルの品質向上に重点を置いている。 しかし、ニュースデータなどのドメインに存在する実世界のイメージキャプチャペアは、単純かつ直接記述的なキャプションを使用しない。 画像の内容と下層の文脈的手がかりの両方に関する情報を含むキャプションによって、それらは本質的に抽象的になる。 本稿では,さまざまな状況下でオンラインニュース記事から抽出した抽象ニュースキャプティオNs dAtasetであるANNAをローンチする。 本稿では,従来のテキスト・ツー・イメージ合成モデルを用いて,ANNAにベンチマークすることで,抽象的なキャプションを用いてニュースドメイン固有の画像を生成する能力について検討する。 生成した画像は、文脈的関連性、視覚的品質、および接地トラス画像と知覚的類似性に基づいて判定される。 本実験により, トランスファー学習のような手法は, 抽象的キャプションの理解において限定的な成功を収めるが, コンテンツと文脈特徴の関係を一貫して学習することができないことを示した。

Advancements in Text-to-Image synthesis over recent years have focused more on improving the quality of generated samples on datasets with descriptive captions. However, real-world image-caption pairs present in domains such as news data do not use simple and directly descriptive captions. With captions containing information on both the image content and underlying contextual cues, they become abstractive in nature. In this paper, we launch ANNA, an Abstractive News captioNs dAtaset extracted from online news articles in a variety of different contexts. We explore the capabilities of current Text-to-Image synthesis models to generate news domain-specific images using abstractive captions by benchmarking them on ANNA, in both standard training and transfer learning settings. The generated images are judged on the basis of contextual relevance, visual quality, and perceptual similarity to ground-truth image-caption pairs. Through our experiments, we show that techniques such as transfer learning achieve limited success in understanding abstractive captions but still fail to consistently learn the relationships between content and context features.
翻訳日:2023-01-06 14:18:44 公開日:2023-01-05
# EgoDistill:効率的なビデオ理解のためのエゴセントリックな頭部運動蒸留

EgoDistill: Egocentric Head Motion Distillation for Efficient Video Understanding ( http://arxiv.org/abs/2301.02217v1 )

ライセンス: Link先を確認
Shuhan Tan, Tushar Nagarajan, Kristen Grauman(参考訳) エゴセントリックビデオ理解モデルの最近の進歩は有望だが、その計算コストは実世界の多くのアプリケーションにとって障壁となっている。 この課題に対処するため,本論文では,軽量IMU読影器の頭部運動と疎ビデオフレームのセマンティクスを組み合わせることで,重心集中型ビデオクリップの特徴を再構築する蒸留法であるEgoDistillを提案する。 さらに,IMU機能学習のための自己指導型学習戦略を考案する。 提案手法により効率が大幅に向上し,200倍のGFLOPが要求される。 我々は,ego4dおよびepickitchensデータセット上での有効性を実証する。

Recent advances in egocentric video understanding models are promising, but their heavy computational expense is a barrier for many real-world applications. To address this challenge, we propose EgoDistill, a distillation-based approach that learns to reconstruct heavy egocentric video clip features by combining the semantics from a sparse set of video frames with the head motion from lightweight IMU readings. We further devise a novel self-supervised training strategy for IMU feature learning. Our method leads to significant improvements in efficiency, requiring 200x fewer GFLOPs than equivalent video models. We demonstrate its effectiveness on the Ego4D and EPICKitchens datasets, where our method outperforms state-of-the-art efficient video understanding methods.
翻訳日:2023-01-06 14:18:26 公開日:2023-01-05
# hyperreel:レイコンサンプリング付き高忠実度6dofビデオ

HyperReel: High-Fidelity 6-DoF Video with Ray-Conditioned Sampling ( http://arxiv.org/abs/2301.02238v1 )

ライセンス: Link先を確認
Benjamin Attal, Jia-Bin Huang, Christian Richardt, Michael Zollhoefer, Johannes Kopf, Matthew O'Toole, Changil Kim(参考訳) ボリュームシーン表現は静的シーンのフォトリアリスティックなビュー合成を可能にし、既存の6-DoFビデオ技術の基礎を形成する。 しかし、これらの表現を駆動するボリュームレンダリング手順は、品質、レンダリング速度、メモリ効率に関して慎重なトレードオフを必要とする。 特に、既存のメソッドは、リアルタイムパフォーマンス、小さなメモリフットプリント、現実世界のシーンに挑戦するための高品質なレンダリングを同時に達成することができない。 これらの問題に対処するために,新しい6-DoFビデオ表現HyperReelを提案する。 ハイパーリールの2つのコアコンポーネントは、(1)高精細で高フレームレートのレンダリングを可能にするレイコンディショニングされたサンプル予測ネットワーク、(2)コンパクトでメモリ効率の良い動的ボリューム表現である。 私たちの6dofビデオパイプラインは、小さなメモリ要件による視覚品質の面では、以前のものよりも優れたパフォーマンスを実現していますが、カスタムcudaコードなしでは最大18フレーム/秒のメガピクセル解像度でレンダリングできます。

Volumetric scene representations enable photorealistic view synthesis for static scenes and form the basis of several existing 6-DoF video techniques. However, the volume rendering procedures that drive these representations necessitate careful trade-offs in terms of quality, rendering speed, and memory efficiency. In particular, existing methods fail to simultaneously achieve real-time performance, small memory footprint, and high-quality rendering for challenging real-world scenes. To address these issues, we present HyperReel -- a novel 6-DoF video representation. The two core components of HyperReel are: (1) a ray-conditioned sample prediction network that enables high-fidelity, high frame rate rendering at high resolutions and (2) a compact and memory efficient dynamic volume representation. Our 6-DoF video pipeline achieves the best performance compared to prior and contemporary approaches in terms of visual quality with small memory requirements, while also rendering at up to 18 frames-per-second at megapixel resolution without any custom CUDA code.
翻訳日:2023-01-06 14:18:12 公開日:2023-01-05
# ロバストな動的放射場

Robust Dynamic Radiance Fields ( http://arxiv.org/abs/2301.02239v1 )

ライセンス: Link先を確認
Yu-Lun Liu, Chen Gao, Andreas Meuleman, Hung-Yu Tseng, Ayush Saraf, Changil Kim, Yung-Yu Chuang, Johannes Kopf, Jia-Bin Huang(参考訳) 動的放射場再構成法は動的シーンの時間変化構造と外観をモデル化することを目的としている。 しかし、既存の手法では、正確なカメラポーズをStructure from Motion (SfM)アルゴリズムによって確実に推定できると仮定している。 したがって、これらの手法は、しばしばSfMアルゴリズムが、高ダイナミックなオブジェクト、粗いテクスチャ面、回転するカメラモーションを持つ挑戦的なビデオに失敗または誤ポーズを生じさせるため、信頼性が低い。 カメラパラメータ(位置と焦点距離)とともに静的および動的放射場を共同で推定することにより、このロバスト性に対処する。 我々は、広範囲な定量的および定性的実験を通して、我々のアプローチの堅牢性を示す。 その結果,現状の動的ビュー合成法よりも優れた性能を示した。

Dynamic radiance field reconstruction methods aim to model the time-varying structure and appearance of a dynamic scene. Existing methods, however, assume that accurate camera poses can be reliably estimated by Structure from Motion (SfM) algorithms. These methods, thus, are unreliable as SfM algorithms often fail or produce erroneous poses on challenging videos with highly dynamic objects, poorly textured surfaces, and rotating camera motion. We address this robustness issue by jointly estimating the static and dynamic radiance fields along with the camera parameters (poses and focal length). We demonstrate the robustness of our approach via extensive quantitative and qualitative experiments. Our results show favorable performance over the state-of-the-art dynamic view synthesis methods.
翻訳日:2023-01-06 14:17:54 公開日:2023-01-05
# スキップ注意:注意力の低下による視覚変換器の改善

Skip-Attention: Improving Vision Transformers by Paying Less Attention ( http://arxiv.org/abs/2301.02240v1 )

ライセンス: Link先を確認
Shashanka Venkataramanan, Amir Ghodrati, Yuki M. Asano, Fatih Porikli, Amirhossein Habibian(参考訳) 本研究の目的は、視覚変換器(ViT)の効率を改善することである。 vitは、各層で計算コストの高い自己アテンション操作を使用しているが、これらの操作が層間で高い相関関係にあることを認識している。 そこで本研究では,先行層からの自己注意計算を再利用し,次の層に注目する手法であるSkipAtを提案する。 レイヤ間の自己アテンションブロックの再利用が性能を低下させないように,計算速度を高速化しつつ,ベースライントランスフォーマーの性能を上回る単純なパラメトリック関数を導入する。 本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。 これらすべてのタスクにおいて、同じまたは高い精度でスループットが向上します。

This work aims to improve the efficiency of vision transformers (ViT). While ViTs use computationally expensive self-attention operations in every layer, we identify that these operations are highly correlated across layers -- a key redundancy that causes unnecessary computations. Based on this observation, we propose SkipAt, a method to reuse self-attention computation from preceding layers to approximate attention at one or more subsequent layers. To ensure that reusing self-attention blocks across layers does not degrade the performance, we introduce a simple parametric function, which outperforms the baseline transformer's performance while running computationally faster. We show the effectiveness of our method in image classification and self-supervised learning on ImageNet-1K, semantic segmentation on ADE20K, image denoising on SIDD, and video denoising on DAVIS. We achieve improved throughput at the same-or-higher accuracy levels in all these tasks.
翻訳日:2023-01-06 14:17:40 公開日:2023-01-05
# 会話型AIの政治的イデオロギー:ChatGPTの環境擁護的、左自由主義的指向に関する証拠の収束

The political ideology of conversational AI: Converging evidence on ChatGPT's pro-environmental, left-libertarian orientation ( http://arxiv.org/abs/2301.01768v1 )

ライセンス: Link先を確認
Jochen Hartmann, Jasper Schwenzow, Maximilian Witte(参考訳) 会話型人工知能(AI)は、人間がテクノロジーと対話する方法を妨害する。 最近openaiは、前例のない能力で人間と会話できる最先端の対話モデルであるchatgptを導入した。 ChatGPTは、メディア、アカデミック、業界、一般大衆から大きな注目を集め、リリース後数日で100万人以上のユーザーを惹きつけている。 しかし、情報検索の爆発的な普及と自動意思決定支援は、その限界とバイアスを理解することの重要性を強調している。 本稿では,民主社会の最も重要な意思決定プロセスである政治選挙に焦点を当てる。 ChatGPTは2つの主要な投票助言書から630の政治的声明と3つの事前登録された実験で国家に無知なコンパステストにより、ChatGPTの環境擁護的、自由主義的イデオロギーを明らかにする。 例えば、ChatGPTはフライトに税金を課し、賃上げを制限し、中絶を合法化する。 2021年の選挙では、ドイツ(B\"undnis 90/Die Gr\"unen")とオランダ(GroenLinks)の両方で緑の党に投票した。 私たちの発見は、プロンプトの否定、ステートメントの順序の逆転、迅速なフォーマル性の変化、言語全体(英語、ドイツ語、オランダ語、スペイン語)において堅牢である。 政治的に偏った会話型AIが社会に与える影響を論じる。

Conversational artificial intelligence (AI) disrupts how humans interact with technology. Recently, OpenAI introduced ChatGPT, a state-of-the-art dialogue model that can converse with its human counterparts with unprecedented capabilities. ChatGPT has witnessed tremendous attention from the media, academia, industry, and the general public, attracting more than a million users within days of its release. However, its explosive adoption for information search and as an automated decision aid underscores the importance to understand its limitations and biases. This paper focuses on one of democratic society's most important decision-making processes: political elections. Prompting ChatGPT with 630 political statements from two leading voting advice applications and the nation-agnostic political compass test in three pre-registered experiments, we uncover ChatGPT's pro-environmental, left-libertarian ideology. For example, ChatGPT would impose taxes on flights, restrict rent increases, and legalize abortion. In the 2021 elections, it would have voted most likely for the Greens both in Germany (B\"undnis 90/Die Gr\"unen) and in the Netherlands (GroenLinks). Our findings are robust when negating the prompts, reversing the order of the statements, varying prompt formality, and across languages (English, German, Dutch, and Spanish). We conclude by discussing the implications of politically biased conversational AI on society.
翻訳日:2023-01-06 14:17:25 公開日:2023-01-05
# 動き情報に基づく小型移動物体検出アルゴリズム

Small Moving Object Detection Algorithm Based on Motion Information ( http://arxiv.org/abs/2301.01917v1 )

ライセンス: Link先を確認
Ziwei Sun, Zexi Hua, Hengcao Li(参考訳) 動き情報に基づくサンプル移動物体検出アルゴリズム (SMOD-BMI) を提案し, 信号対雑音比 (SNR) の低い小さな移動物体を検出する。 まず、不審な移動物体を捕捉するために、コンボリューショナル・ロング・アンド・ショート・タイム・メモリ(ConvLSTM)ネットワークが時間・空間情報を融合したConvLSTM-SCM-PANモデル構造を設計し、SCM(Selective Concatenate Module)を選択し、不審な移動物体のチャネル不均衡を解消した。 次に、疑わしい移動物体を追跡し、その動き範囲(mr)を算出するためにオブジェクト追跡アルゴリズムを用いる。 同時に、不審な移動物体の移動速度に応じて、そのmrのサイズを適応的に調整する(具体的には、物体がゆっくり動くと、その速度に応じてmrを拡張して状況環境情報を確保する)ことで、その適応候補運動範囲(acmr)を得ることにより、必要な状況情報を保持しながら、移動物体のsnrが改善されるようにする。 最後に、SCMモジュールを用いたACMRに基づくLightWeight SCM U-Shape Net(LW-SCM-USN)を設計し、小型移動物体を高精度かつ迅速に識別する。 本稿では,監視ビデオ中の移動鳥を実験データセットとして用いて,アルゴリズムの性能を検証する。 実験の結果,提案手法は動作情報に基づく小型物体検出手法により,欠落率と誤検出率を効果的に低減でき,その性能は既存のsomaの小型物体検出法よりも優れていることがわかった。

A Samll Moving Object Detection algorithm Based on Motion Information (SMOD-BMI) was proposed to detect small moving objects with low Signal-to-Noise Ratio (SNR). Firstly, To capture suspicious moving objects, a ConvLSTM-SCM-PAN model structure was designed, in which the Convolutional Long and Short Time Memory (ConvLSTM) network fused temporal and spatial information, the Selective Concatenate Module (SCM) was selected to solve the problem of channel unbalance during feature fusion, and the Path Aggregation Network (PAN) located the suspicious moving objects. Then, an object tracking algorithm is used to track suspicious moving objects and calculate their Motion Range (MR). At the same time, according to the moving speed of the suspicious moving objects, the size of their MR is adjusted adaptively (To be specific, if the objects move slowly, we expand their MR according their speed to ensure the contextual environment information) to obtain their Adaptive Candidate Motion Range (ACMR), so as to ensure that the SNR of the moving object is improved while the necessary context information is retained adaptively. Finally, a LightWeight SCM U-Shape Net (LW-SCM-USN) based on ACMR with a SCM module is designed to classify and locate small moving objects accurately and quickly. In this paper, the moving bird in surveillance video is used as the experimental dataset to verify the performance of the algorithm. The experimental results show that the proposed small moving object detection method based on motion information can effectively reduce the missing rate and false detection rate, and its performance is better than the existing moving small object detection method of SOTA.
翻訳日:2023-01-06 14:11:34 公開日:2023-01-05
# ファインチューニングによるファウショットギャラリーのオープンセット顔識別

Open-Set Face Identification on Few-Shot Gallery by Fine-Tuning ( http://arxiv.org/abs/2301.01922v1 )

ライセンス: Link先を確認
Hojin Park, Jaewoo Park, and Andrew Beng Jin Teoh(参考訳) 本稿では,数枚の画廊におけるオープンセットの顔識別問題に微調整で対処することに焦点を当てる。 この問題は、顔認証の現実的なシナリオを前提としており、登録には少数の顔画像しか与えられず、識別中に未知の識別を拒絶しなければならない。 大規模なデータセットで事前訓練された顔認識モデルと、微調整されたモデルが、このタスクに対して不十分な性能を示すことを観察する。 本稿では,分類器の重み付けと排他的BatchNorm層チューニングを用いた効果的な微調整手法を提案する。 未知のアイデンティティに対する拒絶精度のさらなる向上を図るため,近隣情報に基づく類似性を算出したNeighborhood Aware Cosine(NAC)を提案する。 本稿では,様々な畳み込みニューラルネットワークアーキテクチャにわたる大規模顔ベンチマークにおいて,提案手法の有効性を徹底的に検証する。 このプロジェクトのソースコードは、https://github.com/1ho0jin1/OSFI-by-FineTuning.comで入手できる。

In this paper, we focus on addressing the open-set face identification problem on a few-shot gallery by fine-tuning. The problem assumes a realistic scenario for face identification, where only a small number of face images is given for enrollment and any unknown identity must be rejected during identification. We observe that face recognition models pretrained on a large dataset and naively fine-tuned models perform poorly for this task. Motivated by this issue, we propose an effective fine-tuning scheme with classifier weight imprinting and exclusive BatchNorm layer tuning. For further improvement of rejection accuracy on unknown identities, we propose a novel matcher called Neighborhood Aware Cosine (NAC) that computes similarity based on neighborhood information. We validate the effectiveness of the proposed schemes thoroughly on large-scale face benchmarks across different convolutional neural network architectures. The source code for this project is available at: https://github.com/1ho0jin1/OSFI-by-FineTuning
翻訳日:2023-01-06 14:10:59 公開日:2023-01-05
# イベントカメラデータの事前トレーニング

Event Camera Data Pre-training ( http://arxiv.org/abs/2301.01928v1 )

ライセンス: Link先を確認
Yan Yang and Liyuan Pan and Liu Liu(参考訳) 本稿では,イベントカメラデータを扱うためのトレーニング済みニューラルネットワークを提案する。 私たちのモデルは、自己教師付き学習フレームワークでトレーニングされ、ペアのイベントカメラデータと自然なrgbイメージを使用してトレーニングを行います。 提案手法は3つのモジュールを連続して連結する。 一 自己監督訓練のための有意義なイベント画像を生成するイベントデータ増強の家系 二 イベント画像から有意義なイベントパッチをサンプリングし、我々のモデルにシーンの空間配置を捉え、迅速なトレーニングを促すための条件付きマスキング戦略。 三 一致したイベント画像とペア化されたイベント-RGB画像との埋め込みの類似性を強制する対照的な学習方法。 イベント埋め込み類似性を強制する際のモデル崩壊を回避するため、埋め込み投影損失を提案する。 特徴空間におけるイベントデータのペアRGB画像との整合性を促進するために,確率分布アライメント損失を提案する。 ダウンストリームタスクにおける転送性能は,最先端メソッドよりも優れた性能を示す。 例えば、N-ImageNetデータセット上で64.83\%でトップ1の精度を達成する。

This paper proposes a pre-trained neural network for handling event camera data. Our model is trained in a self-supervised learning framework, and uses paired event camera data and natural RGB images for training. Our method contains three modules connected in a sequence: i) a family of event data augmentations, generating meaningful event images for self-supervised training; ii) a conditional masking strategy to sample informative event patches from event images, encouraging our model to capture the spatial layout of a scene and fast training; iii) a contrastive learning approach, enforcing the similarity of embeddings between matching event images, and between paired event-RGB images. An embedding projection loss is proposed to avoid the model collapse when enforcing event embedding similarities. A probability distribution alignment loss is proposed to encourage the event data to be consistent with its paired RGB image in feature space. Transfer performance in downstream tasks shows superior performance of our method over state-of-the-art methods. For example, we achieve top-1 accuracy at 64.83\% on the N-ImageNet dataset.
翻訳日:2023-01-06 14:10:42 公開日:2023-01-05
# 映像言語課題のための学習軌跡単語アライメント

Learning Trajectory-Word Alignments for Video-Language Tasks ( http://arxiv.org/abs/2301.01953v1 )

ライセンス: Link先を確認
Xu Yang, Zhangzikang Li, Haiyang Xu, Hanwang Zhang, Qinghao Ye, Chenliang Li, Ming Yan, Yu Zhang, Fei Huang, Songfang Huang(参考訳) Image-Language BERT (IL-BERT) と Video-Language BERT (VDL-BERT) では、言葉でオブジェクトを調整することが重要な役割を果たす。 オブジェクトがいくつかの空間的パッチをカバーしている場合とは異なり、ビデオ内のオブジェクトは通常、オブジェクトの軌道として現れる、すなわち、いくつかの空間的だがより長い時間的パッチにまたがるので、豊富な時空間的コンテキストを含む。 しかしながら、現代のVDL-BERTは、通常、パッチ・トゥ・ワード(P2W)の注意を配置するためにIL-BERTに従うというこの軌跡を無視する一方、そのような注意は、自明な空間的コンテキストを過度に露出し、時間的文脈を無視する。 そこで本稿では,ビデオ言語タスクを解くためのトラジェクティブ・ワードアライメントを学習するための新しいTW-BERTを提案する。 このようなアライメントは、新しく設計されたt2wの注意によって学習される。 また,従来のVDL-BERTを追従して,モーダルエンコーダにワード・トゥ・パッチ(W2P)の注意を設定する。 T2WとW2Pの注意は多様であるため、我々のクロスモーダルエンコーダは非対称である。 この非対称なクロスモーダルエンコーダが堅牢な視覚言語アソシエーションを構築するのに役立ち、ビデオやテキストエンコーダによって計算された埋め込み空間を閉じるための粒度の 'align-before-fuse'' 戦略を提案する。 提案した戦略とT2Wの注目により、我々のTW-BERTは、テキストからビデオまでの検索タスクにおけるSOTAパフォーマンスと、より多くのデータで訓練されたVDL-BERTを用いたビデオ質問応答タスクにおける同等のパフォーマンスを達成する。 コードは補足資料で入手できます。

Aligning objects with words plays a critical role in Image-Language BERT (IL-BERT) and Video-Language BERT (VDL-BERT). Different from the image case where an object covers some spatial patches, an object in a video usually appears as an object trajectory, i.e., it spans over a few spatial but longer temporal patches and thus contains abundant spatiotemporal contexts. However, modern VDL-BERTs neglect this trajectory characteristic that they usually follow IL-BERTs to deploy the patch-to-word (P2W) attention while such attention may over-exploit trivial spatial contexts and neglect significant temporal contexts. To amend this, we propose a novel TW-BERT to learn Trajectory-Word alignment for solving video-language tasks. Such alignment is learned by a newly designed trajectory-to-word (T2W) attention. Besides T2W attention, we also follow previous VDL-BERTs to set a word-to-patch (W2P) attention in the cross-modal encoder. Since T2W and W2P attentions have diverse structures, our cross-modal encoder is asymmetric. To further help this asymmetric cross-modal encoder build robust vision-language associations, we propose a fine-grained ``align-before-fuse'' strategy to pull close the embedding spaces calculated by the video and text encoders. By the proposed strategy and T2W attention, our TW-BERT achieves SOTA performances on text-to-video retrieval tasks, and comparable performances on video question answering tasks with some VDL-BERTs trained on much more data. The code will be available in the supplementary material.
翻訳日:2023-01-06 14:10:28 公開日:2023-01-05
# 画像キャプションのための隣接要素の適応クラスタリング

Adaptively Clustering Neighbor Elements for Image Captioning ( http://arxiv.org/abs/2301.01955v1 )

ライセンス: Link先を確認
Zihua Wang and Xu Yang and Haiyang Xu and Hanwang Zhang and Chenliang Li and Songfang Huang and Fei Huang and Yu Zhang(参考訳) 我々は,キャプションを生成するために,新しいグローバルローカルトランスフォーマーである \textbf{Ada-ClustFormer} (\textbf{ACF}) を設計する。 ACFの各レイヤが適応的に入力要素をクラスタリングして、ローカルコンテキストの学習に自己注意(Self-ATT)を持てるので、この名前を使います。 固定サイズの窓にセルフアットを持つ他のグローバルローカルトランスフォーマーと比較すると、affは様々な粒度を捉えることができる。 ACFを構築するために、確率行列CをSelf-ATT層に挿入する。 入力シーケンス {{s}_1,...,{s}_N ,C_{i,j} は、自己ATTを運ぶためにサブシーケンス {s_i,...,s_j} をクラスタ化するか否かをソフトに決定する。 実装のために、{c}_{i,j} は {{s}_i,...,{s}_j} の文脈から計算されるので、acf は入力自身を利用してどの局所的な文脈を学ぶべきかを決定することができる。 acfを使って視覚エンコーダと言語デコーダを構築することで、キャプションモデルは視覚と言語の両方の隠れた構造を自動的に発見することができる。 実験の結果,ACFが137.8のCIDErを達成し,ほとんどのSOTAキャプションモデルより優れ,BERTベースモデルと同等のスコアが得られることがわかった。 コードは補足資料で入手できます。

We design a novel global-local Transformer named \textbf{Ada-ClustFormer} (\textbf{ACF}) to generate captions. We use this name since each layer of ACF can adaptively cluster input elements to carry self-attention (Self-ATT) for learning local context. Compared with other global-local Transformers which carry Self-ATT in fixed-size windows, ACF can capture varying graininess, \eg, an object may cover different numbers of grids or a phrase may contain diverse numbers of words. To build ACF, we insert a probabilistic matrix C into the Self-ATT layer. For an input sequence {{s}_1,...,{s}_N , C_{i,j} softly determines whether the sub-sequence {s_i,...,s_j} should be clustered for carrying Self-ATT. For implementation, {C}_{i,j} is calculated from the contexts of {{s}_i,...,{s}_j}, thus ACF can exploit the input itself to decide which local contexts should be learned. By using ACF to build the vision encoder and language decoder, the captioning model can automatically discover the hidden structures in both vision and language, which encourages the model to learn a unified structural space for transferring more structural commonalities. The experiment results demonstrate the effectiveness of ACF that we achieve CIDEr of 137.8, which outperforms most SOTA captioning models and achieve comparable scores compared with some BERT-based models. The code will be available in the supplementary material.
翻訳日:2023-01-06 14:09:53 公開日:2023-01-05
# 高レベルセマンティックな特徴はドメイン適応の非教師なしを重要視する

High-level semantic feature matters few-shot unsupervised domain adaptation ( http://arxiv.org/abs/2301.01956v1 )

ライセンス: Link先を確認
Lei Yu, Wanqi Yang, Shengqi Huang, Lei Wang, Ming Yang(参考訳) 数ショットの非教師付きドメイン適応(FS-UDA)では、ほとんどの既存の手法は、低レベルの局所的特徴(例えばResNetのような従来の畳み込みモデルから派生した)を分類するために、数ショットの学習(FSL)法に従った。 fs-uda はソースドメインではなくターゲットドメインのサンプルを分類することを目的としているため、fs-uda と fsl の目標は別物である。 局所的な特徴はFS-UDAには不十分であり, 分類に対するノイズや偏見を生じさせる可能性があり, ドメインを効果的に整合させるには使用できないことがわかった。 上記の問題に対処するため,我々は,より識別的で分類に関連のある局所的な特徴を洗練することを目指している。 そこで本研究では,FS-UDAのためのタスク固有意味特徴学習法(TSECS)を提案する。 TSECSは画像間類似度測定のための高レベルの意味的特徴を学習する。 高レベルな機能に基づいて、ソースドメイン内の少数のラベル付きサンプルを活用してターゲットドメインに分類器を構築するために、クロスドメインの自己学習戦略を設計します。 さらに、ソース領域とターゲット領域の間の高レベル特徴分布のkl分岐を最小化し、2つのドメイン間のサンプル距離を短縮する。 DomainNetの大規模な実験により、提案手法はFS-UDAのSOTA法を大きなマージン(10%)で大幅に上回ることがわかった。

In few-shot unsupervised domain adaptation (FS-UDA), most existing methods followed the few-shot learning (FSL) methods to leverage the low-level local features (learned from conventional convolutional models, e.g., ResNet) for classification. However, the goal of FS-UDA and FSL are relevant yet distinct, since FS-UDA aims to classify the samples in target domain rather than source domain. We found that the local features are insufficient to FS-UDA, which could introduce noise or bias against classification, and not be used to effectively align the domains. To address the above issues, we aim to refine the local features to be more discriminative and relevant to classification. Thus, we propose a novel task-specific semantic feature learning method (TSECS) for FS-UDA. TSECS learns high-level semantic features for image-to-class similarity measurement. Based on the high-level features, we design a cross-domain self-training strategy to leverage the few labeled samples in source domain to build the classifier in target domain. In addition, we minimize the KL divergence of the high-level feature distributions between source and target domains to shorten the distance of the samples between the two domains. Extensive experiments on DomainNet show that the proposed method significantly outperforms SOTA methods in FS-UDA by a large margin (i.e., 10%).
翻訳日:2023-01-06 14:09:23 公開日:2023-01-05
# CAT: オープンワールドオブジェクト検出のためのLoCalizationとIdentificAtion Cascade Detection Transformer

CAT: LoCalization and IdentificAtion Cascade Detection Transformer for Open-World Object Detection ( http://arxiv.org/abs/2301.01970v1 )

ライセンス: Link先を確認
Shuailei Ma, Yuefeng Wang, Jiaqi Fan, Ying Wei, Thomas H. Li, Hongli Liu and Fanbing Lv(参考訳) より一般的で挑戦的な目標であるopen-world object detection(owod)は、既知のオブジェクトと未知のオブジェクトの両方を検出し、これらの未知のオブジェクトを段階的に識別するために、既知のオブジェクトのデータからトレーニングされたモデルを必要とする。 標準検出フレームワークと固定擬似ラベリング機構(PLM)を用いた既存の研究には次のような問題がある。 (i)未知の物体を検出することは、モデルが既知の物体を検出する能力を大幅に減少させる。 (ii)plmは、入力の事前知識を十分に活用していない。 (iii)plmの固定的な選択方法は、モデルが正しい方向に訓練されていることを保証できない。 我々は、人間は、混乱を緩和するために、1つの物体を同時にローカライズし識別するのではなく、全ての前景の物体に集中し、各物体を詳細に識別することを好むと観察する。 これにより,共有デコーダによる検出プロセスをカスケード復号方式でデカップリングする,cat(localization and identification cascade detection transformer)という新しい手法が提案される。 一方,モデル駆動と入力駆動plmを組み合わせた自己適応型擬似ラベル機構を提案し,未知オブジェクトに対するロバストな擬似ラベルを生成し,猫による未知オブジェクトの検索能力を大幅に向上させる。 2つのベンチマークデータセット(MS-COCOとPASCAL VOC)の総合的な実験により、OWOD、インクリメンタルオブジェクト検出(IOD)、オープンセット検出(Open-set detection)のタスクにおける全ての指標において、我々のモデルが最先端よりも優れていることが示された。

Open-world object detection (OWOD), as a more general and challenging goal, requires the model trained from data on known objects to detect both known and unknown objects and incrementally learn to identify these unknown objects. The existing works which employ standard detection framework and fixed pseudo-labelling mechanism (PLM) have the following problems: (i) The inclusion of detecting unknown objects substantially reduces the model's ability to detect known ones. (ii) The PLM does not adequately utilize the priori knowledge of inputs. (iii) The fixed selection manner of PLM cannot guarantee that the model is trained in the right direction. We observe that humans subconsciously prefer to focus on all foreground objects and then identify each one in detail, rather than localize and identify a single object simultaneously, for alleviating the confusion. This motivates us to propose a novel solution called CAT: LoCalization and IdentificAtion Cascade Detection Transformer which decouples the detection process via the shared decoder in the cascade decoding way. In the meanwhile, we propose the self-adaptive pseudo-labelling mechanism which combines the model-driven with input-driven PLM and self-adaptively generates robust pseudo-labels for unknown objects, significantly improving the ability of CAT to retrieve unknown objects. Comprehensive experiments on two benchmark datasets, i.e., MS-COCO and PASCAL VOC, show that our model outperforms the state-of-the-art in terms of all metrics in the task of OWOD, incremental object detection (IOD) and open-set detection.
翻訳日:2023-01-06 14:08:58 公開日:2023-01-05
# 制御可能な感情を伴う表現型音声駆動顔アニメーション

Expressive Speech-driven Facial Animation with controllable emotions ( http://arxiv.org/abs/2301.02008v1 )

ライセンス: Link先を確認
Yutong Chen, Junhong Zhao, Wei-Qiang Zhang(参考訳) 顔のアニメーションを高いリアリズムで生成することは高い需要があるが、それでも難しい課題である。 既存の音声駆動顔アニメーションのアプローチは、口の動きと唇の同期を満足させるが、劇的な感情表現の弱さと感情制御の柔軟性を示す。 本稿では,感情のタイプと強度を制御可能な広スペクトルの表情を表現できる音声から表情を表現できる,新しい深層学習に基づくアプローチを提案する。 感情の変動(タイプや強度など)とそれに対応する表情パラメータの関係を学習するための感情制御モジュールを提案する。 感情制御可能な顔アニメーションを可能にし、ターゲット表現を必要に応じて継続的に調整することができる。 質的,定量的評価により,本手法で生成したアニメーションは,唇の動きを正確に保ちながら表情の表情に富み,他の手法よりも優れていた。

It is in high demand to generate facial animation with high realism, but it remains a challenging task. Existing approaches of speech-driven facial animation can produce satisfactory mouth movement and lip synchronization, but show weakness in dramatic emotional expressions and flexibility in emotion control. This paper presents a novel deep learning-based approach for expressive facial animation generation from speech that can exhibit wide-spectrum facial expressions with controllable emotion type and intensity. We propose an emotion controller module to learn the relationship between the emotion variations (e.g., types and intensity) and the corresponding facial expression parameters. It enables emotion-controllable facial animation, where the target expression can be continuously adjusted as desired. The qualitative and quantitative evaluations show that the animation generated by our method is rich in facial emotional expressiveness while retaining accurate lip movement, outperforming other state-of-the-art methods.
翻訳日:2023-01-06 14:08:27 公開日:2023-01-05
# ソートによる学習: グループ順序制約による自己教師付き学習

Learning by Sorting: Self-supervised Learning with Group Ordering Constraints ( http://arxiv.org/abs/2301.02009v1 )

ライセンス: Link先を確認
Nina Shvetsova, Felix Petersen, Anna Kukleva, Bernt Schiele, Hilde Kuehne(参考訳) 対照的な学習はラベルのないデータから表現を学ぶ上で重要な要素となっている。 しかし、既存の手法は主にペア関係を考慮する。 本稿では,グループ順序制約(groco)に基づく自己教師ありコントラスト学習への新しいアプローチを提案する。 GroCoの損失は、対のイメージではなく、正と負のイメージのグループを比較するという考え方を活用する。 最近の微分可能ソートアルゴリズムの成功に基づいて、グループ順序付けの制約は、すべての正のサンプル(正のグループ)の距離が、負のイメージ(負のグループ)の距離よりも小さいことを強制し、正のサンプルをアンカーの周りに集めるように強制する。 これにより、局所的な地区のより包括的な最適化がもたらされる。 提案手法は,競争的自己教師付き学習ベンチマークのスイート上で評価し,線形プローブの場合の現在の手法と競合するだけでなく,すべてのベンチマークにおけるk-nn性能が大幅に向上したことから,局所表現の一貫性も高まることを示した。

Contrastive learning has become a prominent ingredient in learning representations from unlabeled data. However, existing methods primarily consider pairwise relations. This paper proposes a new approach towards self-supervised contrastive learning based on Group Ordering Constraints (GroCo). The GroCo loss leverages the idea of comparing groups of positive and negative images instead of pairs of images. Building on the recent success of differentiable sorting algorithms, group ordering constraints enforce that the distances of all positive samples (a positive group) are smaller than the distances of all negative images (a negative group); thus, enforcing positive samples to gather around an anchor. This leads to a more holistic optimization of the local neighborhoods. We evaluate the proposed setting on a suite of competitive self-supervised learning benchmarks and show that our method is not only competitive to current methods in the case of linear probing but also leads to higher consistency in local representations, as can be seen from a significantly improved k-NN performance across all benchmarks.
翻訳日:2023-01-06 14:08:10 公開日:2023-01-05
# DLGSANet:画像超解像のための軽量ダイナミックローカルおよびグローバルセルフアテンションネットワーク

DLGSANet: Lightweight Dynamic Local and Global Self-Attention Networks for Image Super-Resolution ( http://arxiv.org/abs/2301.02031v1 )

ライセンス: Link先を確認
Xiang Li, Jinshan Pan, Jinhui Tang, and Jiangxin Dong(参考訳) 画像の超解像化に有効な軽量な動的局所・グローバル自己アテンションネットワーク(DLGSANet)を提案する。 本手法は, 計算コストを低く抑えながら変圧器の特性を探索する。 トランスフォーマーのネットワーク設計により,ローカル特徴を効率的に抽出するシンプルなマルチヘッド動的自己アテンション(MHDLSA)モジュールを開発した。 さらに、既存のTransformerは、通常、機能集約のためのクエリとキー間のトークンの類似点をすべて探索する。 しかし、クエリのトークンがキーのトークンと関係しているわけではないため、すべての類似性を使用することで、高解像度の画像再構成が効果的に実現できない。 この問題を克服するため,我々はsparsegsa(sparsegsa)モジュールを開発し,最も有用な類似度値を選択し,最も有用なグローバル特徴を高分解能画像再構成に利用できるようにする。 我々は,MHDLSAとSparseGSAを統合したハイブリッド動的トランスフォーマーブロック(HDTB)を開発した。 ネットワークトレーニングを容易にするため,HDTBをRHDTG(Resternal hybrid dynamic-Transformer group)に定式化する。 RHDTGをエンドツーエンドのトレーニング可能なネットワークに埋め込むことにより,提案手法はネットワークパラメータを少なくし,計算コストを低減しつつ,最先端のネットワークとの競合性能を精度的に達成できることを示す。 詳細はhttps://neonleexiang.github.io/dlgsanet/を参照。

We propose an effective lightweight dynamic local and global self-attention network (DLGSANet) to solve image super-resolution. Our method explores the properties of Transformers while having low computational costs. Motivated by the network designs of Transformers, we develop a simple yet effective multi-head dynamic local self-attention (MHDLSA) module to extract local features efficiently. In addition, we note that existing Transformers usually explore all similarities of the tokens between the queries and keys for the feature aggregation. However, not all the tokens from the queries are relevant to those in keys, using all the similarities does not effectively facilitate the high-resolution image reconstruction. To overcome this problem, we develop a sparse global self-attention (SparseGSA) module to select the most useful similarity values so that the most useful global features can be better utilized for the high-resolution image reconstruction. We develop a hybrid dynamic-Transformer block(HDTB) that integrates the MHDLSA and SparseGSA for both local and global feature exploration. To ease the network training, we formulate the HDTBs into a residual hybrid dynamic-Transformer group (RHDTG). By embedding the RHDTGs into an end-to-end trainable network, we show that our proposed method has fewer network parameters and lower computational costs while achieving competitive performance against state-of-the-art ones in terms of accuracy. More information is available at https://neonleexiang.github.io/DLGSANet/
翻訳日:2023-01-06 14:07:52 公開日:2023-01-05
# TextDescriptives: テキストからさまざまな統計を計算するためのPythonパッケージ

TextDescriptives: A Python package for calculating a large variety of statistics from text ( http://arxiv.org/abs/2301.02057v1 )

ライセンス: Link先を確認
Lasse Hansen, Kenneth Enevoldsen(参考訳) TextDescriptivesは、テキストからさまざまな統計を計算するためのPythonパッケージである。 SpaCy上に構築されており、既存のワークフローに簡単に統合できる。 このパッケージは、すでに臨床テキストの言語的安定性の分析、神経精神医学的状態の予測、小学生の言語的目標の分析に使われている。 本稿では,パッケージとその特徴について述べる。

TextDescriptives is a Python package for calculating a large variety of statistics from text. It is built on top of spaCy and can be easily integrated into existing workflows. The package has already been used for analysing the linguistic stability of clinical texts, creating features for predicting neuropsychiatric conditions, and analysing linguistic goals of primary school students. This paper describes the package and its features.
翻訳日:2023-01-06 14:02:06 公開日:2023-01-05
# FireFly: ニューラルネットワークをスパイクするための高速で再構成可能なハードウェアアクセラレータ

FireFly: A High-Throughput and Reconfigurable Hardware Accelerator for Spiking Neural Networks ( http://arxiv.org/abs/2301.01905v1 )

ライセンス: Link先を確認
Jindong Li and Guobin Shen and Dongcheng Zhao and Qian Zhang and Zeng Yi(参考訳) スパイキングニューラルネットワーク(SNN)はその強い生物学的解釈性と高いエネルギー効率のために広く利用されている。 バックプロパゲーションアルゴリズムとサロゲート勾配の導入により、スパイクニューラルネットワークの構造はより複雑になり、人工ニューラルネットワークのパフォーマンスギャップは徐々に減少していった。 しかし、フィールドプログラマブルゲートアレイ(FPGA)のためのほとんどのSNNハードウェア実装は、演算やメモリ効率の要求を満たすことができず、SNNの開発を著しく制限している。 彼らはバイナリスパイクとシナプス重みの間の算術演算を掘り下げたり、小さなタスクで非常に高価なデバイスを使用することで、チップ上のRAMリソースを無制限に仮定したりしない。 計算効率を向上させるために,スパイキングニューロンの神経動力学を解析し,sn演算を多重蓄積演算に一般化し,xilinx超大規模fpgaにおけるdsp48e2ハードブロックを用いた高性能な演算実装を提案する。 メモリ効率を向上させるため,メモリの省力化を図り,メモリの省力化と膜電圧のメモリアクセスを実現する。 上記の2つの改良を組み合わさって、発火ニューロン(FireFly)が生み出すスパイクを処理できるFPGAアクセラレータを提案する。 FireFlyは限られたリソースを持つFPGAエッジデバイスで実装されているが、300MHzでの5.53TSOP/sのピーク性能は保証されている。 軽量アクセラレータとしてFireFlyは,大規模FPGAデバイスを用いた既存研究と比較して計算密度効率が最も高い。

Spiking neural networks (SNNs) have been widely used due to their strong biological interpretability and high energy efficiency. With the introduction of the backpropagation algorithm and surrogate gradient, the structure of spiking neural networks has become more complex, and the performance gap with artificial neural networks has gradually decreased. However, most SNN hardware implementations for field-programmable gate arrays (FPGAs) cannot meet arithmetic or memory efficiency requirements, which significantly restricts the development of SNNs. They do not delve into the arithmetic operations between the binary spikes and synaptic weights or assume unlimited on-chip RAM resources by using overly expensive devices on small tasks. To improve arithmetic efficiency, we analyze the neural dynamics of spiking neurons, generalize the SNN arithmetic operation to the multiplex-accumulate operation, and propose a high-performance implementation of such operation by utilizing the DSP48E2 hard block in Xilinx Ultrascale FPGAs. To improve memory efficiency, we design a memory system to enable efficient synaptic weights and membrane voltage memory access with reasonable on-chip RAM consumption. Combining the above two improvements, we propose an FPGA accelerator that can process spikes generated by the firing neuron on-the-fly (FireFly). FireFly is implemented on several FPGA edge devices with limited resources but still guarantees a peak performance of 5.53TSOP/s at 300MHz. As a lightweight accelerator, FireFly achieves the highest computational density efficiency compared with existing research using large FPGA devices.
翻訳日:2023-01-06 14:02:00 公開日:2023-01-05
# 連想記憶のためのスパース表現を生成する競争学習

Competitive learning to generate sparse representations for associative memory ( http://arxiv.org/abs/2301.02196v1 )

ライセンス: Link先を確認
Luis Sacouto and Andreas Wichert(参考訳) 最も確立された脳の原則の1つは、ヘビー学習であり、神経集合の理論的な概念に繋がった。 このことから、多くの興味深い脳理論が生まれている。 パームの研究は、認知説明力の広いだけでなく、神経科学的な予測を行うモデルにおいて、バイナリ連想記憶を通じてこの概念を実装している。 しかし、連想記憶は対数的スパース表現でしか動作できないため、実際のデータにモデルを適用することは極めて困難である。 本稿では,連想記憶に適したコードに画像をエンコードする生物学的に有効なネットワークを提案する。 局所受容野を専門とする神経細胞のグループに分けられ、競争的なスキームを通じて学習される。 2つの視覚的データセットで自己結合実験とヘテロ結合実験を行った結果,ネットワークはスパース符号化ベースラインを上回っているだけでなく,最適なランダムコードを用いて達成された性能に近いという結論が得られた。

One of the most well established brain principles, hebbian learning, has led to the theoretical concept of neural assemblies. Based on it, many interesting brain theories have spawned. Palm's work implements this concept through binary associative memory, in a model that not only has a wide cognitive explanatory power but also makes neuroscientific predictions. Yet, associative memory can only work with logarithmic sparse representations, which makes it extremely difficult to apply the model to real data. We propose a biologically plausible network that encodes images into codes that are suitable for associative memory. It is organized into groups of neurons that specialize on local receptive fields, and learn through a competitive scheme. After conducting auto- and hetero-association experiments on two visual data sets, we can conclude that our network not only beats sparse coding baselines, but also that it comes close to the performance achieved using optimal random codes.
翻訳日:2023-01-06 14:01:33 公開日:2023-01-05
# ワンショットテンポラルセンテンス定位のための仮説ツリー構築

Hypotheses Tree Building for One-Shot Temporal Sentence Localization ( http://arxiv.org/abs/2301.01871v1 )

ライセンス: Link先を確認
Daizong Liu, Xiang Fang, Pan Zhou, Xing Di, Weining Lu, Yu Cheng(参考訳) 非トリミングビデオが与えられると、temporal sentence localization(tsl)は、与えられた文クエリに従って特定のセグメントをローカライズすることを目的としている。 優れた作品がこの作業でかなりの成果を上げているが、それらは大量の人的努力を必要とする密集したビデオフレームアノテーションに強く依存している。 本稿では,ビデオ全体の問合せ情報を1つの注釈付きフレームで検索することを学ぶ,ワンショットテンポラル文定位(ワンショットtsl)という,より実用的で困難な設定を目標とした。 特に,MHST(Multiple hypotheses Segment Tree)と呼ばれる一発的TSLのための,効果的な新しい木構造ベースラインを提案する。 各ビデオフレームをリーフノードとし、隣接するフレームを同じ視覚言語意味論を共有することにより、ツリー構築のための上位非リーフノードにマージする。 最終的に、各根ノードは葉ノードの連続したフレームを含む個々のセグメント仮説である。 木構築の過程では,クエリ非関連ノードの干渉を取り除くためのプルーニング戦略も導入する。 我々の設計した自己教師付き損失関数により、MHSTはクエリによるランク付けと選択のための高品質なセグメント仮説を生成することができる。 2つの挑戦的なデータセットの実験は、MHSTが既存の手法と比較して競争力を発揮することを示した。

Given an untrimmed video, temporal sentence localization (TSL) aims to localize a specific segment according to a given sentence query. Though respectable works have made decent achievements in this task, they severely rely on dense video frame annotations, which require a tremendous amount of human effort to collect. In this paper, we target another more practical and challenging setting: one-shot temporal sentence localization (one-shot TSL), which learns to retrieve the query information among the entire video with only one annotated frame. Particularly, we propose an effective and novel tree-structure baseline for one-shot TSL, called Multiple Hypotheses Segment Tree (MHST), to capture the query-aware discriminative frame-wise information under the insufficient annotations. Each video frame is taken as the leaf-node, and the adjacent frames sharing the same visual-linguistic semantics will be merged into the upper non-leaf node for tree building. At last, each root node is an individual segment hypothesis containing the consecutive frames of its leaf-nodes. During the tree construction, we also introduce a pruning strategy to eliminate the interference of query-irrelevant nodes. With our designed self-supervised loss functions, our MHST is able to generate high-quality segment hypotheses for ranking and selection with the query. Experiments on two challenging datasets demonstrate that MHST achieves competitive performance compared to existing methods.
翻訳日:2023-01-06 14:00:07 公開日:2023-01-05
# 失認者再同定のための学習機能回復トランス

Learning Feature Recovery Transformer for Occluded Person Re-identification ( http://arxiv.org/abs/2301.01879v1 )

ライセンス: Link先を確認
Boqiang Xu, Lingxiao He, Jian Liang, Zhenan Sun(参考訳) 人物の再識別(Re-ID)に挑戦する主要な問題は、捕獲された人物に対するユビキタスな排除である。 閉鎖された人物のRe-ID問題には,特徴マッチング時のノイズの干渉と,閉塞による歩行者情報の喪失という,大きな課題が2つある。 本稿では,2つの課題を同時に解決するための特徴回復変換器 (FRT) という新しい手法を提案する。 特徴マッチング中のノイズの干渉を低減するため,両画像に現れる可視領域に着目し,類似度を計算するための可視性グラフを開発した。 2つ目の課題は、グラフの類似性に基づいて、各クエリ画像に対して、ギャラリー内の$k$-nearestの隣人の特徴セットを利用して、完全な特徴を復元するリカバリトランスフォーマを提案することである。 occluded, partial, holistic datasetsを含む、さまざまなパーソナライズされたデータセットにわたる広範囲な実験が、frtの有効性を示している。 具体的には、FRTは、挑戦的なOccluded-Dukeデータセットにおいて、少なくとも6.2\% Rank-1精度と7.2\% mAPスコアによって、最先端の結果を大幅に上回る。 コードはhttps://github.com/xbq1994/Feature-Recovery-Transformerで公開されている。

One major issue that challenges person re-identification (Re-ID) is the ubiquitous occlusion over the captured persons. There are two main challenges for the occluded person Re-ID problem, i.e., the interference of noise during feature matching and the loss of pedestrian information brought by the occlusions. In this paper, we propose a new approach called Feature Recovery Transformer (FRT) to address the two challenges simultaneously, which mainly consists of visibility graph matching and feature recovery transformer. To reduce the interference of the noise during feature matching, we mainly focus on visible regions that appear in both images and develop a visibility graph to calculate the similarity. In terms of the second challenge, based on the developed graph similarity, for each query image, we propose a recovery transformer that exploits the feature sets of its $k$-nearest neighbors in the gallery to recover the complete features. Extensive experiments across different person Re-ID datasets, including occluded, partial and holistic datasets, demonstrate the effectiveness of FRT. Specifically, FRT significantly outperforms state-of-the-art results by at least 6.2\% Rank-1 accuracy and 7.2\% mAP scores on the challenging Occluded-Duke dataset. The code is available at https://github.com/xbq1994/Feature-Recovery-Transformer.
翻訳日:2023-01-06 13:59:41 公開日:2023-01-05
# InsPro: インスタンスクエリの伝搬とオンラインビデオインスタンスセグメンテーションの提案

InsPro: Propagating Instance Query and Proposal for Online Video Instance Segmentation ( http://arxiv.org/abs/2301.01882v1 )

ライセンス: Link先を確認
Fei He, Haoyang Zhang, Naiyu Gao, Jian Jia, Yanhu Shan, Xin Zhao, Kaiqi Huang(参考訳) ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトのセグメンテーションと追跡を目的としている。 従来のメソッドは通常、フレームレベルまたはクリップレベルのオブジェクトインスタンスを生成し、次に追加のトラッキングヘッドまたは複雑なインスタンスマッチングアルゴリズムでそれらを関連付ける。 この明示的なインスタンスアソシエーションアプローチはシステムの複雑さを増大させ、ビデオの時間的手がかりを完全に活用できない。 本稿では,オンラインvisのためのシンプルで高速かつ効果的なクエリベースフレームワークをデザインする。 インスタンスクエリとプロポーザルの伝搬メカニズムをいくつかの特別に開発されたコンポーネントに依存して、このフレームワークは暗黙的に正確なインスタンス関連付けを行うことができる。 具体的には、前のフレームから伝播したインスタンスクエリ-プロポサペアのセットに基づいて、フレームレベルのオブジェクトインスタンスを生成する。 このクエリ-プロソサルペアは、良心的に開発された戦略を通じて、フレームをまたいだ1つの特定のオブジェクトにバインドするように学習される。 このようなペアを使用して現在のフレーム上のオブジェクトインスタンスを予測する場合、生成されたインスタンスは、以前のフレーム上の前駆体と自動的に関連付けられているだけでなく、モデルが同じオブジェクトを予測するための適切な事前情報を得る。 このようにして,セグメンテーションと並行して暗黙のインスタンス関連を自然に達成し,ビデオの時間的手がかりをエレガントに活用する。 InsProの有効性を示すため、YouTube-VIS 2019とYouTube-VIS 2021の2つの人気のあるVISベンチマークで評価した。 ResNet-50のバックボーンを持つ我々のInsProは、これらの2つのベンチマークでそれぞれ43.2 APと37.6 APを達成した。

Video instance segmentation (VIS) aims at segmenting and tracking objects in videos. Prior methods typically generate frame-level or clip-level object instances first and then associate them by either additional tracking heads or complex instance matching algorithms. This explicit instance association approach increases system complexity and fails to fully exploit temporal cues in videos. In this paper, we design a simple, fast and yet effective query-based framework for online VIS. Relying on an instance query and proposal propagation mechanism with several specially developed components, this framework can perform accurate instance association implicitly. Specifically, we generate frame-level object instances based on a set of instance query-proposal pairs propagated from previous frames. This instance query-proposal pair is learned to bind with one specific object across frames through conscientiously developed strategies. When using such a pair to predict an object instance on the current frame, not only the generated instance is automatically associated with its precursors on previous frames, but the model gets a good prior for predicting the same object. In this way, we naturally achieve implicit instance association in parallel with segmentation and elegantly take advantage of temporal clues in videos. To show the effectiveness of our method InsPro, we evaluate it on two popular VIS benchmarks, i.e., YouTube-VIS 2019 and YouTube-VIS 2021. Without bells-and-whistles, our InsPro with ResNet-50 backbone achieves 43.2 AP and 37.6 AP on these two benchmarks respectively, outperforming all other online VIS methods.
翻訳日:2023-01-06 13:59:18 公開日:2023-01-05
# LunaとDALL-E2拡散画像生成システムの精度と忠実度の比較

Accuracy and Fidelity Comparison of Luna and DALL-E 2 Diffusion-Based Image Generation Systems ( http://arxiv.org/abs/2301.01914v1 )

ライセンス: Link先を確認
Michael Cahyadi, Muhammad Rafi, William Shan, Jurike Moniaga, and Henry Lucky(参考訳) dall-e 2とlunaという2つの拡散ベースの画像生成システム間の精度とフィデルティを定性的に検討した。 我々の研究では、DALL-E 2はアライメントと忠実度の比較においてLunaを著しく上回っていると結論付けている。

We qualitatively examine the accuracy and fideltiy between two diffusion-based image generation systems, namely DALL-E 2 and Luna, which have massive differences in training datasets, algorithmic approaches, prompt resolvement, and output upscaling. In our research we conclude that DALL-E 2 significantly edges Luna in both alignment and fidelity comparisons
翻訳日:2023-01-06 13:58:51 公開日:2023-01-05
# 大動脈弁狭窄の診断と4次元フローmriによる大動脈血行動態の予測のためのウェアラブルサーモカルジグラフィ(scg)を用いた深部学習

A deep learning approach to using wearable seismocardiography (SCG) for diagnosing aortic valve stenosis and predicting aortic hemodynamics obtained by 4D flow MRI ( http://arxiv.org/abs/2301.02130v1 )

ライセンス: Link先を確認
Mahmoud E. Khani, Ethan M. I. Johnson, Aparna Sodhi, Joshua Robinson, Cynthia K. Rigsby, Bradly D. Allen, Michael Markl(参考訳) 本稿では,4次元流mriを用いた大動脈血流計測の予測に,ウェアラブルseismocardiography (scg) 装置を用いたディープラーニングを用いた方法を検討した。 4D Flow MRIは、循環動態を総合的に評価するが、高価で時間を要する。 深層学習は,SCG信号から心弁疾患患者において,ピーク収縮速度Vmaxの上昇などの血流の病理学的変化を明らかにするのに有用であると考えられた。 また,大動脈弁狭窄症 (AS) と診断された非AS患者 (BAV) , 機械的大動脈弁 (MAV) を有する非AS患者 (MAV) , 正常三尖弁 (TAV) を有する健常者 (TAV) の鑑別について検討した。 同日4DフローMRIとSCGを施行した77名の被験者を対象に,ディープラーニングとSCGを用いて得られたVmax値は,4DフローMRIで得られたVmax値とよく一致していた。 さらに, tav, bav, mav, asの被験者はそれぞれ92%, 95%, 81%, 83%のroc-auc値で分類した。 このことから,4次元フローMRI検査の補助具として,大動脈弁疾患のスクリーニング具として,低コストのウェアラブルエレクトロニクスを用いたSCGが用いられる可能性が示唆された。

In this paper, we explored the use of deep learning for the prediction of aortic flow metrics obtained using 4D flow MRI using wearable seismocardiography (SCG) devices. 4D flow MRI provides a comprehensive assessment of cardiovascular hemodynamics, but it is costly and time-consuming. We hypothesized that deep learning could be used to identify pathological changes in blood flow, such as elevated peak systolic velocity Vmax in patients with heart valve diseases, from SCG signals. We also investigated the ability of this deep learning technique to differentiate between patients diagnosed with aortic valve stenosis (AS), non-AS patients with a bicuspid aortic valve (BAV), non-AS patients with a mechanical aortic valve (MAV), and healthy subjects with a normal tricuspid aortic valve (TAV). In a study of 77 subjects who underwent same-day 4D flow MRI and SCG, we found that the Vmax values obtained using deep learning and SCGs were in good agreement with those obtained by 4D flow MRI. Additionally, subjects with TAV, BAV, MAV, and AS could be classified with ROC-AUC values of 92%, 95%, 81%, and 83%, respectively. This suggests that SCG obtained using low-cost wearable electronics may be used as a supplement to 4D flow MRI exams or as a screening tool for aortic valve disease.
翻訳日:2023-01-06 13:52:32 公開日:2023-01-05
# バイオメディカル機械学習における強化攻撃

Enhancement attacks in biomedical machine learning ( http://arxiv.org/abs/2301.01885v1 )

ライセンス: Link先を確認
Matthew Rosenblatt, Javid Dadashkarimi, Dustin Scheinost(参考訳) 生物医学研究における機械学習の普及は急速に進んでいるが、そのような研究の信頼性はしばしば見過ごされている。 過去の研究では、医療画像におけるモデル性能を低下させる敵攻撃の能力について研究されてきたが、最近開発された「エンハンスメント・アタック」による性能改善能力は、バイオメディカル・機械学習にとって大きな脅威となる可能性がある。 信頼度を高めるために,我々は,機能の変更を最小限に抑えながら分類器の予測性能を飛躍的に向上させる3つの手法を開発した。 1) データセット内予測 2)別の方法に対する特定の方法,及び 3) クロスデータセットの一般化。 データセット内拡張フレームワークは,オリジナルデータと拡張データ(pearsonのr's>0.99)との高機能な類似性を維持しつつ,分類器の精度を50%からほぼ100%向上させた。 同様に、メソッド固有の拡張フレームワークは、あるメソッドの別のメソッドのパフォーマンスを誤って改善するのに効果的であった。 例えば、単純なニューラルネットワークは拡張データセットでLRを50%上回りましたが、元のデータセットにはパフォーマンス上の違いはありませんでした。 重要な点として、オリジナルデータと拡張データはまだ似ている(r=0.95)。 最後に、拡張はデータセット内の予測に特有ではなく、あるデータセットの一般化精度を最大38%向上させるように適応できることを示した。 全体として,生体医学的機械学習研究におけるデータの完全性を維持するためには,より堅牢なデータ共有とプロヴァンストラッキングパイプラインが必要であることが示唆された。

The prevalence of machine learning in biomedical research is rapidly growing, yet the trustworthiness of such research is often overlooked. While some previous works have investigated the ability of adversarial attacks to degrade model performance in medical imaging, the ability to falsely improve performance via recently-developed "enhancement attacks" may be a greater threat to biomedical machine learning. In the spirit of developing attacks to better understand trustworthiness, we developed three techniques to drastically enhance prediction performance of classifiers with minimal changes to features, including the enhancement of 1) within-dataset predictions, 2) a particular method over another, and 3) cross-dataset generalization. Our within-dataset enhancement framework falsely improved classifiers' accuracy from 50% to almost 100% while maintaining high feature similarities between original and enhanced data (Pearson's r's>0.99). Similarly, the method-specific enhancement framework was effective in falsely improving the performance of one method over another. For example, a simple neural network outperformed LR by 50% on our enhanced dataset, although no performance differences were present in the original dataset. Crucially, the original and enhanced data were still similar (r=0.95). Finally, we demonstrated that enhancement is not specific to within-dataset predictions but can also be adapted to enhance the generalization accuracy of one dataset to another by up to 38%. Overall, our results suggest that more robust data sharing and provenance tracking pipelines are necessary to maintain data integrity in biomedical machine learning research.
翻訳日:2023-01-06 13:51:25 公開日:2023-01-05
# 制約付きミニマックス最適化のための一階拡張ラグランジアン法

A first-order augmented Lagrangian method for constrained minimax optimization ( http://arxiv.org/abs/2301.02060v1 )

ライセンス: Link先を確認
Zhaosong Lu and Sanyou Mei(参考訳) 本稿では,制約付きミニマックス問題のクラスについて検討する。 特に, サブプロブレムがより単純な構造化されたミニマックス問題であることが判明し, 著者らにより [26] で最近開発された一階法で最適に解ける1次拡張ラグランジアン法を提案する。 いくつかの適切な仮定の下では、基本演算によって測定された${\cal o}(\varepsilon^{-4}\log\varepsilon^{-1})$のemph{operation complexity} が、制約付きミニマックス問題の$\varepsilon$-kkt解を求める一階拡張ラグランジアン法として確立される。

In this paper we study a class of constrained minimax problems. In particular, we propose a first-order augmented Lagrangian method for solving them, whose subproblems turn out to be a much simpler structured minimax problem and are suitably solved by a first-order method recently developed in [26] by the authors. Under some suitable assumptions, an \emph{operation complexity} of ${\cal O}(\varepsilon^{-4}\log\varepsilon^{-1})$, measured by its fundamental operations, is established for the first-order augmented Lagrangian method for finding an $\varepsilon$-KKT solution of the constrained minimax problems.
翻訳日:2023-01-06 13:50:24 公開日:2023-01-05
# コードスイッチングに関する調査:言語技術の言語学的・社会的展望

A Survey of Code-switching: Linguistic and Social Perspectives for Language Technologies ( http://arxiv.org/abs/2301.01967v1 )

ライセンス: Link先を確認
A.Seza Do\u{g}ru\"oz, Sunayana Sitaram, Barbara E. Bullock, Almeida Jacqueline Toribio(参考訳) 複数の言語が表現されるデータの分析は近年、計算言語学者の間で人気が高まっている。 これまでの研究の多くは計算手法の改善に重点を置いており、言語学における長年の文献の中で議論されてきたC-Sの言語的・社会的側面を無視している。 このギャップを埋めるため,我々は言語工学の文献をカバーするコードスイッチング(c-s)に関する調査を行い,言語技術における重要な課題を考察する。 言語学的観点からは、ヨーロッパやインドの文脈を高度に多言語地域とするc-sの構造的・機能的パターンの概観を示す。 言語技術の観点からは、適切な訓練データがないこと、C-Sの頑健な評価ベンチマークがないこと、C-Sの社会言語学的側面をカバーするエンドツーエンドシステムがないことなどから、大規模言語モデルがどのように多様なC-S型を表現できないかについて議論する。 我々の調査は、多言語主義とC-Sに共通の関心を持つ計算科学者と言語学者の相互利益の成果への一歩となる。

The analysis of data in which multiple languages are represented has gained popularity among computational linguists in recent years. So far, much of this research focuses mainly on the improvement of computational methods and largely ignores linguistic and social aspects of C-S discussed across a wide range of languages within the long-established literature in linguistics. To fill this gap, we offer a survey of code-switching (C-S) covering the literature in linguistics with a reflection on the key issues in language technologies. From the linguistic perspective, we provide an overview of structural and functional patterns of C-S focusing on the literature from European and Indian contexts as highly multilingual areas. From the language technologies perspective, we discuss how massive language models fail to represent diverse C-S types due to lack of appropriate training data, lack of robust evaluation benchmarks for C-S (across multilingual situations and types of C-S) and lack of end-to-end systems that cover sociolinguistic aspects of C-S as well. Our survey will be a step towards an outcome of mutual benefit for computational scientists and linguists with a shared interest in multilingualism and C-S.
翻訳日:2023-01-06 13:50:07 公開日:2023-01-05
# 質問応答としての感情因果対抽出

Emotion-Cause Pair Extraction as Question Answering ( http://arxiv.org/abs/2301.01982v1 )

ライセンス: Link先を確認
Huu-Hiep Nguyen and Minh-Tien Nguyen(参考訳) Emotion-Cause Pair extract (ECPE) のタスクは、感情や原因節のアノテーションなしで、文書の潜在的な感情のペアを抽出することを目的としている。 従来のECPEのアプローチでは、複雑なアーキテクチャを用いて感情による相互作用をモデル化し、従来の2段階処理方式を改良しようと試みてきた。 本稿では,質問応答(QA)問題にECPEタスクを投入し,それに取り組むための単純かつ効果的なBERTベースのソリューションを提案する。 文書が与えられた場合、ガイド-QAモデルはまず、固定された質問を用いて最適な感情節を予測する。 次に、予測された感情は、感情の最も潜在的な原因を予測する質問として使用される。 我々は,標準ECPEコーパスでモデルを評価する。 実験の結果, 単純性にもかかわらず, 有望な結果が得られ, 容易に再現できることが示唆された。 Guided-QAのコードも提供される。

The task of Emotion-Cause Pair Extraction (ECPE) aims to extract all potential emotion-cause pairs of a document without any annotation of emotion or cause clauses. Previous approaches on ECPE have tried to improve conventional two-step processing schemes by using complex architectures for modeling emotion-cause interaction. In this paper, we cast the ECPE task to the question answering (QA) problem and propose simple yet effective BERT-based solutions to tackle it. Given a document, our Guided-QA model first predicts the best emotion clause using a fixed question. Then the predicted emotion is used as a question to predict the most potential cause for the emotion. We evaluate our model on a standard ECPE corpus. The experimental results show that despite its simplicity, our Guided-QA achieves promising results and is easy to reproduce. The code of Guided-QA is also provided.
翻訳日:2023-01-06 13:49:45 公開日:2023-01-05
# mmnlu-22のhit-scir:多言語音声理解のための一貫性規則化

HIT-SCIR at MMNLU-22: Consistency Regularization for Multilingual Spoken Language Understanding ( http://arxiv.org/abs/2301.02010v1 )

ライセンス: Link先を確認
Bo Zheng, Zhouyang Li, Fuxuan Wei, Qiguang Chen, Libo Qin, Wanxiang Che(参考訳) 多言語音声言語理解(SLU)は2つのサブタスク、すなわち意図検出とスロットフィリングから構成される。 これら2つのサブタスクの性能向上のために,ハイブリッドデータ拡張戦略に基づく一貫性の正則化を提案する。 整合正則化は、例の予測分布を強制し、その意味論的に等価な拡張は一貫性を持つ。 フルデータセットとゼロショット設定の両方でMASSIVEデータセット上で実験を行う。 実験の結果,提案手法はインテント検出とスロット充填作業の両方において性能が向上することがわかった。 system\footnote{The code will be available at \url{https://github.com/bozheng-hit/MMNLU-22-HIT-SCIR}. MMNLU-22ではフルデータセット設定で1位となった。

Multilingual spoken language understanding (SLU) consists of two sub-tasks, namely intent detection and slot filling. To improve the performance of these two sub-tasks, we propose to use consistency regularization based on a hybrid data augmentation strategy. The consistency regularization enforces the predicted distributions for an example and its semantically equivalent augmentation to be consistent. We conduct experiments on the MASSIVE dataset under both full-dataset and zero-shot settings. Experimental results demonstrate that our proposed method improves the performance on both intent detection and slot filling tasks. Our system\footnote{The code will be available at \url{https://github.com/bozheng-hit/MMNLU-22-HIT-SCIR}.} ranked 1st in the MMNLU-22 competition under the full-dataset setting.
翻訳日:2023-01-06 13:49:31 公開日:2023-01-05
# PA-GM:ディープグラフマッチングのための埋め込みネットワークの位置認識学習

PA-GM: Position-Aware Learning of Embedding Networks for Deep Graph Matching ( http://arxiv.org/abs/2301.01932v1 )

ライセンス: Link先を確認
Dongdong Chen, Yuxing Dai, Lichi Zhang, Zhihong Zhang(参考訳) グラフマッチングは組合せ最適化問題として定式化することができ、エッジとして表現できるノードのペアの間に対応する関係が存在する。 この問題は、ノードやエッジが類似度が高いため、潜在的な曖昧さが存在する場合に問題となり、類似したコンテンツマッチングの正確な結果を見つける必要がある。 本稿では,ノードレベルの相対的位置情報を付加した高次元空間に線形代入問題をマッピングできる新しいエンドツーエンドニューラルネットワークを提案する。 本モデルでは,ノードの相対位置に対するアンカーセットを構築し,相対位置の尺度に基づいて,対象ノードと各アンカーノードの特徴情報を集約する。 次に、トポロジ構造と相対的な位置情報を統合してノードの特徴表現を学習し、2つのグラフ間の線形割り当てを実現する。 本手法の有効性と一般化性を検証するため,異なる実世界データセット上でクロスカテゴリマッチングを含むグラフマッチング実験を行う。 異なるベースラインとの比較により,本手法の優位性を示す。 ソースコードはhttps://github.com/匿名で入手できます。

Graph matching can be formalized as a combinatorial optimization problem, where there are corresponding relationships between pairs of nodes that can be represented as edges. This problem becomes challenging when there are potential ambiguities present due to nodes and edges with high similarity, and there is a need to find accurate results for similar content matching. In this paper, we introduce a novel end-to-end neural network that can map the linear assignment problem into a high-dimensional space augmented with node-level relative position information, which is crucial for improving the method's performance for similar content matching. Our model constructs the anchor set for the relative position of nodes and then aggregates the feature information of the target node and each anchor node based on a measure of relative position. It then learns the node feature representation by integrating the topological structure and the relative position information, thus realizing the linear assignment between the two graphs. To verify the effectiveness and generalizability of our method, we conduct graph matching experiments, including cross-category matching, on different real-world datasets. Comparisons with different baselines demonstrate the superiority of our method. Our source code is available under https://github.com/anonymous.
翻訳日:2023-01-06 13:43:37 公開日:2023-01-05
# 批判的視点:spectiveAPIの落とし穴を調査するベンチマーク

Critical Perspectives: A Benchmark Revealing Pitfalls in PerspectiveAPI ( http://arxiv.org/abs/2301.01874v1 )

ライセンス: Link先を確認
Lorena Piedras, Lucas Rosenblatt, Julia Wilkins(参考訳) インターネットコンテンツにおける「有害」言語の検出は、社会的および技術的な課題である。 本稿では,テキストの「毒性」を判定する最先端ツールであるjigsawの視点に焦点を当て,最近のモデルアップデートでは印象的な結果が得られた(lees et al., 2022)。 我々は,新たなベンチマークであるSelected Adversarial SemanticS(SASS)を提案し,有害言語に関する規範的主張に挑戦する。 sassの視点を評価し、二分分類設定においてゼロショットや少数ショットgpt-3プロンプトモデルのような低エフォートな代替モデルと比較する。 PERSPECTIVEは、多くの毒性カテゴリーで問題となる欠点を呈している。 SASSは、これまで検出されていなかった有害な言語のパフォーマンスを評価するための新しいツールを提供する。 私たちの研究は、有害性検出のためにすでにデプロイされているツールによる仮定に疑問を呈することの重要性を強調します。

Detecting "toxic" language in internet content is a pressing social and technical challenge. In this work, we focus on PERSPECTIVE from Jigsaw, a state-of-the-art tool that promises to score the "toxicity" of text, with a recent model update that claims impressive results (Lees et al., 2022). We seek to challenge certain normative claims about toxic language by proposing a new benchmark, Selected Adversarial SemanticS, or SASS. We evaluate PERSPECTIVE on SASS, and compare to low-effort alternatives, like zero-shot and few-shot GPT-3 prompt models, in binary classification settings. We find that PERSPECTIVE exhibits troubling shortcomings across a number of our toxicity categories. SASS provides a new tool for evaluating performance on previously undetected toxic language that avoids common normative pitfalls. Our work leads us to emphasize the importance of questioning assumptions made by tools already in deployment for toxicity detection in order to anticipate and prevent disparate harms.
翻訳日:2023-01-06 13:43:19 公開日:2023-01-05
# タンパク質配列表現学習のための事前学習言語モデルの再プログラミング

Reprogramming Pretrained Language Models for Protein Sequence Representation Learning ( http://arxiv.org/abs/2301.02120v1 )

ライセンス: Link先を確認
Ria Vinod, Pin-Yu Chen, and Payel Das(参考訳) 近年、タンパク質学習タスクのための機械学習誘導ソリューションが大きな進歩を遂げている。 しかし、科学的発見タスクの成功は、明確に定義されラベル付けされたドメイン内データのアクセシビリティによって制限される。 低データ制約に対処するために、数百万のタンパク質配列で事前訓練された最近のディープラーニングモデルの適応は、有望であることを示している。 本稿では,辞書学習による表現学習(R2DL)を提案する。このフレームワークは,学習サンプルをはるかに少なくして,タンパク質特性予測に優れる代替ドメインタスクの深層モデルをプログラムする。 R2DLは、英語とタンパク質配列の語彙埋め込みの間の疎線型マッピングを学習し、タンパク質配列の埋め込みを学ぶために事前訓練された英語モデルを再プログラムする。 我々のモデルは,事前学習および標準教師付き手法によって設定されたベースラインに対して,最大10^5$の精度でデータ効率を大幅に向上させることができる。 この目的のために, 市販の英語トランスフォーマーをプログラムし, タンパク質の物理化学的予測タスク(二次構造, 安定性, ホモロジー, 安定性)の組と, 生物医学的に関連するタンパク質機能予測タスク(抗菌, 毒性, 抗体親和性)の組にベンチマークを行う。

Machine Learning-guided solutions for protein learning tasks have made significant headway in recent years. However, success in scientific discovery tasks is limited by the accessibility of well-defined and labeled in-domain data. To tackle the low-data constraint, recent adaptions of deep learning models pretrained on millions of protein sequences have shown promise; however, the construction of such domain-specific large-scale model is computationally expensive. Here, we propose Representation Learning via Dictionary Learning (R2DL), an end-to-end representation learning framework in which we reprogram deep models for alternate-domain tasks that can perform well on protein property prediction with significantly fewer training samples. R2DL reprograms a pretrained English language model to learn the embeddings of protein sequences, by learning a sparse linear mapping between English and protein sequence vocabulary embeddings. Our model can attain better accuracy and significantly improve the data efficiency by up to $10^5$ times over the baselines set by pretrained and standard supervised methods. To this end, we reprogram an off-the-shelf pre-trained English language transformer and benchmark it on a set of protein physicochemical prediction tasks (secondary structure, stability, homology, stability) as well as on a biomedically relevant set of protein function prediction tasks (antimicrobial, toxicity, antibody affinity).
翻訳日:2023-01-06 13:43:01 公開日:2023-01-05
# トランスフォーマー型eメール機構によるマルチエージェント強化学習のためのスケーラブルな通信

Scalable Communication for Multi-Agent Reinforcement Learning via Transformer-Based Email Mechanism ( http://arxiv.org/abs/2301.01919v1 )

ライセンス: Link先を確認
Xudong Guo, Daming Shi, Wenhui Fan(参考訳) コミュニケーションは多エージェント強化学習(MARL)における協調性を著しく向上させることができる。 しかし、既存の作品は情報の冗長性につながるメッセージをブロードキャストするか、他のすべてのエージェントをターゲットとしてモデル化することでターゲットとなるコミュニケーションを学ぶかのどちらかである。 本稿では,部分的に監視されたタスクに対するmarl通信のスケーラビリティ問題に取り組むため,新しいフレームワークであるtransformer-based email mechanism (tem)を提案する。 エージェントはローカル通信を採用して、すべてのエージェントをモデル化せずに観察できるメッセージのみを送信する。 メール転送と人間の協力に触発されて,情報転送のためのメッセージチェーンを設計し,観察範囲外のエージェントと協調する。 メッセージチェーンをエンコードしてデコードして次の受信機を選択するためにTransformerを導入する。 実験的に、TEMは複数の協調MARLベンチマークのベースラインを上回っている。 エージェントの数が異なる場合、TEMはさらなるトレーニングをすることなく優れたパフォーマンスを維持する。

Communication can impressively improve cooperation in multi-agent reinforcement learning (MARL), especially for partially-observed tasks. However, existing works either broadcast the messages leading to information redundancy, or learn targeted communication by modeling all the other agents as targets, which is not scalable when the number of agents varies. In this work, to tackle the scalability problem of MARL communication for partially-observed tasks, we propose a novel framework Transformer-based Email Mechanism (TEM). The agents adopt local communication to send messages only to the ones that can be observed without modeling all the agents. Inspired by human cooperation with email forwarding, we design message chains to forward information to cooperate with the agents outside the observation range. We introduce Transformer to encode and decode the message chain to choose the next receiver selectively. Empirically, TEM outperforms the baselines on multiple cooperative MARL benchmarks. When the number of agents varies, TEM maintains superior performance without further training.
翻訳日:2023-01-06 13:41:15 公開日:2023-01-05
# semantic match: ヘルスケアのためのxaiのデバッギング機能帰属メソッド

Semantic match: Debugging feature attribution methods in XAI for healthcare ( http://arxiv.org/abs/2301.02080v1 )

ライセンス: Link先を確認
Giovanni Cin\`a, Tabea E. R\"ober, Rob Goedhart, \c{S}. \.Ilker Birbil(参考訳) 最近、医療用の認証人工知能(AI)ツールが急増し、この技術の採用に関する議論が再燃している。 このような議論の1つのスレッドは、説明可能なAIと、AIデバイスをより透明で信頼性の高いものにすることの約束に関するものだ。 医療AI分野で活動している一部の声は、説明可能なAI技術、特に特徴帰属手法の信頼性に関する懸念を表明し、その使用とガイドラインや標準への含意を疑問視している。 画像データに固有の問題を一般化することにより, 保温後の局所的説明可能性に関する既存の批判は, 浴水で赤ちゃんを投げ捨てるものである, と論じる。 まず、その問題を説明と人間の理解のセマンティックマッチの欠如として特徴づける。 機能の重要度がいつ確実に使用できるのかを理解するため、低レベルと高レベルの機能の重要度を区別する。 EHR(Electronic Health Records)のような表層データのような,低レベルの機能に明確なセマンティクスが付与されたデータタイプに対しては,セマンティクスマッチングが実現可能であるため,機能属性手法を有意義かつ有用な方法で使用することが可能である,と論じる。

The recent spike in certified Artificial Intelligence (AI) tools for healthcare has renewed the debate around adoption of this technology. One thread of such debate concerns Explainable AI and its promise to render AI devices more transparent and trustworthy. A few voices active in the medical AI space have expressed concerns on the reliability of Explainable AI techniques and especially feature attribution methods, questioning their use and inclusion in guidelines and standards. Despite valid concerns, we argue that existing criticism on the viability of post-hoc local explainability methods throws away the baby with the bathwater by generalizing a problem that is specific to image data. We begin by characterizing the problem as a lack of semantic match between explanations and human understanding. To understand when feature importance can be used reliably, we introduce a distinction between feature importance of low- and high-level features. We argue that for data types where low-level features come endowed with a clear semantics, such as tabular data like Electronic Health Records (EHRs), semantic match can be obtained, and thus feature attribution methods can still be employed in a meaningful and useful way.
翻訳日:2023-01-06 13:41:00 公開日:2023-01-05
# 自己監督型リワードシェイピングによるゴールコンディションポリシのオフライン学習

Learning Goal-Conditioned Policies Offline with Self-Supervised Reward Shaping ( http://arxiv.org/abs/2301.02099v1 )

ライセンス: Link先を確認
Lina Mezghani, Sainbayar Sukhbaatar, Piotr Bojanowski, Alessandro Lazaric, Karteek Alahari(参考訳) 事前収集されたデータセットから学習することで、複数のスキルを実行できるエージェントを開発することは、ロボット工学において重要な問題である。 また、必要なスキルごとに手動で報酬関数を設計することは禁じられている。 先行研究は、手動で指定した報酬なしでオフラインデータセットから目標条件付きポリシーを学習し、後見的なリラベリングを通じてこれらの課題をターゲットとした。 これらの方法は報酬の分散の問題に悩まされ、長期のタスクでは失敗する。 本研究では,事前収集したデータセット上で,モデルの構造とダイナミクスを理解し,オフラインで学習方針を学習するための高密な報酬関数を形成するための,新しい自己教師あり学習フェーズを提案する。 提案手法は,3つの連続制御タスクで評価し,提案手法が既存の手法,特に長期計画を伴うタスクを大きく上回っていることを示す。

Developing agents that can execute multiple skills by learning from pre-collected datasets is an important problem in robotics, where online interaction with the environment is extremely time-consuming. Moreover, manually designing reward functions for every single desired skill is prohibitive. Prior works targeted these challenges by learning goal-conditioned policies from offline datasets without manually specified rewards, through hindsight relabelling. These methods suffer from the issue of sparsity of rewards, and fail at long-horizon tasks. In this work, we propose a novel self-supervised learning phase on the pre-collected dataset to understand the structure and the dynamics of the model, and shape a dense reward function for learning policies offline. We evaluate our method on three continuous control tasks, and show that our model significantly outperforms existing approaches, especially on tasks that involve long-term planning.
翻訳日:2023-01-06 13:40:37 公開日:2023-01-05
# all in tokens: soft tokenによるビジュアルタスクの出力空間の統一

All in Tokens: Unifying Output Space of Visual Tasks via Soft Token ( http://arxiv.org/abs/2301.02229v1 )

ライセンス: Link先を確認
Jia Ning, Chen Li, Zheng Zhang, Zigang Geng, Qi Dai, Kun He, Han Hu(参考訳) 通常、出力空間がトークンの集合に制限される言語タスクとは異なり、視覚タスクの出力空間はより複雑であり、様々な視覚タスクのための統一された視覚モデルを構築するのが困難である。 本稿では,視覚タスクの出力空間を統一し,視覚タスクの統一モデルを構築することを目的とする。 この目的のために,インスタンス分割と深さ推定という2つの典型的な視覚的タスクを同時に処理し,それぞれ離散的・固定的・可変的出力を持つ単一統一モデルを示す。 視覚タスクの特異性を考慮した新しい手法をいくつか提案する。 1)ソフトトークン。 タスクの出力を表すためにソフトトークンを使用します。 共通のVQ-VAEのハードトークンとは異なり、ソフトトークンはコードブックの埋め込みにソフトに割り当てられる。 ソフトトークンは次のトークン推論とタスク出力の復号の両方の精度を向上させることができる。 2)マスクの強化。 多くの視覚的タスクは、ラベルアノテーションの破損、未定義または無効な値、すなわち奥行きマップの排除された領域を持っている。 マスク強化技術がこれらの課題に大いに役立つことを示す。 これらの新しい手法および他の設計により,提案する汎用タスクソルバは,インスタンス分割と深さ推定の両方をうまく実行できることを示す。 特に,nyuv2深度推定の特定のタスクにおいて0.279 rmseを達成し,このベンチマークで新たな記録を樹立した。 AiT と呼ばれる汎用タスク解決器は \url{https://github.com/SwinTransformer/AiT} で入手できる。

Unlike language tasks, where the output space is usually limited to a set of tokens, the output space of visual tasks is more complicated, making it difficult to build a unified visual model for various visual tasks. In this paper, we seek to unify the output space of visual tasks, so that we can also build a unified model for visual tasks. To this end, we demonstrate a single unified model that simultaneously handles two typical visual tasks of instance segmentation and depth estimation, which have discrete/fixed-length and continuous/varied-length outputs, respectively. We propose several new techniques that take into account the particularity of visual tasks: 1) Soft token. We employ soft token to represent the task output. Unlike hard tokens in the common VQ-VAE which are assigned one-hot to discrete codebooks/vocabularies, the soft token is assigned softly to the codebook embeddings. Soft token can improve the accuracy of both the next token inference and decoding of the task output; 2) Mask augmentation. Many visual tasks have corruption, undefined or invalid values in label annotations, i.e., occluded area of depth maps. We show that a mask augmentation technique can greatly benefit these tasks. With these new techniques and other designs, we show that the proposed general-purpose task-solver can perform both instance segmentation and depth estimation well. Particularly, we achieve 0.279 RMSE on the specific task of NYUv2 depth estimation, setting a new record on this benchmark. The general-purpose task-solver, dubbed AiT, is available at \url{https://github.com/SwinTransformer/AiT}.
翻訳日:2023-01-06 13:34:55 公開日:2023-01-05
# 数学の自己形式化とコードの正確性:初等証明による実験

Towards Autoformalization of Mathematics and Code Correctness: Experiments with Elementary Proofs ( http://arxiv.org/abs/2301.02195v1 )

ライセンス: Link先を確認
Garett Cunningham, Razvan C. Bunescu, David Juedes(参考訳) 数学的証明の複雑さは、数学者による手作業による検証を非常に認知的に要求する。 自己形式化(autoformalization)は、自然言語で書かれた証明を対話的定理証明を通じてコンピュータで検証可能な形式表現に変換することで、この問題に対処しようとしている。 本稿では,基本的な数学的証明を,対話型定理証明器の言語で等価な形式化に変換する,Universal Transformerアーキテクチャに基づく意味解析手法を提案する。 同じアーキテクチャは、hoareトリプルで装飾された単純な命令型コードを、coqの正しさの形式的検証可能な証明に変換するようにも訓練されている。 有限領域の人工的証明と人文的証明の実験は、モデルが訓練や自然言語の変化の間に見られない中間の長さにうまく一般化していることを示している。

The ever-growing complexity of mathematical proofs makes their manual verification by mathematicians very cognitively demanding. Autoformalization seeks to address this by translating proofs written in natural language into a formal representation that is computer-verifiable via interactive theorem provers. In this paper, we introduce a semantic parsing approach, based on the Universal Transformer architecture, that translates elementary mathematical proofs into an equivalent formalization in the language of the Coq interactive theorem prover. The same architecture is also trained to translate simple imperative code decorated with Hoare triples into formally verifiable proofs of correctness in Coq. Experiments on a limited domain of artificial and human-written proofs show that the models generalize well to intermediate lengths not seen during training and variations in natural language.
翻訳日:2023-01-06 13:34:13 公開日:2023-01-05
# AXIL重み付きグラディエントブースティングマシン予測のためのインスタンスベース説明

Instance-based Explanations for Gradient Boosting Machine Predictions with AXIL Weights ( http://arxiv.org/abs/2301.01864v1 )

ライセンス: Link先を確認
Paul Geertsema and Helen Lu(参考訳) 線形および木に基づくモデルからの回帰予測を,訓練データにおける対象インスタンスの線形結合として表現できることを示す。 これはまた、ランダムな森林や勾配ブースティングマシンを含む木々のアンサンブルとして構築されたモデルにも当てはまる。 これらの線形結合で用いられる重みは、SHAPやLIMEのような既存の特徴重要度尺度を補完する例の重要度尺度である。 これらの尺度をアクシル重み (axil weights) と呼ぶ(インスタンスのロードを伴う付加的な説明)。 AXILの重みはインスタンス間で付加的であるため、ローカルとグローバルの両方の説明を提供する。 私たちの研究は、機械学習の予測をより解釈可能で説明しやすいものにするための幅広い努力に貢献しています。

We show that regression predictions from linear and tree-based models can be represented as linear combinations of target instances in the training data. This also holds for models constructed as ensembles of trees, including Random Forests and Gradient Boosting Machines. The weights used in these linear combinations are measures of instance importance, complementing existing measures of feature importance, such as SHAP and LIME. We refer to these measures as AXIL weights (Additive eXplanations with Instance Loadings). Since AXIL weights are additive across instances, they offer both local and global explanations. Our work contributes to the broader effort to make machine learning predictions more interpretable and explainable.
翻訳日:2023-01-06 13:33:27 公開日:2023-01-05
# ジェネリック制約プログラミングソルバー内でのQ-Learningエージェントの訓練

Training a Deep Q-Learning Agent Inside a Generic Constraint Programming Solver ( http://arxiv.org/abs/2301.01913v1 )

ライセンス: Link先を確認
Tom Marty (1 and 2), Tristan Fran\c{c}ois (2), Pierre Tessier (2), Louis Gauthier (2), Quentin Cappart (1), Louis-Martin Rousseau (1) ((1) \'Ecole Polytechnique de Montr\'eal, (2) \'Ecole Polytechnique, Institut Polytechnique de Paris)(参考訳) 制約プログラミングは組合せ問題の効率的な解法として知られている。 解法における重要な設計選択は分岐ヒューリスティックスであり、探索を最小限の時間で最良の解に導くように設計されている。 しかし、これらのヒューリスティックスの開発は、問題固有の専門知識を必要とする時間を要するプロセスである。 この観察は、専門家の介入なしに機械学習を使って効率的なヒューリスティックを自動的に学習する多くの努力を動機付けてきた。 私たちの知る限りでは、まだオープンな研究課題である。 いくつかのジェネリック変数選択ヒューリスティックは文献で利用可能であるが、ジェネリック値選択ヒューリスティックの選択肢は少ない。 本稿では,制約プログラミングソルバの内部において,価値選択ヒューリスティックを得るために使用できる汎用学習手順を導入することで,この問題に取り組むことを提案する。 これは、深いq学習アルゴリズム、カスタマイズされた報酬信号、異種グラフニューラルネットワークアーキテクチャの組み合わせによって達成されている。 グラフの彩色,最大独立集合,最大カット問題に関する実験は,汎用的ながら大量のバックトラックを必要とせずに,最適に近いより良い解を見つけることができることを示した。

Constraint programming is known for being an efficient approach for solving combinatorial problems. Important design choices in a solver are the branching heuristics, which are designed to lead the search to the best solutions in a minimum amount of time. However, developing these heuristics is a time-consuming process that requires problem-specific expertise. This observation has motivated many efforts to use machine learning to automatically learn efficient heuristics without expert intervention. To the best of our knowledge, it is still an open research question. Although several generic variable-selection heuristics are available in the literature, the options for a generic value-selection heuristic are more scarce. In this paper, we propose to tackle this issue by introducing a generic learning procedure that can be used to obtain a value-selection heuristic inside a constraint programming solver. This has been achieved thanks to the combination of a deep Q-learning algorithm, a tailored reward signal, and a heterogeneous graph neural network architecture. Experiments on graph coloring, maximum independent set, and maximum cut problems show that our framework is able to find better solutions close to optimality without requiring a large amounts of backtracks while being generic.
翻訳日:2023-01-06 13:33:17 公開日:2023-01-05
# 長期的時系列予測に向けて:特徴,パターン,分布

Towards Long-Term Time-Series Forecasting: Feature, Pattern, and Distribution ( http://arxiv.org/abs/2301.02068v1 )

ライセンス: Link先を確認
Yan Li, Xinjiang Lu, Haoyi Xiong, Jian Tang, Jiantao Su, Bo Jin, Dejing Dou(参考訳) 長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。 トランスフォーマーモデルは高い計算自己認識機構のために高い予測能力を提供するために採用されている。 LTTFのポイントワイド自己アテンションの空間性を誘導することで、トランスフォーマーの複雑さを低減できるが、限られた情報利用は、複雑な依存関係を包括的に探索することを禁じる。 この目的のために, LTTF の既存の手法と区別する, Conformer という名前の効率的な Transformer ベースモデルを提案する。 (i)スライディングウインドウ注意と定常・瞬時リカレントネットワーク(sirn)上に,情報利用を犠牲にすることなく線形複雑性を組み込んだエンコーダ・デコーダアーキテクチャを提案する。 2)正規化フローから派生したモジュールは、SIRNの潜伏変数と直接的に出力を推測することにより、情報利用の向上を図る。 (iii)時系列データの時系列相関と時間ダイナミクスを明示的にモデル化し、下流の自己着脱機構を促進させる。 7つの実世界のデータセットに対する大規模な実験により、コンフォーマーはLTTFの最先端の手法より優れ、不確実な定量化を伴う信頼性の高い予測結果を生成することが示された。

Long-term time-series forecasting (LTTF) has become a pressing demand in many applications, such as wind power supply planning. Transformer models have been adopted to deliver high prediction capacity because of the high computational self-attention mechanism. Though one could lower the complexity of Transformers by inducing the sparsity in point-wise self-attentions for LTTF, the limited information utilization prohibits the model from exploring the complex dependencies comprehensively. To this end, we propose an efficient Transformerbased model, named Conformer, which differentiates itself from existing methods for LTTF in three aspects: (i) an encoder-decoder architecture incorporating a linear complexity without sacrificing information utilization is proposed on top of sliding-window attention and Stationary and Instant Recurrent Network (SIRN); (ii) a module derived from the normalizing flow is devised to further improve the information utilization by inferring the outputs with the latent variables in SIRN directly; (iii) the inter-series correlation and temporal dynamics in time-series data are modeled explicitly to fuel the downstream self-attention mechanism. Extensive experiments on seven real-world datasets demonstrate that Conformer outperforms the state-of-the-art methods on LTTF and generates reliable prediction results with uncertainty quantification.
翻訳日:2023-01-06 13:32:59 公開日:2023-01-05
# ランダム・フォレスト、サウンド・シンボリズム、ポケモンの進化

Random forests, sound symbolism and Pokemon evolution ( http://arxiv.org/abs/2301.01948v1 )

ライセンス: Link先を確認
Alexander James Kilpatrick, Aleksandra Cwiek, Shigeto Kawahara(参考訳) 本研究は,音響シンボルを用いたサンプル分類を訓練した機械学習アルゴリズムを構築し,被験者に対する理解度を測定する実験を報告する。 ランダムフォレストは、架空のビデオゲームキャラクターであるポケモンの名前とその進化状態を使って訓練される。 ポケモンは特定のゲーム内条件を満たすと進化する。 進化はポケモンの外見、能力、名前を変える。 最初の実験では、日本、中国、韓国のポケモンの名前を構成する音を使って3つのランダムな森を訓練し、ポケモンを進化前のカテゴリーと進化後のカテゴリに分類する。 次に,前例のないポケモン(Pokemon)と名づけられた日本人を対象に,誘引実験の結果を用いて,第4のランダム林を訓練した。 実験2では,無作為林を特徴として再現し,無作為林の性能と人間との比較を行った。 実験2は,新しい相互評価法を用いて解決する実験1における過剰フィッティングに関する問題を明らかにする。 その結果,ランダム林は系統的音量測定パターンの効率的な学習者であり,被験者よりも高い精度でサンプルを分類できることがわかった。

This study constructs machine learning algorithms that are trained to classify samples using sound symbolism, and then it reports on an experiment designed to measure their understanding against human participants. Random forests are trained using the names of Pokemon, which are fictional video game characters, and their evolutionary status. Pokemon undergo evolution when certain in-game conditions are met. Evolution changes the appearance, abilities, and names of Pokemon. In the first experiment, we train three random forests using the sounds that make up the names of Japanese, Chinese, and Korean Pokemon to classify Pokemon into pre-evolution and post-evolution categories. We then train a fourth random forest using the results of an elicitation experiment whereby Japanese participants named previously unseen Pokemon. In Experiment 2, we reproduce those random forests with name length as a feature and compare the performance of the random forests against humans in a classification experiment whereby Japanese participants classified the names elicited in Experiment 1 into pre-and post-evolution categories. Experiment 2 reveals an issue pertaining to overfitting in Experiment 1 which we resolve using a novel cross-validation method. The results show that the random forests are efficient learners of systematic sound-meaning correspondence patterns and can classify samples with greater accuracy than the human participants.
翻訳日:2023-01-06 13:32:34 公開日:2023-01-05
# 効率的・ロバスト信頼領域最適化による強化学習の価値向上

Value Enhancement of Reinforcement Learning via Efficient and Robust Trust Region Optimization ( http://arxiv.org/abs/2301.02220v1 )

ライセンス: Link先を確認
Chengchun Shi, Zhengling Qi, Jianing Wang, Fan Zhou(参考訳) 強化学習(Reinforcement Learning, RL)は、知的エージェントが逐次意思決定における累積報酬を最大化する最適なポリシーを学習できる強力な機械学習技術である。 既存の文献のほとんどのメソッドは、データの収集やシミュレートが容易な \textit{online} 設定で開発されています。 本稿では,移動体保健研究や事前収集データなどの高利得領域をモチベーションとして,<textit{offline>強化学習法について検討する。 政策最適化にこれらのデータセットを効率的に利用するために、既存の最先端RLアルゴリズムによって計算された与えられた初期ポリシーの性能を改善するための新しい値拡張手法を提案する。 具体的には、初期ポリシーが整合性がない場合、我々の手法は、その値があまり悪くなく、しばしば初期ポリシーよりも良いポリシーを出力する。 初期方針が一貫した場合、いくつかの穏やかな条件下において、本手法は、所望の ``value enhancement" 特性を達成するために、初期方針よりも速い速度で最適な方針に値が収束するポリシーを導出する。 提案手法は、特定の特定の関数クラス(例えばディープニューラルネットワーク)に属する任意のパラメータ化ポリシーに適用できる。 本手法の優れた性能を示すため, 大規模数値実験を行った。

Reinforcement learning (RL) is a powerful machine learning technique that enables an intelligent agent to learn an optimal policy that maximizes the cumulative rewards in sequential decision making. Most of methods in the existing literature are developed in \textit{online} settings where the data are easy to collect or simulate. Motivated by high stake domains such as mobile health studies with limited and pre-collected data, in this paper, we study \textit{offline} reinforcement learning methods. To efficiently use these datasets for policy optimization, we propose a novel value enhancement method to improve the performance of a given initial policy computed by existing state-of-the-art RL algorithms. Specifically, when the initial policy is not consistent, our method will output a policy whose value is no worse and often better than that of the initial policy. When the initial policy is consistent, under some mild conditions, our method will yield a policy whose value converges to the optimal one at a faster rate than the initial policy, achieving the desired ``value enhancement" property. The proposed method is generally applicable to any parametrized policy that belongs to certain pre-specified function class (e.g., deep neural networks). Extensive numerical studies are conducted to demonstrate the superior performance of our method.
翻訳日:2023-01-06 13:32:12 公開日:2023-01-05
# MedKLIP: 医学的知識による言語画像の事前学習

MedKLIP: Medical Knowledge Enhanced Language-Image Pre-Training ( http://arxiv.org/abs/2301.02228v1 )

ライセンス: Link先を確認
Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie(参考訳) 本稿では,医用知識を活かした自己教師型視覚言語事前訓練(VLP)の課題を,放射線学的日々の実践から得られるペア画像テキストレポートを利用して検討する。 In particular, we make the following contributions: First, unlike existing works that directly process the raw reports, we adopt a novel report filter to extract the medical entities, avoiding unnecessary complexity from language grammar and enhancing the supervision signals; Second, we propose a novel entity embedding module by querying an external knowledge description base, to exploit the rich context of additional information that the medical domain affords, and implicitly build relationships between entities in the language embedding space; Third, we propose a novel Transformer-based fusion model for spatially aligning the entity description with visual signals at the image patch level only with self-supervised learning, thus enabling the ability for spatial grounding; Fourth, we conduct thorough experiments to validate the effectiveness of our proposed architecture, and benchmark on numerous public benchmarks e.g., ChestX-ray14, RSNA Pneumonia, SIIM-ACR Pneumothorax, COVIDx CXR-2, COVID Rural, and EdemaSeverity. ゼロショットと微調整の両方において,従来の疾患分類法や接地法と比較して高い性能を示した。

In this paper, we consider the problem of enhancing self-supervised visual-language pre-training (VLP) with medical-specific knowledge, by exploiting the paired image-text reports from the radiological daily practice. In particular, we make the following contributions: First, unlike existing works that directly process the raw reports, we adopt a novel report filter to extract the medical entities, avoiding unnecessary complexity from language grammar and enhancing the supervision signals; Second, we propose a novel entity embedding module by querying an external knowledge description base, to exploit the rich context of additional information that the medical domain affords, and implicitly build relationships between entities in the language embedding space; Third, we propose a novel Transformer-based fusion model for spatially aligning the entity description with visual signals at the image patch level only with self-supervised learning, thus enabling the ability for spatial grounding; Fourth, we conduct thorough experiments to validate the effectiveness of our proposed architecture, and benchmark on numerous public benchmarks e.g., ChestX-ray14, RSNA Pneumonia, SIIM-ACR Pneumothorax, COVIDx CXR-2, COVID Rural, and EdemaSeverity. In both zero-shot and fine-tuning settings, our model has demonstrated strong performance compared with the former methods on disease classification and grounding.
翻訳日:2023-01-06 13:31:51 公開日:2023-01-05
# 局所文脈に着目したトピックセグメンテーションモデル

Topic Segmentation Model Focusing on Local Context ( http://arxiv.org/abs/2301.01935v1 )

ライセンス: Link先を確認
Jeonghwan Lee, Jiyeong Han, Sunghoon Baek and Min Song(参考訳) トピックセグメンテーションは, 可読性の向上だけでなく, 適切なセクションや段落を作成することで, 情報検索や質問応答などの下流作業を容易にするため, 科学的資料を理解する上で重要である。 トピックセグメンテーションタスクでは、トピックコヒーレンスがセグメンテーション境界の予測に重要である。 既存のモデルのほとんどは、有用なトピック関連情報を抽出するために可能な限り多くのコンテキストを活用しようと試みている。 しかし、文間の局所的な文脈が補足されているにもかかわらず一貫性がないため、追加の文脈は必ずしも有望な結果をもたらすとは限らない。 この問題を軽減するために,2つの入力文を個別に処理し,過剰な情報に邪魔されることなく適切な量の情報を得るシマセ文埋め込み層を提案する。 また、同じトピック予測(STP)、トピック分類(TC)、Next Sentence Prediction(NSP)などのマルチタスク学習手法を採用した。 これら3つの分類層がマルチタスクの方法で結合されると、お互いの制限を補うことができ、3つのタスク全体のパフォーマンスが向上する。 3つのレイヤの異なる組み合わせを実験し、各レイヤが同じ組み合わせで他のレイヤにどう影響するか、また全体的なセグメンテーション性能を報告します。 提案したモデルはWikiSectionデータセットの最先端結果を達成する。

Topic segmentation is important in understanding scientific documents since it can not only provide better readability but also facilitate downstream tasks such as information retrieval and question answering by creating appropriate sections or paragraphs. In the topic segmentation task, topic coherence is critical in predicting segmentation boundaries. Most of the existing models have tried to exploit as many contexts as possible to extract useful topic-related information. However, additional context does not always bring promising results, because the local context between sentences becomes incoherent despite more sentences being supplemented. To alleviate this issue, we propose siamese sentence embedding layers which process two input sentences independently to get appropriate amount of information without being hampered by excessive information. Also, we adopt multi-task learning techniques including Same Topic Prediction (STP), Topic Classification (TC) and Next Sentence Prediction (NSP). When these three classification layers are combined in a multi-task manner, they can make up for each other's limitations, improving performance in all three tasks. We experiment different combinations of the three layers and report how each layer affects other layers in the same combination as well as the overall segmentation performance. The model we proposed achieves the state-of-the-art result in the WikiSection dataset.
翻訳日:2023-01-06 13:25:44 公開日:2023-01-05
# 事前学習型言語モデルによる表間テキスト生成に向けて:表構造理解とテキスト分割アプローチ

Towards Table-to-Text Generation with Pretrained Language Model: A Table Structure Understanding and Text Deliberating Approach ( http://arxiv.org/abs/2301.02071v1 )

ライセンス: Link先を確認
Miao Chen, Xinjiang Lu, Tong Xu, Yanyan Li, Jingbo Zhou, Dejing Dou, Hui Xiong(参考訳) ニューラルテーブル・トゥ・テクスト法に関する顕著な進歩はなされているが、一般化問題は、限られたソーステーブルのため、これらのモデルの適用性を妨げている。 大規模な事前学習された言語モデルは、このような問題に取り組むための有望な解決策のように思える。 しかし、テーブル情報を完全に活用して構造化テーブルとテキスト入力のギャップを効果的に橋渡しする方法は、まだ十分に検討されていない。 また、テーブル・ツー・テキストのタスクを解決するために、テキスト・ツー・テキストの事前学習モデルに統合するもう1つの課題は、ほとんど研究されていない。 本稿では,事前訓練された言語モデルを用いて表からテキストへの生成を実現するために,テーブル構造理解とテキスト検討手法,すなわちTASDを提案する。 具体的には,事前学習した言語モデルの助けを借りて,表構造対応テキスト生成モデルを実現するために,三層マルチヘッドアテンションネットワークを考案する。 さらに、テーブル記述のための生成されたテキストを研磨する能力を高めるために、マルチパスデコーダフレームワークが採用されている。 2つの公開データセットを用いた実証研究は、我々のアプローチが、異なる種類のテーブルに対して忠実で流動的な記述テキストを生成できることを検証する。

Although remarkable progress on the neural table-to-text methods has been made, the generalization issues hinder the applicability of these models due to the limited source tables. Large-scale pretrained language models sound like a promising solution to tackle such issues. However, how to effectively bridge the gap between the structured table and the text input by fully leveraging table information to fuel the pretrained model is still not well explored. Besides, another challenge of integrating the deliberation mechanism into the text-to-text pretrained model for solving the table-to-text task remains seldom studied. In this paper, to implement the table-to-text generation with pretrained language model, we propose a table structure understanding and text deliberating approach, namely TASD. Specifically, we devise a three-layered multi-head attention network to realize the table-structure-aware text generation model with the help of the pretrained language model. Furthermore, a multi-pass decoder framework is adopted to enhance the capability of polishing generated text for table descriptions. The empirical studies, as well as human evaluation, on two public datasets, validate that our approach can generate faithful and fluent descriptive texts for different types of tables.
翻訳日:2023-01-06 13:25:21 公開日:2023-01-05
# CiT:効果的なビジョンランゲージデータのためのトレーニングのカリキュラム

CiT: Curation in Training for Effective Vision-Language Data ( http://arxiv.org/abs/2301.02241v1 )

ライセンス: Link先を確認
Hu Xu, Saining Xie, Po-Yao Huang, Licheng Yu, Russell Howes, Gargi Ghosh, Luke Zettlemoyer, Christoph Feichtenhofer(参考訳) 大きな視覚言語モデルは一般的に下流の多くのタスクに適用できるが、大きな機関にしか手に入らないような訓練コストが伴う。 本稿では,データ目標をトレーニングに結合する簡易かつ効率的な視覚テキスト学習アルゴリズムであるcit(curation in training)を提案する。 CiTは、コントラストのある画像テキストトレーニングをスピードアップするために自動的に品質データを出力し、オフラインデータフィルタリングパイプラインの必要性を軽減し、幅広いデータソース(Webからの生画像テキストペアを含む)を可能にする。 CiTは、トレーニングデータをキュレートする外ループと、このキュレートしたトレーニングデータを消費する内ループの2つのループを含む。 テキストエンコーダは2つのループを接続する。 興味のあるタスク、例えばクラス名やイメージテキストペアのプールに対するメタデータが与えられた場合、citは、テキスト埋め込みとメタデータの埋め込みの類似度を測定することによって、関連するトレーニングデータをプールから選択する。 実験では、特に生のデータサイズが大きい場合には、citがトレーニングを1桁以上高速化できることを観察した。

Large vision-language models are generally applicable to many downstream tasks, but come at an exorbitant training cost that only large institutions can afford. This paper trades generality for efficiency and presents Curation in Training (CiT), a simple and efficient vision-text learning algorithm that couples a data objective into training. CiT automatically yields quality data to speed-up contrastive image-text training and alleviates the need for an offline data filtering pipeline, allowing broad data sources (including raw image-text pairs from the web). CiT contains two loops: an outer loop curating the training data and an inner loop consuming the curated training data. The text encoder connects the two loops. Given metadata for tasks of interest, e.g., class names, and a large pool of image-text pairs, CiT alternatively selects relevant training data from the pool by measuring the similarity of their text embeddings and embeddings of the metadata. In our experiments, we observe that CiT can speed up training by over an order of magnitude, especially if the raw data size is large.
翻訳日:2023-01-06 13:24:50 公開日:2023-01-05
# 対話におけるアナフォラ分解能:システム記述(CODI-CRAC 2022共有タスク)

Anaphora Resolution in Dialogue: System Description (CODI-CRAC 2022 Shared Task) ( http://arxiv.org/abs/2301.02113v1 )

ライセンス: Link先を確認
Tatiana Anikina, Natalia Skachkova, Joseph Renner, Priyansh Trivedi(参考訳) 我々はCODI-CRAC 2022共有タスクに提出された3つのモデルについて述べる。 そこで我々は,Workspace Coreference System(WCS)と他のコア参照モデルに基づいて,インクリメンタルクラスタリング手法のいくつかの組み合わせを検証した。 その結果、Coref-hoiモデルの'cluster merging'バージョンが追加され、バニラWCSクラスタリングよりも10.33%改善された。 談話ディクシス解決はマルチタスク学習として実装され,コアフォイの学習目標とアナポー型分類を組み合わせた。 上志ら(2019)が導入した高次分解能モデルを用いて,金の言及とアナプホルスをブレンディングする。

We describe three models submitted for the CODI-CRAC 2022 shared task. To perform identity anaphora resolution, we test several combinations of the incremental clustering approach based on the Workspace Coreference System (WCS) with other coreference models. The best result is achieved by adding the ''cluster merging'' version of the coref-hoi model, which brings up to 10.33% improvement 1 over vanilla WCS clustering. Discourse deixis resolution is implemented as multi-task learning: we combine the learning objective of corefhoi with anaphor type classification. We adapt the higher-order resolution model introduced in Joshi et al. (2019) for bridging resolution given gold mentions and anaphors.
翻訳日:2023-01-06 13:24:07 公開日:2023-01-05
# 病理組織像における深部畳み込み活性化能(R-DeCAF)の低下と乳癌診断の分類性能の改善

Reduced Deep Convolutional Activation Features (R-DeCAF) in Histopathology Images to Improve the Classification Performance for Breast Cancer Diagnosis ( http://arxiv.org/abs/2301.01931v1 )

ライセンス: Link先を確認
Bahareh Morovati, Reza Lashgari, Mojtaba Hajihasani and Hasti Shabani(参考訳) 乳がんは世界で2番目に多いがんである。 病理医による乳癌の診断は、時間を要する手順であり、主観的である。 深層畳み込みニューラルネットワーク(cnns)が有効な解であるデータを自動的に分類することにより、病理学者の作業負荷を軽減するためにコンピュータ支援診断フレームワークを利用する。 事前訓練されたCNNの活性化層から抽出した特徴をDeep Convolutional activation features (DeCAF)と呼ぶ。 本稿では,全てのDeCAF特徴が必ずしも分類タスクにおいて高い精度に導かれず,次元減少が重要な役割を担っていることを解析した。 そこで,DeCAFの特徴を捉えることで特徴の効果的な組み合わせを実現するために,異なる次元還元法を適用した。 この目的のために,我々は深層畳み込み活性化機能(r-decaf)の削減を提案する。 このフレームワークでは、alexnet、vgg-16、vgg-19などの事前学習されたcnnを特徴抽出として転送学習モードで活用する。 上記のCNNの最初の完全連結層からDeCAFの特徴を抽出し、サポートベクトルマシンをバイナリ分類に使用した。 線形および非線形次元減少アルゴリズムのうち、主成分分析(PCA)のような線形アプローチは、深い特徴の間により良い組み合わせを示し、特徴の特定の累積説明分散(CEV)量を考慮した少数の特徴を用いた分類タスクにおいて高い精度をもたらす。 提案手法は実験的なBreakHisデータセットを用いて検証する。 総合的な結果は, 計算時間が少なく, 分類精度が最大4.3%向上したことを示している。 最高の精度は、特徴ベクトルサイズ(FVS)23の400xデータに対して91.13%、CEVは、事前訓練されたAlexNetを特徴抽出器として、PCAを特徴還元アルゴリズムとして、0.15に等しい。

Breast cancer is the second most common cancer among women worldwide. Diagnosis of breast cancer by the pathologists is a time-consuming procedure and subjective. Computer aided diagnosis frameworks are utilized to relieve pathologist workload by classifying the data automatically, in which deep convolutional neural networks (CNNs) are effective solutions. The features extracted from activation layer of pre-trained CNNs are called deep convolutional activation features (DeCAF). In this paper, we have analyzed that all DeCAF features are not necessarily led to a higher accuracy in the classification task and dimension reduction plays an important role. Therefore, different dimension reduction methods are applied to achieve an effective combination of features by capturing the essence of DeCAF features. To this purpose, we have proposed reduced deep convolutional activation features (R-DeCAF). In this framework, pre-trained CNNs such as AlexNet, VGG-16 and VGG-19 are utilized in transfer learning mode as feature extractors. DeCAF features are extracted from the first fully connected layer of the mentioned CNNs and support vector machine has been used for binary classification. Among linear and nonlinear dimensionality reduction algorithms, linear approaches such as principal component analysis (PCA) represent a better combination among deep features and lead to a higher accuracy in the classification task using small number of features considering specific amount of cumulative explained variance (CEV) of features. The proposed method is validated using experimental BreakHis dataset. Comprehensive results show improvement in the classification accuracy up to 4.3% with less computational time. Best achieved accuracy is 91.13% for 400x data with feature vector size (FVS) of 23 and CEV equals to 0.15 using pre-trained AlexNet as feature extractor and PCA as feature reduction algorithm.
翻訳日:2023-01-06 13:23:36 公開日:2023-01-05
# MS-DINO:マスケサンプリングによる医用領域におけるビジョントランスフォーマー基礎モデルの効率的な分散学習

MS-DINO: Efficient Distributed Training of Vision Transformer Foundation Model in Medical Domain through Masked Sampling ( http://arxiv.org/abs/2301.02064v1 )

ライセンス: Link先を確認
Sangjoon Park, Ik-Jae Lee, Jun Won Kim, Jong Chul Ye(参考訳) 近年,医学領域における深層学習の成功にもかかわらず,プライバシやデータ所有の問題により,医療領域におけるデータ不足の問題が増している。 連合学習を含む分散学習アプローチは問題を緩和するために研究されてきたが、それらは通信オーバーヘッドやプライバシー保護の弱点に悩まされている。 そこで本研究では,視覚変換器固有の暗号化方式を用いて,連続的な通信を必要とせず,プライバシーを向上できる自己監督型マスクサンプリング蒸留方式を提案する。 提案手法の有効性は,2つの医療領域データと2つの異なる下流タスクに対する広範囲な実験により実証され,既存の分散学習戦略よりも優れた性能を示した。 提案手法で構築した自己教師付きモデルは,モダリティの汎用的な意味理解を実現することができるため,医療領域における応用可能性を広げ,様々な医療タスクのタスク非依存基礎モデルとしての可能性を示す。

In spite of the recent success of deep learning in the medical domain, the problem of data scarcity in the medical domain gets aggravated due to privacy and data ownership issues. Distributed learning approaches including federated learning have been studied to alleviate the problems, but they suffer from cumbersome communication overheads and weakness in privacy protection. To address this, here we propose a self-supervised masked sampling distillation method for vision transformer that can be performed without continuous communication but still enhance privacy using a vision transformer-specific encryption method. The effectiveness of our method is demonstrated with extensive experiments on two medical domain data and two different downstream tasks, showing superior performances than those obtained with the existing distributed learning strategy as well as the fine-tuning only baseline. As the self-supervised model built with the proposed method is capable of having a general semantic understanding of the modality, we demonstrate its potential as a task-agnostic foundation model for various medical tasks, widening the applicability in the medical domain.
翻訳日:2023-01-06 13:23:05 公開日:2023-01-05
# テスト・オブ・タイム:時間感のあるビデオ言語モデル

Test of Time: Instilling Video-Language Models with a Sense of Time ( http://arxiv.org/abs/2301.02074v1 )

ライセンス: Link先を確認
Piyush Bagad and Makarand Tapaswi and Cees G. M. Snoek(参考訳) 現代のビデオ理解モデルでは、モデリングと理解時間が課題となっている。 言語が強力な一般化への鍵となるため、基礎的なビデオ言語モデルには時間感覚が不可欠である。 本稿では時間的理解の特定の側面について考察する:時間秩序の整合性は前/後の関係によって引き起こされる。 既存の6つのビデオ言語モデルでは、そのような単純な時間関係を理解するのに苦労している。 次に、これらの基礎モデルに時間的意識を持たせることが、スクラッチから再学習することなしに可能かどうかを問う。 そこで本研究では,少量のビデオテキストデータに対する事前学習に基づく,そのようなモデルであるvideoclip上での時間適応レシピを提案する。 6つのデータセットに適応したモデルのゼロショット評価を行い、3つの下流タスクを行う。 タスクにより高い時間意識を必要とする場合,特にパフォーマンス向上の促進を観察する。 私たちの研究は、データやコンピュートインテンストレーニングをスクラッチから必要とせずに、既存のビデオ言語モデルで時間の感覚を探索し、植え込むための第一歩として役立ちます。

Modeling and understanding time remains a challenge in contemporary video understanding models. With language emerging as a key driver towards powerful generalization, it is imperative for foundational video-language models to have a sense of time. In this paper, we consider a specific aspect of temporal understanding: consistency of time order as elicited by before/after relations. We establish that six existing video-language models struggle to understand even such simple temporal relations. We then question whether it is feasible to equip these foundational models with temporal awareness without re-training them from scratch. Towards this, we propose a temporal adaptation recipe on top of one such model, VideoCLIP, based on post-pretraining on a small amount of video-text data. We conduct a zero-shot evaluation of the adapted models on six datasets for three downstream tasks which require a varying degree of time awareness. We observe encouraging performance gains especially when the task needs higher time awareness. Our work serves as a first step towards probing and instilling a sense of time in existing video-language models without the need for data and compute-intense training from scratch.
翻訳日:2023-01-06 13:22:46 公開日:2023-01-05
# 大規模協力と競争による創発的集団知能

Emergent collective intelligence from massive-agent cooperation and competition ( http://arxiv.org/abs/2301.01609v2 )

ライセンス: Link先を確認
Hanmo Chen, Stone Tao, Jiaxin Chen, Weihan Shen, Xihui Li, Chenghui Yu, Sikai Cheng, Xiaolong Zhu, Xiu Li(参考訳) 地球上の異なる集団間の協力と競争を通じて進化する生物に触発され、大量エージェント強化学習による人工集団知の出現を研究する。 この目的のために、我々はLuxという巨大エージェント強化学習環境を提案し、2つのチームの動的エージェントと大規模エージェントが限られたリソースを求めてスクランブルし、闇と戦う。 luxでは、カリキュラム学習段階における標準強化学習アルゴリズムを用いてエージェントを構築し、ピクセル間ポリシネットワークを介して集中制御を活用します。 エージェントは自己再生を通じて協調し、アトミックスキルの獲得からグループ戦略の開発まで、いくつかの段階の知性を観察します。 これらの学習された集団戦略は、明示的な協調機構を持たない個々の決定から生じるため、人工的な集団知能は、大規模な協力と競争から生まれると主張する。 我々はさらに,大規模エージェント環境における強化学習の実装に関する洞察を提供することを目的として,メトリクスとアブレーション研究を通じて,様々な学習戦略の出現を分析する。

Inspired by organisms evolving through cooperation and competition between different populations on Earth, we study the emergence of artificial collective intelligence through massive-agent reinforcement learning. To this end, We propose a new massive-agent reinforcement learning environment, Lux, where dynamic and massive agents in two teams scramble for limited resources and fight off the darkness. In Lux, we build our agents through the standard reinforcement learning algorithm in curriculum learning phases and leverage centralized control via a pixel-to-pixel policy network. As agents co-evolve through self-play, we observe several stages of intelligence, from the acquisition of atomic skills to the development of group strategies. Since these learned group strategies arise from individual decisions without an explicit coordination mechanism, we claim that artificial collective intelligence emerges from massive-agent cooperation and competition. We further analyze the emergence of various learned strategies through metrics and ablation studies, aiming to provide insights for reinforcement learning implementations in massive-agent environments.
翻訳日:2023-01-06 13:16:09 公開日:2023-01-05
# PiPAD: GPUによるパイプラインおよび並列動的GNNトレーニング

PiPAD: Pipelined and Parallel Dynamic GNN Training on GPUs ( http://arxiv.org/abs/2301.00391v2 )

ライセンス: Link先を確認
Chunyang Wang, Desen Sun, Yuebin Bai(参考訳) 動的グラフニューラルネットワーク(dgnn)はリンク予測やパンデミック予測といった様々な現実のアプリケーションに適用され、静的構造情報と動的グラフからの時間特性の両方を捉える。 時間に依存しないコンポーネントと非依存のコンポーネントを組み合わせることで、DGNNは相当な並列計算とデータ再利用の可能性を示すが、標準的なワングラフ・アット・タイムトレーニングパターンの下では、メモリアクセスの非効率性とデータ転送オーバーヘッドに悩まされる。 この課題に対処するために、GPUのエンドツーエンドパフォーマンス最適化のためのトレーニングフレームワークであるPiPAD、$\underline{\textbf{Pi}}pelined$と$\underline{\textb{PA}}rallel$$\underline{\textbf{D}}GNNを提案する。 アルゴリズムとランタイムレベルの両方から、PiPADはデータ組織から計算方法まで、全体的なトレーニングパラダイムを一様に再構築します。 複数のグラフスナップショットを並列に処理できるため、PiPADは不要なデータ転送を排除し、メモリアクセスの非効率を軽減し、全体的なパフォーマンスを改善する。 さまざまなデータセットに対する評価では、PiPADが3つの代表モデル上で最先端のDGNNフレームワークよりも1.22\times$-9.57\times$スピードアップを達成したことが示されている。

Dynamic Graph Neural Networks (DGNNs) have been broadly applied in various real-life applications, such as link prediction and pandemic forecast, to capture both static structural information and temporal characteristics from dynamic graphs. Combining both time-dependent and -independent components, DGNNs manifest substantial parallel computation and data reuse potentials, but suffer from severe memory access inefficiency and data transfer overhead under the canonical one-graph-at-a-time training pattern. To tackle the challenges, we propose PiPAD, a $\underline{\textbf{Pi}}pelined$ and $\underline{\textbf{PA}}rallel$ $\underline{\textbf{D}}GNN$ training framework for the end-to-end performance optimization on GPUs. From both the algorithm and runtime level, PiPAD holistically reconstructs the overall training paradigm from the data organization to computation manner. Capable of processing multiple graph snapshots in parallel, PiPAD eliminates the unnecessary data transmission and alleviates memory access inefficiency to improve the overall performance. Our evaluation across various datasets shows PiPAD achieves $1.22\times$-$9.57\times$ speedup over the state-of-the-art DGNN frameworks on three representative models.
翻訳日:2023-01-06 13:15:54 公開日:2023-01-05
# spring:インクリメンタルレイアウトグラフからマルチモーダル質問を事前学習した会話エージェント

SPRING: Situated Conversation Agent Pretrained with Multimodal Questions from Incremental Layout Graph ( http://arxiv.org/abs/2301.01949v1 )

ライセンス: Link先を確認
Yuxing Long, Binyuan Hui, Fulong Ye, Yanyang Li, Zhuoxin Han, Caixia Yuan, Yongbin Li, Xiaojie Wang(参考訳) 既存のマルチモーダル会話エージェントは、単純なシナリオで絶対位置の特定や属性の検索に優れた能力を示してきたが、複雑な相対位置や情報アライメントが関与する場合にはうまく機能せず、応答品質のボトルネックとなる。 本稿では,マルチホップ空間関係を推論し,混み合った状況下で視覚属性と接続する能力を持つ,インクリメンタルレイアウトグラフ(spring)から多変量質問を入力した位置対話エージェントを提案する。 具体的には、エージェントを事前訓練するための2種類のマルチモーダル質問応答(MQA)タスクを設計する。 プレトレーニングで使用するQAペアはすべて、新しいインクリメンタルレイアウトグラフ(ILG)から生成される。 ILGによって自動的に注釈付けされたQAペア困難ラベルは、MQAベースのカリキュラム学習を促進するために使用される。 実験により,SPRINGの有効性が検証され,SIMMC 1.0とSIMMC 2.0の両方のデータセットに対する最先端のアプローチを著しく上回ることが示された。

Existing multimodal conversation agents have shown impressive abilities to locate absolute positions or retrieve attributes in simple scenarios, but they fail to perform well when complex relative positions and information alignments are involved, which poses a bottleneck in response quality. In this paper, we propose a Situated Conversation Agent Petrained with Multimodal Questions from INcremental Layout Graph (SPRING) with abilities of reasoning multi-hops spatial relations and connecting them with visual attributes in crowded situated scenarios. Specifically, we design two types of Multimodal Question Answering (MQA) tasks to pretrain the agent. All QA pairs utilized during pretraining are generated from novel Incremental Layout Graphs (ILG). QA pair difficulty labels automatically annotated by ILG are used to promote MQA-based Curriculum Learning. Experimental results verify the SPRING's effectiveness, showing that it significantly outperforms state-of-the-art approaches on both SIMMC 1.0 and SIMMC 2.0 datasets.
翻訳日:2023-01-06 13:15:21 公開日:2023-01-05
# GIVL:事前学習による視覚言語モデルの地理的向上

GIVL: Improving Geographical Inclusivity of Vision-Language Models with Pre-Training Methods ( http://arxiv.org/abs/2301.01893v1 )

ライセンス: Link先を確認
Da Yin, Feng Gao, Govind Thattai, Michael Johnston, Kai-Wei Chang(参考訳) AIの発展の重要なゴールは、一つのグループだけでなく、地域に関係なくすべてのコミュニティのニーズを満たす技術を開発することである。 実際、知識のかなりの割合は、特定の地域の人々によってローカルに共有されているが、文化的差異のため、他の地域では等しく適用できない。 モデルが地域特性に気づいていない場合、地域間での性能格差が生じ、表現不足の集団に偏りが生じる可能性がある。 地理包括型視覚言語事前学習モデルgivlを提案する。 ジオディバースの知識を学ぶのに役立つジオディバースの視覚概念には2つの特性がある。 1)類似するカテゴリのコンセプトは、独特の知識と視覚特性を有する。 2) 類似した視覚特徴を持つ概念は, 全く異なるカテゴリに分類される。 これらの属性をベースとして,画像知識マッチング(IKM)と画像編集チェック(IEC)を事前学習用GIVLに設計する。 同様のデータスケールで事前トレーニングされた類似サイズのモデルと比較して、givlは最先端(sota)とよりバランスのとれたジオディバースv&lタスクのパフォーマンスを実現している。

A key goal for the advancement of AI is to develop technologies that serve the needs not just of one group but of all communities regardless of their geographical region. In fact, a significant proportion of knowledge is locally shared by people from certain regions but may not apply equally in other regions because of cultural differences. If a model is unaware of regional characteristics, it may lead to performance disparity across regions and result in bias against underrepresented groups. We propose GIVL, a Geographically Inclusive Vision-and-Language Pre-trained model. There are two attributes of geo-diverse visual concepts which can help to learn geo-diverse knowledge: 1) concepts under similar categories have unique knowledge and visual characteristics, 2) concepts with similar visual features may fall in completely different categories. Motivated by the attributes, we design new pre-training objectives Image Knowledge Matching (IKM) and Image Edit Checking (IEC) to pre-train GIVL. Compared with similar-size models pre-trained with similar scale of data, GIVL achieves state-of-the-art (SOTA) and more balanced performance on geo-diverse V&L tasks.
翻訳日:2023-01-06 13:15:04 公開日:2023-01-05
# StitchNet: トレーニング済みフラグメントからニューラルネットワークを構成する

StitchNet: Composing Neural Networks from Pre-Trained Fragments ( http://arxiv.org/abs/2301.01947v1 )

ライセンス: Link先を確認
Surat Teerapittayanon, Marcus Comiter, Brad McDanel, H.T. Kung(参考訳) 複数のトレーニング済みニューラルネットワークから断片(1つ以上の連続的なネットワーク層)を縫合する新しいニューラルネットワーク生成パラダイムであるStitchNetを提案する。 StitchNetは、バックプロパゲーショントレーニングを通じて、従来のモデル作成プロセスで必要となる大きな計算とデータを必要とすることなく、高性能なニューラルネットワークを作成することができる。 我々はCKA(Centered Kernel Alignment)を互換性尺度として利用し、特定の精度のニーズやリソース制約に合わせたタスクのネットワークを構成する際に、これらのフラグメントの選択を効率的に導く。 次に、これらのフラグメントを縫い合わせることで、コンピュータリソースとデータ要求のごく一部で、従来トレーニングされたネットワークに匹敵する精度でニューラルネットワークを作成することができることを示す。 最後に,この新たなパラダイムによって実現されたモデル生成と推論アプリケーションについて検討する。

We propose StitchNet, a novel neural network creation paradigm that stitches together fragments (one or more consecutive network layers) from multiple pre-trained neural networks. StitchNet allows the creation of high-performing neural networks without the large compute and data requirements needed under traditional model creation processes via backpropagation training. We leverage Centered Kernel Alignment (CKA) as a compatibility measure to efficiently guide the selection of these fragments in composing a network for a given task tailored to specific accuracy needs and computing resource constraints. We then show that these fragments can be stitched together to create neural networks with comparable accuracy to traditionally trained networks at a fraction of computing resource and data requirements. Finally, we explore a novel on-the-fly personalized model creation and inference application enabled by this new paradigm.
翻訳日:2023-01-06 13:14:45 公開日:2023-01-05
# FICE: ガイド付きGANインバージョンでテキストによるファッション画像編集

FICE: Text-Conditioned Fashion Image Editing With Guided GAN Inversion ( http://arxiv.org/abs/2301.02110v1 )

ライセンス: Link先を確認
Martin Pernu\v{s}, Clinton Fookes, Vitomir \v{S}truc, Simon Dobri\v{s}ek(参考訳) ファッションイメージ編集は、選択したアパレルを与えられた入力画像に組み込むという、難しいコンピュータビジョンタスクを表す。 既存のほとんどのテクニックは、仮想トライオン(Virtual Try-On)メソッドと呼ばれ、まず所望のアパレルのサンプルイメージを選択し、対象の人に衣服を転送することで、このタスクに対処する。 逆に,本論文では,ファッション画像をテキスト記述で編集することを検討する。 このようなアプローチは、例ベースの仮想試行技術よりもいくつかの利点がある。 (i)対象のファッションアイテムのイメージを必要とせず、 (ii)自然言語を用いて多種多様な視覚概念を表現できる。 言語入力を扱う既存の画像編集手法は、リッチ属性アノテーションによるトレーニングセットの要求や、単純なテキスト記述しか扱えないことによる制約が強い。 我々は,fice (fashion image clip editing) と呼ばれる新しいテキスト条件付き編集モデルを提案することで,これらの制約に対処する。 特にficeでは,画像生成時に意味的,ポーズ関連,画像レベルの制約を含めることで,gan反転処理を増強する。 我々は,その印象的な画像テキスト関連機能により,クリップモデルの機能を活用してセマンティクスを強制する。 さらに,合成画像の忠実度をよりよく制御する手段を提供する潜在コード正規化手法を提案する。 ビトン画像とファッション世代のテキスト記述の組み合わせに関する厳密な実験と,最先端のテキストコンディション画像編集手法との比較により,ficeの有効性を検証する。 実験により、FICEは、非常にリアルなファッション画像を生成し、既存の競合するアプローチよりも強力な編集性能をもたらすことが示された。

Fashion-image editing represents a challenging computer vision task, where the goal is to incorporate selected apparel into a given input image. Most existing techniques, known as Virtual Try-On methods, deal with this task by first selecting an example image of the desired apparel and then transferring the clothing onto the target person. Conversely, in this paper, we consider editing fashion images with text descriptions. Such an approach has several advantages over example-based virtual try-on techniques, e.g.: (i) it does not require an image of the target fashion item, and (ii) it allows the expression of a wide variety of visual concepts through the use of natural language. Existing image-editing methods that work with language inputs are heavily constrained by their requirement for training sets with rich attribute annotations or they are only able to handle simple text descriptions. We address these constraints by proposing a novel text-conditioned editing model, called FICE (Fashion Image CLIP Editing), capable of handling a wide variety of diverse text descriptions to guide the editing procedure. Specifically with FICE, we augment the common GAN inversion process by including semantic, pose-related, and image-level constraints when generating images. We leverage the capabilities of the CLIP model to enforce the semantics, due to its impressive image-text association capabilities. We furthermore propose a latent-code regularization technique that provides the means to better control the fidelity of the synthesized images. We validate FICE through rigorous experiments on a combination of VITON images and Fashion-Gen text descriptions and in comparison with several state-of-the-art text-conditioned image editing approaches. Experimental results demonstrate FICE generates highly realistic fashion images and leads to stronger editing performance than existing competing approaches.
翻訳日:2023-01-06 13:14:32 公開日:2023-01-05
# CA$^2$T-Net: 単一画像からのカテゴリー非依存的3次元調音伝達

CA$^2$T-Net: Category-Agnostic 3D Articulation Transfer from Single Image ( http://arxiv.org/abs/2301.02232v1 )

ライセンス: Link先を確認
Jasmine Collins, Anqi Liang, Jitendra Malik, Hao Zhang, Fr\'ed\'eric Devernay(参考訳) 本稿では,物体の単一画像から静止状態(すなわち,非有声)3dモデルに動きを伝達するニューラルネットワーク手法を提案する。 我々のネットワークは、入力画像に表示される調音を再現するために、オブジェクトのポーズ、部分分割、および対応する動きパラメータを予測することを学習する。 ネットワークは3つの異なるブランチで構成されており、共有されたジョイントイメージ型の埋め込みを受け、エンドツーエンドでトレーニングされている。 従来の方法とは異なり、このアプローチはオブジェクトのトポロジとは独立であり、任意のカテゴリのオブジェクトと協調することができる。 提案手法は, 合成データのみを用いて学習し, メッシュの自動アニメーション, 実画像からの動作推定, および機能的に類似しているが幾何的に異なる3次元モデルへの調音伝達を行う。

We present a neural network approach to transfer the motion from a single image of an articulated object to a rest-state (i.e., unarticulated) 3D model. Our network learns to predict the object's pose, part segmentation, and corresponding motion parameters to reproduce the articulation shown in the input image. The network is composed of three distinct branches that take a shared joint image-shape embedding and is trained end-to-end. Unlike previous methods, our approach is independent of the topology of the object and can work with objects from arbitrary categories. Our method, trained with only synthetic data, can be used to automatically animate a mesh, infer motion from real images, and transfer articulation to functionally similar but geometrically distinct 3D models at test time.
翻訳日:2023-01-06 13:14:04 公開日:2023-01-05
# RGB画像からロボット関節角を復元するための距離幾何学的手法

A Distance-Geometric Method for Recovering Robot Joint Angles From an RGB Image ( http://arxiv.org/abs/2301.02051v1 )

ライセンス: Link先を確認
Ivan Bili\'c, Filip Mari\'c, Ivan Markovi\'c, Ivan Petrovi\'c(参考訳) 人間の介入が困難または不可能(例えば、水中、地球外、または危険な環境)な領域で動作する自律的な操作システムは、センシングや通信の失敗に対して高い堅牢性を必要とする。 重要なことに、動作計画と制御アルゴリズムは、ジョイントエンコーダによって提供される正確な関節角データのストリームを必要とする。 本稿では,ロボットマニピュレータの関節角度を現在の構成の1つのRGB画像のみを用いて検索する方法を提案する。 本手法は,検出された構造的キーポイントに関連する距離の2次元から3次元回帰を行う浅層ニューラルネットワークを訓練することを目的として,ロボットの運動モデルの知識を活用している。 結果として得られるユークリッド距離行列は観測された配置と一意に一致し、多次元スケーリングと単純な逆キネマティックス手順によって関節角度を回復できる。 本研究では,フランカ・エミカ・パンダマニピュレータの実際のRGB画像に対するアプローチの性能評価を行い,提案手法が効率的であり,高い一般化能力を示すことを示す。 さらに, この手法と高密度精錬技術とを組み合わせることで, 優れた結果が得られることを示す。

Autonomous manipulation systems operating in domains where human intervention is difficult or impossible (e.g., underwater, extraterrestrial or hazardous environments) require a high degree of robustness to sensing and communication failures. Crucially, motion planning and control algorithms require a stream of accurate joint angle data provided by joint encoders, the failure of which may result in an unrecoverable loss of functionality. In this paper, we present a novel method for retrieving the joint angles of a robot manipulator using only a single RGB image of its current configuration, opening up an avenue for recovering system functionality when conventional proprioceptive sensing is unavailable. Our approach, based on a distance-geometric representation of the configuration space, exploits the knowledge of a robot's kinematic model with the goal of training a shallow neural network that performs a 2D-to-3D regression of distances associated with detected structural keypoints. It is shown that the resulting Euclidean distance matrix uniquely corresponds to the observed configuration, where joint angles can be recovered via multidimensional scaling and a simple inverse kinematics procedure. We evaluate the performance of our approach on real RGB images of a Franka Emika Panda manipulator, showing that the proposed method is efficient and exhibits solid generalization ability. Furthermore, we show that our method can be easily combined with a dense refinement technique to obtain superior results.
翻訳日:2023-01-06 13:13:49 公開日:2023-01-05
# 誰も使うべきではない進化的計算方法

The Evolutionary Computation Methods No One Should Use ( http://arxiv.org/abs/2301.01984v1 )

ライセンス: Link先を確認
Jakub Kudela(参考訳) center-bias(またはzero-bias)演算子は、進化的計算法のベンチマークを示す問題の一つとして最近特定されている。 この演算子により、実現可能な集合の中心にそれぞれの最適値を持つ関数を簡単に最適化できる。 本稿では,センターバイアス演算子を組み込んだ手法を同定し,1987年から2022年にかけて発行された90の進化的計算手法を解析するための簡単な手順について述べる。 検討した手法の半数以上(約90点中47点)が中心バイアス問題を持つことを示した。 また, 中心バイアスは比較的新しい現象であるが(2012年より最初に特定された方法), 近年ではその包含が極めて広まってきている。 最後に,この問題の根本原因について概説する。

The center-bias (or zero-bias) operator has recently been identified as one of the problems plaguing the benchmarking of evolutionary computation methods. This operator lets the methods that utilize it easily optimize functions that have their respective optima in the center of the feasible set. In this paper, we describe a simple procedure that can be used to identify methods that incorporate a center-bias operator and use it to investigate 90 evolutionary computation methods that were published between 1987 and 2022. We show that more than half (47 out of the 90) of the considered methods have the center-bias problem. We also show that the center-bias is a relatively new phenomenon (with the first identified method being from 2012), but its inclusion has become extremely prevalent in the last few years. Lastly, we briefly discuss the possible root causes of this issue.
翻訳日:2023-01-06 13:13:25 公開日:2023-01-05
# 第2の考え:テキスト編集から人間の価値を再調整する学習

Second Thoughts are Best: Learning to Re-Align With Human Values from Text Edits ( http://arxiv.org/abs/2301.00355v2 )

ライセンス: Link先を確認
Ruibo Liu, Chenyan Jia, Ge Zhang, Ziyu Zhuang, Tony X Liu, and Soroush Vosoughi(参考訳) 言語モデル(LM)が人間の価値観に適応することを可能にする新しい学習パラダイムであるSecond Thoughtを提案する。 lm微調整と強化学習による追加改良により,バリューアライメントとバリューアライメントテキストのチェーンオブエディットをモデル化することで,3つの値アライメントベンチマークデータセットにおいて優れたパフォーマンスを実現するだけでなく,少数のシナリオにおいて強力なヒューマンバリュートランスファー学習能力を発揮する。 生成した編集ステップは、解釈性も向上し、インタラクティブなエラー訂正も容易になる。 広範な評価は、その効果をさらに確認する。

We present Second Thought, a new learning paradigm that enables language models (LMs) to re-align with human values. By modeling the chain-of-edits between value-unaligned and value-aligned text, with LM fine-tuning and additional refinement through reinforcement learning, Second Thought not only achieves superior performance in three value alignment benchmark datasets but also shows strong human-value transfer learning ability in few-shot scenarios. The generated editing steps also offer better interpretability and ease for interactive error correction. Extensive human evaluations further confirm its effectiveness.
翻訳日:2023-01-06 13:07:31 公開日:2023-01-05
# 反復分解:推論プロセスの監督による科学Q&Aの改善

Iterated Decomposition: Improving Science Q&A by Supervising Reasoning Processes ( http://arxiv.org/abs/2301.01751v2 )

ライセンス: Link先を確認
Justin Reppert, Ben Rachbach, Charlie George, Luke Stebbing, Jungwon Byun, Maggie Appleton, Andreas Stuhlm\"uller(参考訳) 言語モデル(LM)は、エンド・ツー・エンド、隠れた潜在状態、または透明な中間状態で複雑な推論を行うことができる。 compositionは解釈性と安全性のメリットを提供するが、競争力を維持するためにはワークフローのサポートとインフラストラクチャが必要になる。 構成的LMプログラムの開発と精錬を行うためのヒューマン・イン・ザ・ループ・ワークフローである反復分解について述べる。 故障したコンポーネントをズームインし、分解、追加コンテキスト、思考の連鎖などを通じて、構成の性能を向上させる。 このワークフローをサポートするために,LMプログラムの実行トレースを可視化するオープンソースツールICEを開発した。 実世界の3つのタスクに反復分解を適用し,少ない構成ベースラインよりもLMプログラムの精度を向上させる。ランダム化比較試験(25%から65%)で使用されるプラセボを記述し,医療介入(53%から70%)への順応性を評価し,Qasperデータセット(38%から69%)でNLP質問に回答する。 これらのアプリケーションは、自動化されれば、ますます複雑なタスクにスケールしてもmlシステムを解釈し安全に保つことができるワークフローのケーススタディとして機能する。

Language models (LMs) can perform complex reasoning either end-to-end, with hidden latent state, or compositionally, with transparent intermediate state. Composition offers benefits for interpretability and safety, but may need workflow support and infrastructure to remain competitive. We describe iterated decomposition, a human-in-the-loop workflow for developing and refining compositional LM programs. We improve the performance of compositions by zooming in on failing components and refining them through decomposition, additional context, chain of thought, etc. To support this workflow, we develop ICE, an open-source tool for visualizing the execution traces of LM programs. We apply iterated decomposition to three real-world tasks and improve the accuracy of LM programs over less compositional baselines: describing the placebo used in a randomized controlled trial (25% to 65%), evaluating participant adherence to a medical intervention (53% to 70%), and answering NLP questions on the Qasper dataset (38% to 69%). These applications serve as case studies for a workflow that, if automated, could keep ML systems interpretable and safe even as they scale to increasingly complex tasks.
翻訳日:2023-01-06 13:07:17 公開日:2023-01-05
# g-ceals: 表データ表現のためのオートエンコーダ潜在空間へのガウスクラスタ埋め込み

G-CEALS: Gaussian Cluster Embedding in Autoencoder Latent Space for Tabular Data Representation ( http://arxiv.org/abs/2301.00802v2 )

ライセンス: Link先を確認
Manar D. Samad, Sakib Abrar, Mohammad Bataineh(参考訳) データ可視化のために提案された近傍埋め込みの概念に触発されたクラスタリングアルゴリズムとt分布埋め込みを共同学習することにより、画像データのクラスタリングのためのオートエンコーダの潜在空間が改善されている。 しかし、多変量表データでは画像データとは異なる表現学習の課題が生まれ、従来の機械学習は深層表データ学習よりも優れていることが多い。 本稿では,画像データとは対照的に表データ学習の課題に対処し,t分布を多変量ガウスクラスターに置き換え,オートエンコーダ潜在空間(g-ceals)に埋め込みた新しいガウスクラスタを提案する。 現在の手法とは異なり、提案手法は表現学習において任意のクラスタリングアルゴリズムに対応するため、ガウス埋め込みと対象クラスタ分布を独立に定義する。 トレーニングされたG-CEALSモデルは、見えないテストデータに対する品質埋め込みを抽出する。 埋め込みクラスタリングの精度に基づき,提案手法の平均ランクは1.4 (0.7)であり,全8基クラスタリング法と7つの表付きデータセット上のクラスタ埋め込み法より優れている。 本稿では,ダウンストリームクラスタリングにおける多変量表データ表現を改善するために,組込みとクラスタリングを共同で学習する最初のアルゴリズムの1つを示す。

The latent space of autoencoders has been improved for clustering image data by jointly learning a t-distributed embedding with a clustering algorithm inspired by the neighborhood embedding concept proposed for data visualization. However, multivariate tabular data pose different challenges in representation learning than image data, where traditional machine learning is often superior to deep tabular data learning. In this paper, we address the challenges of learning tabular data in contrast to image data and present a novel Gaussian Cluster Embedding in Autoencoder Latent Space (G-CEALS) algorithm by replacing t-distributions with multivariate Gaussian clusters. Unlike current methods, the proposed approach independently defines the Gaussian embedding and the target cluster distribution to accommodate any clustering algorithm in representation learning. A trained G-CEALS model extracts a quality embedding for unseen test data. Based on the embedding clustering accuracy, the average rank of the proposed G-CEALS method is 1.4 (0.7), which is superior to all eight baseline clustering and cluster embedding methods on seven tabular data sets. This paper shows one of the first algorithms to jointly learn embedding and clustering to improve multivariate tabular data representation in downstream clustering.
翻訳日:2023-01-06 13:06:56 公開日:2023-01-05
# オフライン強化学習のための文脈保守型Qラーニング

Contextual Conservative Q-Learning for Offline Reinforcement Learning ( http://arxiv.org/abs/2301.01298v2 )

ライセンス: Link先を確認
Ke Jiang, Jiayu Yao, Xiaoyang Tan(参考訳) オフライン強化学習は,オンラインインタラクションを伴わないオフラインデータセットの効果的なポリシを学習する。 しかし、分散シフトによって生じる外挿誤差は、オフラインポリシーの信頼性と堅牢性を低下させるout-of-distribution(ood)状態に移行するアクションに対する過大評価につながる。 本稿では,逆ダイナミクスモデルを用いて取得したコンテキスト情報を用いて,信頼性の高いポリシーを学習するためのコンテキスト保守型Q-Learning(C-CQL)を提案する。 逆ダイナミクスモデルの監督により、摂動状態がOOD状態の一般的な種類であるという事実から、摂動状態における安定な遷移を生成する政策を学ぶ傾向にある。 このようにして、学習ポリシーは、オフラインデータセットの実証的な次の状態分布、すなわち堅牢に信頼性のある遷移に運命付ける遷移をより高めることができる。 さらに,C-CQLは保守的Q-Learning(CQL)と攻撃的状態偏差補正(SDC)の一般化であることを示す。 最後に、提案したC-CQLがオフラインのMujocoスイートとノイズの多いMujoco設定のほとんどの環境で最先端のパフォーマンスを達成することを示す実験結果が発表された。

Offline reinforcement learning learns an effective policy on offline datasets without online interaction, and it attracts persistent research attention due to its potential of practical application. However, extrapolation error generated by distribution shift will still lead to the overestimation for those actions that transit to out-of-distribution(OOD) states, which degrades the reliability and robustness of the offline policy. In this paper, we propose Contextual Conservative Q-Learning(C-CQL) to learn a robustly reliable policy through the contextual information captured via an inverse dynamics model. With the supervision of the inverse dynamics model, it tends to learn a policy that generates stable transition at perturbed states, for the fact that pertuebed states are a common kind of OOD states. In this manner, we enable the learnt policy more likely to generate transition that destines to the empirical next state distributions of the offline dataset, i.e., robustly reliable transition. Besides, we theoretically reveal that C-CQL is the generalization of the Conservative Q-Learning(CQL) and aggressive State Deviation Correction(SDC). Finally, experimental results demonstrate the proposed C-CQL achieves the state-of-the-art performance in most environments of offline Mujoco suite and a noisy Mujoco setting.
翻訳日:2023-01-06 13:06:32 公開日:2023-01-05
# ベックマン防衛

Beckman Defense ( http://arxiv.org/abs/2301.01495v2 )

ライセンス: Link先を確認
A. V. Subramanyam(参考訳) 最適輸送 (OT) に基づく分散ロバスト最適化 (DRO) は近年, 注目を集めている。 しかし、これは初期段階にあるが、深層学習モデルの堅牢化には大きな可能性を秘めている。 興味深いことに、OTバリセンターは敵の攻撃に対して良好な堅牢性を示す。 OTバリセンタの計算的高価さのため、DROフレームワーク下では研究されていない。 そこで本研究では,対向訓練と連動して,対向攻撃に対してネットワークを防御する訓練を行うため,効率的に計算できる新しいバリセンタであるベックマン・バリセンタを提案する。 本稿では, 入力画像の辺縁を用いて, beckman barycenter の新しい定式化法を提案し, 解析的にbarycenter を得る。 ベックマン・バリセンターは、敵に訓練されたネットワークをトレーニングし、ロバスト性を向上させることができることを示す。 私たちの訓練は一時期の訓練しか必要としないので、非常に効率的です。 CIFAR-10、CIFAR-100、Tiny ImageNetの実験により、ベックマン・バリセンターと対向的に堅牢なネットワークをトレーニングすることで、性能が大幅に向上することを示した。 自動攻撃では、CIFAR-10では最大10\%、CIFAR-100では8.34\%、Tiny ImageNetでは11.51\%となる。 私たちのコードはhttps://github.com/Visual-Conception-Group/test-barycentric-defenseで利用可能です。

Optimal transport (OT) based distributional robust optimisation (DRO) has received some traction in the recent past. However, it is at a nascent stage but has a sound potential in robustifying the deep learning models. Interestingly, OT barycenters demonstrate a good robustness against adversarial attacks. Owing to the computationally expensive nature of OT barycenters, they have not been investigated under DRO framework. In this work, we propose a new barycenter, namely Beckman barycenter, which can be computed efficiently and used for training the network to defend against adversarial attacks in conjunction with adversarial training. We propose a novel formulation of Beckman barycenter and analytically obtain the barycenter using the marginals of the input image. We show that the Beckman barycenter can be used to train adversarially trained networks to improve the robustness. Our training is extremely efficient as it requires only a single epoch of training. Elaborate experiments on CIFAR-10, CIFAR-100 and Tiny ImageNet demonstrate that training an adversarially robust network with Beckman barycenter can significantly increase the performance. Under auto attack, we get a a maximum boost of 10\% in CIFAR-10, 8.34\% in CIFAR-100 and 11.51\% in Tiny ImageNet. Our code is available at https://github.com/Visual-Conception-Group/test-barycentric-defense.
翻訳日:2023-01-06 13:06:10 公開日:2023-01-05
# tsar-2022でのunihd共有タスク: 語彙の単純化に必要な計算は必要か?

UniHD at TSAR-2022 Shared Task: Is Compute All We Need for Lexical Simplification? ( http://arxiv.org/abs/2301.01764v2 )

ライセンス: Link先を確認
Dennis Aumiller and Michael Gertz(参考訳) 辞書の単純化に関するこれまでの最先端のモデルは、複雑なパイプラインと複数のコンポーネントで構成されており、それぞれに深い技術知識と微調整されたインタラクションが必要である。 代替として、引き起こされたGPT-3応答に基づくフラストレーションに富んだ単純なパイプラインを記述し、少数のトレーニングインスタンスで競合するアプローチをはるかに上回った。 TSAR-2022共有タスクの英語トラックへの最も優れた提案は、異なる文脈レベルを持つ6種類のプロンプトテンプレートの '`ensemble''' からなる。 遅れの結果として、英語以外の言語を単純化する言語転送手法をさらに詳細に述べる。 スペイン語とポルトガル語のサブセットに適用すると、元のプロンプトにわずかな修正を加えるだけで最新の結果が得られる。 実装とセットアップの詳細は別として、この作業の残りは、今後の作業の促進と意味を議論する作業に費やしています。 実験用コードはhttps://github.com/dennlinger/TSAR-2022-Shared-Taskで公開されている。

Previous state-of-the-art models for lexical simplification consist of complex pipelines with several components, each of which requires deep technical knowledge and fine-tuned interaction to achieve its full potential. As an alternative, we describe a frustratingly simple pipeline based on prompted GPT-3 responses, beating competing approaches by a wide margin in settings with few training instances. Our best-performing submission to the English language track of the TSAR-2022 shared task consists of an ``ensemble'' of six different prompt templates with varying context levels. As a late-breaking result, we further detail a language transfer technique that allows simplification in languages other than English. Applied to the Spanish and Portuguese subset, we achieve state-of-the-art results with only minor modification to the original prompts. Aside from detailing the implementation and setup, we spend the remainder of this work discussing the particularities of prompting and implications for future work. Code for the experiments is available online at https://github.com/dennlinger/TSAR-2022-Shared-Task
翻訳日:2023-01-06 13:05:49 公開日:2023-01-05
# 低分解能リモートセンシング画像による建物被覆の推定

Building Coverage Estimation with Low-resolution Remote Sensing Imagery ( http://arxiv.org/abs/2301.01449v2 )

ライセンス: Link先を確認
Enci Liu, Chenlin Meng, Matthew Kolodner, Eun Jee Sung, Sihang Chen, Marshall Burke, David Lobell, Stefano Ermon(参考訳) 建物のカバレッジ統計は、地域の都市化、インフラ、貧困レベルに関する重要な洞察を提供し、貧困を緩和し、持続可能な都市を構築し、インフラ投資と公共サービスの提供を割り当てる努力を促進する。 ディープラーニングモデルのパイプラインへの導入により、建物のグローバルマッピングがより効率的になった。 しかし、これらのモデルは一般的に高解像度の衛星画像に頼っている。 その結果、ビルド環境が急速に変化している発展途上国では、ビルドカバレッジデータはタイムリーに更新されない。 本稿では,より頻繁に更新される低解像度衛星画像のみを用いて,建築カバレッジを推定する手法を提案する。 マルチノード量子化回帰層を持つことで,モデルの空間的および時間的一般化が大幅に向上することを示す。 本モデルでは, 世界の開発レベルの異なる地域における建築範囲の予測において, 最大0.968の判定係数(R^2$)を達成する。 提案モデルでは,低解像度リモートセンシングデータのみを用いて,建物被覆量を正確に予測し,未確認の国や大陸に最適化し,グローバルな建物被覆量を推定できる可能性が示唆された。

Building coverage statistics provide crucial insights into the urbanization, infrastructure, and poverty level of a region, facilitating efforts towards alleviating poverty, building sustainable cities, and allocating infrastructure investments and public service provision. Global mapping of buildings has been made more efficient with the incorporation of deep learning models into the pipeline. However, these models typically rely on high-resolution satellite imagery which are expensive to collect and infrequently updated. As a result, building coverage data are not updated timely especially in developing regions where the built environment is changing quickly. In this paper, we propose a method for estimating building coverage using only publicly available low-resolution satellite imagery that is more frequently updated. We show that having a multi-node quantile regression layer greatly improves the model's spatial and temporal generalization. Our model achieves a coefficient of determination ($R^2$) as high as 0.968 on predicting building coverage in regions of different levels of development around the world. We demonstrate that the proposed model accurately predicts the building coverage from raw input images and generalizes well to unseen countries and continents, suggesting the possibility of estimating global building coverage using only low-resolution remote sensing data.
翻訳日:2023-01-06 13:05:31 公開日:2023-01-05
# コーポレートロビイストとしての大規模言語モデル

Large Language Models as Corporate Lobbyists ( http://arxiv.org/abs/2301.01181v3 )

ライセンス: Link先を確認
John J. Nay(参考訳) コーポレートロビー活動を行う大規模言語モデルの概念実証を実証する。 自己回帰的大言語モデル(OpenAIのtext-davinci-003)は、提案された米国議会法案が特定の公共企業に関連するかどうかを決定し、説明と信頼レベルを提供する。 モデルが関連するものとみなす法案について、モデルは提案された法律を変更するよう議会に説得するために、法案のスポンサーに手紙を起草する。 我々は、このモデルの性能をベンチマークするために、企業に対する法案の関連性に関する数百の地道なラベルを使用します。 また,従来のOpenAI GPT-3モデル(text-davinci-002)の性能もベンチマークした。 テキストダヴィンチ002のパフォーマンスは、単に法案が企業と無関係であると予測するよりも悪い。 これらの結果から,大規模言語モデルが中核的な自然言語理解能力の向上を継続するにつれ,企業ロビー活動に関わるタスクのパフォーマンスが向上し続けることが示唆された。 もしAIが人間の意図の直接的な延長ではない方法で法に影響を与え始めたら、このことは、情報としての法が人間とAIを結びつける上で果たす重要な役割を脅かす。 本稿では,この可能性の高まりについて考察する。 当初、AIは人間のロビイストを増やすために使われていました。 しかし、政策案の自動評価や、規制機関や議会職員との文書によるコミュニケーションに対する人的監督が徐々に低下している可能性がある。 一番の疑問は、人間主導とai主導の政策の影響の線引きだ。

We demonstrate a proof-of-concept of a large language model conducting corporate lobbying related activities. An autoregressive large language model (OpenAI's text-davinci-003) determines if proposed U.S. Congressional bills are relevant to specific public companies and provides explanations and confidence levels. For the bills the model deems as relevant, the model drafts a letter to the sponsor of the bill in an attempt to persuade the congressperson to make changes to the proposed legislation. We use hundreds of ground-truth labels of the relevance of a bill to a company to benchmark the performance of the model, which outperforms the baseline of predicting the most common outcome of irrelevance. We also benchmark the performance of the previous OpenAI GPT-3 model (text-davinci-002), which was state-of-the-art on many language tasks until text-davinci-003 was recently released. The performance of text-davinci-002 is worse than simply always predicting that a bill is irrelevant to a company. These results suggest that, as large language models continue to exhibit improved core natural language understanding capabilities, performance on corporate lobbying related tasks will continue to improve. If AI begins to influence law in a manner that is not a direct extension of human intentions, this threatens the critical role that law as information could play in aligning AI with humans. This paper explores how this is increasingly a possibility. Initially, AI is being used to simply augment human lobbyists. However, there may be a slow creep of less and less human oversight over automated assessments of policy ideas and the written communication to regulatory agencies and Congressional staffers. The core question raised is where to draw the line between human-driven and AI-driven policy influence.
翻訳日:2023-01-06 13:05:12 公開日:2023-01-05
# ニューラルネットワークのプルーニングが一般化に与える影響に関する理論的評価

Theoretical Characterization of How Neural Network Pruning Affects its Generalization ( http://arxiv.org/abs/2301.00335v2 )

ライセンス: Link先を確認
Hongru Yang, Yingbin Liang, Xiaojie Guo, Lingfei Wu, Zhangyang Wang(参考訳) ニューラルネットワークにプルーニング・アット・初期化法を適用し、スパシファイドネットワークを訓練することで、元の高密度モデルの試験性能を維持するだけでなく、時として一般化性能をわずかに向上させることができる。 このような実験的な観測の理論的理解はまだ開発されていない。 この研究は、異なるプルーニング分数がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。 具体的には,初期化の速度によってネットワークがランダムに刈り取られる過パラメータ2層ニューラルネットワークの分類タスクについて検討する。 プルーニング率が一定のしきい値以下であれば,勾配降下がトレーニング損失をゼロに誘導し,ネットワークの一般化性能が向上することが示された。 より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。 この正の結果を補完するために、この研究はさらに負の結果を示す: 勾配降下が(ノイズを暗記することで)トレーニング損失をゼロに導くことができるような大きなプルーニング率が存在するが、一般化性能はランダムな推測よりも優れていない。 このことは、プルーニングが特徴学習プロセスを変え、プルーニングニューラルネットワークの性能低下につながることを示唆している。

It has been observed in practice that applying pruning-at-initialization methods to neural networks and training the sparsified networks can not only retain the testing performance of the original dense models, but also sometimes even slightly boost the generalization performance. Theoretical understanding for such experimental observations are yet to be developed. This work makes the first attempt to study how different pruning fractions affect the model's gradient descent dynamics and generalization. Specifically, this work considers a classification task for overparameterized two-layer neural networks, where the network is randomly pruned according to different rates at the initialization. It is shown that as long as the pruning fraction is below a certain threshold, gradient descent can drive the training loss toward zero and the network exhibits good generalization performance. More surprisingly, the generalization bound gets better as the pruning fraction gets larger. To complement this positive result, this work further shows a negative result: there exists a large pruning fraction such that while gradient descent is still able to drive the training loss toward zero (by memorizing noise), the generalization performance is no better than random guessing. This further suggests that pruning can change the feature learning process, which leads to the performance drop of the pruned neural network.
翻訳日:2023-01-06 13:04:43 公開日:2023-01-05