このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220923となっている論文です。

PDF登録状況(公開日: 20220923)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子近似最適化アルゴリズムを用いた車両ルーティング問題の解法

Solving Vehicle Routing Problem Using Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2002.01351v2 )

ライセンス: Link先を確認
Utkarsh Azad, Bikash K. Behera, Emad A. Ahmed, Prasanta K. Panigrahi, and Ahmed Farouk(参考訳) 本稿では,量子古典的ヒューリスティックである量子近似最適化アルゴリズム(QAOA)を用いて,車載ルーティング問題(VRP)と呼ばれる組合せ最適化と整数プログラミングの課題を解決する。 我々はVRPのIsing定式化について概説し、IBM Qiskitプラットフォームを用いてシミュレーションしたIsing Hamiltonianを最小化することでVRPを解くための詳細な手順を示す。 ここでは,vrp問題の解を求める: (4,2), (5,2), (5,3) それぞれの (n, k) が n 個の位置と k 個の車両からなる vrp 問題を表す。 QAOAの性能は、使用する古典的なオプティマイザ、断熱経路が実現されるステップ数p、あるいはパラメータの初期化方法に依存するだけでなく、問題インスタンス自体にも依存している。

In this paper, we describe the usage of the Quantum Approximate Optimization Algorithm (QAOA), which is a quantum-classical heuristic, to solve a combinatorial optimization and integer programming task known as Vehicle Routing Problem (VRP). We outline the Ising formulation for VRP and present a detailed procedure to solve VRP by minimizing its simulated Ising Hamiltonian using the IBM Qiskit platform. Here, we attempt to find solutions for the VRP problems: (4,2), (5,2), and (5,3), where each (n, k) represents a VRP problem with n locations and k vehicles. We find that the performance of QAOA is not just dependent upon the classical optimizer used, the number of steps p in which an adiabatic path is realized, or the way parameters are initialized, but also on the problem instance itself.
翻訳日:2023-06-05 00:19:09 公開日:2022-09-23
# qugan: 量子状態忠実性に基づく生成的逆ネットワーク

QuGAN: A Quantum State Fidelity based Generative Adversarial Network ( http://arxiv.org/abs/2010.09036v3 )

ライセンス: Link先を確認
Samuel A. Stein, Betis Baheri, Daniel Chen, Ying Mao, Qiang Guan, Ang Li, Bo Fang, Shuai Xu(参考訳) ニューラルネットワークをベースとするディープラーニングシステムが、ほぼすべてのドメインに応用されている人工知能において、非常に進歩している。 代表的なディープラーニングフレームワークとして、GAN(Generative Adversarial Network)は、科学、芸術、ビデオゲームの領域にまたがる人工画像の生成、テキストから画像への変換、画像の拡張に広く利用されている。 しかし、GANは計算コストが高く、時には計算が禁止される。 さらに、GANの訓練は収束不良とモード崩壊に悩まされる可能性がある。 実用量子コンピュータのユースケースの加速を目的としたQuGANは,安定収束性,量子状態に基づく勾配,パラメータセットの大幅な削減を実現する量子GANアーキテクチャである。 QuGANアーキテクチャは、判別器とジェネレータの両方を純粋に量子状態忠実度で動作させ、量子ベースの損失関数の値を計算するために量子ビット上のスワップテストを利用する。 量子層上に構築されたQuGANは、古典的なGANと比較してパラメータセットを94.98%削減する。 同じ数のパラメータで、QuGANは、生成した分布と元のデータセットの類似性の点で0.5%未満であるのに比べて、48.33%のシステム性能向上を提供する文献において、最先端の量子ベースGANよりも優れている。 quganコードはhttps://github.com/yingmao/quantum-generative-adversarial-networkでリリース

Tremendous progress has been witnessed in artificial intelligence where neural network backed deep learning systems have been used, with applications in almost every domain. As a representative deep learning framework, Generative Adversarial Network (GAN) has been widely used for generating artificial images, text-to-image or image augmentation across areas of science, arts and video games. However, GANs are computationally expensive, sometimes computationally prohibitive. Furthermore, training GANs may suffer from convergence failure and modal collapse. Aiming at the acceleration of use cases for practical quantum computers, we propose QuGAN, a quantum GAN architecture that provides stable convergence, quantum-state based gradients and significantly reduced parameter sets. The QuGAN architecture runs both the discriminator and the generator purely on quantum state fidelity and utilizes the swap test on qubits to calculate the values of quantum-based loss functions. Built on quantum layers, QuGAN achieves similar performance with a 94.98% reduction on the parameter set when compared to classical GANs. With the same number of parameters, additionally, QuGAN outperforms state-of-the-art quantum based GANs in the literature providing a 48.33% improvement in system performance compared to others attaining less than 0.5% in terms of similarity between generated distributions and original data sets. QuGAN code is released at https://github.com/yingmao/Quantum-Generative-Adversarial-Network
翻訳日:2023-04-28 18:02:35 公開日:2022-09-23
# 単層量子近似最適化アルゴリズムのイジング問題に対する期待値

Expectation Values from the Single-Layer Quantum Approximate Optimization Algorithm on Ising Problems ( http://arxiv.org/abs/2012.03421v3 )

ライセンス: Link先を確認
Asier Ozaeta, Wim van Dam, Peter L. McMahon(参考訳) 本稿では,単一層(p=1$)量子近似最適化アルゴリズム(qaoa)が生成するエネルギー期待値のランドスケープについて報告する。 景観は我々が導いた解析式を用いて得られる。 この公式により、任意のIsing問題インスタンスのランドスケープを予測でき、その結果、単一層QAOAを用いてそのインスタンスをヒューリスティックに解くための最適なQAOAパラメータを予測できる。 我々は,最近の実験報告で公表された景観を正確に再現できることを示し,解析式を検証する。 シングルレイヤのQAOAが大規模なベンチマーク問題インスタンスをどの程度うまく解決できるのか? 解析式を用いて最大7,000ドルの頂点と41,459ドルの辺を含むベンチマークマックスカット問題の最適エネルギー期待値を計算した。 また,一般的なイジング問題に対する最適エネルギー期待値を,最大100,000ドルの頂点と150,000ドルのエッジで計算した。 私たちの結果は、数千キュービットの量子コンピュータ上で動作した場合、シングルレイヤqaoaがどの程度うまく機能するかを推定するものです。 最適角度を用いた場合のパフォーマンス推定に加えて、分析結果を用いて、Isingインスタンスの異なるクラスで実際にQAOAを実行する場合の難易度を調べることができる。 アイジング・ハミルトンのパラメータによっては、QAOAが量子ハードウェア上で最適に動作するためには、高精度な回転ゲートを必要とするシャープな特徴を持つ期待値のランドスケープがかなり複雑になることが分かる。 また,数値的に観察される定性的な景観特徴のいくつかを説明する分析結果も提示する。

We report on the energy-expectation-value landscapes produced by the single-layer ($p=1$) Quantum Approximate Optimization Algorithm (QAOA) when being used to solve Ising problems. The landscapes are obtained using an analytical formula that we derive. The formula allows us to predict the landscape for any given Ising problem instance and consequently predict the optimal QAOA parameters for heuristically solving that instance using the single-layer QAOA. We have validated our analytical formula by showing that it accurately reproduces the landscapes published in recent experimental reports. We then applied our methods to address the question: how well is the single-layer QAOA able to solve large benchmark problem instances? We used our analytical formula to calculate the optimal energy-expectation values for benchmark MAX-CUT problems containing up to $7\,000$ vertices and $41\,459$ edges. We also calculated the optimal energy expectations for general Ising problems with up to $100\,000$ vertices and $150\,000$ edges. Our results provide an estimate for how well the single-layer QAOA may work when run on a quantum computer with thousands of qubits. In addition to providing performance estimates when optimal angles are used, we are able to use our analytical results to investigate the difficulties one may encounter when running the QAOA in practice for different classes of Ising instances. We find that depending on the parameters of the Ising Hamiltonian, the expectation-value landscapes can be rather complex, with sharp features that necessitate highly accurate rotation gates in order for the QAOA to be run optimally on quantum hardware. We also present analytical results that explain some of the qualitative landscape features that are observed numerically.
翻訳日:2023-04-21 21:12:09 公開日:2022-09-23
# 制御量子ビットの少ない多重固有値のハイゼンベルク制限量子位相推定

Heisenberg-limited quantum phase estimation of multiple eigenvalues with few control qubits ( http://arxiv.org/abs/2107.04605v3 )

ライセンス: Link先を確認
Alicja Dutkiewicz, Barbara M. Terhal and Thomas E. O'Brien(参考訳) 量子位相推定は量子アルゴリズム設計の基盤であり、指数関数的に大きいスパース行列の固有値の推測を可能にする。 実験間のコヒーレンスを必要としない量子位相推定の単一制御量子ビット変種は、近年、回路深さの低下と最小量子ビットオーバーヘッドのために関心を集めている。 本研究では,システムの固有状態を生成することができない場合,これらの手法がハイゼンベルク極限を達成することができることを示す。 g(k)=\sum_j a_j e^{i \phi_j k}$ with unknown eigenphases $\phi_j$ and overlaps $a_j$ at quantum cost $o(k)$ という量子サブルーチンが与えられたとき、その位相を (root-mean-square) 誤差$\delta$ で推定する方法を示す。 本手法は,単一の固有値位相 [higgins et al (2009)) と kimmel et al (2015)] に対するハイゼンベルク制限された多階量子位相推定と,qeep問題 [somma (2019)] あるいは行列鉛筆法] の時系列解析による古典的処理を用いた,いわゆる高密度量子位相推定のサブルーチンを組み合わせたものである。 適応的に$k$ in $g(k)$を選択するアルゴリズムでは、時系列/QEEPサブルーチンを使用する場合、Heisenberg制限スケーリングを証明します。 本研究では,行列鉛筆法を用いて,ハイゼンベルク制限スケーリングを実現できることを示す。

Quantum phase estimation is a cornerstone in quantum algorithm design, allowing for the inference of eigenvalues of exponentially-large sparse matrices.The maximum rate at which these eigenvalues may be learned, --known as the Heisenberg limit--, is constrained by bounds on the circuit complexity required to simulate an arbitrary Hamiltonian. Single-control qubit variants of quantum phase estimation that do not require coherence between experiments have garnered interest in recent years due to lower circuit depth and minimal qubit overhead. In this work we show that these methods can achieve the Heisenberg limit, {\em also} when one is unable to prepare eigenstates of the system. Given a quantum subroutine which provides samples of a `phase function' $g(k)=\sum_j A_j e^{i \phi_j k}$ with unknown eigenphases $\phi_j$ and overlaps $A_j$ at quantum cost $O(k)$, we show how to estimate the phases $\{\phi_j\}$ with (root-mean-square) error $\delta$ for total quantum cost $T=O(\delta^{-1})$. Our scheme combines the idea of Heisenberg-limited multi-order quantum phase estimation for a single eigenvalue phase [Higgins et al (2009) and Kimmel et al (2015)] with subroutines with so-called dense quantum phase estimation which uses classical processing via time-series analysis for the QEEP problem [Somma (2019)] or the matrix pencil method. For our algorithm which adaptively fixes the choice for $k$ in $g(k)$ we prove Heisenberg-limited scaling when we use the time-series/QEEP subroutine. We present numerical evidence that using the matrix pencil technique the algorithm can achieve Heisenberg-limited scaling as well.
翻訳日:2023-03-22 23:42:34 公開日:2022-09-23
# 共変 Stinespring 定理

A covariant Stinespring theorem ( http://arxiv.org/abs/2108.09872v4 )

ライセンス: Link先を確認
Dominic Verdon(参考訳) コンパクト量子群に対する有限次元共変スタイネスプリング定理を証明する。 G をコンパクトな量子群とし、T:= Rep(G) を G の有限次元連続ユニタリ表現の剛 C*-拡大圏とする。 有限次元 G-C*-代数は、Mod(T) の対象 T から 1-射の同値類と同一視できることを示す。 1-射 X: T -> M1, Y: T -> M2 に対し、対応する G-C*-代数間の共変正の写像は、等長写像 t: X -> Y \otimes E に 'dilated' することができる。 特に、環境の量子次元を最小化するダイレーションはユニタリまでユニークである。 G がコンパクト群であるとき、これは以前の共変Stinespring型定理を回復する。

We prove a finite-dimensional covariant Stinespring theorem for compact quantum groups. Let G be a compact quantum group, and let T:= Rep(G) be the rigid C*-tensor category of finite-dimensional continuous unitary representations of G. Let Mod(T) be the rigid C*-2-category of cofinite semisimple finitely decomposable T-module categories. We show that finite-dimensional G-C*-algebras can be identified with equivalence classes of 1-morphisms out of the object T in Mod(T). For 1-morphisms X: T -> M1, Y: T -> M2, we show that covariant completely positive maps between the corresponding G-C*-algebras can be 'dilated' to isometries t: X -> Y \otimes E, where E: M2 -> M1 is some 'environment' 1-morphism. Dilations are unique up to partial isometry on the environment; in particular, the dilation minimising the quantum dimension of the environment is unique up to a unitary. When G is a compact group this recovers previous covariant Stinespring-type theorems.
翻訳日:2023-03-17 12:24:14 公開日:2022-09-23
# 人工知能のメカニズムとしての進化的自己複製

Evolutionary Self-Replication as a Mechanism for Producing Artificial Intelligence ( http://arxiv.org/abs/2109.08057v5 )

ライセンス: Link先を確認
Samuel Schmidgall, Joseph Hays(参考訳) 生き残りという文脈でのみ再生は、我々のマシンに知性をもたらすだろうか? 本研究では,現代学習環境における知的行動の出現メカニズムとして自己複製を考察する。 純粋に生存に焦点を合わせながら自然選択を行ないながら、進化した生物は有意義で複雑で知的な行動を生み出し、報酬や目的の概念なしに、挑戦的な問題に対する創造的な解決策を示す。 atariとロボット学習環境は自然選択の観点で再定義され、これらの実験中に自己複製生物に現れる行動が詳細に記述されている。

Can reproduction alone in the context of survival produce intelligence in our machines? In this work, self-replication is explored as a mechanism for the emergence of intelligent behavior in modern learning environments. By focusing purely on survival, while undergoing natural selection, evolved organisms are shown to produce meaningful, complex, and intelligent behavior, demonstrating creative solutions to challenging problems without any notion of reward or objectives. Atari and robotic learning environments are re-defined in terms of natural selection, and the behavior which emerged in self-replicating organisms during these experiments is described in detail.
翻訳日:2023-03-14 20:58:58 公開日:2022-09-23
# フロッケ系における分数共鳴と熱前状態

Fractional resonances and prethermal states in Floquet systems ( http://arxiv.org/abs/2111.06949v4 )

ライセンス: Link先を確認
R. Pe\~na, V. M. Bastidas, F. Torres, W. J. Munro, and G. Romero(参考訳) 周期的に駆動される量子システムでは、共鳴は異種な非平衡挙動や物質の新しい相を静的なアナログなしで引き起こすことができる。 マルチボディハミルトニアンの幅広いクラスにおける分数と整数共振の発生について報告し、オンサイト相互作用の分数または整数である周波数の変調ホッピングについて報告する。 相互作用が系をフロッケ予熱状態へと導くとき、これらの共鳴の間には根本的な違いがあると主張する。 二次過程は分数共鳴の場合のダイナミクスを支配し、一階過程が支配する整数共鳴の場合よりも、絡み合いや局所化された量子状態が減少する。 実効ハミルトニアンのマグナス展開を用いた分数共振器の優位性の出現を実証し、量子状態のフォン・ノイマンエントロピーとロシミットエコーによる多体力学への影響を定量化する。 その結果、フロッケの予熱と局所化の共存など、量子技術や量子情報処理のための量子記憶の発展を可能にする非平衡量子多体系の新しい特徴が明らかになった。

In periodically-driven quantum systems, resonances can induce exotic nonequilibrium behavior and new phases of matter without static analog. We report on the emergence of fractional and integer resonances in a broad class of many-body Hamiltonians with a modulated hopping with a frequency that is either a fraction or an integer of the on-site interaction. We contend that there is a fundamental difference between these resonances when interactions bring the system to a Floquet prethermal state. Second-order processes dominate the dynamics in the fractional resonance case, leading to less entanglement and more localized quantum states than in the integer resonance case dominated by first-order processes. We demonstrate the dominating emergence of fractional resonances using the Magnus expansion of the effective Hamiltonian and quantify their effects on the many-body dynamics via quantum states' von Neumann entropy and Loschmidt echo. Our findings reveal novel features of the nonequilibrium quantum many-body system, such as the coexistence of Floquet prethermalization and localization, that may allow to development of quantum memories for quantum technologies and quantum information processing.
翻訳日:2023-03-08 07:44:56 公開日:2022-09-23
# ディープニューラルネットワークに対する特異リーマン幾何学的アプローチ I. 理論的基礎

A singular Riemannian geometry approach to Deep Neural Networks I. Theoretical foundations ( http://arxiv.org/abs/2201.09656v2 )

ライセンス: Link先を確認
Alessandro Benfenati and Alessio Marta(参考訳) ディープニューラルネットワークは、音声認識、機械翻訳、画像解析など、いくつかの科学領域で複雑な問題を解決するために広く使われている。 その理論的性質を研究するための戦略は主にユークリッド幾何学に依存しているが、近年はリーマン幾何学に基づく新しいアプローチが開発されている。 いくつかの開問題に動機付けられて、リーマン計量を備えた列の最後の多様体を持つ多様体間の写像の特定の列を研究する。 トラフ引き戻しを誘導する構造について, 列の他の多様体と関連する商について検討した。 特に、列の任意の多様体に対する最終リーマン計量の引き戻しが擬計量空間の構造を誘導する退化リーマン計量であることを示し、この擬計量空間のコルモゴロフ商が、特定の垂直束の基底空間である滑らかな多様体となることを示す。 このような列の写像の理論的性質について検討し,最終的に実用的関心を持つニューラルネットワークを実装する多様体間の写像の場合に焦点を当て,本論文の第一部で紹介した幾何学的枠組みの応用について述べる。

Deep Neural Networks are widely used for solving complex problems in several scientific areas, such as speech recognition, machine translation, image analysis. The strategies employed to investigate their theoretical properties mainly rely on Euclidean geometry, but in the last years new approaches based on Riemannian geometry have been developed. Motivated by some open problems, we study a particular sequence of maps between manifolds, with the last manifold of the sequence equipped with a Riemannian metric. We investigate the structures induced trough pullbacks on the other manifolds of the sequence and on some related quotients. In particular, we show that the pullbacks of the final Riemannian metric to any manifolds of the sequence is a degenerate Riemannian metric inducing a structure of pseudometric space, we show that the Kolmogorov quotient of this pseudometric space yields a smooth manifold, which is the base space of a particular vertical bundle. We investigate the theoretical properties of the maps of such sequence, eventually we focus on the case of maps between manifolds implementing neural networks of practical interest and we present some applications of the geometric framework we introduced in the first part of the paper.
翻訳日:2023-03-04 06:53:02 公開日:2022-09-23
# 遷移の選択的暗化によるフラクソニウム量子ビットのCNOTゲート

CNOT gates for fluxonium qubits via selective darkening of transitions ( http://arxiv.org/abs/2202.04583v2 )

ライセンス: Link先を確認
Konstantin N. Nesterov, Chen Wang, Vladimir E. Manucharyan, Maxim G. Vavilov(参考訳) フラキソニウム回路のクロス共振効果を解析し,遷移の選択的暗色化に基づく2ビットゲート方式について検討する。 この方法では、目標量子ビットの周波数における2つのマイクロ波パルスと振幅の適切な比を同時に適用し、制御NOT動作を実現する。 我々は,コヒーレントゲートダイナミクスを詳細に研究し,ゲートエラーを計算する。 非単体効果を考慮に入れれば、実際のハードウェアパラメータに対して10〜4ドル以下のゲート誤差が可能であることを示す。 この数は、計算遷移の長いコヒーレンス時間とフラックスニウムの強い無調和性によって促進され、ゲートマイクロ波駆動中に高い励起状態への励起が容易に防止される。

We analyze the cross-resonance effect for fluxonium circuits and investigate a two-qubit gate scheme based on selective darkening of a transition. In this approach, two microwave pulses at the frequency of the target qubit are applied simultaneously with a proper ratio between their amplitudes to achieve a controlled-NOT operation. We study in detail coherent gate dynamics and calculate gate error. With nonunitary effects accounted for, we demonstrate that gate error below $10^{-4}$ is possible for realistic hardware parameters. This number is facilitated by long coherence times of computational transitions and strong anharmonicity of fluxoniums, which easily prevents excitation to higher excited states during the gate microwave drive.
翻訳日:2023-02-26 07:07:01 公開日:2022-09-23
# ボゾン環境における2量子系とAubry-Andr\'{e}鎖の量子相関

Quantum correlations of a two-qubit system and the Aubry-Andr\'{e} chain in bosonic environments ( http://arxiv.org/abs/2203.10460v2 )

ライセンス: Link先を確認
He Wang, Liufang Xu and Jin Wang(参考訳) 本研究ではテンソルネットワークアルゴリズムを用いて2つのモデルを分析する。 2量子ビット系の量子相関は、まず異なるボソニック貯水池で研究される。 平衡シナリオと非平衡シナリオが議論される。 非マルコフ効果は量子相関の生存時間を大幅に改善し、デコヒーレンス効果を弱める。 既存の記憶を持つ非マルコフ力学は、記憶のないマルコフのケースに見られる結果の絡み合いや死の代わりに、特定のシナリオで絡み合いを再現する。 この系は亜オーム貯水池で最も速い定常状態に達し、超オーム貯水池で最も明白な非マルコフ挙動を示す。 環境が量子相関に与える影響だけでなく、量子相関を保護する方法も研究している。 両端が最大に絡み合っている状態から始めると、1次元のaa鎖モデルも研究される。 不均衡ダイナミクスをモニタリングすることで、異なる位相を識別する。 鎖が閉じると、不均衡のダイナミクスは様々なフェーズで異なる振る舞いをするので、鎖の末端間の絡み合いの進化もそうである。 第1の部位が入浴する際、比較的高温でしか影響を受けないため、初期の進化段階において、不均衡ダイナミクスは様々な位相を区別する効果的な指標となることが判明した。 システムの固有エネルギーの分布がそれを説明することができる。 鎖端の絡み合いは、その端の1つが直接浴槽に結合されるため、すべての相で急速に崩壊する。 しかし、この鎖の端の絡み合いは、浴が鎖の中間部位に結合された場合、局所化段階において知覚可能な時間にわたって持続する。 我々の研究は、乱れた環境をバッファとして利用して量子相関を保護できることを示唆している。

In this research, we analyze two models using the tensor network algorithm. The quantum correlations of a two-qubit system are first studied in different bosonic reservoirs. Both equilibrium and nonequilibrium scenarios are discussed. Non-Markovian effects can improve the survival time of the quantum correlations significantly and weaken the decoherence effect. Non-Markovian dynamics with existing memory can lead to entanglement rebirth in specific scenarios instead of the eventual entanglement decay or death seen in memoryless Markovian cases. The system reaches a steady state quickest in sub-Ohmic reservoirs and shows the most apparent non-Markovian behavior in super-Ohmic reservoirs. We not only study the impact of the environment on quantum correlations but also how to protect quantum correlations. Starting from a state in which the two ends are maximally entangled, a one-dimensional AA chain model is also studied. We identify distinct phases by monitoring the imbalance dynamics. When the chain is closed, the imbalance dynamics behave differently in various phases, and so does the entanglement evolution between the chain's ends. When the first site couples to a bath, we found the imbalance dynamics can still be an effective indicator to differentiate various phases in an early evolution stage since the imbalance dynamics is only remarkably affected at relatively high temperatures. The distribution of the eigenenergy of the system can account for it. The entanglement of the chain ends decays rapidly in all phases due to one of the ends being coupled to the bath directly. However, the entanglement of the chain ends will persist for a perceptible amount of time in the localization phase if the bath is coupled to the middle site of the chain. Our research shows that one can utilize the disordered environment as a buffer to protect quantum correlations.
翻訳日:2023-02-21 07:01:07 公開日:2022-09-23
# 説得的対話による実情報と社会的内容のシームレスな統合

Seamlessly Integrating Factual Information and Social Content with Persuasive Dialogue ( http://arxiv.org/abs/2203.07657v3 )

ライセンス: Link先を確認
Maximillian Chen, Weiyan Shi, Feifan Yan, Ryan Hou, Jingwen Zhang, Saurav Sahay, Zhou Yu(参考訳) 説得のような複雑な会話設定は、態度や行動の変化を伝達するので、そのトピックに直接関連しない場合でも、ユーザの視点に対処する必要がある。 本稿では,事実情報とソーシャルコンテンツとをシームレスに統合した,モジュール型対話システムフレームワークを提案する。 我々のフレームワークは、ソーシャルとタスクの混在した対話タスクに一般化可能である。 本研究では,フレームワークのユーザ評価を,ベースラインのエンドツーエンド生成モデルと比較した。 我々は,ソーシャルコンテンツや事実質問を明示的に扱わないエンドツーエンドモデルと比較して,コンピテンスやフレンドリさなど,あらゆる面で,我々のフレームワークを好意的に評価した。

Complex conversation settings such as persuasion involve communicating changes in attitude or behavior, so users' perspectives need to be addressed, even when not directly related to the topic. In this work, we contribute a novel modular dialogue system framework that seamlessly integrates factual information and social content into persuasive dialogue. Our framework is generalizable to any dialogue tasks that have mixed social and task contents. We conducted a study that compared user evaluations of our framework versus a baseline end-to-end generation model. We found our framework was evaluated more favorably in all dimensions including competence and friendliness, compared to the end-to-end model which does not explicitly handle social content or factual questions.
翻訳日:2023-02-19 15:39:43 公開日:2022-09-23
# 説明を与える認知AIシステムは、人間と機械の意思決定において、最高のAIシステムと同じくらい説得力がある

Deceptive AI Systems That Give Explanations Are Just as Convincing as Honest AI Systems in Human-Machine Decision Making ( http://arxiv.org/abs/2210.08960v1 )

ライセンス: Link先を確認
Valdemar Danry, Pat Pataranutaporn, Ziv Epstein, Matthew Groh and Pattie Maes(参考訳) 正しい判断を行うには、真と偽の情報を区別する能力が不可欠である。 しかし、近年のAIベースの偽情報キャンペーンの増加に伴い、人間の情報処理に対する偽情報システムの影響を理解することが重要になっている。 実験 (N=128) において, 偽ニュースから真ニュースを識別する能力が, 人間のファクトチェッカーあるいはAIファクトチェッカーシステムと認識される場合, 事実チェッカーによって提供された説明が欺くか, 正直にかかわる場合においてどう影響するかを検討した。 偽りの説明は精度を著しく低下させ、人々は偽りのAIの説明を、正直なAIの説明と同じくらい信じやすいことを示している。 AIシステムからの援助を受ける前に、人々は真見出しよりも偽見出しの認識精度が著しく高いが、真見出しと偽見出しの両方に正直な説明が与えられると、AIシステムの支援により識別精度が大幅に向上し、真見出しと偽見出しの誤った説明が与えられると、著しく低下することがわかった。 さらに,人間のファクトチェッカーと認識される説明と,aiファクトチェッカーとの識別に有意な差は認められなかった。 同様に、信頼に有意な差は見つからなかった。 これらの発見は、詐欺的なAIシステムの危険性と、人間の情報処理に影響を与える新しい方法を見つける必要性を実証している。

The ability to discern between true and false information is essential to making sound decisions. However, with the recent increase in AI-based disinformation campaigns, it has become critical to understand the influence of deceptive systems on human information processing. In experiment (N=128), we investigated how susceptible people are to deceptive AI systems by examining how their ability to discern true news from fake news varies when AI systems are perceived as either human fact-checkers or AI fact-checking systems, and when explanations provided by those fact-checkers are either deceptive or honest. We find that deceitful explanations significantly reduce accuracy, indicating that people are just as likely to believe deceptive AI explanations as honest AI explanations. Although before getting assistance from an AI-system, people have significantly higher weighted discernment accuracy on false headlines than true headlines, we found that with assistance from an AI system, discernment accuracy increased significantly when given honest explanations on both true headlines and false headlines, and decreased significantly when given deceitful explanations on true headlines and false headlines. Further, we did not observe any significant differences in discernment between explanations perceived as coming from a human fact checker compared to an AI-fact checker. Similarly, we found no significant differences in trust. These findings exemplify the dangers of deceptive AI systems and the need for finding novel ways to limit their influence human information processing.
翻訳日:2023-02-19 11:44:38 公開日:2022-09-23
# ソフトウェア・サステナビリティ:発展途上国で持続可能な年金サービスを実現するための設計事例

Software Sustainability: A Design Case for Achieving Sustainable Pension Services in Developing Country ( http://arxiv.org/abs/2209.11351v1 )

ライセンス: Link先を確認
Mikhail Ola Adisa, Shola Oyedeji and Jari Porras(参考訳) ビジネスを改善し、目標を達成するための効率的で持続可能なソフトウェアの必要性は強調できない。 持続可能なデジタルサービスと製品提供は、持続可能なソフトウェア設計プラクティスを取り入れなければ達成できない。 ソフトウェアサステナビリティに関する現在の研究の進展にもかかわらず、開発途上国のソフトウェア開発実践者は、ソフトウェアサステナビリティを構成するものについて不明確であり、しばしば特定の業界領域でそれを実装する方法について適切な理解を欠いている。 ソフトウェア開発の取り組みは先進国におけるソフトウェア持続可能性意識の促進に重点を置いており、発展途上国における同様の意識研究に繋がる努力は少ない。 これは、ほとんどの発展途上国における持続可能なソフトウェア設計プラクティスに対する認識レベルに影響を与える。 本研究では,ナイジェリアの年金産業におけるソフトウェアサステナビリティの意識と実践者間の課題について検討する。 ソフトウェア開発の実践者は関与し、インタビューを受けました。 私たちは、特定された課題を緩和し、年金産業におけるソフトウェア持続可能性の認識を促進する方法を提供しました。 さらに,サステナビリティに関する適切な知識により,年金産業のソフトウェア実践者は,組織の持続可能な文化をサポートし,製品設計やサービス提供の効率を向上させる可能性を秘めている。

The need for efficient and sustainable software to improve business and achieve goals cannot be over-emphasized. Sustainable digital services and product delivery cannot be achieved without embracing sustainable software design practices. Despite the current research progress on software sustainability, most software development practitioners in developing countries are unclear about what constitutes software sustainability and often lack the proper understanding of how to implement it in their specific industry domain. Research efforts from software engineering focused on promoting software sustainability awareness in developed countries, and fewer efforts have been channeled to studying the same awareness in developing countries. This has affected the level of awareness about sustainable software design practices in most developing countries. This research investigates the awareness of software sustainability in the Nigerian pension industry and its challenges among practitioners. The software development practitioners were engaged and interviewed. We offered ways to mitigate the identified challenges and promote the awareness of software sustainability in the pension industry. Our findings further show that, with the right sustainability knowledge, the software practitioners in the pension industry have the potential to support their organization's sustainable culture and improve the efficiency of product design and service delivery.
翻訳日:2023-02-19 11:21:01 公開日:2022-09-23
# 幾何学対称性によるnv中心への一階及び二階勾配カップリング

First- and second-order gradient couplings to NV centers engineered by the geometric symmetry ( http://arxiv.org/abs/2204.04835v2 )

ライセンス: Link先を確認
Yuan Zhou, Shuang-Liang Yang, Dong-Yan Lv, Hai-Ming Huang, Xin-Ke Li, Guang-Hui Wang, Chang-Sheng Hu(参考訳) 1階と2階の勾配を持つ磁場は、いくつかの機械制御ハイブリッドシステムで設計されている。 ジオメトリーの異なる電流担持ナノワイヤは、幾何学対称性のために可変磁場勾配を誘導し、窒素空孔(NV)中心への様々な結合を発生させることができる。 例えば、ストレートナノワイヤは、Jaynes-Cummings (JC) スピン-フォノン相互作用を保証でき、量子測定への応用への潜在的経路を示す可能性がある。 特に、2つの平行直交ナノワイヤは磁場の2階勾配を通してコヒーレントなダウンコンバージョンスピンフォノン相互作用を発生させ、全く異なる磁気機構によって反結合フォノン対の束放出を誘導することができる。 おそらく、この調査は、量子操作、量子センシング、精密測定などにおけるNVの将来的な応用を支援すると信じられている。

The magnetic fields with the first- and second-order gradient are engineered in several mechanically controlled hybrid systems. The current-carrying nanowires with different geometries can induce a tunable magnetic field gradient because of their geometric symmetries, and therefore develop various couplings to nitrogen-vacancy (NV) centers. For instance, a straight nanowire can guarantee the Jaynes-Cummings (JC) spin-phonon interaction and may indicate a potential route towards the application on quantum measurement. Especially, two parallel straight nanowires can develop the coherent down-conversion spin-phonon interaction through a second-order gradient of the magnetic field, and it can induce a bundle emission of the antibunched phonon pairs via an entirely different magnetic mechanism. Maybe, this investigation is further believed to support NV's future applications in the area of quantum manipulation, quantum sensing, and precision measurement, etc.
翻訳日:2023-02-17 08:24:33 公開日:2022-09-23
# 非エルミートナノフォトニクスにおける境界状態と光子放出

Bound states and photon emission in non-Hermitian nanophotonics ( http://arxiv.org/abs/2205.05490v3 )

ライセンス: Link先を確認
Zongping Gong, Miguel Bello, Daniel Malz, Flore K. Kunst(参考訳) 我々は, ナノフォトニック格子に結合した量子エミッタの束縛状態と光子放出ダイナミクスを, 工学的散逸(ロス)で研究するための一般的な枠組みを確立する。 単励起セクターでは、システムは非エルミート形式主義によって正確に記述することができる。 私たちは付随する手紙[Gong \emph{et al}で指摘しました。 arXiv:2205.05479] 1次元非エルミート格子に結合した単一エミッタは、エルミート格子のない異常な挙動をすでに示している。 ここではこれらの観測について詳しく述べる。 また、複数の量子エミッタまたは高次元のケースについて、いくつかの追加例を示す。 我々の研究は、散逸性ナノフォトニックシステムにおけるリッチな非エルミート現象の氷山の一角を明らかにした。

We establish a general framework for studying the bound states and the photon-emission dynamics of quantum emitters coupled to structured nanophotonic lattices with engineered dissipation (loss). In the single-excitation sector, the system can be described exactly by a non-Hermitian formalism. We have pointed out in the accompanying letter [Gong \emph{et al}., arXiv:2205.05479] that a single emitter coupled to a one-dimensional non-Hermitian lattice may already exhibit anomalous behaviors without Hermitian counterparts. Here we provide further detail on these observations. We also present several additional examples on the cases with multiple quantum emitters or in higher dimensions. Our work unveils the tip of the iceberg of the rich non-Hermitian phenomena in dissipative nanophotonic systems.
翻訳日:2023-02-13 12:41:47 公開日:2022-09-23
# 非エルミタン浴中の量子エミッタの異常挙動

Anomalous Behaviors of Quantum Emitters in Non-Hermitian Baths ( http://arxiv.org/abs/2205.05479v3 )

ライセンス: Link先を確認
Zongping Gong, Miguel Bello, Daniel Malz, Flore K. Kunst(参考訳) 非エルミート系と構造浴に結合したエミッターの挙動は、近年激しく研究されている。 ここでは、これらのパラダイム的設定の相互作用を研究する。 一連の例では、非エルミート浴槽に結合した単一の量子エミッタが、エルミート浴槽とは無関係に、多くの非慣習的な振る舞いを示すことが示されている。 まず, 複素分散がループを形成する一方向ホッピング格子を考える。 ループ内の特異な境界状態を非エルミート皮膚効果の顕現として同定する。 同じ環境では、放出された光子は、一般のブリルアンゾーンの助けを借りて理解できる自由伝播とは明確に異なる空間増幅を示すことができる。 次に、交互損失を伴う最近傍格子を考える。 長い時間エミッターの崩壊は常に力の法則に従っており、これは通常エルミート浴槽では目に見えない。 我々の研究は、非エルミート浴によって引き起こされる異常な量子エミッターダイナミクスの豊かな風景を指している。

Both non-Hermitian systems and the behaviour of emitters coupled to structured baths have been studied intensely in recent years. Here we study the interplay of these paradigmatic settings. In a series of examples, we show that a single quantum emitter coupled to a non-Hermitian bath displays a number of unconventional behaviours, many without Hermitian counterpart. We first consider a unidirectional hopping lattice whose complex dispersion forms a loop. We identify peculiar bound states inside the loop as a manifestation of the non-Hermitian skin effect. In the same setting, emitted photons may display spatial amplification markedly distinct from free propagation, which can be understood with the help of the generalized Brillouin zone. We then consider a nearest-neighbor lattice with alternating loss. We find that the long-time emitter decay always follows a power law, which is usually invisible for Hermitian baths. Our work points toward a rich landscape of anomalous quantum emitter dynamics induced by non-Hermitian baths.
翻訳日:2023-02-13 12:41:36 公開日:2022-09-23
# 原子核量子光学における逆設計--人工x線多レベルスキームからスペクトル観測へ

Inverse design in nuclear quantum optics: From artificial x-ray multi-level schemes to spectral observables ( http://arxiv.org/abs/2205.06586v2 )

ライセンス: Link先を確認
Oliver Diekmann, Dominik Lentrodt and J\"org Evers(参考訳) 薄膜キャビティに埋め込まれたM\"ossbauer核のアンサンブルは、X線量子光学にとって有望なプラットフォームを形成する。 重要な特徴は、結合核キャビティシステムは低励起状態において人工的なx線多レベルスキームと見なすことができることである。 空洞環境を用いて、そのようなレベルのスキームの構造とパラメータは、素核によって提供されるものよりも調整することができる。 しかし、今のところ、所望の量子光学機能を提供する空洞構造を直接決定することは、未解決の課題である。 ここでは,この課題を逆設計手法を用いて解決する。 第1の定性的結果として,散乱可観測性に基づく確立されたフィッティングアプローチは,散乱チャネル内の可観測性に基づく場合,解析が同一キャビティに対して異なる多レベル系をもたらす可能性があるため,一意的ではないことを示す。 これにより、散乱シグネチャと微視的レベルスキームを分離した設計目標と区別し、後者は一意的に \textit{ab initio} アプローチによって決定される。 どちらの設計目的も実用的であり、潜在的な応用に関して相互補完するものであることが判明した。 電磁誘導透過性の実現などの例を用いて,両目的の逆設計を実証する。 我々の結果は、より複雑なX線キャビティ設計を含む核量子光学の新しい応用の道を開く。

Ensembles of M\"ossbauer nuclei embedded in thin-film cavities form a promising platform for x-ray quantum optics. A key feature is that the joint nuclei-cavity system can be considered as an artificial x-ray multi-level scheme in the low-excitation regime. Using the cavity environment, the structure and parameters of such level schemes can be tailored beyond those offered by the bare nuclei. However, so far, the direct determination of a cavity structure providing a desired quantum optical functionality has remained an open challenge. Here, we address this challenge using an inverse design methodology. As a first qualitative result, we show that the established fitting approach based on scattering observables in general is not unique, since the analysis may lead to different multi-level systems for the same cavity if based on observables in different scattering channels. Motivated by this, we distinguish between scattering signatures and the microscopic level scheme as separate design objectives, with the latter being uniquely determined by an \textit{ab initio} approach. We find that both design objectives are of practical relevance and that they complement each other regarding potential applications. We demonstrate the inverse design for both objectives using example tasks, such as realising electromagnetically induced transparency. Our results pave the way for new applications in nuclear quantum optics involving more complex x-ray cavity designs.
翻訳日:2023-02-13 07:01:05 公開日:2022-09-23
# ottoマシンによる量子電池の充電:監視の影響

Charging quantum batteries via Otto machines: The influence of monitoring ( http://arxiv.org/abs/2205.07440v2 )

ライセンス: Link先を確認
Jeongrak Son and Peter Talkner and Juzar Thingna(参考訳) エンジンまたは冷凍機として動作する4ストローク量子マシンによる量子電池の充電について検討した。 提案する解析は、機械の熱とワークフロー、電池のエネルギーの平均と分散、そしてそのエルゴトロピーのコヒーレントかつ非コヒーレントな部分の観点で、複合システムのエネルギー的挙動を提供する。 任意のサイクルの完了後または所定数のサイクルが実行された後に、そのエネルギーを測定するバッテリ状態を監視する。 その結果、バッテリー性能は2つのケースで大きく異なる。 エンジンによる最初の充電期間は、通常の測定値が充電速度を加速する一方、エルゴトロピーの利得は測定値の欠如により顕著である。 後期の段階ではエンジンは動作しないが、中間的な測定と周期的に測定された電池の最適帯電状態がなければ、最終的に最大帯電状態に達するバッテリーの充電は継続する。 冷蔵庫の場合、測定されたバッテリーの充電も第1のエポックの間より速く進む。 機械が冷浴から熱を取り出すのに失敗した第2段階でのみ、測定結果の影響は発音されにくくなり、2つの測定シナリオで類似した漸近状態となる。

The charging of a quantum battery by a four-stroke quantum machine that works either as an engine or a refrigerator is investigated. The presented analysis provides the energetic behavior of the combined system in terms of the heat and workflows of the machine, the average, and variance of the battery's energy as well as the coherent and incoherent parts of its ergotropy. To monitor the battery state its energy is measured either after the completion of any cycle or after a prescribed number of cycles is carried out. The resulting battery performances greatly differ for those two cases. During the first charging epoch with an engine, the regular measurements speed up the charging, whereas the gain of ergotropy is more pronounced in the absence of measurements. In a later stage, the engine fails to work as such while it still continues charging the battery that eventually reaches the maximally charged state in the absence of intermediate measurements and a suboptimally charged state for a periodically measured battery. For a refrigerator, the charging of the measured battery also proceeds faster during the first epoch. Only during the second stage when the machine fails to extract heat from the cold bath the influence of the measurements become less pronounced leading to rather similar asymptotic states for the two measurement scenarios.
翻訳日:2023-02-12 23:50:01 公開日:2022-09-23
# 量子電池におけるエンタングルメント, コヒーレンス, 抽出可能な仕事

Entanglement, Coherence, and Extractable Work in Quantum Batteries ( http://arxiv.org/abs/2205.11080v2 )

ライセンス: Link先を確認
Hai-Long Shi, Shu Ding, Qing-Kun Wan, Xiao-Hui Wang, and Wen-Li Yang(参考訳) 量子バッテリにおける量子資源と抽出可能な作業の関係について検討する。 電池の量子コヒーレンスやバッテリチャージャーの絡み合いは、充電プロセス中に非ゼロ抽出可能な作業を生成するために必要な資源であることを示す。 また, 充電工程の最後には, コヒーレンスと絡み合いの密接なリンクを確立する。コヒーレンスは自然にコヒーレンスを促進させるが, コヒーレンスと絡み合いは非コヒーレンスを阻害する。 また,最大コヒーレントな作業の獲得は,最大コヒーレントな作業の獲得よりも高速であることを示す。 中央スピン電池やtavis-cummings電池からスピンチェーン電池まで、これらの結果の例を示す。

We investigate the connection between quantum resources and extractable work in quantum batteries. We demonstrate that quantum coherence in the battery or the battery-charger entanglement is a necessary resource for generating nonzero extractable work during the charging process. At the end of the charging process, we also establish a tight link of coherence and entanglement with the final extractable work: coherence naturally promotes the coherent work while coherence and entanglement inhibit the incoherent work. We also show that obtaining maximally coherent work is faster than obtaining maximally incoherent work. Examples ranging from the central-spin battery and the Tavis-Cummings battery to the spin-chain battery are given to illustrate these results.
翻訳日:2023-02-12 00:50:22 公開日:2022-09-23
# 不整合性の測定とベル非局所性:テンソルノルムによるアプローチ

Measurement incompatibility vs. Bell non-locality: an approach via tensor norms ( http://arxiv.org/abs/2205.12668v2 )

ライセンス: Link先を確認
Faedi Loulidi, Ion Nechita(参考訳) 測定不整合性と量子非局所性は量子論の2つの重要な特徴である。 ベルの不等式に対する違反は、このプロトコルに関わる2つの当事者による測定の量子的絡み合いと非競合性を必要とする。 逆問題を分析する:どのベルの不等式が量子違反を保証するのに十分な測定の不整合であるのか? 二コトミック量子測度空間上の2つのテンソルノルムを比較することにより、2つの質問を関連づける: 1つは測定整合性を特徴づけ、もう1つはベルの不等式を特徴づける。 相関ベルの不等式を記述する行列の観点で、2つの概念の同値性について十分な条件を与える。 我々はCHSHの不等式とその変種がそれを満たす唯一のものであることを示す。

Measurement incompatibility and quantum non-locality are two key features of quantum theory. Violations of Bell inequalities require quantum entanglement and incompatibility of the measurements used by the two parties involved in the protocol. We analyze the converse question: for which Bell inequalities is the incompatibility of measurements enough to ensure a quantum violation? We relate the two questions by comparing two tensor norms on the space of dichotomic quantum measurements: one characterizing measurement compatibility and the second one characterizing violations of a given Bell inequality. We provide sufficient conditions for the equivalence of the two notions in terms of the matrix describing the correlation Bell inequality. We show that the CHSH inequality and its variants are the only ones satisfying it.
翻訳日:2023-02-11 19:32:27 公開日:2022-09-23
# AGPに基づく量子コンピュータのための一元結合クラスタ理論

AGP-based unitary coupled cluster theory for quantum computers ( http://arxiv.org/abs/2205.13420v2 )

ライセンス: Link先を確認
Armin Khamoshi, Guo P. Chen, Francesco A. Evangelista, Gustavo E. Scuseria(参考訳) 電子構造法は、典型的には対称性の破断と修復、特に強い相関関係において恩恵を受ける。 量子コンピュータ上でのAns\atzeも同様です。 我々は, 反対称性ゲミナルパワー (AGP) に基づく一元結合クラスタ法を開発し, 数値射影Bardeen--Cooper-Schrieffer波動関数と正式に等価な状態とする。 1次元と2次元の単一バンドフェルミ-ハバード・ハミルトンの手法を実証する。 また, 相関された agp を得るための状態準備ステップとして, ポスト選択法についても検討し, 粒子数対称性を回復するためのゲージ積分の代替として, $\mathcal{o}(\sqrt{m})$ が用いられることを証明した。

Electronic structure methods typically benefit from symmetry breaking and restoration, specially in the strong correlation regime. The same goes for Ans\"atze on a quantum computer. We develop a unitary coupled cluster method on the antisymmetrized geminal power (AGP) -- a state formally equivalent to the number-projected Bardeen--Cooper--Schrieffer wavefunction. We demonstrate our method for the single-band Fermi--Hubbard Hamiltonian in one and two dimensions. We also explore post-selection as a state preparation step to obtain correlated AGP and prove that it scales no worse than $\mathcal{O}(\sqrt{M})$ in the number of measurements, thereby making it a less expensive alternative to gauge integration to restore particle number symmetry.
翻訳日:2023-02-11 16:37:44 公開日:2022-09-23
# シリコン色中心の発光とゼロフィールド分割に及ぼす局在の影響

Effect of Localization on Photoluminescence and Zero-Field Splitting of Silicon Color Centers ( http://arxiv.org/abs/2206.04824v3 )

ライセンス: Link先を確認
Vsevolod Ivanov, Jacopo Simoni, Yeonghun Lee, Wei Liu, Kaushalya Jhuria, Walid Redjem, Yertay Zhiyenbayev, Christos Papapanos, Wayesh Qarony, Boubacar Kante, Arun Persaud, Thomas Schenkel, and Liang Z. Tan(参考訳) シリコンの欠陥中心の研究は、光量子情報処理における潜在的な応用によって、最近再活性化されている。 多くのシリコン欠陥センターは、通信の$O$バンドで単一の光子を放出し、計算ノード間の量子ネットワークのためのビルディングブロックを約束する。 2炭素のG中心、自己中間性W中心、および1/2$T中心が最も集中的に研究されているシリコン欠陥中心であるが、これらの中心における欠陥原子の正確な配置については合意が得られず、電子構造はあいまいである。 ここでは,これらの欠陥中心を特徴付けるために,<textit{ab initio} 密度汎関数理論を用い,実験結果と比較した緩和構造,バンド構造,フォトルミネッセンススペクトルについて考察する。 これらの性質が欠陥中心における電子状態の局在と密接な関係にあることを動機付ける。 特に、g中心欠陥の励起三重項状態に対するゼロフィールド分割の計算を、構造がa-構成からb-構成へ変換されるときに示し、ゼロフィールド分割テンソルの$d_{zz}$成分の大きさが突然増加することを示した。 欠陥の局所軌道状態への投影を行うことにより、スピン光子界面としての潜在的な応用に光を当てるG中心欠陥の対称性と結合特性の観点から、この遷移を解析する。

The study of defect centers in silicon has been recently reinvigorated by their potential applications in optical quantum information processing. A number of silicon defect centers emit single photons in the telecommunication $O$-band, making them promising building blocks for quantum networks between computing nodes. The two-carbon G-center, self-interstitial W-center, and spin-$1/2$ T-center are the most intensively studied silicon defect centers, yet despite this, there is no consensus on the precise configurations of defect atoms in these centers, and their electronic structures remain ambiguous. Here we employ \textit{ab initio} density functional theory to characterize these defect centers, providing insight into the relaxed structures, bandstructures, and photoluminescence spectra, which are compared to experimental results. Motivation is provided for how these properties are intimately related to the localization of electronic states in the defect centers. In particular, we present the calculation of the zero-field splitting for the excited triplet state of the G-center defect as the structure is transformed from the A-configuration to the B-configuration, showing a sudden increase in the magnitude of the $D_{zz}$ component of the zero-field splitting tensor. By performing projections onto the local orbital states of the defect, we analyze this transition in terms of the symmetry and bonding character of the G-center defect which sheds light on its potential application as a spin-photon interface.
翻訳日:2023-02-09 23:11:33 公開日:2022-09-23
# Rewindable Quantum Computationとクローンおよび適応ポストセレクションの等価性

Rewindable Quantum Computation and Its Equivalence to Cloning and Adaptive Postselection ( http://arxiv.org/abs/2206.05434v2 )

ライセンス: Link先を確認
Ryo Hiromasa, Akihiro Mizutani, Yuki Takeuchi, Seiichiro Tani(参考訳) 量子測定を反転する巻き戻し演算子を定義する。 次に、多項式サイズの量子回路で解くことができる決定問題の集合として、複素クラス ${\sf rwbqp}$, ${\sf cbqp}$, ${\sf adpostbqp}$ を定義する。 主な結果は、${\sf BPP}^{\sf PP}\subseteq{\sf RwBQP}={\sf CBQP}={\sf AdPostBQP}\subseteq{\sf PSPACE}$である。 この結果の副産物として、${\sf PostBQP}$の任意の問題は、多項式的に1に近い確率を持つ出力のポストセレクションでのみ解決できることを示す。 量子コンピュータでは、${\sf BQP}\nsupseteq{\sf SZK}$あるいは最も短い独立ベクトル問題を効率的に解けないという強い信念のもと、単一の巻き戻し演算子が量子計算に難航するタスクを達成するのに十分であることを示す。 さらに,再生可能なクリフォードおよび瞬時量子多項式時間回路について検討する。

We define rewinding operators that invert quantum measurements. Then, we define complexity classes ${\sf RwBQP}$, ${\sf CBQP}$, and ${\sf AdPostBQP}$ as sets of decision problems solvable by polynomial-size quantum circuits with a polynomial number of rewinding operators, cloning operators, and adaptive postselections, respectively. Our main result is that ${\sf BPP}^{\sf PP}\subseteq{\sf RwBQP}={\sf CBQP}={\sf AdPostBQP}\subseteq{\sf PSPACE}$. As a byproduct of this result, we show that any problem in ${\sf PostBQP}$ can be solved with only postselections of outputs whose probabilities are polynomially close to one. Under the strongly believed assumption that ${\sf BQP}\nsupseteq{\sf SZK}$, or the shortest independent vectors problem cannot be efficiently solved with quantum computers, we also show that a single rewinding operator is sufficient to achieve tasks that are intractable for quantum computation. In addition, we consider rewindable Clifford and instantaneous quantum polynomial time circuits.
翻訳日:2023-02-09 20:36:46 公開日:2022-09-23
# 一般化されたグリーソンの定理と文脈の情報量

Generalized Gleason theorem and finite amount of information for the context ( http://arxiv.org/abs/2206.11830v2 )

ライセンス: Link先を確認
A. Montina, S. Wolf(参考訳) 量子プロセスは、非自明な方法で、測定手順の記述のコンテキストを指定せずに古典的なプロセスに還元することはできない。 この要件は、結果決定論的な場合のkochen-specker定理や、より一般的にはgleason定理に含意される。 後者は、古典状態と量子状態を自明に識別する量子理論と互換性のない1つの非文脈古典的モデルが存在することを証明している。 しかし、このモデルは巨視的実在論を考慮したユニタリ進化の破れを必要とする。 したがって、量子状態のユニタリ進化と相反する因果古典モデルは、必ずしもある程度の文脈的である。 量子コミュニケーションの複雑性に関するよく知られた結果に触発されて、測定コンテキストに関する情報量が有限であると仮定して、隠れ変数理論の特定のクラスを考える。 これらの理論のいくつかの一般的特徴の確立を目指して、まずグリアソンの定理の一般化版を示し、その簡単な証明を提供する。 グリーソンの仮説が測定手順の「小さい」変化に対して局所的にのみ成り立つと仮定すると、確率測度の機能的形式に関する元の定理のほぼ同じ結論が得られる。 追加定数と 'density operator' の緩和性質は、元の結果と唯一の2つの違いである。 このグリーソンの定理の一般化と文脈に対する有限情報の仮定により、射影測度の3つ以上の結果に対する確率は、文脈に関する情報を考えると、結果に関連する射影の線型関数でなければならないことが証明される。

Quantum processes cannot be reduced, in a nontrivial way, to classical processes without specifying the context in the description of a measurement procedure. This requirement is implied by the Kochen-Specker theorem in the outcome-deterministic case and, more generally, by the Gleason theorem. The latter establishes that there is only one non-contextual classical model compatible with quantum theory, the one that trivially identifies the quantum state with the classical state. However, this model requires a breaking of the unitary evolution to account for macroscopic realism. Thus, a causal classical model compatible with the unitary evolution of the quantum state is necessarily contextual at some extent. Inspired by well-known results in quantum communication complexity, we consider a particular class of hidden variable theories by assuming that the amount of information about the measurement context is finite. Aiming at establishing some general features of these theories, we first present a generalized version of the Gleason theorem and provide a simple proof of it. Assuming that Gleason's hypotheses hold only locally for `small' changes of the measurement procedure, we obtain almost the same conclusion of the original theorem about the functional form of the probability measure. An additional constant and a relaxed property of the `density operator' are the only two differences from the original result. By this generalization of the Gleason theorem and the assumption of finite information for the context, we prove that the probabilities over three or more outcomes of a projective measurement must be linear functions of the projectors associated with the outcomes, given the information on the context.
翻訳日:2023-02-08 07:06:30 公開日:2022-09-23
# スピン軌道相互作用を持つ量子チャネルにおける電子輸送:ラシュバ結合の符号の効果とナノワイヤへの応用

Electron transport in quantum channels with spin-orbit interaction: Effects of the sign of the Rashba coupling and applications to nanowires ( http://arxiv.org/abs/2207.03773v2 )

ライセンス: Link先を確認
Leonid Gogin, Fausto Rossi, and Fabrizio Dolcini(参考訳) 量子コヒーレント状態におけるラシュバスピン軌道結合(rsoc)の符号が単一チャネルナノワイヤ(nw)を介した電子伝達に及ぼす影響について検討した。 2つの電極に均質なrsocが接触した有限長nwでは、そのrsocの符号は電子輸送に影響を与えないが、不均一なrsocとnw軸に沿って印加される磁場の存在下では、状況は大きく異なることが示されている。 異なるrsocの2つの領域間の界面の輸送を分析することで、2つの領域が同じrsoc符号を持つ場合、スピン軌道エネルギーとゼーマンエネルギーの比にかかわらず、磁気ギャップエネルギー範囲内の伝送はほぼ完全であることが分かる。 対照的に、2つの領域が反対のrsoc符号を持ち、rashbaが支配されている場合、送信は抑制される。 さらに、2つのRSOC領域が有限距離で分離された適切な結合ゲートで実現される現実的なNWセットアップの実装についても論じる。 低温NW導電性は2つの領域の相対的RSOC符号に強く依存する短距離挙動から、そのような相対的符号に依存しない大距離振動挙動へのクロスオーバーを示す。 したがって、nwコンダクタンスが主にrsocの符号に依存する条件と、rsocマグニチュードのみが重要な条件を識別することができる。

We investigate the effects of the sign of the Rashba spin-orbit coupling (RSOC) on electron transmission through a single-channel Nanowire (NW) in the quantum coherent regime. We show that, while for a finite length NW with homogeneous RSOC contacted to two electrodes the sign of its RSOC does not affect electron transport, the situation can be quite different in the presence of an inhomogeneous RSOC and a magnetic field applied along the NW axis. By analyzing transport across an interface between two regions of different RSOC we find that, if the two regions have equal RSOC signs, the transmission within the magnetic gap energy range is almost perfect, regardless of the ratio of the spin-orbit energies to the Zeeman energy. In contrast, when the two regions have opposite RSOC signs and are Rashba-dominated, the transmission gets suppressed. Furthermore, we discuss the implementation on a realistic NW setup where two RSOC regions are realized with suitably coupled gates separated by a finite distance. We find that the low-temperature NW conductance exhibits a crossover from a short distance behavior that strongly depends on the relative RSOC sign of the two regions to a large distance oscillatory behavior that is independent of such relative sign. We are thus able to identify the conditions where the NW conductance mainly depends on the sign of the RSOC and the ones where only the RSOC magnitude matters.
翻訳日:2023-02-06 04:45:33 公開日:2022-09-23
# クラウドベースの超伝導量子コンピュータ上での大規模量子スピンチェーンのシミュレーション

Simulating large-size quantum spin chains on cloud-based superconducting quantum computers ( http://arxiv.org/abs/2207.09994v2 )

ライセンス: Link先を確認
Hongye Yu, Yusheng Zhao and Tzu-Chieh Wei(参考訳) 量子コンピュータは、古典的アプローチが失敗する大規模量子システムを効率的にシミュレートすることができる。 現在、いくつかの既存の量子デバイスには総量子ビット数が100以上あるが、その適用性はノイズやエラーに悩まされている。 したがって、これらのデバイスで大きな量子系がうまくシミュレートできる程度は不明確である。 本稿では,ibmの超伝導量子コンピュータ数台において,100量子ビットから2量子ビットまでの広い範囲のスピンチェーンの基底状態のシミュレーションを行うクラウドシミュレーションについて報告する。 異なる量子コンピュータおよびシステムサイズにわたる実現から抽出された基底状態エネルギーは、これらの値から熱力学的限界におけるエネルギー密度の推定を含む、小さな誤差(すなわちパーセントレベル)の範囲内で期待値に達することが判明した。 この精度は,ゼロノイズ外挿法における参照状態の使用を含む,物理学的動機付き変分アンサテイズと,効率的でスケーラブルなエネルギー測定および誤り軽減プロトコルを組み合わせることで達成する。 102量子ビットシステムを用いることで,ゲートエラー軽減を行う場合,最大3186個のCNOTゲートを単一回路に適用することができた。 アンザッツ状態のランダムなパラメータに対する正確な誤差緩和結果は、大規模XXZモデルに対するスタンドアロンの量子古典的変分法が実現可能であることを示唆している。

Quantum computers have the potential to efficiently simulate large-scale quantum systems for which classical approaches are bound to fail. Even though several existing quantum devices now feature total qubit numbers of more than one hundred, their applicability remains plagued by the presence of noise and errors. Thus, the degree to which large quantum systems can successfully be simulated on these devices remains unclear. Here, we report on cloud simulations performed on several of IBM's superconducting quantum computers to simulate ground states of spin chains having a wide range of system sizes up to one hundred and two qubits. We find that the ground-state energies extracted from realizations across different quantum computers and system sizes reach the expected values to within errors that are small (i.e. on the percent level), including the inference of the energy density in the thermodynamic limit from these values. We achieve this accuracy through a combination of physics-motivated variational Ansatzes, and efficient, scalable energy-measurement and error-mitigation protocols, including the use of a reference state in the zero-noise extrapolation. By using a 102-qubit system, we have been able to successfully apply up to 3186 CNOT gates in a single circuit when performing gate-error mitigation. Our accurate, error-mitigated results for random parameters in the Ansatz states suggest that a standalone hybrid quantum-classical variational approach for large-scale XXZ models is feasible.
翻訳日:2023-02-04 07:57:41 公開日:2022-09-23
# トポロジカル増幅による非エルミートバルク境界対応の復元

Restoration of the non-Hermitian bulk-boundary correspondence via topological amplification ( http://arxiv.org/abs/2207.12427v2 )

ライセンス: Link先を確認
Matteo Brunelli, Clara C. Wanjura, Andreas Nunnenkamp(参考訳) 非エルミート(nh)格子ハミルトニアンは、特異なエネルギーギャップと境界条件に対する極度の感度を示す。 NH皮膚効果により、エッジとバルク状態の分離が曖昧になり、(従来の)バルク境界対応が失われる。 ここでは、NHハミルトニアンの最もパラダイム的なクラス、すなわち1つの複素バンドを持ち、対称性を持たないクラスに対するバルク境界対応を復元する。 我々は,非相互ホッピング振幅,利得および損失という形でのnh項が,(工学的かつ非工学的)貯水池とのカップリングによって明示的にモデル化される,駆動散逸キャビティアレイの(平均場)無条件進化から所望のnhハミルトニアンを得る。 このアプローチは位相不変量の定義における任意性を取り除くものであり、複素エネルギーシフトによって異なる点ガッピングスペクトルは同値ではない;複素平面の起源は位相不変量の評価のための共通の参照(基底点)を提供する。 これは、トポロジカルに非自明なハミルトニアンは点ギャップを持つ部分集合の厳密な部分集合であり、NHスキン効果がトポロジカルな起源を持たないことを意味する。 特異値分解(singular value decomposition)によって得られるnhハミルトニアンの解析により、nh バルク境界対応を次のように単純な形で表現することができる: バルクで定義される位相不変量の整数値 $\nu$ は、開境界条件下で系端で指数関数的に局在化した$\vert \nu\vert$ 特異ベクトルに対応し、$\nu$ の符号がどの辺を決定する。 非自明なトポロジーは、システムサイズが指数関数的なコヒーレント入力の方向増幅として現れる。 我々の研究は、NHトポロジカル位相の理論における卓越した問題を解決し、トポロジカルフォトニクスの新しい道を開く。

Non-Hermitian (NH) lattice Hamiltonians display a unique kind of energy gap and extreme sensitivity to boundary conditions. Due to the NH skin effect, the separation between edge and bulk states is blurred and the (conventional) bulk-boundary correspondence is lost. Here, we restore the bulk-boundary correspondence for the most paradigmatic class of NH Hamiltonians, namely those with one complex band and without symmetries. We obtain the desired NH Hamiltonian from the (mean-field) unconditional evolution of driven-dissipative cavity arrays, in which NH terms -- in the form of non-reciprocal hopping amplitudes, gain and loss -- are explicitly modeled via coupling to (engineered and non-engineered) reservoirs. This approach removes the arbitrariness in the definition of the topological invariant, as point-gapped spectra differing by a complex-energy shift are not treated as equivalent; the origin of the complex plane provides a common reference (base point) for the evaluation of the topological invariant. This implies that topologically non-trivial Hamiltonians are only a strict subset of those with a point gap and that the NH skin effect does not have a topological origin. We analyze the NH Hamiltonians so obtained via the singular value decomposition, which allows to express the NH bulk-boundary correspondence in the following simple form: an integer value $\nu$ of the topological invariant defined in the bulk corresponds to $\vert \nu\vert$ singular vectors exponentially localized at the system edge under open boundary conditions, in which the sign of $\nu$ determines which edge. Non-trivial topology manifests as directional amplification of a coherent input with gain exponential in system size. Our work solves an outstanding problem in the theory of NH topological phases and opens up new avenues in topological photonics.
翻訳日:2023-02-03 19:28:54 公開日:2022-09-23
# ワイル超伝導体におけるエッジ超電流による競合凝縮体の盗聴

Eavesdropping on competing condensates by the edge supercurrent in a Weyl superconductor ( http://arxiv.org/abs/2208.00933v2 )

ライセンス: Link先を確認
Stephan Kim, Shiming Lei, Leslie M. Schoop, R. J. Cava, and N. P. Ong(参考訳) MoTe2の超伝導状態における固有の凝縮物はNb接触から注入された超電流とは相容れない。 磁場 H において、2つの対の場の競合は異常な符号を持つヒステリシスを生じる。 差動抵抗は、歴史に依存した位相ノイズを持つ周期ピークの長い列車を示す。 接触形状を調整することにより,周期ピークがエッジ超電流のフラックス状量子化を表すことを示す。 振動から、凝縮遮断機構の存在を推測する。 内在凝縮物は、履歴に応じて注入された超電流の対作用を阻害することができる。 封鎖は、hが循環するときにバルク状態とエッジ状態の両方で反ヒステリック曲線をもたらす。

The intrinsic condensate in the superconducting state of MoTe2 is incompatible with supercurrent injected from Nb contacts, as evidenced by strong stochasticity observed in the current-voltage curves. In a magnetic field H, competition between the two pair fields produces hysteresis with an anomalous sign. The differential resistance exhibits a long train of periodic peaks with a history-dependent phase noise. By tailoring the contact geometry, we demonstrate that the periodic peaks represent the fluxoid quantization of the edge supercurrent. From the oscillations we infer the existence of a condensate blockade mechanism. The intrinsic condensate is capable of blocking the pairing action of the injected supercurrent depending on the history. The blockade leads to the antihysteretic curves in both the bulk and edge states as H is cycled.
翻訳日:2023-02-02 19:04:56 公開日:2022-09-23
# 経路積分粗粒化を用いた量子力学

Quantum dynamics using path integral coarse-graining ( http://arxiv.org/abs/2208.06205v2 )

ライセンス: Link先を確認
F\'elix Musil, Iryna Zaporozhets, Frank No\'e, Cecilia Clementi, Venkat Kapil(参考訳) 光核を含む凝縮系および気相系の振動スペクトルは、その量子力学的挙動に影響される。 光核の量子力学は、想像時間経路積分(PI)の定式化によって近似できるが、温度の低下とともに急激に増加する計算コストが大きい。 機械学習による粗粒化の進展を利用して,古典シミュレーションの計算コストを低減したPI法を開発した。 また,本手法では,水分子とバルクウォーターの標準モデルを用いて振動スペクトルを計算し,計算の大幅な節約と,高価な基準手法と比較して劇的に精度を向上させることにより,標準PI手法のアーチファクトを著しく低減し,計算コストの不要なスケーリングを解消する,簡単な温度上昇手法を提案する。 我々は,分子系における原子核量子効果を含む振動スペクトルの計算を,簡便かつ高精度に行うことができると考えている。

Vibrational spectra of condensed and gas-phase systems containing light nuclei are influenced by their quantum-mechanical behaviour. The quantum dynamics of light nuclei can be approximated by the imaginary time path integral (PI) formulation, but still at a large computational cost that increases sharply with decreasing temperature. By leveraging advances in machine-learned coarse-graining, we develop a PI method with the reduced computational cost of a classical simulation. We also propose a simple temperature elevation scheme to significantly attenuate the artefacts of standard PI approaches and also eliminate the unfavourable temperature scaling of the computational cost.We illustrate the approach, by calculating vibrational spectra using standard models of water molecules and bulk water, demonstrating significant computational savings and dramatically improved accuracy compared to more expensive reference approaches. We believe that our simple, efficient and accurate method could enable routine calculations of vibrational spectra including nuclear quantum effects for a wide range of molecular systems.
翻訳日:2023-01-31 08:42:41 公開日:2022-09-23
# BCS超伝導体の純粋量子力学の源としての非局所性

Nonlocality as the source of purely quantum dynamics of BCS superconductors ( http://arxiv.org/abs/2208.07320v2 )

ライセンス: Link先を確認
Aidan Zabalo, Ang-Kun Wu, J. H. Pixley, Emil A. Yuzbashyan(参考訳) 平衡超伝導から遠く離れた古典的(平均場)の記述は、局所観測量に対する熱力学的極限では正確であるが、絡み合いエントロピーやロスシュミットエコーのような大域的な量では分解される。 我々は、BCS超伝導体の正確な量子的および正確な古典的時間力学と、時間に逆比例する相互作用強度とを比較し、局所的な可観測物の評価を明示的に行う。 平均場は、熱力学の極限における正規平均と異常平均(超伝導位)の両方に対して正確なものである。 しかし、異常な期待値の場合、この極限は断熱的かつ強い結合限界に遷移せず、その結果、それらの量子揺らぎは異常に強い。 システムの長期定常状態は、超流動特性がエネルギー分解測定によってのみアクセス可能なギャップレス超伝導体である。 この状態は非熱的だが、創発的な一般化ギブスアンサンブルに適合する。 本研究は、平衡内外における対称性を損なう多体状態の性質を解明し、時間依存量子積分可能性の理論における重要なギャップを埋める。

We show that the classical (mean-field) description of far from equilibrium superconductivity is exact in the thermodynamic limit for local observables but breaks down for global quantities, such as the entanglement entropy or Loschmidt echo. We do this by solving for and comparing exact quantum and exact classical long-time dynamics of a BCS superconductor with interaction strength inversely proportional to time and evaluating local observables explicitly. Mean field is exact for both normal and anomalous averages (superconducting order) in the thermodynamic limit. However, for anomalous expectation values, this limit does not commute with adiabatic and strong coupling limits and, as a consequence, their quantum fluctuations can be unusually strong. The long-time steady state of the system is a gapless superconductor whose superfluid properties are only accessible through energy resolved measurements. This state is nonthermal but conforms to an emergent generalized Gibbs ensemble. Our study clarifies the nature of symmetry-broken many-body states in and out of equilibrium and fills a crucial gap in the theory of time-dependent quantum integrability.
翻訳日:2023-01-31 01:28:51 公開日:2022-09-23
# 重力理論の確率論的デコンストラクション 第2部:曲線空間

Probabilistic deconstruction of a theory of gravity, Part II: curved space ( http://arxiv.org/abs/2208.12204v2 )

ライセンス: Link先を確認
S. Josephine Suh(参考訳) ホログラフィック双対性と龍高柳公式の基盤となる文脈は、時空の体積測度は量子力学によって制約された確率測度である。 我々は、量子系で実現される連立量子分布をプロジェクタの積の期待値として、量子確率過程を定義する。 反ド・ジッター jt重力では、アインシュタインの方程式は境界によって引き起こされる量子確率過程の下での確率の進化から生じ、重力理論におけるコンパクト化された空間の面積は量子過程の下で進化する確率密度として同定される。 これらと関連する結果をarXiv:2108.10916の平坦なJT重力で外挿することにより、一般相対性理論は量子確率過程に関する確率の進化の半古典的極限に現れると推測する。

We propose that the underlying context of holographic duality and the Ryu-Takayanagi formula is that the volume measure of spacetime is a probability measure constrained by quantum dynamics. We define quantum stochastic processes using joint quantum distributions which are realized in a quantum system as expectation values of products of projectors. In anti-de Sitter JT gravity, we show that Einstein's equations arise from the evolution of probability under the quantum stochastic process induced by the boundary, with the area of compactified space in the gravitational theory identified as a probability density evolving under the quantum process. Extrapolating these and related results in flat JT gravity found in arXiv:2108.10916, we conjecture that general relativity arises in the semi-classical limit of the evolution of probability with respect to quantum stochastic processes.
翻訳日:2023-01-29 21:05:19 公開日:2022-09-23
# データ処理がPOVMを粗くし、観測エントロピーを大きくする

Data processing makes POVMs coarser and observational entropies larger ( http://arxiv.org/abs/2209.04549v2 )

ライセンス: Link先を確認
Adam Teixid\'o-Bonfill(参考訳) 我々はPOVMの測定を比較し、物理的システムからより多くの情報を抽出できるかを決定する基準を見つけ、粗いPOVMは常に少ない情報を抽出する。 この基準は、粗いPOVMの以前の定義を一般化し、測定結果を処理することで情報を得ることができないという考えに動機づけられる。 測定できない情報は、観測エントロピーまたは粗粒エントロピーによって定量化される。 しばしば、粗い測定はより大きな観測エントロピーを持つ。 さらに,観測エントロピーに関する既知結果のいくつかを直接導出することのできる粗い測定の特性と特性について述べる。

We find a criterion to compare POVM measurements and decide which ones can extract more information from physical systems, with coarser POVMs always extracting less information. This criteria generalizes the previous definition of coarser POVM, and is motivated by the idea that information cannot be gained by processing the measurement outcomes. The information that a measurement cannot extract is quantified by observational entropy or coarse-grained entropy. Adequately, coarser measurements have larger observational entropies. Moreover, the characterization and properties of coarser measurements that we provide allow to straightforwardly derive several previously known results about observational entropy.
翻訳日:2023-01-27 05:11:36 公開日:2022-09-23
# 量子光によるコンプトン散乱

Compton Scattering Driven by Quantum Light ( http://arxiv.org/abs/2209.05079v2 )

ライセンス: Link先を確認
Majed Khalaf and Ido Kaminer(参考訳) コンプトン散乱は量子物理学の基盤の1つであり、荷電粒子と光子の基本的な相互作用を記述する。 コンプトン効果とその逆は、高強度レーザーによる自由電子の駆動実験で、アト秒間X線パルスを発生させる。 これまで、コンプトン効果とその一般化の理論と実験はすべて、古典的に記述できる電磁場に依存してきた。 強い圧縮光の生成の進歩は、コンプトン効果を古典的でない光で駆動することができる。 この見通しはコンプトン効果における光子統計の役割を探求する動機となっている。 我々は、荷電粒子と任意の量子光状態を示す駆動場との完全な非摂動相互作用を記述する枠組みを開発する。 熱的および圧縮された真空状態によって駆動されるコンプトン放出スペクトルの解析結果を求め、古典的(コヒーレントな状態)駆動と比較して発光スペクトルが顕著に広くなり、同じ平均強度で高い放出周波数に達することを示した。 我々は、光子統計、スクイーズ、絡み合いを含む光の量子特性を、量子電磁力学の基礎における幅広い放射現象を制御する新しい自由度として利用することを想定している。

Compton scattering is one of the cornerstones of quantum physics, describing the fundamental interaction of a charged particle with photons. The Compton effect and its inverse are utilized in experiments driving free electrons by high intensity lasers to create trains of attosecond X-ray pulses. So far, all theory and experiments of the Compton effect and its generalizations have relied on electromagnetic fields that can be described classically. Advances in the generation of intense squeezed light could enable driving the Compton effect with non-classical light. This outlook motivates exploring the role of photon statistics in the Compton effect. We develop a framework to describe the full non-perturbative interaction of a charged particle with a driving field ascribed with an arbitrary quantum light state. We obtain analytical results for the Compton emission spectrum when driven by thermal and squeezed vacuum states, showing a noticeable broadening of the emission spectrum relative to a classical (coherent state) drive, thus reaching higher emission frequencies for the same average intensity. We envision utilizing the quantum properties of light, including photon statistics, squeezing, and entanglement, as novel degrees of freedom to control the wide range of radiation phenomena at the foundations of quantum electrodynamics.
翻訳日:2023-01-26 22:19:40 公開日:2022-09-23
# 超低温原子の実験的画像からディープニューラルネットワークによる位相相転移の観測

Observing a topological phase transition with deep neural networks from experimental images of ultracold atoms ( http://arxiv.org/abs/2209.10060v2 )

ライセンス: Link先を確認
Entong Zhao, Ting Hin Mak, Chengdong He, Zejian Ren, Ka Kwan Pak, Yu-Jun Liu, and Gyu-Boong Jo(参考訳) 位相的量子位相の分類は大きな関心を集めているが、局所次パラメータの欠如は実験データから位相的位相遷移を検出するのに困難である。 機械学習アルゴリズムの最近の進歩により、物理学者は前例のない高い感度で実験データを分析し、避けられないノイズがある場合でも量子位相を特定できる。 本稿では,低信号-雑音比(SNR)実験データを用いた深部畳み込みニューラルネットワークを用いて,スピン軌道結合フェルミオンの対称性保護トポロジカルシステムを用いてトポロジカル相転移の同定に成功したことを報告する。 本研究では,SNRデータに対する従来の手法を用いて得られた結果と一致した2つの位相位相遷移の位置を予測するため,学習したネットワークを用いて全位相図をマップアウトする。 さらに,畳み込み層のフィルタおよび畳み込み後の結果を可視化することにより,cnnが従来の解析法であるスピン不均衡法と同じ情報を用いて,snrに関して有利な分類を行うことを見出した。 我々の研究は、様々な量子システムで使用される機械学習技術の可能性を強調している。

Although classifying topological quantum phases have attracted great interests, the absence of local order parameter generically makes it challenging to detect a topological phase transition from experimental data. Recent advances in machine learning algorithms enable physicists to analyze experimental data with unprecedented high sensitivities, and identify quantum phases even in the presence of unavoidable noises. Here, we report a successful identification of topological phase transitions using a deep convolutional neural network trained with low signal-to-noise-ratio (SNR) experimental data obtained in a symmetry-protected topological system of spin-orbit-coupled fermions. We apply the trained network to unseen data to map out a whole phase diagram, which predicts the positions of the two topological phase transitions that are consistent with the results obtained by using the conventional method on higher SNR data. By visualizing the filters and post-convolutional results of the convolutional layer, we further find that the CNN uses the same information to make the classification in the system as the conventional analysis, namely spin imbalance, but with an advantage concerning SNR. Our work highlights the potential of machine learning techniques to be used in various quantum systems.
翻訳日:2023-01-25 20:58:45 公開日:2022-09-23
# 量子状態のサブセットの局所同定:より強い量子非局所性

Local Identification of Subsets of Quantum states: A Stronger Quantum Nonlocality ( http://arxiv.org/abs/2209.10954v2 )

ライセンス: Link先を確認
Pratik Ghosal, Arkaprabha Ghosal, Subhendu B. Ghosh and Amit Mukherjee(参考訳) 非局所性は、量子理論を非自明に神聖なものにし、情報理論のパラダイムに役立てる。 空間的に分離されたエージェントの測定結果統計を扱うベル非局所性以外にも、局所演算と古典通信(LOCC)による量子状態の完全な識別性に関連する別の種類の量子非局所性が存在する。 分散タスクを提案する: LOCC、すなわち局所部分集合同定により、既知の多部集合の直交状態のサブセットの完全同定を行う。 このタスクの失敗は、量子非局所性(viz., local subset unidentifiability)という新しい概念を保証する。 ここでは、量子状態の局所的区別可能性と局所的マーキング性の両方が局所部分集合の識別可能性を意味することを示すが、逆は必ずしも真とは限らない。 これにより、局所部分集合の不特定性は前者よりも強い量子非局所現象となり、局所的不識別性と局所的不マーク性となる。 さらに,より強固な局所部分集合unidentifiablityは,空間的に分離された2つの部分集合,すなわち真の局所部分集合unidentifiabilityを含む。

Nonolocality makes quantum theory nontrivially sacred and useful in the paradigm of information theoretic tasks. Apart from Bell nonlocality, which deals with measurement outcome statistics of spatially separated agents, there is also another kind of quantum nonlocality, that is associated with perfect distinguishability of quantum states by local operations and classical communication (LOCC). We propose a distributed task: perfect identification of subsets of a known set of multipartite orthogonal states by LOCC, namely, local subset identification. Failure in accomplishing this task guarantees a new notion of quantum nonlocality, viz., local subset unidentifiability. Here, we show that both local distinguishability and local markability of quantum states implies local subset identifiability, but the converse is not necessarily true. This makes local subset unidentifiability a stronger quantum nonlocal phenomenon than its predecessors -- local indistinguishability and local unmarkability. Moreover, we also present an even stronger version of local subset unidentifiablity involving more than two spatially separated parties namely, genuine local subset unidentifiability, where a given subset becomes identifiable if and only if all the parties come together in a common lab.
翻訳日:2023-01-25 18:07:43 公開日:2022-09-23
# アノン複合材料の量子絡み合い

Quantum entanglement of anyon composites ( http://arxiv.org/abs/2209.10925v2 )

ライセンス: Link先を確認
V V Sreedhar and N Ramadas(参考訳) 区別不可能な粒子系の量子絡み合いの研究は、特にどの粒子でも微妙な問題を引き起こす。 ここでは、一般化代数によって定義される一次元の任意の模型について検討する。 この代数は、このモデルにおけるフェルミオンがエノンの合成である特別な性質を持つ。 ハバードのようなハミルトニアンは、基本的なエノンだけでなく、フェルミオン性エノン合成のために、近くの場所をホッピングできると考えられている。 これらの粒子の量子絡み合いに関する興味深い結果が得られた。

Studying quantum entanglement in systems of indistinguishable particles, in particular anyons, poses subtle challenges. Here, we investigate a model of one-dimensional anyons defined by a generalized algebra. This algebra has the special property that fermions in this model are composites of anyons. A Hubbad-like Hamiltonian is considered that allows hopping between nearest neighbour sites not just for the fundamental anyons, but for the fermionic anyon composites. Some interesting results regarding the quantum entanglement of these particles are obtained.
翻訳日:2023-01-25 18:06:41 公開日:2022-09-23
# 圧縮カー発振器の静的有効リンドブラディアンについて

On the static effective Lindbladian of the squeezed Kerr oscillator ( http://arxiv.org/abs/2209.11193v2 )

ライセンス: Link先を確認
Jayameenakshi Venkatraman, Xu Xiao, Rodrigo G. Corti\~nas, and Michel H. Devoret(参考訳) 高調波発振器の浴に結合した駆動非線形発振器の回転波近似(rwa)を超える静的有効リンドブラジアンを導出する。 関連する散逸効果は、通常のrwaモデルの予測とカーキャット量子ビットに関する最近の超伝導回路実験の結果との桁違いを説明することができる。 我々の計算で発見された高次散逸器は、量子誤り訂正プロトコルやパラメトリックプロセスに重要な結果をもたらす。

We derive the static effective Lindbladian beyond the rotating wave approximation (RWA) for a driven nonlinear oscillator coupled to a bath of harmonic oscillators. The associated dissipative effects may explain orders of magnitude differences between the predictions of the ordinary RWA model and results from recent superconducting circuits experiments on the Kerr-cat qubit. The higher-order dissipators found in our calculations have important consequences for quantum error-correction protocols and parametric processses.
翻訳日:2023-01-25 17:48:28 公開日:2022-09-23
# 相対論的密度行列正規化群アルゴリズムにおける時間-逆対称適応

Time-reversal symmetry adaptation in relativistic density matrix renormalization group algorithm ( http://arxiv.org/abs/2209.11380v1 )

ライセンス: Link先を確認
Zhendong Li(参考訳) 非相対論的Schr\"{o}dinger方程式では、総スピン$S$とスピンプロジェクション$M$は良い量子数である。 対照的に、スピン対称性は相対論的ハミルトニアンにおけるスピン軌道結合のようなスピン依存相互作用の存在下で失われる。 粒子数対称性のみを用いた相対論的密度行列再正規化アルゴリズム(R-DMRG)の従来の実装は、非相対論的DMRGよりもはるかに高価である。 さらに、クラマーの縮退の人工的な破断は、奇数の電子を持つ系の処理において起こりうる。 これらの問題を克服するために、R-DMRGの時間反転対称性適応を導入する。 時間反転作用素は反ユニタリであるため、これは通常の方法では達成できない。 時間反転対称性適応型再正規化基底を定義し、スイープ最適化時の基底関数の構造を維持するための戦略を示す。 時間-逆対称適応では、正規化演算子の半数しか必要とせず、ハミルトン波動関数の乗算と再正規化の計算コストは半減する。 現在の時間反転対称性適応基底の構成はループのない他のテンソルネットワーク状態にも直接適用される。

In the nonrelativistic Schr\"{o}dinger equation, the total spin $S$ and spin projection $M$ are good quantum numbers. In contrast, spin symmetry is lost in the presence of spin-dependent interactions such as spin-orbit couplings in relativistic Hamiltonians. Previous implementations of relativistic density matrix renormalization group algorithm (R-DMRG) only employing particle number symmetry are much more expensive than nonrelativistic DMRG. Besides, artificial breaking of Kramers degeneracy can happen in the treatment of systems with odd number of electrons. To overcome these issues, we introduce time-reversal symmetry adaptation for R-DMRG. Since the time-reversal operator is antiunitary, this cannot be simply achieved in the usual way. We define a time-reversal symmetry-adapted renormalized basis and present strategies to maintain the structure of basis functions during the sweep optimization. With time-reversal symmetry adaptation, only half of the renormalized operators are needed and the computational costs of Hamiltonian-wavefunction multiplication and renormalization are reduced by half. The present construction of time-reversal symmetry-adapted basis also directly applies to other tensor network states without loops.
翻訳日:2023-01-25 15:27:42 公開日:2022-09-23
# フォールトトレラント分散量子コンピューティングシステムのための自己安定化トークンリングを用いた量子絡み合い

Quantum Entanglement with Self-stabilizing Token Ring for Fault-tolerant Distributed Quantum Computing System ( http://arxiv.org/abs/2209.11361v1 )

ライセンス: Link先を確認
Jehn-Ruey Jiang(参考訳) 本稿では、自己安定化トークンリングアルゴリズムに基づいてn量子ビットの量子絡み合い状態を構築する方法を示す。 絡み合った状態は、量子ネットワーク、量子インターネット、分散量子コンピューティング、量子クラウドの分野に適用することができる。 我々の知る限りでは、これは自己安定化アルゴリズムに基づいて量子絡み合いを構築する最初の試みである。 IBM Quantum Experienceプラットフォームに基づく量子回路の実装により、この構造が実際に特定のn量子ビットの絡み合った状態を達成することができ、量子ネットワークや量子インターネット上でトークンを循環させて分散量子コンピューティングシステム(DQCS)を構築することができることを示した。 構築されたDQCSは、しばしば絡み合った量子状態のエラーのような過渡的障害を許容できるという意味で耐障害性がある。

This paper shows how to construct quantum entanglement states of n qubits based on a self-stabilizing token ring algorithm. The entangled states can be applied to the fields of the quantum network, quantum Internet, distributed quantum computing, and quantum cloud. To the best of our knowledge, this is the first attempt to construct quantum entanglement based on the self-stabilizing algorithm. By the quantum circuit implementation based on the IBM Quantum Experience platform, it is demonstrated that the construction indeed can achieve specific n qubit entangled states, which in turn can be used to circulate a token in a quantum network or quantum Internet for building a distributed quantum computing system (DQCS). The built DQCS is fault-tolerant in the sense that it can tolerate transient faults such as occasional errors of entangled quantum states.
翻訳日:2023-01-25 15:27:24 公開日:2022-09-23
# ダイヤモンドのアンサンブル窒素空洞中心を用いた高ダイナミックレンジ広帯域磁界センシングの実現

Realization of high-dynamic-range broadband magnetic-field sensing with ensemble nitrogen-vacancy centers in diamond ( http://arxiv.org/abs/2209.11360v1 )

ライセンス: Link先を確認
Cao Wang, Qihui Liu, Yuqiang Hu, Fei Xie, Krishangi Krishna, Nan Wang, Lihao Wang, Yang Wang, Kimani C. Toussaint Jr, Jiangong Cheng, Hao Chen, and Zhenyu Wu(参考訳) 高速に変化する磁場を監視するために,単結晶ダイヤモンドに窒素空孔(NV)中心のアンサンブルを統合した新しい磁力計法を提案する。 NV中心のスピン共鳴周波数は、高速な周波数ホッピングによる閉ループ周波数同期技術を用いて追跡され、10kHzの計測帯域を実現し、最大0.723T/sまでの高速変化する磁気信号を検出することができる。 この拡張されたダイナミックレンジは、固有のダイナミックレンジの86倍の4.3 mTに達することができる。 nvスピン制御や信号生成、マイクロ波周波数制御、データ処理、読み出しといった信号処理に必要なコンポーネントをボードレベルシステムに統合する。 このプラットフォームでは、4.2nT-Hz-1/2の感度を最適化したブロードバンド磁気メトリーを実演する。 本磁気測定法は、心磁図や高精度電流センサなど、幅広い実用用途に適したマルチチャネル周波数ロックベクトル磁気センサに実装される可能性を有する。

We present a new magnetometry method integrating an ensemble of nitrogen-vacancy (NV) centers in a single-crystal diamond with an extended dynamic range for monitoring the fast changing magnetic-field. The NV-center spin resonance frequency is tracked using a closed-loop frequency locked technique with fast frequency hopping to achieve a 10 kHz measurement bandwidth, thus, allowing for the detection of fast changing magnetic signals up to 0.723 T/s.This technique exhibits an extended dynamic range subjected to the working bandwidth of the microwave source. This extended dynamic range can reach up to 4.3 mT, which is 86 times broader than the intrinsic dynamic range. The essential components for NV spin control and signal processing such as signal generation, microwave frequency control, data processing and readout are integrated in a board-level system. With this platform, we demonstrate broadband magnetometry with an optimized sensitivity of 4.2 nT-Hz-1/2. This magnetometry method has the potential to be implemented in a multichannel frequency locked vector magnetometer suitable for a wide range of practical applications such as magnetocardiography and high-precision current sensors.
翻訳日:2023-01-25 15:27:08 公開日:2022-09-23
# rustプログラミング言語で実装したゲート型量子プロセッサの高性能状態ベクトルエミュレータ

High-performance state-vector emulator of a gate-based quantum processor implemented in the Rust programming language ( http://arxiv.org/abs/2209.11460v1 )

ライセンス: Link先を確認
Ilya A. Luchnikov, Oleg E. Tatarkin, Aleksey K. Fedorov(参考訳) 本稿では,Rustプログラミング言語で開発されたゲートベース量子プロセッサの高性能状態ベクトルエミュレータを提案する。 量子回路仕様のためのOpenQASM 2.0プログラミング言語をサポートし、ユーザフレンドリーなPythonベースのAPIを持っている。 我々はエミュレータの多種多様な数値ベンチマークを示す。 新しい量子アルゴリズムの設計と検証にエミュレータが使用されることを期待している。

We propose a high-performance state-vector emulator of a gate-based quantum processors developed in the Rust programming language. It supports OpenQASM 2.0 programming language for quantum circuits specification and has a user-friendly Python based API. We present a wide range of numerical benchmarks of the emulator. We expect that our emulator will be used for design and validation of new quantum algorithms.
翻訳日:2023-01-25 15:24:31 公開日:2022-09-23
# 文字列検出から直交ベクトル問題へ

From String Detection to Orthogonal Vector Problem ( http://arxiv.org/abs/2209.11452v1 )

ライセンス: Link先を確認
Yunhao Wang, Tianyuan Zheng, Lior Horesh(参考訳) 本稿では,Groverの検索アルゴリズム(GSA)を標準ディフューザ・ステージに適用した上で,SDP(S3$-qubit unique String Detection Problem)を再検討し,そのアルゴリズムを複数の勝者を持つ4$-qubit SDPに拡張する。 次に,非一様分布を持つ非構造化探索問題を調査し,量子環境下で直交ベクトル問題(ovp)を定義する。 元のGSAフレームワークでは数値的に安定な結果が得られないが、我々は実装の背後にある直感とOVPに関するさらなる観察を提供する。 我々はさらに,任意の初期分布下での最終測定を安定化することを目的とした修正gsaフレームワークの下で,特別なケース分析を行う。 分析結果に基づいて, 初期条件を一般化し, 元のフレームワークも修正も動作しない初期条件を一般化する。 また,GSAを利用する代わりに,与えられたベクトルの直交対を定数な実行時を持つバイナリ文字列として表すショートディープス回路を提案する。

Considering Grover's Search Algorithm (GSA) with the standard diffuser stage applied, we revisit the $3$-qubit unique String Detection Problem (SDP) and extend the algorithm to $4$-qubit SDP with multiple winners. We then investigate unstructured search problems with non-uniform distributions and define the Orthogonal Vector Problem (OVP) under quantum settings. Although no numerically stable results is reached under the original GSA framework, we provide intuition behind our implementation and further observations on OVP. We further perform a special case analysis under the modified GSA framework which aims to stabilize the final measurement under arbitrary initial distribution. Based on the result of the analysis, we generalize the initial condition under which neither the original framework nor the modification works. Instead of utilizing GSA, we also propose a short-depth circuit that can calculate the orthogonal pair for a given vector represented as a binary string with constant runtime.
翻訳日:2023-01-25 15:24:26 公開日:2022-09-23
# 決定論的生成したフォトニックグラフ状態による量子リピータの性能解析

Performance analysis of quantum repeaters enabled by deterministically generated photonic graph states ( http://arxiv.org/abs/2209.11430v1 )

ライセンス: Link先を確認
Yuan Zhan, Paul Hilaire, Edwin Barnes, Sophia E. Economou, and Shuo Sun(参考訳) 論理量子ビットを特定の種類のフォトニックグラフにエンコードすることで、古典的通信に近づく高速な絡み合い分布率を可能にする量子リピータを実現することができる。 しかし、これらのフォトニックグラフ状態の生成には、線形光学に基づく従来のアプローチを用いた強力なリソースオーバーヘッドが必要となる。 この課題を克服するために、量子エミッタを用いてフォトニックグラフ状態を生成する新しいスキームが提案されている。 これらのスキームは、リソースコストを大幅に削減する可能性があるが、異なるエンコーディングと異なる生成スキーム間のリピータ性能の体系的な比較が不足している。 本稿では,2つの異なるグラフ状態,すなわち木グラフ状態とリピータグラフ状態に基づいて,量子リピータの性能を定量的に解析する。 両状態について,アシラリー物質量子ビットに結合した1つの量子エミッタと,遅延したフィードバックに結合した1つの量子エミッタの2つの世代間の性能を比較した。 システムパラメータの異なる最適スキームを同定する。 本分析は,グラフ状態に基づく量子リピータの最適生成方式の選択に関する明確なガイドラインを提供し,異なるスキームの将来の実験的実現のためのパラメータ要件を整理する。

By encoding logical qubits into specific types of photonic graph states, one can realize quantum repeaters that enable fast entanglement distribution rates approaching classical communication. However, the generation of these photonic graph states requires a formidable resource overhead using traditional approaches based on linear optics. Overcoming this challenge, a number of new schemes have been proposed that employ quantum emitters to deterministically generate photonic graph states. Although these schemes have the potential to significantly reduce the resource cost, a systematic comparison of the repeater performance among different encodings and different generation schemes is lacking. Here, we quantitatively analyze the performance of quantum repeaters based on two different graph states, i.e. the tree graph states and the repeater graph states. For both states, we compare the performance between two generation schemes, one based on a single quantum emitter coupled to ancillary matter qubits, and one based on a single quantum emitter coupled to a delayed feedback. We identify the optimal scheme at different system parameters. Our analysis provides a clear guideline on the selection of the optimal generation scheme for graph-state-based quantum repeaters, and lays out the parameter requirements for future experimental realizations of different schemes.
翻訳日:2023-01-25 15:24:08 公開日:2022-09-23
# 窒化ケイ素マイクロリングチップ上の高品質多波長量子光源

High-quality multi-wavelength quantum light sources on silicon nitride micro-ring chip ( http://arxiv.org/abs/2209.11417v1 )

ライセンス: Link先を確認
Yun-Ru Fan, Chen Lyu, Chen-Zhi Yuan, Guang-Wei Deng, Zhi-Yuan Zhou, Yong Geng, Hai-Zhi Song, You Wang, Yan-Feng Zhang, Rui-Bo Jin, Heng Zhou, Li-Xing You, Guang-Can Guo, and Qiang Zhou(参考訳) マルチ波長の量子光源は、特に通信帯域において、量子情報技術において非常に望ましい。 最近の顕著な進歩にもかかわらず、高品質の量子光源は依然として困難である。 本稿では,200GHz自由スペクトル帯の窒化ケイ素マイクロリングを用いたマルチ波長量子光源について述べる。 8対の相関光子の生成は25.6nmの波長範囲で保証される。 デバイス最適化とノイズ除去フィルタにより、我々のソースは、62kHzで$g^{(2)}_{h}(0)=0.014\pm0.001$で、また、フランソン干渉計で99.39\pm 0.45\%の可視性を持つエネルギー時間絡み光子を生成することができる。 これらの結果は、CMOS互換プラットフォームにおける室温およびテレコム波長において、量子ネットワークのための統合量子光デバイスへの重要なステップである。

Multi-wavelength quantum light sources, especially at telecom band, are extremely desired in quantum information technology. Despite recent impressive advances, such a quantum light source with high quality remains challenging. Here we demonstrate a multi-wavelength quantum light source using a silicon nitride micro-ring with a free spectral range of 200 GHz. The generation of eight pairs of correlated photons is ensured in a wavelength range of 25.6 nm. With device optimization and noise-rejecting filters, our source enables the generation of heralded single-photons - at a rate of 62 kHz with $g^{(2)}_{h}(0)=0.014\pm0.001$, and the generation of energy-time entangled photons - with a visibility of $99.39\pm 0.45\%$ in the Franson interferometer. These results, at room temperature and telecom wavelength, in a CMOS compatible platform, represent an important step towards integrated quantum light devices for the quantum networks.
翻訳日:2023-01-25 15:23:44 公開日:2022-09-23
# ボース・アインシュタイン凝縮系における動的量子相転移と臨界量子センシング

Dynamical quantum phase transitions in a spinor Bose-Einstein condensate and criticality enhanced quantum sensing ( http://arxiv.org/abs/2209.11415v1 )

ライセンス: Link先を確認
Lu Zhou, Jia Kong, Zhihao Lan, and Weiping Zhang(参考訳) 量子多体系の基底状態と励起状態において、量子相転移は普遍的に存在し、非平衡力学相転移と密接な関係を持つが、同定は困難である。 スピン-1ボース-アインシュタイン凝縮系では、基底状態と最上部励起状態の平衡相転移に対応する動的相転移が調査されているが、これまでの実験では、中間励起状態で行われたものは触れられていない。 ここでは、スピノル凝縮体の基底状態と励起状態の量子相転移が動的相転移と診断できることが明らかになった。 量子フィッシャー情報を用いて、平衡相転移と系の非平衡挙動との関係を明らかにする。 また、標準量子限界を超える臨界点パラメータ推定を実装できることを実証した。 この研究は、少数のモード量子系の幅広いクラスに即座に適用できるスキームを通じて励起状態量子相転移の探索を進めるだけでなく、量子臨界性と量子強化センシングとの関係に関する新たな視点を提供する。

Quantum phase transitions universally exist in the ground and excited states of quantum many-body systems, and they have a close relationship with the nonequilibrium dynamical phase transitions, which however are challenging to identify. In the system of spin-1 Bose-Einstein condensates, though dynamical phase transitions with correspondence to equilibrium phase transitions in the ground state and uppermost excited state have been probed, those taken place in intermediate excited states remain untouched in experiments thus far. Here we unravel that both the ground and excited-state quantum phase transitions in spinor condensates can be diagnosed with dynamical phase transitions. A connection between equilibrium phase transitions and nonequilibrium behaviors of the system is disclosed in terms of the quantum Fisher information. We also demonstrate that near the critical points parameter estimation beyond standard quantum limit can be implemented. This work not only advances the exploration of excited-state quantum phase transitions via a scheme that can immediately be applied to a broad class of few-mode quantum systems, but also provides new perspective on the relationship between quantum criticality and quantum enhanced sensing.
翻訳日:2023-01-25 15:23:27 公開日:2022-09-23
# 第一原理によるダイヤモンド中の窒素空孔中心のフォノン誘起スピン降下時間

Phonon Induced Spin Dephasing Time of Nitrogen Vacancy Centers in Diamond from First Principles ( http://arxiv.org/abs/2209.11412v1 )

ライセンス: Link先を確認
Jacopo Simoni and Vsevolod Ivanov and Thomas Schenkel and Liang Z. Tan(参考訳) 長い劣化時間を持つスピン量子ビットは、新しい量子技術の発展に必須の要件であり、量子情報処理から量子メモリ、量子ネットワークまで多くの潜在的な応用がある。 本稿では, ダイヤモンド中の負電荷窒素空孔中心に対する欠陥色中心のスピン脱落時間に関する理論的研究と計算について報告する。 電子構造の計算には ab initio 密度汎関数理論を用い, 累積展開法を用いて遅延時間を抽出する。 フォノンによる脱落は, 動的脱カップリング技術を用いた最近の実験と一致し, 低温におけるT2の制限因子であることがわかった。 このアプローチは半導体、分子系、および他のバンドギャップ材料における他のスピン欠陥に一般化することができる。

Spin qubits with long dephasing times are an essential requirement for the development of new quantum technologies and have many potential applications ranging from quantum information processing to quantum memories and quantum networking. Here we report a theoretical study and the calculation of the spin dephasing time of defect color centers for the negatively charged nitrogen vacancy center in diamond. We employ ab initio density functional theory to compute the electronic structure, and extract the dephasing time using a cumulant expansion approach. We find that phonon-induced dephasing is a limiting factor for T2 at low temperatures, in agreement with recent experiments that use dynamical decoupling techniques. This approach can be generalized to other spin defects in semiconductors, molecular systems, and other band gapped materials.
翻訳日:2023-01-25 15:23:08 公開日:2022-09-23
# エキゾチックパラメータを持つ量子ローカルテスト可能なコード

Quantum Locally Testable Code with Exotic Parameters ( http://arxiv.org/abs/2209.11405v1 )

ライセンス: Link先を確認
Andrew Cross, Zhiyang He, Anand Natarajan, Mario Szegedy, Guanyu Zhu(参考訳) 本稿では,これまで知られていなかった興味深いパラメータを解く量子局所テスト可能な符号の簡単な構成について述べる。 そこで本研究では, 名前チェック製品を与える操作を紹介し, この操作が, 距離や局所性が異なって, 一定の音質と線形率の量子ローカルテスト可能な符号をいかに生み出すかを示す。

In this paper, we present a few simple constructions of quantum locally testable codes that achieve interesting parameters which were previously unknown. We introduce an operation which we give the name check product, and show how this operation gives rise to quantum locally testable codes of constant soundness and linear rate, with varying distance and locality.
翻訳日:2023-01-25 15:22:55 公開日:2022-09-23
# ネットワークにおけるGenuine Bellの局所性と非局所性

Genuine Bell locality and nonlocality in the networks ( http://arxiv.org/abs/2209.11402v1 )

ライセンス: Link先を確認
Li-Yi Hsu(参考訳) K$-locality(K\geq2$)ネットワークに関する文献では、局所的な隠れ変数は、全体ではなく特定の観測者に厳密に分布している。 真のベル局所性について、古典物理学において完全なクローン化を可能にする古典的対象として、すべての局所的隠れ変数はクローン化され、ネットワーク全体に広がるべきである。 提案した線形および非線形ベル型不等式には、事前決定された出力確率分布によって上限が指定される。 量子バージョンについては、非クローン定理は量子相関の放送を制限する。 ネットワーク内の異種粒子分布における真のベル非局所性を調べるために、ポーリ作用素は2量子ベル状態または多量子グリーンベルガー-ホーン-サイレンジャー状態(ghz状態)を安定化し、提案された線形および非線形ベル試験の設計と、空間的に分離された観測者に対する局所的非互換測定値の割り当てに必須の役割を果たす。 提案するベル型不等式量子ネットワークの最大違反を証明する。 最後に, ベル試験における接合交換が関節計測の代替となることを示す。

In the literature on $K$-locality ($K\geq2$) networks, the local hidden variables are strictly distributed in the specific observers rather than the whole ones. Regarding genuine Bell locality, all local hidden variables, as classical objects that allow for perfect cloning in classical physics, should be cloned and then spread throughout the networks. More correlators are involved in the proposed linear and non-linear Bell-type inequalities, where their upper bounds are specified by the pre-determined output probability distribution. As for the quantum version, the no-clone theorem limits the broadcast of quantum correlations. To explore genuine Bell nonlocality in variant particle distributions in the networks, the Pauli operators stabilizing the two-qubit Bell states or multi-qubit Greenberger--Horne--Zeilinger states (GHZ states) play an essential role in designing the proposed linear and non-linear Bell tests and assigning the local incompatible measurements for the spatially separated observers. We prove the maximal violations of the proposed Bell-type inequalities quantum networks. In the end, how entanglement swapping replaces the joint measurements in the Bell tests is demonstrated.
翻訳日:2023-01-25 15:22:49 公開日:2022-09-23
# 繰り返し一般化測定による3Qubit非最大エンタングルGHZ状態による確率量子テレポーテーション

Probabilistic Quantum Teleportation via 3-Qubit Non-Maximally Entangled GHZ State by Repeated Generalized Measurements ( http://arxiv.org/abs/2209.11398v1 )

ライセンス: Link先を確認
Shamiya Javed, Ravi Kamal Pandey, Phool Singh Yadav, Ranjana Prakash and Hari Prakash(参考訳) 量子チャネルとして3-qubit non-maximally entangled (NME) GHZ状態を用いた粒子(例えば0)の単一量子ビット状態の確率的量子テレポーテーションのための連続一般化ベル状態測定(GBSM)手法を提案する。 アリスは 2 つの qubit (例えば 1 と 2)3-qubitリソースと3-qubit(例えば、) 3)ボブに行く。 当初は、Alice は qubits 0 と 1 で GBSM を実行し、成功か失敗かのいずれかにつながる可能性がある。 成功すると、aliceは$\sigma_{x}$という固有値に基づいて、qubit 2 上の射影的測定を行う。 これらの測定結果はどちらも古典的にBobに伝達され、情報状態を取り戻すためにqubit 3上で適切なユニタリ変換を行うのに役立つ。 一方、障害が発生した場合、次のgbsmの試行は、qubits 0 および 2 上で行われる。 代替量子ビット上でGBSMを繰り返すこのプロセスは、単位忠実度による完全テレポーテーションが達成されるまで継続することができる。 我々は,gbsmを3回繰り返した成功確率の解析式を得た。 成功確率はNME資源の2部共起多項式関数であることが示されている。 2部連続による成功確率の変動は、gbsm反復による成功確率の収束を示すプロットされている。

We propose a scheme of repeated generalized Bell state measurement (GBSM) for probabilistic quantum teleportation of single qubit state of a particle (say, 0) using 3-qubit non-maximally entangled (NME) GHZ state as a quantum channel. Alice keeps two qubits (say, 1 and 2) of the 3-qubit resource and the third qubit (say, 3) goes to Bob. Initially, Alice performs GBSM on qubits 0 and 1 which may lead to either success or failure. On obtaining success, Alice performs projective measurement on qubit 2 in the eigen basis of $\sigma_{x}$. Both these measurement outcomes are communicated to Bob classically, which helps him to perform a suitable unitary transformation on qubit 3 to recover the information state. On the other hand, if failure is obtained, the next attempt of GBSM is performed on qubits 0 and 2. This process of repeating GBSM on alternate pair of qubits may continue until perfect teleportation with unit fidelity is achieved. We have obtained analytical expressions for success probability up to three repetitions of GBSM. The success probability is shown to be a polynomial function of bipartite concurrence of the NME resource. The variation of success probability with the bipartite concurrence has been plotted which shows the convergence of success probability to unity with GBSM repetitions.
翻訳日:2023-01-25 15:22:24 公開日:2022-09-23
# d次元単一粒子状態に基づく多人数半量子秘密共有

Multiparty semiquantum secret sharing based on d-dimensional single-particle states ( http://arxiv.org/abs/2209.11391v1 )

ライセンス: Link先を確認
Ying Chen, Xia Li, Tian-Yu Ye(参考訳) 本稿では,D次元単一粒子状態に基づく多人数半量子秘密共有(MSQSS)プロトコルを推進し,送信者からの秘密鍵を異なる受信者間で共有し,すべての受信者だけが協調して動作するようにする。 このプロトコルは、単一粒子をツリー方式で送信する。 詳細なセキュリティ分析により、このプロトコルは外部攻撃と参加者攻撃に抵抗することに成功した。 このプロトコルにはいくつかの強みがある:(1)d-次元システムに適している;(2)d-次元量子エンタングル状態ではなくd-次元単粒子状態を使用する;(3)量子エンタングルメント交換やユニタリ操作は使用しない。

In this paper, a multiparty semiquantum secret sharing (MSQSS) protocol based on d-dimensional single-particle states is put forward, where the secret key from the sender can be shared among different receivers in such a way that only all receivers cooperate together can they reveal it. This protocol transmits the single particles in a tree-type way. Detailed security analysis turns out that this protocol can successfully resist the outside attack and the participant attack. The protocol has some strengths: (1) it is suitable for the d-dimensional system; (2) it uses d-dimensional single-particle states rather than d-dimensional quantum entangled states as initial quantum resource; (3) it doesn't employ quantum entanglement swapping or unitary operations.
翻訳日:2023-01-25 15:22:02 公開日:2022-09-23
# Mgイオン電池用Mg3Bi2アノードの充電・放電機構 : スピン軌道結合の役割

Charging/discharging mechanism in Mg3Bi2 anode for Mg-ion batteries; The role of the spin-orbit coupling ( http://arxiv.org/abs/2209.11513v1 )

ライセンス: Link先を確認
M. Hussein N. Assadi, Christopher J. Kirkham, Ikutaro Hamada, Dorian A. H. Hanaor(参考訳) 密度汎関数計算を用いて、興味深いMgイオン電池陽極であるMg3Bi2のMgイオンの挿入・抽出を調べた。 1 1 0)ファセットが最も安定な終端点であることがわかった。 オクタヘドラルサイトからMg2+イオンを放出することは、材料の表面およびバルク領域においてより好ましい。 しかし,四面体部位間の拡散障壁は八面体部位の拡散障壁の約3倍小さい。 その結果、マグネッション/脱磁過程において、Mgイオンはまず八面体を放出し、その後四面体を拡散する。 スピン軌道相互作用はMgの空孔形成エネルギーを低下させるが、拡散障壁にはほとんど影響しない。

Using density functional calculations, we examine insertion/extraction of Mg ions in Mg3Bi2, an interesting Mg-ion battery anode. We found that a (1 1 0) facet is the most stable termination. Vacating a Mg2+ ion from the octahedral site is more favourable for both surface and bulk regions of the material. However, the diffusion barriers among the tetrahedral sites are around 3 times smaller than those among octahedral sites. Consequently, during the magnesiation/demagnesiation process, Mg ions first vacate the octahedral sites and then diffuse through the tetrahedral sites. The spin-orbit interaction lowers Mg's vacancy formation energy but has a minor effect on diffusion barriers.
翻訳日:2023-01-25 15:13:01 公開日:2022-09-23
# 室温実験におけるミリ秒寿命円形リドバーグ原子

Millisecond-lived circular Rydberg atoms in a room-temperature experiment ( http://arxiv.org/abs/2209.11654v1 )

ライセンス: Link先を確認
Haiteng Wu, R\'emi Richaud, Jean-Michel Raimond, Michel Brune and S\'ebastien Gleyzes(参考訳) 円リドバーグ状態は量子技術にとって理想的な道具であり、数十ミリ秒の範囲で巨大な相互相互作用と極端に長い寿命を持ち、レーザーアクセス可能なリドバーグ状態よりも2桁大きい。 しかし、そのような寿命は0温度でしか観測されない。 室温では、黒体放射によって引き起こされる移動は、円状態のこの必須の資産を消滅させる。 ここでは、レーザー冷却原子試料を用いて、主量子数60の室温で1ミリ秒以上の円状態の寿命を示す。 抑制構造は単純な平面並列コンデンサであり、黒体放射誘起輸送を効果的に抑制する。 コンデンサ電極の1つは完全に透明であり、原子への完全な光学的アクセスを提供する。 この実験は、量子メトロロジーと量子シミュレーションのための円リドベルグ原子の幅広い利用への道を開く。

Circular Rydberg states are ideal tools for quantum technologies, with huge mutual interactions and extremely long lifetimes in the tens of milliseconds range, two orders of magnitude larger than those of laser-accessible Rydberg states. However, such lifetimes are observed only at zero temperature. At room temperature, blackbody-radiation-induced transfers annihilate this essential asset of circular states, which have thus been used mostly so far in specific, complex cryogenic experiments. We demonstrate here, on a laser-cooled atomic sample, a circular state lifetime of more than one millisecond at room temperature for a principal quantum number 60. The inhibition structure is a simple plane-parallel capacitor that efficiently inhibits the blackbody-radiation-induced transfers. One of the capacitor electrodes is fully transparent and provides complete optical access to the atoms, an essential feature for applications. This experiment paves the way to a wide use of circular Rydberg atoms for quantum metrology and quantum simulation.
翻訳日:2023-01-25 10:17:39 公開日:2022-09-23
# 代数幾何学による素因数分解

An Algebraic-Geometry Approach to Prime Factorization ( http://arxiv.org/abs/2209.11650v1 )

ライセンス: Link先を確認
Alberto Montina, Stefan Wolf(参考訳) 素因数分解のための新しいアルゴリズムは、既存のものよりも優れており、素数分解の複雑さに依存する暗号アルゴリズムの現在の実装に実際的な影響を与えうる。 現在使われているキーは、現在のアルゴリズムの知識に基づいて選択され、将来の侵害の可能性がある。 このため、計算上の優位性を与える可能性を持つ新しいアプローチを検討すべきである。 この問題は、素因数分解のための効率的な量子アルゴリズムがすでに存在するため、量子計算にも関係がある。 したがって、古典的漸近的複雑性は量子コンピュータが提供する利点をよりよく理解することができる。 本稿では、有限体上のパラメトリザブル多様体(特に曲線)の点の探索による分解問題を小さくする。 これらの多様体は、基底体上の超曲面を持つ任意の数の交点を持つ必要がある。 部分指数あるいは多項因数分解複雑性の場合、パラメータの数は空間次元 n において線型にスケールし、パラメータが与えられた点をそれぞれ部分指数あるいは多項式で計算しなければならない。 2つの構成図で示されるこれらの多様体の構築手順について概説する。 ある場合、 n/2 以上のパラメータが与えられたとき、効率的に点を評価できる多様体が存在することを示す。 もう一方の場合、境界は n/3 に下げられる。 ちなみに、最初の構造はレトロコーサルモデルに似ている。 Retro-Causalityは、量子の奇妙な説明の1つと考えられている。

New algorithms for prime factorization that outperform the existing ones or take advantage of particular properties of the prime factors can have a practical impact on present implementations of cryptographic algorithms that rely on the complexity of factorization. Currently used keys are chosen on the basis of the present algorithmic knowledge and, thus, can potentially be subject to future breaches. For this reason, it is worth to investigate new approaches which have the potentiality of giving a computational advantage. The problem has also relevance in quantum computation, as an efficient quantum algorithm for prime factorization already exists. Thus, better classical asymptotic complexity can provide a better understanding of the advantages offered by quantum computers. In this paper, we reduce the factorization problem to the search of points of parametrizable varieties, in particular curves, over finite fields. The varieties are required to have an arbitrarily large number of intersection points with some hypersurface over the base field. For a subexponential or poly- nomial factoring complexity, the number of parameters have to scale sublinearly in the space dimension n and the complexity of computing a point given the parameters has to be subexponential or polynomial, respectively. We outline a procedure for building these varieties, which is illustrated with two constructions. In one case, we show that there are varieties whose points can be evaluated efficiently given a number of parameters not greater than n/2. In the other case, the bound is dropped to n/3. Incidentally, the first construction resembles a kind of retro-causal model. Retro-causality is considered one possible explanation of quantum weirdness.
翻訳日:2023-01-25 10:17:24 公開日:2022-09-23
# 安定化ペアコヒーレント状態の実験的実現と評価

Experimental Realization and Characterization of Stabilized Pair Coherent States ( http://arxiv.org/abs/2209.11643v1 )

ライセンス: Link先を確認
Jeffrey M. Gertler, Sean van Geldern, Shruti Shirol, Liang Jiang, and Chen Wang(参考訳) ペアコヒーレント状態 (PCS) は、2つの調和振動子に対するグラウバーコヒーレント状態の理論的拡張である。 これは非ガウジアン連続変数の絡み合った状態の興味深いクラスであり、有望な量子誤り訂正符号であるペアcatコードの中心でもある。 ここでは、2つの超伝導空洞におけるマイクロ波光子の対コヒーレント状態の実験実験を行った。 我々は、共振器間の光子数差を保存し、特定の複素振幅に安定化するクロスキャビティ対光子発散プロセスを実装した。 さらに,大域的トモグラフィ再構成を伴わない高次元量子状態の個々のコヒーレンス要素の直接測定を可能にする量子サブスペーストモグラフィー技術を導入する。 我々は、この部分空間トモグラフィーを用いて、各キャビティに最大4個の光子を持つ2モード量子状態と、光子数差とジョイントウィグナー関数を直接測定する。 我々は, キャビティと散逸型貯水池モードとのスプリアスクロスカー相互作用を, 定常コヒーレンスを制限した顕著なデファスメントチャネルとして同定した。 本実験は,量子光学の研究と超伝導回路におけるマルチモードボソニックコードの実装のための貯留層工学および状態評価ツールのセットを提供する。

The pair coherent state (PCS) is a theoretical extension of the Glauber coherent state to two harmonic oscillators. It is an interesting class of non-Gaussian continuous-variable entangled state and is also at the heart of a promising quantum error correction code: the pair cat code. Here we report an experimental demonstration of the pair coherent state of microwave photons in two superconducting cavities. We implement a cross-cavity pair-photon driven dissipation process, which conserves the photon number difference between cavities and stabilizes the state to a specific complex amplitude. We further introduce a technique of quantum subspace tomography, which enables direct measurements of individual coherence elements of a high-dimensional quantum state without global tomographic reconstruction. We characterize our two-mode quantum state with up to 4 photons in each cavity using this subspace tomography together with direct measurements of the photon number difference and the joint Wigner function. We identify the spurious cross-Kerr interaction between the cavities and our dissipative reservoir mode as a prominent dephasing channel that limits the steady-state coherence in our current scheme. Our experiment provides a set of reservoir engineering and state characterization tools to study quantum optics and implement multi-mode bosonic codes in superconducting circuits.
翻訳日:2023-01-25 10:16:44 公開日:2022-09-23
# 光浮上ナノ粒子と熱画像との相互作用:変位センシングによる内部温度測定

Interaction Between an Optically Levitated Nanoparticle and Its Thermal Image: Internal Thermometry via Displacement Sensing ( http://arxiv.org/abs/2209.11642v1 )

ライセンス: Link先を確認
Thomas Agrenius, Carlos Gonzalez-Ballestero, Patrick Maurer, Oriol Romero-Isart(参考訳) ナノ粒子と熱画像との間の双極子-双極子相互作用を計測するために,光学的浮遊ナノ粒子を表面前方に変位検出できる実験を提案し,理論的に解析する。 これは、トラップ光に対して透明であるが赤外線に反射する表面を用い、時間変調可能な反射率によって達成される。 この双極子-双極子相互作用は、反射放射と双極子の熱揺らぎを相関させるのに十分な時間的コヒーレンスを有するシリカナノ粒子から放出される熱放射に依存する。 結果として得られる力は、熱勾配力よりも桁違いに強く、ナノ粒子の内部温度が2マイクロメートルを超える粒子間距離に強く依存する。 内部温度計として, 表面前部における浮遊ナノ粒子の変位検出が実験的に可能であることを論じる。 真空中における浮遊ナノ粒子の内部物理学への実験的アクセスは、デコヒーレンスがマクロな量子重ね合わせ状態におけるナノ粒子の調製に費やす現在の努力の限界を理解するのに不可欠である。

We propose and theoretically analyze an experiment where displacement sensing of an optically levitated nanoparticle in front of a surface can be used to measure the induced dipole-dipole interaction between the nanoparticle and its thermal image. This is achieved by using a surface that is transparent to the trapping light but reflective to infrared radiation, with a reflectivity that can be time modulated. This dipole-dipole interaction relies on the thermal radiation emitted by a silica nanoparticle having sufficient temporal coherence to correlate the reflected radiation with the thermal fluctuations of the dipole. The resulting force is orders of magnitude stronger than the thermal gradient force and it strongly depends on the internal temperature of the nanoparticle for a particle-to-surface distance greater than two micrometers. We argue that it is experimentally feasible to use displacement sensing of a levitated nanoparticle in front of a surface as an internal thermometer. Experimental access to the internal physics of a levitated nanoparticle in vacuum is crucial to understand the limitations that decoherence poses to current efforts devoted to prepare a nanoparticle in a macroscopic quantum superposition state.
翻訳日:2023-01-25 10:16:24 公開日:2022-09-23
# ポラリトンを用いた共振ダイポール-ジポール相互作用による共振エネルギー伝達:遷移電流密度のアプローチ

Polariton-Assisted Resonance Energy Transfer Beyond Resonant Dipole-Dipole Interaction: A Transition Current Density Approach ( http://arxiv.org/abs/2209.11623v1 )

ライセンス: Link先を確認
Ming-Wei Lee, Liang-Yan Hsu(参考訳) 電気双極子を用いて2つの実体間の光-物質相互作用を記述することは、物理学、化学、物質科学における従来の近似である。 しかし、物質構造の欠如は、物体のサイズが電磁場の空間的範囲や2つの物体間の距離に匹敵するときに、近似が不十分となる。 本研究では, 遷移電流密度に基づく放射・非放射共鳴エネルギー移動の統一理論を, 巨視的量子電磁力学の理論的枠組みで開発する。 提案する理論により,空間依存真空電場における任意の物質構造を持つ2つの実体間のポラリトン共振エネルギー移動を記述することができる。 提案理論の一般化を実証するために、我々の理論は遷移密度立方体法(Krueger et al., J. Phys. Chem. B 102, 5378 (1998))とプラズモン結合共鳴エネルギー移動(Hsu et al., J. Phys. Chem. Lett. 8, 2357 (2017))の主結果をカバーすることができることを厳密に証明した。 この研究は、電気双極子の範囲を超えて光・物質相互作用を探求する有望な方向を開き、物質物理学への新たな洞察を与えると信じている。

Using electric dipoles to describe light-matter interactions between two entities is a conventional approximation in physics, chemistry, and material sciences. However, the lack of material structures makes the approximation inadequate when the size of an entity is comparable to the spatial extent of electromagnetic fields or the distance between two entities. In this study, we develop a unified theory of radiative and non-radiative resonance energy transfer based on transition current density in a theoretical framework of macroscopic quantum electrodynamics. The proposed theory allows us to describe polariton-assisted resonance energy transfer between two entities with arbitrary material structures in spatially dependent vacuum electric fields. To demonstrate the generality of the proposed theory, we rigorously prove that our theory can cover the main results of the transition density cube method [Krueger et al., J. Phys. Chem. B 102, 5378 (1998)] and the plasmon-coupled resonance energy transfer [Hsu et al., J. Phys. Chem. Lett. 8, 2357 (2017)]. We believe that this study opens a promising direction for exploring light-matter interactions beyond the scope of electric dipoles and provides new insights into material physics.
翻訳日:2023-01-25 10:16:03 公開日:2022-09-23
# 混合状態の自動駆除法

Automatic hermiticity for mixed states ( http://arxiv.org/abs/2209.11619v1 )

ライセンス: Link先を確認
Keiichi Nagao, Holger Bech Nielsen(参考訳) 筆者らは従来, 変質内積 $i_q$ に対して, 適切に選択されたエルミート作用素 $q$ を用いて, 与えられた非正規ハミルトンを正規化するハーミート的ハミルトニアンを効果的に得るためのメカニズムを提案してきた。 純粋な状態について研究しました 本書では, 混合状態に対しても, 密度行列を導入して記述し, 将来の非包含理論と将来の包含理論の両方において, それらの特性を明示的に検討することにより, 同様の機構が有効であることを示す。 特に、初期時刻の過去の状態が$t_a$であるだけでなく、最終時刻に$t_b$が与えられる未来状態が与えられる場合、いくつかの候補を研究し、その積のトレースと演算子${\cal o}$が${\cal o}$の正規化行列要素に一致するように、将来の状態と過去の状態の両方からなる 'skew density matrix'' を導入する。 現在、$i_q$ で定義されるスキュー密度行列は、大きめの $t_b-t$ と大きめの $t-t_a$ は、過去の状態のアンサンブルのみからなる別の密度行列に対応し、大きめの $t-t_a$ に対して別の内積 $i_{q_j}$ で定義される。

We previously proposed a mechanism to effectively obtain after a long time development a Hamiltonian being Hermitian with regard to a modified inner product $I_Q$ that makes a given non-normal Hamiltonian normal by using an appropriately chosen Hermitian operator $Q$. We studied it for pure states. In this manuscript we show that a similar mechanism works also for mixed states by introducing density matrices to describe them and investigating their properties explicitly both in the future-not-included and future-included theories. Especially, in the latter, where not only a past state at the initial time $T_A$ but also a future state at the final time $T_B$ is given, we study a couple of candidates for it, and introduce a ``skew density matrix'' composed of both ensembles of the future and past states such that the trace of the product of it and an operator ${\cal O}$ matches a normalized matrix element of ${\cal O}$. We argue that the skew density matrix defined with $I_Q$ at the present time $t$ for large $T_B-t$ and large $t-T_A$ approximately corresponds to another density matrix composed of only an ensemble of past states and defined with another inner product $I_{Q_J}$ for large $t-T_A$.
翻訳日:2023-01-25 10:15:37 公開日:2022-09-23
# 純粋に量子コヒーレンスによって駆動される熱エンジンの工学

Engineering a heat engine purely driven by quantum coherence ( http://arxiv.org/abs/2209.11593v1 )

ライセンス: Link先を確認
Stefan Aimet and Hyukjoon Kwon(参考訳) 量子コヒーレンス(quantum coherence)は、量子熱エンジンの性能に有益か有害かという問題は、徹底的に研究されてきたが、決定的ではない。 コヒーレンスの寄与を分離するため、熱力学サイクル中に熱の流れを一切含まない純コヒーレンス駆動の量子熱エンジンの性能を解析した。 エンジンはマルチキュービットシステムのコヒーレンスによって駆動され、各キュービットはJaynes-Cummingsモデルを用いてコヒーレンスバスと相互作用して充電される。 本研究では,コヒーレンス浴が中間のコヒーレンス度を持つ場合,最適なコヒーレンス帯電と抽出可能な作業が達成されることを示す。 このモデルでは、荷電量子ビットの4つのコピーを使用すると、抽出可能な作業が最大化される。 一方、入力コヒーレンスフロー当たりの抽出可能な作業によって与えられるエンジンの効率は、動作不能なシステムバス相関にコヒーレンスが格納されることを回避して最適化される。 最適コヒーレンス帯電率よりも, 温度がわずかに低く, システムバス結合が弱い場合に高い効率が得られる。

The question of whether quantum coherence is a resource beneficial or detrimental to the performance of quantum heat engines has been thoroughly studied but remains undecided. To isolate the contribution of coherence, we analyse the performance of a purely coherence-driven quantum heat engine, a device that does not include any heat flow during the thermodynamic cycle. The engine is powered by the coherence of a multi-qubit system, where each qubit is charged via interaction with a coherence bath using the Jaynes-Cummings model. We demonstrate that optimal coherence charging and hence extractable work is achieved when the coherence bath has an intermediate degree of coherence. In our model, the exctractable work is maximised when four copies of the charged qubits are used. Meanwhile, the efficiency of the engine, given by the extractable work per input coherence flow, is optimised by avoiding coherence being stored in the system-bath correlations that is inaccessible to work. We numerically find that the highest efficiency is obtained for slightly lower temperatures and weaker system-bath coupling than those for optimal coherence charging.
翻訳日:2023-01-25 10:15:06 公開日:2022-09-23
# サブキャリア波とデュアルレール符号化のフォトニックインターフェース

Photonic interface between subcarrier wave and dual rail encodings ( http://arxiv.org/abs/2209.11719v1 )

ライセンス: Link先を確認
K. S. Melnik and E. S. Moiseev(参考訳) マルチモードサブキャリア波符号化を用いた量子鍵分布は、環境障害に対して頑健である。 長距離量子通信のアプリケーションでは、このエンコーディングはエンタングルメント支援の量子リピータと互換性を持たなければならない。 本稿では,線形光回路を用いて,92\%以上の忠実度を有する2重レールエンコーディングとサブキャリア波の界面を提案する。 開発されたスキームは、量子鍵分布と信頼できないノードを組み合わせた将来の異種量子ネットワークにおける応用を見つけることができる。

Quantum key distribution with multimode subcarrier wave encoding is propitious for being robust against environmental disturbance. For application in long-distance quantum communications this encoding has to be compatible with entanglement-assisted quantum repeaters that are commonly designed to work with dual rail encodings. We propose and demonstrate an interface between subcarrier wave and dual rail encodings with a fidelity of more than 92\% using a linear optical circuit. The developed scheme may find an application in future heterogeneous quantum networks that combine quantum key distribution with trusted and non-trusted nodes.
翻訳日:2023-01-25 10:07:29 公開日:2022-09-23
# 強相互作用境界駆動傾斜系における巨大整流

Giant rectification in strongly-interacting boundary-driven tilted systems ( http://arxiv.org/abs/2209.11718v1 )

ライセンス: Link先を確認
Juan Jos\'e Mendoza-Arenas and Stephen R. Clark(参考訳) 相関量子系は、構成粒子間の相互作用から生じる幅広い非自明な効果を示す。 非平衡のシナリオでは、これらの現象は多体絶縁状態や保存量電流の異常なスケーリング則などの現象に現れ、量子回路技術の応用に不可欠である。 本研究では,強い粒子相互作用と傾斜ポテンシャルの非対称相互作用に基づく巨大整流法を提案し,それぞれが単独で絶縁状態を誘導する。 逆バイアスは、指数的に抑制された電流を持つ強化絶縁体と協調して誘導するが、前方伝導のために競合し、結果として電流共鳴を生成する。 これらの共鳴のメカニズムを、系のバルクエネルギースペクトルの交差を避けるために生じるエネルギー固有状態間のコヒーレンス強化として解明する。 提案手法は,現在利用可能な量子シミュレーションプラットフォームにおける完全ダイオードの実装方法である。

Correlated quantum systems feature a wide range of nontrivial effects emerging from interactions between their constituting particles. In nonequilibrium scenarios, these manifest in phenomena such as many-body insulating states and anomalous scaling laws of currents of conserved quantities, crucial for applications in quantum circuit technologies. In this work we propose a giant rectification scheme based on the asymmetric interplay between strong particle interactions and a tilted potential, each of which induces an insulating state on their own. While for reverse bias both cooperate and induce a strengthened insulator with exponentially suppressed current, for forward conduction they compete and, as a result, generate current resonances; this leads to a rectification coefficient of many orders of magnitude. We uncover the mechanism underlying these resonances as enhanced coherences between energy eigenstates occurring at avoid crossing in the system's bulk energy spectrum. Our proposal paves the way for implementing a perfect diode in currently-available quantum simulation platforms.
翻訳日:2023-01-25 10:07:19 公開日:2022-09-23
# 量子汎関数テストの原理

Principles of quantum functional testing ( http://arxiv.org/abs/2209.11712v1 )

ライセンス: Link先を確認
Nadia Milazzo, Olivier Giraud, Giovanni Gramegna, Daniel Braun(参考訳) 量子情報処理デバイスの商用化が進むにつれ、特定の機能に対して効率よくテストする必要がある。 完全量子チャネルのキャラクタリゼーションは、1つまたは2つの量子ビットに対する最も単純な量子チャネル以上の問題ではない。 量子機能テストは、デバイスパラメータが特定の仕様内にあるというプロデューサのクレームの拒絶または受け入れに対応する結果に関する決定問題を引き起こす。 この文脈では、チャンネルの反復、効率的な決定基準、非欲な適応的実験設計という3つの要素を導入し分析する。

With increasing commercial availability of quantum information processing devices the need for testing them efficiently for their specified functionality will arise. Complete quantum channel characterization is out of the question for anything more than the simplest quantum channels for one or two qubits. Quantum functional testing leads to a decision problem with outcomes corresponding to rejection or acceptance of the claim of the producer that the device parameters are within certain specifications. In this context, we introduce and analyse three ingredients that can speed up this decision problem: iteration of the channel, efficient decision criteria, and non-greedy adaptive experimental design.
翻訳日:2023-01-25 10:07:03 公開日:2022-09-23
# 量子確率マスター方程式のスイッチング安定化

Switching stabilization of quantum stochastic master equations ( http://arxiv.org/abs/2209.11709v1 )

ライセンス: Link先を確認
Weichao Liang, Tommaso Grigoletto, Francesco Ticozzi(参考訳) 連続的な量子系に対する純粋状態と部分空間の安定化という問題は量子制御の中心であり、制御力学のスイッチングによって解決される。 これにより、散逸制御アクションを含む高速で柔軟な制御設計が可能になる。 平均状態または測定記録に基づいて異なる制御法則を提案し、全てのスイッチングダイナミクスに対してターゲットの不変性を必要としない。 グローバルかつ適切な不変条件下では、対象への指数収束は単純だがパラダイム的な例の数値シミュレーションによっても示される。

The problem of stabilizing pure states and subspaces for continuously monitored quantum systems is central in quantum control, and is addressed here using switching of controlled dynamics. This allows for fast, flexible control design methods which naturally include dissipative control actions. Different control laws are proposed, based either on the average state, or on the measurement record, and with or without requiring invariance of the target for all the switching dynamics. Global and, under suitable invariance conditions, exponential convergence to the target is proved as well as illustrated via numerical simulations of simple yet paradigmatic examples.
翻訳日:2023-01-25 10:06:56 公開日:2022-09-23
# 可変キャビティを用いた光子を用いたカスケード逆変換の増幅

Amplification of cascaded downconversion by reusing photons with a switchable cavity ( http://arxiv.org/abs/2209.11668v1 )

ライセンス: Link先を確認
Alexandre Z. Leger, Samridhi Gambhir, Julien L\'eg\`ere and Deny R. Hamel(参考訳) 非古典的な光の状態を効率的に生成し、操作できる能力は、量子光学技術の発展にとって重要な要件である。 近年、カスケードされた自発的パラメトリック・ダウンコンバージョンは、絡み合った3光子状態とヘラルドベル対を直接生成する有望なアプローチであることが実証されている。 しかし、このプロセスの効率の低さは、基本的な実験以上の適用性には限界がある。 そこで本研究では, 高速スイッチと遅延ループを用いて, カスケードの第2非線形結晶を1パスで変換しない光子を再利用し, トリプルト生産率を増大させる新しい手法を提案する。 我々は,増幅率を予測し,実験により検証する理論モデルを構築した。 我々の現在の装置は検出された光子三重項の速度を20%向上させ、現在の技術は500%の増加にさらに最適化することができる。 この新しい手法は実用的応用においてカスケードダウンコンバージョンの有用性を劇的に改善する可能性を秘めている。

The ability to efficiently produce and manipulate non-classical states of light is a critical requirement for the development of quantum optical technologies. In recent years, experiments have demonstrated that cascaded spontaneous parametric downconversion is a promising approach to directly produce entangled three-photon states and heralded bell pairs, as well as to implement photon precertification. However, the low efficiency of this process has so far limited its applicability beyond basic experiments. Here, we propose a novel scheme to amplify triplet production rates by using a fast switch and a delay loop to reuse photons that fail to convert on the first pass through the cascade's second non-linear crystal. We construct a theoretical model to predict amplification rates and verify them in an experimental implementation. Our current device increases the rate of detected photons triplets by 20% and with current technology could further be optimized to provide an increase of 500%. This new method thus has the potential to dramatically improve the usefulness of cascaded downconversion for practical applications.
翻訳日:2023-01-25 10:06:28 公開日:2022-09-23
# 非エルミート量子系における絡み合い時間スケールと混合性

Entanglement timescale and mixedness in non-Hermitian quantum systems ( http://arxiv.org/abs/2209.11667v1 )

ライセンス: Link先を確認
Diego Paiva Pires, Tommaso Macr\`i(参考訳) 有限次元量子系に対する線形エントロピーの短時間摂動拡大について,非エルミート・ハミルトニアンによってダイナミクスが効果的に記述できる場合について論じる。 我々は,非エルミート力学による入力状態の混合度合いの時間尺度を導出し,駆動散逸型2レベルシステムの場合,これらの結果を特殊化する。 次に、実効非エルミート的ハミルトニアンに依存する二部量子系の絡み合いの増大の時間スケールを導出する。 エルミート極限では、この結果はエルミート系におけるコヒーレンス損失の摂動拡大を回復するが、初期純および非相関状態に対する絡み合い時間スケールを提供する。 これらの知見を説明するために、多体横場xyハミルトニアンを想像上の全対全イジングモデルと結合する。 非エルミートハミルトニアンは、考慮された入力状態に対する線形エントロピーの短時間ダイナミクスを強化する。 全体として、各タイムスケールはプローブ状態や非エルミートハミルトニアンなどの最小成分に依存しており、その評価には低い計算コストを必要とする。 この結果は、非エルミート量子センシング、非エルミート系の量子熱力学、および$\mathcal{PT}$-symmetric量子場理論に応用できる。

We discuss the short-time perturbative expansion of the linear entropy for finite-dimensional quantum systems whose dynamics can be effectively described by a non-Hermitian Hamiltonian. We derive a timescale for the degree of mixedness for an input state undergoing non-Hermitian dynamics and specialize these results in the case of a driven-dissipative two-level system. Next, we derive a timescale for the growth of entanglement for bipartite quantum systems that depends on the effective non-Hermitian Hamiltonian. In the Hermitian limit, this result recovers the perturbative expansion for coherence loss in Hermitian systems, while it provides an entanglement timescale for initial pure and uncorrelated states. To illustrate these findings, we consider the many-body transverse-field XY Hamiltonian coupled to an imaginary all-to-all Ising model. We find that the non-Hermitian Hamiltonian enhances the short-time dynamics of the linear entropy for the considered input states. Overall, each timescale depends on minimal ingredients such as the probe state and the non-Hermitian Hamiltonian of the system, and its evaluation requires low computational cost. Our results find applications to non-Hermitian quantum sensing, quantum thermodynamics of non-Hermitian systems, and $\mathcal{PT}$-symmetric quantum field theory.
翻訳日:2023-01-25 10:06:08 公開日:2022-09-23
# リモート」クエンチ後の自発的磁性--コペンハーゲン解釈を試すための提案

Spontaneous magnetism after a "remote" quench: a proposal to test Copenhagen interpretation ( http://arxiv.org/abs/2209.11665v1 )

ライセンス: Link先を確認
Jianda Wu and Wenxin Ding(参考訳) 量子粒子の量子状態の変化は、それが環境に作用する物理場の変化に繋がる可能性がある。 電子スピンに関連する磁気双極子場を測定するためのゲダンケン実験について論じる。 絡み合うとき、電子はもはや自由のディラック電子ではなく、量子電気力学の意味で励起状態となる。 電子の絡み合い-崩壊に伴う磁気の測定は、量子電気力学の時代のコペンハーゲン解釈のテストとなる。 この提案は他の粒子や、中性子や電弱力など、関連する磁場や相互作用にも等しく適用できる。

A change of quantum states for a quantum particle may lead to a change of physical field it exerts to the environment. We discuss such Gedankenexperiment for measuring the magnetic dipole fields associated with the electronic spins. When entangled, electrons are no longer free Dirac electrons but become an excited state in a quantum-electrodynamics sense. A measurement of magnetism associated with entanglement-collapse of electrons becomes a test for Copenhagen interpretation in the reign of quantum-electrodynamics. This proposal is equally applicable to other particles and their associated fields and interactions, such as neutrons and the electroweak force.
翻訳日:2023-01-25 10:05:44 公開日:2022-09-23
# カーネルに基づく量子回帰モデルによる非マルコフ性学習

Kernel-based quantum regressor models learn non-Markovianity ( http://arxiv.org/abs/2209.11655v1 )

ライセンス: Link先を確認
Diego Tancara, Hossein T. Dinani, Ariel Norambuena, Felipe F. Fanchini, and Ra\'ul Coto(参考訳) 量子機械学習は、量子コンピュータが補助する機械学習タスクを実行することを目的とした、成長する研究分野である。 カーネルベースの量子機械学習モデルは、カーネルが量子状態を含むパラダイム的な例であり、グラマー行列はこれらの状態の重なりから計算される。 カーネルが手元にある場合、学習プロセスには通常の機械学習モデルが使用される。 本稿では,量子支援ベクトルマシンと量子核リッジモデルを用いて,量子系の非マルコビアン性の程度を予測する。 我々は、振幅減衰と位相減衰チャネルのディジタル量子シミュレーションを行い、量子データセットを作成する。 量子状態間の重なりを計算するために、異なるカーネル関数を用いてデータとカーネル回路をマッピングする。 我々のモデルは、完全に古典的なモデルに匹敵する正確な予測を提供する。

Quantum machine learning is a growing research field that aims to perform machine learning tasks assisted by a quantum computer. Kernel-based quantum machine learning models are paradigmatic examples where the kernel involves quantum states, and the Gram matrix is calculated from the overlap between these states. With the kernel at hand, a regular machine learning model is used for the learning process. In this paper we investigate the quantum support vector machine and quantum kernel ridge models to predict the degree of non-Markovianity of a quantum system. We perform digital quantum simulation of amplitude damping and phase damping channels to create our quantum dataset. We elaborate on different kernel functions to map the data and kernel circuits to compute the overlap between quantum states. We show that our models deliver accurate predictions that are comparable with the fully classical models.
翻訳日:2023-01-25 10:05:24 公開日:2022-09-23
# 信頼できないクラウドベースの量子ハードウェア上でのロバストでセキュアなハイブリッド量子古典計算

Robust and Secure Hybrid Quantum-Classical Computation on Untrusted Cloud-Based Quantum Hardware ( http://arxiv.org/abs/2209.11872v1 )

ライセンス: Link先を確認
Suryansh Upadhyay, Swaroop Ghosh(参考訳) 量子コンピュータは現在、クラウドベースのプラットフォームを通じてアクセスでき、ユーザーはプログラムを量子ハードウェアのスイート上で実行することができる。 量子コンピューティングのエコシステムが人気と実用性で成長するにつれて、信頼できない、信頼できない、信頼できない、あるいは信頼できないベンダーを含む多くの企業が、さまざまな価格やパフォーマンスの点で、サービスとして量子コンピュータを提供するようになるだろう。 量子ハードウェア上での計算時間は高価であり、アクセスキューが長くなる可能性があるため、ユーザはより安価だが信頼性の低いハードウェアを使うよう熱心になる。 信頼性の低いベンダーは、量子回路の結果やパラメータを改ざんし、ユーザに最適なサブソリューションを提供したり、より高いイテレーションのコストをかけたりすることができる。 本稿では,例えばハイブリッド量子古典アルゴリズムである量子近似最適化アルゴリズム(qaoa)を用いて,入力パラメータと測定結果の相反的改ざんをモデル化し,シミュレーションする。 最大性能劣化は約40%である。 パラメータの改ざんを最小限に抑えて同等のパフォーマンスを達成するために、ユーザは最低コストを20倍高くする。 我々は,信頼できないハードウェアと信頼できないハードウェアの混在に対して,信頼性の高い計算を保証するため,様々なハードウェアオプションの中で等しく計算(解法)を配布することを提案する。 選択されたパフォーマンス指標では、最大30%の改善が観察される。 さらに,プログラム性能を回復させるため,数回の初期イテレーション以降のパラメータの再初期化と,実行時に不正/不確実なハードウェアを識別し,信頼性の高いハードウェアにより多くのイテレーションを割り当てるインテリジェントな実行適応分割ヒューリスティックを提案する。

Quantum computers are currently accessible through a cloud-based platform that allows users to run their programs on a suite of quantum hardware. As the quantum computing ecosystem grows in popularity and utility, it is reasonable to expect more companies, including untrustworthy or untrustworthy or unreliable vendors, to begin offering quantum computers as hardware as a service at various price or performance points. Since computing time on quantum hardware is expensive and the access queue may be long, users will be enticed to use less expensive but less reliable or trustworthy hardware. Less trusted vendors may tamper with the results and or parameters of quantum circuits, providing the user with a sub-optimal solution or incurring a cost of higher iterations. In this paper, we model and simulate adversarial tampering of input parameters and measurement outcomes on an exemplary hybrid quantum classical algorithm namely, Quantum Approximate Optimization Algorithm (QAOA). We observe a maximum performance degradation of approximately 40%. To achieve comparable performance with minimal parameter tampering, the user incurs a minimum cost of 20X higher iteration. We propose distributing the computation (iterations) equally among the various hardware options to ensure trustworthy computing for a mix of trusted and untrusted hardware. In the chosen performance metrics, we observe a maximum improvement of approximately 30%. In addition, we propose re-initialization of the parameters after a few initial iterations to fully recover the original program performance and an intelligent run adaptive split heuristic, which allows users to identify tampered/untrustworthy hardware at runtime and allocate more iterations to the reliable hardware, resulting in a maximum improvement of approximately 45%.
翻訳日:2023-01-25 09:59:41 公開日:2022-09-23
# フォトニック回路におけるスピン量子メモリの多重制御

Multiplexed control of spin quantum memories in a photonic circuit ( http://arxiv.org/abs/2209.11853v1 )

ライセンス: Link先を確認
D. Andrew Golter, Genevieve Clark, Tareq El Dandachi, Stefan Krastanov, Andrew J. Leenheer, Noel H. Wan, Hamza Raniwala, Matthew Zimmermann, Mark Dong, Kevin C. Chen, Linsen Li, Matt Eichenfield, Gerald Gilbert, Dirk Englund(参考訳) 多くの量子情報処理アプリケーションにおける中心的なゴールは、高い忠実度で個別に制御され測定されながら互いに絡み合うことができる量子メモリのネットワークである。 この目標は、ダイヤモンド色中心スピン光子インタフェースを用いたスピン量子メモリを集積したプログラマブルフォトニック集積回路(PIC)の開発を動機付けている。 しかし、このアプローチは密集したレジスタ内の個々のスピンのマイクロ波制御に問題をもたらす。 本稿では,これらの機能を実現する量子メモリ統合フォトニクスプラットフォームを提案する。 (i)複数のダイヤモンド色中心のスピンを低温で互換性のある高速プログラマブルPICプラットフォームに統合すること。 (ii)波長可変磁場勾配による個々のスピン量子ビットの選択的操作 (iii) 数値最適化マイクロ波パルス整形を用いた複数の量子ビットの同時最適量子制御 PICプラットフォームによって実現された高度に局所化された光制御と、最適量子制御法による選択的スピン操作の組み合わせは、チップ内およびチップ間プラットフォーム上のスケーラブルな量子ネットワークへの道を開く。

A central goal in many quantum information processing applications is a network of quantum memories that can be entangled with each other while being individually controlled and measured with high fidelity. This goal has motivated the development of programmable photonic integrated circuits (PICs) with integrated spin quantum memories using diamond color center spin-photon interfaces. However, this approach introduces a challenge in the microwave control of individual spins within closely packed registers. Here, we present a quantum-memory-integrated photonics platform capable of these essential functions: (i) the integration of multiple diamond color center spins into a cryogenically compatible, high-speed programmable PIC platform; (ii) selective manipulation of individual spin qubits addressed via tunable magnetic field gradients; and (iii) simultaneous optimal quantum control of multiple qubits using numerically optimized microwave pulse shaping. The combination of highly localized optical control, enabled by the PIC platform, together with selective spin manipulation by optimal quantum control methods opens the path to scalable quantum networks on intra-chip and inter-chip platforms.
翻訳日:2023-01-25 09:59:09 公開日:2022-09-23
# 波動と粒子の連続的な遷移の直接的証拠

Direct evidence of a continuous transition between waves and particles ( http://arxiv.org/abs/2209.11846v1 )

ライセンス: Link先を確認
Christian Kisielowski, Petra Specht, Stig Helveg, Fu-Rong Chen, Bert Freitag, Joerg Jinschek, Dirk Van Dyck(参考訳) エバネッセント電界の非局在を電子顕微鏡を用いて測定し、電子-マター相互作用の粒子と波動の相関を解析した。 その空間拡張は、時間依存のschr\"odinger方程式に従い、goos-h\"anchenシフトを受ける伝播波パケットのエネルギー依存、自己コヒーレンス長さと一致する。 ハイゼンベルクの極限では、コヒーレント非弾性クーロン相互作用中の自己干渉によってデコヒーレンス相 {\Delta}{\phi} = 0.5 radと生成され、1000 eV以上のエネルギー損失のために粒子状次元に縮退する。

The correlation between particle and wave descriptions of electron-matter interactions is analyzed by measuring the delocalization of an evanescent field using electron microscopy. Its spatial extension coincides with the energy-dependent, self-coherence length of propagating wave packets that obey the time-dependent Schr\"odinger equation and undergo a Goos-H\"anchen shift. In the Heisenberg limit they are created by self-interferences during coherent-inelastic Coulomb interactions with a decoherence phase {\Delta}{\phi} = 0.5 rad and shrink to particle-like dimensions for energy losses of more than 1000 eV.
翻訳日:2023-01-25 09:58:55 公開日:2022-09-23
# Clique Homology は QMA1-hard である

Clique Homology is QMA1-hard ( http://arxiv.org/abs/2209.11793v1 )

ライセンス: Link先を確認
Marcos Crichigno and Tamara Kohler(参考訳) 20年前にkaibel と pfetsch が提唱した計算トポロジーの基本課題である単純複体のホモロジー群を決定する計算複雑性に関する長年の疑問に挑戦する。 この決定問題はQMA1-hardである。 さらに,問題のバージョンが適切な約束を満足し,一定の制約がQMAに含まれることを示す。 これは、一見古典的な問題は実際には量子力学であることを示唆している。 実際、この問題は、トポロジカルデータ解析の問題に関連するグラフによって定義された単体錯体の族であるクリッド錯体の場合、QMA1-ハードのままであることを示すことで、これを著しく強化することができる。 この証明はハミルトン複雑性とホモロジー代数の多くの技法を組み合わせたものである。 トポロジカルデータ解析における量子優位性の問題への潜在的な影響について論じる。

We tackle the long-standing question of the computational complexity of determining homology groups of simplicial complexes, a fundamental task in computational topology, posed by Kaibel and Pfetsch 20 years ago. We show that this decision problem is QMA1-hard. Moreover, we show that a version of the problem satisfying a suitable promise and certain constraints is contained in QMA. This suggests that the seemingly classical problem may in fact be quantum mechanical. In fact, we are able to significantly strengthen this by showing that the problem remains QMA1-hard in the case of clique complexes, a family of simplicial complexes specified by a graph which is relevant to the problem of topological data analysis. The proof combines a number of techniques from Hamiltonian complexity and homological algebra. We discuss potential implications for the problem of quantum advantage in topological data analysis.
翻訳日:2023-01-25 09:58:13 公開日:2022-09-23
# 超高速量子分子動力学のための実験室フレーム密度行列

A Laboratory Frame Density Matrix for Ultrafast Quantum Molecular Dynamics ( http://arxiv.org/abs/2209.11790v1 )

ライセンス: Link先を確認
Margaret Gregory, Simon Neville, Michael Schuurman, Varun Makhija(参考訳) ほとんどの場合、共鳴励起分子の超高速ダイナミクスが考慮され、ほぼ常に分子フレームで計算されるが、実験は実験室のフレームで行われる。 ここでは、分子フレームの量子力学と実験フレームの量子力学を結合し、計算と測定の間に透明なリンクを与える実験室フレーム密度行列の形式性を提供する。 そのような実験では、分子フレームの動力学は、異なる配向の分子によって異なり、実験的にアクセス可能な特定のコヒーレンスが、配向平均還元されたビブロン密度行列によって拒絶される。 代わりに、実験的にアクセス可能な情報のより正確な表現として、分子角分布モーメント(MADM)が導入される。 さらに、フォーマリズムは分子フレーム量子トモグラフィーを明確に定義し、分子フレームの振動力学を実験的に画像化できるような測定を行うための要件を規定している。 このような測定の完了は、実験室のフレーム内の任意の方向における分子の分子フレーム量子力学を完全に特徴づける。

In most cases the ultrafast dynamics of resonantly excited molecules are considered, and almost always computed in the molecular frame, while experiments are carried out in the laboratory frame. Here we provide a formalism in terms of a lab frame density matrix which connects quantum dynamics in the molecular frame to those in the laboratory frame, providing a transparent link between computation and measurement. The formalism reveals that in any such experiment, the molecular frame dynamics vary for molecules in different orientations and that certain coherences which are potentially experimentally accessible are rejected by the orientation-averaged reduced vibronic density matrix. Instead, Molecular Angular Distribution Moments (MADMs) are introduced as a more accurate representation of experimentally accessible information. Furthermore, the formalism provides a clear definition of a molecular frame quantum tomography, and specifies the requirements to perform such a measurement enabling the experimental imaging of molecular frame vibronic dynamics. Successful completion of such a measurement fully characterizes the molecular frame quantum dynamics for a molecule at any orientation in the laboratory frame.
翻訳日:2023-01-25 09:57:58 公開日:2022-09-23
# 一般化確率論の枠組みにおける厳密な古典性としてのマクロリアリズム(とそれを偽る方法)

Macrorealism as strict classicality in the framework of generalized probabilistic theories (and how to falsify it) ( http://arxiv.org/abs/2209.11783v1 )

ライセンス: Link先を確認
David Schmid(参考訳) マクロリアリズムの概念は、GregettとGargによって、我々の直感的なマクロ世界の概念を捉えるために導入された。 現在までに、マクロリアリズムを改ざんする方法として、数多くの実験的な証人が提案されている。 本研究は,マクロリアリズムの定義とそれらの提案する様々なテストの両方を批判的に分析し,これらの問題をいくつか特定する(そして,他の著者が提起した重要な批判を再検討する)。 これらの問題は、一般化確率論の枠組みの中でマクロ現実主義を再構築することで解決できることを示す。 特に、私は、理論がすべてのマクロ的体系を厳密な古典的(simplicial)一般化確率論によって記述するならば、その理論はマクロ現実主義とみなすべきであると論じる。 このアプローチはマクロリアリズムの理解に顕著な明確さと精度をもたらし、マクロリアリズムを研究するための新しいツール(概念と技術の両方)を提供する。 私はこのアプローチを活用する 一 マクロ現実主義が古典主義の概念である意味を明確にすること 二 最大情報的かつ理論に依存しない新しいマクロリアリズムの試験(マクロリアリズムの以前の試験を除く。)を提案し、 iii) マクロシステム上の一般化された文脈性の証明は、マクロリアリズムの失敗を暗示する。

The notion of macrorealism was introduced by Leggett and Garg in an attempt to capture our intuitive conception of the macroscopic world, which seems difficult to reconcile with our knowledge of quantum physics. By now, numerous experimental witnesses have been proposed as methods of falsifying macrorealism. In this work, I critically analyze both the definition of macrorealism and the various proposed tests thereof, identifying a number of problems with these (and revisiting key criticisms raised by other authors). I then show that all these problems can be resolved by reformulating macrorealism within the framework of generalized probabilistic theories. In particular, I argue that a theory should be considered to be macrorealist if and only if it describes every macroscopic system by a strictly classical (i.e., simplicial) generalized probabilistic theory. This approach brings significant clarity and precision to our understanding of macrorealism, and provides us with a host of new tools -- both conceptual and technical -- for studying macrorealism. I leverage this approach i) to clarify in what sense macrorealism is a notion of classicality, ii) to propose a new test of macrorealism that is maximally informative and theory-independent (unlike all prior tests of macrorealism), and iii) to show that every proof of generalized contextuality on a macroscopic system implies the failure of macrorealism.
翻訳日:2023-01-25 09:57:40 公開日:2022-09-23
# ランダム多成分量子状態の絡み合いの推定

Estimating the entanglement of random multipartite quantum states ( http://arxiv.org/abs/2209.11754v1 )

ライセンス: Link先を確認
Khurshed Fitter, Cecilia Lancien, Ion Nechita(参考訳) 与えられた多部純量子状態の純多部絡み合いは、その幾何学的エンタングルメントの測度によって定量化することができ、対数を除いては、対応する単位テンソルと積単位テンソルとの最大重なり合いであり、これはテンソルの射影ノルムとしても知られている。 この研究の一般的な目標は、ランダムにサンプリングされたテンソルに対するこの単射ノルムを推定することである。 この目的のために, 広範に使用される交互最小二乗法や新しい正規化勾配降下法に基づき, 対称化または非対称化確率テンソルのいずれにも適合する様々なアルゴリズムを検討, 比較した。 まず, 漸近平均インジェクションノルムが解析的に知られている対称性実ガウステンソルの場合, それぞれの性能をベンチマークする。 提案する正規化勾配降下アルゴリズムが一般に最適であることを示すと、それを用いて複素ガウステンソルの平均インジェクションノルム(すなわち、一様分布した多成分純粋量子状態の正規化まで)に対して、置換不変性の有無にかかわらず近似的な数値値を与える。 最後に、ガウス局所テンソルから構築されたランダム行列積状態の平均射影ノルムを翻訳不変性の有無で推定することができる。 これらの結果は、ランダムなマルチパーティライト純状態の様々なモデルに典型的に存在する真のマルチパーティライト絡み合いの量に関する最初の数値推定である。

Genuine multipartite entanglement of a given multipartite pure quantum state can be quantified through its geometric measure of entanglement, which, up to logarithms, is simply the maximum overlap of the corresponding unit tensor with product unit tensors, a quantity which is also known as the injective norm of the tensor. Our general goal in this work is to estimate this injective norm for randomly sampled tensors. To this end, we study and compare various algorithms, based either on the widely used alternating least squares method or on a novel normalized gradient descent approach, and suited to either symmetrized or non-symmetrized random tensors. We first benchmark their respective performances on the case of symmetrized real Gaussian tensors, whose asymptotic average injective norm is known analytically. Having established that our proposed normalized gradient descent algorithm generally performs best, we then use it to provide approximate numerical values for the average injective norm of complex Gaussian tensors (i.e.~up to normalization uniformly distributed multipartite pure quantum states), with or without permutation-invariance. Finally, we are also able to estimate the average injective norm of random matrix product states constructed from Gaussian local tensors, with or without translation-invariance. All these results constitute the first numerical estimates on the amount of genuinely multipartite entanglement typically present in various models of random multipartite pure states.
翻訳日:2023-01-25 09:57:16 公開日:2022-09-23
# ローレンツ違反によって修正された量子環の熱力学

Thermodynamics of a quantum ring modified by Lorentz violation ( http://arxiv.org/abs/2209.11744v1 )

ライセンス: Link先を確認
A. A. Ara\'ujo Filho, H. Hassanabadi, J. A. A. S. Reis, L. Lisboa-Santos(参考訳) 本研究では, 1次元量子環の熱力学特性におけるローレンツ違反項の結果について検討する。 特に利害関係の成果を得るためにはアンサンブル理論を用いる。 熱力学的関数とスピン電流は温度の関数として計算される。 我々はローレンツ対称性の破れを引き起こすパラメータ$\xi$が低温状態において重要な役割を果たすことを観測する。 最後に、系の構成によって、電子は時計回りと反時計回りの2つの異なる方向に回転することができる。

In this work, we investigate the consequences of Lorentz-violating terms in the thermodynamic properties of a 1-dimensional quantum ring. Particularly, we use the ensemble theory to obtain our results of interest. The thermodynamic functions as well as the spin currents are calculated as a function of the temperature. We observe that parameter $\xi$, which triggers the Lorentz symmetry breaking, plays a major role in low temperature regime. Finally, depending on the configuration of the system, electrons can rotate in two different directions: clockwise and counterclockwise.
翻訳日:2023-01-25 09:56:49 公開日:2022-09-23
# シリコンt中心デバイスにおけるメモリとトランスダクションの展望

Memory and transduction prospects for silicon T centre devices ( http://arxiv.org/abs/2209.11731v1 )

ライセンス: Link先を確認
Daniel B Higginbottom, Faezeh Kimiaee Asadi, Camille Chartrand, Jia-Wei Ji, Laurent Bergeron, Michael L. W. Thewalt, Christoph Simon, Stephanie Simmons(参考訳) T Centerは、通信帯域の光遷移と長寿命のマイクロ波キュービットを備えたシリコンネイティブのスピンフォトンインターフェースで、光量子メモリとマイクロ波から光通信帯域へのトランスダクションの両方に魅力的なプラットフォームを提供する。 このようなプラットフォーム上では、幅広い量子メモリとトランスダクションスキームが実装可能であり、アンサンブル特性に敏感な利点と欠点がある。 本研究では、Tセンタースピンアンサンブルを特徴付け、デバイス設計を通知する。 最初のtアンサンブル光学奥行き測定を行い、効率的な光量子メモリに必要な中心密度または共鳴光学拡張の改善を計算する。 さらに,コヒーレント集団トラップ (CPT) と Autler-Townes 分割 (ATS) によるコヒーレントマイクロ波界面の実証を行った。 そして、このようなアンサンブルに対して最も有望なマイクロ波および光量子メモリプロトコルを決定する。 空き空間と空き空間の両方でメモリ効率を推定することにより、予測密度で効率的な光メモリが可能であることを示す。 最後に、トランスダクションの提案を定式化し、達成可能な効率と忠実さについて論じる。

The T centre, a silicon-native spin-photon interface with telecommunications-band optical transitions and long-lived microwave qubits, offers an appealing new platform for both optical quantum memory and microwave to optical telecommunications band transduction. A wide range of quantum memory and transduction schemes could be implemented on such a platform, with advantages and disadvantages that depend sensitively on the ensemble properties. In this work we characterize T centre spin ensembles to inform device design. We perform the first T ensemble optical depth measurement and calculate the improvement in centre density or resonant optical enhancement required for efficient optical quantum memory. We further demonstrate a coherent microwave interface by coherent population trapping (CPT) and Autler-Townes splitting (ATS). We then determine the most promising microwave and optical quantum memory protocol for such ensembles. By estimating the memory efficiency both in free-space and in the presence of a cavity, we show that efficient optical memory is possible with forecast densities. Finally, we formulate a transduction proposal and discuss the achievable efficiency and fidelity.
翻訳日:2023-01-25 09:56:43 公開日:2022-09-23
# 畳み込みニューラルネットワークを用いた表情認識

Facial Emotions Recognition using Convolutional Neural Net ( http://arxiv.org/abs/2001.01456v2 )

ライセンス: Link先を確認
Faisal Ghaffar(参考訳) 顔の表情は人によって異なり、すべてのランダム画像の明るさ、コントラスト、解像度は異なる。 そのため、表情認識は非常に困難である。 本稿では,情動を予測・割り当てする畳み込みニューラルネットワーク (CNN) を用いて, 基本的感情(怒り, 嫌悪, 恐怖, 幸福, 悲しみ, 驚き, 中立)に対して, 顔の感情認識を効果的に行うシステムを提案する。 深層学習モデルはデータから学習するため,提案システムでは各画像を様々な事前処理ステップで処理し,予測精度を向上する。 すべての画像は、トレーニングデータセットに含めるために、最初に顔検出アルゴリズムに渡された。 CNNは大量のデータを必要とするため、各画像のさまざまなフィルタを使ってデータを複製しました。 CNNの第1層への入力として、80*100サイズの前処理画像が渡される。 3つの畳み込み層が使われ、続いてプール層と3つの密集層が続いた。 濃厚層での降雨速度は20%であった。 このモデルは、JAFFEとKDEFという2つの公開データセットを組み合わせることでトレーニングされた。 データの90%がトレーニングに使われ、10%がテストに使われた。 組み合わせデータセットを用いて,最大78.1 %の精度を達成した。 さらに,感情をリアルタイムに分類するグラフィカルユーザインタフェースを用いたシステムの設計を行った。

Facial expressions vary from person to person, and the brightness, contrast, and resolution of every random image are different. This is why recognizing facial expressions is very difficult. This article proposes an efficient system for facial emotion recognition for the seven basic human emotions (angry, disgust, fear, happy, sad, surprise, and neutral), using a convolution neural network (CNN), which predicts and assigns probabilities to each emotion. Since deep learning models learn from data, thus, our proposed system processes each image with various pre-processing steps for better prediction. Every image was first passed through the face detection algorithm to include in the training dataset. As CNN requires a large amount of data, we duplicated our data using various filters on each image. Pre-processed images of size 80*100 are passed as input to the first layer of CNN. Three convolutional layers were used, followed by a pooling layer and three dense layers. The dropout rate for the dense layer was 20%. The model was trained by combining two publicly available datasets, JAFFE and KDEF. 90% of the data was used for training, while 10% was used for testing. We achieved maximum accuracy of 78.1 % using the combined dataset. Moreover, we designed an application of the proposed system with a graphical user interface that classifies emotions in real-time.
翻訳日:2023-01-14 02:37:54 公開日:2022-09-23
# 説明可能な目標駆動エージェントとロボット - 包括的なレビュー

Explainable Goal-Driven Agents and Robots -- A Comprehensive Review ( http://arxiv.org/abs/2004.09705v9 )

ライセンス: Link先を確認
Fatai Sado, Chu Kiong Loo, Wei Shiung Liew, Matthias Kerzel, Stefan Wermter(参考訳) 自動運転車、シナリオベーストレーナー、探査ロボット、サービスロボットといった自律型エージェントやロボットの最近の応用は、現在の人工知能(AI)システムに関連する重要な信頼に関わる課題に注意を向けている。 connectionist deep learning neural networkアプローチに基づいたaiシステムは、大きな成功にもかかわらず、彼らの決定や行動を説明する能力がない。 象徴的な解釈能力がなければ、それらはブラックボックスであり、決定やアクションが不透明になり、安全クリティカルなアプリケーションでは信頼できない。 AIシステムの説明可能性に関する最近のスタンスは、eXplainable Artificial Intelligence(XAI)に関するいくつかのアプローチを目撃しているが、研究の大半は、計算科学に適用されたデータ駆動型XAIシステムに焦点を当てている。 ますます広まりつつある目標駆動型エージェントやロボットに対処する研究はまだ欠けている。 本稿では,人間とエージェントの知覚機能(例,感覚,視覚)と認知的推論(例,信念,欲望,意図,計画,目標)をループ内で説明し,伝達する技術に焦点を当てた,目標駆動型知的エージェントとロボットに関するアプローチをレビューする。 このレビューは、説明可能性のための透明性、理解可能性、継続的な学習を強調する重要な戦略を強調している。 最後に、説明可能性の要件を提示し、効果的な目標駆動型説明可能なエージェントとロボットの実現に向けたロードマップを提案する。

Recent applications of autonomous agents and robots, such as self-driving cars, scenario-based trainers, exploration robots, and service robots have brought attention to crucial trust-related challenges associated with the current generation of artificial intelligence (AI) systems. AI systems based on the connectionist deep learning neural network approach lack capabilities of explaining their decisions and actions to others, despite their great successes. Without symbolic interpretation capabilities, they are black boxes, which renders their decisions or actions opaque, making it difficult to trust them in safety-critical applications. The recent stance on the explainability of AI systems has witnessed several approaches on eXplainable Artificial Intelligence (XAI); however, most of the studies have focused on data-driven XAI systems applied in computational sciences. Studies addressing the increasingly pervasive goal-driven agents and robots are still missing. This paper reviews approaches on explainable goal-driven intelligent agents and robots, focusing on techniques for explaining and communicating agents perceptual functions (example, senses, and vision) and cognitive reasoning (example, beliefs, desires, intention, plans, and goals) with humans in the loop. The review highlights key strategies that emphasize transparency, understandability, and continual learning for explainability. Finally, the paper presents requirements for explainability and suggests a roadmap for the possible realization of effective goal-driven explainable agents and robots.
翻訳日:2022-12-11 07:24:12 公開日:2022-09-23
# 外れ値に対する$k$-meansアルゴリズムの適用

Adapting $k$-means algorithms for outliers ( http://arxiv.org/abs/2007.01118v2 )

ライセンス: Link先を確認
Christoph Grunau and V\'aclav Rozho\v{n}(参考訳) 本稿では,数種類の単純なサンプリングベースアルゴリズムを$k$-means問題に適応させる方法について述べる。 最近、Bhaskara氏(NeurIPS 2019)は、古典的な$k$-means++アルゴリズムを外れ値の設定に適応する方法を示した。 しかし、それらのアルゴリズムは$o(\log (k) \cdot z)$ outliersを出力する必要があり、ここで$z$は真の outlier の数であり、$o(\log k)$-approximation guarantee of $k$-means++と一致する。 本稿では,それらのアイデアに基づいて,複数の逐次的および分散的な$k$-meansアルゴリズムをアウトレーヤ付き設定に適応させる方法を示すが,より強力な理論的保証が得られた:我々のアルゴリズムは,O(1 / \varepsilon)$-approximationを目標関数に達成しつつ,$(1+\varepsilon)z$outliersを出力する。 シーケンシャルな世界では、最近のアルゴリズムであるLattanziとSohler(ICML 2019)を適用することで、これを実現する。 分散環境では、Guha et al. (IEEE Trans. Know. and Data Engineering 2003) の単純なアルゴリズムと、人気のある$k$-means$\|$ of Bahmani et al. (PVLDB 2012) を適用する。 我々の手法の理論的応用は、動作時間$\tilde{O}(nk^2/z)$のアルゴリズムで、目標関数に対して$O(1)$-approximationを行い、$O(z)$outliersを出力し、$k \ll z \ll n$を仮定する。 これは、オラクルモデルにおけるこの問題に対する$\Omega(nk^2/z)$の一致する下界で補される。

This paper shows how to adapt several simple and classical sampling-based algorithms for the $k$-means problem to the setting with outliers. Recently, Bhaskara et al. (NeurIPS 2019) showed how to adapt the classical $k$-means++ algorithm to the setting with outliers. However, their algorithm needs to output $O(\log (k) \cdot z)$ outliers, where $z$ is the number of true outliers, to match the $O(\log k)$-approximation guarantee of $k$-means++. In this paper, we build on their ideas and show how to adapt several sequential and distributed $k$-means algorithms to the setting with outliers, but with substantially stronger theoretical guarantees: our algorithms output $(1+\varepsilon)z$ outliers while achieving an $O(1 / \varepsilon)$-approximation to the objective function. In the sequential world, we achieve this by adapting a recent algorithm of Lattanzi and Sohler (ICML 2019). In the distributed setting, we adapt a simple algorithm of Guha et al. (IEEE Trans. Know. and Data Engineering 2003) and the popular $k$-means$\|$ of Bahmani et al. (PVLDB 2012). A theoretical application of our techniques is an algorithm with running time $\tilde{O}(nk^2/z)$ that achieves an $O(1)$-approximation to the objective function while outputting $O(z)$ outliers, assuming $k \ll z \ll n$. This is complemented with a matching lower bound of $\Omega(nk^2/z)$ for this problem in the oracle model.
翻訳日:2022-11-14 14:44:16 公開日:2022-09-23
# 変分オープンドメイン質問応答

Variational Open-Domain Question Answering ( http://arxiv.org/abs/2210.06345v1 )

ライセンス: Link先を確認
Valentin Li\'evin, Andreas Geert Motzfeldt, Ida Riis Jensen, Ole Winther(参考訳) 本稿では,検索強化モデル(オープンドメイン質問応答と言語モデリング)のエンドツーエンドトレーニングと評価を行うための変動型オープンドメイン(VOD)フレームワークを紹介する。 本稿では,タスク限界確率の低いR'enyi変分境界を最適化および重要サンプリングに活用し,補助検索器(近似後部)から抽出したサンプルを用いてタスクログ類似度の下限とその勾配を推定することを示した。 このフレームワークは、R'enyi変分境界とその勾配のトラクタブルで一貫した推定を用いて、最新の検索拡張システムのエンドツーエンドのトレーニングに使用できる。 本稿では,マルチチョイス医療試験問題(medmcqaおよびusmle)に対するbertベースモデルの学習により,多用途性を示す。 両方のデータセットの最先端(medmcqa:62.9$\%、usmle:55.0$\%)を登録しました。 最後に,医療委員会試験質問で学習した学習済み読解モデルの検索部が,医学知識ベースのための検索エンジンで使用できることを示す。

We introduce the Variational Open-Domain (VOD) framework for end-to-end training and evaluation of retrieval-augmented models (open-domain question answering and language modelling). We show that the R\'enyi variational bound, a lower bound to the task marginal likelihood, can be exploited to aid optimization and use importance sampling to estimate the task log-likelihood lower bound and its gradients using samples drawn from an auxiliary retriever (approximate posterior). The framework can be used to train modern retrieval-augmented systems end-to-end using tractable and consistent estimates of the R\'enyi variational bound and its gradients. We demonstrate the framework's versatility by training reader-retriever BERT-based models on multiple-choice medical exam questions (MedMCQA and USMLE). We registered a new state-of-the-art for both datasets (MedMCQA: $62.9$\%, USMLE: $55.0$\%). Last, we show that the retriever part of the learned reader-retriever model trained on the medical board exam questions can be used in search engines for a medical knowledge base.
翻訳日:2022-10-16 16:19:13 公開日:2022-09-23
# AIによるAIの未来予測:指数関数的に成長する知識ネットワークにおける高品質リンク予測

Predicting the Future of AI with AI: High-quality link prediction in an exponentially growing knowledge network ( http://arxiv.org/abs/2210.00881v1 )

ライセンス: Link先を確認
Mario Krenn, Lorenzo Buffoni, Bruno Coutinho, Sagi Eppel, Jacob Gates Foster, Andrew Gritsevskiy, Harlin Lee, Yichao Lu, Joao P. Moutinho, Nima Sanjabi, Rishi Sonthalia, Ngoc Mai Tran, Francisco Valente, Yangxinyu Xie, Rose Yu, Michael Kopp(参考訳) 科学文献から洞察を得ることで、新たなパーソナライズされた研究の方向性やアイデアを示唆するツールが、科学の進歩を著しく加速する可能性がある。 このようなアプローチの恩恵を受ける可能性のある分野は、人工知能(ai)研究である。ここ数年間、科学出版物の数は指数関数的に増加しており、人間の研究者が進歩を追跡することが困難になっている。 ここでは、AI技術を用いて、AI自体の将来的な研究方向を予測する。 我々は、現実世界のデータに基づく新しいグラフベースのベンチマーク、science4castベンチマークを開発し、進化するai意味ネットワークの将来状態を予測することを目的としている。 そのため、10万以上の研究論文を使って、64,000以上の概念ノードを持つ知識ネットワークを構築しています。 次に,この課題に取り組むために,純粋統計法から純粋学習法まで,10種類の方法を提案する。 驚くべきことに、最も強力な方法は、エンドツーエンドのAIアプローチではなく、慎重にキュレートされたネットワーク機能セットを使用する。 これは、人間の知識なしに純粋にMLアプローチを解き放つ大きな可能性を示唆している。 究極的には、新しい研究方向のより良い予測は、より高度な研究提案ツールの重要な要素となるだろう。

A tool that could suggest new personalized research directions and ideas by taking insights from the scientific literature could significantly accelerate the progress of science. A field that might benefit from such an approach is artificial intelligence (AI) research, where the number of scientific publications has been growing exponentially over the last years, making it challenging for human researchers to keep track of the progress. Here, we use AI techniques to predict the future research directions of AI itself. We develop a new graph-based benchmark based on real-world data -- the Science4Cast benchmark, which aims to predict the future state of an evolving semantic network of AI. For that, we use more than 100,000 research papers and build up a knowledge network with more than 64,000 concept nodes. We then present ten diverse methods to tackle this task, ranging from pure statistical to pure learning methods. Surprisingly, the most powerful methods use a carefully curated set of network features, rather than an end-to-end AI approach. It indicates a great potential that can be unleashed for purely ML approaches without human knowledge. Ultimately, better predictions of new future research directions will be a crucial component of more advanced research suggestion tools.
翻訳日:2022-10-09 17:22:08 公開日:2022-09-23
# 最適化とサンプリングにおける粒子法のエンサンブルに基づく勾配推定

Ensemble-based gradient inference for particle methods in optimization and sampling ( http://arxiv.org/abs/2209.15420v1 )

ライセンス: Link先を確認
Claudia Schillings and Claudia Totzeck and Philipp Wacker(参考訳) 本稿では,関数評価とベイズ推定に基づいて,対象関数の高次微分情報を粒子の所定のアンサンブルから抽出する手法を提案する。 ポイントワイズ評価 $\{V(x^i)\}_i$ アンサンブル $\{x^i\}_i$ においてあるポテンシャル $V$ は 1 以上の階微分に関する暗黙的な情報を含み、ほとんど計算の労力で明示することができる(アンサンブルベースの勾配推論 -- EGI)。 この情報を用いて,コンセンサスに基づく最適化やランジュバンに基づくサンプリングなどの最適化とサンプリングのための確立されたアンサンブルに基づく数値手法の改善を提案する。 数値的研究によれば、拡張アルゴリズムは勾配のない変種よりも優れていることがしばしば示されており、特に拡張手法はアンサンブルが初期領域から逃れ、マルチモーダルで非ガウシアンセッティングを探索し、最適化ダイナミクスの終わりに崩壊を早めるのに役立つ。 この原稿の数値例のコードは、論文のGithubリポジトリ(https://github.com/MercuryBench/ensemble-based-gradient.git)にある。

We propose an approach based on function evaluations and Bayesian inference to extract higher-order differential information of objective functions {from a given ensemble of particles}. Pointwise evaluation $\{V(x^i)\}_i$ of some potential $V$ in an ensemble $\{x^i\}_i$ contains implicit information about first or higher order derivatives, which can be made explicit with little computational effort (ensemble-based gradient inference -- EGI). We suggest to use this information for the improvement of established ensemble-based numerical methods for optimization and sampling such as Consensus-based optimization and Langevin-based samplers. Numerical studies indicate that the augmented algorithms are often superior to their gradient-free variants, in particular the augmented methods help the ensembles to escape their initial domain, to explore multimodal, non-Gaussian settings and to speed up the collapse at the end of optimization dynamics.} The code for the numerical examples in this manuscript can be found in the paper's Github repository (https://github.com/MercuryBench/ensemble-based-gradient.git).
翻訳日:2022-10-09 17:21:00 公開日:2022-09-23
# 依存ガウス混合モデルにおけるコミュニティ検出の厳密な回復

Exact Recovery of Community Detection in dependent Gaussian Mixture Models ( http://arxiv.org/abs/2209.14859v1 )

ライセンス: Link先を確認
Zhongyang Li and Sichen Yang(参考訳) ガウス混合モデルにおいて,(1)頂点が必ずしも等大ではない2つの異なる群落に分割され,(2)観測行列における異なるエントリに対するガウス摂動は必ずしも独立あるいは同分布ではない,ガウス混合モデル上での群落検出問題について検討する。 我々は,mle(maximum likelihood estimation)の正確な回復に必要な十分条件を証明し,必要十分条件が鋭い閾値を与える場合について考察する。 応用としては、各エッジ上のガウスの観測の摂動が、その端頂点のガウスの確率変数の和であるグラフ上のコミュニティ検出を含み、そこでは、MLEの正確な回復のしきい値が明示的に取得される。

We study the community detection problem on a Gaussian mixture model, in which (1) vertices are divided into $k\geq 2$ distinct communities that are not necessarily equally-sized; (2) the Gaussian perturbations for different entries in the observation matrix are not necessarily independent or identically distributed. We prove necessary and sufficient conditions for the exact recovery of the maximum likelihood estimation (MLE), and discuss the cases when these necessary and sufficient conditions give sharp threshold. Applications include the community detection on a graph where the Gaussian perturbations of observations on each edge is the sum of i.i.d.~Gaussian random variables on its end vertices, in which we explicitly obtain the threshold for the exact recovery of the MLE.
翻訳日:2022-10-02 23:13:46 公開日:2022-09-23
# Faith: GPU上でのトランスフォーマー検証のための効率的なフレームワーク

Faith: An Efficient Framework for Transformer Verification on GPUs ( http://arxiv.org/abs/2209.12708v1 )

ライセンス: Link先を確認
Boyuan Feng, Tianqi Tang, Yuke Wang, Zhaodong Chen, Zheng Wang, Shu Yang, Yuan Xie, Yufei Ding(参考訳) トランスフォーマー検証は、機械学習の研究と産業で注目を集めている。 これは、文中の単語を同義語で交換するなどの敵攻撃に対するトランスフォーマーの堅牢さを正式に検証する。 しかし、標準ニューラルネットワークとは大きく異なる境界中心計算のため、変圧器検証の性能は依然として不十分である。 本稿では,GPU上でのトランスフォーマー検証のための効率的なフレームワークであるFaithを提案する。 まず,変換器検証における有界計算などの意味情報を識別する意味認識型計算グラフ変換を提案する。 このような意味情報を利用して,計算グラフレベルで効率的なカーネル融合を実現する。 第2に、トランスフォーマー検証を現代GPUに効率的にマッピングする検証専用カーネルクラフトを提案する。 このクラフトはGPUハードウェアのセットを利用して、通常メモリ集約的な検証専用操作を高速化する。 第3に,GPUバックエンドに専門家の知識を取り入れ,大規模な検索空間探索を容易にするための専門家誘導オートチューニングを提案する。 広範な評価により、信条は最先端のフレームワークよりも2.1\times$から3.4\times$(平均2.6\times$)のスピードアップを達成している。

Transformer verification draws increasing attention in machine learning research and industry. It formally verifies the robustness of transformers against adversarial attacks such as exchanging words in a sentence with synonyms. However, the performance of transformer verification is still not satisfactory due to bound-centric computation which is significantly different from standard neural networks. In this paper, we propose Faith, an efficient framework for transformer verification on GPUs. We first propose a semantic-aware computation graph transformation to identify semantic information such as bound computation in transformer verification. We exploit such semantic information to enable efficient kernel fusion at the computation graph level. Second, we propose a verification-specialized kernel crafter to efficiently map transformer verification to modern GPUs. This crafter exploits a set of GPU hardware supports to accelerate verification specialized operations which are usually memory-intensive. Third, we propose an expert-guided autotuning to incorporate expert knowledge on GPU backends to facilitate large search space exploration. Extensive evaluations show that Faith achieves $2.1\times$ to $3.4\times$ ($2.6\times$ on average) speedup over state-of-the-art frameworks.
翻訳日:2022-09-27 18:11:14 公開日:2022-09-23
# 画素内表面検出とダイナミックビジョンを用いた飛行時間型画像センサ

A direct time-of-flight image sensor with in-pixel surface detection and dynamic vision ( http://arxiv.org/abs/2209.11772v1 )

ライセンス: Link先を確認
Istvan Gyongy, Ahmet T. Erdogan, Neale A.W. Dutton, Germ\'an Mora Mart\'in, Alistair Gorman, Hanning Mai, Francesco Mattioli Della Rocca, Robert K. Henderson(参考訳) 3DフラッシュLIDARは、従来の走査型LIDARシステムに代わるもので、コンパクトなフォームファクターで正確な深度イメージングを約束し、自動運転車、ロボティクス、拡張現実(AR)などの応用のための可動部品を使用できない。 通常、単光子、直接飛行時間(dToF)受信機をイメージセンサー形式で実装するが、装置の動作は、屋外のシナリオで処理や圧縮を必要とする大量の光子イベントによって妨げられ、フレームレートと拡張性はより大きな配列に制限される。 ここでは,64x32 ピクセル (256x128 SPAD) dToF 撮像器を組込みヒストグラム法により,この制限を克服し,返却信号のロックと追跡を行う。 これにより出力データフレームのサイズが大幅に小さくなり、10kFPS範囲の最大フレームレートや100kFPSの直接深度読み取りが可能となる。 このセンサーは、画素検出面またはそのセンシング動作の選択的読み出しを提供し、消費電力の削減とオフチップ処理の要求に繋がる。 中距離LIDARにおけるセンサの適用例を示す。

3D flash LIDAR is an alternative to the traditional scanning LIDAR systems, promising precise depth imaging in a compact form factor, and free of moving parts, for applications such as self-driving cars, robotics and augmented reality (AR). Typically implemented using single-photon, direct time-of-flight (dToF) receivers in image sensor format, the operation of the devices can be hindered by the large number of photon events needing to be processed and compressed in outdoor scenarios, limiting frame rates and scalability to larger arrays. We here present a 64x32 pixel (256x128 SPAD) dToF imager that overcomes these limitations by using pixels with embedded histogramming, which lock onto and track the return signal. This reduces the size of output data frames considerably, enabling maximum frame rates in the 10 kFPS range or 100 kFPS for direct depth readings. The sensor offers selective readout of pixels detecting surfaces, or those sensing motion, leading to reduced power consumption and off-chip processing requirements. We demonstrate the application of the sensor in mid-range LIDAR.
翻訳日:2022-09-27 18:10:23 公開日:2022-09-23
# 低レギュレントなマルチエージェントマルチArmed Banditの効率的なアルゴリズム

An Efficient Algorithm for Fair Multi-Agent Multi-Armed Bandit with Low Regret ( http://arxiv.org/abs/2209.11817v1 )

ライセンス: Link先を確認
Matthew Jones, Huy L\^e Nguyen, Thy Nguyen(参考訳) 近年,オンライン学習における公平性問題に取り組むために,古典的多腕バンディットのマルチエージェント版が提案されている。 社会的選択と経済学における長い仕事に着想を得て、目標は全効用ではなくナッシュ社会福祉を最適化することである。 残念なことに、以前のアルゴリズムは効率的でないか、ラウンド数で$T$の準最適後悔を達成するかのいずれかである。 従来の非効率アルゴリズムよりも後悔度が低い新しいアルゴリズムを提案する。 N$エージェント、$K$アーム、および$T$ラウンドの場合、我々のアプローチは、$\tilde{O}(\sqrt{NKT} + NK)$の後悔の束を持つ。 これは以前のアプローチの改善であり、$\tilde{O}( \min(NK, \sqrt{N} K^{3/2})\sqrt{T})$を後悔する。 また、効率的なアルゴリズムを $\tilde{O}(\sqrt{KT} + N^2K)$ regret で非効率なアプローチで補完する。 実験の結果,従来の手法と比較し,効率的なアルゴリズムの有効性を確認した。

Recently a multi-agent variant of the classical multi-armed bandit was proposed to tackle fairness issues in online learning. Inspired by a long line of work in social choice and economics, the goal is to optimize the Nash social welfare instead of the total utility. Unfortunately previous algorithms either are not efficient or achieve sub-optimal regret in terms of the number of rounds $T$. We propose a new efficient algorithm with lower regret than even previous inefficient ones. For $N$ agents, $K$ arms, and $T$ rounds, our approach has a regret bound of $\tilde{O}(\sqrt{NKT} + NK)$. This is an improvement to the previous approach, which has regret bound of $\tilde{O}( \min(NK, \sqrt{N} K^{3/2})\sqrt{T})$. We also complement our efficient algorithm with an inefficient approach with $\tilde{O}(\sqrt{KT} + N^2K)$ regret. The experimental findings confirm the effectiveness of our efficient algorithm compared to the previous approaches.
翻訳日:2022-09-27 17:53:43 公開日:2022-09-23
# プライバシーを守るオンラインコンテンツモデレーション:連合学習のユースケース

Privacy-Preserving Online Content Moderation: A Federated Learning Use Case ( http://arxiv.org/abs/2209.11843v1 )

ライセンス: Link先を確認
Pantelitsa Leonidou, Nicolas Kourtellis, Nikos Salamanos, Michael Sirivianos(参考訳) ユーザーは毎日、さまざまなソーシャルネットワークプラットフォームで大量の有害コンテンツにさらされている。 1つの解決策は、機械学習技術を使ったオンラインモデレーションツールの開発である。 しかし、オンラインプラットフォームによるユーザーデータの処理にはプライバシーポリシーの遵守が必要である。 フェデレーション学習(federated learning, fl)は、ユーザのデバイス上でローカルにトレーニングを行うmlパラダイムである。 FLフレームワークは、理論的にはGDPRポリシーに準拠するが、プライバシリークが発生する可能性がある。 例えば、最終的なトレーニングモデルにアクセスするアタッカーは、トレーニングプロセスに参加したユーザに属するデータの望ましくない推論を実行することができる。 本稿では,差分プライバシー(dp)を組み込んだオンラインコンテンツモデレーションのためのプライバシー保存型flフレームワークを提案する。 このアプローチの実現可能性を示すために、私たちはtwitter上の有害なコンテンツの検出に焦点を当てています。 我々は、有害なコンテンツでツイートを検出するテキスト分類器(FL方式)をシミュレートする。 提案するFLフレームワークの性能は,DP版と非DP版の双方において,集中型アプローチに近いことが示されている。 さらに、少数のクライアント(それぞれに少数のデータポイントを持つ)がflトレーニングで利用可能であっても、高いパフォーマンスを実現している。 クライアント数(50から10)やクライアントあたりのデータポイント(1Kから0.1K)を減らすと、分類器はおよそ81%のAUCを達成することができる。 さらに、評価を他の4つのTwitterデータセットに拡張し、さまざまなタイプのユーザ動作をキャプチャし、引き続き有望なパフォーマンス(61% - 80% AUC)を得る。 最後に、flトレーニングフェーズにおけるユーザのデバイス上のオーバーヘッドを調査し、ローカルトレーニングが過剰なcpu使用率とメモリ消費オーバーヘッドを発生させないことを示す。

Users are daily exposed to a large volume of harmful content on various social network platforms. One solution is developing online moderation tools using Machine Learning techniques. However, the processing of user data by online platforms requires compliance with privacy policies. Federated Learning (FL) is an ML paradigm where the training is performed locally on the users' devices. Although the FL framework complies, in theory, with the GDPR policies, privacy leaks can still occur. For instance, an attacker accessing the final trained model can successfully perform unwanted inference of the data belonging to the users who participated in the training process. In this paper, we propose a privacy-preserving FL framework for online content moderation that incorporates Differential Privacy (DP). To demonstrate the feasibility of our approach, we focus on detecting harmful content on Twitter - but the overall concept can be generalized to other types of misbehavior. We simulate a text classifier - in FL fashion - which can detect tweets with harmful content. We show that the performance of the proposed FL framework can be close to the centralized approach - for both the DP and non-DP FL versions. Moreover, it has a high performance even if a small number of clients (each with a small number of data points) are available for the FL training. When reducing the number of clients (from 50 to 10) or the data points per client (from 1K to 0.1K), the classifier can still achieve ~81% AUC. Furthermore, we extend the evaluation to four other Twitter datasets that capture different types of user misbehavior and still obtain a promising performance (61% - 80% AUC). Finally, we explore the overhead on the users' devices during the FL training phase and show that the local training does not introduce excessive CPU utilization and memory consumption overhead.
翻訳日:2022-09-27 17:53:25 公開日:2022-09-23
# 時空間生産予測のための物理インフォームドグラフニューラルネットワーク

Physics-Informed Graph Neural Network for Spatial-temporal Production Forecasting ( http://arxiv.org/abs/2209.11885v1 )

ライセンス: Link先を確認
Wendi Liu, Michael J. Pyrcz(参考訳) 歴史的データに基づく生産予測は、炭化水素資源の開発に不可欠な価値を提供する。 古典的な履歴マッチングワークフローは、しばしば計算量と幾何学に依存します。 減少曲線解析 (DCA) や容量抵抗モデル (CRM) のような解析的データ駆動モデルは、ある程度の物理制約を統合することができる比較的単純なモデルでグリッドフリーのソリューションを提供する。 しかし、解析解は地下の幾何学を無視し、特定の流れ状態にのみ適しており、それ以外は物理条件に反し、モデル予測精度が劣化する可能性がある。 時系列の機械学習に基づく予測モデルは、生産予測のための非パラメトリックな仮定なしのソリューションを提供するが、トレーニングデータ間隔により過度にモデルに適合しがちである。 生産予測のためのグリッドフリーな物理インフォームドグラフニューラルネットワーク(PI-GNN)を提案する。 カスタマイズされたグラフ畳み込み層は、過去のデータから近所の情報を集約し、データ駆動モデルにドメインの専門知識を統合する柔軟性を有する。 提案手法はCRMのようなクローズドなソリューションへの依存を緩和し、与えられた物理に基づく制約を尊重する。 提案手法は,従来のCRMおよびGNNベースラインに対して,物理制約を伴わずに性能とモデル解釈性を向上する。

Production forecast based on historical data provides essential value for developing hydrocarbon resources. Classic history matching workflow is often computationally intense and geometry-dependent. Analytical data-driven models like decline curve analysis (DCA) and capacitance resistance models (CRM) provide a grid-free solution with a relatively simple model capable of integrating some degree of physics constraints. However, the analytical solution may ignore subsurface geometries and is appropriate only for specific flow regimes and otherwise may violate physics conditions resulting in degraded model prediction accuracy. Machine learning-based predictive model for time series provides non-parametric, assumption-free solutions for production forecasting, but are prone to model overfit due to training data sparsity; therefore may be accurate over short prediction time intervals. We propose a grid-free, physics-informed graph neural network (PI-GNN) for production forecasting. A customized graph convolution layer aggregates neighborhood information from historical data and has the flexibility to integrate domain expertise into the data-driven model. The proposed method relaxes the dependence on close-form solutions like CRM and honors the given physics-based constraints. Our proposed method is robust, with improved performance and model interpretability relative to the conventional CRM and GNN baseline without physics constraints.
翻訳日:2022-09-27 17:52:58 公開日:2022-09-23
# 頚部癌画像における世代交叉網の最近の動向と解析

Recent trends and analysis of Generative Adversarial Networks in Cervical Cancer Imaging ( http://arxiv.org/abs/2209.12680v1 )

ライセンス: Link先を確認
Tamanna Sood(参考訳) 子宮頸癌は、女性に見られる最も一般的ながんの1つである。 女性の全てのがんの6-29%に寄与する。 原因はヒトパピローマウイルス(HPV)である。 頸部癌が5年生存する確率は、検出される段階によって17%-92%である。 この疾患の早期発見は、患者の治療と生存率を改善するのに役立つ。 近年、多くのディープラーニングアルゴリズムが子宮頸癌の検出に使われている。 GAN(Generative Adversarial Networks)として知られるディープラーニング技術の特別なカテゴリは、頸がんのスクリーニング、検出、分類において速度に追いついている。 本稿では, GAN モデルの使用状況, 応用状況, 頚部癌画像の分野での性能評価に用いられている評価指標について, 最近の動向を詳細に分析する。

Cervical cancer is one of the most common types of cancer found in females. It contributes to 6-29% of all cancers in women. It is caused by the Human Papilloma Virus (HPV). The 5-year survival chances of cervical cancer range from 17%-92% depending upon the stage at which it is detected. Early detection of this disease helps in better treatment and survival rate of the patient. Many deep learning algorithms are being used for the detection of cervical cancer these days. A special category of deep learning techniques known as Generative Adversarial Networks (GANs) are catching up with speed in the screening, detection, and classification of cervical cancer. In this work, we present a detailed analysis of the recent trends relating to the use of various GAN models, their applications, and the evaluation metrics used for their performance evaluation in the field of cervical cancer imaging.
翻訳日:2022-09-27 17:44:18 公開日:2022-09-23
# 膝関節領域検出のためのニューラルテンプレートマッチング法

A Neural Template Matching Method to Detect Knee Joint Areas ( http://arxiv.org/abs/2209.11791v1 )

ライセンス: Link先を確認
Juha Tiirola(参考訳) 本稿では,両側PA固定型膝関節X線画像における膝関節領域の検出法について検討した。 これらの手法は、距離基準が負の正規化相互相関に基づくテンプレートマッチング型である。 テンプレートが選択された場合、手動アノテーションは、一方の両側画像の片側にのみ作成される。 ベストマッチングパッチ探索は制約のない連続領域最小化問題として定式化される。 最小化問題に対しては、異なる最適化手法が検討されている。 本論文の主な方法は,テンプレートに類似した入力画像からズームや回転したパッチを抽出する訓練可能なオプティマイザである。 実験では,異なる最適化手法で得られる最小値を比較した。 また、最小値と膝関節領域の局所化率の対応性を検討するために、いくつかのテスト画像についても検討する。 単一の画像のみに注釈を付けることで、膝関節領域を正確に検出できるようだ。

In this paper, new methods are considered to detect knee joint areas in bilateral PA fixed flexion knee X-ray images. The methods are of template matching type where the distance criterion is based on the negative normalized cross-correlation. The manual annotations are made on only one side of a single bilateral image when the templates are selected. The best matching patch search is formulated as an unconstrained continuous domain minimization problem. For the minimization problem different optimization methods are considered. The main method of the paper is a trainable optimizer where the method is taught to take zoomed and possibly rotated patches from its input images which look like the template. In the experiments, we compare the minimum values found by different optimization methods. We also look at some test images to examine the correspondence between the minimum value and how well the knee area is localized. It seems that making annotations only to a single image enables to detect knee joint areas quite precisely.
翻訳日:2022-09-27 17:28:46 公開日:2022-09-23
# 視野限定型カメラによる広域地すべり化

Wide-Area Geolocalization with a Limited Field of View Camera ( http://arxiv.org/abs/2209.11854v1 )

ライセンス: Link先を確認
Lena M. Downes, Ted J. Steiner, Rebecca L. Russell, and Jonathan P. How(参考訳) GPSの補足または置換であるクロスビュージオローカライゼーションは、地上カメラから撮影した画像と衛星や航空機から撮影した画像とをマッチングすることにより、検索エリア内のエージェントをローカライズする。 地表面画像と地表面画像との視線差は、地表面の地形化を難しくするが、地表面のエージェントがパノラマカメラにアクセスできると仮定すると、大きな進歩が見られる。 例えば、我々の以前の研究(WAG)では、都市規模のパノラマ・クロスビュー・ジオローカライゼーションを可能にする探索領域の離散化、トレーニング損失、粒子フィルタ重み付けが導入された。 しかし、パノラマカメラはその複雑さとコストのために既存のロボットプラットフォームでは広く使われていない。 非パノラマ・クロスビュー・ジオローカライゼーションはロボット工学にも適用できるが、さらに難しい。 提案するRestricted FOV Wide-Area Geolocalization (ReWAG)は,標準の非パノラマ地上カメラを用いてWAGを一般化し,ポーズ対応の埋め込みを作成し,シムズネットワークに粒子ポーズを組み込む戦略を提供する。 ReWAGは、オドメトリーと90度のFOVカメラのみで、GPSで移動エージェントをグローバルにローカライズすることができ、パノラマカメラでWAGが達成したものと同じようなローカライズ精度を実現し、ベースラインビジョントランスフォーマー(ViT)アプローチと比較して100倍のローカライズ精度を向上させることができるニューラルネットワークとパーティクルフィルタシステムである。 ReWAGの数十kmのテストパスへの収束を示すビデオハイライトがhttps://youtu.be/U_OBQrt8qCEで公開されている。

Cross-view geolocalization, a supplement or replacement for GPS, localizes an agent within a search area by matching images taken from a ground-view camera to overhead images taken from satellites or aircraft. Although the viewpoint disparity between ground and overhead images makes cross-view geolocalization challenging, significant progress has been made assuming that the ground agent has access to a panoramic camera. For example, our prior work (WAG) introduced changes in search area discretization, training loss, and particle filter weighting that enabled city-scale panoramic cross-view geolocalization. However, panoramic cameras are not widely used in existing robotic platforms due to their complexity and cost. Non-panoramic cross-view geolocalization is more applicable for robotics, but is also more challenging. This paper presents Restricted FOV Wide-Area Geolocalization (ReWAG), a cross-view geolocalization approach that generalizes WAG for use with standard, non-panoramic ground cameras by creating pose-aware embeddings and providing a strategy to incorporate particle pose into the Siamese network. ReWAG is a neural network and particle filter system that is able to globally localize a mobile agent in a GPS-denied environment with only odometry and a 90 degree FOV camera, achieving similar localization accuracy as what WAG achieved with a panoramic camera and improving localization accuracy by a factor of 100 compared to a baseline vision transformer (ViT) approach. A video highlight that demonstrates ReWAG's convergence on a test path of several dozen kilometers is available at https://youtu.be/U_OBQrt8qCE.
翻訳日:2022-09-27 17:28:23 公開日:2022-09-23
# トランスを用いたマイクロバブルの局在化

Transformer-Based Microbubble Localization ( http://arxiv.org/abs/2209.11859v1 )

ライセンス: Link先を確認
Sepideh K. Gharamaleki, Brandon Helfield, Hassan Rivaz(参考訳) 超音波局在顕微鏡(Ultrasound Localization Microscopy, ULM)は、エコー発生マイクロバブル(MB)の局所化を利用して、超音波イメージングの回折限界を超える微小循環を微細にサンプリングし、画像化する技術である。 従来のMBローカライゼーション手法は主に、MBの特定のポイントスプレッド関数(PSF)を考慮することに基づいており、重複するMB、非定常PSF、ハーモニックMBエコーによって引き起こされる情報の損失につながる。 したがって、MBの非線形性やMBのPSFを歪ませるMB濃度の変動に耐性を持ちながら、正確にMBをローカライズする手法を考案することが不可欠である。 本稿では,この問題に対処するトランスフォーマーを用いたMBローカライズ手法を提案する。 我々は,検出対象のそれぞれに対して,セットベースハンガリーロスとバイパーティイトマッチングを用いて一意なバウンディングボックスを検出するエンドツーエンドのオブジェクト認識手法であるDetection TRansformer (DETR) arXiv:2005.12872を採用した。 著者の知識では、MBローカライゼーションにトランスフォーマーが使用されるのはこれが初めてである。 提案手法を評価するため,転送学習原理を用いたMB検出のために,事前学習したDETRネットワークの性能を検証した。 我々は、IEEE IUS Ultra-SRチャレンジオーガナイザによって提供されるデータセットのランダムに選択されたフレームのサブセット上でネットワークを微調整し、残りはクロスバリデーションを用いてテストした。 シミュレーションデータセットでは,MBローカライゼーションのためのトランスフォーマーベースのソリューションの展開を高精度に支援する。

Ultrasound Localization Microscopy (ULM) is an emerging technique that employs the localization of echogenic microbubbles (MBs) to finely sample and image the microcirculation beyond the diffraction limit of ultrasound imaging. Conventional MB localization methods are mainly based on considering a specific Point Spread Function (PSF) for MBs, which leads to loss of information caused by overlapping MBs, non-stationary PSFs, and harmonic MB echoes. Therefore, it is imperative to devise methods that can accurately localize MBs while being resilient to MB nonlinearities and variations of MB concentrations that distort MB PSFs. This paper proposes a transformer-based MB localization approach to address this issue. We adopted DEtection TRansformer (DETR) arXiv:2005.12872 , which is an end-to-end object recognition method that detects a unique bounding box for each of the detected objects using set-based Hungarian loss and bipartite matching. To the authors' knowledge, this is the first time transformers have been used for MB localization. To appraise the proposed strategy, the pre-trained DETR network's performance has been tested for detecting MBs using transfer learning principles. We have fine-tuned the network on a subset of randomly selected frames of the dataset provided by the IEEE IUS Ultra-SR challenge organizers and then tested on the rest using cross-validation. For the simulation dataset, the paper supports the deployment of transformer-based solutions for MB localization at high accuracy.
翻訳日:2022-09-27 17:27:49 公開日:2022-09-23
# Deontic Meta-Rules

Deontic Meta-Rules ( http://arxiv.org/abs/2209.12655v1 )

ライセンス: Link先を確認
Francesco Olivieri, Guido Governatori, Matteo Cristani, Antonino Rotolo and Abdul Sattar(参考訳) 論理学におけるメタルール(すなわち他の規則を含む規則)の使用は、最近非単調な推論の設定において注目を集めている: この理論の(メタ)拡張を計算するための最初の論理形式化と効率的なアルゴリズムは、Olivieri et al (2021)で提案された。 結果として得られるロジックは、ポリシーをモデル化できるだけでなく、多くの法体系で発生するよく知られた側面にも対処できる。 私たちが提案したアプリケーション領域のメタルールをモデル化するために、Defeasible Logic(DL)の使用が検討されている。 この研究の行内では、上記の研究はメタルールの一般的な計算特性に焦点を絞らなかった。 本研究はこのギャップを2つの主要な貢献で埋める。 まず,(1)デファシブル・デオン論理とメタルールの2つの変種を紹介し,(1)デファシブル・メタ理論とデファシブル・デオン論理のデファシブル・メタ理論を表現し,(2)ルールの2つの異なるタイプのコンフリクトを紹介する。 第2に,両変種間の拡張を計算するための効率的なアルゴリズムを考案する。

The use of meta-rules in logic, i.e., rules whose content includes other rules, has recently gained attention in the setting of non-monotonic reasoning: a first logical formalisation and efficient algorithms to compute the (meta)-extensions of such theories were proposed in Olivieri et al (2021) This work extends such a logical framework by considering the deontic aspect. The resulting logic will not just be able to model policies but also tackle well-known aspects that occur in numerous legal systems. The use of Defeasible Logic (DL) to model meta-rules in the application area we just alluded to has been investigated. Within this line of research, the study mentioned above was not focusing on the general computational properties of meta-rules. This study fills this gap with two major contributions. First, we introduce and formalise two variants of Defeasible Deontic Logic with Meta-Rules to represent (1) defeasible meta-theories with deontic modalities, and (2) two different types of conflicts among rules: Simple Conflict Defeasible Deontic Logic, and Cautious Conflict Defeasible Deontic Logic. Second, we advance efficient algorithms to compute the extensions for both variants.
翻訳日:2022-09-27 17:18:37 公開日:2022-09-23
# 人間-ロボット・人間-ロボットインタラクションにおける語彙アライメントと学習ロボットの比較

Comparison of Lexical Alignment with a Teachable Robot in Human-Robot and Human-Human-Robot Interactions ( http://arxiv.org/abs/2209.11842v1 )

ライセンス: Link先を確認
Yuya Asano, Diane Litman, Mingzhi Yu, Nikki Lobczowski, Timothy Nokes-Malach, Adriana Kovashka, Erin Walker(参考訳) 話者は会話の振る舞いを互いに整合させる過程でラプポートを構築する。 ドメイン資料の指導中に教示可能なエージェントで囲まれたrapportは、学習を促進することが示されている。 教育分野における語彙的アライメントに関する過去の研究は、アライメントの定量化とエージェントとのアライメントを研究する際の相互作用のタイプの両方に制限がある。 本稿では,共有表現の概念に基づくアライメント手法を適用し,H-Rの1対1の人間-ロボット相互作用とH-Rの相互作用のアライメントを比較する。 h-r設定の学生は、h-h-r設定よりも教示可能なロボットと一致し、辞書アライメントとラプポートの関係は、従来の理論および経験的研究で予測されるよりも複雑である。

Speakers build rapport in the process of aligning conversational behaviors with each other. Rapport engendered with a teachable agent while instructing domain material has been shown to promote learning. Past work on lexical alignment in the field of education suffers from limitations in both the measures used to quantify alignment and the types of interactions in which alignment with agents has been studied. In this paper, we apply alignment measures based on a data-driven notion of shared expressions (possibly composed of multiple words) and compare alignment in one-on-one human-robot (H-R) interactions with the H-R portions of collaborative human-human-robot (H-H-R) interactions. We find that students in the H-R setting align with a teachable robot more than in the H-H-R setting and that the relationship between lexical alignment and rapport is more complex than what is predicted by previous theoretical and empirical work.
翻訳日:2022-09-27 17:16:28 公開日:2022-09-23
# 人間-AI意思決定における説明・公正・適切な信頼について

On Explanations, Fairness, and Appropriate Reliance in Human-AI Decision-Making ( http://arxiv.org/abs/2209.11812v1 )

ライセンス: Link先を確認
Jakob Schoeffer, Maria De-Arteaga, Niklas Kuehl(参考訳) 説明は、より良い、より公平な人間とAIの意思決定に欠かせない特徴だと考えられている。 フェアネスの文脈では、以前の著作が人々の知覚に与えた影響に基づいて説明を概ね評価しているため、これは適切に研究されていない。 しかし、公平な決定を促進するための説明のためには、人間が正しいAIレコメンデーションと間違ったAIレコメンデーションを識別できるようにしなければなりません。 概念的議論を検証するために, 説明, 公平感, 信頼行動の関係を調べるために, 経験的研究を行った。 以上の結果から,説明が人々の公正感に影響を及ぼすことが示唆された。 しかし、公平性の低い認識は、それが正しいか間違っているかに関わらず、aiの推奨をより過大評価することにつながると観察する。 これ (i)分配的公平性を高めるために既存の説明の有用性に疑問を呈し、 (二)適切な依存の代行として認識を混同してはいけない理由を重要視する。

Explanations have been framed as an essential feature for better and fairer human-AI decision-making. In the context of fairness, this has not been appropriately studied, as prior works have mostly evaluated explanations based on their effects on people's perceptions. We argue, however, that for explanations to promote fairer decisions, they must enable humans to discern correct and wrong AI recommendations. To validate our conceptual arguments, we conduct an empirical study to examine the relationship between explanations, fairness perceptions, and reliance behavior. Our findings show that explanations influence people's fairness perceptions, which, in turn, affect reliance. However, we observe that low fairness perceptions lead to more overrides of AI recommendations, regardless of whether they are correct or wrong. This (i) raises doubts about the usefulness of existing explanations for enhancing distributive fairness, and, (ii) makes an important case for why perceptions must not be confused as a proxy for appropriate reliance.
翻訳日:2022-09-27 17:09:41 公開日:2022-09-23
# 移動エージェント障害物回避のための安全な実世界の強化学習

Safe Real-World Reinforcement Learning for Mobile Agent Obstacle Avoidance ( http://arxiv.org/abs/2209.11789v1 )

ライセンス: Link先を確認
Mario Srouji, Wei Ding, Hubert Tsai, Ali Farhadi, Jian Zhang(参考訳) 衝突回避は、現実世界で安全に動く移動ロボットやエージェントにとって重要だ。 本研究では,実世界の強化学習(rl),検索に基づくオンライン軌道計画,自動緊急ブレーキ(aeb)などの自動緊急介入を組み合わせた,効率的かつ効果的な衝突回避システムを提案する。 rlの目的は、衝突のない軌道の探索をスピードアップする効果的な探索ヒューリスティックを学習し、自動緊急介入を引き起こす頻度を減らすことである。 この新しいセットアップにより、RLは実際の屋内環境における移動ロボットの安全かつ直接的に学習でき、訓練中であっても実際のクラッシュを最小限に抑えることができる。 実世界の実験では、いくつかのベースラインと比較すると、我々のアプローチは平均速度の向上、クラッシュ率の低下、目標到達率の向上、計算オーバーヘッドの削減、全体的な制御のスムーズさが示されている。

Collision avoidance is key for mobile robots and agents to operate safely in the real world. In this work, we present an efficient and effective collision avoidance system that combines real-world reinforcement learning (RL), search-based online trajectory planning, and automatic emergency intervention, e.g. automatic emergency braking (AEB). The goal of the RL is to learn effective search heuristics that speed up the search for collision-free trajectory and reduce the frequency of triggering automatic emergency interventions. This novel setup enables RL to learn safely and directly on mobile robots in a real-world indoor environment, minimizing actual crashes even during training. Our real-world experiments show that, when compared with several baselines, our approach enjoys a higher average speed, lower crash rate, higher goals reached rate, smaller computation overhead, and smoother overall control.
翻訳日:2022-09-27 16:58:07 公開日:2022-09-23
# 階層型プルーニングによる効率的な微分可能推論・認識型ニューラルネットワーク探索

Tiered Pruning for Efficient Differentialble Inference-Aware Neural Architecture Search ( http://arxiv.org/abs/2209.11785v1 )

ライセンス: Link先を確認
S{\l}awomir Kierat, Mateusz Sieniawski, Denys Fridman, Chen-Han Yu, Szymon Migacz, Pawe{\l} Morkisz, Alex-Fit Florea(参考訳) 提案手法は,DNAS (inference-aware Differentiable Neural Architecture Search) のコストと結果を改善するために提案される。 まず、内部の隠れた次元をメモリと計算の複雑さで探索できるDNASのための確率的双方向構築ブロックである 。 第2に,探索中にスーパーネットの確率層内でブロックを切断するアルゴリズムを提案する。 第3に,探索中に不要な確率層を刈り取る新しい手法について述べる。 検索から得られた最適化モデルはPruNetと呼ばれ、ImageNet Top-1画像分類精度の推論レイテンシの観点から、NVIDIA V100のための最先端のParetoフロンティアを確立する。 バックボーンとしてのPruNetは、平均精度(mAP)に対する推論遅延において、COCOオブジェクト検出タスクにおいてGPUNetとEfficientNetを上回っている。

We propose three novel pruning techniques to improve the cost and results of inference-aware Differentiable Neural Architecture Search (DNAS). First, we introduce , a stochastic bi-path building block for DNAS, which can search over inner hidden dimensions with memory and compute complexity. Second, we present an algorithm for pruning blocks within a stochastic layer of the SuperNet during the search. Third, we describe a novel technique for pruning unnecessary stochastic layers during the search. The optimized models resulting from the search are called PruNet and establishes a new state-of-the-art Pareto frontier for NVIDIA V100 in terms of inference latency for ImageNet Top-1 image classification accuracy. PruNet as a backbone also outperforms GPUNet and EfficientNet on the COCO object detection task on inference latency relative to mean Average Precision (mAP).
翻訳日:2022-09-27 16:51:43 公開日:2022-09-23
# 結晶特性予測のための周期グラフ変換器

Periodic Graph Transformers for Crystal Material Property Prediction ( http://arxiv.org/abs/2209.11807v1 )

ライセンス: Link先を確認
Keqiang Yan, Yi Liu, Yuchao Lin, Shuiwang Ji(参考訳) 結晶をコードする周期グラフの表現学習について検討する。 正則グラフとは異なり、周期グラフは3次元空間の正則格子上で自身を繰り返す最小単位セルからなる。 これらの周期構造を効果的にエンコードする方法は、正規グラフ表現学習に存在しないユニークな課題をもたらす。 E(3)不変であることに加えて、周期グラフ表現は周期不変である必要がある。 すなわち、学習された表現は、人工的に強制される細胞の境界の変化に不変であるべきである。 さらに、周期的な繰り返しパターンは、異なる大きさと向きの格子が異なる材料に対応するように明示的に捉える必要がある。 本研究では,周期グラフ表現学習のための変換器アーキテクチャであるMatformerを提案する。 私たちのMatformerは周期性に不変で、繰り返しパターンを明示的にキャプチャできるように設計されています。 特に、マトフォーマーは隣接する細胞の同じ原子間の幾何学的距離を効率的に利用することで周期パターンを符号化する。 複数の共通ベンチマークデータセットの実験結果から、我々のMatformerはベースラインメソッドを一貫して上回ります。 さらに, 結晶表現学習における周期的不変性と明示的な反復パターンエンコーディングの重要性を示す。

We consider representation learning on periodic graphs encoding crystal materials. Different from regular graphs, periodic graphs consist of a minimum unit cell repeating itself on a regular lattice in 3D space. How to effectively encode these periodic structures poses unique challenges not present in regular graph representation learning. In addition to being E(3) invariant, periodic graph representations need to be periodic invariant. That is, the learned representations should be invariant to shifts of cell boundaries as they are artificially imposed. Furthermore, the periodic repeating patterns need to be captured explicitly as lattices of different sizes and orientations may correspond to different materials. In this work, we propose a transformer architecture, known as Matformer, for periodic graph representation learning. Our Matformer is designed to be invariant to periodicity and can capture repeating patterns explicitly. In particular, Matformer encodes periodic patterns by efficient use of geometric distances between the same atoms in neighboring cells. Experimental results on multiple common benchmark datasets show that our Matformer outperforms baseline methods consistently. In addition, our results demonstrate the importance of periodic invariance and explicit repeating pattern encoding for crystal representation learning.
翻訳日:2022-09-27 16:51:31 公開日:2022-09-23
# 健康の社会的決定要因のコンパクトな領域の創出

Creating Compact Regions of Social Determinants of Health ( http://arxiv.org/abs/2209.11836v1 )

ライセンス: Link先を確認
Barrett Lattimer, Alan Lattimer(参考訳) 地域化とは、データセットを互いに異質な連続した均質な領域に分割する行為である。 地域化を行うための多くの異なるアルゴリズムが存在するが、大規模な実世界のデータセットでこれらのアルゴリズムを使用することは、近年計算能力の面でしか実現できない。 異なる地域化手法の比較研究はほとんど行われておらず、メモリ、スケーラビリティ、地理的メトリクス、大規模現実世界のアプリケーションの分析に欠ける。 本研究では,sdoh(real world social determinant of health)データを用いて,最先端の地域化手法,すなわち凝集クラスタリング,スケーター,redcap,azp,max-p-リージョンを比較した。 実世界のSDOHデータのスケールは、この研究で最大100万のデータポイントに達し、異なるデータセットのアルゴリズムを比較するだけでなく、各地域化アルゴリズムのストレステストを提供する。 我々は、アルゴリズムの比較や比較メモリ分析を行うために、いくつかの新しい地理的指標を使用する。 一般的な地域化手法は、バージニアとワシントンD.C.で実際の健康データを分離する能力に基づいて、制約のないK-Meansクラスタリングと比較される。

Regionalization is the act of breaking a dataset into contiguous homogeneous regions that are heterogeneous from each other. Many different algorithms exist for performing regionalization; however, using these algorithms on large real world data sets have only become feasible in terms of compute power in recent years. Very few studies have been done comparing different regionalization methods, and those that do lack analysis in memory, scalability, geographic metrics, and large-scale real-world applications. This study compares state-of-the-art regionalization methods, namely, Agglomerative Clustering, SKATER, REDCAP, AZP, and Max-P-Regions using real world social determinant of health (SDOH) data. The scale of real world SDOH data, up to 1 million data points in this study, not only compares the algorithms over different data sets but provides a stress test for each individual regionalization algorithm, most of which have never been run on such scales previously. We use several new geographic metrics to compare algorithms as well as perform a comparative memory analysis. The prevailing regionalization method is then compared with unconstrained K-Means clustering on their ability to separate real health data in Virginia and Washington DC.
翻訳日:2022-09-27 16:51:18 公開日:2022-09-23
# 注意結合ボリュームによる精度と効率のよいステレオマッチング

Accurate and Efficient Stereo Matching via Attention Concatenation Volume ( http://arxiv.org/abs/2209.12699v1 )

ライセンス: Link先を確認
Gangwei Xu, Yun Wang, Junda Cheng, Jinhui Tang, Xin Yang(参考訳) ステレオマッチングは多くのビジョンとロボティクスアプリケーションのための基本的なビルディングブロックである。 高い精度と効率のステレオマッチングには,情報的かつ簡潔なコストボリューム表現が不可欠である。 本稿では,相関手がかりから注意重みを発生させ,冗長な情報を抑圧し,連結量におけるマッチング関連情報を強化する新しいコストボリューム構築法である注意重み付け量(acv)を提案する。 ACVはほとんどのステレオマッチングネットワークにシームレスに埋め込み、その結果のネットワークはより軽量なアグリゲーションネットワークを使用し、高い精度を達成することができる。 ACVの高速バージョンであるFast-ACVを設計し、低分解能相関手がかりから高い確率差の仮説と対応する注意重みを生成し、計算とメモリのコストを大幅に削減し、良好な精度を維持する。 我々のFast-ACVのコアアイデアはボリュームアテンション伝搬(VAP)であり、アップサンプリングされた相関ボリュームから正確な相関値を自動で選択し、不明瞭な相関ヒントでそれらの正確な値を周辺ピクセルに伝搬する。 さらに,我々は,acv と fast-acv をベースとする高精度ネットワーク acvnet とリアルタイムネットワーク fast-acvnet をそれぞれ設計し,いくつかのベンチマークで最先端のパフォーマンスを実現している(すなわち,acvnet は kitti 2015 と scene flow で 2 位,kitti 2012 では 3 位,eth3d では 3 位,fast-acvnet では scene flow,kitti 2012 と 2015 で最先端のリアルタイムメソッドをほぼすべて上回っており,さらに一般化能力も向上している)。

Stereo matching is a fundamental building block for many vision and robotics applications. An informative and concise cost volume representation is vital for stereo matching of high accuracy and efficiency. In this paper, we present a novel cost volume construction method, named attention concatenation volume (ACV), which generates attention weights from correlation clues to suppress redundant information and enhance matching-related information in the concatenation volume. The ACV can be seamlessly embedded into most stereo matching networks, the resulting networks can use a more lightweight aggregation network and meanwhile achieve higher accuracy. We further design a fast version of ACV to enable real-time performance, named Fast-ACV, which generates high likelihood disparity hypotheses and the corresponding attention weights from low-resolution correlation clues to significantly reduce computational and memory cost and meanwhile maintain a satisfactory accuracy. The core idea of our Fast-ACV is volume attention propagation (VAP) which can automatically select accurate correlation values from an upsampled correlation volume and propagate these accurate values to the surroundings pixels with ambiguous correlation clues. Furthermore, we design a highly accurate network ACVNet and a real-time network Fast-ACVNet based on our ACV and Fast-ACV respectively, which achieve the state-of-the-art performance on several benchmarks (i.e., our ACVNet ranks the 2nd on KITTI 2015 and Scene Flow, and the 3rd on KITTI 2012 and ETH3D among all the published methods; our Fast-ACVNet outperforms almost all state-of-the-art real-time methods on Scene Flow, KITTI 2012 and 2015 and meanwhile has better generalization ability)
翻訳日:2022-09-27 16:31:51 公開日:2022-09-23
# 拡散復元モデルを用いたJPEGアーチファクト補正

JPEG Artifact Correction using Denoising Diffusion Restoration Models ( http://arxiv.org/abs/2209.11888v1 )

ライセンス: Link先を確認
Bahjat Kawar, Jiaming Song, Stefano Ermon, Michael Elad(参考訳) 拡散モデルは様々な逆問題を解くための学習前駆体として使うことができる。 しかし、既存のほとんどのアプローチは線形逆問題に制限されており、適用性はより一般的な場合に制限される。 本稿では,DDRM(Denoising Diffusion Restoration Models)に基づいて,非線形逆問題の解法を提案する。 我々は、DDRMで使用される擬似逆演算子を活用し、この概念を他の測定子に一般化し、JPEGアーティファクト補正などのアプリケーションに事前訓練された無条件拡散モデルを使用することを可能にした。 我々は,様々な品質要因にまたがるアプローチの有効性を実証的に示し,jpeg復元タスク用に特別に訓練された最先端の手法に匹敵する性能レベルを達成する。

Diffusion models can be used as learned priors for solving various inverse problems. However, most existing approaches are restricted to linear inverse problems, limiting their applicability to more general cases. In this paper, we build upon Denoising Diffusion Restoration Models (DDRM) and propose a method for solving some non-linear inverse problems. We leverage the pseudo-inverse operator used in DDRM and generalize this concept for other measurement operators, which allows us to use pre-trained unconditional diffusion models for applications such as JPEG artifact correction. We empirically demonstrate the effectiveness of our approach across various quality factors, attaining performance levels that are on par with state-of-the-art methods trained specifically for the JPEG restoration task.
翻訳日:2022-09-27 16:07:46 公開日:2022-09-23
# ディスクリプタ蒸留 : ローカルディスクリプタ学習のための教師学生正規化フレームワーク

Descriptor Distillation: a Teacher-Student-Regularized Framework for Learning Local Descriptors ( http://arxiv.org/abs/2209.11795v1 )

ライセンス: Link先を確認
Yuzhen Liu and Qiulei Dong(参考訳) 高速かつ識別可能なパッチ記述子を学ぶことは、コンピュータビジョンにおいて難しいトピックである。 近年では,各正対間の距離を小さくし,負対間の距離を増加させるトリプレットロス(あるいはその変種)を最小化することで,様々な記述型学習ネットワークのトレーニングに注目が集まっている。 しかし、ネットワークオプティマイザの局所解への非完全収束のため、そのような期待を下げなければならない。 この問題と計算速度の問題に対処し,DesDisと呼ばれるローカル記述子学習のための記述子蒸留フレームワークを提案する。 教師のモデルと生徒のモデルとの正の(かつ負の)対の類似性の違いを制約し、理論上、三重項損失とこの正規化子の重み付き組合せを、三重項損失を単独で最小化して訓練した教師よりも、より効果的な生徒モデルの訓練が可能であることを理論的に証明する。 提案されているdesdisでは、既存のディスクリプタネットワークを教師モデルとして組み込むことができ、それゆえ等級と軽量の学生モデルの両方を導出することができ、教師の正確さと速度のどちらよりも優れている。 3つの公開データセットに対する実験結果から,3つの典型的な記述子学習ネットワークを教師モデルとして利用することにより,提案したDesDisフレームワークから導出された同級生モデルが,教師や他の比較手法よりもはるかに優れたパフォーマンスを達成できることが示されている。 さらに、導出した軽量モデルは、類似のパッチ検証性能の下で比較法よりも8倍またはそれ以上高速に実現できる。

Learning a fast and discriminative patch descriptor is a challenging topic in computer vision. Recently, many existing works focus on training various descriptor learning networks by minimizing a triplet loss (or its variants), which is expected to decrease the distance between each positive pair and increase the distance between each negative pair. However, such an expectation has to be lowered due to the non-perfect convergence of network optimizer to a local solution. Addressing this problem and the open computational speed problem, we propose a Descriptor Distillation framework for local descriptor learning, called DesDis, where a student model gains knowledge from a pre-trained teacher model, and it is further enhanced via a designed teacher-student regularizer. This teacher-student regularizer is to constrain the difference between the positive (also negative) pair similarity from the teacher model and that from the student model, and we theoretically prove that a more effective student model could be trained by minimizing a weighted combination of the triplet loss and this regularizer, than its teacher which is trained by minimizing the triplet loss singly. Under the proposed DesDis, many existing descriptor networks could be embedded as the teacher model, and accordingly, both equal-weight and light-weight student models could be derived, which outperform their teacher in either accuracy or speed. Experimental results on 3 public datasets demonstrate that the equal-weight student models, derived from the proposed DesDis framework by utilizing three typical descriptor learning networks as teacher models, could achieve significantly better performances than their teachers and several other comparative methods. In addition, the derived light-weight models could achieve 8 times or even faster speeds than the comparative methods under similar patch verification performances
翻訳日:2022-09-27 15:56:54 公開日:2022-09-23
# 意図しない行動認識のための自己監督訓練の活用

Leveraging Self-Supervised Training for Unintentional Action Recognition ( http://arxiv.org/abs/2209.11870v1 )

ライセンス: Link先を確認
Enea Duka, Anna Kukleva, Bernt Schiele(参考訳) 意図しない行動は、正確に定義するのが困難で、行動の時間的文脈に大きく依存する稀な出来事である。 本研究では,意図的から意図的へ行動が移行するビデオのポイントを探索し,そのポイントを特定する。 本研究では,動き速度,動き方向,意図しない動作を認識するために,固有バイアスを利用する多段階フレームワークを提案する。 非意図的行動認識の課題に対する自己指導的訓練による表現を高めるために,非意図的行動の因果的バイアスの時間変換(T2IBUA)と呼ばれる時間変換を提案する。 多段階アプローチは、個々のフレームとフルクリップの両方の時間的情報をモデル化する。 これらの拡張表現は意図しない行動認識タスクに対して強い性能を示す。 我々は,我々の枠組みと報告結果の広範なアブレーション研究を行い,最新技術よりも大幅に改善した。

Unintentional actions are rare occurrences that are difficult to define precisely and that are highly dependent on the temporal context of the action. In this work, we explore such actions and seek to identify the points in videos where the actions transition from intentional to unintentional. We propose a multi-stage framework that exploits inherent biases such as motion speed, motion direction, and order to recognize unintentional actions. To enhance representations via self-supervised training for the task of unintentional action recognition we propose temporal transformations, called Temporal Transformations of Inherent Biases of Unintentional Actions (T2IBUA). The multi-stage approach models the temporal information on both the level of individual frames and full clips. These enhanced representations show strong performance for unintentional action recognition tasks. We provide an extensive ablation study of our framework and report results that significantly improve over the state-of-the-art.
翻訳日:2022-09-27 15:56:20 公開日:2022-09-23
# 自己学習に基づく非教師付きクロスモーダル前庭腺腫とコチェリーセグメンテーションのためのデータの多様性向上

Enhancing Data Diversity for Self-training Based Unsupervised Cross-modality Vestibular Schwannoma and Cochlea Segmentation ( http://arxiv.org/abs/2209.11879v1 )

ライセンス: Link先を確認
Han Liu, Yubo Fan, Benoit M. Dawant(参考訳) 磁気共鳴画像(MRI)による前庭神経根腫(VS)と後頭葉の自動分離は、VS治療計画を容易にする。 教師なしセグメンテーション法は、時間と手間のかかる手動ラベリングプロセスを必要とせず、有望な結果を示している。 本稿では,教師なし領域適応設定において,vs と cochlea のセグメンテーションを行う手法を提案する。 具体的には,まず,合成データの多様性を高めるために,クロスサイト・クロスモダリティ・アンペア画像翻訳戦略を開発した。 そして、ドメインギャップをさらに最小化するルールベースのオフライン拡張手法を考案する。 最後に,自己学習による自己構成セグメンテーションフレームワークを採用し,最終的な結果を得た。 CrossMoDA 2022バリデーションリーダーボードでは,VSとcochleaセグメンテーションの競合性能が0.8178$\pm$0.0803と0.8433$\pm$0.0293で達成されている。

Automatic segmentation of vestibular schwannoma (VS) and the cochlea from magnetic resonance imaging (MRI) can facilitate VS treatment planning. Unsupervised segmentation methods have shown promising results without requiring the time-consuming and laborious manual labeling process. In this paper, we present an approach for VS and cochlea segmentation in an unsupervised domain adaptation setting. Specifically, we first develop a cross-site cross-modality unpaired image translation strategy to enrich the diversity of the synthesized data. Then, we devise a rule-based offline augmentation technique to further minimize the domain gap. Lastly, we adopt a self-configuring segmentation framework empowered by self-training to obtain the final results. On the CrossMoDA 2022 validation leaderboard, our method has achieved competitive VS and cochlea segmentation performance with mean dice scores of 0.8178 $\pm$ 0.0803 and 0.8433 $\pm$ 0.0293, respectively.
翻訳日:2022-09-27 15:56:05 公開日:2022-09-23
# KeypartX: グラフベースの知覚(テキスト)表現

KeypartX: Graph-based Perception (Text) Representation ( http://arxiv.org/abs/2209.11844v1 )

ライセンス: Link先を確認
Peng Yang(参考訳) ビッグデータが利用可能になったことで、個人や企業、そして学者が、自分たちの世界で起きていることを大きく見る大きな機会が開かれた。 以前のテキスト表現は、大語彙の頻度や共起からの情報性に重点が置かれていた。 しかし、ビッグデータは、ボリュームは大きいがフォーマットは構造化されていない二重刃の剣である。 構造化されていないエッジは、情報のみではなく「大きな」を意味のあるものにする特定の技術を必要とする。 本研究は、音声のキー部分による知覚(テキスト全般)を表現するグラフベースのアプローチであるKeypartXを提案する。 bag-of-words/vector-based machine learningとは異なり、この技術は言語情報(セマンティック、構文、実用的な)から意味を抽出する人間のような学習である。 さらに、KeypartXはビッグデータ能力があるが空腹ではないため、最小単位のテキスト:文にも適用できる。

The availability of big data has opened up big opportunities for individuals, businesses and academics to view big into what is happening in their world. Previous works of text representation mostly focused on informativeness from massive words' frequency or cooccurrence. However, big data is a double-edged sword which is big in volume but unstructured in format. The unstructured edge requires specific techniques to transform 'big' into meaningful instead of informative alone. This study presents KeypartX, a graph-based approach to represent perception (text in general) by key parts of speech. Different from bag-of-words/vector-based machine learning, this technique is human-like learning that could extracts meanings from linguistic (semantic, syntactic and pragmatic) information. Moreover, KeypartX is big-data capable but not hungry, which is even applicable to the minimum unit of text:sentence.
翻訳日:2022-09-27 15:38:44 公開日:2022-09-23
# Cem Mil Podcasts:ポルトガルの文書会社

Cem Mil Podcasts: A Spoken Portuguese Document Corpus ( http://arxiv.org/abs/2209.11871v1 )

ライセンス: Link先を確認
Edgar Tanaka, Ann Clifton, Joana Correia, Sharmistha Jat, Rosie Jones, Jussi Karlgren, Winstead Zhu(参考訳) 学術研究目的でSpotifyがリリースしたポルトガル語ポッドキャストデータセットについて説明する。 ブラジルとポルトガルの方言における分布の簡単な情報だけでなく、サンプルデータの概要、コレクションに関するいくつかの基本的な統計について概説する。

This document describes the Portuguese language podcast dataset released by Spotify for academic research purposes. We give an overview of how the data was sampled, some basic statistics over the collection, as well as brief information of distribution over Brazilian and Portuguese dialects.
翻訳日:2022-09-27 15:38:30 公開日:2022-09-23
# 適応メタ学習による行動予測の展開範囲の拡大

Expanding the Deployment Envelope of Behavior Prediction via Adaptive Meta-Learning ( http://arxiv.org/abs/2209.11820v1 )

ライセンス: Link先を確認
Boris Ivanovic, James Harrison, Marco Pavone(参考訳) 学習に基づく行動予測手法は、例えば、世界中の主要都市で商業的に運用され始めている自動運転車の群れに、現実の自律システムに展開されつつある。 しかし、その進歩にもかかわらず、ほとんどの予測システムは、拡張された地理的領域または運用設計ドメインに特化しており、追加の都市、国、大陸への配備を複雑にしている。 そこで本研究では,行動予測モデルを新しい環境に適用するための新しい手法を提案する。 提案手法は,最近のメタラーニング,特にベイズ回帰の進歩を活かし,オフラインの微調整やオンライン適応などによる効率的なドメイン転送を可能にする適応層により,既存の行動予測モデルを強化している。 複数の実世界のデータセットにまたがる実験により、我々の手法は様々な未知の環境に効率的に適応できることを示した。

Learning-based behavior prediction methods are increasingly being deployed in real-world autonomous systems, e.g., in fleets of self-driving vehicles, which are beginning to commercially operate in major cities across the world. Despite their advancements, however, the vast majority of prediction systems are specialized to a set of well-explored geographic regions or operational design domains, complicating deployment to additional cities, countries, or continents. Towards this end, we present a novel method for efficiently adapting behavior prediction models to new environments. Our approach leverages recent advances in meta-learning, specifically Bayesian regression, to augment existing behavior prediction models with an adaptive layer that enables efficient domain transfer via offline fine-tuning, online adaptation, or both. Experiments across multiple real-world datasets demonstrate that our method can efficiently adapt to a variety of unseen environments.
翻訳日:2022-09-27 15:30:52 公開日:2022-09-23
# 電力網の電力線通信における新しいデータの可能性の活用

Leveraging the Potential of Novel Data in Power Line Communication of Electricity Grids ( http://arxiv.org/abs/2209.12693v1 )

ライセンス: Link先を確認
Christoph Balada, Max Bondorf, Sheraz Ahmed, Andreas Dengela, Markus Zdrallek(参考訳) 電力網は、たとえ日常的に意識されていなくても、日常生活の重要な部分となっている。 私たちは通常、電力網が使えなくなるまでには、この依存に特に気付くだけです。 しかし、再生可能エネルギー(太陽光発電、風力タービンなど)への移行や、複雑な負荷プロファイル(電気自動車、家庭用バッテリーシステムなど)を持つエネルギー消費の増加といった大きな変化は、電力網に新たな課題をもたらしている。 これらの課題に対処するために,ブロードバンド電力線通信(plc)インフラにおける計測に基づく2つの最初のits-kindデータセットを提案する。 両方のデータセットFiN-1とFiN-2は、約440万人を供給し、5100以上のセンサーで収集された13億以上のデータポイントを示すドイツの低電圧グリッドの一部で実際に使用中に収集された。 さらに, 資産管理, グリッド状態の可視化, 予測, 予測保守, 新規性検出において, この種のデータの利点を浮き彫りにするために, さまざまなユースケースを提示する。 これらのアプリケーションでは、従来のアプローチでは捉えられない実世界のデータからリッチな情報を抽出するために、新しい機械学習アーキテクチャを使うことを特に強調する。 最初の大規模実世界のデータセットを公開することで、これまで認識されていなかったPLCデータの可能性に光を当て、さまざまなユースケースを提示して低電圧分布ネットワークにおける機械学習に基づく研究を強調することを目指している。

Electricity grids have become an essential part of daily life, even if they are often not noticed in everyday life. We usually only become particularly aware of this dependence by the time the electricity grid is no longer available. However, significant changes, such as the transition to renewable energy (photovoltaic, wind turbines, etc.) and an increasing number of energy consumers with complex load profiles (electric vehicles, home battery systems, etc.), pose new challenges for the electricity grid. To address these challenges, we propose two first-of-its-kind datasets based on measurements in a broadband powerline communications (PLC) infrastructure. Both datasets FiN-1 and FiN-2, were collected during real practical use in a part of the German low-voltage grid that supplies around 4.4 million people and show more than 13 billion datapoints collected by more than 5100 sensors. In addition, we present different use cases in asset management, grid state visualization, forecasting, predictive maintenance, and novelty detection to highlight the benefits of these types of data. For these applications, we particularly highlight the use of novel machine learning architectures to extract rich information from real-world data that cannot be captured using traditional approaches. By publishing the first large-scale real-world dataset, we aim to shed light on the previously largely unrecognized potential of PLC data and emphasize machine-learning-based research in low-voltage distribution networks by presenting a variety of different use cases.
翻訳日:2022-09-27 15:23:29 公開日:2022-09-23
# ダブルフェアなダイナミック価格

Doubly Fair Dynamic Pricing ( http://arxiv.org/abs/2209.11837v1 )

ライセンス: Link先を確認
Jianyu Xu, Dan Qiao, Yu-Xiang Wang(参考訳) 提案する価格が異なるグループ間で同等であるように要求する「手続き的公正性」と、受け入れられた価格が異なるグループ間で同等であるように要求する「実質的公正性」という2つの制約により、オンラインの動的価格問題を研究する。 同時に手続き的かつ実質的な公正である政策は「二重公正」と呼ばれる。 2倍の公正な政策は、異なるグループに同じ価格を割り当てる最も自明な政策よりも高い収益を得るためにランダムでなければならない。 2-グループ設定では,$\tilde{o}(\sqrt{t})$ regret, zero procedural unfairness, $\tilde{o}(\sqrt{t})$ substantive unfairness over$t$ の学習を実現する2-グループ価格問題に対するオンライン学習アルゴリズムを提案する。 また,後悔と不公平に関する結果が,反復的対数要因まで情報理論上最適であることを示す2つの下限を証明した。 我々の知る限りでは、これは2つの公正性制約を同時に満たしながら価格を学習する最初の動的価格アルゴリズムである。

We study the problem of online dynamic pricing with two types of fairness constraints: a "procedural fairness" which requires the proposed prices to be equal in expectation among different groups, and a "substantive fairness" which requires the accepted prices to be equal in expectation among different groups. A policy that is simultaneously procedural and substantive fair is referred to as "doubly fair". We show that a doubly fair policy must be random to have higher revenue than the best trivial policy that assigns the same price to different groups. In a two-group setting, we propose an online learning algorithm for the 2-group pricing problems that achieves $\tilde{O}(\sqrt{T})$ regret, zero procedural unfairness and $\tilde{O}(\sqrt{T})$ substantive unfairness over $T$ rounds of learning. We also prove two lower bounds showing that these results on regret and unfairness are both information-theoretically optimal up to iterated logarithmic factors. To the best of our knowledge, this is the first dynamic pricing algorithm that learns to price while satisfying two fairness constraints at the same time.
翻訳日:2022-09-27 15:22:34 公開日:2022-09-23
# タイターなバリエーション境界は必要以上に良くない。 実装, アブレーション研究, 拡張に関する調査報告

Tighter Variational Bounds are Not Necessarily Better. A Research Report on Implementation, Ablation Study, and Extensions ( http://arxiv.org/abs/2209.11875v1 )

ライセンス: Link先を確認
Amine M'Charrak, V\'it R\r{u}\v{z}i\v{c}ka, Sangyun Shin, Madhu Vankadari(参考訳) 本報告は, "tighter variational bounds are not better" (t rainforth et al., 2018) で示された作品を解説し,実装し,拡張する。 重要重み付きオートエンコーダ(Burda et al., 2016)における重要サンプル数$K$の増加は、推定ネットワークにおける勾配推定器の信号-雑音比(SNR)を低下させ、完全な学習プロセスに影響を与えるという理論的および実証的な証拠を提供する。 言い換えると、k$の増加は勾配の標準偏差を減少させるが、真の勾配の大きさを速くし、勾配更新の相対的ばらつきを増加させる。 大規模な実験は、K$の重要性を理解するために行われる。 これらの実験は、より強固な変分境界が生成ネットワークに有益であることを示唆しているが、一方、ゆるい境界は推論ネットワークに好ましい。 これらの知見により、部分重み付きオートエンコーダ(PIWAE)、乗算重み付きオートエンコーダ(MIWAE)、重み付きオートエンコーダ(CIWAE)の3つの手法が実装され研究されている。 これらの3つの手法はそれぞれ、IWAEを特別なケースとして含むが、勾配推定器のより高いSNRを保証するために、異なる方法で重要な重みを用いる。 本研究および分析では,MNISTやOmniglotなどの複数のデータセットに対して,これらのアルゴリズムの有効性を検証した。 最後に,提案する3つの変種は,岩絵生成ネットワークの性能にマッチするか,あるいはピワエの場合よりも優れている可能性があるにもかかわらず,岩絵の真の後続分布に非常に近い近似後続分布を生成できることを実証した。

This report explains, implements and extends the works presented in "Tighter Variational Bounds are Not Necessarily Better" (T Rainforth et al., 2018). We provide theoretical and empirical evidence that increasing the number of importance samples $K$ in the importance weighted autoencoder (IWAE) (Burda et al., 2016) degrades the signal-to-noise ratio (SNR) of the gradient estimator in the inference network and thereby affecting the full learning process. In other words, even though increasing $K$ decreases the standard deviation of the gradients, it also reduces the magnitude of the true gradient faster, thereby increasing the relative variance of the gradient updates. Extensive experiments are performed to understand the importance of $K$. These experiments suggest that tighter variational bounds are beneficial for the generative network, whereas looser bounds are preferable for the inference network. With these insights, three methods are implemented and studied: the partially importance weighted autoencoder (PIWAE), the multiply importance weighted autoencoder (MIWAE) and the combination importance weighted autoencoder (CIWAE). Each of these three methods entails IWAE as a special case but employs the importance weights in different ways to ensure a higher SNR of the gradient estimators. In our research study and analysis, the efficacy of these algorithms is tested on multiple datasets such as MNIST and Omniglot. Finally, we demonstrate that the three presented IWAE variations are able to generate approximate posterior distributions that are much closer to the true posterior distribution than for the IWAE, while matching the performance of the IWAE generative network or potentially outperforming it in the case of PIWAE.
翻訳日:2022-09-27 15:22:08 公開日:2022-09-23
# スマートドアに向けて:位置用紙

Toward Smart Doors: A Position Paper ( http://arxiv.org/abs/2209.11770v1 )

ライセンス: Link先を確認
Luigi Capogrosso, Geri Skenderi, Federico Girella, Franco Fummi, Marco Cristani(参考訳) 従来の自動ドアは、ドアを通ろうとする人とドアを通ろうとする人とを区別できないため、不要に開くことが多い。 これにより、商用と非商用の両方の環境で新しいシステムを採用する必要がある。 特に、スマートドアシステムは、周囲の環境の社会的文脈に基づいて、ドアの近くにいる人々の意図を予測し、ドアを開くかどうかを合理的に判断する。 本研究は、鐘や笛を使わずにスマートドアに関する最初の位置紙を提案する。 この問題は、信頼性、気候制御、安全性、運用モードに限った問題である、と最初に指摘する。 実際、ドアの近くにいる人々の意図を予測するシステムは、プロキソミクスとシーン推論の複雑な組み合わせ分析を通じて、シーンの社会的文脈をより深く理解することを含む。 さらに,自動ドアに関する文献を網羅的にレビューし,新しいシステム構成を提供する。 また,スマートドアの今後の応用の可能性,倫理的欠点の説明,立法的問題についても分析を行った。

Conventional automatic doors cannot distinguish between people wishing to pass through the door and people passing by the door, so they often open unnecessarily. This leads to the need to adopt new systems in both commercial and non-commercial environments: smart doors. In particular, a smart door system predicts the intention of people near the door based on the social context of the surrounding environment and then makes rational decisions about whether or not to open the door. This work proposes the first position paper related to smart doors, without bells and whistles. We first point out that the problem not only concerns reliability, climate control, safety, and mode of operation. Indeed, a system to predict the intention of people near the door also involves a deeper understanding of the social context of the scene through a complex combined analysis of proxemics and scene reasoning. Furthermore, we conduct an exhaustive literature review about automatic doors, providing a novel system formulation. Also, we present an analysis of the possible future application of smart doors, a description of the ethical shortcomings, and legislative issues.
翻訳日:2022-09-27 15:14:22 公開日:2022-09-23
# M2TRec:大規模・コールドスタートフリーセッションベース勧告のためのメタデータ対応マルチタスクトランス

M2TRec: Metadata-aware Multi-task Transformer for Large-scale and Cold-start free Session-based Recommendations ( http://arxiv.org/abs/2209.11824v1 )

ライセンス: Link先を確認
Walid Shalaby, Sejoon Oh, Amir Afsharinejad, Srijan Kumar, Xiquan Cui(参考訳) セッションベース推薦システム(SBRS)は従来の手法よりも優れた性能を示した。 しかし、ほとんどのモデルはアイテム毎の埋め込みを学習するため、大規模産業データセットではスケーラビリティが制限されている。 これにより、(アイテム毎に1つのベクトルを格納する)大きなメモリ要件と、コールドスタートや不人気なアイテムによるスパースセッションのパフォーマンスが低下する。 1つのパブリックデータセットと1つの大規模産業データセットを用いて、スパースアイテムを用いたスパースセッションにおける最先端SBRSの性能が低いことを示す。 セッションベースレコメンデーションのためのメタデータ対応マルチタスクトランスフォーマモデルであるM2TRecを提案する。 提案手法は,アイテムメタデータから埋め込みへの変換関数を学習し,アイテムIDをフリーにする(つまり,アイテム毎の埋め込みを学習する必要がない)。 アイテムメタデータを統合して、さまざまなアイテム属性の共有表現を学習する。 推論の間、新規または不人気なアイテムは、トレーニング中に観測されたアイテムと共有する属性の同一表現に割り当てられるので、これらのアイテムと類似の表現を持ち、コールドスタートやスパースアイテムさえも推奨できる。 さらに、M2TRecはマルチタスク設定でトレーニングされ、セッションの次の項目と主要なカテゴリとサブカテゴリを予測する。 私たちのマルチタスク戦略はモデルをより早く収束させ、全体的なパフォーマンスを大幅に改善します。 実験の結果,2つのデータセットのスパース項目に対する提案手法による性能向上が得られた。

Session-based recommender systems (SBRSs) have shown superior performance over conventional methods. However, they show limited scalability on large-scale industrial datasets since most models learn one embedding per item. This leads to a large memory requirement (of storing one vector per item) and poor performance on sparse sessions with cold-start or unpopular items. Using one public and one large industrial dataset, we experimentally show that state-of-the-art SBRSs have low performance on sparse sessions with sparse items. We propose M2TRec, a Metadata-aware Multi-task Transformer model for session-based recommendations. Our proposed method learns a transformation function from item metadata to embeddings, and is thus, item-ID free (i.e., does not need to learn one embedding per item). It integrates item metadata to learn shared representations of diverse item attributes. During inference, new or unpopular items will be assigned identical representations for the attributes they share with items previously observed during training, and thus will have similar representations with those items, enabling recommendations of even cold-start and sparse items. Additionally, M2TRec is trained in a multi-task setting to predict the next item in the session along with its primary category and subcategories. Our multi-task strategy makes the model converge faster and significantly improves the overall performance. Experimental results show significant performance gains using our proposed approach on sparse items on the two datasets.
翻訳日:2022-09-27 15:14:07 公開日:2022-09-23
# 急速サブタイピングのためのソフトラベル戦略

Soft-labeling Strategies for Rapid Sub-Typing ( http://arxiv.org/abs/2209.12684v1 )

ライセンス: Link先を確認
Grant Rosario, David Noever, and Matt Ciolino(参考訳) コンピュータビジョンのための大規模なサンプルデータセットのラベル付けという課題は、画像リポジトリの可用性と範囲を制限し続ける。 本研究は,衛星画像や物体検出のオーバーヘッドに対して,人間の介入を最小限に抑えたデータ収集,キュレーション,ラベル付け,反復訓練を行う新しい手法を提供する。 新しい運用スケールは、グリッドサーチで都市全体(68平方マイル)を効果的にスキャンし、宇宙観測から車の色を予測した。 部分的に訓練されたyolov5モデルは、反復サイクルでさらに洗練されたモデル予測を出力するための初期推論シードとして機能した。 ここでのソフトラベリングは、ラベルノイズを受け入れることを、過剰フィッティングを減らし、以前目にしたテストデータに対する一般化された予測を強化する上で、潜在的に価値のある拡張であることを意味する。 このアプローチは、車の収穫された画像がピクセル値だけで白やカラフルのサブタイプ情報を自動受信できる現実世界のインスタンスを活用し、人間の労働を過度に依存せずにエンドツーエンドのパイプラインを完成させる。

The challenge of labeling large example datasets for computer vision continues to limit the availability and scope of image repositories. This research provides a new method for automated data collection, curation, labeling, and iterative training with minimal human intervention for the case of overhead satellite imagery and object detection. The new operational scale effectively scanned an entire city (68 square miles) in grid search and yielded a prediction of car color from space observations. A partially trained yolov5 model served as an initial inference seed to output further, more refined model predictions in iterative cycles. Soft labeling here refers to accepting label noise as a potentially valuable augmentation to reduce overfitting and enhance generalized predictions to previously unseen test data. The approach takes advantage of a real-world instance where a cropped image of a car can automatically receive sub-type information as white or colorful from pixel values alone, thus completing an end-to-end pipeline without overdependence on human labor.
翻訳日:2022-09-27 15:05:41 公開日:2022-09-23
# 3次元点雲の深部異常検出のための複合層

Composite Layers for Deep Anomaly Detection on 3D Point Clouds ( http://arxiv.org/abs/2209.11796v1 )

ライセンス: Link先を確認
Alberto Floris, Luca Frittoli, Diego Carrera, Giacomo Boracchi(参考訳) 深層ニューラルネットワークは、点の散乱した不規則な位置が、畳み込みフィルタの使用を妨げているため、点雲を処理するために特定の層を必要とする。 ここでは、点雲の新しい畳み込み演算子である複合層を紹介する。 複合層の特徴は,空間情報を点の位置から抽出・圧縮し,それらの特徴ベクトルと組み合わせることである。 ConvPointやKPConvのようなよく知られたポイント畳み込み層と比較して、我々の複合層はさらなる正規化を提供し、設計やパラメータの数の観点から柔軟性を保証します。 設計の柔軟性を示すために,空間情報と特徴を非線形に組み合わせた集合複合層を定義し,これらの層を用いて畳み込みと集合複合ネットを実装した。 コンポジットネットを訓練して分類を行い、最も驚くべきことに、教師なし異常検出を行う。 合成および実世界のデータセットに関する我々の実験は、両方のタスクにおいて、CompositeNetsがConvPointより優れており、より単純なアーキテクチャにもかかわらず、KPConvと同じような結果が得られることを示している。 さらに,我々のコンポジットネットは,ポイントクラウド上の異常検出のための既存のソリューションを実質的に上回っている。

Deep neural networks require specific layers to process point clouds, as the scattered and irregular location of points prevents us from using convolutional filters. Here we introduce the composite layer, a new convolutional operator for point clouds. The peculiarity of our composite layer is that it extracts and compresses the spatial information from the position of points before combining it with their feature vectors. Compared to well-known point-convolutional layers such as those of ConvPoint and KPConv, our composite layer provides additional regularization and guarantees greater flexibility in terms of design and number of parameters. To demonstrate the design flexibility, we also define an aggregate composite layer that combines spatial information and features in a nonlinear manner, and we use these layers to implement a convolutional and an aggregate CompositeNet. We train our CompositeNets to perform classification and, most remarkably, unsupervised anomaly detection. Our experiments on synthetic and real-world datasets show that, in both tasks, our CompositeNets outperform ConvPoint and achieve similar results as KPConv despite having a much simpler architecture. Moreover, our CompositeNets substantially outperform existing solutions for anomaly detection on point clouds.
翻訳日:2022-09-27 14:56:14 公開日:2022-09-23
# フィードバックのないhebbian deep learning

Hebbian Deep Learning Without Feedback ( http://arxiv.org/abs/2209.11883v1 )

ライセンス: Link先を確認
Adrien Journ\'e, Hector Garcia Rodriguez, Qinghai Guo, Timoleon Moraitis(参考訳) 近年のバックプロパゲーション(BP)に対する近似は、BPの計算的非効率性や生物学との非互換性の多くを緩和しているが、重要な制限は依然として残っている。 さらに、この近似はベンチマークの精度を著しく低下させ、全く異なるアプローチがより実りある可能性を示唆している。 ここでは,ソフト・ウィナー・テイク・オール・ネットワークにおける最近のヘビー学習理論を基礎として,多層型ソフトヘビー,すなわち,フィードバックや目標,エラー信号なしにディープニューラルネットワークを訓練するアルゴリズムを提案する。 結果として、重量輸送、非局所的な塑性、レイヤ更新の時間ロック、反復平衡、(自己)監督など他のアプローチで必要とされたフィードバック信号などを回避することで効率を向上する。 効率の向上と生体適合性は、最先端のバイオ・プルーシブル・ラーニングよりも正確さをトレードオフするものではなく、改善する。 最大5つの隠蔽層と線形分類器、MNIST、CIFAR-10、STL-10、ImageNetのアキュラシーはそれぞれ99.4%、80.3%、76.2%、27.3%に達する。 結論として、SoftHebbはBPとは大きく異なるアプローチで、Deep Learningは少数の層で脳内でもっとも有用であり、生物解析可能な機械学習の精度を高める可能性があることを示している。

Recent approximations to backpropagation (BP) have mitigated many of BP's computational inefficiencies and incompatibilities with biology, but important limitations still remain. Moreover, the approximations significantly decrease accuracy in benchmarks, suggesting that an entirely different approach may be more fruitful. Here, grounded on recent theory for Hebbian learning in soft winner-take-all networks, we present multilayer SoftHebb, i.e. an algorithm that trains deep neural networks, without any feedback, target, or error signals. As a result, it achieves efficiency by avoiding weight transport, non-local plasticity, time-locking of layer updates, iterative equilibria, and (self-) supervisory or other feedback signals -- which were necessary in other approaches. Its increased efficiency and biological compatibility do not trade off accuracy compared to state-of-the-art bio-plausible learning, but rather improve it. With up to five hidden layers and an added linear classifier, accuracies on MNIST, CIFAR-10, STL-10, and ImageNet, respectively reach 99.4%, 80.3%, 76.2%, and 27.3%. In conclusion, SoftHebb shows with a radically different approach from BP that Deep Learning over few layers may be plausible in the brain and increases the accuracy of bio-plausible machine learning.
翻訳日:2022-09-27 14:29:17 公開日:2022-09-23
# マルチチョイス質問生成:自動評価フレームワークに向けて

Multiple-Choice Question Generation: Towards an Automated Assessment Framework ( http://arxiv.org/abs/2209.11830v1 )

ライセンス: Link先を確認
Vatsal Raina and Mark Gales(参考訳) 自動質問生成は、英語理解評価のパーソナライズを可能にする重要なアプローチである。 近年,トランスフォーマティブ型事前学習言語モデルが,文脈段落から適切な質問を生成できることを実証している。 通常、これらのシステムは、n-gramベースのメトリクスまたは手動定性評価を用いて、手動で生成された質問の参照セットに対して評価される。 本稿では,質問文と可能な回答の両方を文脈段落から生成しなければならない完全自動複数選択質問生成システム(MCQG)に焦点を当てる。 n-gramベースのアプローチを適用することは、参照セットがあらゆる可能な質問や解答オプションをキャプチャする可能性は低いため、この形式のシステムでは困難である。 逆に手作業による評価はスケールが悪く、mcqgシステム開発には費用がかかる。 そこで本研究では,興味のある複数の質問の異なる側面を評価する一連の性能基準を提案する。 文法的正しさ、答え可能性、多様性、複雑さ。 各メトリクスの初期システムについて記述し、標準の複数選択読解コーパスで個別に評価する。

Automated question generation is an important approach to enable personalisation of English comprehension assessment. Recently, transformer-based pretrained language models have demonstrated the ability to produce appropriate questions from a context paragraph. Typically, these systems are evaluated against a reference set of manually generated questions using n-gram based metrics, or manual qualitative assessment. Here, we focus on a fully automated multiple-choice question generation (MCQG) system where both the question and possible answers must be generated from the context paragraph. Applying n-gram based approaches is challenging for this form of system as the reference set is unlikely to capture the full range of possible questions and answer options. Conversely manual assessment scales poorly and is expensive for MCQG system development. In this work, we propose a set of performance criteria that assess different aspects of the generated multiple-choice questions of interest. These qualities include: grammatical correctness, answerability, diversity and complexity. Initial systems for each of these metrics are described, and individually evaluated on standard multiple-choice reading comprehension corpora.
翻訳日:2022-09-27 14:19:20 公開日:2022-09-23
# Emb-GAM:事前学習言語モデルを用いた解釈可能かつ効率的な予測器

Emb-GAM: an Interpretable and Efficient Predictor using Pre-trained Language Models ( http://arxiv.org/abs/2209.11799v1 )

ライセンス: Link先を確認
Chandan Singh, Jianfeng Gao(参考訳) ディープラーニングモデルは印象的な予測性能を達成したが、医療や政策立案といった高度な領域において重要な考慮事項である解釈可能性の犠牲になることが多い。 対照的に、一般化加法モデル(GAM)は解釈可能性を維持することができるが、しばしば特徴的相互作用を効果的に捉えることができないために予測性能が低下する。 本研究では,事前学習されたニューラルネットワークモデルを用いて,埋め込み空間で線形モデルを学ぶ前に,各入力に対する埋め込みを抽出することで,このギャップを埋めることを目的とする。 最終的なモデル(Emb-GAMと呼ぶ)は、入力機能と機能相互作用の透明で線形な関数である。 言語モデルを活用することで、Emb-GAMは、はるかに少ない線形係数を学習し、より大きな相互作用をモデル化し、新しい入力(例えば、テキストで見えないnグラム)にうまく一般化することができる。 さまざまな自然言語処理データセットにわたって、Emb-GAMは、解釈性を犠牲にすることなく、強い予測性能を達成する。 すべてのコードはgithubから入手できる。

Deep learning models have achieved impressive prediction performance but often sacrifice interpretability, a critical consideration in high-stakes domains such as healthcare or policymaking. In contrast, generalized additive models (GAMs) can maintain interpretability but often suffer from poor prediction performance due to their inability to effectively capture feature interactions. In this work, we aim to bridge this gap by using pre-trained neural language models to extract embeddings for each input before learning a linear model in the embedding space. The final model (which we call Emb-GAM) is a transparent, linear function of its input features and feature interactions. Leveraging the language model allows Emb-GAM to learn far fewer linear coefficients, model larger interactions, and generalize well to novel inputs (e.g. unseen ngrams in text). Across a variety of natural-language-processing datasets, Emb-GAM achieves strong prediction performance without sacrificing interpretability. All code is made available on Github.
翻訳日:2022-09-27 14:02:30 公開日:2022-09-23
# ワドユニット? 著者帰属のためのコントラストの学習

Whodunit? Learning to Contrast for Authorship Attribution ( http://arxiv.org/abs/2209.11887v1 )

ライセンス: Link先を確認
Bo Ai, Yuchen Wang, Yugin Tan, Samson Tan(参考訳) authorship attributionは、与えられたテキストの作者を特定するタスクである。 既存のアプローチのほとんどは、データセットの内容とスタイルをキャプチャする手動で設計された機能を使用する。 しかし、このデータセット依存のアプローチは一貫性のないパフォーマンスをもたらす。 そこで本稿では,コントラスト学習と教師あり学習(Contra-X)を組み合わせた事前学習言語表現の微調整を提案する。 Contra-Xは、複数の人間と機械のオーサシップ属性のベンチマークで最先端に進化し、最大6.8%の改善を実現している。 また、Contra-Xは、異なるデータレシージャ間でのクロスエントロピー微調整よりも一貫して優れていることを示す。 本稿では,これらの改善の質的,定量的な分析を行う。 学習した表現は、異なる著者に対して非常に分離可能なクラスタを形成する。 しかし、対照的な学習は、一部の著者にとって性能を犠牲にして全体的な精度を向上させる。 この緊張を解消することは、将来の仕事にとって重要な方向だ。 我々の知る限りでは、著者帰属のためのコントラスト学習とクロスエントロピー微調整の併用効果を初めて分析する。

Authorship attribution is the task of identifying the author of a given text. Most existing approaches use manually designed features that capture a dataset's content and style. However, this dataset-dependent approach yields inconsistent performance. Thus, we propose to fine-tune pre-trained language representations using a combination of contrastive learning and supervised learning (Contra-X). We show that Contra-X advances the state-of-the-art on multiple human and machine authorship attribution benchmarks, enabling improvements of up to 6.8%. We also show Contra-X to be consistently superior to cross-entropy fine-tuning across different data regimes. Crucially, we present qualitative and quantitative analyses of these improvements. Our learned representations form highly separable clusters for different authors. However, we find that contrastive learning improves overall accuracy at the cost of sacrificing performance for some authors. Resolving this tension will be an important direction for future work. To the best of our knowledge, we are the first to analyze the effect of combining contrastive learning with cross-entropy fine-tuning for authorship attribution.
翻訳日:2022-09-27 14:02:12 公開日:2022-09-23
# pact: 自己回帰型ロボット訓練のための知覚行動因果トランスフォーマ

PACT: Perception-Action Causal Transformer for Autoregressive Robotics Pre-Training ( http://arxiv.org/abs/2209.11133v2 )

ライセンス: Link先を確認
Rogerio Bonatti, Sai Vemprala, Shuang Ma, Felipe Frujeri, Shuhang Chen, Ashish Kapoor(参考訳) ロボットは長年、モジュールと接続が従来のものであれ学習ベースであれ、人間の専門知識や事前知識を必要とする複雑なシステムアーキテクチャに根ざした分野だった。 大規模な事前学習型言語モデルにインスパイアされた本研究は、与えられたロボット上の複数のタスクの出発点として機能する汎用表現を事前学習するためのパラダイムを導入する。 本稿では,ロボットデータから直接表現を自己管理的に構築することを目的として,PACT(Perception-Action Causal Transformer)を提案する。 時間とともに状態や行動の自己回帰予測を通じて、我々のモデルは特定のロボットの動作や動作を暗黙的に符号化する。 実験では,移動エージェントの領域に着目し,このロボット固有の表現が単一出発点として機能し,安全なナビゲーション,局所化,マッピングなどの異なるタスクを実現できることを示す。 我々は、LiDARセンサーを知覚入力(MuSHR)として使用する車輪付きロボットと、一対一のRGB画像(Habitat)を用いたシミュレーションエージェントの2つの形態因子を評価する。 提案手法では,事前学習したモデル上で小さなタスク固有のネットワークを微調整することで,すべてのタスクに対して1つのモデルをスクラッチから同時にトレーニングするのに比べ,パフォーマンスが大幅に向上することを示す。 タスク間で共通の良質な表現を共有することで、全体のモデルのキャパシティを低くし、そのようなシステムのリアルタイムデプロイメントを高速化できます。

Robotics has long been a field riddled with complex systems architectures whose modules and connections, whether traditional or learning-based, require significant human expertise and prior knowledge. Inspired by large pre-trained language models, this work introduces a paradigm for pre-training a general purpose representation that can serve as a starting point for multiple tasks on a given robot. We present the Perception-Action Causal Transformer (PACT), a generative transformer-based architecture that aims to build representations directly from robot data in a self-supervised fashion. Through autoregressive prediction of states and actions over time, our model implicitly encodes dynamics and behaviors for a particular robot. Our experimental evaluation focuses on the domain of mobile agents, where we show that this robot-specific representation can function as a single starting point to achieve distinct tasks such as safe navigation, localization and mapping. We evaluate two form factors: a wheeled robot that uses a LiDAR sensor as perception input (MuSHR), and a simulated agent that uses first-person RGB images (Habitat). We show that finetuning small task-specific networks on top of the larger pretrained model results in significantly better performance compared to training a single model from scratch for all tasks simultaneously, and comparable performance to training a separate large model for each task independently. By sharing a common good-quality representation across tasks we can lower overall model capacity and speed up the real-time deployment of such systems.
翻訳日:2022-09-27 11:22:38 公開日:2022-09-23
# パワーエレクトロニクスのためのロバストで説明可能なデータ駆動異常検出手法

A Robust and Explainable Data-Driven Anomaly Detection Approach For Power Electronics ( http://arxiv.org/abs/2209.11427v1 )

ライセンス: Link先を確認
Alexander Beattie, Pavol Mulinka, Subham Sahoo, Ioannis T. Christou, Charalampos Kalalas, Daniel Gutierrez-Rojas, Pedro H. J. Nardelli(参考訳) 電力エレクトロニクスにおける異常のタイムリーかつ正確な検出は、複雑な生産システムを維持する上でますます重要になっている。 ロバストで説明可能な戦略は、システムのダウンタイムを減らし、インフラのサイバー攻撃を予防または軽減する。 この作業は、現在のデータセットと機械学習アルゴリズム出力に存在する不確実性のタイプを説明することから始まる。 これらの不確実性に対処するための3つのテクニックが紹介され、分析される。 さらに,電力変換器データセットの文脈に適用する行列プロファイルアルゴリズムと異常変換器という2つの異常検出と分類手法を提案する。 具体的には,ストリーミング時系列データ中のリアルタイム異常を検出するための一般化可能なアプローチとして,行列プロファイルアルゴリズムが適していることを示す。 反復行列プロファイルのSTUMPY pythonライブラリの実装は検出器の作成に使用される。 検知器の感度、リコール、検出精度を調整するために、一連のカスタムフィルタが作成され、追加される。 その結果,単純なパラメータチューニングにより,様々な障害シナリオにおいて高い精度と性能が得られることがわかった。

Timely and accurate detection of anomalies in power electronics is becoming increasingly critical for maintaining complex production systems. Robust and explainable strategies help decrease system downtime and preempt or mitigate infrastructure cyberattacks. This work begins by explaining the types of uncertainty present in current datasets and machine learning algorithm outputs. Three techniques for combating these uncertainties are then introduced and analyzed. We further present two anomaly detection and classification approaches, namely the Matrix Profile algorithm and anomaly transformer, which are applied in the context of a power electronic converter dataset. Specifically, the Matrix Profile algorithm is shown to be well suited as a generalizable approach for detecting real-time anomalies in streaming time-series data. The STUMPY python library implementation of the iterative Matrix Profile is used for the creation of the detector. A series of custom filters is created and added to the detector to tune its sensitivity, recall, and detection accuracy. Our numerical results show that, with simple parameter tuning, the detector provides high accuracy and performance in a variety of fault scenarios.
翻訳日:2022-09-26 17:40:13 公開日:2022-09-23
# 深層学習モデルを用いた家電利用パターンによる住まい検知のためのスマート住宅の電力管理

Power Management in Smart Residential Building with Deep Learning Model for Occupancy Detection by Usage Pattern of Electric Appliances ( http://arxiv.org/abs/2209.11520v1 )

ライセンス: Link先を確認
Sangkeum Lee, Sarvar Hussain Nengroo, Hojun Jin, Yoonmee Doh, Chungho Lee, Taewook Heo, Dongsoo Har(参考訳) スマート・ビルディング・アプリケーションの成長に伴い、住宅における居住情報の重要性が高まっている。 スマートビルのパラダイムの文脈では、エネルギー効率の向上や居住快適さの向上など、幅広い目的のためにこの種の情報が必要である。 本研究では, 家電機器の技術情報に基づくディープラーニングを用いて, 住宅の占有状況検出を行う。 この目的のために, スマート住宅システムのための新規な占有検知手法を提案する。 スマート計測システムによって測定され、50世帯から収集される電気機器、センサー、光、およびHVACのデータセットがシミュレーションに使用される。 データセットの占有度を分類するために、サポートベクタマシンとオートエンコーダアルゴリズムを用いる。 コンフュージョンマトリックスは, 精度, 精度, リコール, F1 に利用し, 占有検知における提案手法の比較性能を示す。 提案手法は家電機器の技術情報を用いて95.7~98.4%の占有率検出を実現する。 占有検出データを検証するために、主成分分析とt分散確率的隣接埋め込み(t-SNE)アルゴリズムを用いる。 再生可能エネルギーシステムによる電力消費は、占有検知を用いてスマートな建物において11.1~13.1%に削減される。

With the growth of smart building applications, occupancy information in residential buildings is becoming more and more significant. In the context of the smart buildings' paradigm, this kind of information is required for a wide range of purposes, including enhancing energy efficiency and occupant comfort. In this study, occupancy detection in residential building is implemented using deep learning based on technical information of electric appliances. To this end, a novel approach of occupancy detection for smart residential building system is proposed. The dataset of electric appliances, sensors, light, and HVAC, which is measured by smart metering system and is collected from 50 households, is used for simulations. To classify the occupancy among datasets, the support vector machine and autoencoder algorithm are used. Confusion matrix is utilized for accuracy, precision, recall, and F1 to demonstrate the comparative performance of the proposed method in occupancy detection. The proposed algorithm achieves occupancy detection using technical information of electric appliances by 95.7~98.4%. To validate occupancy detection data, principal component analysis and the t-distributed stochastic neighbor embedding (t-SNE) algorithm are employed. Power consumption with renewable energy system is reduced to 11.1~13.1% in smart buildings by using occupancy detection.
翻訳日:2022-09-26 17:39:57 公開日:2022-09-23
# 小型音響データを用いた人工ニューラルネットワークによる機械故障検出システム

An artificial neural network-based system for detecting machine failures using tiny sound data: A case study ( http://arxiv.org/abs/2209.11527v1 )

ライセンス: Link先を確認
Thanh Tran, Sebastian Bader, Jan Lundgren(参考訳) 深層学習に基づく機械故障検出システムの研究を提唱するために,提案する音響データに基づくシステムについて事例研究を行う。 本研究は,valmet abからの小型ドリル音データ拡張のための変分オートエンコーダ(vae)について検討する。 ヴァルメットのデータセットには134の音が含まれており、これはスウェーデンのサンズヴァルにあるValmet ABの掘削機から記録された「異常」と「ノーマル」の2つのカテゴリに分けられている。 このような小さな音響データセット上で、ディープラーニングモデルを使用して障害ドリルを検出することは、一般的には失敗する。 我々は,従来の音声から新しい音を合成することで,小さなデータセットの音数を増やすためにVAEを使用した。 強化データセットは、これらの合成された音と元の音を組み合わせたものである。 我々は,1000Hzの帯域通過周波数を持つ高域通過フィルタと22\kern 0.16667em000Hzの帯域通過周波数を持つ低域通過フィルタを用いて,拡張データセット内の音を前処理した後,メルスペクトルに変換する。 事前訓練された2D-CNNAlexnetはこれらのメル分光器を用いて訓練された。 元の小さな音響データセットを使用してトレーニングされたAlexnetと比較すると、強化された音響データセットを使用してCNNモデルの分類結果を6.62\%(94.12\%)、拡張データセットでトレーニングされた場合には87.5\%に向上した。

In an effort to advocate the research for a deep learning-based machine failure detection system, we present a case study of our proposed system based on a tiny sound dataset. Our case study investigates a variational autoencoder (VAE) for augmenting a small drill sound dataset from Valmet AB. A Valmet dataset contains 134 sounds that have been divided into two categories: "Anomaly" and "Normal" recorded from a drilling machine in Valmet AB, a company in Sundsvall, Sweden that supplies equipment and processes for the production of biofuels. Using deep learning models to detect failure drills on such a small sound dataset is typically unsuccessful. We employed a VAE to increase the number of sounds in the tiny dataset by synthesizing new sounds from original sounds. The augmented dataset was created by combining these synthesized sounds with the original sounds. We used a high-pass filter with a passband frequency of 1000 Hz and a low-pass filter with a passband frequency of 22\kern 0.16667em000 Hz to pre-process sounds in the augmented dataset before transforming them to Mel spectrograms. The pre-trained 2D-CNN Alexnet was then trained using these Mel spectrograms. When compared to using the original tiny sound dataset to train pre-trained Alexnet, using the augmented sound dataset enhanced the CNN model's classification results by 6.62\%(94.12\% when trained on the augmented dataset versus 87.5\% when trained on the original dataset).
翻訳日:2022-09-26 17:39:39 公開日:2022-09-23
# 力学系のニューラルネットワーク積分器の厳密な保存則

Exact conservation laws for neural network integrators of dynamical systems ( http://arxiv.org/abs/2209.11661v1 )

ライセンス: Link先を確認
Eike Hermann M\"uller(参考訳) 近年,ニューラルネットワークを用いた時間依存微分方程式の解法が注目されている。 中心となる考え方は、ランダムノイズによって汚染される可能性のあるデータから解の進化を管理する法則を学ぶことである。 しかし、他の機械学習アプリケーションとは対照的に、システムについては通常多くのことが知られている。 例えば、多くの力学系において、エネルギーや(角運動量のような)物理量は正確に保存される。 したがって、ニューラルネットワークはデータからこれらの保存則を学習しなければならず、有限なトレーニング時間とランダムノイズによってのみ満足できる。 本稿では,ニューラルネットワークのアーキテクチャに保存則を内在的に組み込むために,ネーターの定理を用いた代替手法を提案する。 これは3次元ニュートン重力ポテンシャルにおける非相対論的粒子の運動、シュワルツシルト計量における大規模相対論的粒子の運動、および4次元で相互作用する2つの粒子の系である。

The solution of time dependent differential equations with neural networks has attracted a lot of attention recently. The central idea is to learn the laws that govern the evolution of the solution from data, which might be polluted with random noise. However, in contrast to other machine learning applications, usually a lot is known about the system at hand. For example, for many dynamical systems physical quantities such as energy or (angular) momentum are exactly conserved. Hence, the neural network has to learn these conservation laws from data and they will only be satisfied approximately due to finite training time and random noise. In this paper we present an alternative approach which uses Noether's Theorem to inherently incorporate conservation laws into the architecture of the neural network. We demonstrate that this leads to better predictions for three model systems: the motion of a non-relativistic particle in a three-dimensional Newtonian gravitational potential, the motion of a massive relativistic particle in the Schwarzschild metric and a system of two interacting particles in four dimensions.
翻訳日:2022-09-26 17:39:11 公開日:2022-09-23
# 多次元インタラクティブ固定効果

Multidimensional Interactive Fixed-Effects ( http://arxiv.org/abs/2209.11691v1 )

ライセンス: Link先を確認
Hugo Freeman(参考訳) 本稿では,3次元以上の多次元パネルデータに対する線形かつ付加的に分離可能なモデルについて検討する。 2つのアプローチは、観測された共変量に対する係数を推定する際に、観測されていない対話的固定効果を考慮に入れていると考えられる。 第一に、モデルは標準の2次元パネルフレームワークに埋め込まれており、制限はbai (2009) の因子構造メソッドがモデルパラメータの一貫した推定に繋がる下で導出される。 第二のアプローチは、問題の多次元の性質に対してより堅牢なグループ固定効果とカーネルメソッドを考えることである。 理論的な結果とシミュレーションは、対話型固定効果項の構造が知られている場合の標準的な2次元パネル法の利点を示すが、グループ固定効果とカーネル法は、この構造を知らずにどのように機能するかを強調する。 本手法は,ビールの需要弾力性を,需要に対する少数のモデルに基づいて推定する。

This paper studies a linear and additively separable model for multidimensional panel data of three or more dimensions with unobserved interactive fixed effects. Two approaches are considered to account for these unobserved interactive fixed-effects when estimating coefficients on the observed covariates. First, the model is embedded within the standard two-dimensional panel framework and restrictions are derived under which the factor structure methods in Bai (2009) lead to consistent estimation of model parameters. The second approach considers group fixed-effects and kernel methods that are more robust to the multidimensional nature of the problem. Theoretical results and simulations show the benefit of standard two-dimensional panel methods when the structure of the interactive fixed-effect term is known, but also highlight how the group fixed-effects and kernel methods perform well without knowledge of this structure. The methods are implemented to estimate the demand elasticity for beer under a handful of models for demand.
翻訳日:2022-09-26 17:38:56 公開日:2022-09-23
# シークエンシャル因果効果変動オートエンコーダ:隠れた境界下での時系列因果リンク推定

Sequential Causal Effect Variational Autoencoder: Time Series Causal Link Estimation under Hidden Confounding ( http://arxiv.org/abs/2209.11497v1 )

ライセンス: Link先を確認
Violeta Teodora Trifunov, Maha Shadaydeh, Joachim Denzler(参考訳) 潜伏変数の存在下で観測データから因果関係を推定すると、因果関係は因果関係と誤解されることがある。 これは金融や気候科学など多くの分野において重要な問題である。 本研究では,隠れた共起環境下での時系列因果関係解析のための新しい手法であるscevaeを提案する。 CEVAEフレームワークとリカレントニューラルネットワークに基づいている。 共起変数の因果リンクの強度は、パールのdo-calculusに基づく直接因果基準を用いて計算される。 線形および非線形因果関係を持つ合成データセットに適用することによりSCEVAEの有効性を示す。 さらに,本手法を実際のエアロゾル・雲気候観測データに適用する。 提案手法は, 合成データを用いた時系列分解手法と, 代替の共同設立者の有無を比較した。 本手法は,両手法を基礎的真理と比較することにより,良好な性能を示す。 実データの場合、因果関係の専門知識を使用し、適切なプロキシ変数の使用がデータ再構成にどのように役立つかを示す。

Estimating causal effects from observational data in the presence of latent variables sometimes leads to spurious relationships which can be misconceived as causal. This is an important issue in many fields such as finance and climate science. We propose Sequential Causal Effect Variational Autoencoder (SCEVAE), a novel method for time series causality analysis under hidden confounding. It is based on the CEVAE framework and recurrent neural networks. The causal link's intensity of the confounded variables is calculated by using direct causal criteria based on Pearl's do-calculus. We show the efficacy of SCEVAE by applying it to synthetic datasets with both linear and nonlinear causal links. Furthermore, we apply our method to real aerosol-cloud-climate observation data. We compare our approach to a time series deconfounding method with and without substitute confounders on the synthetic data. We demonstrate that our method performs better by comparing both methods to the ground truth. In the case of real data, we use the expert knowledge of causal links and show how the use of correct proxy variables aids data reconstruction.
翻訳日:2022-09-26 17:36:14 公開日:2022-09-23
# パラメータ化量子回路の誤差低減支援最適化:収束解析

Error Mitigation-Aided Optimization of Parameterized Quantum Circuits: Convergence Analysis ( http://arxiv.org/abs/2209.11514v1 )

ライセンス: Link先を確認
Sharu Theresa Jose, Osvaldo Simeone(参考訳) 変分量子アルゴリズム(VQA)は、ノイズの多い中間スケール量子(NISQ)プロセッサを介して量子優位を得る最も有望な経路を提供する。 このようなシステムは古典最適化を利用してパラメータ化量子回路(PQC)のパラメータをチューニングする。 目標は、PQCから得られる測定出力に依存するコスト関数を最小化することである。 最適化は通常、確率勾配降下(SGD)によって実装される。 NISQコンピュータでは、不完全性やデコヒーレンスによるゲートノイズがバイアスを導入して確率勾配推定に影響を与える。 QEM(Quantum error mitigation)技術は、キュービット数の増加を必要とせずに推定バイアスを低減することができるが、結果として勾配推定のばらつきが増大する。 本研究は、vqaの基本例である変分固有解法(vqe)におけるsgdの収束に対する量子ゲートノイズの影響を考察する。 主な目的は、QEMがVQEのSGDの性能を向上させる条件を確認することである。 量子ゲートノイズは,雑音ゲート数,雑音強度,観測可観測値の固有スペクトルに依存するsgdの収束誤差(参照ノイズなしpqcに対する評価)に非ゼロの誤差床を誘導することを示した。 対照的に、QEMでは任意の小さな誤差が得られる。 さらに、QEMで達成可能な誤差レベルに対しては、QEMは必要なイテレーション数を削減できるが、量子ノイズレベルが十分に小さく、各SGDイテレーションで十分な数の測定が可能である限りはならない。 最大カット問題の数値例は、主要な理論的発見を裏付ける。

Variational quantum algorithms (VQAs) offer the most promising path to obtaining quantum advantages via noisy intermediate-scale quantum (NISQ) processors. Such systems leverage classical optimization to tune the parameters of a parameterized quantum circuit (PQC). The goal is minimizing a cost function that depends on measurement outputs obtained from the PQC. Optimization is typically implemented via stochastic gradient descent (SGD). On NISQ computers, gate noise due to imperfections and decoherence affects the stochastic gradient estimates by introducing a bias. Quantum error mitigation (QEM) techniques can reduce the estimation bias without requiring any increase in the number of qubits, but they in turn cause an increase in the variance of the gradient estimates. This work studies the impact of quantum gate noise on the convergence of SGD for the variational eigensolver (VQE), a fundamental instance of VQAs. The main goal is ascertaining conditions under which QEM can enhance the performance of SGD for VQEs. It is shown that quantum gate noise induces a non-zero error-floor on the convergence error of SGD (evaluated with respect to a reference noiseless PQC), which depends on the number of noisy gates, the strength of the noise, as well as the eigenspectrum of the observable being measured and minimized. In contrast, with QEM, any arbitrarily small error can be obtained. Furthermore, for error levels attainable with or without QEM, QEM can reduce the number of required iterations, but only as long as the quantum noise level is sufficiently small, and a sufficiently large number of measurements is allowed at each SGD iteration. Numerical examples for a max-cut problem corroborate the main theoretical findings.
翻訳日:2022-09-26 17:35:59 公開日:2022-09-23
# 化学・生物海洋学における機械学習の応用

Applications of Machine Learning in Chemical and Biological Oceanography ( http://arxiv.org/abs/2209.11557v1 )

ライセンス: Link先を確認
Balamurugan Sadaiappan, Preethiya Balakrishnan, Vishal CR, Neethu T Vijayan, Mahendran Subramanian and Mangesh U Gauns(参考訳) 機械学習(ML)とは、大量のデータに基づいて意味のある出力または分類された複雑なシステムを予測するコンピュータアルゴリズムである。 MLは自然科学、工学、宇宙探査、ゲーム開発など様々な分野に適用された。 本稿では,化学・生物海洋学の分野における機械学習の利用に注目した。 グローバルな固定窒素濃度、部分二酸化炭素圧、その他の化学的性質の予測において、MLの適用は有望なツールである。 機械学習は生物海洋学の分野でも使われ、様々な画像(顕微鏡、フローCAM、ビデオレコーダーなど)、分光計、その他の信号処理技術からプランクトン形式を検出する。 さらにMLは、その音響を利用して哺乳類を分類し、絶滅危惧種の哺乳類や魚類を特定の環境で検出した。 最も重要なことは, 環境データを用いて, mlは低酸素環境と有害藻類発生の予測に有効な方法であり, 環境モニタリングの観点から重要な測定値であることがわかった。 さらに、機械学習は、他の研究者にとって有用な様々な種のデータベースを構築するために使用され、新しいアルゴリズムの作成は海洋研究コミュニティが海の化学や生物学をよりよく理解するのに役立ちます。

Machine learning (ML) refers to computer algorithms that predict a meaningful output or categorise complex systems based on a large amount of data. ML applied in a variety of areas, including natural science, engineering, space exploration, and even gaming development. This article focused on the use of machine learning in the field of chemical and biological oceanography. In the prediction of global fixed nitrogen levels, partial carbon dioxide pressure, and other chemical properties, the application of ML is a promising tool. Machine learning is also utilised in the field of biological oceanography to detect planktonic forms from various images (i.e., microscopy, FlowCAM and video recorder), spectrometers, and other signal processing techniques. Moreover, ML successfully classified the mammals using their acoustics, detecting endangered mammalian and fish species in a specific environment. Most importantly, using environmental data, the ML proved to be an effective method for predicting hypoxic conditions and the harmful algal bloom events, an important measurement in terms of environmental monitoring. Furthermore, machine learning was used to construct a number of databases for various species that will be useful to other researchers, and the creation of new algorithms will help the marine research community better comprehend the chemistry and biology of the ocean.
翻訳日:2022-09-26 17:35:30 公開日:2022-09-23
# 選択前の定量化:ロバスト強化学習のためのアクティブダイナミクス選好

Quantification before Selection: Active Dynamics Preference for Robust Reinforcement Learning ( http://arxiv.org/abs/2209.11596v1 )

ライセンス: Link先を確認
Kang Xu, Yan Ma, Wei Li(参考訳) 堅牢なポリシーのトレーニングは、現実世界のシステムにおけるポリシーの展開や、異なる動的システムにおける未知のダイナミックスミスマッチを扱う上で重要である。 ドメインランダム化~(DR)は、ターゲットのシステムパラメータに関する専門知識なしで、異なる動的システムに対抗するために保守的なポリシーを訓練するシンプルでエレガントなアプローチです。 しかし、既存の研究によると、DRによって訓練されたポリシーは過保守であり、ターゲットドメインでは不十分である。 私たちのキーとなる洞察は、異なるパラメータを持つ動的システムはポリシーに異なるレベルの困難をもたらし、システム内でうまく振る舞うことの難しさはポリシーの進化によって常に変化しているということです。 政策の適切な困難さで積極的にシステムをサンプル化できれば、トレーニングプロセスは安定し、過保守的あるいは過最適化的になるのを防ぐことができる。 このアイデアを運用するには,サンプルシステムパラメータの情報と密度を定量化するactive dynamics preference~(adp)を導入する。 ADPは情報度と密度の低いシステムパラメータを積極的に選択する。 トレーニング環境とテスト環境の異なる4つのロボットロコモーションタスクにおいて,我々のアプローチを検証する。 広範な結果から,本手法は複数のベースラインと比較して,システム不整合に対して優れたロバスト性を示す。

Training a robust policy is critical for policy deployment in real-world systems or dealing with unknown dynamics mismatch in different dynamic systems. Domain Randomization~(DR) is a simple and elegant approach that trains a conservative policy to counter different dynamic systems without expert knowledge about the target system parameters. However, existing works reveal that the policy trained through DR tends to be over-conservative and performs poorly in target domains. Our key insight is that dynamic systems with different parameters provide different levels of difficulty for the policy, and the difficulty of behaving well in a system is constantly changing due to the evolution of the policy. If we can actively sample the systems with proper difficulty for the policy on the fly, it will stabilize the training process and prevent the policy from becoming over-conservative or over-optimistic. To operationalize this idea, we introduce Active Dynamics Preference~(ADP), which quantifies the informativeness and density of sampled system parameters. ADP actively selects system parameters with high informativeness and low density. We validate our approach in four robotic locomotion tasks with various discrepancies between the training and testing environments. Extensive results demonstrate that our approach has superior robustness for system inconsistency compared to several baselines.
翻訳日:2022-09-26 17:35:10 公開日:2022-09-23
# 5g基地局の機械学習と解析電力消費モデル

Machine Learning and Analytical Power Consumption Models for 5G Base Stations ( http://arxiv.org/abs/2209.11600v1 )

ライセンス: Link先を確認
Nicola Piovesan, David Lopez-Perez, Antonio De Domenico, Xinli Geng, Harvey Bao, Merouane Debbah(参考訳) モバイルネットワークの第5世代(5G)のエネルギー消費は、通信業界の大きな関心事の一つである。 しかし、現在、5G基地局(BS)の消費電力を評価するための正確でトラクタブルなアプローチは存在しない。 本稿では,大規模なデータ収集キャンペーンを基盤とした5GマルチキャリアBSの消費電力の現実的特徴化のための新しいモデルを提案する。 まず、複数の5G BS製品をモデル化できる機械学習アーキテクチャを定義します。 そして、このフレームワークが収集した知識を利用して、現実的な分析可能な消費電力モデルを導出し、理論解析と機能標準化、開発、最適化のフレームワークの両方を駆動するのに役立つ。 特に、そのようなモデルが高精度であり、省エネ機構の利点を捉えることができることを示す。 この分析モデルは、5G BSの消費電力を理解し、ネットワークエネルギー効率を正確に最適化するための基本的なツールであると考えている。

The energy consumption of the fifth generation(5G) of mobile networks is one of the major concerns of the telecom industry. However, there is not currently an accurate and tractable approach to evaluate 5G base stations (BSs) power consumption. In this article, we propose a novel model for a realistic characterisation of the power consumption of 5G multi-carrier BSs, which builds on a large data collection campaign. At first, we define a machine learning architecture that allows modelling multiple 5G BS products. Then, we exploit the knowledge gathered by this framework to derive a realistic and analytically tractable power consumption model, which can help driving both theoretical analyses as well as feature standardisation, development and optimisation frameworks. Notably, we demonstrate that such model has high precision, and it is able of capturing the benefits of energy saving mechanisms. We believe this analytical model represents a fundamental tool for understanding 5G BSs power consumption, and accurately optimising the network energy efficiency.
翻訳日:2022-09-26 17:34:48 公開日:2022-09-23
# バーガース乱流の微分可能な物理対応クロージャモデル

Differentiable physics-enabled closure modeling for Burgers' turbulence ( http://arxiv.org/abs/2209.11614v1 )

ライセンス: Link先を確認
Varun Shankar, Vedant Puri, Ramesh Balakrishnan, Romit Maulik, Venkatasubramanian Viswanathan(参考訳) データ科学におけるアルゴリズムとハードウェアの発展に続いて、データ駆動乱流モデリングへの関心が高まっている。 我々は,バーガーズ乱流の閉包モデルを開発するために,既知の物理と機械学習を組み合わせた微分可能な物理パラダイムを用いたアプローチについて論じる。 本研究では, 1D Burgers システムを, 対流支配乱流問題における未解決項をモデル化するための原型的テスト問題とみなす。 我々は,a後方損失関数に様々な物理的仮定を組み込んだ一連のモデルを訓練し,粘性,時間,グリッド解像度など,様々なシステムパラメータにおけるモデルの有効性を検証した。 既知の物理あるいは既存の閉包アプローチを含む偏微分方程式の形で帰納バイアスを持つ制約モデルが、非常にデータ効率が高く、正確で、一般化可能なモデルを生成し、最先端のベースラインを上回ります。 物理情報の形で構造を加えることは、モデルに解釈可能性のレベルをもたらし、閉包モデリングの将来への一歩となる可能性がある。

Data-driven turbulence modeling is experiencing a surge in interest following algorithmic and hardware developments in the data sciences. We discuss an approach using the differentiable physics paradigm that combines known physics with machine learning to develop closure models for Burgers' turbulence. We consider the 1D Burgers system as a prototypical test problem for modeling the unresolved terms in advection-dominated turbulence problems. We train a series of models that incorporate varying degrees of physical assumptions on an a posteriori loss function to test the efficacy of models across a range of system parameters, including viscosity, time, and grid resolution. We find that constraining models with inductive biases in the form of partial differential equations that contain known physics or existing closure approaches produces highly data-efficient, accurate, and generalizable models, outperforming state-of-the-art baselines. Addition of structure in the form of physics information also brings a level of interpretability to the models, potentially offering a stepping stone to the future of closure modeling.
翻訳日:2022-09-26 17:34:33 公開日:2022-09-23
# GLSO:サンプル効率ロボット設計自動化のための文法誘導潜時空間最適化

GLSO: Grammar-guided Latent Space Optimization for Sample-efficient Robot Design Automation ( http://arxiv.org/abs/2209.11748v1 )

ライセンス: Link先を確認
Jiaheng Hu, Julian Whiman, Howie Choset(参考訳) ロボットはあらゆる種類の自動化に使われてきたが、ロボットの設計は主に手作業で行われている。 ロボット自体の設計を自動化するための設計ツールを提供したいと考えている。 ロボット設計の自動化における重要な課題は、コンポーネントの数に応じて指数関数的に成長し、最適化が困難でサンプル非効率な大規模で複雑なデザイン検索空間である。 本研究では,グラフ構造設計空間と連続潜在空間とのマッピングを学習するために,グラフ変分オートエンコーダ(VAE)をトレーニングすることにより,設計自動化を低次元連続最適化問題に変換するフレームワークであるGLSOを提案する。 この変換により、ベイズ最適化のようなアルゴリズムを適用することで、サンプル効率を大幅に向上できる連続潜在空間で最適化を行うことができる。 glsoはグラフ文法規則とロボットの世界空間の特徴を用いてvaeの訓練をガイドしており、学習された潜在空間は有効なロボットに焦点を当て、最適化アルゴリズムを探索しやすくしている。 重要なのは、トレーニングされたvaeを再利用して、再トレーニングすることなく、複数の異なるタスクに特化した設計を検索できることだ。 シミュレーションにおけるロコモーションタスクのセットのためのロボットの設計によりglsoを評価し,その手法が関連する最先端ロボット設計自動化手法よりも優れていることを示す。

Robots have been used in all sorts of automation, and yet the design of robots remains mainly a manual task. We seek to provide design tools to automate the design of robots themselves. An important challenge in robot design automation is the large and complex design search space which grows exponentially with the number of components, making optimization difficult and sample inefficient. In this work, we present Grammar-guided Latent Space Optimization (GLSO), a framework that transforms design automation into a low-dimensional continuous optimization problem by training a graph variational autoencoder (VAE) to learn a mapping between the graph-structured design space and a continuous latent space. This transformation allows optimization to be conducted in a continuous latent space, where sample efficiency can be significantly boosted by applying algorithms such as Bayesian Optimization. GLSO guides training of the VAE using graph grammar rules and robot world space features, such that the learned latent space focus on valid robots and is easier for the optimization algorithm to explore. Importantly, the trained VAE can be reused to search for designs specialized to multiple different tasks without retraining. We evaluate GLSO by designing robots for a set of locomotion tasks in simulation, and demonstrate that our method outperforms related state-of-the-art robot design automation methods.
翻訳日:2022-09-26 17:34:16 公開日:2022-09-23
# Marine Video Kit:コンテンツに基づく分析と検索のための新しい海底ビデオデータセット

Marine Video Kit: A New Marine Video Dataset for Content-based Analysis and Retrieval ( http://arxiv.org/abs/2209.11518v1 )

ライセンス: Link先を確認
Quang-Trung Truong and Tuan-Anh Vu and Tan-Sang Ha and Lokoc Jakub and Yue Him Wong Tim and Ajay Joneja and Sai-Kit Yeung(参考訳) ドメイン固有のビデオコレクションを効果的に分析することは、最先端の汎用モデルがまだ限界に直面している重要な実践的問題である。 したがって、新たな制約のある特定のドメインのための新しい強力なモデルに挑戦するベンチマークデータセットを設計することが望ましい。 ドメイン固有のデータは、よりノイズが多く(例えば、内視鏡的または水中ビデオ)、しばしば効果的な検索のためにより経験豊富なユーザーを必要とすることを忘れてはならない。 本稿では,水中の移動カメラから撮影された単発映像に着目し,研究目的の難易度を示す。 新しいMarine Video Kitデータセットの最初のシャードは、ビデオ検索やその他のコンピュータビジョンの課題に役立ちます。 基本メタデータ統計に加え、低レベルの特徴に基づくいくつかの洞察と参照グラフ、および選択したキーフレームのセマンティックアノテーションも提示する。 この分析には、検索のための一般的な汎用モデルの制限を示す実験も含まれている。

Effective analysis of unusual domain specific video collections represents an important practical problem, where state-of-the-art general purpose models still face limitations. Hence, it is desirable to design benchmark datasets that challenge novel powerful models for specific domains with additional constraints. It is important to remember that domain specific data may be noisier (e.g., endoscopic or underwater videos) and often require more experienced users for effective search. In this paper, we focus on single-shot videos taken from moving cameras in underwater environments which constitute a nontrivial challenge for research purposes. The first shard of a new Marine Video Kit dataset is presented to serve for video retrieval and other computer vision challenges. In addition to basic meta-data statistics, we present several insights and reference graphs based on low-level features as well as semantic annotations of selected keyframes. The analysis contains also experiments showing limitations of respected general purpose models for retrieval.
翻訳日:2022-09-26 17:33:41 公開日:2022-09-23
# デュアルサイクル:CycleGANを用いたデュアルビュー蛍光顕微鏡画像再構成

Dual-Cycle: Self-Supervised Dual-View Fluorescence Microscopy Image Reconstruction using CycleGAN ( http://arxiv.org/abs/2209.11729v1 )

ライセンス: Link先を確認
Tomas Kerepecky and Jiaming Liu and Xue Wen Ng and David W. Piston and Ulugbek S. Kamilov(参考訳) 三次元蛍光顕微鏡はしばしば異方性に悩まされ、軸方向の分解能は横方向の撮像面よりも低い。 両面蛍光画像の結合分解と融合のための新しいフレームワークであるDual-Cycleを提案することでこの問題に対処する。 最近のNeuroclear法にインスパイアされたDual-Cycleは、デュアルビュージェネレータと事前誘導分解モデルを組み合わせて、自己教師付きで訓練されたサイクル一貫性のある生成ネットワークとして設計されている。 外部のトレーニングデータなしで,合成データと実データの両方において,その最新性能を示すデュアルサイクルを検証する。

Three-dimensional fluorescence microscopy often suffers from anisotropy, where the resolution along the axial direction is lower than that within the lateral imaging plane. We address this issue by presenting Dual-Cycle, a new framework for joint deconvolution and fusion of dual-view fluorescence images. Inspired by the recent Neuroclear method, Dual-Cycle is designed as a cycle-consistent generative network trained in a self-supervised fashion by combining a dual-view generator and prior-guided degradation model. We validate Dual-Cycle on both synthetic and real data showing its state-of-the-art performance without any external training data.
翻訳日:2022-09-26 17:27:10 公開日:2022-09-23
# 遠距離話者検証チャレンジ2022における話者検証システム

The SpeakIn Speaker Verification System for Far-Field Speaker Verification Challenge 2022 ( http://arxiv.org/abs/2209.11625v1 )

ライセンス: Link先を確認
Yu Zheng, Jinghan Peng, Yihao Chen, Yajun Zhang, Jialong Wang, Min Liu, Minqiang Xu(参考訳) 本稿では,SpeakInチームがFar-Field Speaker Verification Challenge 2022(FFSVC2022)のタスク1およびタスク2に提出した話者検証システムについて述べる。 課題のSVタスクは、完全教師付き遠距離話者検証(Task1)と半教師付き遠距離話者検証(Task2)の問題に焦点を当てる。 Task 1では、トレーニングデータセットとしてVoxCelebとFFSVC2020データセットを使用しました。 Task 2では、VoxCelebデータセットのみをトレインセットとして使用しました。 ResNetベースのアーキテクチャとRepVGGベースのアーキテクチャがこの課題のために開発された。 グローバル統計プーリング構造とMQMHAプーリング構造を用いて、時間をかけてフレームレベルの特徴を集約し、発話レベルの表現を得た。 am-softmax と aam-softmax を用いて埋め込みを分類した。 我々は段階的転校学習法を革新的に提案する。 事前学習の段階では、話者重量を予備し、この段階でトレーニングする正のサンプルは存在しない。 次に、これらの重みを第2段階で正と負の両方のサンプルで微調整する。 従来の移動学習戦略と比較すると、この戦略はモデルの性能を改善することができる。 Sub-MeanとAS-Normのバックエンドメソッドはドメインミスマッチの問題を解決するために使われた。 核融合段階では3つのモデルがタスク1で融合され、2つのモデルがタスク2で融合された。 FFSVC2022のリーダーボードでは、EERは3.0049%、対応するminDCFは0.2938である。 Task2 では EER と minDCF はそれぞれ 6.2060% と 0.5232 である。 我々のアプローチは優れたパフォーマンスをもたらし、両方の課題タスクで1位にランクインします。

This paper describes speaker verification (SV) systems submitted by the SpeakIn team to the Task 1 and Task 2 of the Far-Field Speaker Verification Challenge 2022 (FFSVC2022). SV tasks of the challenge focus on the problem of fully supervised far-field speaker verification (Task 1) and semi-supervised far-field speaker verification (Task 2). In Task 1, we used the VoxCeleb and FFSVC2020 datasets as train datasets. And for Task 2, we only used the VoxCeleb dataset as train set. The ResNet-based and RepVGG-based architectures were developed for this challenge. Global statistic pooling structure and MQMHA pooling structure were used to aggregate the frame-level features across time to obtain utterance-level representation. We adopted AM-Softmax and AAM-Softmax to classify the resulting embeddings. We innovatively propose a staged transfer learning method. In the pre-training stage we reserve the speaker weights, and there are no positive samples to train them in this stage. Then we fine-tune these weights with both positive and negative samples in the second stage. Compared with the traditional transfer learning strategy, this strategy can better improve the model performance. The Sub-Mean and AS-Norm backend methods were used to solve the problem of domain mismatch. In the fusion stage, three models were fused in Task1 and two models were fused in Task2. On the FFSVC2022 leaderboard, the EER of our submission is 3.0049% and the corresponding minDCF is 0.2938 in Task1. In Task2, EER and minDCF are 6.2060% and 0.5232 respectively. Our approach leads to excellent performance and ranks 1st in both challenge tasks.
翻訳日:2022-09-26 17:26:56 公開日:2022-09-23
# 数値および機械学習モデルの堅牢な解釈可能性のための量子制約ワッサースタイン射影

Quantile-constrained Wasserstein projections for robust interpretability of numerical and machine learning models ( http://arxiv.org/abs/2209.11539v1 )

ライセンス: Link先を確認
Marouane Il Idrissi (EDF R&D PRISME, SINCLAIR AI Lab, IMT), Nicolas Bousquet (EDF R&D PRISME, SINCLAIR AI Lab, LPSM), Fabrice Gamboa (IMT), Bertrand Iooss (EDF R&D PRISME, SINCLAIR AI Lab, IMT, GdR MASCOT-NUM), Jean-Michel Loubes (IMT)(参考訳) ブラックボックスモデルのロバスト性の研究は、データから学習した構造方程式と予測モデルに基づく数値モデルに必要なタスクとして認識される。 これらの研究は、入力に関する誤特定(例えば共変量シフト)の可能性に対するモデルの堅牢性を評価する必要がある。 ブラックボックスモデルの研究は、不確実量化(UQ)のプリズムを通じて、しばしば入力に課される確率構造を含む感度分析に基づいており、MLモデルは観測データからのみ構築されている。 我々の研究は、両方のパラダイムに関連性があり使いやすいツールを提供することで、UQとMLの解釈可能性アプローチを統合することを目的としています。 頑健性研究のための汎用的かつ理解可能なフレームワークとして,確率測度間のワッサーシュタイン距離に関する量子的制約と投影に依存する入力情報の摂動を定義する。 この摂動問題は解析的に解くことができることを示す。 等速多項式近似による正則性制約の確保はより滑らかな摂動をもたらすが、実際はより適している。 UQとMLの分野における実ケーススタディに関する数値実験は、そのような研究の計算可能性を強調し、入力摂動に対するブラックボックスモデルの堅牢性に関する局所的およびグローバルな洞察を提供する。

Robustness studies of black-box models is recognized as a necessary task for numerical models based on structural equations and predictive models learned from data. These studies must assess the model's robustness to possible misspecification of regarding its inputs (e.g., covariate shift). The study of black-box models, through the prism of uncertainty quantification (UQ), is often based on sensitivity analysis involving a probabilistic structure imposed on the inputs, while ML models are solely constructed from observed data. Our work aim at unifying the UQ and ML interpretability approaches, by providing relevant and easy-to-use tools for both paradigms. To provide a generic and understandable framework for robustness studies, we define perturbations of input information relying on quantile constraints and projections with respect to the Wasserstein distance between probability measures, while preserving their dependence structure. We show that this perturbation problem can be analytically solved. Ensuring regularity constraints by means of isotonic polynomial approximations leads to smoother perturbations, which can be more suitable in practice. Numerical experiments on real case studies, from the UQ and ML fields, highlight the computational feasibility of such studies and provide local and global insights on the robustness of black-box models to input perturbations.
翻訳日:2022-09-26 17:26:31 公開日:2022-09-23
# マルチグラフによる畳み込み学習

Convolutional Learning on Multigraphs ( http://arxiv.org/abs/2209.11354v1 )

ライセンス: Link先を確認
Landon Butler, Alejandro Parada-Mayorga, Alejandro Ribeiro(参考訳) グラフ畳み込み学習は様々な分野で多くのエキサイティングな発見をもたらした。 しかし、いくつかのアプリケーションでは、従来のグラフはデータの構造と複雑さを捉えるには不十分である。 そのようなシナリオでは、多重グラフは自然に複素力学を埋め込む離散構造として生じる。 本稿では,マルチグラフの畳み込み情報処理を開発し,畳み込みマルチグラフニューラルネットワーク(mgnn)を提案する。 マルチグラフのエッジのクラス内およびクラス内における情報拡散の複雑なダイナミクスを捉えるため、畳み込み信号処理モデルを定式化し、マルチグラフ上の信号、フィルタリング、周波数表現の概念を定義した。 このモデルを活用することで、計算複雑性を低減するサンプリング手順を含むマルチグラフ学習アーキテクチャを開発する。 導入したアーキテクチャは、最適なワイヤレスリソース割り当てとヘイトスピーチローカライズタスクに応用され、従来のグラフニューラルネットワークよりもパフォーマンスが向上する。

Graph convolutional learning has led to many exciting discoveries in diverse areas. However, in some applications, traditional graphs are insufficient to capture the structure and intricacies of the data. In such scenarios, multigraphs arise naturally as discrete structures in which complex dynamics can be embedded. In this paper, we develop convolutional information processing on multigraphs and introduce convolutional multigraph neural networks (MGNNs). To capture the complex dynamics of information diffusion within and across each of the multigraph's classes of edges, we formalize a convolutional signal processing model, defining the notions of signals, filtering, and frequency representations on multigraphs. Leveraging this model, we develop a multigraph learning architecture, including a sampling procedure to reduce computational complexity. The introduced architecture is applied towards optimal wireless resource allocation and a hate speech localization task, offering improved performance over traditional graph neural networks.
翻訳日:2022-09-26 17:25:04 公開日:2022-09-23
# LEADER:不確実性下での計画のための運転行動に対する意識学習

LEADER: Learning Attention over Driving Behaviors for Planning under Uncertainty ( http://arxiv.org/abs/2209.11422v1 )

ライセンス: Link先を確認
Mohamad H. Danesh and Panpan Cai and David Hsu(参考訳) 人間の行動の不確実性は、混雑した都市環境での自動運転に重大な課題をもたらす。 部分的に観測可能なマルコフ決定プロセス(POMDP)は、不確実性の下で計画するための原則的なフレームワークを提供する。 しかし、サンプリングは致命的なイベントの欠如による安全性の懸念も引き起こす。 そこで本研究では,計画中の重要な人間の行動に対応することを学習する新しいアルゴリズム,LEADERを提案する。 LEADERはニューラルネットワークジェネレータを学び、リアルタイムで人間の行動に注意を向ける。 重要事象に対するバイアス推論に重要サンプリングを用いることで、注意を信念空間プランナーに統合する。 アルゴリズムを訓練するために、アテンションジェネレータとプランナーをmin-maxゲームとして構成する。 最小限のゲームを解くことで、LEADERは人間のラベルなしでリスク認識計画を実行することを学ぶ。

Uncertainty on human behaviors poses a significant challenge to autonomous driving in crowded urban environments. The partially observable Markov decision processes (POMDPs) offer a principled framework for planning under uncertainty, often leveraging Monte Carlo sampling to achieve online performance for complex tasks. However, sampling also raises safety concerns by potentially missing critical events. To address this, we propose a new algorithm, LEarning Attention over Driving bEhavioRs (LEADER), that learns to attend to critical human behaviors during planning. LEADER learns a neural network generator to provide attention over human behaviors in real-time situations. It integrates the attention into a belief-space planner, using importance sampling to bias reasoning towards critical events. To train the algorithm, we let the attention generator and the planner form a min-max game. By solving the min-max game, LEADER learns to perform risk-aware planning without human labeling.
翻訳日:2022-09-26 17:24:49 公開日:2022-09-23
# GitHubにおけるMLOpsの実践に関する予備調査

A Preliminary Investigation of MLOps Practices in GitHub ( http://arxiv.org/abs/2209.11453v1 )

ライセンス: Link先を確認
Fabio Calefato, Filippo Lanubile, Luigi Quaranta(参考訳) 背景。 機械学習(ML)アプリケーションの急速な普及により、MLOps、すなわち、ML対応システムの継続的インテグレーションとデプロイメント(CI/CD)のプラクティスへの関心が高まっている。 狙いだ 変更はコードだけでなく、MLモデルパラメータやデータ自体にも影響する可能性があるため、運用時のモデル再トレーニングを管理するためには、従来のCI/CDの自動化を拡張する必要がある。 方法。 本稿では,GitHubから取得したML対応システムのセットに実装されているMLOpsプラクティスについて,開発ワークフローを自動化する2つのソリューションであるGitHub ActionsとCMLに着目した最初の調査を行う。 結果だ 予備的な結果は、オープンソースGitHubプロジェクトにおけるMLOpsワークフローの採用が、現在かなり制限されていることを示唆しています。 結論だ 課題も特定され、将来の研究を導くことができる。

Background. The rapid and growing popularity of machine learning (ML) applications has led to an increasing interest in MLOps, that is, the practice of continuous integration and deployment (CI/CD) of ML-enabled systems. Aims. Since changes may affect not only the code but also the ML model parameters and the data themselves, the automation of traditional CI/CD needs to be extended to manage model retraining in production. Method. In this paper, we present an initial investigation of the MLOps practices implemented in a set of ML-enabled systems retrieved from GitHub, focusing on GitHub Actions and CML, two solutions to automate the development workflow. Results. Our preliminary results suggest that the adoption of MLOps workflows in open-source GitHub projects is currently rather limited. Conclusions. Issues are also identified, which can guide future research work.
翻訳日:2022-09-26 17:24:33 公開日:2022-09-23
# 画素列を用いた画像分類

Image Classification using Sequence of Pixels ( http://arxiv.org/abs/2209.11495v1 )

ライセンス: Link先を確認
Gajraj Kuldeep(参考訳) 本研究では、繰り返しニューラルネットワークに基づく逐次画像分類法を比較する。 本稿では,Long-Short-Term memory(LSTM)やBidirectional Long-Short-Term memory(BiLSTM)アーキテクチャなどのリカレントニューラルネットワークに基づく手法について述べる。 また,最先端のシーケンシャル画像分類アーキテクチャについても検討する。 本研究は主に、LSTM、BiLSTM、時間的畳み込みネットワーク、および独立したリカレントニューラルネットワークアーキテクチャに焦点を当てている。 RNNは入力シーケンスにおける長期依存の学習に欠けていることが知られている。 入力シーケンス上の直交ラマヌジャン周期変換を用いた簡単な特徴構築法を用いる。 実験により、これらの機能がLSTMやBiLSTMネットワークに提供される場合、性能が劇的に向上することが示された。 本研究は,LSTMおよびBiLSTMアーキテクチャのトレーニング時間を同時に短縮することを目的としているが,最先端の結果のプッシュは行わないので,簡単なLSTM/BiLSTMアーキテクチャを用いる。 MNISTおよびCIFARデータセットの単一層LSTMおよびBiLSTMネットワークへの入力として構築された特徴と逐次入力を比較した。 LSTMネットワークへの連続的な入力は,5つのエポックに対して128個の隠れユニットトレーニングで33%のトレーニング精度が得られるのに対し,同じLSTMネットワークへの入力として構築された特徴は90%のトレーニング精度と1/3の時間短縮をもたらす。

This study compares sequential image classification methods based on recurrent neural networks. We describe methods based on recurrent neural networks such as Long-Short-Term memory(LSTM), bidirectional Long-Short-Term memory(BiLSTM) architectures, etc. We also review the state-of-the-art sequential image classification architectures. We mainly focus on LSTM, BiLSTM, temporal convolution network, and independent recurrent neural network architecture in the study. It is known that RNN lacks in learning long-term dependencies in the input sequence. We use a simple feature construction method using orthogonal Ramanujan periodic transform on the input sequence. Experiments demonstrate that if these features are given to LSTM or BiLSTM networks, the performance increases drastically. Our focus in this study is to increase the training accuracy simultaneously reducing the training time for the LSTM and BiLSTM architecture, but not on pushing the state-of-the-art results, so we use simple LSTM/BiLSTM architecture. We compare sequential input with the constructed feature as input to single layer LSTM and BiLSTM network for MNIST and CIFAR datasets. We observe that sequential input to the LSTM network with 128 hidden unit training for five epochs results in training accuracy of 33% whereas constructed features as input to the same LSTM network results in training accuracy of 90% with 1/3 lesser time.
翻訳日:2022-09-26 17:24:18 公開日:2022-09-23
# 眼科医のような緑内障のスクリーニングを学ぶ

Learning to screen Glaucoma like the ophthalmologists ( http://arxiv.org/abs/2209.11431v1 )

ライセンス: Link先を確認
Junde Wu, Huihui Fang, Fei Li, Huazhu Fu, Yanwu Xu(参考訳) GAMMA Challengeは、眼科医のような2D眼底画像と3D光コヒーレンス断層撮影ボリュームの組み合わせから緑内障をスクリーニングするAIモデルを奨励するために組織されている。

GAMMA Challenge is organized to encourage the AI models to screen the glaucoma from a combination of 2D fundus image and 3D optical coherence tomography volume, like the ophthalmologists.
翻訳日:2022-09-26 17:18:00 公開日:2022-09-23
# 深部動的3次元衣服の動作ガイド

Motion Guided Deep Dynamic 3D Garments ( http://arxiv.org/abs/2209.11449v1 )

ライセンス: Link先を確認
Meng Zhang, Duygu Ceylan, Niloy J. Mitra(参考訳) アニメーションキャラクターのリアルな動的衣服は多くのAR/VR応用がある。 このような動的幾何形状のオーサリングは依然として困難な作業であるが、データ駆動型シミュレーションは、特に基礎となる文字の動きを使って制御できる場合、魅力的な代替手段を提供する。 本研究では,特にゆるい衣服の動作誘導型動的3d衣服に着目した。 データ駆動のセットアップでは、まず、妥当な衣服ジオメトリの生成空間を学習する。 そして、この空間への写像を学習し、被服の以前の状態と、基礎となる身体に対する相対的な位置を条件に、運動に依存する動的変形を捉える。 技術的には,フレーム依存のスキンウエイトに富んだ衣服の正準状態におけるフレーム毎の局所変位を予測し,入力キャラクタモーションを駆使して衣服のダイナミックスをモデル化した。 残余の局所変位を予測し,残余のフレーム毎の衝突を解消する。 結果として得られた衣服形状は、反復的なロールアウト予測を可能にするために履歴として使用される。 体型や運動入力を知覚できないものに可能な一般化を示し,最先端の代替品に対する改善を示す。

Realistic dynamic garments on animated characters have many AR/VR applications. While authoring such dynamic garment geometry is still a challenging task, data-driven simulation provides an attractive alternative, especially if it can be controlled simply using the motion of the underlying character. In this work, we focus on motion guided dynamic 3D garments, especially for loose garments. In a data-driven setup, we first learn a generative space of plausible garment geometries. Then, we learn a mapping to this space to capture the motion dependent dynamic deformations, conditioned on the previous state of the garment as well as its relative position with respect to the underlying body. Technically, we model garment dynamics, driven using the input character motion, by predicting per-frame local displacements in a canonical state of the garment that is enriched with frame-dependent skinning weights to bring the garment to the global space. We resolve any remaining per-frame collisions by predicting residual local displacements. The resultant garment geometry is used as history to enable iterative rollout prediction. We demonstrate plausible generalization to unseen body shapes and motion inputs, and show improvements over multiple state-of-the-art alternatives.
翻訳日:2022-09-26 17:17:54 公開日:2022-09-23
# モジュラー劣化シミュレーションとアンダーディスプレイカメラの復元

Modular Degradation Simulation and Restoration for Under-Display Camera ( http://arxiv.org/abs/2209.11455v1 )

ライセンス: Link先を確認
Yang Zhou, Yuda Song, Xin Du(参考訳) ディスプレイ下カメラ(UDC)はフルスクリーンスマートフォンにエレガントなソリューションを提供する。 しかし、udcが捉えた画像は、センサーがディスプレイの下に置かれているため、深刻な劣化に苦しむ。 この問題は画像復元ネットワークによって解決できるが、これらのネットワークはトレーニングのために大規模な画像ペアを必要とする。 そこで本研究では,UDCイメージングのシミュレーションにGAN(Generative Adversarial Network)フレームワークを用いたMPGNetと呼ばれるモジュールネットワークを提案する。 具体的には、UDC画像劣化プロセスには、輝度減衰、ぼかし、ノイズ劣化が含まれる。 したがって、各分解を特性関連モジュラーネットワークでモデル化し、全てのモジュラーネットワークをカスケードして生成器を形成する。 画素方向の判別器と教師付き損失を組み合わせることで,uccイメージング劣化過程をシミュレートする発電機を訓練することができる。 さらに,UDC画像復元のためのトランスフォーマー型ネットワークDWFormerを提案する。 実用上,局所空間情報を集約するマルチヘッドセルフアテンションに代えて,奥行き方向畳み込みを用いる。 また,明るさ回復に重要なグローバル情報を集約する新しいチャネルアテンションモジュールを提案する。 提案手法は, P-OLEDトラックでは1.23dB, T-OLEDトラックでは0.71dB, 従来の最先端モデルでは0。

Under-display camera (UDC) provides an elegant solution for full-screen smartphones. However, UDC captured images suffer from severe degradation since sensors lie under the display. Although this issue can be tackled by image restoration networks, these networks require large-scale image pairs for training. To this end, we propose a modular network dubbed MPGNet trained using the generative adversarial network (GAN) framework for simulating UDC imaging. Specifically, we note that the UDC imaging degradation process contains brightness attenuation, blurring, and noise corruption. Thus we model each degradation with a characteristic-related modular network, and all modular networks are cascaded to form the generator. Together with a pixel-wise discriminator and supervised loss, we can train the generator to simulate the UDC imaging degradation process. Furthermore, we present a Transformer-style network named DWFormer for UDC image restoration. For practical purposes, we use depth-wise convolution instead of the multi-head self-attention to aggregate local spatial information. Moreover, we propose a novel channel attention module to aggregate global information, which is critical for brightness recovery. We conduct evaluations on the UDC benchmark, and our method surpasses the previous state-of-the-art models by 1.23 dB on the P-OLED track and 0.71 dB on the T-OLED track, respectively.
翻訳日:2022-09-26 17:17:35 公開日:2022-09-23
# 緑内障検出のための眼底画像のセグメンテーションに基づく情報抽出とアマルガメーション

Segmentation-based Information Extraction and Amalgamation in Fundus Images for Glaucoma Detection ( http://arxiv.org/abs/2209.11456v1 )

ライセンス: Link先を確認
Yanni Wang, Gang Yang, Dayong Ding, Jianchun Zao(参考訳) 緑内障は重篤な盲目疾患であり、眼科医の不足を軽減するために自動検出手法が緊急に必要である。 緑内障検出には視板とカップのセグメンテーションを含む深層学習法を採用することが提案されており、セグメンテーションプロセスは単に上流のサブタスクと見なされることが多い。 緑内障評価における共同意思決定の観点からの眼底画像とセグメンテーションマスクの関係について検討することは稀である。 本研究は,眼底画像のリッチな情報を無視しずにセグメンテーションマスクの堅牢性を活用する,緑内障検出タスクのための,新しいセグメンテーションに基づく情報抽出とアマルガメーション手法を提案する。 実験結果から,提案手法は,ファンドス画像やマスクのみを用いたモデルよりも優れていることが示された。

Glaucoma is a severe blinding disease, for which automatic detection methods are urgently needed to alleviate the scarcity of ophthalmologists. Many works have proposed to employ deep learning methods that involve the segmentation of optic disc and cup for glaucoma detection, in which the segmentation process is often considered merely as an upstream sub-task. The relationship between fundus images and segmentation masks in terms of joint decision-making in glaucoma assessment is rarely explored. We propose a novel segmentation-based information extraction and amalgamation method for the task of glaucoma detection, which leverages the robustness of segmentation masks without disregarding the rich information in the original fundus images. Experimental results on both private and public datasets demonstrate that our proposed method outperforms all models that utilize solely either fundus images or masks.
翻訳日:2022-09-26 17:17:12 公開日:2022-09-23
# 意味的概念マイニングによる教師なしハッシュ

Unsupervised Hashing with Semantic Concept Mining ( http://arxiv.org/abs/2209.11475v1 )

ライセンス: Link先を確認
Rong-Cheng Tu and Xian-Ling Mao and Kevin Qinghong Lin and Chengfei Cai and Weize Qin and Hongfa Wang and Wei Wei and Heyan Huang(参考訳) 近年,教師なし画像検索の性能向上のために,事前学習したCNNモデルにより抽出された画像特徴の類似性に基づく意味的類似度行列を設計することで,教師なしハッシュ法が多数提案されている。 しかし、これらの手法の多くは画像に含まれる高レベルの抽象的意味概念を無視する傾向にある。 直感的には、概念は画像間の類似性を計算する上で重要な役割を果たす。 現実のシナリオでは、各イメージはいくつかの概念に関連付けられており、2つのイメージ間の類似性は、より同一のコンセプトを共有する場合より大きくなる。 上記の直感にインスパイアされた本研究では,VLPモデルを利用して高品質な類似性行列を構築する,UHSCMと呼ばれる,非教師付きハッシュとセマンティック概念マイニングを提案する。 具体的には、ランダムに選択された概念のセットを最初に収集する。 そして、視覚表現学習において強力な力を示すプロンプトエンジニアリングを用いて視覚言語前訓練(vlp)モデルを使用することにより、学習画像に応じて概念集合を分別する。 次に,提案手法をVLPモデルに適用し,各画像の概念分布をマイニングし,マイニングされた概念分布に基づいて高品質な意味的類似性行列を構築する。 最後に、意味的類似度行列を案内情報として、修正された対照的な損失に基づく正規化項目による新規ハッシュ損失を提案し、ハッシュネットワークを最適化する。 3つのベンチマークデータセットの大規模な実験により,提案手法は画像検索タスクにおける最先端のベースラインよりも優れていた。

Recently, to improve the unsupervised image retrieval performance, plenty of unsupervised hashing methods have been proposed by designing a semantic similarity matrix, which is based on the similarities between image features extracted by a pre-trained CNN model. However, most of these methods tend to ignore high-level abstract semantic concepts contained in images. Intuitively, concepts play an important role in calculating the similarity among images. In real-world scenarios, each image is associated with some concepts, and the similarity between two images will be larger if they share more identical concepts. Inspired by the above intuition, in this work, we propose a novel Unsupervised Hashing with Semantic Concept Mining, called UHSCM, which leverages a VLP model to construct a high-quality similarity matrix. Specifically, a set of randomly chosen concepts is first collected. Then, by employing a vision-language pretraining (VLP) model with the prompt engineering which has shown strong power in visual representation learning, the set of concepts is denoised according to the training images. Next, the proposed method UHSCM applies the VLP model with prompting again to mine the concept distribution of each image and construct a high-quality semantic similarity matrix based on the mined concept distributions. Finally, with the semantic similarity matrix as guiding information, a novel hashing loss with a modified contrastive loss based regularization item is proposed to optimize the hashing network. Extensive experiments on three benchmark datasets show that the proposed method outperforms the state-of-the-art baselines in the image retrieval task.
翻訳日:2022-09-26 17:16:54 公開日:2022-09-23
# ベクトル量子化セマンティック通信システム

Vector Quantized Semantic Communication System ( http://arxiv.org/abs/2209.11519v1 )

ライセンス: Link先を確認
Qifan Fu, Huiqiang Xie, Zhijin Qin, Gregory Slabaugh, and Xiaoming Tao(参考訳) アナログ・セマンティック・コミュニケーション・システムは文献で注目されているが、デジタル・セマンティック・コミュニケーション・システムの研究は少ない。 本稿では,画像伝送のための深層学習(dl)対応ベクトル量子化(vq)意味通信システムvq-deepscを開発した。 具体的には,畳み込みニューラルネットワーク(cnn)ベースのトランシーバを提案する。画像のマルチスケールな意味的特徴を抽出し,意味的特徴量化を行うためのマルチスケール意味埋め込み空間を導入し,デジタル通信システムと互換性のあるデータを生成する。 さらに,patsgan判別器を導入することで,受信画像の質を向上させるための敵意訓練も行う。 実験の結果,提案するVQ-DeepSCは従来の画像伝送方式よりもSSIMの方が優れていた。

Although analog semantic communication systems have received considerable attention in the literature, there is less work on digital semantic communication systems. In this paper, we develop a deep learning (DL)-enabled vector quantized (VQ) semantic communication system for image transmission, named VQ-DeepSC. Specifically, we propose a convolutional neural network (CNN)-based transceiver to extract multi-scale semantic features of images and introduce multi-scale semantic embedding spaces to perform semantic feature quantization, rendering the data compatible with digital communication systems. Furthermore, we employ adversarial training to improve the quality of received images by introducing a PatchGAN discriminator. Experimental results demonstrate that the proposed VQ-DeepSC outperforms traditional image transmission methods in terms of SSIM.
翻訳日:2022-09-26 17:16:27 公開日:2022-09-23
# 粗視画像ペアからの自律走行のための画像間変換

Image-to-Image Translation for Autonomous Driving from Coarsely-Aligned Image Pairs ( http://arxiv.org/abs/2209.11673v1 )

ライセンス: Link先を確認
Youya Xia, Josephine Monica, Wei-Lun Chao, Bharath Hariharan, Kilian Q Weinberger, Mark Campbell(参考訳) 自動運転車は、安全のために悪天候(例えば雪)を確実に処理できなければならない。 本稿では,下流課題(意味セグメンテーション,意味セグメンテーション,意味セグメンテーション,意味セグメンテーション,意味セグメンテーション)を高い精度で達成できる,悪い条件下でキャプチャされたセンサ入力(イメージ)を良質なもの(サニー)に変換する方法を検討する。 以前の研究は、全く同じカメラポーズとセマンティックレイアウトで撮影されたペア画像が欠如していることから、この問題を画像から画像への変換問題として定式化していた。 完全整列画像は利用できないが、粗いペアリング画像を容易に得ることができる。 例えば、多くの人々が天気と悪天候の両方で同じルートを毎日運転しているため、近距離GPSで撮影された画像はペアを作ることができる。 反復トラバーサルのデータは同じフォアグラウンドオブジェクトをキャプチャする可能性は低いが、画像翻訳モデルを監視するために豊富なコンテキスト情報を提供していると仮定する。 そこで本研究では,粗調整画像ペアを用いた新しい学習目標を提案する。 提案手法は, 画像翻訳品質の向上と, セマンティックセグメンテーション, 単眼深度推定, 視覚定位などの下流タスクの改善に寄与することを示す。

A self-driving car must be able to reliably handle adverse weather conditions (e.g., snowy) to operate safely. In this paper, we investigate the idea of turning sensor inputs (i.e., images) captured in an adverse condition into a benign one (i.e., sunny), upon which the downstream tasks (e.g., semantic segmentation) can attain high accuracy. Prior work primarily formulates this as an unpaired image-to-image translation problem due to the lack of paired images captured under the exact same camera poses and semantic layouts. While perfectly-aligned images are not available, one can easily obtain coarsely-paired images. For instance, many people drive the same routes daily in both good and adverse weather; thus, images captured at close-by GPS locations can form a pair. Though data from repeated traversals are unlikely to capture the same foreground objects, we posit that they provide rich contextual information to supervise the image translation model. To this end, we propose a novel training objective leveraging coarsely-aligned image pairs. We show that our coarsely-aligned training scheme leads to a better image translation quality and improved downstream tasks, such as semantic segmentation, monocular depth estimation, and visual localization.
翻訳日:2022-09-26 17:16:10 公開日:2022-09-23
# 視覚コンテンツモデリングによる新種のCTR予測の高速化

Boost CTR Prediction for New Advertisements via Modeling Visual Content ( http://arxiv.org/abs/2209.11727v1 )

ライセンス: Link先を確認
Tan Yu, Zhipeng Jin, Jie Liu, Yi Yang, Hongliang Fei, Ping Li(参考訳) 既存の広告クリックスルーレート(CTR)予測モデルは主に行動IDの特徴に依存しており、過去のユーザ・アドインタラクションに基づいて学習されている。 それでも、過去のユーザー行動に依存する behavior id 機能は、以前のユーザーとのやりとりなしに新しい広告を記述することは不可能である。 新しい広告をモデル化する際の行動ID機能の限界を克服するため、広告の視覚的内容を利用してCTR予測モデルの性能を向上させる。 具体的には、各広告をビジュアルコンテンツに基づいて一連のビジュアルidにマップする。 これらの視覚IDは、CTR予測モデルを強化する視覚埋め込みを生成するためにさらに使用される。 我々は、視覚的IDの学習を教師付き量子化問題に定式化する。 広告における商用画像の分類ラベルの欠如により,画像のテキスト記述を利用して画像抽出器を最適化し,有効なビジュアルIDを生成する。 一方、ハード量子化は微分不可能であるため、量子化操作を軟化し、エンドツーエンドのネットワークトレーニングをサポートする。 各画像を視覚IDにマッピングした後,過去のユーザ・アドインタラクションに基づいて,視覚IDの埋め込みを学習する。 visual id埋め込みはビジュアルコンテンツのみに依存するので、新しい広告にうまく一般化します。 一方、ビジュアルIDの埋め込みは広告行動IDの埋め込みを補完する。 これにより、従来のCTR予測モデルでは、リッチなユーザの振る舞いを蓄積した新しい広告と広告の両方の行動ID機能に依存していた。 Baiduオンライン広告のCTR予測モデルにビジュアルIDを埋め込んだ後、広告の平均CTRは1.46%改善し、総料金は1.10%増加した。

Existing advertisements click-through rate (CTR) prediction models are mainly dependent on behavior ID features, which are learned based on the historical user-ad interactions. Nevertheless, behavior ID features relying on historical user behaviors are not feasible to describe new ads without previous interactions with users. To overcome the limitations of behavior ID features in modeling new ads, we exploit the visual content in ads to boost the performance of CTR prediction models. Specifically, we map each ad into a set of visual IDs based on its visual content. These visual IDs are further used for generating the visual embedding for enhancing CTR prediction models. We formulate the learning of visual IDs into a supervised quantization problem. Due to a lack of class labels for commercial images in advertisements, we exploit image textual descriptions as the supervision to optimize the image extractor for generating effective visual IDs. Meanwhile, since the hard quantization is non-differentiable, we soften the quantization operation to make it support the end-to-end network training. After mapping each image into visual IDs, we learn the embedding for each visual ID based on the historical user-ad interactions accumulated in the past. Since the visual ID embedding depends only on the visual content, it generalizes well to new ads. Meanwhile, the visual ID embedding complements the ad behavior ID embedding. Thus, it can considerably boost the performance of the CTR prediction models previously relying on behavior ID features for both new ads and ads that have accumulated rich user behaviors. After incorporating the visual ID embedding in the CTR prediction model of Baidu online advertising, the average CTR of ads improves by 1.46%, and the total charge increases by 1.10%.
翻訳日:2022-09-26 17:15:21 公開日:2022-09-23
# 複数ラベルオンライン連続学習のためのメモリ内クラス分散の最適化

Optimizing Class Distribution in Memory for Multi-Label Online Continual Learning ( http://arxiv.org/abs/2209.11469v1 )

ライセンス: Link先を確認
Yan-Shuo Liang and Wu-Jun Li(参考訳) オンライン連続学習(特にタスクのアイデンティティとタスク境界が利用できない場合)は、困難な継続的学習環境である。 オンライン連続学習の代表的な方法はリプレイベースの手法であり、メモリと呼ばれるリプレイバッファが維持され、過去のサンプルのごく一部を保持して破滅的な忘れを克服する。 オンライン連続学習に取り組む場合、既存のリプレイベースの手法のほとんどは、データストリームの各サンプルがラベルを1つだけ持つシングルラベルの問題に焦点を当てている。 しかし、複数ラベルの問題は、各サンプルが複数のラベルを持つオンライン連続学習環境でも起こりうる。 マルチラベルサンプルを用いたオンライン環境では、データストリーム内のクラス分布は概して非常に不均衡であり、あるクラスに属するサンプルの数が他のクラスに属するサンプルの数に影響を与える可能性があるため、メモリ内のクラス分布を制御することは困難である。 しかし、メモリ内のクラス分布は、特にデータストリーム内のクラス分布が高度に不均衡である場合に、リプレイベースのメモリが優れたパフォーマンスを得るために重要である。 本稿では,複数ラベルのオンライン連続学習において,メモリにおけるクラス分布の最適化(OCDM)という,シンプルだが効果的な手法を提案する。 OCDMはメモリ更新機構を最適化問題として定式化し、この問題を解決することでメモリを更新する。 広く使われている2つのマルチラベルデータセットの実験は、OCDMがメモリ内のクラス分布をうまく制御でき、他の最先端の手法よりも優れていることを示している。

Online continual learning, especially when task identities and task boundaries are unavailable, is a challenging continual learning setting. One representative kind of methods for online continual learning is replay-based methods, in which a replay buffer called memory is maintained to keep a small part of past samples for overcoming catastrophic forgetting. When tackling with online continual learning, most existing replay-based methods focus on single-label problems in which each sample in the data stream has only one label. But multi-label problems may also happen in the online continual learning setting in which each sample may have more than one label. In the online setting with multi-label samples, the class distribution in data stream is typically highly imbalanced, and it is challenging to control class distribution in memory since changing the number of samples belonging to one class may affect the number of samples belonging to other classes. But class distribution in memory is critical for replay-based memory to get good performance, especially when the class distribution in data stream is highly imbalanced. In this paper, we propose a simple but effective method, called optimizing class distribution in memory (OCDM), for multi-label online continual learning. OCDM formulates the memory update mechanism as an optimization problem and updates the memory by solving this problem. Experiments on two widely used multi-label datasets show that OCDM can control the class distribution in memory well and can outperform other state-of-the-art methods.
翻訳日:2022-09-26 17:09:26 公開日:2022-09-23
# アクティブFew-Shot分類:データスカース学習のための新しいパラダイム

Active Few-Shot Classification: a New Paradigm for Data-Scarce Learning Settings ( http://arxiv.org/abs/2209.11481v1 )

ライセンス: Link先を確認
Aymane Abdali, Vincent Gripon, Lucas Drumetz, Bartosz Boguslawski(参考訳) 本稿では,ラベル付け予算が制限された小さなデータセットを分類することを目的とした,AFSC (Active Few-Shot Classification) 問題の新しい定式化について考察する。 この問題は、どちらも同様の条件で適用できるため、古典的トランスダクティブ・フューショット分類(TFSC)と競合するパラダイムと見なすことができる。 まず,統計的推論と,この枠組みに適合する2段階のアクティブラーニング戦略を組み合わせた方法論を提案する。 次に、TFSCの分野からいくつかの標準ビジョンベンチマークを適用します。 実験の結果、afscの潜在的な利点は実質的であり、同じラベリング予算で最先端のtfsc法と比較して、平均重み付け精度が最大10%向上することが示された。 この新しいパラダイムは、データスカース学習環境における新しい開発や標準に繋がる可能性があると考えています。

We consider a novel formulation of the problem of Active Few-Shot Classification (AFSC) where the objective is to classify a small, initially unlabeled, dataset given a very restrained labeling budget. This problem can be seen as a rival paradigm to classical Transductive Few-Shot Classification (TFSC), as both these approaches are applicable in similar conditions. We first propose a methodology that combines statistical inference, and an original two-tier active learning strategy that fits well into this framework. We then adapt several standard vision benchmarks from the field of TFSC. Our experiments show the potential benefits of AFSC can be substantial, with gains in average weighted accuracy of up to 10% compared to state-of-the-art TFSC methods for the same labeling budget. We believe this new paradigm could lead to new developments and standards in data-scarce learning settings.
翻訳日:2022-09-26 17:09:00 公開日:2022-09-23
# ラグランジグラフニューラルネットワークによる剛体力学の学習

Learning Rigid Body Dynamics with Lagrangian Graph Neural Network ( http://arxiv.org/abs/2209.11588v1 )

ライセンス: Link先を確認
Ravinder Bhattoo, Sayan Ranu, N. M. Anoop Krishnan(参考訳) ラグランジアンニューラルネットワークとハミルトンニューラルネットワーク(LNNとHNN)は、強い帰納バイアスを符号化し、物理的システムの他のモデルを大幅に上回る。 しかし、これらのモデルは今のところほとんどが振り子やばねのような単純なシステムやジャイロスコープや剛体ローターのような単一の剛体に限られている。 本稿では、そのトポロジを利用して剛体の力学を学習できるラグランジアングラフニューラルネットワーク(LGNN)を提案する。 ロープ,チェーン,トラスの力学を剛体としてモデル化した棒を用いて学習し,lgnnの性能を示す。 lgnnはいくつかのセグメントでチェーンでトレーニングされたlgnnは、多数のリンクと任意のリンク長を持つチェーンをシミュレートする汎用性を示している。 また、LGNNは、訓練されていないバーやチェーンを含む、目に見えないハイブリッドシステムをシミュレートできることを示す。 特に,lgnnはテンセグリティ構造の安定性などの複雑な実世界の構造のダイナミクスのモデル化に利用できることを示した。 最後に、質量行列の非対角的性質と複素系において一般化する能力について論じる。

Lagrangian and Hamiltonian neural networks (LNN and HNN respectively) encode strong inductive biases that allow them to outperform other models of physical systems significantly. However, these models have, thus far, mostly been limited to simple systems such as pendulums and springs or a single rigid body such as a gyroscope or a rigid rotor. Here, we present a Lagrangian graph neural network (LGNN) that can learn the dynamics of rigid bodies by exploiting their topology. We demonstrate the performance of LGNN by learning the dynamics of ropes, chains, and trusses with the bars modeled as rigid bodies. LGNN also exhibits generalizability -- LGNN trained on chains with a few segments exhibits generalizability to simulate a chain with large number of links and arbitrary link length. We also show that the LGNN can simulate unseen hybrid systems including bars and chains, on which they have not been trained on. Specifically, we show that the LGNN can be used to model the dynamics of complex real-world structures such as the stability of tensegrity structures. Finally, we discuss the non-diagonal nature of the mass matrix and it's ability to generalize in complex systems.
翻訳日:2022-09-26 17:08:43 公開日:2022-09-23
# ニューラルクランプ:ニューラルネットワークキャリブレーションのためのジョイント入力摂動と温度スケーリング

Neural Clamping: Joint Input Perturbation and Temperature Scaling for Neural Network Calibration ( http://arxiv.org/abs/2209.11604v1 )

ライセンス: Link先を確認
Yung-Chen Tang, Pin-Yu Chen, Tsung-Yi Ho(参考訳) ニューラルネットワークキャリブレーションは、モデル予測の信頼性と真正性確率との整合性を確保するために、ディープラーニングにおいて不可欠なタスクである。 本稿では,学習可能な普遍的な入力摂動と出力温度スケーリングパラメータを用いて,事前学習した分類器に単純な結合入力出力変換を用いたニューラルクランプ方式を提案する。 さらに,ニューラルクランプが温度スケールよりも優れている理由を理論的に説明する。 CIFAR-100とImageNetの画像認識データセットと、さまざまなディープニューラルネットワークモデルに基づいて評価した結果、Neural Clampingは、最先端の処理後のキャリブレーション手法よりも大幅に優れていることが示された。

Neural network calibration is an essential task in deep learning to ensure consistency between the confidence of model prediction and the true correctness likelihood. In this paper, we propose a new post-processing calibration method called Neural Clamping, which employs a simple joint input-output transformation on a pre-trained classifier via a learnable universal input perturbation and an output temperature scaling parameter. Moreover, we provide theoretical explanations on why Neural Clamping is provably better than temperature scaling. Evaluated on CIFAR-100 and ImageNet image recognition datasets and a variety of deep neural network models, our empirical results show that Neural Clamping significantly outperforms state-of-the-art post-processing calibration methods.
翻訳日:2022-09-26 17:08:24 公開日:2022-09-23
# Beatrix' Resurrections:Gram行列によるロバストなバックドア検出

The "Beatrix'' Resurrections: Robust Backdoor Detection via Gram Matrices ( http://arxiv.org/abs/2209.11715v1 )

ライセンス: Link先を確認
Wanlun Ma, Derui Wang, Ruoxi Sun, Minhui Xue, Sheng Wen and Yang Xiang(参考訳) Deep Neural Networks(DNN)は、トレーニング中のバックドア攻撃の影響を受けやすい。 この方法でモデルは正常に機能するが、入力の特定のパターンによってトリガーされると、事前に定義されたターゲットラベルが生成される。 既存の防御は、通常、有毒なサンプルが同じ均一なトリガーを共有する普遍的なバックドア設定の仮定に依存している。 しかし、最近の先進的なバックドア攻撃は、トリガーが入力によって異なる動的バックドアでは、この仮定がもはや有効ではないことを示している。 本研究では,新しい手法であるbeatrix (backdoor detection via gram matrix)を提案する。 beatrixはgram matrixを使用して、特徴相関だけでなく、表現の適切な高次情報もキャプチャする。 正常なサンプルの活性化パターンからクラス条件の統計を学習することで、beatrixは活性化パターンの異常を捉えて有毒なサンプルを識別できる。 ターゲットラベルを識別する際のパフォーマンスをさらに向上するため、Beatrixはカーネルベースのテストを活用している。 本手法の有効性を,最先端の防御技術との比較と評価により実証する。 実験の結果,本手法は動的バックドアの検出において91.1%のf1スコアを達成できたが,36.9%に留まっていた。

Deep Neural Networks (DNNs) are susceptible to backdoor attacks during training. The model corrupted in this way functions normally, but when triggered by certain patterns in the input, produces a predefined target label. Existing defenses usually rely on the assumption of the universal backdoor setting in which poisoned samples share the same uniform trigger. However, recent advanced backdoor attacks show that this assumption is no longer valid in dynamic backdoors where the triggers vary from input to input, thereby defeating the existing defenses. In this work, we propose a novel technique, Beatrix (backdoor detection via Gram matrix). Beatrix utilizes Gram matrix to capture not only the feature correlations but also the appropriately high-order information of the representations. By learning class-conditional statistics from activation patterns of normal samples, Beatrix can identify poisoned samples by capturing the anomalies in activation patterns. To further improve the performance in identifying target labels, Beatrix leverages kernel-based testing without making any prior assumptions on representation distribution. We demonstrate the effectiveness of our method through extensive evaluation and comparison with state-of-the-art defensive techniques. The experimental results show that our approach achieves an F1 score of 91.1% in detecting dynamic backdoors, while the state of the art can only reach 36.9%.
翻訳日:2022-09-26 17:07:38 公開日:2022-09-23
# 因果効果の成層化推定器における特徴選択:潜在的な結果、因果図、構造方程式からの教訓

Feature selection in stratification estimators of causal effects: lessons from potential outcomes, causal diagrams, and structural equations ( http://arxiv.org/abs/2209.11400v1 )

ライセンス: Link先を確認
P. Richard Hahn, Andrew Herren(参考訳) 平均因果効果を推定するのに理想的な回帰は何か? 本研究では, 離散共変量の設定において, 様々な成層推定器の有限サンプル分散の式を導出する。 このアプローチは、多くの広く励起された結果の基礎となる基本的な統計現象を明らかにする。 我々の展示は、因果効果推定(潜在的な結果、因果図、付加的誤りを伴う構造モデル)を研究するための3つの異なる方法論の伝統からの洞察を組み合わせる。

What is the ideal regression (if any) for estimating average causal effects? We study this question in the setting of discrete covariates, deriving expressions for the finite-sample variance of various stratification estimators. This approach clarifies the fundamental statistical phenomena underlying many widely-cited results. Our exposition combines insights from three distinct methodological traditions for studying causal effect estimation: potential outcomes, causal diagrams, and structural models with additive errors.
翻訳日:2022-09-26 17:07:16 公開日:2022-09-23
# PNeRF:不確実な3次元視覚マッピングのための確率論的ニューラルシーン表現

PNeRF: Probabilistic Neural Scene Representations for Uncertain 3D Visual Mapping ( http://arxiv.org/abs/2209.11677v1 )

ライセンス: Link先を確認
Yassine Ahmine, Arnab Dey and Andrew I. Comport(参考訳) 近年のニューラルシーン表現は、3dシーンを視覚的に表現するための非常に印象的な結果を提供しているが、その研究と進歩は、主にコンピュータグラフィックスにおける仮想モデルの可視化や、センサやポーズの不確かさを明示的に説明せずにコンピュータビジョンでのシーン再構成に限られている。 しかし、ロボット工学のアプリケーションでこの斬新なシーン表現を使うことは、神経地図のこの不確実性を説明する必要がある。 そこで本稿は,ロボット応用におけるこれらの表現の包含を可能にする不確定な学習データを用いて,「確率的ニューラルシーン表現」を訓練する新しい手法を提案する。 カメラや深度センサーを用いた画像の取得には固有の不確実性があり、さらに3Dモデルを学ぶために使用されるカメラのポーズも不完全である。 これらの測定値が不確実性を考慮せずにトレーニングに使用される場合、結果のモデルは最適ではなく、結果のシーン表現には、ぼやけや不均一な幾何学などのアーティファクトが含まれる可能性が高い。 本研究では,不確実性情報を用いた学習を確率論的に行うことにより,学習プロセスへの不確実性統合の問題を検討する。 提案手法は,ネットワークの学習確率分布を学習不確実性に対して最小化するように,不確実性項でトレーニング確率を明示的に強化することを含む。 これは、より正確で一貫した幾何学に加えて、より正確な画像レンダリング品質をもたらすことが示される。 合成データと実データの両方で検証を行い、提案手法が最先端の手法より優れていることを示す。 提案手法は,訓練データに制限がある場合でも,新しい高品質なビューを描画できることを示す。

Recently neural scene representations have provided very impressive results for representing 3D scenes visually, however, their study and progress have mainly been limited to visualization of virtual models in computer graphics or scene reconstruction in computer vision without explicitly accounting for sensor and pose uncertainty. Using this novel scene representation in robotics applications, however, would require accounting for this uncertainty in the neural map. The aim of this paper is therefore to propose a novel method for training {\em probabilistic neural scene representations} with uncertain training data that could enable the inclusion of these representations in robotics applications. Acquiring images using cameras or depth sensors contains inherent uncertainty, and furthermore, the camera poses used for learning a 3D model are also imperfect. If these measurements are used for training without accounting for their uncertainty, then the resulting models are non-optimal, and the resulting scene representations are likely to contain artifacts such as blur and un-even geometry. In this work, the problem of uncertainty integration to the learning process is investigated by focusing on training with uncertain information in a probabilistic manner. The proposed method involves explicitly augmenting the training likelihood with an uncertainty term such that the learnt probability distribution of the network is minimized with respect to the training uncertainty. It will be shown that this leads to more accurate image rendering quality, in addition to more precise and consistent geometry. Validation has been carried out on both synthetic and real datasets showing that the proposed approach outperforms state-of-the-art methods. The results show notably that the proposed method is capable of rendering novel high-quality views even when the training data is limited.
翻訳日:2022-09-26 17:00:51 公開日:2022-09-23
# 自閉症スクリーニングのための多変量waserstein機能接続

Multivariate Wasserstein Functional Connectivity for Autism Screening ( http://arxiv.org/abs/2209.11703v1 )

ライセンス: Link先を確認
Oleg Kachan, Alexander Bernstein(参考訳) 機能的磁気共鳴画像(fMRI)データから脳の機能的接続を推定するための最も一般的なアプローチは、統計的依存度(またはより一般的には、複数のボクセルからなる関心領域(ROI)の単変量代表時間列間の距離)の計算に依存する。 しかし、ROIの多重時系列を平均または第一主成分(1PC)で要約すると、例えば、1PCは神経活動の多変量信号のわずかなばらつきしか説明できないため、情報の損失をもたらす可能性がある。 代表時系列を使わずにROIを直接比較し、ワッサーシュタイン距離に基づいて、必ずしも同じ数のボクセルからなるとは限らないROI間の多変量接続の新たな尺度を定義することを提案する。 提案する自閉症スクリーニングタスクにおけるwaserstein機能接続尺度を評価し,汎用の非変量・多変量機能接続尺度よりもその優越性を示す。

Most approaches to the estimation of brain functional connectivity from the functional magnetic resonance imaging (fMRI) data rely on computing some measure of statistical dependence, or more generally, a distance between univariate representative time series of regions of interest (ROIs) consisting of multiple voxels. However, summarizing a ROI's multiple time series with its mean or the first principal component (1PC) may result to the loss of information as, for example, 1PC explains only a small fraction of variance of the multivariate signal of the neuronal activity. We propose to compare ROIs directly, without the use of representative time series, defining a new measure of multivariate connectivity between ROIs, not necessarily consisting of the same number of voxels, based on the Wasserstein distance. We assess the proposed Wasserstein functional connectivity measure on the autism screening task, demonstrating its superiority over commonly used univariate and multivariate functional connectivity measures.
翻訳日:2022-09-26 17:00:20 公開日:2022-09-23
# 視覚テキスト分析のための評価と実験設計に関する学際的視点:位置紙

An Interdisciplinary Perspective on Evaluation and Experimental Design for Visual Text Analytics: Position Paper ( http://arxiv.org/abs/2209.11534v1 )

ライセンス: Link先を確認
Kostiantyn Kucher, Nicole Sultanum, Angel Daza, Vasiliki Simaki, Maria Skeppstedt, Barbara Plank, Jean-Daniel Fekete, and Narges Mahyar(参考訳) 適切な評価と実験設計は経験的科学、特にデータ駆動分野において基本である。 例えば、言語の計算モデリングの成功により、研究結果がエンドユーザにすぐに影響を与えるようになっている。 エンドユーザによる採用のギャップが減少するにつれ、研究コミュニティや実践者が開発したツールやモデルが信頼性が高く、信頼性が高く、ユーザを目標に支援する必要性が高まる。 本稿では,ビジュアルテキスト分析手法の評価に関する課題に注目する。 我々は可視化と自然言語処理のコミュニティから学際的な視点を取り、ビジュアルテキスト分析の設計と検証には、それ自体で計算やビジュアル/インタラクティブな方法以上の関心があると主張する。 視覚テキスト分析手法(データあいまいさ,実験設計,ユーザ信頼,および「全体像の懸念」)を評価する上での課題の4つの主要なグループを特定し,学際的な視点から研究機会を提案する。

Appropriate evaluation and experimental design are fundamental for empirical sciences, particularly in data-driven fields. Due to the successes in computational modeling of languages, for instance, research outcomes are having an increasingly immediate impact on end users. As the gap in adoption by end users decreases, the need increases to ensure that tools and models developed by the research communities and practitioners are reliable, trustworthy, and supportive of the users in their goals. In this position paper, we focus on the issues of evaluating visual text analytics approaches. We take an interdisciplinary perspective from the visualization and natural language processing communities, as we argue that the design and validation of visual text analytics include concerns beyond computational or visual/interactive methods on their own. We identify four key groups of challenges for evaluating visual text analytics approaches (data ambiguity, experimental design, user trust, and "big picture'' concerns) and provide suggestions for research opportunities from an interdisciplinary perspective.
翻訳日:2022-09-26 17:00:02 公開日:2022-09-23
# プロンプタレータ:8つの例から数発のDense Retrieval

Promptagator: Few-shot Dense Retrieval From 8 Examples ( http://arxiv.org/abs/2209.11755v1 )

ライセンス: Link先を確認
Zhuyun Dai, Vincent Y. Zhao, Ji Ma, Yi Luan, Jianmo Ni, Jing Lu, Anton Bakalov, Kelvin Guu, Keith B. Hall, Ming-Wei Chang(参考訳) 情報検索に関する最近の研究は、あるタスク(典型的には豊富な教師付きデータ)から、あるタスクから他のタスクへ一般化できるという暗黙の仮定で、監督が限られているタスクへの転送方法に焦点を当てている。 しかし、これは様々な検索意図、クエリ、検索ドメインをターゲットにした、多種多様なユニークな検索タスクが存在するという事実を見落としている。 本稿では,各タスクが短い記述といくつかの例を伴って現れるような,数ショットの密集した検索を行うように提案する。 提案するPrompt-base Query Generation for Retriever(Promptagator)は,大規模言語モデル(LLM)を数発のクエリ生成器として活用し,生成したデータに基づいてタスク固有の検索器を生成する。 llmの一般化能力によって、プロンパゲータは、タスク固有のエンドツーエンドレトリバーを、自然問題やms marcoを使って、%クエストジェネレータやデュアルエンコーダをトレーニングするいくつかの例だけに基づいて作成することができる。 驚くべきことに、LLMは8つ以上の例を伴わずに、デュアルエンコーダは、ColBERT v2のようなMS MARCOで訓練されたモデルを11の検索セットで平均1.2 nDCG以上上回ることができる。 さらに、同じデータを使った標準サイズの再ランク付けをトレーニングすることで、さらに5.0ポイントndcgが改善される。 本研究では, タスク固有の知識が少なすぎる場合において, クエリ生成が以前観測したよりもはるかに効果的であることを示す。

Much recent research on information retrieval has focused on how to transfer from one task (typically with abundant supervised data) to various other tasks where supervision is limited, with the implicit assumption that it is possible to generalize from one task to all the rest. However, this overlooks the fact that there are many diverse and unique retrieval tasks, each targeting different search intents, queries, and search domains. In this paper, we suggest to work on Few-shot Dense Retrieval, a setting where each task comes with a short description and a few examples. To amplify the power of a few examples, we propose Prompt-base Query Generation for Retriever (Promptagator), which leverages large language models (LLM) as a few-shot query generator, and creates task-specific retrievers based on the generated data. Powered by LLM's generalization ability, Promptagator makes it possible to create task-specific end-to-end retrievers solely based on a few examples {without} using Natural Questions or MS MARCO to train %question generators or dual encoders. Surprisingly, LLM prompting with no more than 8 examples allows dual encoders to outperform heavily engineered models trained on MS MARCO like ColBERT v2 by more than 1.2 nDCG on average on 11 retrieval sets. Further training standard-size re-rankers using the same generated data yields another 5.0 point nDCG improvement. Our studies determine that query generation can be far more effective than previously observed, especially when a small amount of task-specific knowledge is given.
翻訳日:2022-09-26 16:59:45 公開日:2022-09-23
# ベイズニューラルネットワークのためのjensen-shannon divergenceに基づく損失関数

A Jensen-Shannon Divergence Based Loss Function for Bayesian Neural Networks ( http://arxiv.org/abs/2209.11366v1 )

ライセンス: Link先を確認
Ponkrshnan Thiagarajan and Susanta Ghosh(参考訳) Kullback-Leibler (KL) はベイズニューラルネットワーク(BNN)の変分推論に広く用いられている。 しかしながら、KL の発散は非有界性や非対称性のような制限を持つ。 より一般的で有界で対称なJensen-Shannon(JS)発散について検討する。 幾何JSの発散に基づくBNNの新しい損失関数を定式化し、従来のKL発散に基づく損失関数が特別な場合であることを示す。 ガウス前駆体に対して,提案する損失関数の発散部を閉じた形で評価する。 他のどんな一般に対しても、モンテカルロ近似が用いられる。 これら2つのケースを実装するアルゴリズムを提供する。 提案した損失関数は正規化の度合いを制御するために調整可能な追加パラメータを提供することを示した。 提案した損失関数がガウス前および後におけるKL分散に基づく損失関数よりも規則性が高い条件を導出する。 我々は、ノイズの多いCIFARデータセットとバイアスドヒストロジーデータセットの分類において、最先端のKL発散に基づくBNNの性能改善を示す。

Kullback-Leibler (KL) divergence is widely used for variational inference of Bayesian Neural Networks (BNNs). However, the KL divergence has limitations such as unboundedness and asymmetry. We examine the Jensen-Shannon (JS) divergence that is more general, bounded, and symmetric. We formulate a novel loss function for BNNs based on the geometric JS divergence and show that the conventional KL divergence-based loss function is its special case. We evaluate the divergence part of the proposed loss function in a closed form for a Gaussian prior. For any other general prior, Monte Carlo approximations can be used. We provide algorithms for implementing both of these cases. We demonstrate that the proposed loss function offers an additional parameter that can be tuned to control the degree of regularisation. We derive the conditions under which the proposed loss function regularises better than the KL divergence-based loss function for Gaussian priors and posteriors. We demonstrate performance improvements over the state-of-the-art KL divergence-based BNN on the classification of a noisy CIFAR data set and a biased histopathology data set.
翻訳日:2022-09-26 16:58:35 公開日:2022-09-23
# Universal Approximationのためのニューラルネットワークの最小幅の実現

Achieve the Minimum Width of Neural Networks for Universal Approximation ( http://arxiv.org/abs/2209.11395v1 )

ライセンス: Link先を確認
Yongqiang Cai(参考訳) ニューラルネットワークの普遍近似特性(UAP)はディープラーニングの基本であり、広範ニューラルネットワークが$L^p$ノルムと連続/一様ノルムの両方の連続関数の普遍近似であることはよく知られている。 しかし、UAPの正確な最小幅である$w_{\min}$は、十分に研究されていない。 近年、デコーダ-記憶器-エンコーダスキームを用いて、$w_{\min} = \max(d_x+1,d_y)$がReLUネットワークの$L^p$-UAPと、$d_x,d_y$が入力次元および出力次元であるReLU+STEPネットワークの$C$-UAPの両方について発見された。 本稿では,任意の活性化関数を持つニューラルネットワークについて考察する。 コンパクト領域上の函数に対する$C$-UAP と $L^p$-UAP は、最小幅の普遍的下界を共有すること、すなわち$w^*_{\min} = \max(d_x,d_y)$ である。 特に、臨界幅である$w^*_{\min}$, for $L^p$-UAPは、入力または出力の寸法が1より大きい場合、漏洩ReLUネットワークによって達成できる。 本手法は, ニューラル常微分方程式の近似力と, ニューラルネットワークによるフローマップの近似能力に基づいている。 非単調または不連続活性化関数の場合と1次元の場合についても論じる。

The universal approximation property (UAP) of neural networks is fundamental for deep learning, and it is well known that wide neural networks are universal approximators of continuous functions within both the $L^p$ norm and the continuous/uniform norm. However, the exact minimum width, $w_{\min}$, for the UAP has not been studied thoroughly. Recently, using a decoder-memorizer-encoder scheme, \citet{Park2021Minimum} found that $w_{\min} = \max(d_x+1,d_y)$ for both the $L^p$-UAP of ReLU networks and the $C$-UAP of ReLU+STEP networks, where $d_x,d_y$ are the input and output dimensions, respectively. In this paper, we consider neural networks with an arbitrary set of activation functions. We prove that both $C$-UAP and $L^p$-UAP for functions on compact domains share a universal lower bound of the minimal width; that is, $w^*_{\min} = \max(d_x,d_y)$. In particular, the critical width, $w^*_{\min}$, for $L^p$-UAP can be achieved by leaky-ReLU networks, provided that the input or output dimension is larger than one. Our construction is based on the approximation power of neural ordinary differential equations and the ability to approximate flow maps by neural networks. The nonmonotone or discontinuous activation functions case and the one-dimensional case are also discussed.
翻訳日:2022-09-26 16:58:19 公開日:2022-09-23
# 不均一グラフ処理のための関係埋め込み型グラフニューラルネットワーク

Relation Embedding based Graph Neural Networks for Handling Heterogeneous Graph ( http://arxiv.org/abs/2209.11414v1 )

ライセンス: Link先を確認
Junfu Wang, Yuanfang Guo, Liang Yang, Yunhong Wang(参考訳) グラフニューラルネットワーク(GNN)の成功と、異種情報ネットワークの幅広い応用により、近年、異種グラフ学習が注目されている。 異種グラフ処理のためのGNNを一般化するために、様々な異種グラフニューラルネットワークが提案されている。 残念ながら、これらのアプローチは様々な複雑な加群を通して不均一性をモデル化する。 本稿では、同種GNNが不均一グラフを扱うのに十分な能力を持つように、シンプルで効率的なフレームワークを提案する。 具体的には、エッジ型関係と自己ループ接続の重要性を組み込むために、関係ごとに1つのパラメータのみを用いる関係埋め込み型グラフニューラルネットワーク(re-gnns)を提案する。 これらの関係埋め込みと他のパラメータを同時に最適化するために、埋め込みを適切な値に収束させるために勾配スケーリング係数を提案する。 さらに,我々のRE-GNNはメタパスベースヘテロジニアスGNNよりも表現力が高いことを理論的に実証した。 ノード分類タスクに関する広範な実験により,提案手法の有効性が検証された。

Heterogeneous graph learning has drawn significant attentions in recent years, due to the success of graph neural networks (GNNs) and the broad applications of heterogeneous information networks. Various heterogeneous graph neural networks have been proposed to generalize GNNs for processing the heterogeneous graphs. Unfortunately, these approaches model the heterogeneity via various complicated modules. This paper aims to propose a simple yet efficient framework to make the homogeneous GNNs have adequate ability to handle heterogeneous graphs. Specifically, we propose Relation Embedding based Graph Neural Networks (RE-GNNs), which employ only one parameter per relation to embed the importance of edge type relations and self-loop connections. To optimize these relation embeddings and the other parameters simultaneously, a gradient scaling factor is proposed to constrain the embeddings to converge to suitable values. Besides, we theoretically demonstrate that our RE-GNNs have more expressive power than the meta-path based heterogeneous GNNs. Extensive experiments on the node classification tasks validate the effectiveness of our proposed method.
翻訳日:2022-09-26 16:57:44 公開日:2022-09-23
# 品質保証効率を高めるためのスマートアクティブサンプリング

Smart Active Sampling to enhance Quality Assurance Efficiency ( http://arxiv.org/abs/2209.11464v1 )

ライセンス: Link先を確認
Clemens Heistracher, Stefan Stricker, Pedro Casas, Daniel Schall, Jana Kemnitz(参考訳) 我々は,製品ライン外の品質検査のために,smart active saplingと呼ばれる新しいサンプリング戦略を提案する。 アクティブラーニングの原則に基づいて、機械学習モデルは、品質検査にどのサンプルが送られるかを決定する。 一方、これは品質違反の早期検出によるスクラップ部品の生産を最小化する。 一方、円滑な運転のために品質検査コストが削減される。

We propose a new sampling strategy, called smart active sapling, for quality inspections outside the production line. Based on the principles of active learning a machine learning model decides which samples are sent to quality inspection. On the one hand, this minimizes the production of scrap parts due to earlier detection of quality violations. On the other hand, quality inspection costs are reduced for smooth operation.
翻訳日:2022-09-26 16:57:28 公開日:2022-09-23
# 画像デハージングネットワークにおけるパフォーマンス向上の再考

Rethinking Performance Gains in Image Dehazing Networks ( http://arxiv.org/abs/2209.11448v1 )

ライセンス: Link先を確認
Yuda Song, Yang Zhou, Hui Qian, Xin Du(参考訳) 画像デハジングは低レベルの視覚において活発な話題であり、ディープラーニングの急速な発展とともに多くの画像デハジングネットワークが提案されている。 これらのネットワークのパイプラインは正常に機能するが、画像デハビリテーション性能を改善するための重要なメカニズムはまだ不明である。 このため、我々は高級モジュールを持つデハジングネットワークを提案するのではなく、よりコンパクトなデハジングネットワークを得るために人気のあるU-Netに最小限の変更を加えている。 具体的には、u-net の畳み込みブロックをゲーティング機構で残差ブロックに置き換え、メインパスの特徴マップを融合させ、選択したカーネルを使って接続をスキップし、結果の u-net 変種gunet を呼び出す。 結果として、オーバーヘッドを大幅に削減したgUNetは、複数の画像デハージングデータセットの最先端メソッドよりも優れている。 最後に,画像デハジングネットワークの性能向上のための重要な設計を広範囲なアブレーション実験により検証する。

Image dehazing is an active topic in low-level vision, and many image dehazing networks have been proposed with the rapid development of deep learning. Although these networks' pipelines work fine, the key mechanism to improving image dehazing performance remains unclear. For this reason, we do not target to propose a dehazing network with fancy modules; rather, we make minimal modifications to popular U-Net to obtain a compact dehazing network. Specifically, we swap out the convolutional blocks in U-Net for residual blocks with the gating mechanism, fuse the feature maps of main paths and skip connections using the selective kernel, and call the resulting U-Net variant gUNet. As a result, with a significantly reduced overhead, gUNet is superior to state-of-the-art methods on multiple image dehazing datasets. Finally, we verify these key designs to the performance gain of image dehazing networks through extensive ablation studies.
翻訳日:2022-09-26 16:52:15 公開日:2022-09-23
# 深層映像戦検出モデルのための2段階訓練法

Weakly Supervised Two-Stage Training Scheme for Deep Video Fight Detection Model ( http://arxiv.org/abs/2209.11477v1 )

ライセンス: Link先を確認
Zhenting Qi, Ruike Zhu, Zheyu Fu, Wenhao Chai, Volodymyr Kindratenko(参考訳) ビデオ中のファイト検出は、現在監視システムやストリーミングメディアが普及しているディープラーニングアプリケーションだ。 これまでの研究は、この問題に取り組むための行動認識技術に大きく依存してきた。 本稿では,アクション認識機能抽出器と異常スコア生成器の組み合わせとして,戦闘検出モデルを設計する。 また,映像のフレームレベルラベルの収集には手間がかかりすぎることを考慮し,ビデオレベルラベルで計算した複数入力学習損失をスコア生成器の訓練に活用し,自己学習技術を適用し,その性能をさらに向上させる2段階学習方式を考案した。 一般公開された大規模データセットであるUBI-Fightsの大規模な実験により,本手法の有効性が実証された。 さらに,既存のデータセットよりも大規模でシナリオが多いビデオバトル検出に特化した新たなデータセットであるVFD-2000を収集する。 私たちのメソッドと提案されたデータセットの実装は、https://github.com/Hepta-Col/VideoFightDetectionで公開されます。

Fight detection in videos is an emerging deep learning application with today's prevalence of surveillance systems and streaming media. Previous work has largely relied on action recognition techniques to tackle this problem. In this paper, we propose a simple but effective method that solves the task from a new perspective: we design the fight detection model as a composition of an action-aware feature extractor and an anomaly score generator. Also, considering that collecting frame-level labels for videos is too laborious, we design a weakly supervised two-stage training scheme, where we utilize multiple-instance-learning loss calculated on video-level labels to train the score generator, and adopt the self-training technique to further improve its performance. Extensive experiments on a publicly available large-scale dataset, UBI-Fights, demonstrate the effectiveness of our method, and the performance on the dataset exceeds several previous state-of-the-art approaches. Furthermore, we collect a new dataset, VFD-2000, that specializes in video fight detection, with a larger scale and more scenarios than existing datasets. The implementation of our method and the proposed dataset will be publicly available at https://github.com/Hepta-Col/VideoFightDetection.
翻訳日:2022-09-26 16:52:00 公開日:2022-09-23
# GIDP: 大規模位置認識のための優れた初期化学習とディスクリプタのポストエンハンシング

GIDP: Learning a Good Initialization and Inducing Descriptor Post-enhancing for Large-scale Place Recognition ( http://arxiv.org/abs/2209.11488v1 )

ライセンス: Link先を確認
Zhaoxin Fan, Zhenbo Song, Hongyan Liu, Jun He(参考訳) 大規模な位置認識は基本的だが難しい課題であり、自動運転とロボット工学においてますます重要な役割を担っている。 既存の手法は良好な性能を実現しているが、そのほとんどは精巧なグローバルディスクリプタ学習ネットワーク構造の設計に集中している。 特徴の一般化とディスクリプタのエンハンシングの重要性は長い間無視されてきた。 そこで本研究では,gidpと呼ばれる新しい手法を提案し,その初期化を学習し,大規模位置認識のための記述子ポーズ感を誘発する。 特にGIDPでは,教師なしの運動量コントラスト点雲事前学習モジュールと復位型ディスクリプタポストエンハンシングモジュールがそれぞれ提案されている。 前者は位置認識モデルをトレーニングする前にポイントクラウドエンコーディングネットワークの適切な初期化を学ぶことを目的としており、後者は推定されたグローバルディスクリプタを推論時に再ランク付けすることで後付けすることを目的としている。 室内および屋外の両方のデータセットに対する大規模な実験により,本手法がバックボーンの単純および汎用的なクラウド符号化を用いて最先端の性能を達成できることが実証された。

Large-scale place recognition is a fundamental but challenging task, which plays an increasingly important role in autonomous driving and robotics. Existing methods have achieved acceptable good performance, however, most of them are concentrating on designing elaborate global descriptor learning network structures. The importance of feature generalization and descriptor post-enhancing has long been neglected. In this work, we propose a novel method named GIDP to learn a Good Initialization and Inducing Descriptor Poseenhancing for Large-scale Place Recognition. In particular, an unsupervised momentum contrast point cloud pretraining module and a reranking-based descriptor post-enhancing module are proposed respectively in GIDP. The former aims at learning a good initialization for the point cloud encoding network before training the place recognition model, while the later aims at post-enhancing the predicted global descriptor through reranking at inference time. Extensive experiments on both indoor and outdoor datasets demonstrate that our method can achieve state-of-the-art performance using simple and general point cloud encoding backbones.
翻訳日:2022-09-26 16:51:39 公開日:2022-09-23
# 人物探索のためのグループ適応損失重み付け

Grouped Adaptive Loss Weighting for Person Search ( http://arxiv.org/abs/2209.11492v1 )

ライセンス: Link先を確認
Yanling Tian and Di Chen and Yunan Liu and Shanshan Zhang and Jian Yang(参考訳) 人探索は前景/背景分類、境界ボックス回帰、人物再同定といった複数のサブタスクの統合タスクである。 したがって、人探索は、特にエンドツーエンドで解く場合、典型的なマルチタスク学習問題である。 近年では、人的共同キーポイント、身体部位の位置、属性など様々な補助情報を利用して人的検索機能を強化し、より多くのタスクをこなし、さらに人的検索モデルを複雑化する作品もある。 各タスクの不整合収束速度はモデルの最適化に害を与える可能性がある。 簡単な解決策は、異なるタスクに異なる重みを手動で割り当て、様々な収束率を補償することである。 しかし、人物探索の特殊な場合、すなわち、多数のタスクがある場合、手動でタスクを重み付けするのは現実的ではない。 本研究では,各タスクの重みを自動的に動的に調整するグループ化適応損失重み付け(galw)手法を提案する。 具体的には,タスクを収束率に応じてグループ化する。 同じグループ内のタスクは同じ学習可能な重みを共有し、損失の不確実性を考慮して動的に割り当てられる。 CUHK-SYSUとPRWの2つの典型的なベンチマーク実験の結果,本手法の有効性が示された。

Person search is an integrated task of multiple sub-tasks such as foreground/background classification, bounding box regression and person re-identification. Therefore, person search is a typical multi-task learning problem, especially when solved in an end-to-end manner. Recently, some works enhance person search features by exploiting various auxiliary information, e.g. person joint keypoints, body part position, attributes, etc., which brings in more tasks and further complexifies a person search model. The inconsistent convergence rate of each task could potentially harm the model optimization. A straightforward solution is to manually assign different weights to different tasks, compensating for the diverse convergence rates. However, given the special case of person search, i.e. with a large number of tasks, it is impractical to weight the tasks manually. To this end, we propose a Grouped Adaptive Loss Weighting (GALW) method which adjusts the weight of each task automatically and dynamically. Specifically, we group tasks according to their convergence rates. Tasks within the same group share the same learnable weight, which is dynamically assigned by considering the loss uncertainty. Experimental results on two typical benchmarks, CUHK-SYSU and PRW, demonstrate the effectiveness of our method.
翻訳日:2022-09-26 16:51:19 公開日:2022-09-23
# 医用衣料検出を例として用いた医療介入室における合成データセット生成法の比較

Comparison of synthetic dataset generation methods for medical intervention rooms using medical clothing detection as an example ( http://arxiv.org/abs/2209.11493v1 )

ライセンス: Link先を確認
Patrick Sch\"ulein, Hannah Teufel, Ronja Vorpahl, Indira Emter, Yannick Bukschat, Marcus Pfister, Anke Siebert, Nils Rathmann, Steffen Diehl, Marcus Vetter(参考訳) 医療介入スペースなどの高いプライバシ要件を持つ領域からの実際のデータの可用性は低く、買収は法的に複雑である。 そこで本研究では, 医用衣料を例として, 医用コンテキストのための合成データセットを作成する方法を提案する。 目標は、合成データと実際のデータの間の現実のギャップを埋めることだ。 この目的のために、Unreal-Engine プラグインまたは Unity を用いて、ドメイン・ランドマイゼーションおよび構造化ドメイン・ランドマイゼーションシナリオにおいて、3次元スキャンされた衣服とデザインされた衣服の手法を比較した。 さらに、グリーンスクリーンの前にあるMixed-Realityデータセットとターゲットドメインデータセットが使用された。 実験により,デザインされた衣服の構造化ドメイン・ランダム化と混合現実データにより,臨床対象領域のテストデータセット上で72.0%のマップが得られた。 さらに、利用可能なターゲットドメイントレインデータの15%を使用すると、100%(660イメージ)のターゲットドメイントレインデータへのギャップは、80.05%のマップ(81.95%のマップ)でほぼ閉鎖される可能性がある。 最後に、100パーセントのターゲットドメイントレインデータを追加することで、精度を83.35%に向上できることを示した。

The availability of real data from areas with high privacy requirements, such as the medical intervention space, is low and the acquisition legally complex. Therefore, this work presents a way to create a synthetic dataset for the medical context, using medical clothing as an example. The goal is to close the reality gap between the synthetic and real data. For this purpose, methods of 3D-scanned clothing and designed clothing are compared in a Domain-Randomization and Structured-Domain-Randomization scenario using an Unreal-Engine plugin or Unity. Additionally a Mixed-Reality dataset in front of a greenscreen and a target domain dataset were used. Our experiments show, that Structured-Domain-Randomization of designed clothing together with Mixed-Reality data provide a baseline achieving 72.0% mAP on a test dataset of the clinical target domain. When additionally using 15% of available target domain train data, the gap towards 100% (660 images) target domain train data could be nearly closed 80.05% mAP (81.95% mAP). Finally we show that when additionally using 100% target domain train data the accuracy could be increased to 83.35% mAP.
翻訳日:2022-09-26 16:50:59 公開日:2022-09-23
# 3次元における植物成分の時間的登録のための統計的形状表現

Statistical shape representations for temporal registration of plant components in 3D ( http://arxiv.org/abs/2209.11526v1 )

ライセンス: Link先を確認
Karoline Heiwolt, Cengiz \"Oztireli, Grzegorz Cielniak(参考訳) 植物は動的生物である。 植生の時間的変動を理解することは、野生のすべてのロボットにとって不可欠な問題である。 しかし、時間をかけて3Dスキャンを繰り返すことは難しい。 このプロセスにおける重要なステップは、同じ植物コンポーネントを時間とともに再識別し、追跡することです。 以前は、地球上の空間的・トポロジカルな位置を比較することで達成されていた。 本研究は, 形状特徴を用いた時間的臓器整合性の向上を実証する。 本研究では,葉の3次元形状特徴を抽出し,数パラメータで葉形状と曲率を効率的に特徴付け,特徴空間における個々の葉の関連付けを可能にするランドマークフリー形状圧縮アルゴリズムを提案する。 このアプローチは、主成分分析(PCA)を用いた3次元輪郭抽出とさらなる圧縮を組み合わせて、データから完全に学習され、エッジ輪郭や3次元曲率に関する情報を保持する形状空間符号化を生成する。 トマト葉の経時的走査配列について評価したところ, 形状の特徴を取り入れた場合, 側頭葉の整合性が向上することがわかった。 形状、位置、回転情報の組み合わせは、葉の経時的認識に最も有益であり、正の正の率は75%であり、芸術的な方法では15%改善されている。 これは、ライフサイクル全体のフェノタイピングを可能にするロボット作物監視に不可欠である。

Plants are dynamic organisms. Understanding temporal variations in vegetation is an essential problem for all robots in the wild. However, associating repeated 3D scans of plants across time is challenging. A key step in this process is re-identifying and tracking the same individual plant components over time. Previously, this has been achieved by comparing their global spatial or topological location. In this work, we demonstrate how using shape features improves temporal organ matching. We present a landmark-free shape compression algorithm, which allows for the extraction of 3D shape features of leaves, characterises leaf shape and curvature efficiently in few parameters, and makes the association of individual leaves in feature space possible. The approach combines 3D contour extraction and further compression using Principal Component Analysis (PCA) to produce a shape space encoding, which is entirely learned from data and retains information about edge contours and 3D curvature. Our evaluation on temporal scan sequences of tomato plants shows, that incorporating shape features improves temporal leaf-matching. A combination of shape, location, and rotation information proves most informative for recognition of leaves over time and yields a true positive rate of 75%, a 15% improvement on sate-of-the-art methods. This is essential for robotic crop monitoring, which enables whole-of-lifecycle phenotyping.
翻訳日:2022-09-26 16:50:37 公開日:2022-09-23
# 完全ビューと高レベルポーズに基づく歩行認識に向けて

Towards Complete-View and High-Level Pose-based Gait Recognition ( http://arxiv.org/abs/2209.11577v1 )

ライセンス: Link先を確認
Honghu Pan, Yongyong Chen, Tingyang Xu, Yunqi He, Zhenyu He(参考訳) モデルに基づく歩行認識法は通常、歩行姿勢を用いて人間を識別する。 しかし、カメラビューの変化により、人間のポーズのクラス内大きなばらつきが明確に解決されることはなかった。 本稿では,Low-upper Generative Adversarial Network (LUGAN) を用いて,フルランク変換行列を学習し,各シングルビューポーズサンプルに対するマルチビューポーズシーケンスを生成する。 カメライメージングの先駆けとして,クロスビューポーズ間の空間座標がフルランク行列の線形変換を満足していることから,本論文では,ソースポーズとターゲットビューから変換行列を学習し,対象ポーズシーケンスを得る。 この目的のために、グラフ畳み込み(gcn)層、完全連結(fc)層、二分岐畳み込み(cnn)層からなるジェネレータを実装する。gcn層とfc層はソースポーズシーケンスとターゲットビューをエンコードし、cnn分岐は下三角行列と上三角行列をそれぞれ学習し、最終的にこれらを乗算してフルランク変換行列を定式化する。 対人訓練の目的のために、ポーズシーケンスが真か生成されたかを識別する条件判別器をさらに考案する。 高レベルの相関学習を実現するために,HGC (Multi-scale hypergraph convolution) と呼ばれるプラグアンドプレイモジュールを提案する。 CASIA-BとOUMVLP-Poseの2つの大きな歩行認識データセットに対する大規模な実験により,本手法がベースラインモデルと既存のポーズベース手法を大きなマージンで上回ることを示した。

The model-based gait recognition methods usually adopt the pedestrian walking postures to identify human beings. However, existing methods did not explicitly resolve the large intra-class variance of human pose due to camera views changing. In this paper, we propose to generate multi-view pose sequences for each single-view pose sample by learning full-rank transformation matrices via lower-upper generative adversarial network (LUGAN). By the prior of camera imaging, we derive that the spatial coordinates between cross-view poses satisfy a linear transformation of a full-rank matrix, thereby, this paper employs the adversarial training to learn transformation matrices from the source pose and target views to obtain the target pose sequences. To this end, we implement a generator composed of graph convolutional (GCN) layers, fully connected (FC) layers and two-branch convolutional (CNN) layers: GCN layers and FC layers encode the source pose sequence and target view, then CNN branches learn a lower triangular matrix and an upper triangular matrix, respectively, finally they are multiplied to formulate the full-rank transformation matrix. For the purpose of adversarial training, we further devise a condition discriminator that distinguishes whether the pose sequence is true or generated. To enable the high-level correlation learning, we propose a plug-and-play module, named multi-scale hypergraph convolution (HGC), to replace the spatial graph convolutional layer in baseline, which could simultaneously model the joint-level, part-level and body-level correlations. Extensive experiments on two large gait recognition datasets, i.e., CASIA-B and OUMVLP-Pose, demonstrate that our method outperforms the baseline model and existing pose-based methods by a large margin.
翻訳日:2022-09-26 16:50:17 公開日:2022-09-23
# リカレントグラフ畳み込みネットワークによるPose-Aided Video-based Person再同定

Pose-Aided Video-based Person Re-Identification via Recurrent Graph Convolutional Network ( http://arxiv.org/abs/2209.11582v1 )

ライセンス: Link先を確認
Honghu Pan, Qiao Liu, Yongyong Chen, Yunqi He, Yuan Zheng, Feng Zheng, Zhenyu He(参考訳) 既存の映像ベース人物再同定手法(reid)は、主に特徴抽出器と特徴集約器を介して歩行者の出現特徴を学習する。 しかし、異なる歩行者が同じ外観の場合、外観モデルは失敗する。 異なる歩行者が歩行姿勢や体格が異なることを考慮し,映像検索の外観機能以上の姿勢特徴を身につけることを提案する。 具体的には、外観特徴とポーズ特徴を個別に学習し、それから推論のためにそれらを結合する2分岐アーキテクチャを実装します。 ポーズの特徴を学習するために、まずオフザシェルフポーズ検出器を通して各フレーム内の歩行者のポーズを検出し、ポーズシーケンスを用いて時間グラフを構築する。 次に、繰り返しグラフ畳み込みネットワーク(RGCN)を用いて、時間的ポーズグラフのノード埋め込みを学習し、フレーム内ノードの近傍集約とフレーム間グラフ間のメッセージパッシングを同時に実現するグローバル情報伝播機構を考案する。 最後に,ノードの埋め込みから時間的グラフ表現を得るために,ノードとフレームの重要度を学習するために自己認識機構を用いる。 提案手法を,火星,デュークMTMC,iLIDS-VIDの3つのビデオベースReIDデータセット上で検証し,学習されたポーズ特徴が既存の外観モデルの性能を効果的に向上することを示した。

Existing methods for video-based person re-identification (ReID) mainly learn the appearance feature of a given pedestrian via a feature extractor and a feature aggregator. However, the appearance models would fail when different pedestrians have similar appearances. Considering that different pedestrians have different walking postures and body proportions, we propose to learn the discriminative pose feature beyond the appearance feature for video retrieval. Specifically, we implement a two-branch architecture to separately learn the appearance feature and pose feature, and then concatenate them together for inference. To learn the pose feature, we first detect the pedestrian pose in each frame through an off-the-shelf pose detector, and construct a temporal graph using the pose sequence. We then exploit a recurrent graph convolutional network (RGCN) to learn the node embeddings of the temporal pose graph, which devises a global information propagation mechanism to simultaneously achieve the neighborhood aggregation of intra-frame nodes and message passing among inter-frame graphs. Finally, we propose a dual-attention method consisting of node-attention and time-attention to obtain the temporal graph representation from the node embeddings, where the self-attention mechanism is employed to learn the importance of each node and each frame. We verify the proposed method on three video-based ReID datasets, i.e., Mars, DukeMTMC and iLIDS-VID, whose experimental results demonstrate that the learned pose feature can effectively improve the performance of existing appearance models.
翻訳日:2022-09-26 16:49:43 公開日:2022-09-23
# ビデオベース人物再同定のための多次元グラフプーリング

Multi-Granularity Graph Pooling for Video-based Person Re-Identification ( http://arxiv.org/abs/2209.11584v1 )

ライセンス: Link先を確認
Honghu Pan, Yongyong Chen, Zhenyu He(参考訳) reid (video-based person re-identification) は、複数の非重なりカメラにまたがる歩行者映像のシーケンスを識別することを目的としている。 ビデオサンプルの時間的特徴と空間的特徴を集約するために、グラフニューラルネットワーク(GNN)を導入する。 しかし、stgcnのような既存のグラフベースのモデルは、グラフのトポロジーとノードの重要性を無視するグラフ表現を得るために、ノードの機能で \textit{mean}/\textit{max pooling} を実行する。 本稿では,ビデオ検索のための多粒度グラフ表現を学習するためのグラフプーリングネットワーク(GPNet)を提案する。 まず,ノードの特徴がバックボーンで学習した画像埋め込みを示す多面グラフを構築し,その辺は時空ノードとユークリッドノードの間で確立する。 次に,複数のグラフ畳み込み層を実装し,グラフの近傍アグリゲーションを行う。 グラフをダウンサンプリングするために,既存のノードクラスタリングとノード選択プーリングの利点を統合したマルチヘッドフルアテンショングラフプーリング(MHFAPool)層を提案する。 具体的には、MHFAPoolは全注目行列の固有ベクトルを集約係数として取り、各プールノードのグローバルグラフ情報を含む。 GPNetは、MARS、DukeMTMC-VideoReID、iLIDS-VID、PRID-2011の4つの広く使われているデータセットに対して、競争結果が得られることを示した。

The video-based person re-identification (ReID) aims to identify the given pedestrian video sequence across multiple non-overlapping cameras. To aggregate the temporal and spatial features of the video samples, the graph neural networks (GNNs) are introduced. However, existing graph-based models, like STGCN, perform the \textit{mean}/\textit{max pooling} on node features to obtain the graph representation, which neglect the graph topology and node importance. In this paper, we propose the graph pooling network (GPNet) to learn the multi-granularity graph representation for the video retrieval, where the \textit{graph pooling layer} is implemented to downsample the graph. We first construct a multi-granular graph, whose node features denote image embedding learned by backbone, and edges are established between the temporal and Euclidean neighborhood nodes. We then implement multiple graph convolutional layers to perform the neighborhood aggregation on the graphs. To downsample the graph, we propose a multi-head full attention graph pooling (MHFAPool) layer, which integrates the advantages of existing node clustering and node selection pooling methods. Specifically, MHFAPool takes the main eigenvector of full attention matrix as the aggregation coefficients to involve the global graph information in each pooled nodes. Extensive experiments demonstrate that our GPNet achieves the competitive results on four widely-used datasets, i.e., MARS, DukeMTMC-VideoReID, iLIDS-VID and PRID-2011.
翻訳日:2022-09-26 16:49:18 公開日:2022-09-23
# グローバルローカルコントラスト学習によるビュー不変スケルトンに基づく行動認識

View-Invariant Skeleton-based Action Recognition via Global-Local Contrastive Learning ( http://arxiv.org/abs/2209.11634v1 )

ライセンス: Link先を確認
Cunling Bian, Wei Feng, Fanbo Meng, Song Wang(参考訳) 骨格に基づく人間の行動認識は、外観の変化に対する感度の低さと、より多くの骨格データのアクセシビリティにより、最近より関心を集めている。 しかし、実際に捕獲された3D骨格でさえ、視点や方向に敏感であり、異なる人体関節の閉塞と人間の関節の局所化の誤りをもたらした。 このようなスケルトンデータのばらつきは、行動認識の性能に大きな影響を及ぼす可能性がある。 本稿では,手作業による動作ラベリングを必要とせず,スケルトンに基づく人間行動認識のための新しい視点不変表現学習手法を提案する。 具体的には、異なる視点から抽出した表現間の相互情報を最大化し、ネットワークトレーニングにおいて同一人物に対して同時に取得した多視点スケルトンデータを活用し、空間領域と時間領域の両方における多元的共起関係をモデル化するグローバル局所的コントラスト損失を提案する。 大規模な実験結果から,提案手法は入力骨格データのビュー差に頑健であり,非教師なし骨格に基づく人体行動法の性能を著しく向上させ,PKUMMDとNTU RGB+Dの2つの挑戦的マルチビューベンチマークに対して,新たな最先端の精度をもたらすことが示された。

Skeleton-based human action recognition has been drawing more interest recently due to its low sensitivity to appearance changes and the accessibility of more skeleton data. However, even the 3D skeletons captured in practice are still sensitive to the viewpoint and direction gave the occlusion of different human-body joints and the errors in human joint localization. Such view variance of skeleton data may significantly affect the performance of action recognition. To address this issue, we propose in this paper a new view-invariant representation learning approach, without any manual action labeling, for skeleton-based human action recognition. Specifically, we leverage the multi-view skeleton data simultaneously taken for the same person in the network training, by maximizing the mutual information between the representations extracted from different views, and then propose a global-local contrastive loss to model the multi-scale co-occurrence relationships in both spatial and temporal domains. Extensive experimental results show that the proposed method is robust to the view difference of the input skeleton data and significantly boosts the performance of unsupervised skeleton-based human action methods, resulting in new state-of-the-art accuracies on two challenging multi-view benchmarks of PKUMMD and NTU RGB+D.
翻訳日:2022-09-26 16:48:49 公開日:2022-09-23
# cuts: 医療用画像セグメンテーションのための教師なしフレームワーク

CUTS: A Fully Unsupervised Framework for Medical Image Segmentation ( http://arxiv.org/abs/2209.11359v1 )

ライセンス: Link先を確認
Matthew Amodio, Feng Gao, Arman Avesta, Sanjay Aneja, Lucian V. Del Priore, Jay Wang, Smita Krishnaswamy(参考訳) 本研究では,医療画像分割のための教師なしディープラーニングフレームワークであるcuts(contrastive and unsupervised training for segmentation)を紹介し,ラベル付けや注釈付けされていない画像データの大部分の使用を容易にする。 医学的イメージを関心のある領域に分割することは、患者の診断と定量的研究を促進する重要な課題である。 このセグメンテーションにおける大きな制限要因は、ラベル付きデータの欠如である。新しい画像データやタスクのセットに専門家のアノテーションを付けることは、アノテータ間のコスト、労働集約、一貫性がない可能性があるため、画像自体からのピクセル中心のパッチに基づいた自己監督を利用する。 教師なしのアプローチは、コントラスト学習と自動エンコーディングの両方を備えたトレーニング目標に基づいている。 医用画像セグメンテーションのための従来のコントラスト学習アプローチは、画像内パッチレベルのアプローチよりも、画像レベルのコントラストトレーニングに重点を置いてきたり、ネットワークがその後の教師付きトレーニングを必要とする事前トレーニングタスクとして使用したりしてきた。 対照的に、ピクセル中心のパッチレベルで機能する、教師なしの初めてのフレームワークを構築します。 具体的には,新たな拡張やパッチの再構成損失,新たなピクセルクラスタリングと識別フレームワークの導入などを行う。 本モデルでは,網膜画像の地理的萎縮領域(GA)のセグメンテーションに関する専門的アノテーションによって検証され,いくつかの重要な医用画像タスクにおける改善された結果が得られた。

In this work we introduce CUTS (Contrastive and Unsupervised Training for Segmentation) the first fully unsupervised deep learning framework for medical image segmentation, facilitating the use of the vast majority of imaging data that is not labeled or annotated. Segmenting medical images into regions of interest is a critical task for facilitating both patient diagnoses and quantitative research. A major limiting factor in this segmentation is the lack of labeled data, as getting expert annotations for each new set of imaging data or task can be expensive, labor intensive, and inconsistent across annotators: thus, we utilize self-supervision based on pixel-centered patches from the images themselves. Our unsupervised approach is based on a training objective with both contrastive learning and autoencoding aspects. Previous contrastive learning approaches for medical image segmentation have focused on image-level contrastive training, rather than our intra-image patch-level approach or have used this as a pre-training task where the network needed further supervised training afterwards. By contrast, we build the first entirely unsupervised framework that operates at the pixel-centered-patch level. Specifically, we add novel augmentations, a patch reconstruction loss, and introduce a new pixel clustering and identification framework. Our model achieves improved results on several key medical imaging tasks, as verified by held-out expert annotations on the task of segmenting geographic atrophy (GA) regions of images of the retina.
翻訳日:2022-09-26 16:40:46 公開日:2022-09-23
# フレームレート非依存多対象追跡に向けて

Towards Frame Rate Agnostic Multi-Object Tracking ( http://arxiv.org/abs/2209.11404v1 )

ライセンス: Link先を確認
Weitao Feng and Lei Bai and Yongqiang Yao and Fengwei Yu and Wanli Ouyang(参考訳) マルチオブジェクト追跡(MOT)は、様々なビデオ分析アプリケーションに寄与する最も基本的なコンピュータビジョンタスクの1つである。 最近の有望な進歩にもかかわらず、現在のmot研究は入力ストリームの固定サンプリングフレームレートに限定されている。 実際、最近の最先端トラッカーの精度は、入力フレームレートが変化すると劇的に低下する。 よりインテリジェントな追跡ソリューションとして、我々の研究の焦点をフレームレート非依存MOT(FraMOT)の問題にシフトする。 本稿では、FraMOT問題に初めて取り組むために、周期的トレーニングスキーム(FAPS)を用いたフレームレート非依存MOTフレームワークを提案する。 具体的には、フレームレートアグノスティックアソシエーションモジュール(FAAM)を提案し、フレームレート情報を推論して符号化し、マルチフレームレート入力間のIDマッチングを支援することにより、FraMOTにおける複雑な動き・出現関係を扱う際の学習モデルの能力を向上させる。 さらに、トレーニングに含まれない後処理ステップが低いフレームレートシナリオに大きな違いをもたらすため、トレーニングと推論の相関ギャップがFraMOTで拡大される。 そこで本研究では,追跡パターンマッチングと融合を通じて,トレーニング後のすべてのステップを反映する周期的トレーニングスキーム(pts)を提案する。 提案手法とともに,より複雑な状況に対処することを目的とした,2つの異なるモード,すなわち既知のフレームレートと未知フレームレートにおけるフレモットの新たなタスクの評価方法を確立するための最初の試みを行う。 挑戦的なMOTデータセット(FraMOTバージョン)に関する定量的実験は、提案手法が異なるフレームレートをよりよく処理し、複雑なシナリオに対する堅牢性を改善することを明らかに示している。

Multi-Object Tracking (MOT) is one of the most fundamental computer vision tasks which contributes to a variety of video analysis applications. Despite the recent promising progress, current MOT research is still limited to a fixed sampling frame rate of the input stream. In fact, we empirically find that the accuracy of all recent state-of-the-art trackers drops dramatically when the input frame rate changes. For a more intelligent tracking solution, we shift the attention of our research work to the problem of Frame Rate Agnostic MOT (FraMOT). In this paper, we propose a Frame Rate Agnostic MOT framework with Periodic training Scheme (FAPS) to tackle the FraMOT problem for the first time. Specifically, we propose a Frame Rate Agnostic Association Module (FAAM) that infers and encodes the frame rate information to aid identity matching across multi-frame-rate inputs, improving the capability of the learned model in handling complex motion-appearance relations in FraMOT. Besides, the association gap between training and inference is enlarged in FraMOT because those post-processing steps not included in training make a larger difference in lower frame rate scenarios. To address it, we propose Periodic Training Scheme (PTS) to reflect all post-processing steps in training via tracking pattern matching and fusion. Along with the proposed approaches, we make the first attempt to establish an evaluation method for this new task of FraMOT in two different modes, i.e., known frame rate and unknown frame rate, aiming to handle a more complex situation. The quantitative experiments on the challenging MOT datasets (FraMOT version) have clearly demonstrated that the proposed approaches can handle different frame rates better and thus improve the robustness against complicated scenarios.
翻訳日:2022-09-26 16:40:20 公開日:2022-09-23
# Jacobian Norm of Representation によるオープンセット認識の理解

Understanding Open-Set Recognition by Jacobian Norm of Representation ( http://arxiv.org/abs/2209.11436v1 )

ライセンス: Link先を確認
Jaewoo Park, Hojin Park, Eunju Jeong, Andrew Beng Jin Teoh(参考訳) 従来のクローズドセット認識とは対照的に、オープンセット認識(OSR)は訓練中にモデルに見られない未知のクラスの存在を前提としている。 OSRにおける主要なアプローチはメトリック学習であり、モデルが既知のクラスデータのクラス間表現を分離するために訓練される。 OSRの多くの研究は、モデルが既知のクラスデータでのみ訓練されているにもかかわらず、モデルは未知のクラスデータを認識し、未知のクラス表現を既知のクラス表現から分離することを学ぶと報告した。 本稿では,この創発現象をジャコビアン表現のノルムを観測することで解析する。 理論的には、既知の集合内のクラス内距離の最小化は既知のクラス表現のジャコビアンノルムを減少させ、既知の集合内のクラス間距離を最大化することで未知のクラスのジャコビアンノルムを増加させる。 閉集合計量学習は、ヤコビアンノルムの値が異なることを強制することによって未知を既知のものと区別する。 我々は、標準OSRデータセットを用いて、十分な証拠で理論的枠組みを実証的に検証する。 さらに,我々の理論的枠組みでは,標準ディープラーニング技術がOSRにどのように役立つかを説明し,このフレームワークを効果的なOSRモデルを開発するための指針として利用する。

In contrast to conventional closed-set recognition, open-set recognition (OSR) assumes the presence of an unknown class, which is not seen to a model during training. One predominant approach in OSR is metric learning, where a model is trained to separate the inter-class representations of known class data. Numerous works in OSR reported that, even though the models are trained only with the known class data, the models become aware of the unknown, and learn to separate the unknown class representations from the known class representations. This paper analyzes this emergent phenomenon by observing the Jacobian norm of representation. We theoretically show that minimizing the intra-class distances within the known set reduces the Jacobian norm of known class representations while maximizing the inter-class distances within the known set increases the Jacobian norm of the unknown class. The closed-set metric learning thus separates the unknown from the known by forcing their Jacobian norm values to differ. We empirically validate our theoretical framework with ample pieces of evidence using standard OSR datasets. Moreover, under our theoretical framework, we explain how the standard deep learning techniques can be helpful for OSR and use the framework as a guiding principle to develop an effective OSR model.
翻訳日:2022-09-26 16:39:53 公開日:2022-09-23
# 編集後支援のための単語レベル品質推定の拡張

Extending Word-Level Quality Estimation for Post-Editing Assistance ( http://arxiv.org/abs/2209.11378v1 )

ライセンス: Link先を確認
Yizhen Wei, Takehito Utsuro, Masaaki Nagata(参考訳) 編集後支援効率を向上させるために,拡張単語アライメントという新しい概念を定義した。 拡張された単語アライメントに基づいて,改良されたタグと単語レベルの対応を出力する改良された単語レベルQEを提案する。 従来の単語レベルのQEと比較して、新しいタスクは直接編集操作を指摘でき、効率が向上する。 拡張単語アライメントを抽出するために,mBERTに基づく教師付き手法を採用する。 まず,mBERT と XLM-R に基づく逐次タグ付けの回帰モデルを訓練することにより,単語レベルQE の精度向上を図る。 そして、拡張された単語アライメントで元の単語タグを洗練する。 さらに,ソースギャップ対応を抽出し,ギャップタグを取得する。 2つの言語ペアにおける実験は,提案手法の実現可能性を示し,さらなる改善のためのインスピレーションを与える。

We define a novel concept called extended word alignment in order to improve post-editing assistance efficiency. Based on extended word alignment, we further propose a novel task called refined word-level QE that outputs refined tags and word-level correspondences. Compared to original word-level QE, the new task is able to directly point out editing operations, thus improves efficiency. To extract extended word alignment, we adopt a supervised method based on mBERT. To solve refined word-level QE, we firstly predict original QE tags by training a regression model for sequence tagging based on mBERT and XLM-R. Then, we refine original word tags with extended word alignment. In addition, we extract source-gap correspondences, meanwhile, obtaining gap tags. Experiments on two language pairs show the feasibility of our method and give us inspirations for further improvement.
翻訳日:2022-09-26 14:00:58 公開日:2022-09-23
# 検索語句レベルプロンプトを用いたニューラルマシン翻訳のためのゼロショット領域適応

Zero-shot Domain Adaptation for Neural Machine Translation with Retrieved Phrase-level Prompts ( http://arxiv.org/abs/2209.11409v1 )

ライセンス: Link先を確認
Zewei Sun, Qingnan Jiang, Shujian Huang, Jun Cao, Shanbo Cheng, Mingxuan Wang(参考訳) ドメイン適応はニューラルマシン翻訳の重要な課題である。 しかし、従来の微調整ソリューションでは、複数の追加トレーニングが必要で、高いコストがかかる。 本稿では,プロンプトに基づく手法でドメイン適応を解消する非チューニングパラダイムを提案する。 具体的には,バイリンガルのフレーズレベルデータベースを構築し,それに関連するペアを入力文のプロンプトとして検索する。 Retrieved Phrase-level Prompts (RePP) を用いて翻訳品質を効果的に向上させる。 実験の結果,6.2 bleuスコアのドメイン固有機械翻訳が改善され,11.5%の精度で翻訳制約が向上した。

Domain adaptation is an important challenge for neural machine translation. However, the traditional fine-tuning solution requires multiple extra training and yields a high cost. In this paper, we propose a non-tuning paradigm, resolving domain adaptation with a prompt-based method. Specifically, we construct a bilingual phrase-level database and retrieve relevant pairs from it as a prompt for the input sentences. By utilizing Retrieved Phrase-level Prompts (RePP), we effectively boost the translation quality. Experiments show that our method improves domain-specific machine translation for 6.2 BLEU scores and improves translation constraints for 11.5% accuracy without additional training.
翻訳日:2022-09-26 14:00:39 公開日:2022-09-23
# ニュースカテゴリデータセット

News Category Dataset ( http://arxiv.org/abs/2209.11429v1 )

ライセンス: Link先を確認
Rishabh Misra(参考訳) 人々は世界中の出来事を知るためにニュースを頼りにし、日々の生活を知らせる。 今日の世界では、偽ニュースの拡散が激しくなると、出版されたカテゴリ情報を持つ真正ニュース記事の大規模かつ高品質なソースを持つことは、真正ニュースの自然言語構文と意味論を学ぶ上で有用である。 この作業の一環として、HuffPostから2012年から2018年までの約200万のニュース見出しと、さまざまなNLPタスクを可能にする有用なメタデータを含むNews Category Datasetを紹介します。 本稿では,データセットから新たな知見を導き,データセットのさまざまな既存および潜在的応用について述べる。

People rely on news to know what is happening around the world and inform their daily lives. In today's world, when the proliferation of fake news is rampant, having a large-scale and high-quality source of authentic news articles with the published category information is valuable to learning authentic news' Natural Language syntax and semantics. As part of this work, we present a News Category Dataset that contains around 200k news headlines from the year 2012 to 2018 obtained from HuffPost, along with useful metadata to enable various NLP tasks. In this paper, we also produce some novel insights from the dataset and describe various existing and potential applications of our dataset.
翻訳日:2022-09-26 14:00:29 公開日:2022-09-23
# ET5: 会話機械読解のための新しいエンドツーエンドフレームワーク

ET5: A Novel End-to-end Framework for Conversational Machine Reading Comprehension ( http://arxiv.org/abs/2209.11484v1 )

ライセンス: Link先を確認
Xiao Zhang, Heyan Huang, Zewen Chi and Xian-Ling Mao(参考訳) Conversational Machine Read comprehension (CMRC) は、コンピュータが自然言語のテキストを理解するのを手助けし、その後、テキストに関連する質問に答えるマルチターン会話を行うことを目的としている。 既存の方法は,(1)包括的推論に基づく意思決定,(2)決定によって必要となる場合のスパン抽出,(3)抽出されたスパンに基づく質問の再現,の3つのステップを必要とする。 しかし、ほぼすべての方法において、スパン抽出と質問再現のステップは、相対的な独立性のため、意思決定ステップにおける詳細な推論情報を十分に活用できないため、意思決定と質問フラージングの間の情報ギャップがさらに拡大される。 そこで,この問題に対処するために,共用パラメータ機構に基づく対話機械読解のための新しいエンドツーエンドフレームワーク,entailment reasoning T5 (ET5)を提案する。 提案フレームワークの軽量さにもかかわらず,提案するET5は,BLEU-4スコア55.2のShARCリーダボード上で,新たな最先端結果が得られることを示す実験結果を得た。 私たちのモデルとコードはhttps://github.com/yottaxx/et5で公開されています。

Conversational machine reading comprehension (CMRC) aims to assist computers to understand an natural language text and thereafter engage in a multi-turn conversation to answer questions related to the text. Existing methods typically require three steps: (1) decision making based on entailment reasoning; (2) span extraction if required by the above decision; (3) question rephrasing based on the extracted span. However, for nearly all these methods, the span extraction and question rephrasing steps cannot fully exploit the fine-grained entailment reasoning information in decision making step because of their relative independence, which will further enlarge the information gap between decision making and question phrasing. Thus, to tackle this problem, we propose a novel end-to-end framework for conversational machine reading comprehension based on shared parameter mechanism, called entailment reasoning T5 (ET5). Despite the lightweight of our proposed framework, experimental results show that the proposed ET5 achieves new state-of-the-art results on the ShARC leaderboard with the BLEU-4 score of 55.2. Our model and code are publicly available at https://github.com/Yottaxx/ET5.
翻訳日:2022-09-26 14:00:17 公開日:2022-09-23
# Meta Prompting: プロンプトを改善するための学習

MetaPrompting: Learning to Learn Better Prompts ( http://arxiv.org/abs/2209.11486v1 )

ライセンス: Link先を確認
Yutai Hou, Hongyuan Dong, Xinghao Wang, Bohan Li, Wanxiang Che(参考訳) プロンプト法は,数発の自然言語処理において重要な進歩の1つである。 離散トークンをベースとした ``hard prompts'' から連続 ``soft prompts' への移行の促進に関する最近の研究は、学習可能なベクトルを擬似プロンプトとして使用し、より良い性能を達成する。 有望な見通しを示すが、これらのソフトプロポーティング手法は効果を得るために良い初期化に大きく依存している。 残念ながら、ソフトプロンプトの完全な初期化を得るためには、内部言語モデルの動作と精巧な設計を理解する必要があり、これは簡単なタスクではなく、新しいタスクごとにスクラッチから再起動する必要がある。 To remedy this, we propose a generalized soft prompting method called MetaPrompting, which adopts the well-recognized model-agnostic meta-learning algorithm to automatically find better prompt initialization that facilitates fast adaptation to new prompting tasks.Extensive experiments show MetaPrompting tackles soft prompt initialization problem and brings significant improvement on four different datasets (over 6 points improvement in accuracy for 1-shot setting), achieving new state-of-the-art performance.

Prompting method is regarded as one of the crucial progress for few-shot nature language processing. Recent research on prompting moves from discrete tokens based ``hard prompts'' to continuous ``soft prompts'', which employ learnable vectors as pseudo prompt tokens and achieve better performance. Though showing promising prospects, these soft-prompting methods are observed to rely heavily on good initialization to take effect. Unfortunately, obtaining a perfect initialization for soft prompts requires understanding of inner language models working and elaborate design, which is no easy task and has to restart from scratch for each new task. To remedy this, we propose a generalized soft prompting method called MetaPrompting, which adopts the well-recognized model-agnostic meta-learning algorithm to automatically find better prompt initialization that facilitates fast adaptation to new prompting tasks.Extensive experiments show MetaPrompting tackles soft prompt initialization problem and brings significant improvement on four different datasets (over 6 points improvement in accuracy for 1-shot setting), achieving new state-of-the-art performance.
翻訳日:2022-09-26 13:59:57 公開日:2022-09-23
# Word2Vecを用いた話題の時間的分析

Temporal Analysis on Topics Using Word2Vec ( http://arxiv.org/abs/2209.11717v1 )

ライセンス: Link先を確認
Angad Sandhu, Aneesh Edara, Faizan Wajid, Ashok Agrawala(参考訳) 本研究では,トレンド検出と可視化の新しい手法を提案する。具体的には,話題の変化を時間とともにモデル化する。 トレンドの識別と視覚化のために現在使われているモデルが, 確率的使用量のカウントに基づいて, 単数語の人気のみを伝える場合, 本研究のアプローチは, 話題が移りつつある人気と方向性を示すものである。 この場合の方向は、選択されたコーパス内で異なるサブトピックである。 このような傾向はk平均クラスタリングとコサイン類似性を用いてトピックの動きをモデル化し、時間とともにクラスタ間の距離をグループ化する。 収束シナリオでは、トピック全体がメッシュである(トピック間のトークンは交換可能である)と推測することができる。 それとは対照的に、発散したシナリオは、各トピックのそれぞれのトークンが同じ文脈で見つからないことを意味する(単語は次第に互いに異なる)。 この方法論は20のnewsgroupsデータセットに存在する様々なメディアハウスからの記事のグループでテストされた。

The present study proposes a novel method of trend detection and visualization - more specifically, modeling the change in a topic over time. Where current models used for the identification and visualization of trends only convey the popularity of a singular word based on stochastic counting of usage, the approach in the present study illustrates the popularity and direction that a topic is moving in. The direction in this case is a distinct subtopic within the selected corpus. Such trends are generated by modeling the movement of a topic by using k-means clustering and cosine similarity to group the distances between clusters over time. In a convergent scenario, it can be inferred that the topics as a whole are meshing (tokens between topics, becoming interchangeable). On the contrary, a divergent scenario would imply that each topics' respective tokens would not be found in the same context (the words are increasingly different to each other). The methodology was tested on a group of articles from various media houses present in the 20 Newsgroups dataset.
翻訳日:2022-09-26 13:59:39 公開日:2022-09-23
# involved-MI:高次元非パラメトリックな信念による情報プランニング

involve-MI: Informative Planning with High-Dimensional Non-Parametric Beliefs ( http://arxiv.org/abs/2209.11591v1 )

ライセンス: Link先を確認
Gilad Rotman, Vadim Indelman(参考訳) 意思決定と計画の最も複雑なタスクのひとつは、情報を集めることです。 このタスクは、状態が高次元であり、その信念がパラメトリック分布で表現できない場合にさらに複雑になる。 状態は高次元であるが、多くの問題において、状態の遷移と観測の生成に関与するのはわずかである。 この事実を利用して,情報理論的な期待報酬である相互情報(mi)を,より低次元な状態のサブセット上で計算し,効率を向上し,精度を犠牲にすることなく計算する。 同様のアプローチが以前の研究、特にガウス分布に対して用いられ、一般分布に対して拡張する。 さらに,新しい状態が以前の状態に拡張された場合でも,精度を犠牲にすることなく次元性低減を適用する。 次に、逐次モンテカルロ(SMC)方式で機能するMIの推定器を開発し、将来の信念の表面の再構築を避ける。 最後に,この作業が計画最適化問題にどのように適用されるかを示す。 本研究は, 精度とタイミングの両立が実証されたアクティブスラム問題のシミュレーションによって評価される。

One of the most complex tasks of decision making and planning is to gather information. This task becomes even more complex when the state is high-dimensional and its belief cannot be expressed with a parametric distribution. Although the state is high-dimensional, in many problems only a small fraction of it might be involved in transitioning the state and generating observations. We exploit this fact to calculate an information-theoretic expected reward, mutual information (MI), over a much lower-dimensional subset of the state, to improve efficiency and without sacrificing accuracy. A similar approach was used in previous works, yet specifically for Gaussian distributions, and we here extend it for general distributions. Moreover, we apply the dimensionality reduction for cases in which the new states are augmented to the previous, yet again without sacrificing accuracy. We then continue by developing an estimator for the MI which works in a Sequential Monte Carlo (SMC) manner, and avoids the reconstruction of future belief's surfaces. Finally, we show how this work is applied to the informative planning optimization problem. This work is then evaluated in a simulation of an active SLAM problem, where the improvement in both accuracy and timing is demonstrated.
翻訳日:2022-09-26 13:59:22 公開日:2022-09-23
# ガウス混合モデルを用いた自然勾配変分推定の統一的視点

A Unified Perspective on Natural Gradient Variational Inference with Gaussian Mixture Models ( http://arxiv.org/abs/2209.11533v1 )

ライセンス: Link先を確認
Oleg Arenz, Philipp Dahlinger, Zihan Ye, Michael Volpp, Gerhard Neumann(参考訳) ガウス混合モデル (GMM) による変分推論は、難解な対象分布の高次かつ多次近似の学習を可能にする。 GMMは、例えばロボット工学において、軌道上の分布や関節の分布をモデル化するために、最大数百次元の問題設定に特に関係している。 本研究は,GMMに基づく変分推定において,各成分の独立な自然勾配更新と重みのカテゴリー分布を用いた2つの非常に効果的な手法に焦点を当てた。 実際の実装と理論的保証は異なっているが,これらの更新が等価であることを示すのは今回が初めてである。 サンプル選択, 自然勾配推定, 段階的適応, 信頼領域が強制されるか, 適応する部品の数など, 双方のアプローチを区別する設計上の選択について検討する。 我々は,これらの設計選択に対して広範なアブレーションを行い,最適化の効率と学習分布の変動性に強い影響を与えていることを示す。 本研究は,信頼領域とコンポーネント適応を一階の自然勾配推定と組み合わせた一般化されたフレームワークの新たなインスタンス化を提案する。

Variational inference with Gaussian mixture models (GMMs) enables learning of highly-tractable yet multi-modal approximations of intractable target distributions. GMMs are particular relevant for problem settings with up to a few hundred dimensions, for example in robotics, for modelling distributions over trajectories or joint distributions. This work focuses on two very effective methods for GMM-based variational inference that both employ independent natural gradient updates for the individual components and the categorical distribution of the weights. We show for the first time, that their derived updates are equivalent, although their practical implementations and theoretical guarantees differ. We identify several design choices that distinguish both approaches, namely with respect to sample selection, natural gradient estimation, stepsize adaptation, and whether trust regions are enforced or the number of components adapted. We perform extensive ablations on these design choices and show that they strongly affect the efficiency of the optimization and the variability of the learned distribution. Based on our insights, we propose a novel instantiation of our generalized framework, that combines first-order natural gradient estimates with trust-regions and component adaption, and significantly outperforms both previous methods in all our experiments.
翻訳日:2022-09-26 13:54:24 公開日:2022-09-23
# 差分分割変分推定法

Differentially private partitioned variational inference ( http://arxiv.org/abs/2209.11595v1 )

ライセンス: Link先を確認
Mikko A. Heikkil\"a, Matthew Ashman, Siddharth Swaroop, Richard E. Turner and Antti Honkela(参考訳) 分散機密データからプライバシ保存モデルを学ぶことはますます重要な問題であり、連合学習コンテキストで定式化されることが多い。 変分推論は、分割変分推論アルゴリズム(partitioned variational inference algorithm)を通じて、非プライベートな共用学習設定に拡張されている。 プライバシー保護に関しては、現在の金本位制は差分プライバシーと呼ばれる。 差分プライバシーは、強く数学的に明確に定義された意味でのプライバシーを保証する。 本稿では,分散学習環境におけるベイズ的後続分布に対する変分近似を学習するための最初の一般フレームワークである差分分割変分推論について,通信ラウンドの数を最小化し,データ対象に対して差分プライバシー保証を提供する。 本稿では,各パーティが行う局所最適化の摂動に基づく1つと,グローバル更新の摂動に基づく2つ(フェデレート平均化のバージョンを使用し,プロトコルに仮想パーティを追加する1つ)の3つの代替実装を提案し,それらの特性を理論的および経験的に比較する。 局所最適化の摂動は,各当事者が十分な局所データを持っている限り,単純で複雑なモデルでうまく機能することを示す。 しかし、プライバシーは常に各当事者から独立して保証される。 対照的に、グローバルアップデートの摂動は、比較的単純なモデルで最適だ。 セキュアなアグリゲーションやセキュアなシャッフルといった適切なセキュアなプリミティブにアクセスすると、すべてのパーティが共同でプライバシを保証することでパフォーマンスが改善される。

Learning a privacy-preserving model from distributed sensitive data is an increasingly important problem, often formulated in the federated learning context. Variational inference has recently been extended to the non-private federated learning setting via the partitioned variational inference algorithm. For privacy protection, the current gold standard is called differential privacy. Differential privacy guarantees privacy in a strong, mathematically clearly defined sense. In this paper, we present differentially private partitioned variational inference, the first general framework for learning a variational approximation to a Bayesian posterior distribution in the federated learning setting while minimising the number of communication rounds and providing differential privacy guarantees for data subjects. We propose three alternative implementations in the general framework, one based on perturbing local optimisation done by individual parties, and two based on perturbing global updates (one using a version of federated averaging, one adding virtual parties to the protocol), and compare their properties both theoretically and empirically. We show that perturbing the local optimisation works well with simple and complex models as long as each party has enough local data. However, the privacy is always guaranteed independently by each party. In contrast, perturbing the global updates works best with relatively simple models. Given access to suitable secure primitives, such as secure aggregation or secure shuffling, the performance can be improved by all parties guaranteeing privacy jointly.
翻訳日:2022-09-26 13:54:03 公開日:2022-09-23
# 弱い教師付き学習から アクティブラーニングまで

From Weakly Supervised Learning to Active Learning ( http://arxiv.org/abs/2209.11629v1 )

ライセンス: Link先を確認
Vivien Cabannes(参考訳) 応用数学と機械計算は、近年の教師あり学習の成功以来、多くの期待を集めている。 業界の多くの実践者が、古いパラダイムから機械学習に切り替えようとしている。 興味深いことに、これらのデータサイエンティストは微調整モデルよりもスクレイピング、注釈、クリーニングに多くの時間を費やしている。 雑多なデータから学ぶために、教師付き学習よりも汎用的なフレームワークを導き出せるか? この問題は、データ収集のボトルネックがアノテーションにあると仮定して、弱教師付き学習のレンズを通してアプローチされる。 私たちは弱い監督を、ユニークなターゲットではなく、ターゲット候補のセットを与えるものとしてモデル化します。 我々は、観察のほとんどに合致する ``optimistic''' 関数を探すべきだと主張する。 これにより、部分ラベルを曖昧にするための原則を導出できます。 また,非教師なし学習手法をフレームワークに組み込むことの利点,特に拡散手法によってアプローチした多様体正規化について論じる。 最後に、実践者が選択したデータの弱い情報をクエリできる「アクティブラベリング」フレームワークを導入し、受動的から能動的に教師付き学習に切り替える。 中でも,我々は,確率勾配へのアクセスや確率勾配降下を行うために,完全な情報を必要としないという事実を活用している。

Applied mathematics and machine computations have raised a lot of hope since the recent success of supervised learning. Many practitioners in industries have been trying to switch from their old paradigms to machine learning. Interestingly, those data scientists spend more time scrapping, annotating and cleaning data than fine-tuning models. This thesis is motivated by the following question: can we derive a more generic framework than the one of supervised learning in order to learn from clutter data? This question is approached through the lens of weakly supervised learning, assuming that the bottleneck of data collection lies in annotation. We model weak supervision as giving, rather than a unique target, a set of target candidates. We argue that one should look for an ``optimistic'' function that matches most of the observations. This allows us to derive a principle to disambiguate partial labels. We also discuss the advantage to incorporate unsupervised learning techniques into our framework, in particular manifold regularization approached through diffusion techniques, for which we derived a new algorithm that scales better with input dimension then the baseline method. Finally, we switch from passive to active weakly supervised learning, introducing the ``active labeling'' framework, in which a practitioner can query weak information about chosen data. Among others, we leverage the fact that one does not need full information to access stochastic gradients and perform stochastic gradient descent.
翻訳日:2022-09-26 13:53:41 公開日:2022-09-23
# 深層学習に基づく胸部x線画像の匿名化 : 患者プライバシの実用的保存法

Deep Learning-based Anonymization of Chest Radiographs: A Utility-preserving Measure for Patient Privacy ( http://arxiv.org/abs/2209.11531v1 )

ライセンス: Link先を確認
Kai Packh\"auser, Sebastian G\"undel, Florian Thamm, Felix Denzinger, Andreas Maier(参考訳) 胸部ラジオグラフィーのロバストで信頼性の高い匿名化は、そのような研究目的のために大規模なデータセットを公開する前に重要なステップとなる。 従来の匿名化プロセスは、画像中の個人情報をブラックボックスで隠蔽し、メタ情報の削除又は置き換えを行う。 しかし、このような簡単な手段は胸部x線写真に生体情報を保持しており、患者を連鎖攻撃によって再同定することができる。 したがって,画像に現れる生体情報の難読化を急務に行う必要がある。 そこで本研究では,胸部x線画像の匿名化を目的とし,診断や機械学習の目的でのデータユーティリティを維持しつつ,深層学習に基づく最初のアプローチを提案する。 我々のモデルアーキテクチャは、3つの独立したニューラルネットワークからなる構成で、集合的に使用すると、患者の再同定を妨げる変形場を学習することができる。 各成分の個々の影響をアブレーション研究によって調査する。 胸部x線-ray14データセットの定量的評価は, 異常分類性能にほとんど影響を与えず, 受信者動作特性曲線 (auc) 下の患者再同定率を81.8%から58.6%に低下させた。 これは患者のプライバシーを高めながら、基礎となる異常パターンを保存する能力を示している。 さらに,提案する深層学習に基づく匿名化手法と差分プライベート画像の画素化を比較し,胸部x線写真におけるプライバシー利用トレードオフの解消に向けた手法の優位性を示す。

Robust and reliable anonymization of chest radiographs constitutes an essential step before publishing large datasets of such for research purposes. The conventional anonymization process is carried out by obscuring personal information in the images with black boxes and removing or replacing meta-information. However, such simple measures retain biometric information in the chest radiographs, allowing patients to be re-identified by a linkage attack. Therefore, we see an urgent need to obfuscate the biometric information appearing in the images. To the best of our knowledge, we propose the first deep learning-based approach to targetedly anonymize chest radiographs while maintaining data utility for diagnostic and machine learning purposes. Our model architecture is a composition of three independent neural networks that, when collectively used, allow for learning a deformation field that is able to impede patient re-identification. The individual influence of each component is investigated with an ablation study. Quantitative results on the ChestX-ray14 dataset show a reduction of patient re-identification from 81.8% to 58.6% in the area under the receiver operating characteristic curve (AUC) with little impact on the abnormality classification performance. This indicates the ability to preserve underlying abnormality patterns while increasing patient privacy. Furthermore, we compare the proposed deep learning-based anonymization approach with differentially private image pixelization, and demonstrate the superiority of our method towards resolving the privacy-utility trade-off for chest radiographs.
翻訳日:2022-09-26 13:53:09 公開日:2022-09-23
# i-split: スプリットコンピューティングのためのディープネットワーク解釈可能性

I-SPLIT: Deep Network Interpretability for Split Computing ( http://arxiv.org/abs/2209.11607v1 )

ライセンス: Link先を確認
Federico Cunico, Luigi Capogrosso, Francesco Setti, Damiano Carra, Franco Fummi, Marco Cristani(参考訳) この研究は、分割コンピューティングの分野、すなわち、ディープニューラルネットワークを分割して、その初期部分を組み込みデバイスに、残りをサーバーにホストする方法において、大きな一歩を踏み出している。 これまでのところ、潜在的に分割された場所は、一意のアーキテクチャ的側面、すなわち層の大きさに基づいて特定されている。 このパラダイムの下では、分割を行い、パイプライン全体を再訓練した後のみ、精度で分割の有効性を評価することができ、時間的に禁止されるすべての可算分割点を徹底的に評価することができる。 ここでは、レイヤのアーキテクチャが重要であるだけでなく、それに含まれるニューロンの重要性も示します。 正しいクラス決定に対する勾配が高ければ、ニューロンは重要である。 それまでの情報を保存するためには、重要なニューロンの密度の高い層の後すぐに分割を適用する必要がある。 そこで我々は,この分割がどの程度の精度で機能するかを,その効果的な実装に先立って,信頼性の高い予測を行うことにより,最も適切な分割点を識別する手法であるInterpretable Split (I-SPLIT)を提案する。 i-splitのさらなる大きな貢献として、マルチクラス分類問題における分割点の最適選択は、ネットワークが扱わなければならない特定のクラスにも依存することを示した。 VGG16とResNet-50の2つのネットワークと、Tiny-Imagenet-200、notMNIST、Chest X-ray Pneumoniaの3つのデータセットで発掘実験が行われた。 ソースコードはhttps://github.com/vips4/I-Split.comで入手できる。

This work makes a substantial step in the field of split computing, i.e., how to split a deep neural network to host its early part on an embedded device and the rest on a server. So far, potential split locations have been identified exploiting uniquely architectural aspects, i.e., based on the layer sizes. Under this paradigm, the efficacy of the split in terms of accuracy can be evaluated only after having performed the split and retrained the entire pipeline, making an exhaustive evaluation of all the plausible splitting points prohibitive in terms of time. Here we show that not only the architecture of the layers does matter, but the importance of the neurons contained therein too. A neuron is important if its gradient with respect to the correct class decision is high. It follows that a split should be applied right after a layer with a high density of important neurons, in order to preserve the information flowing until then. Upon this idea, we propose Interpretable Split (I-SPLIT): a procedure that identifies the most suitable splitting points by providing a reliable prediction on how well this split will perform in terms of classification accuracy, beforehand of its effective implementation. As a further major contribution of I-SPLIT, we show that the best choice for the splitting point on a multiclass categorization problem depends also on which specific classes the network has to deal with. Exhaustive experiments have been carried out on two networks, VGG16 and ResNet-50, and three datasets, Tiny-Imagenet-200, notMNIST, and Chest X-Ray Pneumonia. The source code is available at https://github.com/vips4/I-Split.
翻訳日:2022-09-26 13:52:45 公開日:2022-09-23
# 人間の視覚の目的としてのセマンティックなシーン記述

Semantic scene descriptions as an objective of human vision ( http://arxiv.org/abs/2209.11737v1 )

ライセンス: Link先を確認
Adrien Doerig, Tim C Kietzmann, Emily Allen, Yihan Wu, Thomas Naselaris, Kendrick Kay, Ian Charest(参考訳) 視覚的なシーンの意味を解釈するには、構成対象の識別だけでなく、オブジェクトの相互関係の豊かな意味的特徴も必要である。 本稿では, 複雑な自然シーンから引き出されたヒト脳反応の大規模7T fMRIデータセットに, 現代の計算手法を適用し, ビゾセマンティックトランスフォーメーションの基礎となる神経機構について検討する。 人為的なシーン記述に言語深層学習モデルを適用したセマンティック埋め込みを用いて,セマンティックシーン記述を符号化する脳領域の広く分布するネットワークを同定する。 重要なことに、これらのセマンティック埋め込みは、伝統的なオブジェクトカテゴリラベルよりも、これらの領域のアクティビティを説明するのがよい。 加えて、彼らは、参加者が積極的にセマンティックなタスクに従事していないにもかかわらず、活動の効果的な予測者であり、viso-semantic transformationがデフォルトの視覚モードであることを示唆している。 そこで本研究では,シーンキャプションの高精度な再構成を,脳活動パターンから直接線形に復号できることを示す。 最後に、意味埋め込みを訓練した繰り返し畳み込みニューラルネットワークは、脳活動の予測において意味埋め込みよりも優れており、脳のヴィスー・セマンティクス変換の機械論的モデルを提供する。 これらの実験および計算結果は、視覚入力をリッチなセマンティックなシーン記述に変換することが視覚システムの中心的な目的であり、この新たな目的に焦点を合わせることで、人間の脳における視覚情報処理モデルの改善につながることを示唆している。

Interpreting the meaning of a visual scene requires not only identification of its constituent objects, but also a rich semantic characterization of object interrelations. Here, we study the neural mechanisms underlying visuo-semantic transformations by applying modern computational techniques to a large-scale 7T fMRI dataset of human brain responses elicited by complex natural scenes. Using semantic embeddings obtained by applying linguistic deep learning models to human-generated scene descriptions, we identify a widely distributed network of brain regions that encode semantic scene descriptions. Importantly, these semantic embeddings better explain activity in these regions than traditional object category labels. In addition, they are effective predictors of activity despite the fact that the participants did not actively engage in a semantic task, suggesting that visuo-semantic transformations are a default mode of vision. In support of this view, we then show that highly accurate reconstructions of scene captions can be directly linearly decoded from patterns of brain activity. Finally, a recurrent convolutional neural network trained on semantic embeddings further outperforms semantic embeddings in predicting brain activity, providing a mechanistic model of the brain's visuo-semantic transformations. Together, these experimental and computational results suggest that transforming visual input into rich semantic scene descriptions may be a central objective of the visual system, and that focusing efforts on this new objective may lead to improved models of visual information processing in the human brain.
翻訳日:2022-09-26 13:52:18 公開日:2022-09-23
# テキストから画像へのモデルのベストプロンプトとその検索方法

Best Prompts for Text-to-Image Models and How to Find Them ( http://arxiv.org/abs/2209.11711v1 )

ライセンス: Link先を確認
Nikita Pavlichenko and Dmitry Ustalov(参考訳) 生成モデル、特にテキスト誘導拡散モデルにおける最近の進歩は、プロのヒトアーティストの作品に類似した美的なイメージの制作を可能にしている。 しかし、プロンプトと呼ばれるテキスト記述を慎重に作成し、明確なキーワードのセットで拡張する必要がある。 審美学は計算的評価が難しいため、最適な迅速な定式化とキーワードの組み合わせを決定するには人間のフィードバックが必要である。 本稿では,遺伝的アルゴリズムを用いて,命令キーワードの最も有用な組み合わせを学習するための,ループ内の人間的アプローチを提案する。 また,このようなアプローチが,同一の描写を表現した画像の美的魅力をいかに改善するかを示す。

Recent progress in generative models, especially in text-guided diffusion models, has enabled the production of aesthetically-pleasing imagery resembling the works of professional human artists. However, one has to carefully compose the textual description, called the prompt, and augment it with a set of clarifying keywords. Since aesthetics are challenging to evaluate computationally, human feedback is needed to determine the optimal prompt formulation and keyword combination. In this paper, we present a human-in-the-loop approach to learning the most useful combination of prompt keywords using a genetic algorithm. We also show how such an approach can improve the aesthetic appeal of images depicting the same descriptions.
翻訳日:2022-09-26 13:46:29 公開日:2022-09-23
# アルツハイマー病診断におけるtensor-based multi-modality feature selection and regression

Tensor-Based Multi-Modality Feature Selection and Regression for Alzheimer's Disease Diagnosis ( http://arxiv.org/abs/2209.11372v1 )

ライセンス: Link先を確認
Jun Yu, Zhaoming Kong, Liang Zhan, Li Shen, and Lifang He(参考訳) 脳変化に伴うアルツハイマー病(AD)とミルド認知障害(MCI)の評価は依然として難しい課題である。 近年の研究では、多モードイメージング技術の組み合わせは、病理特性をよりよく反映し、ADおよびMCIのより正確な診断に寄与することが示されている。 本稿では,ad と mci の正規制御による診断とバイオマーカー同定のための新しいテンソルベース多モード特徴選択・回帰法を提案する。 具体的には、テンソル構造を利用して、マルチモーダリティデータに固有の高次相関情報を活用し、マルチ線形回帰モデルにおけるテンソルレベルの空間性を調べる。 3つの画像モダリティ(VBM-MRI, FDG-PET, AV45-PET)を用いたADNIデータ解析の実際的利点について述べる。 以上の結果から,本手法は疾患診断の最先端と,疾患特異的領域の同定,モダリティ関連の違いに対する優れた性能を示した。 この作業のコードはhttps://github.com/junfish/bios22で公開されている。

The assessment of Alzheimer's Disease (AD) and Mild Cognitive Impairment (MCI) associated with brain changes remains a challenging task. Recent studies have demonstrated that combination of multi-modality imaging techniques can better reflect pathological characteristics and contribute to more accurate diagnosis of AD and MCI. In this paper, we propose a novel tensor-based multi-modality feature selection and regression method for diagnosis and biomarker identification of AD and MCI from normal controls. Specifically, we leverage the tensor structure to exploit high-level correlation information inherent in the multi-modality data, and investigate tensor-level sparsity in the multilinear regression model. We present the practical advantages of our method for the analysis of ADNI data using three imaging modalities (VBM- MRI, FDG-PET and AV45-PET) with clinical parameters of disease severity and cognitive scores. The experimental results demonstrate the superior performance of our proposed method against the state-of-the-art for the disease diagnosis and the identification of disease-specific regions and modality-related differences. The code for this work is publicly available at https://github.com/junfish/BIOS22.
翻訳日:2022-09-26 13:45:49 公開日:2022-09-23
# TeST: 分散シフト下におけるテストタイムの自己評価

TeST: Test-time Self-Training under Distribution Shift ( http://arxiv.org/abs/2209.11459v1 )

ライセンス: Link先を確認
Samarth Sinha, Peter Gehler, Francesco Locatello, Bernt Schiele(参考訳) 近年の成功にもかかわらず、ディープニューラルネットワークはテスト時に分散シフトに遭遇した場合、パフォーマンスが低下し続ける。 最近提案された多くのアプローチは、推論の前にモデルを新しい分布に合わせることでこれに対抗する。 ラベルが利用できないため、監視されていない目的によって、観測されたテストデータにモデルを適用する必要がある。 本稿では,テスト時自己学習(test:test-time self-training)を提案する。これは,あるソースデータでトレーニングされたモデルと,テスト時に新しいデータ分布を入力とし,学生-教師フレームワークを用いて不変かつロバストな表現を学習する手法である。 TeSTを用いたモデルでは,ベースラインテスト時間適応アルゴリズムよりも大幅に改善されている。 TeSTは、適応時に5~10倍少ないデータにアクセスしながら、モダンなドメイン適応アルゴリズムとの競合性能を達成する。 オブジェクト検出と画像分割という2つのタスクのベースラインを徹底的に評価し,TeSTで適応したモデルを見つける。 TeSTはテスト時間領域適応アルゴリズムのための新しい最先端技術であることがわかった。

Despite their recent success, deep neural networks continue to perform poorly when they encounter distribution shifts at test time. Many recently proposed approaches try to counter this by aligning the model to the new distribution prior to inference. With no labels available this requires unsupervised objectives to adapt the model on the observed test data. In this paper, we propose Test-Time Self-Training (TeST): a technique that takes as input a model trained on some source data and a novel data distribution at test time, and learns invariant and robust representations using a student-teacher framework. We find that models adapted using TeST significantly improve over baseline test-time adaptation algorithms. TeST achieves competitive performance to modern domain adaptation algorithms, while having access to 5-10x less data at time of adaption. We thoroughly evaluate a variety of baselines on two tasks: object detection and image segmentation and find that models adapted with TeST. We find that TeST sets the new state-of-the art for test-time domain adaptation algorithms.
翻訳日:2022-09-26 13:45:33 公開日:2022-09-23
# テスト時の物体検出のためのクエリベースハードイメージ検索

Query-based Hard-Image Retrieval for Object Detection at Test Time ( http://arxiv.org/abs/2209.11559v1 )

ライセンス: Link先を確認
Edward Ayers, Jonathan Sadeghi, John Redford, Romain Mueller, Puneet K. Dokania(参考訳) オブジェクト検出器の性能が不十分な画像を見つけることで、オブジェクト検出器のエラー挙動を捉えたいという長年の関心がある。 自動運転のような現実世界のアプリケーションでは、検出性能の単純な要件を超えて潜在的な障害を特徴付けることも重要である。 例えば、エゴ車に近い歩行者の発見に失敗した場合、一般的には距離を逸した車両の発見よりも近い検査が必要となる。 このような潜在的な障害をテスト時に予測する問題は、検出の不確実性に基づく文献や従来の手法では、そのようなきめ細かいエラーの特徴化に非依存であるため、ほとんど見過ごされてきた。 そこで本研究では,問合せが「ハードネス」の特定の定義である問合せベースのハード画像検索タスクとして「ハード」画像を見つける問題を再検討し,この課題を大規模な問合せに対して解決できる簡易かつ直感的な方法を提案する。 提案手法は完全にポストホックであり,地平線アノテーションを必要とせず,検出器の選択に依存せず,地平線の代わりに単純な確率モデルを用いた効率的なモンテカルロ推定に依存する。 ラベル付きデータなしで特定の検出器の硬い画像を確実に識別する多種多様なクエリに有効に適用できることを実験的に示す。 我々は、広く使われているRetinaNet、Faster-RCNN、Mask-RCNN、Cascade Mask-RCNNオブジェクト検出器を用いて、ランキングと分類タスクの結果を提供する。

There is a longstanding interest in capturing the error behaviour of object detectors by finding images where their performance is likely to be unsatisfactory. In real-world applications such as autonomous driving, it is also crucial to characterise potential failures beyond simple requirements of detection performance. For example, a missed detection of a pedestrian close to an ego vehicle will generally require closer inspection than a missed detection of a car in the distance. The problem of predicting such potential failures at test time has largely been overlooked in the literature and conventional approaches based on detection uncertainty fall short in that they are agnostic to such fine-grained characterisation of errors. In this work, we propose to reformulate the problem of finding "hard" images as a query-based hard image retrieval task, where queries are specific definitions of "hardness", and offer a simple and intuitive method that can solve this task for a large family of queries. Our method is entirely post-hoc, does not require ground-truth annotations, is independent of the choice of a detector, and relies on an efficient Monte Carlo estimation that uses a simple stochastic model in place of the ground-truth. We show experimentally that it can be applied successfully to a wide variety of queries for which it can reliably identify hard images for a given detector without any labelled data. We provide results on ranking and classification tasks using the widely used RetinaNet, Faster-RCNN, Mask-RCNN, and Cascade Mask-RCNN object detectors.
翻訳日:2022-09-26 13:45:16 公開日:2022-09-23
# LGDN:ビデオ言語モデリングのための言語ガイド型Denoising Network

LGDN: Language-Guided Denoising Network for Video-Language Modeling ( http://arxiv.org/abs/2209.11388v1 )

ライセンス: Link先を確認
Haoyu Lu and Mingyu Ding and Nanyi Fei and Yuqi Huo and Zhiwu Lu(参考訳) ビデオ言語モデリングは、webビデオの急速な成長で注目を集めている。 既存の手法のほとんどは、ビデオフレームとテキスト記述が意味的に相関していると仮定しており、ビデオレベルでの映像言語モデリングに焦点を当てている。 しかし、この仮説は、(1)映像内容の豊かな意味論により、単一のビデオレベルの記述で全てのフレームをカバーすることは困難である、(2)生のビデオは通常、ノイズや意味のない情報(シーンショット、トランジション、ティーザーなど)を持っている、という2つの理由で失敗することが多い。 多くの最近の研究でこの問題を緩和するための注意機構が展開されているが、無関係でノイズの多い情報は依然として解決が困難である。 このような課題を克服するために,我々はLGDN(Language-Guided Denoising Network)と呼ばれる,映像言語モデリングのための効率的かつ効果的なモデルを提案する。 すべての抽出されたビデオフレームを使用する既存の方法とは異なり、lgdnは言語監督下で不整合または冗長なフレームを動的にフィルタリングし、1ビデオあたり2-4サエントフレームしか取得せず、クロスモーダルトークンレベルのアライメントを行う。 5つの公開データセットに対する大規模な実験は、LGDNが最先端の技術を大きなマージンで上回っていることを示している。 また, 今後の映像言語研究に刺激を与えるため, 騒音問題を解決することの重要性を明らかにするため, 詳細なアブレーション研究を行った。

Video-language modeling has attracted much attention with the rapid growth of web videos. Most existing methods assume that the video frames and text description are semantically correlated, and focus on video-language modeling at video level. However, this hypothesis often fails for two reasons: (1) With the rich semantics of video contents, it is difficult to cover all frames with a single video-level description; (2) A raw video typically has noisy/meaningless information (e.g., scenery shot, transition or teaser). Although a number of recent works deploy attention mechanism to alleviate this problem, the irrelevant/noisy information still makes it very difficult to address. To overcome such challenge, we thus propose an efficient and effective model, termed Language-Guided Denoising Network (LGDN), for video-language modeling. Different from most existing methods that utilize all extracted video frames, LGDN dynamically filters out the misaligned or redundant frames under the language supervision and obtains only 2--4 salient frames per video for cross-modal token-level alignment. Extensive experiments on five public datasets show that our LGDN outperforms the state-of-the-arts by large margins. We also provide detailed ablation study to reveal the critical importance of solving the noise issue, in hope of inspiring future video-language work.
翻訳日:2022-09-26 13:43:47 公開日:2022-09-23
# ビデオモーメント検索のためのマルチモーダルクロスドメインアライメントネットワーク

Multi-Modal Cross-Domain Alignment Network for Video Moment Retrieval ( http://arxiv.org/abs/2209.11572v1 )

ライセンス: Link先を確認
Xiang Fang, Daizong Liu, Pan Zhou, YuChong Hu(参考訳) マルチメディア情報検索におけるタスクとして,ビデオモーメント検索(VMR)は,与えられた言語クエリに従って,未編集のビデオから対象モーメントをローカライズすることを目的としている。 従来の手法のほとんどは、多くの手動アノテーション(つまりモーメント境界)に大きく依存しており、実際に取得するには非常に高価である。 さらに、異なるデータセット間のドメインギャップのため、これらの事前トレーニング済みモデルを未認識のドメインに直接適用すると、パフォーマンスが大幅に低下する。 本稿では,完全アノテーション付きデータセットが1つのドメイン(``source domain'')で利用可能だが,関心領域(``target domain'')にはアノテーション付きデータセットのみが含まれている,クロスドメインvmrという,新たなタスクに焦点を当てる。 私たちが知る限りでは、クロスドメインVMRに関する最初の研究を示す。 この課題に対処するために、アノテーションの知識をソースドメインからターゲットドメインに転送する新しいマルチモーダル・クロスドメイン・アライメント(MMCDA)ネットワークを提案する。 しかし、ソースとターゲットドメイン間のドメインの相違とビデオとクエリ間のセマンティックなギャップのため、トレーニングされたモデルをターゲットドメインに直接適用することは、一般的にパフォーマンス低下につながる。 この問題を解決するために,我々は3つの新しいモジュールを開発した。 i) ドメインアライメントモジュールは、各モダリティの異なるドメイン間で特徴分布を整列するように設計されている。 (ii) クロスモーダルアライメントモジュールは、ビデオとクエリの特徴を結合埋め込み空間にマッピングし、対象領域の異なるモダリティ間の特徴分布を調整することを目的としている。 (iii)特定のアライメントモジュールは、所定のフレームと与えられたクエリとのきめ細かい類似性を取得して最適なローカライゼーションを試みる。 これら3つのモジュールを共同でトレーニングすることで、MCCDAはドメイン不変かつセマンティックアラインなクロスモーダル表現を学習できる。

As an increasingly popular task in multimedia information retrieval, video moment retrieval (VMR) aims to localize the target moment from an untrimmed video according to a given language query. Most previous methods depend heavily on numerous manual annotations (i.e., moment boundaries), which are extremely expensive to acquire in practice. In addition, due to the domain gap between different datasets, directly applying these pre-trained models to an unseen domain leads to a significant performance drop. In this paper, we focus on a novel task: cross-domain VMR, where fully-annotated datasets are available in one domain (``source domain''), but the domain of interest (``target domain'') only contains unannotated datasets. As far as we know, we present the first study on cross-domain VMR. To address this new task, we propose a novel Multi-Modal Cross-Domain Alignment (MMCDA) network to transfer the annotation knowledge from the source domain to the target domain. However, due to the domain discrepancy between the source and target domains and the semantic gap between videos and queries, directly applying trained models to the target domain generally leads to a performance drop. To solve this problem, we develop three novel modules: (i) a domain alignment module is designed to align the feature distributions between different domains of each modality; (ii) a cross-modal alignment module aims to map both video and query features into a joint embedding space and to align the feature distributions between different modalities in the target domain; (iii) a specific alignment module tries to obtain the fine-grained similarity between a specific frame and the given query for optimal localization. By jointly training these three modules, our MMCDA can learn domain-invariant and semantic-aligned cross-modal representations.
翻訳日:2022-09-26 13:43:19 公開日:2022-09-23
# 辞書選好の教師なし学習の複雑さ

The complexity of unsupervised learning of lexicographic preferences ( http://arxiv.org/abs/2209.11505v1 )

ライセンス: Link先を確認
H\'el\`ene Fargier (IRIT-ADRIA, ANITI), Pierre-Fran\c{c}ois Gimenez (CIDRE), J\'er\^ome Mengin (IRIT-ADRIA, ANITI), Bao Ngoc Le Nguyen (INSA Toulouse)(参考訳) 本稿では,オンラインコンビネータで一般的に使用される,コンビネータの選択肢セットに対するユーザの嗜好を学習するタスクについて考察する。 多くの設定では、過去のインタラクション中に選択された選択肢のセットのみが学習者に提供される。 fargierとal。 [2018] では,これまでに選択した選択肢を可能な限り高いランクでランク付けするユーザの好みのモデルと,この設定において,特定の好みのモデルである語彙的嗜好木(LP木)を学習するアルゴリズムを提案する。 本稿では,このアプローチに関連する複雑性理論問題について考察する。 属性数に対数的であるLP木を学習する際のサンプルの複雑さに上限を与える。 また,経験的リスクを最小化するlp木を線形lp木のクラスに制限した場合,多項式時間で計算できることを証明した。

This paper considers the task of learning users' preferences on a combinatorial set of alternatives, as generally used by online configurators, for example. In many settings, only a set of selected alternatives during past interactions is available to the learner. Fargier et al. [2018] propose an approach to learn, in such a setting, a model of the users' preferences that ranks previously chosen alternatives as high as possible; and an algorithm to learn, in this setting, a particular model of preferences: lexicographic preferences trees (LP-trees). In this paper, we study complexity-theoretical problems related to this approach. We give an upper bound on the sample complexity of learning an LP-tree, which is logarithmic in the number of attributes. We also prove that computing the LP tree that minimises the empirical risk can be done in polynomial time when restricted to the class of linear LP-trees.
翻訳日:2022-09-26 13:42:46 公開日:2022-09-23
# テキスト分類のためのラベル埋め込みからのインタラクティブな二重注意

IDEA: Interactive DoublE Attentions from Label Embedding for Text Classification ( http://arxiv.org/abs/2209.11407v1 )

ライセンス: Link先を確認
Ziyuan Wang, Hailiang Huang, Songqiao Han(参考訳) 現在のテキスト分類法は、通常、ラベルテキストに含まれる示唆的な情報を無視するナイーブまたは複雑な分類器の前に、テキストを単に埋め込みにエンコードする。 事実として、人間は主にサブカテゴリの意味的意味に基づいて文書を分類する。 テキストとラベル名の情報交換を行うために,シアムBERTとIDEA(Interactive DoublE Attentions)という対話型ダブルアテンションを用いた新しいモデル構造を提案する。 インタラクティブな二重注意により、モデルは、すべてのラベルを区別し、基底真理ラベルのセマンティックサブクラスをマッチングする、粗いものから細かいものまで、クラス間およびクラス内情報を活用できる。 提案手法は,ラベルテキストを用いた最先端手法よりも,より安定した結果が得られる。

Current text classification methods typically encode the text merely into embedding before a naive or complicated classifier, which ignores the suggestive information contained in the label text. As a matter of fact, humans classify documents primarily based on the semantic meaning of the subcategories. We propose a novel model structure via siamese BERT and interactive double attentions named IDEA ( Interactive DoublE Attentions) to capture the information exchange of text and label names. Interactive double attentions enable the model to exploit the inter-class and intra-class information from coarse to fine, which involves distinguishing among all labels and matching the semantical subclasses of ground truth labels. Our proposed method outperforms the state-of-the-art methods using label texts significantly with more stable results.
翻訳日:2022-09-26 13:36:45 公開日:2022-09-23
# 機械読取理解のためのロバスト領域適応

Robust Domain Adaptation for Machine Reading Comprehension ( http://arxiv.org/abs/2209.11615v1 )

ライセンス: Link先を確認
Liang Jiang, Zhenyu Huang, Jia Liu, Zujie Wen, Xi Peng(参考訳) 機械読解(MRC)のためのほとんどのドメイン適応手法は、事前学習された質問応答(QA)構築モデルを用いて、MRC転送のための擬似QAペアを生成する。 このようなプロセスは必然的にミスマッチペア(すなわちノイズ対応)を導入する。 一 対象文書における使用不能なQA対及び ii) 対象ドメインにqa構築モデルを適用する際のドメインシフト。 間違いなく、騒がしい対応はmrcのパフォーマンスを損なうだろうが、既存の作品では無視されている。 このような非接触問題を解決するために,文書に関連した対話とmrcの新しいドメイン適応法を用いて,qaペアを構築することを提案する。 具体的には、回答抽出器(AE)、質問セレクタ(QS)、MCCモデルからなるRMRC(Robust Domain Adaptation for Machine Reading Comprehension)手法を提案する。 具体的には、RMRCは、文書との相関をAEで推定することで、無関係な回答をフィルタリングし、QSを介して複数の対話チャットで候補者の質問を融合させて質問を抽出する。 抽出したQAペアを用いて、CRCを微調整し、新しい強化自己学習法によりQSを最適化するフィードバックを提供する。 提案手法は,QSの最適化により,ドメインシフトによるノイズ対応問題を大幅に軽減する。 我々の知る限り、この研究はドメイン適応型MRCモデルにおけるノイズ対応の影響を初めて明らかにし、ミスマッチしたペアに対して堅牢性を達成するための実現可能な方法を示すかもしれない。 3つのデータセットに対する大規模な実験により,本手法の有効性が示された。

Most domain adaptation methods for machine reading comprehension (MRC) use a pre-trained question-answer (QA) construction model to generate pseudo QA pairs for MRC transfer. Such a process will inevitably introduce mismatched pairs (i.e., noisy correspondence) due to i) the unavailable QA pairs in target documents, and ii) the domain shift during applying the QA construction model to the target domain. Undoubtedly, the noisy correspondence will degenerate the performance of MRC, which however is neglected by existing works. To solve such an untouched problem, we propose to construct QA pairs by additionally using the dialogue related to the documents, as well as a new domain adaptation method for MRC. Specifically, we propose Robust Domain Adaptation for Machine Reading Comprehension (RMRC) method which consists of an answer extractor (AE), a question selector (QS), and an MRC model. Specifically, RMRC filters out the irrelevant answers by estimating the correlation to the document via the AE, and extracts the questions by fusing the candidate questions in multiple rounds of dialogue chats via the QS. With the extracted QA pairs, MRC is fine-tuned and provides the feedback to optimize the QS through a novel reinforced self-training method. Thanks to the optimization of the QS, our method will greatly alleviate the noisy correspondence problem caused by the domain shift. To the best of our knowledge, this could be the first study to reveal the influence of noisy correspondence in domain adaptation MRC models and show a feasible way to achieve robustness to mismatched pairs. Extensive experiments on three datasets demonstrate the effectiveness of our method.
翻訳日:2022-09-26 13:35:54 公開日:2022-09-23
# 正規文法誘導のためのニューラルモデル

A Neural Model for Regular Grammar Induction ( http://arxiv.org/abs/2209.11628v1 )

ライセンス: Link先を確認
Peter Belc\'ak, David Hofer, Roger Wattenhofer(参考訳) 文法推論は、計算学習理論における古典的な問題であり、自然言語処理における幅広い影響のトピックである。 我々は文法を計算のモデルとして扱い、正および負の例から正規文法を誘導する新しいニューラルアプローチを提案する。 我々のモデルは完全に説明可能であり、その中間結果は部分解析として直接解釈可能であり、十分なデータが得られると任意の正規文法を学習することができる。 提案手法は,様々な複雑さのテストにおいて,高いリコールと精度のスコアを連続的に達成する。 詳細な結果とコードを簡単に入手できます。

Grammatical inference is a classical problem in computational learning theory and a topic of wider influence in natural language processing. We treat grammars as a model of computation and propose a novel neural approach to induction of regular grammars from positive and negative examples. Our model is fully explainable, its intermediate results are directly interpretable as partial parses, and it can be used to learn arbitrary regular grammars when provided with sufficient data. Our method consistently attains high recall and precision scores across a range of tests of varying complexity. We make the detailed results and code readily available.
翻訳日:2022-09-26 13:35:29 公開日:2022-09-23
# WS-3D車線:2D車線ラベルで3D車線検出を監督

WS-3D-Lane: Weakly Supervised 3D Lane Detection With 2D Lane Labels ( http://arxiv.org/abs/2209.11523v1 )

ライセンス: Link先を確認
Jianyong Ai, Wenbo Ding, Jiuhua Zhao, Jiachen Zhong(参考訳) 2Dレーンと比較して、実際の3Dレーンデータは正確に収集するのは難しい。 本稿では,弱教師付き3dレーン検出ws-3dレーンと呼ばれる,2dレーンラベルのみを用いた3dレーンの訓練手法を提案する。 隣接する車線上での車線幅と等高の仮定により, 訓練時の3次元車線高さを間接的に監督する。 データ収集時のカメラピッチの動的変化の問題を克服するため,カメラピッチ自己校正法を提案する。 アンカー表現では,非最大抑制法(nms法)を改良した二重層アンカーを提案する。 3D-LaneNetをベースとした2つの監視手法による実験を行った。 f-scoreはアポロ3d合成データセットで92.3%、f1は1つの3dレーンで74.5%まで上昇します。 一方、純粋に監督された設定のWS-3D-Laneは、より多くのインクリメントを行い、最先端よりも優れています。 我々の知る限りでは、WS-3D-Laneは弱教師付き環境下での3Dレーン検出の最初の試みである。

Compared to 2D lanes, real 3D lane data is difficult to collect accurately. In this paper, we propose a novel method for training 3D lanes with only 2D lane labels, called weakly supervised 3D lane detection WS-3D-Lane. By assumptions of constant lane width and equal height on adjacent lanes, we indirectly supervise 3D lane heights in the training. To overcome the problem of the dynamic change of the camera pitch during data collection, a camera pitch self-calibration method is proposed. In anchor representation, we propose a double-layer anchor with a improved non-maximum suppression (NMS) method, which enables the anchor-based method to predict two lane lines that are close. Experiments are conducted on the base of 3D-LaneNet under two supervision methods. Under weakly supervised setting, our WS-3D-Lane outperforms previous 3D-LaneNet: F-score rises to 92.3% on Apollo 3D synthetic dataset, and F1 rises to 74.5% on ONCE-3DLanes. Meanwhile, WS-3D-Lane in purely supervised setting makes more increments and outperforms state-of-the-art. To the best of our knowledge, WS-3D-Lane is the first try of 3D lane detection under weakly supervised setting.
翻訳日:2022-09-26 13:35:07 公開日:2022-09-23
# 深層学習における最新のマルチタスク最適化手法は役に立つか?

Do Current Multi-Task Optimization Methods in Deep Learning Even Help? ( http://arxiv.org/abs/2209.11379v1 )

ライセンス: Link先を確認
Derrick Xin, Behrooz Ghorbani, Ankush Garg, Orhan Firat, Justin Gilmer(参考訳) 近年,深層マルチタスクモデルのための最適化アルゴリズムが提案されている。 これらのマルチタスク最適化(MTO)手法は、単にタスク損失の重み付け平均を最適化することによって得られる手法よりも優れたソリューションをもたらすとしばしば主張される。 本稿では,様々な言語と視覚タスクに関する大規模実験を行い,これらのクレームの実証的妥当性について検討する。 これらのアルゴリズムの設計と計算の複雑さが増しても、mto法は従来の最適化アプローチで達成できる以上の性能改善は得られていない。 パフォーマンスプロファイルを継続的に改善する代替戦略を強調し、最適な結果をもたらす可能性のある一般的なトレーニング落とし穴を指摘する。 最後に,MTOアルゴリズムの性能を確実に評価する上での課題について概説する。

Recent research has proposed a series of specialized optimization algorithms for deep multi-task models. It is often claimed that these multi-task optimization (MTO) methods yield solutions that are superior to the ones found by simply optimizing a weighted average of the task losses. In this paper, we perform large-scale experiments on a variety of language and vision tasks to examine the empirical validity of these claims. We show that, despite the added design and computational complexity of these algorithms, MTO methods do not yield any performance improvements beyond what is achievable via traditional optimization approaches. We highlight alternative strategies that consistently yield improvements to the performance profile and point out common training pitfalls that might cause suboptimal results. Finally, we outline challenges in reliably evaluating the performance of MTO algorithms and discuss potential solutions.
翻訳日:2022-09-26 13:34:14 公開日:2022-09-23
# StarCraftの完全長ゲームにおける効率的な強化学習についてII

On Efficient Reinforcement Learning for Full-length Game of StarCraft II ( http://arxiv.org/abs/2209.11553v1 )

ライセンス: Link先を確認
Ruo-Ze Liu, Zhen-Jia Pang, Zhou-Yu Meng, Wenhai Wang, Yang Yu, Tong Lu(参考訳) starcraft ii (sc2)は強化学習(rl)にとって大きな課題であり、その主な課題は巨大な状態空間、様々な行動空間、そして長い時間地平線である。 本稿では,StarCraft IIのフル長ゲームにおけるRL手法のセットについて検討する。 抽出されたマクロアクションとニューラルネットワークの階層的アーキテクチャを含む階層的rlアプローチについて検討する。 カリキュラム転送訓練手順を調査し、4つのGPUと48のCPUスレッドを持つ1台のマシン上でエージェントを訓練する。 64x64マップと制限単位を用いて、レベル1組み込みAIに対して99%の勝利率を達成する。 カリキュラム転送学習アルゴリズムと戦闘モデルの混合により、最も難しい非指導レベルのai(level-7)に対して93%の勝利率を達成した。 この拡張版では、エージェントを不正なレベルAIに対して訓練し、レベル8、レベル9、レベル10のAIに対してそれぞれ96%、97%、94%の勝利率を達成するために、私たちのアーキテクチャを改善します。 私たちのコードはhttps://github.com/liuruoze/HierNet-SC2にあります。 研究とオープンソースコミュニティの両方でAlphaStarを参考にしたベースラインを提供するため、スケールダウンしたバージョンのmini-AlphaStar(mAS)を再現する。 最新バージョンのmASは1.07であり、564アクションを持つ生のアクション空間でトレーニングすることができる。 ハイパーパラメータを調整可能にすることで、単一の共通マシン上でトレーニングを実行するように設計されている。 次に、同じリソースを使用してmASと比較し、我々の方法がより効果的であることを示す。 mini-AlphaStarのコードはhttps://github.com/liuruoze/mini-AlphaStarにある。 SC2や他の大規模ゲームにおける効率的な強化学習の今後の研究に光を当てることが期待できる。

StarCraft II (SC2) poses a grand challenge for reinforcement learning (RL), of which the main difficulties include huge state space, varying action space, and a long time horizon. In this work, we investigate a set of RL techniques for the full-length game of StarCraft II. We investigate a hierarchical RL approach involving extracted macro-actions and a hierarchical architecture of neural networks. We investigate a curriculum transfer training procedure and train the agent on a single machine with 4 GPUs and 48 CPU threads. On a 64x64 map and using restrictive units, we achieve a win rate of 99% against the level-1 built-in AI. Through the curriculum transfer learning algorithm and a mixture of combat models, we achieve a 93% win rate against the most difficult non-cheating level built-in AI (level-7). In this extended version of the paper, we improve our architecture to train the agent against the cheating level AIs and achieve the win rate against the level-8, level-9, and level-10 AIs as 96%, 97%, and 94%, respectively. Our codes are at https://github.com/liuruoze/HierNet-SC2. To provide a baseline referring the AlphaStar for our work as well as the research and open-source community, we reproduce a scaled-down version of it, mini-AlphaStar (mAS). The latest version of mAS is 1.07, which can be trained on the raw action space which has 564 actions. It is designed to run training on a single common machine, by making the hyper-parameters adjustable. We then compare our work with mAS using the same resources and show that our method is more effective. The codes of mini-AlphaStar are at https://github.com/liuruoze/mini-AlphaStar. We hope our study could shed some light on the future research of efficient reinforcement learning on SC2 and other large-scale games.
翻訳日:2022-09-26 13:34:01 公開日:2022-09-23
# 自由回転3次元剛体画像からの解釈可能なダイナミクスの学習

Learning Interpretable Dynamics from Images of a Freely Rotating 3D Rigid Body ( http://arxiv.org/abs/2209.11355v1 )

ライセンス: Link先を確認
Justice Mason and Christine Allen-Blanchette and Nicholas Zolman and Elizabeth Davison and Naomi Leonard(参考訳) 多くの実世界の環境では、衛星のような自由回転する3次元剛体の画像観察は、低次元の測定がなければ可能である。 しかし、画像データの高次元性は、力学を学ぶための古典的推定手法の使用を妨げ、解釈可能性の欠如は、標準的なディープラーニング手法の有用性を低下させる。 本研究では,画像列から3次元回転力学を推定・予測する物理インフォームドニューラルネットワークモデルを提案する。 これを多段階予測パイプラインを用いて実現し、個々の画像を$\mathbf{so}(3)$ に準同型な潜在表現にマッピングし、潜在対からの角速度を計算し、ハミルトニアンを学習したハミルトニアンの運動方程式を用いて将来の潜在状態を予測する。 回転立方体と正方形プリズムの列が一様で非一様である新しい回転剛体データセットに対する本手法の有効性を実証する。

In many real-world settings, image observations of freely rotating 3D rigid bodies, such as satellites, may be available when low-dimensional measurements are not. However, the high-dimensionality of image data precludes the use of classical estimation techniques to learn the dynamics and a lack of interpretability reduces the usefulness of standard deep learning methods. In this work, we present a physics-informed neural network model to estimate and predict 3D rotational dynamics from image sequences. We achieve this using a multi-stage prediction pipeline that maps individual images to a latent representation homeomorphic to $\mathbf{SO}(3)$, computes angular velocities from latent pairs, and predicts future latent states using the Hamiltonian equations of motion with a learned representation of the Hamiltonian. We demonstrate the efficacy of our approach on a new rotating rigid-body dataset with sequences of rotating cubes and rectangular prisms with uniform and non-uniform density.
翻訳日:2022-09-26 13:27:19 公開日:2022-09-23
# マジック:準ロバスト分類器の反転によるマスク誘導画像合成

MAGIC: Mask-Guided Image Synthesis by Inverting a Quasi-Robust Classifier ( http://arxiv.org/abs/2209.11549v1 )

ライセンス: Link先を確認
Mozhdeh Rouhsedaghat, Masoud Monajatipoor, Kai-Wei Chang, C. -C. Jay Kuo, Iacopo Masi(参考訳) 我々は,強い正則化器を備えた準ロバスト分類器を反転させることで,単一画像の操作を制御できるワンショット画像合成法を提案する。 提案手法であるmagicは,事前学習された準ロバスト分類器から構造的勾配を抽出し,その分類精度を維持しつつ入力セマンティクスを保存し,合成の信頼性を保証する。 複雑なプリミティブを使用してプロセスを監視したり、アテンションマップを弱い監視信号として使用する現在の方法とは異なり、マジックは強力な空間的先行を強制するガイド二項マスクによって駆動される入力上の勾配を集約する。 magicは、形状と位置制御、激しい非剛性変形、繰り返しオブジェクトの存在下でのコピー/モブ操作を実現する1つのフレームワークで一連の操作を実装し、ユーザーはバイナリガイドマスクを単純に指定することで合成をしっかりと制御できる。 本研究と知見は,imagenetから採取した同一画像の質的比較,および機械知覚を用いた定量的解析,および100名以上の合成品質を支持できるユーザ調査によって裏付けられた。

We offer a method for one-shot image synthesis that allows controlling manipulations of a single image by inverting a quasi-robust classifier equipped with strong regularizers. Our proposed method, entitled Magic, samples structured gradients from a pre-trained quasi-robust classifier to better preserve the input semantics while preserving its classification accuracy, thereby guaranteeing credibility in the synthesis. Unlike current methods that use complex primitives to supervise the process or use attention maps as a weak supervisory signal, Magic aggregates gradients over the input, driven by a guide binary mask that enforces a strong, spatial prior. Magic implements a series of manipulations with a single framework achieving shape and location control, intense non-rigid shape deformations, and copy/move operations in the presence of repeating objects and gives users firm control over the synthesis by requiring simply specifying binary guide masks. Our study and findings are supported by various qualitative comparisons with the state-of-the-art on the same images sampled from ImageNet and quantitative analysis using machine perception along with a user survey of 100+ participants that endorse our synthesis quality.
翻訳日:2022-09-26 13:26:19 公開日:2022-09-23
# 決定推定係数を持つRLの統一アルゴリズム:非回帰・PAC・逆学習

Unified Algorithms for RL with Decision-Estimation Coefficients: No-Regret, PAC, and Reward-Free Learning ( http://arxiv.org/abs/2209.11745v1 )

ライセンス: Link先を確認
Fan Chen, Song Mei, Yu Bai(参考訳) サンプル効率学習のための統一された複雑性尺度とアルゴリズムの発見は、強化学習(RL)研究の中心的なトピックである。 決定-推定係数(Decision-Estimation Coefficient, DEC)は、最近Fosterら(2021)によって、サンプル効率の非回帰RLに必要な複雑さの尺度として提案されている。 本稿では,DECフレームワークを用いたRLの統一理論に向けて前進する。 まず,探索的DEC (Explorative DEC) とReward-Free DEC (RFDEC) の2つの新しいDEC型複雑性尺度を提案する。 サンプル効率のよいpac学習と報酬のない学習には必要で十分であることを示す。 次に、3つの学習目標すべてに対して,新しい統一サンプル効率アルゴリズムを設計する。 我々のアルゴリズムは, モデル推定サブルーチンを用いて, E2Dメタアルゴリズムの変種をインスタンス化する。 アルゴリズムE2D-TAは,不規則に大きいDECの変種を限定するか,あるいは問題固有の推定サブルーチンを設計する必要があるFoster et al. (2021)のアルゴリズムを改良する。 応用として,既存のサンプル効率のよい学習結果を,本質的に1つのアルゴリズムを用いて,広い範囲の扱いやすいrl問題に対して取得する。 最後に,2つの既存楽観的モデルベースアルゴリズムを再解析し,DECと似た構造条件下でのE2D-TAと同様の後悔境界を享受することを示す。

Finding unified complexity measures and algorithms for sample-efficient learning is a central topic of research in reinforcement learning (RL). The Decision-Estimation Coefficient (DEC) is recently proposed by Foster et al. (2021) as a necessary and sufficient complexity measure for sample-efficient no-regret RL. This paper makes progress towards a unified theory for RL with the DEC framework. First, we propose two new DEC-type complexity measures: Explorative DEC (EDEC), and Reward-Free DEC (RFDEC). We show that they are necessary and sufficient for sample-efficient PAC learning and reward-free learning, thereby extending the original DEC which only captures no-regret learning. Next, we design new unified sample-efficient algorithms for all three learning goals. Our algorithms instantiate variants of the Estimation-To-Decisions (E2D) meta-algorithm with a strong and general model estimation subroutine. Even in the no-regret setting, our algorithm E2D-TA improves upon the algorithms of Foster et al. (2021) which require either bounding a variant of the DEC which may be prohibitively large, or designing problem-specific estimation subroutines. As applications, we recover existing and obtain new sample-efficient learning results for a wide range of tractable RL problems using essentially a single algorithm. Finally, as a connection, we re-analyze two existing optimistic model-based algorithms based on Posterior Sampling or Maximum Likelihood Estimation, showing that they enjoy similar regret bounds as E2D-TA under similar structural conditions as the DEC.
翻訳日:2022-09-26 13:25:58 公開日:2022-09-23
# nashd: 超次元コンピューティングを用いたvitアーキテクチャのパフォーマンスランキング

NasHD: Efficient ViT Architecture Performance Ranking using Hyperdimensional Computing ( http://arxiv.org/abs/2209.11356v1 )

ライセンス: Link先を確認
Dongning Ma and Pengfei Zhao and Xun Jiao(参考訳) Neural Architecture Search (NAS)は、ディープラーニング設計自動化のための自動化アーキテクチャ工学手法であり、モデル開発、選択、評価、性能評価のマニュアルおよびエラー発生過程の代替として機能する。 しかしながら、NASの大きな障害のひとつは、特にデータセットがスケールする場合に、非常に要求の多い計算リソース要件と時間を要するイテレーションである。 本稿では、新しい視覚変換器(ViT)をターゲットとして、アーキテクチャや構成から得られる性能をランク付けする超次元コンピューティングに基づく教師付き学習モデルNasHDを提案する。 他の学習ベースの方法とは異なり、NasHDはHDCアーキテクチャの高並列処理のおかげで高速である。 また,NosHDのグラムベースとレコードベースという2つのHDC符号化方式について,その性能と効率について検討した。 さまざまなドメインから8つのアプリケーションを対象としたVIMER-UFOベンチマークデータセットでは、NasHD Recordが100K近いビジョントランスフォーマーモデルのパフォーマンスを約1分でランク付けし、高度なモデルで同等の結果が得られる。

Neural Architecture Search (NAS) is an automated architecture engineering method for deep learning design automation, which serves as an alternative to the manual and error-prone process of model development, selection, evaluation and performance estimation. However, one major obstacle of NAS is the extremely demanding computation resource requirements and time-consuming iterations particularly when the dataset scales. In this paper, targeting at the emerging vision transformer (ViT), we present NasHD, a hyperdimensional computing based supervised learning model to rank the performance given the architectures and configurations. Different from other learning based methods, NasHD is faster thanks to the high parallel processing of HDC architecture. We also evaluated two HDC encoding schemes: Gram-based and Record-based of NasHD on their performance and efficiency. On the VIMER-UFO benchmark dataset of 8 applications from a diverse range of domains, NasHD Record can rank the performance of nearly 100K vision transformer models with about 1 minute while still achieving comparable results with sophisticated models.
翻訳日:2022-09-26 13:25:30 公開日:2022-09-23
# ドメイン固有知識の少ない文脈・時間対応モデリングによる会話レコメンダシステムの改善

Improving Conversational Recommender System via Contextual and Time-Aware Modeling with Less Domain-Specific Knowledge ( http://arxiv.org/abs/2209.11386v1 )

ライセンス: Link先を確認
Lingzhi Wang, Shafiq Joty, Wei Gao, Xingshan Zeng, Kam-Fai Wong(参考訳) 対話型レコメンデーションシステム(crs)は,一般的に生成モジュールとレコメンデーションモジュールで構成される対話型会話を通じてレコメンデーションを行うための新たな研究テーマとなっている。 crsの以前の作業は、パフォーマンスを高めるために項目レビューのような外部およびドメイン固有の知識を取り入れる傾向がある。 外部のドメイン固有の情報の収集とアノテーションは、多くの人的努力を必要とし、汎用性を縮退しているにもかかわらず、過剰な知識はそれらの間のバランスを難しくする。 そこで我々は,その文脈から内部知識を完全発見し,抽出することを提案する。 我々は、エンティティレベルの表現とコンテキストレベルの表現の両方をキャプチャして、リコメンデーションのためのユーザの好みを共同でモデル化する。 さらに、事前訓練されたBARTを使用して生成モジュールを初期化し、データの不足を軽減し、コンテキストモデリングを強化する。 一般的なデータセット(ReDial)の実験に加えて、モデルの有効性を示すマルチドメインデータセット(OpenDialKG)も含んでいます。 両データセットの実験により、我々のモデルは外部知識の少ないほとんどの評価指標においてより良い性能を達成し、他の領域によく一般化することが示された。 推薦タスクと生成タスクに関するさらなる分析は、モデルの有効性を異なるシナリオで示す。

Conversational Recommender Systems (CRS) has become an emerging research topic seeking to perform recommendations through interactive conversations, which generally consist of generation and recommendation modules. Prior work on CRS tends to incorporate more external and domain-specific knowledge like item reviews to enhance performance. Despite the fact that the collection and annotation of the external domain-specific information needs much human effort and degenerates the generalizability, too much extra knowledge introduces more difficulty to balance among them. Therefore, we propose to fully discover and extract internal knowledge from the context. We capture both entity-level and contextual-level representations to jointly model user preferences for the recommendation, where a time-aware attention is designed to emphasize the recently appeared items in entity-level representations. We further use the pre-trained BART to initialize the generation module to alleviate the data scarcity and enhance the context modeling. In addition to conducting experiments on a popular dataset (ReDial), we also include a multi-domain dataset (OpenDialKG) to show the effectiveness of our model. Experiments on both datasets show that our model achieves better performance on most evaluation metrics with less external knowledge and generalizes well to other domains. Additional analyses on the recommendation and generation tasks demonstrate the effectiveness of our model in different scenarios.
翻訳日:2022-09-26 13:25:12 公開日:2022-09-23
# 回答修正による会話型QAデータセット生成

Conversational QA Dataset Generation with Answer Revision ( http://arxiv.org/abs/2209.11396v1 )

ライセンス: Link先を確認
Seonjeong Hwang and Gary Geunbae Lee(参考訳) 対話型質問応答生成は,入力文に基づいて大規模会話型質問応答データセットを自動生成するタスクである。 本稿では,一節から質問に値するフレーズを抽出し,過去の会話を考慮した質問を生成する新しい枠組みを提案する。 特に,提案フレームワークは,質問生成後に抽出した回答を改訂し,回答がペア質問と正確に一致するようにする。 実験結果から, 簡単な回答修正手法は, 合成データの品質を著しく向上させることがわかった。 さらに,対話型質問応答のドメイン適応に,我々のフレームワークを効果的に活用できることを示す。

Conversational question--answer generation is a task that automatically generates a large-scale conversational question answering dataset based on input passages. In this paper, we introduce a novel framework that extracts question-worthy phrases from a passage and then generates corresponding questions considering previous conversations. In particular, our framework revises the extracted answers after generating questions so that answers exactly match paired questions. Experimental results show that our simple answer revision approach leads to significant improvement in the quality of synthetic data. Moreover, we prove that our framework can be effectively utilized for domain adaptation of conversational question answering.
翻訳日:2022-09-26 13:24:49 公開日:2022-09-23
# 自撮り半監督政治傾斜予測の高速化

Fast Few shot Self-attentive Semi-supervised Political Inclination Prediction ( http://arxiv.org/abs/2209.10292v2 )

ライセンス: Link先を確認
Souvic Chakraborty, Pawan Goyal, Animesh Mukherjee(参考訳) ソーシャルメディアにおける大衆の参加が高まるにつれ、政策立案者やジャーナリストが特定の場所にいる人々の政治的傾向を理解するためにソーシャルメディア上でオンライン世論調査を作成することがますます一般的になっている。 ここでの注意事項は、影響力のある人だけがそのようなオンライン投票を行い、大規模にリーチできることだ。 さらに、そのような場合、有権者の分布は制御不能であり、実際には偏りがある可能性がある。 一方で、ソーシャルメディア上で公開されているデータを解釈して、ユーザーの政治的傾向を調査できれば、調査人口に関するコントロール可能な洞察を得ることができ、調査のコストを低く抑えることができ、また、関係者を巻き込むことなく、公開可能なデータを収集することができる。 そこで本稿では,政治傾斜検出のための自己注意型半教師付きフレームワークを提案する。 私たちのモデルの利点は、膨大なトレーニングデータも、ソーシャルネットワークパラメータを格納する必要もないことです。 それでも、アノテートデータなしで93.7\%の精度を達成し、また、クラスごとにいくつかのアノテートされた例しか持たず、競合性能を達成している。 資源制約のある環境においてもモデルは非常に効率的であり,その予測から得られた知見は,多様な実生活シナリオに適用した場合の手動調査結果と一致することがわかった。

With the rising participation of the common mass in social media, it is increasingly common now for policymakers/journalists to create online polls on social media to understand the political leanings of people in specific locations. The caveat here is that only influential people can make such an online polling and reach out at a mass scale. Further, in such cases, the distribution of voters is not controllable and may be, in fact, biased. On the other hand,if we can interpret the publicly available data over social media to probe the political inclination of users, we will be able to have controllable insights about the survey population, keep the cost of survey low and also collect publicly available data without involving the concerned persons. Hence we introduce a self-attentive semi-supervised framework for political inclination detection to further that objective. The advantage of our model is that it neither needs huge training data nor does it need to store social network parameters. Nevertheless, it achieves an accuracy of 93.7\% with no annotated data; further, with only a few annotated examples per class it achieves competitive performance. We found that the model is highly efficient even in resource-constrained settings, and insights drawn from its predictions match the manual survey outcomes when applied to diverse real-life scenarios.
翻訳日:2022-09-26 10:47:14 公開日:2022-09-23
# CMGAN: モノラル音声強調のためのコンバータベースメトリックGAN

CMGAN: Conformer-Based Metric-GAN for Monaural Speech Enhancement ( http://arxiv.org/abs/2209.11112v2 )

ライセンス: Link先を確認
Sherif Abdulatif, Ruizhe Cao, Bin Yang(参考訳) 畳み込み拡張変換器 (Conformer) は、局所的およびグローバルな依存関係の両方をキャプチャできる自動音声認識 (ASR) や音声分離など、様々な言語領域のアプリケーションで最近提案されている。 本稿では、時間周波数(TF)領域における音声強調(SE)のためのコンストラクタに基づく計量生成逆ネットワーク(CMGAN)を提案する。 ジェネレータは、2段コンバータブロックを用いて、時間および周波数依存性の両方をモデル化する。 そして、デコーダは、推定をマグニチュードマスクデコーダブランチに分離し、望ましくない歪みと複雑な精細ブランチをフィルタリングし、マグニチュード推定をさらに改善し、位相情報を暗黙的に強化する。 さらに、対応する評価スコアに対して、ジェネレータを最適化することにより、メトリックミスマッチを緩和するメトリック判別器を含む。 目的的,主観的な評価は,CMGANが3つの音声強調タスク(デノイング,デノベーション,超解像)における最先端手法と比較して優れた性能を示すことを示す。 例えば、Voice Bank+DEMANDデータセットの定量化分析では、CMGANは、マージンが3.41のPSSQと11.10dBのSSNRよりも優れている。

Convolution-augmented transformers (Conformers) are recently proposed in various speech-domain applications, such as automatic speech recognition (ASR) and speech separation, as they can capture both local and global dependencies. In this paper, we propose a conformer-based metric generative adversarial network (CMGAN) for speech enhancement (SE) in the time-frequency (TF) domain. The generator encodes the magnitude and complex spectrogram information using two-stage conformer blocks to model both time and frequency dependencies. The decoder then decouples the estimation into a magnitude mask decoder branch to filter out unwanted distortions and a complex refinement branch to further improve the magnitude estimation and implicitly enhance the phase information. Additionally, we include a metric discriminator to alleviate metric mismatch by optimizing the generator with respect to a corresponding evaluation score. Objective and subjective evaluations illustrate that CMGAN is able to show superior performance compared to state-of-the-art methods in three speech enhancement tasks (denoising, dereverberation and super-resolution). For instance, quantitative denoising analysis on Voice Bank+DEMAND dataset indicates that CMGAN outperforms various previous models with a margin, i.e., PESQ of 3.41 and SSNR of 11.10 dB.
翻訳日:2022-09-26 10:46:50 公開日:2022-09-23
# VToonify:制御可能な高解像度画像スタイル転送

VToonify: Controllable High-Resolution Portrait Video Style Transfer ( http://arxiv.org/abs/2209.11224v2 )

ライセンス: Link先を確認
Shuai Yang, Liming Jiang, Ziwei Liu, Chen Change Loy(参考訳) 高品質なポートレートビデオの生成は、コンピュータグラフィックスとビジョンにおいて重要かつ望ましいタスクである。 強力なStyleGAN上に構築された一連のポートレート画像トーン化モデルが提案されているが、これらの画像指向手法は、固定フレームサイズ、顔アライメントの要件、非顔的詳細の欠如、時間的不整合など、ビデオに適用する場合に明らかな制限がある。 本稿では,新しいVToonifyフレームワークを導入することで,高精細度高精細度映像の転送を実現する。 具体的には、vtoonifyはstyleganの中・高分解能のレイヤーを利用して、エンコーダによって抽出されたマルチスケールのコンテンツ特徴に基づいて高品質のポートレートをレンダリングし、フレームの詳細をよりよく保存する。 結果として生じる完全畳み込みアーキテクチャは、入力として可変サイズのビデオの非整合顔を受け入れ、出力に自然な動きを持つ完全な顔領域に寄与する。 我々のフレームワークは、既存のStyleGANベースの画像トーン化モデルと互換性があり、それらをビデオトーン化に拡張し、色と強度の柔軟なスタイル制御のためにこれらのモデルの魅力的な特徴を継承する。 本研究は,Toonify と DualStyleGAN をベースとした2種類のVToonify を,コレクションベースおよび模範的なポートレートビデオスタイルの転送を行う。 提案するvtoonifyフレームワークが,従来手法と比較して,フレキシブルなスタイル制御による高品質・時限コヒーレントなポートレートビデオの生成に有効であることを示す。

Generating high-quality artistic portrait videos is an important and desirable task in computer graphics and vision. Although a series of successful portrait image toonification models built upon the powerful StyleGAN have been proposed, these image-oriented methods have obvious limitations when applied to videos, such as the fixed frame size, the requirement of face alignment, missing non-facial details and temporal inconsistency. In this work, we investigate the challenging controllable high-resolution portrait video style transfer by introducing a novel VToonify framework. Specifically, VToonify leverages the mid- and high-resolution layers of StyleGAN to render high-quality artistic portraits based on the multi-scale content features extracted by an encoder to better preserve the frame details. The resulting fully convolutional architecture accepts non-aligned faces in videos of variable size as input, contributing to complete face regions with natural motions in the output. Our framework is compatible with existing StyleGAN-based image toonification models to extend them to video toonification, and inherits appealing features of these models for flexible style control on color and intensity. This work presents two instantiations of VToonify built upon Toonify and DualStyleGAN for collection-based and exemplar-based portrait video style transfer, respectively. Extensive experimental results demonstrate the effectiveness of our proposed VToonify framework over existing methods in generating high-quality and temporally-coherent artistic portrait videos with flexible style controls.
翻訳日:2022-09-26 10:46:21 公開日:2022-09-23
# 省力化による解釈可能な潜在対話行動の学習

Learning Interpretable Latent Dialogue Actions With Less Supervision ( http://arxiv.org/abs/2209.11128v2 )

ライセンス: Link先を確認
Vojt\v{e}ch Hude\v{c}ek and Ond\v{r}ej Du\v{s}ek(参考訳) 本稿では,対話行動を表す離散的潜在変数を用いたタスク指向対話のモデル化を行うための新しいアーキテクチャを提案する。 本モデルは,変化型リカレントニューラルネットワーク(VRNN)に基づいており,意味情報の明示的なアノテーションを必要としない。 従来の作業と異なり,システムとユーザを別々にモデル化し,データベース・クエリ・モデリングを行い,容易に解釈可能なアクション・潜在変数を生成しながら,タスク指向の対話に適用する。 本稿では,3つのデータセットにおけるパープレキシティとBLEUの点からみると,従来の手法よりも精度が低いことを示し,専門家のアノテーションを必要とせずに対話の成功を測定する手法を提案する。 最後に,システムの動作に関して潜在変数の意味を説明する新しい方法を提案する。

We present a novel architecture for explainable modeling of task-oriented dialogues with discrete latent variables to represent dialogue actions. Our model is based on variational recurrent neural networks (VRNN) and requires no explicit annotation of semantic information. Unlike previous works, our approach models the system and user turns separately and performs database query modeling, which makes the model applicable to task-oriented dialogues while producing easily interpretable action latent variables. We show that our model outperforms previous approaches with less supervision in terms of perplexity and BLEU on three datasets, and we propose a way to measure dialogue success without the need for expert annotation. Finally, we propose a novel way to explain semantics of the latent variables with respect to system actions.
翻訳日:2022-09-26 10:45:52 公開日:2022-09-23
# MIDM:Exemplar-based Image Translationのためのインターリーブ拡散モデルマッチング

MIDMs: Matching Interleaved Diffusion Models for Exemplar-based Image Translation ( http://arxiv.org/abs/2209.11047v2 )

ライセンス: Link先を確認
Junyoung Seo, Gyuseong Lee, Seokju Cho, Jiyoung Lee, Seungryong Kim(参考訳) 本稿では,MIDM(Matched Interleaved diffusion Model)と呼ばれる画像翻訳手法を提案する。 このタスクの既存のメソッドのほとんどはganベースのマッチング・ザンジェネレーションフレームワークとして定式化された。 しかし、このフレームワークでは、スケッチや写真など、クロスドメイン間のセマンティックマッチングの難しさによって引き起こされるエラーを生成ステップに容易に伝播することができ、結果として結果が劣化する。 GANの欠点を克服する拡散モデルの成功により、これらの制限を克服するために拡散モデルが組み込まれている。 具体的には、中間ワープを反復的にノージングプロセスに供給し、それを除いて変換画像を生成することで、潜在空間におけるクロスドメインマッチングと拡散ステップをインターリーブする拡散ベースのマッチング・アンド・ジェネレーションフレームワークを定式化する。 さらに, 拡散過程の信頼性を向上させるため, 周期整合性を用いた信頼度認識プロセスを構築し, 翻訳中の信頼区間のみを考える。 実験結果から,MIDMは最先端の手法よりも可塑性画像を生成することがわかった。

We present a novel method for exemplar-based image translation, called matching interleaved diffusion models (MIDMs). Most existing methods for this task were formulated as GAN-based matching-then-generation framework. However, in this framework, matching errors induced by the difficulty of semantic matching across cross-domain, e.g., sketch and photo, can be easily propagated to the generation step, which in turn leads to degenerated results. Motivated by the recent success of diffusion models overcoming the shortcomings of GANs, we incorporate the diffusion models to overcome these limitations. Specifically, we formulate a diffusion-based matching-and-generation framework that interleaves cross-domain matching and diffusion steps in the latent space by iteratively feeding the intermediate warp into the noising process and denoising it to generate a translated image. In addition, to improve the reliability of the diffusion process, we design a confidence-aware process using cycle-consistency to consider only confident regions during translation. Experimental results show that our MIDMs generate more plausible images than state-of-the-art methods.
翻訳日:2022-09-26 10:45:38 公開日:2022-09-23
# 工業用バインダー噴射過程における異常検出と品質向上のための深層学習型パイプライン

Deep Learning based pipeline for anomaly detection and quality enhancement in industrial binder jetting processes ( http://arxiv.org/abs/2209.10178v2 )

ライセンス: Link先を確認
Alexander Zeiser, Bas van Stein, Thomas B\"ack(参考訳) 異常検出は、通常の値空間とは異なる異常状態、インスタンス、データポイントを検出する方法を記述する。 産業プロセスは、品質向上のために異常なデータインスタンスを見つけるために述語モデルを必要とする領域である。 しかし、この環境ではラベルがないことが大きな課題である。 本稿では,産業生産における人工知能へのデータ中心のアプローチに寄与する。 自動車部品用添加物製造のユースケースでは,ディープラーニングに基づく画像処理パイプラインを提案する。 さらに,このループにドメインランダム化と合成データの概念を組み込んで,深層学習の進歩を橋渡しする有望な結果と実世界の産業生産プロセスへの応用を示す。

Anomaly detection describes methods of finding abnormal states, instances or data points that differ from a normal value space. Industrial processes are a domain where predicitve models are needed for finding anomalous data instances for quality enhancement. A main challenge, however, is absence of labels in this environment. This paper contributes to a data-centric way of approaching artificial intelligence in industrial production. With a use case from additive manufacturing for automotive components we present a deep-learning-based image processing pipeline. Additionally, we integrate the concept of domain randomisation and synthetic data in the loop that shows promising results for bridging advances in deep learning and its application to real-world, industrial production processes.
翻訳日:2022-09-26 10:45:18 公開日:2022-09-23
# sr-gcl: コントラスト学習におけるグローバルコンテキスト強化によるセッションベースレコメンデーション

SR-GCL: Session-Based Recommendation with Global Context Enhanced Augmentation in Contrastive Learning ( http://arxiv.org/abs/2209.10807v2 )

ライセンス: Link先を確認
Eunkyu Oh, Taehun Kim, Minsoo Kim, Yunhu Ji, Sushil Khyalia(参考訳) セッションベースのレコメンデーションは、進行中のセッションに基づいて、ユーザの次の振る舞いを予測することを目的としている。 前回の作品では、セッションをアイテムのシーケンスの可変長としてモデル化し、個々のアイテムと集約されたセッションの両方の表現を学ぶ。 最近の研究は、セッションをグラフ構造化データにモデル化することで、複雑なアイテム遷移と依存関係をキャプチャするための注意機構を備えたグラフニューラルネットワークを適用している。 しかしながら、セッション内の疎い監視信号やノイズの多い相互作用といったデータと学習方法論の観点では、依然として根本的な課題に直面しており、サブ最適パフォーマンスにつながります。 本稿では,セッションベース推薦のための新しいコントラスト学習フレームワークSR-GCLを提案する。 コントラスト学習の重要な構成要素として,最初のセッションのセマンティクスを維持しつつ,2つのグローバルコンテキスト拡張データ拡張手法を提案する。 2つの実世界のEコマースデータセットに対する広範な実験結果は、他の最先端手法と比較して、SR-GCLの優位性を示している。

Session-based recommendations aim to predict the next behavior of users based on ongoing sessions. The previous works have been modeling the session as a variable-length of a sequence of items and learning the representation of both individual items and the aggregated session. Recent research has applied graph neural networks with an attention mechanism to capture complicated item transitions and dependencies by modeling the sessions into graph-structured data. However, they still face fundamental challenges in terms of data and learning methodology such as sparse supervision signals and noisy interactions in sessions, leading to sub-optimal performance. In this paper, we propose SR-GCL, a novel contrastive learning framework for a session-based recommendation. As a crucial component of contrastive learning, we propose two global context enhanced data augmentation methods while maintaining the semantics of the original session. The extensive experiment results on two real-world E-commerce datasets demonstrate the superiority of SR-GCL as compared to other state-of-the-art methods.
翻訳日:2022-09-26 10:45:06 公開日:2022-09-23
# homophoneが真実を語る: speech2vecの現実チェック

Homophone Reveals the Truth: A Reality Check for Speech2Vec ( http://arxiv.org/abs/2209.10791v2 )

ライセンス: Link先を確認
Guangyu Chen(参考訳) 意味的情報を持つ音声単語埋め込みの生成は興味深い話題である。 テキストベースの埋め込みと比較すると、よりリッチな情報を提供し、ASRや音声翻訳システムを改善するのに有用な音声的特徴と意味的特徴の両方をカバーしている。 本稿では,本分野における基礎研究の真正性,すなわちSpeech2Vecについて検討する。 まず,Speech2Vecの著者がリリースした音声埋め込みをチェックするために,ホモフォンによる検査手法を提案する。 これらの埋め込みがSpeech2Vecモデルによって生成されるという兆候はない。 さらに、語彙構成のさらなる分析を通じて、テキストベースのモデルがこれらの埋め込みを構成すると疑う。 最後に,本論文における公式コードと最適設定を参照して,Speech2Vecモデルを再現する。 実験の結果、このモデルは効果的なセマンティック埋め込みを学習できなかった。 単語類似性ベンチマークでは、MENでは0.08、WS-353-SIMテストでは0.15の相関スコアが与えられ、元の論文より0.5以上低い。 データとコードは利用可能です。

Generating spoken word embeddings that possess semantic information is a fascinating topic. Compared with text-based embeddings, they cover both phonetic and semantic characteristics, which can provide richer information and are potentially helpful for improving ASR and speech translation systems. In this paper, we review and examine the authenticity of a seminal work in this field: Speech2Vec. First, a homophone-based inspection method is proposed to check the speech embeddings released by the author of Speech2Vec. There is no indication that these embeddings are generated by the Speech2Vec model. Moreover, through further analysis of the vocabulary composition, we suspect that a text-based model fabricates these embeddings. Finally, we reproduce the Speech2Vec model, referring to the official code and optimal settings in the original paper. Experiments showed that this model failed to learn effective semantic embeddings. In word similarity benchmarks, it gets a correlation score of 0.08 in MEN and 0.15 in WS-353-SIM tests, which is over 0.5 lower than those described in the original paper. Our data and code are available.
翻訳日:2022-09-26 10:44:53 公開日:2022-09-23