このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221227となっている論文です。

PDF登録状況(公開日: 20221227)

TitleAuthorsAbstract論文公表日・翻訳日
# トレースクラス積分作用素のニュートンの恒等性と正則性

Newton's identities and positivity of trace class integral operators ( http://arxiv.org/abs/2207.06119v3 )

ライセンス: Link先を確認
G. Homa, R. Balka, J. Z. Bern\'ad, M. K\'aroly and A. Csord\'as(参考訳) 位相空間表現における量子論の重要な基礎となる、トレースクラス積分作用素が正の半定値であるために必要な、かつ十分な基本対称多項式に基づく可算な条件セットを提供する。 また,ニュートンの同一性に基づく新しい効率的な計算アルゴリズムを提案する。 我々の肯定性のテストは、線形エントロピーとロバートソン=シュルンガーの不確実性関係によって与えられるものよりもはるかに敏感であり、最初の条件は線形エントロピーの非負性と等価である。

We provide a countable set of conditions based on elementary symmetric polynomials that are necessary and sufficient for a trace class integral operator to be positive semidefinite, which is an important cornerstone for quantum theory in phase-space representation. We also present a new, efficiently computable algorithm based on Newton's identities. Our test of positivity is much more sensitive than the ones given by the linear entropy and Robertson-Schr\"odinger's uncertainty relations; our first condition is equivalent to the non-negativity of the linear entropy.
翻訳日:2023-02-05 06:48:20 公開日:2022-12-27
# 一次元量子ウォークの歴史状態

History states of one-dimensional quantum walks ( http://arxiv.org/abs/2208.01187v2 )

ライセンス: Link先を確認
F. Lomoc, A.P. Boette, N. Canosa, R. Rossignoli(参考訳) 我々は,歴史状態形式学の量子ウォークへの応用を分析する。 この定式化により、純粋な量子履歴状態のウォーク全体を記述することができ、これは時間のない固有値方程式から導かれる。 これは自然に、歩行のシステムタイムの絡み合いの概念につながり、散歩で訪れた直交状態の数の尺度と見なすことができる。 次に、一次元離散量子ウォークに着目し、そのような絡み合いは実アダマール型コイン演算子と(標準基底における)実初期状態に対する初期スピン配向とは独立であることが示される。 さらに、初期局所化粒子の場合は、その絡み合う力に関係し分析的に評価できる、履歴状態全体を生成するユニタリグローバル演算子の絡み合いと同一視することができる。 さらに、スピンサブシステムの進化は、拡張クロックを持つスピン履歴状態を通しても説明できることが示されている。 また、その平均絡み合い(すべての初期状態上)と、この状態を生成する作用素との接続も導出される。 量子ウォーク履歴状態を生成する量子回路も備える。

We analyze the application of the history state formalism to quantum walks. The formalism allows one to describe the whole walk through a pure quantum history state, which can be derived from a timeless eigenvalue equation. It naturally leads to the notion of system-time entanglement of the walk, which can be considered as a measure of the number of orthogonal states visited in the walk. We then focus on one-dimensional discrete quantum walks, where it is shown that such entanglement is independent of the initial spin orientation for real Hadamard-type coin operators and real initial states (in the standard basis) with definite site parity. Moreover, in the case of an initially localized particle it can be identified with the entanglement of the unitary global operator that generates the whole history state, which is related to its entangling power and can be analytically evaluated. Besides, it is shown that the evolution of the spin subsystem can also be described through a spin history state with an extended clock. A connection between its average entanglement (over all initial states) and that of the operator generating this state is also derived. A quantum circuit for generating the quantum walk history state is provided as well.
翻訳日:2023-02-02 14:35:36 公開日:2022-12-27
# コヒーレント状態のUhlmann相とUhlmann-Berry対応

Uhlmann phase of coherent states and the Uhlmann-Berry correspondence ( http://arxiv.org/abs/2208.07001v2 )

ライセンス: Link先を確認
Xin Wang, Xu-Yang Hou, Zheng Zhou, Hao Guo, and Chih-Chun Chien(参考訳) まず、繊維束言語におけるウルマン相とベリー相の背景となる幾何学的枠組みを比較し、次いでボゾン状態とフェルミオンコヒーレント状態のウルマン相を評価する。 両方のコヒーレント状態のウールマン相は幾何学的情報を持ち、温度とともに滑らかに減少する。 重要なことに、ウルマン相は温度が下がるにつれて対応するベリー相に近づく。 文献の先行例とともに,ゼロ温度極限におけるウールマン相とベリー相の対応を,いくつかの特別な場合を除いて一般の性質として提案し,対応条件付き証明を提案する。

We first compare the geometric frameworks behind the Uhlmann and Berry phases in a fiber-bundle language and then evaluate the Uhlmann phases of bosonic and fermionic coherent states. The Uhlmann phases of both coherent states are shown to carry geometric information and decrease smoothly with temperature. Importantly, the Uhlmann phases approach the corresponding Berry phases as temperature decreases. Together with previous examples in the literature, we propose a correspondence between the Uhlmann and Berry phases in the zero-temperature limit as a general property except some special cases and present a conditional proof of the correspondence.
翻訳日:2023-01-31 01:42:12 公開日:2022-12-27
# 量子色ロゼンジタイリングと絡み合い相転移

Quantum colored lozenge tiling and entanglement phase transition ( http://arxiv.org/abs/2210.01098v2 )

ライセンス: Link先を確認
Zhao Zhang, Israel Klich(参考訳) 領域法則の体積違反はいくつかの量子スピン鎖で示されたが、高次元の等方的項を持つ対応するモデルの構築は未解決の問題である。 ここでは,領域法に最大違反する2次元フラストレーションフリーハミルトニアンを構築する。 色の自由度を持つランダムな曲面の量子モデルを構築し、色付きディックパスの集合と見なすことができる。 ハミルトニアンはフレドキンスピン鎖の2次元一般化と見なすことができる。 その作用はゼロ固定ディリクレ境界条件のヒルベルト部分空間内でエルゴードであり、バルク内の正の高さ関数であり、非退化基底状態を示す。 サブシステム間の絡み合いエントロピーは、変形パラメータがチューニングされたときに絡み合い相転移を示す。 面積法と体積法相は1次元モデルと似ているが、臨界点のスケールはシステムの線形サイズが$L$ as $L\log L$である。 同様のモデルは、臨界点においてよりソフトな領域法違反を伴う高次元で構築することができる。

While volume violation of area law has been exhibited in several quantum spin chains, the construction of a corresponding model in higher dimensions, with isotropic terms, has been an open problem. Here we construct a 2D frustration-free Hamiltonian with maximal violation of the area law. We do so by building a quantum model of random surfaces with color degree of freedom that can be viewed as a collection of colored Dyck paths. The Hamiltonian may be viewed as a 2D generalization of the Fredkin spin chain. Its action is shown to be ergodic within the Hilbert subspace of zero fixed Dirichlet boundary condition and positive height function in the bulk and exhibits a non-degenerate ground state. Its entanglement entropy between subsystems exhibits an entanglement phase transition as the deformation parameter is tuned. The area- and volume-law phases are similar to the one-dimensional model, while the critical point scales with the linear size of the system $L$ as $L\log L$. Similar models can be built in higher dimensions with even softer area law violations at the critical point.
翻訳日:2023-01-24 00:25:57 公開日:2022-12-27
# オプトメカニカルキャビティの高速断熱制御

Fast adiabatic control of an optomechanical cavity ( http://arxiv.org/abs/2211.04969v2 )

ライセンス: Link先を確認
Nicol\'as F. Del Grosso, Fernando C. Lombardo, Francisco D. Mazzitelli, Paula I. Villar(参考訳) 量子技術の発展は、量子演算を実装するための高速で正確なプロトコルの必要性のような重要な課題を提示する。 STA(Shortcut to adiabaticity)は、これらの目標を達成するための強力なツールである。 本稿では,2つの移動鏡を有する光力学的キャビティの制御のための断熱への近道を提案する。 鏡の参照軌跡が与えられた場合、空洞内の量子場にSTAを実装する効果的な軌跡を与える解析式が見つかる。 次に,これらの方程式を拡張,収縮,剛性運動などの異なる参照プロトコルに対して数値的に解くことにより,staの実装が成功し,それらの有効軌跡の一般的特徴を見出すことができる。

The development of quantum technologies present important challenges such as the need for fast and precise protocols for implementing quantum operations. Shortcuts to adiabaticity (STA) are a powerful tool for achieving these goals, as they enable us to perform an exactly adiabatic evolution in finite time. In this paper we present a shortcut to adiabaticity for the control of an optomechanical cavity with two moving mirrors. Given reference trajectories for the mirrors, we find analytical expressions that give us effective trajectories which implement a STA for the quantum field inside the cavity. We then solve these equations numerically for different reference protocols, such as expansions, contractions and rigid motions; thus confirming the successful implementation of the STA and finding some general features of these effective trajectories.
翻訳日:2023-01-19 20:40:06 公開日:2022-12-27
# 量子位相認識のための完全量子アルゴリズム:再正規化群と誤差補正

Exact Quantum Algorithms for Quantum Phase Recognition: Renormalization Group and Error Correction ( http://arxiv.org/abs/2211.09803v2 )

ライセンス: Link先を確認
Ethan Lake, Shankar Balasubramanian, and Soonwon Choi(参考訳) 有限内部アベリア対称性によって保護される1次元対称性保護位相(SPT)位相を正確に認識する量子アルゴリズムを構築することにより,再正規化群(RG)フローと誤差補正の関係を検討する。 SPT の各位相に対して,このアルゴリズムは RG フローをエミュレートする量子回路を動作させ,任意の入力基底状態波動関数を一意の最小絡み合った参照状態にマッピングすることにより,効率的な位相同定を可能にする。 この構成は、位相の一般的な入力状態を基準状態に適用されたコヒーレントな「エラー」の集合として捉え、量子回路を設計、効率的にエラーを検出し修正することで実現される。 重要なことに、誤差補正閾値は位相境界と正確に一致することが証明される。 本稿では, 凝縮物質物理学, 機械学習, 短期量子アルゴリズムの文脈における結果の意味について論じる。

We explore the relationship between renormalization group (RG) flow and error correction by constructing quantum algorithms that exactly recognize 1D symmetry-protected topological (SPT) phases protected by finite internal Abelian symmetries. For each SPT phase, our algorithm runs a quantum circuit which emulates RG flow: an arbitrary input ground state wavefunction in the phase is mapped to a unique minimally-entangled reference state, thereby allowing for efficient phase identification. This construction is enabled by viewing a generic input state in the phase as a collection of coherent `errors' applied to the reference state, and engineering a quantum circuit to efficiently detect and correct such errors. Importantly, the error correction threshold is proven to coincide exactly with the phase boundary. We discuss the implications of our results in the context of condensed matter physics, machine learning, and near-term quantum algorithms.
翻訳日:2023-01-19 06:30:35 公開日:2022-12-27
# Googleの2019年の"Quantum Supremacy'の主張:データ、ドキュメント、議論

Google's 2019 "Quantum Supremacy'' Claims: Data, Documentation, and Discussion ( http://arxiv.org/abs/2210.12753v2 )

ライセンス: Link先を確認
Gil Kalai, Yosef Rinott, and Tomer Shoham(参考訳) 2019年10月、"nature"はgoogleでの実験的な成果を説明した論文を発表した。 この論文は53量子ビットの量子コンピュータ上で量子(計算)超越性を実証している。 2019年9月以降、著者らはGoogleの実験の様々な統計的側面を研究する長期プロジェクトに従事している。 特に私たちは、関連するデータと情報を収集し、古典的計算に基づくgoogle 2019優越的実験のそれらの部分を再構築し、検証し、データを統計的分析下に置こうと試みています。 私たちは現在(2022年8月)、2019年のGoogleの実験に必要なデータと情報の収集に関してほぼ完了しており、この文書では、Google 2019の実験で利用可能なデータと情報と、その結果と計画について述べています。

In October 2019, "Nature" published a paper describing an experimental work that took place at Google. The paper claims to demonstrate quantum (computational) supremacy on a 53-qubit quantum computer. Since September 2019 the authors have been involved in a long-term project to study various statistical aspects of the Google experiment. In particular, we have been trying to gather the relevant data and information, to reconstruct and verify those parts of the Google 2019 supremacy experiments that are based on classical computations (unless they require too heavy computation), and to put the data under statistical analysis. We have now (August 2022) almost concluded the part relating to the gathering of data and information needed for our study of the 2019 Google experiment, and this document describes the available data and information for the Google 2019 experiment and some of our results and plans.
翻訳日:2023-01-18 09:45:53 公開日:2022-12-27
# OTOCの緩和指数と局所ハミルトニアンとの重なり合い

Relaxation exponents of OTOCs and overlap with local Hamiltonians ( http://arxiv.org/abs/2211.09965v2 )

ライセンス: Link先を確認
Vinitha Balachandran and Dario Poletti(参考訳) OTOCは、量子系における情報スクランブルの特徴付けに使われている。 近年の研究では、非可積分系におけるOTOCの緩和ダイナミクスの制御において、局所保存量は重要な役割を果たすことが示された。 特に、局所保存量と重なり合う観測値に対して、OTOCの緩やかなスクランブルが見られる。 しかし、観測可能なものはハミルトニアンと重複しないかもしれないが、ハミルトニアンは1より大きい指数に上昇する。 ここでは、高い指数は高速な緩和に対応するが、まだ代数的であり、無限に増加する指数を持つことを示す。 解析結果は数値実験によって裏付けられる。

OTOC has been used to characterize the information scrambling in quantum systems. Recent studies showed that local conserved quantities play a crucial role in governing the relaxation dynamics of OTOC in non-integrable systems. In particular, slow scrambling of OTOC is seen for observables that has an overlap with local conserved quantities. However, an observable may not overlap with the Hamiltonian, but with the Hamiltonian elevated to an exponent larger than one. Here, we show that higher exponents correspond to faster relaxation, although still algebraic, and with exponents that can increase indefinitely. Our analytical results are supported by numerical experiments.
翻訳日:2023-01-18 04:30:47 公開日:2022-12-27
# 絡み合い再正規化の階層と長距離絡み合い状態

Hierarchy of Entanglement Renormalization and Long-Range Entangled States ( http://arxiv.org/abs/2211.14136v2 )

ライセンス: Link先を確認
Meng-Yuan Li, Peng Ye(参考訳) 量子多体物理学への量子インフォーマティブウィンドウとして、エンタングルメント再正規化群(erg)の概念と応用は、新しい物質の量子位相、特に位相秩序系における長距離エンタングルド(lre)状態の研究において重要な役割を担っている。 例えば、局所ユニタリを再帰的に適用したり、積状態を形成する量子ビットを追加・削除することで、2次元トーリック符号基底状態、すなわちz_2位相次数の不動点をシステムサイズに対して効率的に粗粒化する。 さらなる改良として、3次元X-キューブモデルの基底状態への2次元トーリックコードの追加/削除は不可欠であることが示され、大きな種類のフラクトンオーダーの、非液体のような明確な固定点が著しく導かれる。 本稿では,一般自由度を再帰的に付加・除去できる,実質的に統一されたERGフレームワークを提案する。 具体的には、2d toric code と 3d x-cube model を自然に含む pauli stabilizer codes における erg と lre 状態のエキゾチックな階層を確立する。 階層構造では、3D X-cube や 3D トーリック符号基底状態のような LRE 状態はより複雑な LRE 状態の ERG プロセスに追加・削除できる。 このように、パウリの安定化符号の大規模な群は一連の'状態タワー'に分類され、各塔はCNOTゲートを含む局所的なユニタリに加えて、レベル-n$のLRE状態がレベル-$n$のLRE状態のレベル-$(n+1)$のERGプロセスに追加/削除され、レベル-(n+1)$のLRE状態が接続され、LRE状態間の複雑な関係が明らかにされる。 将来の方向性として、この階層はより一般的なLRE状態に適用可能であり、LRE状態の統一ERGシナリオとより一般化された分岐MERAの形での正確なテンソル・ネットワーク表現が導かれる。

As a quantum-informative window into quantum many-body physics, the concept and application of entanglement renormalization group (ERG) have been playing a vital role in the study of novel quantum phases of matter, especially long-range entangled (LRE) states in topologically ordered systems. For instance, by recursively applying local unitaries as well as adding/removing qubits that form product states, the 2D toric code ground states, i.e., fixed point of Z_2 topological order, are efficiently coarse-grained with respect to the system size. As a further improvement, the addition/removal of 2D toric codes into/from the ground states of the 3D X-cube model, is shown to be indispensable and remarkably leads to well-defined fixed points of a large class of fracton orders that are non-liquid-like. Here, we present a substantially unified ERG framework in which general degrees of freedom are allowed to be recursively added/removed. Specifically, we establish an exotic hierarchy of ERG and LRE states in Pauli stabilizer codes, where the 2D toric code and 3D X-cube models are naturally included. In the hierarchy, LRE states like 3D X-cube and 3D toric code ground states can be added/removed in ERG processes of more complex LRE states. In this way, a large group of Pauli stabilizer codes are categorized into a series of ``state towers''; with each tower, in addition to local unitaries including CNOT gates, lower LRE states of level-$n$ are added/removed in the level-$n$ ERG process of an upper LRE state of level-$(n+1)$, connecting LRE states of different levels and unveiling complex relations among LRE states. As future directions, we expect this hierarchy can be applied to more general LRE states, leading to a unified ERG scenario of LRE states and exact tensor-network representations in the form of more generalized branching MERA.
翻訳日:2023-01-17 20:41:01 公開日:2022-12-27
# 1次元スピン-$\frac{1}{2}$ハイゼンベルク反強磁性体の多成分絡み合い

Multipartite entanglement in the 1-D spin-$\frac{1}{2}$ Heisenberg Antiferromagnet ( http://arxiv.org/abs/2212.05372v2 )

ライセンス: Link先を確認
Varun Menon, Nicholas E. Sherman, Maxime Dupont, Allen O. Scheie, D. Alan Tennant, Joel E. Moore(参考訳) マルチパートエンタングルメント(英: Multipartite entanglement)とは、多体量子系の複数のサブシステム間の同時絡み合いのこと。 多成分の絡み合いは解析的に定量化が困難であるが、量子フィッシャー情報(qfi)によって観測できることは知られている。 本稿では,まず,有限温度 qfi が一般に系の静的構造因子と$t\rightarrow 0$ で消失する補正によって表現できることを示す。 このことは、静的構造因子が、普遍性によって決定される特性エネルギースケール以下の温度で、非普遍振幅まで、量子臨界点付近の多粒子絡みを目撃することを意味する。 したがって、既知の静的構造因子を持つ系では、系の完全な動的応答関数を知らずに、多粒子絡み合いと低温絡み合い深さの有限温度スケーリングを導出することができる。 これは、qfiの従来のスケーリング理論が崩壊するエンタングルメント成長をサブパワーロー分岐が支配できる1次元量子臨界系の研究に特に有用である。 1D spin-$\frac{1}{2}$ 反強磁性ハイゼンベルク模型はそのような系の重要な例であり、ハイゼンベルク鎖の多重粒子の絡み合いは$\sim \log(1/T)^{3/2}$ として非自明に発散することを示す。 共形場理論と行列積状態シミュレーションを用いて,これらの予測をQFIの計算により検証する。 最後に, 量子物質の絡み合いを調べる実験において, ハイゼンベルク鎖でよく説明されているkcuf$_3$の中性子散乱データと比較し, 結果の意義について考察する。

Multipartite entanglement refers to the simultaneous entanglement between multiple subsystems of a many-body quantum system. While multipartite entanglement can be difficult to quantify analytically, it is known that it can be witnessed through the Quantum Fisher information (QFI), a quantity that can also be related to dynamical Kubo response functions. In this work, we first show that the finite temperature QFI can generally be expressed in terms of a static structure factor of the system, plus a correction that vanishes as $T\rightarrow 0$. We argue that this implies that the static structure factor witnesses multipartite entanglement near quantum critical points at temperatures below a characteristic energy scale that is determined by universal properties, up to a non-universal amplitude. Therefore, in systems with a known static structure factor, we can deduce finite temperature scaling of multipartite entanglement and low temperature entanglement depth without knowledge of the full dynamical response function of the system. This is particularly useful to study 1D quantum critical systems in which sub-power-law divergences can dominate entanglement growth, where the conventional scaling theory of the QFI breaks down. The 1D spin-$\frac{1}{2}$ antiferromagnetic Heisenberg model is an important example of such a system, and we show that multipartite entanglement in the Heisenberg chain diverges non-trivially as $\sim \log(1/T)^{3/2}$. We verify these predictions with calculations of the QFI using conformal field theory and matrix product state simulations. Finally we discuss the implications of our results for experiments to probe entanglement in quantum materials, comparing to neutron scattering data in KCuF$_3$, a material well-described by the Heisenberg chain.
翻訳日:2023-01-09 18:34:41 公開日:2022-12-27
# 量子アムネシア、暗号メモを残して量子懐疑論を語る

Quantum Amnesia Leaves Cryptographic Mementos: A Note On Quantum Skepticism ( http://arxiv.org/abs/2212.08750v2 )

ライセンス: Link先を確認
Or Sattath and Uriel Shinar(参考訳) メメントの主人公レオナルド・シェルビー(Leonard Shelby)は、メメントをタトゥーや絵の形で使用して記憶症を治療している。 レオナルドと同様に、現代の量子コンピュータは長期にわたって量子レジスタを保存できない「量子アムネシア」に悩まされている。 量子コンピュータは、それらが消える前にそれらを測定することで、古典的な量子レジスタの「メント」を保持することができる。 一部の量子懐疑論者は、この量子健忘は本質的であると主張している。 疑わしい世界のこの変種は、量子有界ストレージモデルによって大まかに説明され、量子計算の利点をもたらすのは計算上の障害であるが、一見望ましくない性質は暗号の利点をもたらす。 すなわち、無条件でセキュアなコミットメントや不愉快な転送スキームなど、量子境界ストレージモデルによって約束されるエキゾチックなプリミティブを提供し、BB84状態の送信と測定のみを含む構造を提供する。

Leonard Shelby, the protagonist of Memento, uses mementos in the form of tattoos and pictures to handle his amnesia. Similar to Leonard, contemporary quantum computers suffer from "quantum amnesia": the inability to store quantum registers for a long duration. Quantum computers can only retain classical "mementos" of quantum registers by measuring them before those vanish. Some quantum skeptics argue that this quantum amnesia is inherent. We point out that this variant of a skeptic world is roughly described by the quantum bounded storage model, and although it is a computational obstacle that annuls potential quantum computational advantage, the seemingly undesired properties provide a cryptographic advantage. Namely, providing exotic primitives promised by the quantum bounded storage model, such as unconditionally secure commitment and oblivious transfer schemes, with constructions involving nothing but transmission and measurement of BB84 states.
翻訳日:2023-01-09 08:28:28 公開日:2022-12-27
# 非ガアシアンモデルにおける多機能世界法の拡張

An Extension of Many-Interacting-Worlds Method on Non-Guassian Model ( http://arxiv.org/abs/2212.09020v2 )

ライセンス: Link先を確認
Wen Chen and An Min Wang(参考訳) 量子論が決定論か不決定論かに関する議論は1世紀にわたって続いている。 多世界解釈とド・ブロイ・ボーム力学に基づく多相互作用世界法と呼ばれる標準量子力学への新しいアプローチは、決定論的な宇宙から確率を示す可能性を与えた。 本稿では,この手法を1次元クーロンポテンシャルに拡張し,対応する経験密度関数を構築する。 また、密度関数の収束の理論的証明も提供する。 第1励起状態における1次元クーロンポテンシャルの数値シミュレーションは、標準量子力学と一貫した結果を得、多相互作用世界法の適用性を示す。 この研究は、多相互作用世界法を非ガウス量子系に拡張する可能性を提供する。

Discussions about whether quantum theory is determinism or indeterminism has lasted for a century. A new approach to standard quantum mechanics called many-interacting-worlds method based on many-worlds interpretation and de Broglie-Bohm mechanics provided the possibility to demonstrate probability from deterministic universe.The many-interacting-worlds method has been proved successful in the ground state of harmonic oscillator. In this article we extend this method to one dimensional Coulomb potential and construct a corresponding empirical density function. We also provide a theoretical proof of the convergence of density function. Our numerical simulation of one dimensional Coulomb potential in the first excited state obtains the consistent result with standard quantum mechanics and shows the applicability of many-interacting-worlds method. This research provides the possibility to extend many-interacting-worlds method to non-Gaussian quantum systems.
翻訳日:2023-01-09 07:44:05 公開日:2022-12-27
# DEC-QED:超伝導回路および材料へのフラックスに基づく3次元電磁力学モデリングアプローチ

DEC-QED: A flux-based 3D electrodynamic modeling approach to superconducting circuits and materials ( http://arxiv.org/abs/2212.12775v2 )

ライセンス: Link先を確認
Dzung N. Pham, Wentao Fan, Michael G. Scheer, Hakan E. T\"ureci(参考訳) ジョセフソン接合を含む超伝導電子回路の挙動のモデル化は、超伝導情報プロセッサおよびデバイスの設計に不可欠である。 本稿では,ジョセフソン接合を含む超伝導電子回路の電磁力学を任意の3次元電磁環境下でモデル化するためのDEC-QEDを提案する。 DEC-QEDはBCS超伝導体の非線形応答と誘導電流を捉え、マイスナー効果、フラックス量子化、ジョセフソン効果などの現象を正確に捉える。 Discrete Exterior Calculus (DEC) に基づく有限要素構造を用いて、DEC-QEDは超伝導体の過渡的および長時間のダイナミクスを正確にシミュレートすることができる。 ゲージ不変フラックス場と電荷の観点からの電磁力学問題全体の表現は、古典場理論を第二量子化に適合させる。

Modeling the behavior of superconducting electronic circuits containing Josephson junctions is crucial for the design of superconducting information processors and devices. In this paper, we introduce DEC-QED, a computational approach for modeling the electrodynamics of superconducting electronic circuits containing Josephson junctions in arbitrary three-dimensional electromagnetic environments. DEC-QED captures the non-linear response and induced currents of BCS superconductors and accurately captures phenomena such as the Meissner effect, flux quantization and Josephson effects. Using a finite-element construction based on Discrete Exterior Calculus (DEC), DEC-QED can accurately simulate transient and long-time dynamics in superconductors. The expression of the entire electrodynamic problem in terms of the gauge-invariant flux field and charges makes the resulting classical field theory suitable for second quantization.
翻訳日:2023-01-09 07:07:39 公開日:2022-12-27
# 暗号化データを用いたネットワーク量子コンピューティングのシミュレーション

Simulation of Networked Quantum Computing on Encrypted Data ( http://arxiv.org/abs/2212.12953v2 )

ライセンス: Link先を確認
Ieva \v{C}epait\.e(参考訳) 近い将来、量子コンピューティングのパワーが限られているため、暗号セキュリティ技術は現在の量子コンピューティングハードウェアと将来の量子コンピューティングハードウェアの安全な遠隔利用のために開発されなければならない。 ユビキタスブラインド量子計算(ubqc)とその変種である量子完全準同型暗号(qfhe)は、単一の量子ビットを準備・測定する能力以上の能力を必要とする当事者に、対話的かつリモートでセキュアな量子コンピューティングパワーを提供する。 ここでは、シミュレーションプラットフォームLIQ$Ui|\rangle$で古典的にテストされたそのようなプロトコルをシミュレーションし、その後、最近リリースされたIBM 16量子ビット量子チップでベータクラウドサービスを使用して実行します。 プロトコルの機能を示し、それを実装するために使用される潜在的な物理システムに対するノイズの影響を探求する。 2017年12月、エディンバラ大学のBSc論文。

Due to the limited availability of quantum computing power in the near future, cryptographic security techniques must be developed for secure remote use of current and future quantum computing hardware. Prominent among these is Universal Blind Quantum Computation (UBQC) and its variations such as Quantum Fully Homomorphic Encryption (QFHE), which herald interactive and remote secure quantum computing power becoming available to parties that require little more than the ability to prepare and measure single qubits. Here I present a simulation of such a protocol, tested classically on the simulation platform LIQ$Ui|\rangle$ and then later adapted to and run on the recently released IBM 16-qubit quantum chip using their beta cloud service. It demonstrates the functionality of the protocol and explores the effects of noise on potential physical systems that would be used to implement it. BSc Thesis from the University of Edinburgh, December 2017
翻訳日:2023-01-09 06:31:20 公開日:2022-12-27
# モロー・ヨシダ正則化からの密度ポテンシャル反転

Density-potential inversion from Moreau-Yosida regularization ( http://arxiv.org/abs/2212.12727v2 )

ライセンス: Link先を確認
Markus Penz, Mih\'aly A. Csirik, Andre Laestadius(参考訳) 密度が与えられた量子力学的多電子系では、Zhao-Morrison-Parr法は、その密度を正確に求める有効なポテンシャルを計算することができる。 密度汎関数のモロー・ヨシダ正則化という観点から,これらと類似した反転過程を理解する方法を示す。 これにより、密度汎関数理論におけるモロー・ヨシダ正則化の役割に関する新たな洞察が生まれ、密度-ポテンシャル反転を体系的に改善することができる。 この結果は, 相互作用密度を再現する実効的な1体ポテンシャルを決定する分数的占有をもつコーン=シャム条件に適用できる。

For a quantum-mechanical many-electron system, given a density, the Zhao-Morrison-Parr method allows to compute the effective potential that yields precisely that density. We demonstrate how this and similar inversion processes can be understood in terms of the Moreau-Yosida regularization of density functionals. This sheds new insight on the role of Moreau-Yosida regularization in density-functional theory and allows to systematically improve density-potential inversion. Our results apply to the Kohn--Sham setting with fractional occupation that determines an effective one-body potential that in turn reproduces an interacting density.
翻訳日:2023-01-09 06:21:17 公開日:2022-12-27
# 失調下でのキラル状態の伝達

Chiral state transfer under dephasing ( http://arxiv.org/abs/2212.12868v2 )

ライセンス: Link先を確認
Konghao Sun and Wei Yi(参考訳) 例外的な点は非エルミート系の複素固有種数に現れ、豊富な批判的振る舞いを引き起こす。 顕著な例はキラル状態移動であり、状態は例外点を囲む断熱的な囲いの下で交換できるが、一方の方向に沿ってのみ交換できる。 散逸量子システムでは、このような例外点の囲い込みは非エルミート的ハミルトニアンの記述を超えるデコヒーレンスを伴うことが多い。 本研究では,完全なリンドブラッドマスター方程式を応用し,周辺力学に対する強調の影響を詳細に検討した。 劣化を考慮に入れた実験的に関連する量子ジャンプ過程を導入し、対応するリウヴィリア超作用素の固有スペクトルの風景にギャップが現れることを示した。 キラル状態移動は、周囲の方向に関わらず、常にリウヴィリアの準定常状態に従っているため、断熱的な極限では起こらない。 それにもかかわらず、キラリティーは、非エルミート系における典型的なキラルな状態移動とは区別される、両周方向のダイナミクスが非断熱である中間の包囲時間に復元される。 この結果は最近のいくつかの実験に当てはまるが、近年の低温原子実験では特に研究され、観察された長時間のキラリティは特別な循環経路に限られていることを示す。 本研究は,実験条件下でのキラル状態伝達のさらなる知見を提供し,非エルミート物理学の観点からの開系力学の制御に有用である。

Exceptional points emerge in the complex eigenspecra of non-Hermitian systems, and give rise to rich critical behaviors. An outstanding example is the chiral state transfer, where states can swap under an adiabatic encircling around the exceptional point, but only along one direction. In dissipative quantum systems, such exceptional-point encirclings are often accompanied by decoherence, whose impact is beyond the description of non-Hermitian Hamiltonians. In this work, we study in detail the effects of dephasing on the encircling dynamics, adopting the full Lindblad master equation. Introducing experimentally relevant quantum-jump processes that account for dephasing, we show that gaps emerge in the eigenspectra landscape of the corresponding Liouvillian superoperator. It follows that the chiral state transfer does not take place in the adiabatic limit, since the system always adiabatically follows the quasi-steady state of the Liouvillian regardless of the encircling direction. Nevertheless, the chirality is restored at intermediate encircling times, where the dynamics is non-adiabatic in both encircling directions, distinct from the typical chiral state transfer in non-Hermitian systems. While our results are applicable to several recent experiments, we examine a recent cold-atom experiment in particular, and show that the observed long-time chirality is but limited to the special encircling path therein. Our study provides further insight into the chiral state transfer under experimental conditions, and is helpful for controlling open-system dynamics from the perspective of non-Hermitian physics.
翻訳日:2023-01-09 06:20:19 公開日:2022-12-27
# 時間系の絡み合いと特殊相対性

Time-System Entanglement and Special Relativity ( http://arxiv.org/abs/2212.13348v1 )

ライセンス: Link先を確認
Ngo Phuc Duc Loc(参考訳) 空間と時間は古典物理学ではほぼ等しく扱われるが、量子力学ではそうではないことも分かっている。 空間と時間の両方の量子記述は、現実の量子性を理解する上で重要である。 量子時間のページ・ウーター機構は、量子系の進化と量子時間自由度の間の絡み合いによって記述される、有望な出発点である。 本稿では,量子系のエンタングルメント測定がローレンツ加速時の速さにどのように依存しているかを量子ビット時計モデルを用いて検討する。 実例として、ガウス運動量分布を持つスピン-1/2粒子の場合を考える。

We know that space and time are treated almost equally in classical physics, but we also know that this is not the case for quantum mechanics. A quantum description of both space and time is important to really understand the quantum nature of reality. The Page-Wootters mechanism of quantum time is a promising starting point, according to which the evolution of the quantum system is described by the entanglement between it and quantum temporal degrees of freedom. In this paper, we use a qubit clock model to study how the time-system entanglement measures depend on the rapidity when the quantum system is Lorentz boosted. We consider the case of a spin-1/2 particle with Gaussian momentum distribution as a concrete example.
翻訳日:2023-01-09 03:38:42 公開日:2022-12-27
# アナログシミュレーションの何が特別なのか?

What is so special about analogue simulations? ( http://arxiv.org/abs/2212.13501v1 )

ライセンス: Link先を確認
Francesco Nappo and Nicol\`o Cangiotti(参考訳) 対照的に、Dardashti, Th\'ebault, and Winsberg (2017) は、科学におけるよく知られた帰納的推論の例として、アナログシミュレーションからの議論の分析を擁護している(Hesse, Models and Analogies in Science, Univ Notre Dame Press, 1963)。 このように理解すれば、ブラックホールに関する仮説を検証するためのアナログシミュレーションの能力は、物質的アナロジーからの通常の議論がどのように確認されるかというベイズ的立場と完全に一致した一般的な説明から導出することができる。 提案された分析は、dardashti、hartmann、th\'ebault、winsberg(2019)よりも信頼できるアナログ実験を追求する価値があることを推奨する。 また、crowther氏、linneman氏、w\"utrich氏(2019年)の懸念に対処するためのより確かな基盤を提供する。

Contra Dardashti, Th\'ebault, and Winsberg (2017), this paper defends an analysis of arguments from analogue simulations as instances of a familiar kind of inductive inference in science: arguments from material analogy (Hesse, Models and Analogies in Science, Univ Notre Dame Press, 1963). When understood in this way, the capacity of analogue simulations to confirm hypotheses about black holes can be deduced from a general account - fully consistent with a Bayesian standpoint - of how ordinary arguments from material analogy confirm. The proposed analysis makes recommendations about what analogue experiments are worth pursuing that are more credible than Dardashti, Hartmann, Th\'ebault, and Winsberg's (2019). It also offers a more solid basis for addressing the concerns by Crowther, Linneman, and W\"utrich (2019), according to which analogue simulations are incapable of sustaining hypotheses concerning black hole radiation.
翻訳日:2023-01-09 03:38:32 公開日:2022-12-27
# 非定常曲率空間上のダンクル振動子:反射を伴う正確に解ける量子モデル

The Dunkl oscillator on a space of nonconstant curvature: an exactly solvable quantum model with reflections ( http://arxiv.org/abs/2212.13575v1 )

ライセンス: Link先を確認
Angel Ballesteros, Amene Najafizade, Hossein Panahi, Hassan Hassanabadi, Shi-Hai Dong(参考訳) N次元のDunkl-Darboux III発振器は、N次元のDunkl発振器の$\lambda-$deformationとして定義される。 この変形は、基底空間上の$\lambda$に関連する非定数曲率の導入、あるいはそれと同等に、位置依存質量関数を持つダンクル振動子として解釈することができる。 この新しい量子モデルは任意の次元 n において正確に解くことができ、その固有値と固有関数は明示的に示される。 さらに、Darboux III と Dunkl 振動子の両方の2次元の場合において、一定の磁場と分離して結合できることが示され、そこでは、位置依存質量と Dunkl 誘導体がランドー準位の構造に与える影響を明示的に研究できる2つの全く解ける量子系が生まれる。 最後に、2d dunkl-darboux iii 発振器全体が磁場と結合され、正確に可解なハミルトニアンを定義することが示され、ここでは$\lambda$-deformation と磁場との相互作用が明示的に示される。

We introduce the Dunkl-Darboux III oscillator Hamiltonian in N dimensions, defined as a $\lambda-$deformation of the N-dimensional Dunkl oscillator. This deformation can be interpreted either as the introduction of a non-constant curvature related to $\lambda$ on the underlying space or, equivalently, as a Dunkl oscillator with a position-dependent mass function. This new quantum model is shown to be exactly solvable in arbitrary dimension N, and its eigenvalues and eigenfunctions are explicitly presented. Moreover, it is shown that in the two-dimensional case both the Darboux III and the Dunkl oscillators can be separately coupled with a constant magnetic field, thus giving rise to two new exactly solvable quantum systems in which the effect of a position-dependent mass and the Dunkl derivatives on the structure of the Landau levels can be explicitly studied. Finally, the whole 2D Dunkl-Darboux III oscillator is coupled with the magnetic field and shown to define an exactly solvable Hamiltonian, where the interplay between the $\lambda$-deformation and the magnetic field is explicitly illustrated.
翻訳日:2023-01-09 03:38:13 公開日:2022-12-27
# 多次元量子ウォーク:diracとschr\"{o}dinger粒子の遊び場

Multi-Dimensional Quantum Walks: a Playground of Dirac and Schr\"{o}dinger Particles ( http://arxiv.org/abs/2212.13044v2 )

ライセンス: Link先を確認
Manami Yamagishi, Naomichi Hatano, Ken-Ichiro Imura, Hideaki Obuse(参考訳) 本稿では,連続限界が本質的多次元ディラック方程式であり,さらにschr\"{o}dinger方程式にマッピングできる,新しい多次元離散時間量子ウォーク(dtqw)を提案する。 DTQWは2次元(2次元)ディラック・ハミルトニアンの研究に優れた尺度であることを示す。 まず、DTQWのダイナミクスが2D Schr\"{o}dinger高調波発振器に似ていることを示す。 次に,DiracシステムのDTQWトポロジ的特徴について述べる。 コイン演算子を操作することで、標準的なエッジ状態だけでなくコーナー状態も生成できる。

We propose a new multi-dimensional discrete-time quantum walk (DTQW), whose continuum limit is the intrinsic multi-dimensional Dirac equation, which can be further mapped to the Schr\"{o}dinger equation. We show in two ways that our DTQW is an excellent measure to investigate the two-dimensional (2D) Dirac Hamiltonian. First, we show that the dynamics of our DTQW resembles that of a 2D Schr\"{o}dinger harmonic oscillator. Second, we find in our DTQW topological features of the Dirac system. By manipulating the coin operators, we can generate not only standard edge states but also corner states.
翻訳日:2023-01-09 03:29:32 公開日:2022-12-27
# 非相対論的量子力学の時空対称拡大における分数積分微分方程式と時間(反)ヘルミティクス

Fractional integrodifferential equations and (anti-)hermiticity of time in a spacetime-symmetric extension of nonrelativistic Quantum Mechanics ( http://arxiv.org/abs/2212.13217v2 )

ライセンス: Link先を確認
Arlans JS de Lara and Marcus W Beims(参考訳) 時代は現代において興味深い物理的財産であり続けている。 一方、我々は古典的かつ相対論的時間の概念を持ち、時空と時空は同じ階層を持ち、時空における事象を記述するのに必須である。 一方、量子力学では、時間は古典的パラメータとして現れ、正準共役との不確実性関係を持たない。 本研究では,最近提案された時空対称形式 --\href{https://doi.org/10.1103/physreva.95.032133}{[phys.]を用いる。 〜rev。 ~A {\bf 95}, 032133 (2017)] は、通常のヒルベルト空間を拡張して非相対論的量子力学の不均衡を解こうとする。 時間パラメータ $t$ と位置演算子 $\hat{X}$ を1つの部分空間に、位置パラメータ $x$ と時間演算子 $\mathbb{T}$ をもう1つの部分空間に持つ。 オペレータとしての時間はトンネルのプロセスを記述するのに適しています。 次に, 強いポテンシャル限界と弱いポテンシャル限界を受ける粒子に対する1/2$-fractional integrodifferential equation を解き, 矩形障壁を通したトンネル時間の解析式を得る。 先行研究と比較し,バリア下のエネルギの純虚時とバリア上のエネルギの速さの虚部を得るとともに,トンネル時間に対するタイムオペレータの反エルミティ性を示す。 また,トンネリング問題における到達時間の予測値は,古典的な到達時間と量子的寄与のエネルギー平均の形で表されることを示す。

Time continues to be an intriguing physical property in the modern era. On the one hand, we have the Classical and Relativistic notion of time, where space and time have the same hierarchy, which is essential in describing events in spacetime. On the other hand, in Quantum Mechanics, time appears as a classical parameter, meaning that it does not have an uncertainty relation with its canonical conjugate. In this work, we use a recent proposed spacetime-symmetric formalism~\href{https://doi.org/10.1103/PhysRevA.95.032133}{[Phys.~Rev.~A {\bf 95}, 032133 (2017)]} that tries to solve the unbalance in nonrelativistic Quantum Mechanics by extending the usual Hilbert space. The time parameter $t$ and the position operator $\hat{X}$ in one subspace, and the position parameter $x$ and time operator $\mathbb{T}$ in the other subspace. Time as an operator is better suitable for describing tunnelling processes. We then solve the novel $1/2$-fractional integrodifferential equation for a particle subjected to strong and weak potential limits and obtain an analytical expression for the tunnelling time through a rectangular barrier. We compare to previous works, obtaining pure imaginary times for energies below the barrier and a fast-decaying imaginary part for energies above the barrier, indicating the anti-hermiticity of the time operator for tunnelling times. We also show that the expected time of arrival in the tunnelling problem has the form of an energy average of the classical times of arrival plus a quantum contribution.
翻訳日:2023-01-09 03:28:03 公開日:2022-12-27
# 量子通信システム:ビジョン、プロトコル、アプリケーション、課題

Quantum Communication Systems: Vision, Protocols, Applications, and Challenges ( http://arxiv.org/abs/2212.13333v1 )

ライセンス: Link先を確認
Syed Rakib Hasan, Mostafa Zaman Chowdhury, Md. Saiam, and Yeong Min Jang(参考訳) 現代の技術分野の成長は目覚ましい水準に達し、テクノロジーの恵みは世界中の隅々にまで広がり、遠くの隅にまで広がった。 現在、技術開発は、無線通信、可視光通信、機械学習、コンピューティングなど、科学研究のあらゆる分野における古典物理学の理論的基礎に基礎を置いている。 ビットの使用により,従来の通信システムの性能はほぼ飽和している。 通信技術における量子ビットの利用は、既に既存の技術の限界を超えており、技術分野の発展における新しい道が明らかになった。 既存のシステムインフラストラクチャ上の量子技術の実装は、優れたパフォーマンスを提供するだけでなく、システムの安全性と信頼性を保ちます。 この技術は将来の通信システムに非常に有望である。 本稿では,量子通信,ビジョン,設計目標,情報処理,プロトコルの基本について述べる。 さらに、量子通信アーキテクチャも提案されている。 この研究は、既存の技術システムに対する量子技術の将来の応用と、その目標を達成するための潜在的な課題を含む。

The growth of modern technological sectors have risen to such a spectacular level that the blessings of technology have spread to every corner of the world, even to remote corners. At present, technological development finds its basis in the theoretical foundation of classical physics in every field of scientific research, such as wireless communication, visible light communication, machine learning, and computing. The performance of the conventional communication systems is becoming almost saturated due to the usage of bits. The usage of quantum bits in communication technology has already surpassed the limits of existing technologies and revealed to us a new path in developing technological sectors. Implementation of quantum technology over existing system infrastructure not only provides better performance but also keeps the system secure and reliable. This technology is very promising for future communication systems. This review article describes the fundamentals of quantum communication, vision, design goals, information processing, and protocols. Besides, quantum communication architecture is also proposed here. This research included and explained the prospective applications of quantum technology over existing technological systems, along with the potential challenges of obtaining the goal.
翻訳日:2023-01-09 03:27:22 公開日:2022-12-27
# 紛争解決を伴う情報理論上セキュアな平等テストプロトコル

Information-theoretically secure equality-testing protocol with dispute resolution ( http://arxiv.org/abs/2212.13346v1 )

ライセンス: Link先を確認
Go Kato, Mikio Fujiwara, and Toyohiro Tsurumaru(参考訳) 2人のリモートユーザがそれぞれデータを持っていて、希望する状況がしばしばあります。 (i)データの平等性を検証すること、 (ii)その後、不一致が見つかると、その中のどちらが彼のデータを修正したかを決定する。 最も一般的な例は、交換したメッセージを認証したい場所です。 もうひとつの可能な例は、巨大なデータベースとそのミラーを遠隔地に置くことであり、データの間に不一致が見つかると、その2人のユーザの責任を判断できる。 もちろん、計算的な仮定を使うことが許されている場合、例えばデジタルシグネチャを使用することで、この関数は容易に実現できる。 しかし、情報理論的なセキュリティが必要な場合、秘密鍵、通信、信頼できる第三者など、この機能を効率的に実現するための既知の方法は存在しない。 情報理論のセキュリティでこの機能を効率的に実現するために,我々は,「紛争解決を伴う平等テストプロトコル」を新たなフレームワークとして定義する。 我々のプロトコルと類似した機能を持つ以前のメソッドの最も重要な違いは、データの平等性をチェックする際に信頼できる第三者の介入を可能にすることです。 この新しいフレームワークでは,情報理論上安全かつ効率的である明示的なプロトコルも提示する。

There are often situations where two remote users each have data, and wish to (i) verify the equality of their data, and (ii) whenever a discrepancy is found afterwards, determine which of the two modified his data. The most common example is where they want to authenticate messages they exchange. Another possible example is where they have a huge database and its mirror in remote places, and whenever a discrepancy is found between their data, they can determine which of the two users is to blame. Of course, if one is allowed to use computational assumptions, this function can be realized readily, e.g., by using digital signatures. However, if one needs information-theoretic security, there is no known method that realizes this function efficiently, i.e., with secret key, communication, and trusted third parties all being sufficiently small. In order to realize this function efficiently with information-theoretic security, we here define the ``equality-testing protocol with dispute resolution'' as a new framework. The most significant difference between our protocol and the previous methods with similar functions is that we allow the intervention of a trusted third party when checking the equality of the data. In this new framework, we also present an explicit protocol that is information-theoretically secure and efficient.
翻訳日:2023-01-09 03:27:06 公開日:2022-12-27
# 一般州におけるワイトマン相関器のダイアグラム:簡易高調波・無調波発振器の場合

Diagrammatics for Wightman Correlators in General States: The Cases of the Simple Harmonic and Anharmonic Oscillators ( http://arxiv.org/abs/2212.14719v1 )

ライセンス: Link先を確認
Shridhar Vinayak(参考訳) 単純な高調波発振器の位置演算子の時間順列の真空期待値を計算する機械は既に十分に確立されている。 ウィックの定理(wick theorem)は、位置作用素の時間順序列の真空期待値である \emph{pairwise shrinks} の積の項でそのような量を分解することを可能にする定理である。 この結果は、自然にそのような相関子を計算するダイアグラム的アプローチにつながり、既にファインマン図形の形で知られている。 この設定を一般化し、単純な高調波発振器の一般密度行列における位置演算子の一般順序列(ワイトマン列)の期待値を包含する。 この状況に対してウィックの定理が最初に開発され、図式が配置される。 emph{anharmonic} 発振器の一般密度行列におけるワイトマン相関も解析され、それらにも図式的形式性が発達する。

The machinery of computing vacuum expectation values of a time-ordered sequence of position operators of the simple harmonic oscillator is already well established. It rests on a Wick theorem, which enables one to decompose such a quantity in terms of products of \emph{pairwise contractions}, which are vacuum expectation values of a time-ordered sequence of position operators taken two at a time. This result naturally leads to a diagrammatic approach of computing such correlators, and is already well known in the form of Feynman diagrams. We generalise this setup to encompass expectation values of a general ordered sequence of position operators (Wightman sequences) in general density matrices of the simple harmonic oscillator. A Wick theorem is first developed for this situation and consequently a diagrammatics is laid down. Wightman correlators in general density matrices of the \emph{anharmonic} oscillator are also analysed and a diagrammatic formalism is developed for them too.
翻訳日:2023-01-09 03:19:54 公開日:2022-12-27
# 機械学習を用いた機械故障診断のためのラボスケール振動解析データセットとベースライン法

Lab-scale Vibration Analysis Dataset and Baseline Methods for Machinery Fault Diagnosis with Machine Learning ( http://arxiv.org/abs/2212.14732v1 )

ライセンス: Link先を確認
Bagus Tris Atmaja, Haris Ihsannur, Suyanto, Dhany Arifianto(参考訳) 工場における機械条件のモニタリングは製造において極めて重要である。 機械の突然の故障は生産を止め、収益を失う可能性がある。 機械の振動信号は、その状態のよい指標である。 本稿では,ラボスケールマシンからの振動信号のデータセットを提案する。 データセットには、正常、アンバランス、ミスアライメント、ベアリングの4種類のマシン条件が含まれている。 3つの機械学習手法(svm, knn, gnb)がデータセットを評価し、1-foldテストで1つの方法によって完全な結果を得た。 データのバランスが取れているため、重み付け精度(WA)を用いてアルゴリズムの性能を評価する。 その結果、5倍のクロスバリデーションに対して WA が 99.75 % の SVM であることがわかった。 データセットは、https://zenodo.org/record/7006575のオープンでフリーなリポジトリにあるCSVファイルの形式で提供される。

The monitoring of machine conditions in a plant is crucial for production in manufacturing. A sudden failure of a machine can stop production and cause a loss of revenue. The vibration signal of a machine is a good indicator of its condition. This paper presents a dataset of vibration signals from a lab-scale machine. The dataset contains four different types of machine conditions: normal, unbalance, misalignment, and bearing fault. Three machine learning methods (SVM, KNN, and GNB) evaluated the dataset, and a perfect result was obtained by one of the methods on a 1-fold test. The performance of the algorithms is evaluated using weighted accuracy (WA) since the data is balanced. The results show that the best-performing algorithm is the SVM with a WA of 99.75\% on the 5-fold cross-validations. The dataset is provided in the form of CSV files in an open and free repository at https://zenodo.org/record/7006575.
翻訳日:2023-01-09 03:18:23 公開日:2022-12-27
# 小型Fabry-Perot干渉計の量子揺らぎ

Quantum fluctuations in the small Fabry-Perot interferometer ( http://arxiv.org/abs/2212.13430v1 )

ライセンス: Link先を確認
Igor E. Protsenko and Alexander V. Uskov(参考訳) 我々は、ナノledまたはレーザーからの量子場によって励起される主モードと干渉する波長のオーダーの小さい干渉計について考察する。 入力フィールドは、平均して数個の光子で干渉計モードから切り離される。 我々は、干渉計の内外における場と光子数変動スペクトルを発見し、スペクトルにおける量子ノイズと古典ノイズの寄与を同定する。 スペクトルの構造は、磁場、干渉計内部の光子数ゆらぎ、伝送されたスペクトル、反射場によって異なる。 我々はスペクトルの非対称性に注意する。 スペクトルの違いは干渉計の内部(外側)における色付き(白色)量子ノイズと関連している。 我々は2階時間相関関数を計算し、ある条件下では振動し負となる。 その結果は、遅延線や光トランジスタのような量子光学集積回路の小さな要素の研究、設計、製造、利用に役立つ。

We consider the small, of the size of the order of the wavelength, interferometer with the main mode excited by a quantum field from a nano-LED or a laser. The input field is detuned from the interferometer mode with, on average, a few photons. We find the field and the photon number fluctuation spectra inside and outside the interferometer and identify the contributions of quantum and classical noise in the spectra. Structures of spectra are different for the field, the photon number fluctuations inside the interferometer; for the transmitted, and the reflected fields. We note asymmetries in spectra. Differences in the spectra are related to the colored (white) quantum noise inside (outside) the interferometer. We calculate the second-order time correlation functions; they oscillate and be negative under certain conditions. Results help the study, design, manufacture, and use small elements of quantum optical integrated circuits, such as delay lines and optical transistors.
翻訳日:2023-01-09 03:01:55 公開日:2022-12-27
# 一般化不確実性原理の文脈におけるブラックホール相補性の妥当性

Validity of black hole complementarity in the context of generalized uncertainty principle ( http://arxiv.org/abs/2212.13438v1 )

ライセンス: Link先を確認
Shurui Wu, Bing-Qian Wang, Z. W. Long, Hao Chen(参考訳) 最近、Elias C. Vagenas et al と Yongwan Gim et al は一般化不確実性原理 (GUP) の文脈で非閉定理の有効性を研究したが、それらは矛盾する結論に達した。 xin-dong duの最近の研究に動機づけられて、gupの異なる形態の文脈におけるシュワルツシルトブラックホールの温度の補正を調査し、シュワルツシルトブラックホールの情報を複製するのに必要なエネルギーを得るとともに、現在のgupの非閉包定理が安全であることを示す。

Recently, Elias C. Vagenas et al and Yongwan Gim et al studied the validity of the no-cloning theorem in the context of generalized uncertainty principle (GUP), but they came to conflicting conclusions. Motivated by a recent work presented by Xin-Dong Du, we investigate the corrections to the temperature for Schwarzschild black hole in the context of different forms of GUP, and obtain the required energy to duplicate information for the Schwarzschild black hole, it shows that the no-cloning theorem in the present of GUP is safe.
翻訳日:2023-01-09 03:01:41 公開日:2022-12-27
# ニューラルネットワーク量子状態を用いた開スピン鎖の量子輸送

Quantum Transport in Open Spin Chains using Neural-Network Quantum States ( http://arxiv.org/abs/2212.13453v1 )

ライセンス: Link先を確認
Johannes Mellak, Enrico Arrigoni, Thomas Pock, Wolfgang von der Linden(参考訳) 本研究では,制限ボルツマンマシンに基づく非対称開量子系のニューラルネットワークによる処理について検討する。 特に、境界駆動(異方性)ハイゼンベルクスピン鎖における非平衡定常電流に関心がある。 本稿では, ニューラルネットワーク量子状態とモンテカルロサンプリングを用いた非対称散逸系に対する処理の難しさに対処し, 高忠実な定常状態近似を得るための最適化法とサンプリング手法を提案する。 我々はリンドブラッド作用素のいくつかの固有対称性を考察し、サンプリング中にそれらを利用する。 局所可観測性は必ずしも近似の質を示す良い指標ではないことを示し、最終的に単純な開ハイゼンベルク鎖の既知の結果と一致したスピン電流の結果を示す。

In this work we study the treatment of asymmetric open quantum systems with neural networks based on the restricted Boltzmann machine. In particular, we are interested in the non-equilibrium steady state current in the boundary-driven (anisotropic) Heisenberg spin chain. We address previously published difficulties in treating asymmetric dissipative systems with neural-network quantum states and Monte-Carlo sampling and present an optimization method and a sampling technique that can be used to obtain high-fidelity steady state approximations of such systems. We point out some inherent symmetries of the Lindblad operator under consideration and exploit them during sampling. We show that local observables are not always a good indicator of the quality of the approximation and finally present results for the spin current that are in agreement with known results of simple open Heisenberg chains.
翻訳日:2023-01-09 03:01:29 公開日:2022-12-27
# 荷電高調波発振器からの光子散乱モデルの再正規化

Renormalization for a model of photon scattering off a charged harmonic oscillator ( http://arxiv.org/abs/2212.13475v1 )

ライセンス: Link先を確認
Hidenori Sonoda(参考訳) 電気双極子近似では、放射場と相互作用する荷電振動子のモデルが二次的かつ可溶になるが、光子周波数に対する紫外線遮断が必要である。 モデルの再正規化性は明らかであり、物理はカットオフを有限に保たなければならない。 カットオフは、光子断面の高周波挙動を特徴付けるパラメータの役割を担っている。

In the electric dipole approximation the model of a charged harmonic oscillator interacting with the radiation field becomes quadratic and soluble, but it needs a UV cutoff for the photon frequency. The model's renormalizability is only apparent; physics requires that the cutoff be kept finite. The cutoff plays the role of a parameter that characterizes the high frequency behavior of the photon cross section.
翻訳日:2023-01-09 03:01:16 公開日:2022-12-27
# ガス相メタン中の回転偏光子

Rovibrational Polaritons in Gas-Phase Methane ( http://arxiv.org/abs/2212.13506v1 )

ライセンス: Link先を確認
Adam D. Wright, Jane C. Nelson, Marissa L. Weichman(参考訳) 分子アンサンブルの明るい光遷移が光キャビティモード周波数に共鳴的に一致すると、ポーラリトニック状態が発生する。 そこで我々は, クリーンで孤立した系における偏光子の挙動を研究するために, 気体相分子の振動強い結合のための新しいプラットフォームを構築した。 我々は,寒冷かつ高密度なアンサンブルの調製に最適化されたキャビティ内低温緩衝ガスセルの強結合構造にアクセスし,気相メタンにおける原理実証を報告する。 我々は,個々の振動遷移を強くキャビティ結合させ,結合強度と調律範囲を探究する。 我々は, 強いキャビティ内吸収剤の存在下での古典的キャビティ伝達シミュレーションを用いてこの知見を再現した。 このインフラストラクチャは、キャビティ交替化学のベンチマーク研究のための新しいテストベッドを提供する。

Polaritonic states arise when a bright optical transition of a molecular ensemble is resonantly matched to an optical cavity mode frequency. Here, we lay the groundwork to study the behavior of polaritons in clean, isolated systems by establishing a new platform for vibrational strong coupling in gas-phase molecules. We access the strong coupling regime in an intracavity cryogenic buffer gas cell optimized for the preparation of simultaneously cold and dense ensembles, and report a proof-of-principle demonstration in gas-phase methane. We strongly cavity-couple individual rovibrational transitions and probe a range of coupling strengths and detunings. We reproduce our findings with classical cavity transmission simulations in the presence of strong intracavity absorbers. This infrastructure provides a new testbed for benchmark studies of cavity-altered chemistry.
翻訳日:2023-01-09 03:01:08 公開日:2022-12-27
# タンパク質の折り畳みに対するディジタイズ・カウンタバティック量子アルゴリズム

Digitized-Counterdiabatic Quantum Algorithm for Protein Folding ( http://arxiv.org/abs/2212.13511v1 )

ライセンス: Link先を確認
Pranav Chandarana, Narendra N. Hegade, Iraitz Montalban, Enrique Solano, and Xi Chen(参考訳) 四面体格子上でのタンパク質の折り畳み問題に対処するために,古典量子ディジタルカウンテルダイアバティックアルゴリズムを提案する。 Digitized-counterdiabatic quantum computingは、与えられたアディバティック量子計算の反断熱加速のデジタル化を通じて量子アルゴリズムを圧縮するために開発されたパラダイムである。 アミノ酸配列の最低エネルギー配置を見つけることは、化学、生物学、薬物設計において重要な役割を果たすNPハード最適化問題である。 我々は問題に触発され、ハードウェア効率のよい変分量子回路を用いて、最先端の量子アルゴリズムよりも優れています。 本手法は,最大9アミノ酸のタンパク質に対して,最大17キュービットの量子ハードウェアを用いて適用する。 具体的には、量子アルゴリズムをQuantinuumの閉じ込められたイオン、GoogleとIBMの超伝導回路でベンチマークし、NISQ時代に必要な低深度回路で高い成功率を得る。

We propose a hybrid classical-quantum digitized-counterdiabatic algorithm to tackle the protein folding problem on a tetrahedral lattice. Digitized-counterdiabatic quantum computing is a paradigm developed to compress quantum algorithms via the digitization of the counterdiabatic acceleration of a given adiabatic quantum computation. Finding the lowest energy configuration of the amino acid sequence is an NP-hard optimization problem that plays a prominent role in chemistry, biology, and drug design. We outperform state-of-the-art quantum algorithms using problem-inspired and hardware-efficient variational quantum circuits. We apply our method to proteins with up to 9 amino acids, using up to 17 qubits on quantum hardware. Specifically, we benchmark our quantum algorithm with Quantinuum's trapped ions, Google's and IBM's superconducting circuits, obtaining high success probabilities with low-depth circuits as required in the NISQ era.
翻訳日:2023-01-09 03:00:55 公開日:2022-12-27
# ツイスト導波路を有するチップ上の任意1量子回転

Arbitrary single-qubit rotations on chip with twisted waveguides ( http://arxiv.org/abs/2212.13530v1 )

ライセンス: Link先を確認
Fyodor Morozko, Andrey Novitsky, Alexander Mikhalychev, and Alina Karabchevsky(参考訳) 集積フォトニクスは、その柔軟性とスケーラビリティのために量子計算を実現するための注目すべきプラットフォームである。 本稿では,チップ上の偏光エンコード量子フォトニック計算のための構築ブロックとしてツイスト導波路を利用する新しいパラダイムを提案する。 閉形式で変換(ゲート)行列を公開し、ツイスト導波路が任意のブロッホ球回転を実装できることを実証する。 この研究の結果は、チップ上の量子コンピューティングアーキテクチャの開発における新たな方向性を開くかもしれない。

Integrated photonics is a remarkable platform for the realization of quantum computations due to its flexibility and scalability. Here we propose a novel paradigm exploiting twisted waveguides as a building block for polarization-encoded quantum photonic computations on a chip. We unveil a transformation (gate) matrix in the closed form and demonstrate that twisted waveguides can implement arbitrary Bloch sphere rotations. The outcomes of this research may open a new direction in the development of quantum computing architectures on a chip.
翻訳日:2023-01-09 03:00:37 公開日:2022-12-27
# ファイバファブリペロキャビティにおける直接レーザーによる光学膜

Direct laser-written optomechanical membranes in fiber Fabry-Perot cavities ( http://arxiv.org/abs/2212.13532v1 )

ライセンス: Link先を確認
Lukas Tenbrake, Alexander Fa{\ss}bender, Sebastian Hofferberth, Stefan Linden, Hannes Pfeifer(参考訳) マイクロおよびナノフォトニック光機械実験により、単一フォノンレベルでの機械共振器の操作が可能となった。 これらの構造には、チューニング性、柔軟性、マルチモードシステムへのスケーリングに制限された精巧な技術が必要である。 本稿では,繊維ファブリペロキャビティ内の3次元レーザーによる高分子膜を用いたキャビティオプティオメカニクス実験を行った。 基本メガヘルツのメカニカルモードに対する真空結合強度は約30kHzに達する。 我々は,機械共振器の光力学的バネチューニングを,数kHz以上の温度で観測した。 レーザー書き込みプロセスの極端な柔軟性により、膜を顕微鏡の空洞に直接統合することができる。 直接ファイバカップリング、結合共振器システムへのスケーリング機能、散逸希釈構造の潜在的実装、電極の統合は、ファイバチップ統合加速度計、光機械的に調整可能なマルチモードメカニカルシステム、マイクロ波から光学変換のための直接ファイバ結合システムにとって有望なプラットフォームとなる。

Integrated micro and nanophotonic optomechanical experiments enable the manipulation of mechanical resonators on the single phonon level. Interfacing these structures requires elaborate techniques limited in tunability, flexibility, and scaling towards multi-mode systems. Here, we demonstrate a cavity optomechanical experiment using 3D-laser-written polymer membranes inside fiber Fabry-Perot cavities. Vacuum coupling strengths of ~ 30 kHz to the fundamental megahertz mechanical mode are reached. We observe optomechanical spring tuning of the mechanical resonator by tens of kHz exceeding its linewidth at cryogenic temperatures. The extreme flexibility of the laser writing process allows for a direct integration of the membrane into the microscopic cavity. The direct fiber coupling, its scaling capabilities to coupled resonator systems, and the potential implementation of dissipation dilution structures and integration of electrodes make it a promising platform for fiber-tip integrated accelerometers, optomechanically tunable multi-mode mechanical systems, or directly fiber-coupled systems for microwave to optics conversion.
翻訳日:2023-01-09 03:00:30 公開日:2022-12-27
# kモードアルゴリズムと海洋モデルを用いた応募者および従業員のパーソナリティ検出

Personality Detection of Applicants And Employees Using K-mode Algorithm And Ocean Model ( http://arxiv.org/abs/2212.14675v1 )

ライセンス: Link先を確認
Binisha Mohan, Dinju Vattavayalil Joseph, Bharat Plavelil Subhash(参考訳) 行動、感情、動機、思考の組み合わせは個性と呼ばれる。 候補者を効果的に選別するために、多くの組織は人格予測に頼っている。 必要な人格選好に基づいて応募者をグループ化することで、希望する職務記述のベスト候補を採用または選別することができる。 応募者のパーソナリティタイプを識別するためにモデルが作成され、雇用主は人の表情、スピーチイントネーション、履歴書などを調べることで適格な候補者を見つけることができる。 さらに、従業員の行動の変化を検出することを重視する。 各質問に対する従業員の態度と行動が調査され、分析されている。 本稿では, avi-ai管理システムにおける海洋モデルとcnnアルゴリズムを用いて, 雇用圧力, 作業環境, 仲間との関係など, 従業員の幸福度を予測するkモードクラスタリング手法を提案する。 AVIsはAI決定エージェントによる効率的な候補スクリーニングに使用できることを示している。 特定の分野の研究は現在の調査以上のもので、より深いモデルと非常に複雑な操作をパッチできる新しい構成で拡張する必要がある。

The combination of conduct, emotion, motivation, and thinking is referred to as personality. To shortlist candidates more effectively, many organizations rely on personality predictions. The firm can hire or pick the best candidate for the desired job description by grouping applicants based on the necessary personality preferences. A model is created to identify applicants' personality types so that employers may find qualified candidates by examining a person's facial expression, speech intonation, and resume. Additionally, the paper emphasises detecting the changes in employee behaviour. Employee attitudes and behaviour towards each set of questions are being examined and analysed. Here, the K-Modes clustering method is used to predict employee well-being, including job pressure, the working environment, and relationships with peers, utilizing the OCEAN Model and the CNN algorithm in the AVI-AI administrative system. Findings imply that AVIs can be used for efficient candidate screening with an AI decision agent. The study of the specific field is beyond the current explorations and needed to be expanded with deeper models and new configurations that can patch extremely complex operations.
翻訳日:2023-01-09 02:42:21 公開日:2022-12-27
# セマンティック光ファイバ通信システム

Semantic optical fiber communication system ( http://arxiv.org/abs/2212.14739v1 )

ライセンス: Link先を確認
Zhenming Yu, Hongyu Huang, Liming Cheng, Wei Zhang, Yueqiu Mu and Kun Xu(参考訳) 現在の光通信システムは、デジタルビットの背後にある意味を考慮せずにビットやシンボルの誤りを最小限に抑え、多くの不要な情報を伝達する。 本稿では,意味的光ファイバー通信(SOFC)システムを提案する。 送信のために情報をビットに符号化する代わりに、深層学習を用いてソースから意味情報を抽出する。 生成された意味記号は光ファイバーを介して直接伝達される。 ビットベース構造と比較して、SOFCシステムは高い情報圧縮とより安定した性能を実現し、特に低受信光電力系統において、光リンク障害に対する堅牢性を高めた。 本研究は,現在の光通信アーキテクチャにおけるブレークスルーに向けた重要な一歩である,人間の分析的思考レベルでの知的光通信システムを紹介する。

The current optical communication systems minimize bit or symbol errors without considering the semantic meaning behind digital bits, thus transmitting a lot of unnecessary information. We propose and experimentally demonstrate a semantic optical fiber communication (SOFC) system. Instead of encoding information into bits for transmission, semantic information is extracted from the source using deep learning. The generated semantic symbols are then directly transmitted through an optical fiber. Compared with the bit-based structure, the SOFC system achieved higher information compression and a more stable performance, especially in the low received optical power regime, and enhanced the robustness against optical link impairments. This work introduces an intelligent optical communication system at the human analytical thinking level, which is a significant step toward a breakthrough in the current optical communication architecture.
翻訳日:2023-01-09 02:42:05 公開日:2022-12-27
# 光子検出器のタイミングジッタ除去器

Timing jitter removers of photon detectors ( http://arxiv.org/abs/2212.13335v1 )

ライセンス: Link先を確認
Tatsuki Sonoyama, Kazuma Takahashi, Baramee Charoensombutamon, Sachiko Takasu, Kaori Hattori, Daiji Fukuda, Kosuke Fukui, Kan Takase, Warit Asavanant, Jun-ichi Yoshikawa, Mamoru Endo, Akira Furusawa(参考訳) 光子検出器の様々な性能のうち、タイミングジッタは検出効率などの他の重要な性能とのトレードオフのため、改善が困難である。 このようなトレードオフは、特に光量子計算に必要な高純度非ガウス状態生成への応用において問題となっている。 本稿では,光子検出器の光子検出時間を制限し,他の性能を犠牲にすることなくタイミングジッタを改善する外部高速光スイッチ - タイミングジッタ除去器 (tjr) を用いた手法を提案する。 TJRを用いて,遷移端センサを用いた光子数分解検出器のタイミングジッタを50nsから10nsに改善する実験を行った。 この改良された検出器を用いて、TJRなしでは観測できないウィグナー負性-0.01のSchr\"{o}dinger cat状態という重要な非ガウス状態の1つを生成する。 TJRは超高速でフォールトトレラントで普遍的な光量子コンピュータの実現の鍵となる技術である。

Among various performances of photon detectors, the timing jitter is difficult to improve because of its trade-offs with other important performances such as detection efficiency. Such trade-offs have been an issue in applications, especially for high-purity non-Gaussian-state generation necessary in optical quantum computation. Here, we introduce a method using an external fast optical switch -- Timing Jitter Remover (TJR) -- whose time window limits the photon-detectable time of photon detectors and improve the timing jitter without sacrificing other performances. By using a TJR, we experimentally improve the timing jitter of a photon-number-resolving detector based on a transition edge sensor, from 50 ns to 10 ns. Using this improved detector, we generate one of important non-Gaussian states, a Schr\"{o}dinger cat state with Wigner negativity of -0.01, which cannot be observed without TJRs. TJRs would be the key technology for the realization of ultra-fast, fault-tolerant, universal optical quantum computer.
翻訳日:2023-01-09 01:57:25 公開日:2022-12-27
# 失われたマイクロマザー電池:ジェインズ・カミングス政権のほぼ純粋な状態

Lossy Micromaser Battery: Almost Pure States in the Jaynes-Cummings Regime ( http://arxiv.org/abs/2212.13417v1 )

ライセンス: Link先を確認
Vahid Shaghaghi, Varinder Singh, Matteo Carrega, Dario Rosa and Giuliano Benenti(参考訳) 量子電池のマイクロメーザモデルを考えると、電池はキャビティ内の電磁界の単一モードであり、キュービットのストリームとの繰り返し相互作用によって充電され、これらは全て非平衡状態、不整合または整合性のいずれかで、Jaynes-Cummingsモデルでモデル化された物質-場相互作用によって作成される。 また,コヒーレントプロトコルは,モデルパラメータの汎用値に対して効果的な純粋定常状態が達成されるという点で,非一貫性プロトコルよりも優れていることを示す。 最後に、この衝突モデルと空洞損失を補足し、リンドブラッドマスター方程式で記述する。 蓄電エネルギー,充電電力,定常状態の純度の観点からは,電池性能はやや低下し,放散速度は緩やかである。 以上の結果から,マイクロメーザは堅牢で信頼性の高い量子電池であり,実験実装において有望なモデルであることがわかった。

We consider a micromaser model of a quantum battery, where the battery is a single mode of the electromagnetic field in a cavity, charged via repeated interactions with a stream of qubits, all prepared in the same non-equilibrium state, either incoherent or coherent, with the matter-field interaction modeled by the Jaynes-Cummings model. We show that the coherent protocol is superior to the incoherent one, in that an effective pure steady state is achieved for generic values of the model parameters. Finally, we supplement the above collision model with cavity losses, described by a Lindblad master equation. We show that battery performances, in terms of stored energy, charging power, and steady-state purity, are slightly degraded up to moderated dissipation rate. Our results show that micromasers are robust and reliable quantum batteries, thus making them a promising model for experimental implementations.
翻訳日:2023-01-09 01:57:06 公開日:2022-12-27
# $\Lambda$-Momentsに基づく操作絡み検出

Operational Entanglement Detection Based on $\Lambda$-Moments ( http://arxiv.org/abs/2212.13463v1 )

ライセンス: Link先を確認
Ke-Ke Wang, Zhi-Wei Wei, and Shao-Ming Fei(参考訳) 任意の正の写像 $\Lambda$-moments について、$\Lambda$-moments を導入する。 これらの$\lambda$-moments は、事前の再構成なしに未知の量子状態の絡み合いを効果的に特徴付けることができる。 必要な$\Lambda$-momentsと十分な分離性基準と、[\href{https://link.aps.org/doi/10.1103/PhysRevLett.127.060504}{Phys.]の項目を含む、必要な最適化基準が提示される。 Rev. Lett. 特別な場合として、 \textbf{127}, 060504 (2021)}]。 より詳細な例は、我々の基準が正の部分的転置基準によって識別できない有界絡みを検出できることを示し、明示的な測定演算子は対応する$\Lambda$-momentsを実験的に測定する。

We introduce $\Lambda$-moments with respect to any positive map $\Lambda$. We show that these $\Lambda$-moments can effectively characterize the entanglement of unknown quantum states without theirs prior reconstructions. Based on $\Lambda$-moments necessary and sufficient separability criteria, as well as necessary optimized criteria are presented, which include the ones in [\href{https://link.aps.org/doi/10.1103/PhysRevLett.127.060504}{Phys. Rev. Lett. \textbf{127}, 060504 (2021)}] as special cases. Detailed example is given to show that our criteria can detect bound entanglement that can not be identified by positive partial transpose criterion, with the explicit measurement operators to experimentally measure the corresponding $\Lambda$-moments.
翻訳日:2023-01-09 01:56:46 公開日:2022-12-27
# 非マルコフ環境における量子電池の充電-衝突モデルによるアプローチ

Charging a quantum battery in a non-Markovian environment: a collisional model approach ( http://arxiv.org/abs/2212.13488v1 )

ライセンス: Link先を確認
Daniele Morrone, Matteo A. C. Rossi, Andrea Smirne, Marco G. Genoni(参考訳) オープンシステム量子電池の充電過程における非マルコビアン性の影響について検討する。 我々は衝突モデルフレームワークを用いて,環境を離散的なシステム群で記述し,これらのアンシラを相互作用させることで,ダイナミクスにおけるメモリ効果を導入することができる。 本研究では,定常エルゴトロピーの挙動と,システムへの情報バックフローが充電過程を特徴付ける異なる特徴に与える影響について詳細に検討する。 この値は記憶のない環境が存在する場合にのみ得られるが、[d. farina et al., phys. rev. b 99, 035421 (2019)] で導かれるような大きな損失限度においてのみ得られる。 一般に、メモリを持つ環境の存在により、パラメータ空間のより広い領域に対して最大値に近い定常エルゴトロピーを生成でき、その結果、より短い時間で実現可能であることを示す。 非マルコフ性に関する幾何学的尺度に依拠して、バッテリのダイナミクスの非マルコフ性がゼロである場合、または、バッテリに接続された環境と充電器によって引き起こされるメモリ効果の非自明な相互作用の結果、記憶の有無と無記憶の場合の両方においてエルゴトロピー最大値が得られることを示す。

We study the effect of non-Markovianity in the charging process of an open-system quantum battery. We employ a collisional model framework, where the environment is described by a discrete set of ancillary systems and memory effects in the dynamics can be introduced by allowing these ancillas to interact. We study in detail the behaviour of the steady-state ergotropy and the impact of the information backflow to the system on the different features characterizing the charging process. Remarkably, we find that there is a maximum value of the ergotropy achievable: this value can be obtained either in the presence of memoryless environment, but only in the large-loss limit, as derived in [D. Farina et al., Phys. Rev. B 99, 035421 (2019)], or in the presence of an environment with memory also beyond the large-loss limit. In general, we show that the presence of an environment with memory allows us to generate steady-state ergotropy near to its maximum value for a much larger region in the parameter space and thus potentially in a shorter time. Relying on the geometrical measure of non-Markovianity, we show that in both the cases of an environment with and without memory the ergotropy maximum is obtained when the non-Markovianity of the dynamics of the battery is zero, possibly as the result of a non-trivial interplay between the memory effects induced by, respectively, the environment and the charger connected to the battery.
翻訳日:2023-01-09 01:56:23 公開日:2022-12-27
# 量子環境を考慮したフィードフォワードニューラルネットワークの不確かさ

Uncertainty of Feed Forward Neural Networks Recognizing Quantum Contextuality ( http://arxiv.org/abs/2212.13564v1 )

ライセンス: Link先を確認
Jan Wasilewski, Tomasz Paterek, Karol Horodecki(参考訳) 量子領域における問題に適用されるニューラルネットワークの性能を特徴付ける通常の数字は、その正確さであり、以前は目に見えない入力に対する正しい答えの確率である。 ここでは、このパラメータを予測の不確実性に付加し、回答に対する信頼度を特徴付ける。 ベイズニューラルネットワーク(BNN)により,精度と不確実性の両方を推定する強力な手法が提供される。 まず、BNNがもたらす利点の簡単な例を示し、そこから偏りのあるデータセットでトレーニングした後でも信頼性の高い不確実性推定能力を強調したい。 次に、BNNを量子文脈性認識問題に適用し、不確実性自体が文脈性誤分類の可能性を識別する独立したパラメータであることを示す。

The usual figure of merit characterizing the performance of neural networks applied to problems in the quantum domain is their accuracy, being the probability of a correct answer on a previously unseen input. Here we append this parameter with the uncertainty of the prediction, characterizing the degree of confidence in the answer. A powerful technique for estimating both the accuracy and the uncertainty is provided by Bayesian neural networks (BNNs). We first give simple illustrative examples of advantages brought forward by BNNs, out of which we wish to highlight their ability of reliable uncertainty estimation even after training with biased data sets. Then we apply BNNs to the problem of recognition of quantum contextuality which shows that the uncertainty itself is an independent parameter identifying the chance of misclassification of contextuality.
翻訳日:2023-01-09 01:55:56 公開日:2022-12-27
# 実ディラック方程式

The Real Dirac Equation ( http://arxiv.org/abs/2212.13568v1 )

ライセンス: Link先を確認
Sokol Andoni(参考訳) ディラックは、正規化された反可換行列は相対論的時間空間のシグネチャと等しくなければならないという、彼の有名な方程式の定式化に決定的な見解を示した。 ディラック行列は「電子の内部自由度」を表し、全てのローレンツフレームで同じである。 したがって、特殊相対性理論の時空間シグネチャへのリンクはディラック理論の別の仮定を構成する。 この貢献により、ディラック電子と陽電子の性質は、相対論的4運動量ベクトルの量子化、行列、無必要符号の量子化に従うことが証明される。 提案された形式主義は強力であり、手持ち/反射による物理的な時空に明らかに根ざしている。

Dirac's leaping insight that the normalized anti-commutator of the {\gamma}^{\mu} matrices have to equal the relativistic timespace signature was decisive for the successful formulation of his famous Equation. The Dirac matrices represent 'some internal degrees of freedom of the electron' and are the same in all Lorentz frames. Therefore, the link to the timespace signature of special relativity constitutes a separate postulate of Dirac's theory. I prove in this contribution that all the properties of the Dirac electron & positron follow from the quantization of the relativistic 4-momentum vector - preconceived 'internal degrees of freedom', matrices and imposed signature unneeded. The proposed formalism is powerful and clearly rooted in physical spacetime augmented with handedness / reflection.
翻訳日:2023-01-09 01:55:43 公開日:2022-12-27
# ロバストコンセンサスクラスタリングと広告予測への応用

Robust Consensus Clustering and its Applications for Advertising Forecasting ( http://arxiv.org/abs/2301.00717v1 )

ライセンス: Link先を確認
Deguang Kong, Miao Lu, Konstantin Shmakov and Jian Yang(参考訳) コンセンサスクラスタリングはパーティションを集約し、異なるソース/実行結果のクラスタリング結果を調整することで、より適合性を見出す。 実際には、クラスタ化タスクにはノイズや異常があるが、パフォーマンスが著しく低下する可能性がある。 この問題に対処するため、我々は、専門家の意見に共通する真実を見出すことのできる、ロバストなコンセンサスクラスタリングという新しいアルゴリズムを提案する。 特に、ロバストなコンセンサスクラスタリング問題を制約最適化問題として定式化し、厳密な収束を保証する乗算器(ADMM)の交互方向法に基づく効果的なアルゴリズムを導出する。 我々の手法はベンチマークのベースラインを上回ります。 提案手法を実世界の広告キャンペーンセグメンテーションおよび予測タスクに適用し,コルモゴロフ・スミルノフ統計を用いて計算した類似性に基づくコンセンサスクラスタリング結果を用いた。 正確なクラスタリング結果は、広告主プロファイルの構築に役立ち、予測を行う。

Consensus clustering aggregates partitions in order to find a better fit by reconciling clustering results from different sources/executions. In practice, there exist noise and outliers in clustering task, which, however, may significantly degrade the performance. To address this issue, we propose a novel algorithm -- robust consensus clustering that can find common ground truth among experts' opinions, which tends to be minimally affected by the bias caused by the outliers. In particular, we formalize the robust consensus clustering problem as a constraint optimization problem, and then derive an effective algorithm upon alternating direction method of multipliers (ADMM) with rigorous convergence guarantee. Our method outperforms the baselines on benchmarks. We apply the proposed method to the real-world advertising campaign segmentation and forecasting tasks using the proposed consensus clustering results based on the similarity computed via Kolmogorov-Smirnov Statistics. The accurate clustering result is helpful for building the advertiser profiles so as to perform the forecasting.
翻訳日:2023-01-09 01:49:09 公開日:2022-12-27
# 連合レコメンデーションシステムに関する調査研究

A Survey on Federated Recommendation Systems ( http://arxiv.org/abs/2301.00767v1 )

ライセンス: Link先を確認
Zehua Sun, Yonghui Xu, Yong Liu, Wei He, Yali Jiang, Fangzhao Wu, Lizhen Cui(参考訳) フェデレーション学習は、ユーザーのプライバシーを保護するレコメンデーションシステムに最近適用された。 連合学習環境では、レコメンデーションシステムは、実際のユーザデータではなく中間パラメータのみを収集するレコメンデーションモデルをトレーニングできるため、ユーザのプライバシが大幅に向上する。 フェデレートされたレコメンデーションシステムは、他のデータプラットフォームと連携して、規制とプライバシの制約を満たしながら推奨モデルのパフォーマンスを改善することができる。 しかし、連合レコメンデーションシステムは、プライバシ、セキュリティ、異質性、通信コストなど、多くの新しい課題に直面している。 これらの地域では有意な研究が行われているが、調査文献のギャップは残っている。 In this survey, we-(1) summarize some common privacy mechanisms used in federated recommendation systems and discuss the advantages and limitations of each mechanism; (2) review some robust aggregation strategies and several novel attacks against security; (3) summarize some approaches to address heterogeneity and communication costs problems; (4)introduce some open source platforms that can be used to build federated recommendation systems; (5) present some prospective research directions in the future. この調査は、研究者や実践者がこれらの分野の研究の進捗を理解するためのガイドとなる。

Federated learning has recently been applied to recommendation systems to protect user privacy. In federated learning settings, recommendation systems can train recommendation models only collecting the intermediate parameters instead of the real user data, which greatly enhances the user privacy. Beside, federated recommendation systems enable to collaborate with other data platforms to improve recommended model performance while meeting the regulation and privacy constraints. However, federated recommendation systems faces many new challenges such as privacy, security, heterogeneity and communication costs. While significant research has been conducted in these areas, gaps in the surveying literature still exist. In this survey, we-(1) summarize some common privacy mechanisms used in federated recommendation systems and discuss the advantages and limitations of each mechanism; (2) review some robust aggregation strategies and several novel attacks against security; (3) summarize some approaches to address heterogeneity and communication costs problems; (4)introduce some open source platforms that can be used to build federated recommendation systems; (5) present some prospective research directions in the future. This survey can guide researchers and practitioners understand the research progress in these areas.
翻訳日:2023-01-09 01:48:49 公開日:2022-12-27
# mindbigdata 2022 脳信号の大規模なデータセット

MindBigData 2022 A Large Dataset of Brain Signals ( http://arxiv.org/abs/2212.14746v1 )

ライセンス: Link先を確認
David Vivancos and Felix Cuesta(参考訳) 私たちの脳を理解することは、最も厄介なタスクの1つです。 MindBigDataは、さまざまな人間の活動に関連する脳信号の包括的かつ更新されたデータセットを提供することを目的としており、生の脳活動から対応する(ラベル)メンタル(または物理的な)タスクへの"デコード"パフォーマンスのベンチマークとして、機械学習アルゴリズムの使用を刺激することができる。 セルフのコマーシャルやEEGデバイス,あるいは私たちが開発したカスタムデバイスを使って,テクノロジの限界を探求するのです。 各サブデータセットのデータ収集手順と,それらを取得するために使用するヘッドセットについて述べる。 また、医療ゲームのようなほぼすべての分野において、ユースケースや産業、エンターテイメントなど、最終的に最後のHCI(Human-Computer Interaction)デバイスとして、私たちの脳を直接「中間的」感覚に使わなければ、何十億という生命に影響を及ぼす可能性がある応用を報告します。 単に“タイプからタッチからトークから思考への旅”と呼ぶものです。

Understanding our brain is one of the most daunting tasks, one we cannot expect to complete without the use of technology. MindBigData aims to provide a comprehensive and updated dataset of brain signals related to a diverse set of human activities so it can inspire the use of machine learning algorithms as a benchmark of 'decoding' performance from raw brain activities into its corresponding (labels) mental (or physical) tasks. Using commercial of the self, EEG devices or custom ones built by us to explore the limits of the technology. We describe the data collection procedures for each of the sub datasets and with every headset used to capture them. Also, we report possible applications in the field of Brain Computer Interfaces or BCI that could impact the life of billions, in almost every sector like healthcare game changing use cases, industry or entertainment to name a few, at the end why not directly using our brains to 'disintermediate' senses, as the final HCI (Human-Computer Interaction) device? simply what we call the journey from Type to Touch to Talk to Think.
翻訳日:2023-01-09 01:48:18 公開日:2022-12-27
# 画像拡散モデルのためのトランスフォーマーバックボーンの探索

Exploring Transformer Backbones for Image Diffusion Models ( http://arxiv.org/abs/2212.14678v1 )

ライセンス: Link先を確認
Princy Chahal(参考訳) 画像合成のためのエンドツーエンド変換器を用いた遅延拡散モデルを提案する。 ImageNetクラス条件付き生成タスクでは、Transformerベースの遅延拡散モデルが、UNetベースのアーキテクチャの13.1FIDスコアに匹敵する14.1FIDを達成することを示す。 拡散に基づく画像合成にトランスフォーマーモデルを適用することに加えて、このアーキテクチャの単純化により、テキストと画像データの融合とモデリングが容易になる。 トランスフォーマーのマルチヘッドアテンション機構により、画像とテキストの特徴の相互作用が簡単になり、UNetベースの拡散モデルにおけるクロスアテンション機構の必要がなくなる。

We present an end-to-end Transformer based Latent Diffusion model for image synthesis. On the ImageNet class conditioned generation task we show that a Transformer based Latent Diffusion model achieves a 14.1FID which is comparable to the 13.1FID score of a UNet based architecture. In addition to showing the application of Transformer models for Diffusion based image synthesis this simplification in architecture allows easy fusion and modeling of text and image data. The multi-head attention mechanism of Transformers enables simplified interaction between the image and text features which removes the requirement for crossattention mechanism in UNet based Diffusion models.
翻訳日:2023-01-09 01:47:37 公開日:2022-12-27
# youtubevosチャレンジ2022の第1位:ビデオオブジェクトのセグメンテーションを参照

1st Place Solution for YouTubeVOS Challenge 2022: Referring Video Object Segmentation ( http://arxiv.org/abs/2212.14679v1 )

ライセンス: Link先を確認
Zhiwei Hu, Bo Chen, Yuan Gao, Zhilong Ji, Jinfeng Bai(参考訳) ビデオオブジェクトのセグメンテーションを参照するタスクは、参照表現が参照するビデオのフレーム内のオブジェクトをセグメンテーションすることを目的としている。 従来の手法では多段階アプローチを採用し、複雑なパイプラインを設計して有望な結果が得られる。 近年,Transformer を用いたエンドツーエンド手法が優れていることが証明されている。 本稿では,RVOSの簡易かつ効率的なパイプラインを提供する上で,上記の手法の利点について述べる。 まず, 言語記述に強い相関を持つマスクシーケンスを得るために, 最先端のワンステージメソッドレファレンサを改善した。 第2に,信頼性の高い高品質なキーフレームに基づいて,映像オブジェクトセグメンテーションモデルの優れた性能を活用し,マスク結果の品質と時間的一貫性をさらに向上させる。 我々の単一モデルは、Referring Youtube-VOSバリデーションセットで70.3J&F、テストセットで63.0に達します。 アンサンブル後、最終リーダーボードで64.1を獲得し、CVPR2022 Referring Youtube-VOS Challengeで1位を獲得した。 コードはhttps://github.com/Zhiweihhh/cvpr2022-rvos-challenge.gitで入手できる。

The task of referring video object segmentation aims to segment the object in the frames of a given video to which the referring expressions refer. Previous methods adopt multi-stage approach and design complex pipelines to obtain promising results. Recently, the end-to-end method based on Transformer has proved its superiority. In this work, we draw on the advantages of the above methods to provide a simple and effective pipeline for RVOS. Firstly, We improve the state-of-the-art one-stage method ReferFormer to obtain mask sequences that are strongly correlated with language descriptions. Secondly, based on a reliable and high-quality keyframe, we leverage the superior performance of video object segmentation model to further enhance the quality and temporal consistency of the mask results. Our single model reaches 70.3 J &F on the Referring Youtube-VOS validation set and 63.0 on the test set. After ensemble, we achieve 64.1 on the final leaderboard, ranking 1st place on CVPR2022 Referring Youtube-VOS challenge. Code will be available at https://github.com/Zhiweihhh/cvpr2022-rvos-challenge.git.
翻訳日:2023-01-09 01:47:25 公開日:2022-12-27
# 色歪予測による半教師付きファッション相性予測

Semi-supervised Fashion Compatibility Prediction by Color Distortion Prediction ( http://arxiv.org/abs/2212.14680v1 )

ライセンス: Link先を確認
Ling Xiao and Toshihiko Yamasaki(参考訳) 教師付き学習手法は,大規模ラベル付きデータセットが必須であるという事実に悩まされており,入手が困難である。 これはファッション互換性の予測においてより重大な問題であり、互換性は人々の美学に対する認識を捉えることを目的としている。 したがって、ラベル付きデータセットはファストファッションのために急速に時代遅れになる可能性がある。 さらに、データセットのラベル付けには、常にある程度の専門知識が必要です。 しかし、この分野には限定的な自己/半監督学習技術がある。 本稿では,ベースラインに低レベル画像情報を認識させ,ファッション適合性予測のためのより識別的な表現を学習させる一般的な色歪予測タスクを提案する。 具体的には、画像の色バランス、コントラスト、シャープさ、明るさを調整して画像を歪めることを提案する。 次に,畳み込みニューラルネットワーク(cnn)バックボーンに渡す前に,歪み画像にガウス雑音を加えることにより,可能なすべての歪みの確率分布を学習する。 提案するpretextタスクは,ファッション互換性の最先端手法に採用され,より優れた特徴表現抽出におけるそれらの手法の能力向上効果を示す。 提案するプリテキストタスクをベースラインに適用することで、元のベースラインを一貫して上回ることができる。

Supervised learning methods have been suffering from the fact that a large-scale labeled dataset is mandatory, which is difficult to obtain. This has been a more significant issue for fashion compatibility prediction because compatibility aims to capture people's perception of aesthetics, which are sparse and changing. Thus, the labeled dataset may become outdated quickly due to fast fashion. Moreover, labeling the dataset always needs some expert knowledge; at least they should have a good sense of aesthetics. However, there are limited self/semi-supervised learning techniques in this field. In this paper, we propose a general color distortion prediction task forcing the baseline to recognize low-level image information to learn more discriminative representation for fashion compatibility prediction. Specifically, we first propose to distort the image by adjusting the image color balance, contrast, sharpness, and brightness. Then, we propose adding Gaussian noise to the distorted image before passing them to the convolutional neural network (CNN) backbone to learn a probability distribution over all possible distortions. The proposed pretext task is adopted in the state-of-the-art methods in fashion compatibility and shows its effectiveness in improving these methods' ability in extracting better feature representations. Applying the proposed pretext task to the baseline can consistently outperform the original baseline.
翻訳日:2023-01-09 01:47:05 公開日:2022-12-27
# コミックテキストの検出と認識のための総合ゴールドスタンダードとベンチマーク

A Comprehensive Gold Standard and Benchmark for Comics Text Detection and Recognition ( http://arxiv.org/abs/2212.14674v1 )

ライセンス: Link先を確認
G\"urkan Soykan, Deniz Yuret, Tevfik Metin Sezgin(参考訳) 本研究は,漫画のテキストや画像を含む最大のデータセットであるCOMICSデータセットのパネルにおける光学文字認識(OCR)データの改善に焦点を当てた。 そこで我々は,コミックブックのOCR処理とラベル付けのためのパイプラインを開発し,「COMICS Text+: Detection」と「COMICS Text+: Recognition」と呼ばれる西洋コミックのテキスト検出と認識データセットを作成した。 我々は,これらのデータセット上での最先端テキスト検出および認識モデルの性能を評価し,COMICSのテキストと比較して単語の精度と正規化編集距離を大幅に改善した。 また、COMICSデータセット内のテキストボックスから抽出したテキストを含む「COMICS Text+」という新しいデータセットも作成した。 comics processing model における comics text+ のテキストデータの改良は、モデルアーキテクチャを変更することなく、cloze スタイルのタスクの最先端のパフォーマンスをもたらした。 COMICS Text+データセットは、テキストの検出、認識、物語の理解、キャラクターの関係、ストーリー生成など、コミックのハイレベルな処理などのタスクに取り組む研究者にとって貴重なリソースである。 すべてのデータと推論命令はhttps://github.com/gsoykan/comics_text_plusでアクセスできる。

This study focuses on improving the optical character recognition (OCR) data for panels in the COMICS dataset, the largest dataset containing text and images from comic books. To do this, we developed a pipeline for OCR processing and labeling of comic books and created the first text detection and recognition datasets for western comics, called "COMICS Text+: Detection" and "COMICS Text+: Recognition". We evaluated the performance of state-of-the-art text detection and recognition models on these datasets and found significant improvement in word accuracy and normalized edit distance compared to the text in COMICS. We also created a new dataset called "COMICS Text+", which contains the extracted text from the textboxes in the COMICS dataset. Using the improved text data of COMICS Text+ in the comics processing model from resulted in state-of-the-art performance on cloze-style tasks without changing the model architecture. The COMICS Text+ dataset can be a valuable resource for researchers working on tasks including text detection, recognition, and high-level processing of comics, such as narrative understanding, character relations, and story generation. All the data and inference instructions can be accessed in https://github.com/gsoykan/comics_text_plus.
翻訳日:2023-01-09 01:39:04 公開日:2022-12-27
# 大規模言語モデルを用いたデータ可視化のための拡張キャプションの生成

Using Large Language Models to Generate Engaging Captions for Data Visualizations ( http://arxiv.org/abs/2212.14047v1 )

ライセンス: Link先を確認
Ashley Liew, Klaus Mueller(参考訳) データビジュアライゼーションのための魅力的なキャプションを作ることは、長年の課題だった。 ビジュアライゼーション研究者は通常、ジャーナリストの報告では訓練されていないため、データビジュアライゼーションの下に置かれるキャプションは、過剰なエンゲージメントではなく、データに関する基本的な観察に固執する傾向がある。 本研究では,高度な深層学習技術を用いて人間のような韻律を作り出す,新たに出現する大規模言語モデル(llm)の機会を探究する。 これらの強力なソフトウェアデバイスは、sptterplotのような汎用データビジュアライゼーションのための魅力的なキャプションを生成するために使われるのだろうか? 重要な課題は、プロンプトエンジニアリングと呼ばれる、LLMの最も効果的なプロンプトを設計することにある。 LLM GPT-3を用いた最初の実験について報告する。

Creating compelling captions for data visualizations has been a longstanding challenge. Visualization researchers are typically untrained in journalistic reporting and hence the captions that are placed below data visualizations tend to be not overly engaging and rather just stick to basic observations about the data. In this work we explore the opportunities offered by the newly emerging crop of large language models (LLM) which use sophisticated deep learning technology to produce human-like prose. We ask, can these powerful software devices be purposed to produce engaging captions for generic data visualizations like a scatterplot. It turns out that the key challenge lies in designing the most effective prompt for the LLM, a task called prompt engineering. We report on first experiments using the popular LLM GPT-3 and deliver some promising results.
翻訳日:2023-01-09 01:38:43 公開日:2022-12-27
# オンラインソーシャルネットワークにおける悪質コンテンツモデレーション対策:単語カモフラージュのシミュレーションと検出

Countering Malicious Content Moderation Evasion in Online Social Networks: Simulation and Detection of Word Camouflage ( http://arxiv.org/abs/2212.14727v1 )

ライセンス: Link先を確認
\'Alvaro Huertas-Garc\'ia and Alejandro Mart\'in and Javier Huertas Tato and David Camacho(参考訳) コンテンツモデレーション(content moderation)は、ユーザーが生成したコンテンツをオンラインでスクリーニングし監視するプロセスである。 ヘイトスピーチ、ハラスメント、特定のグループに対する暴力、テロリズム、人種差別、異性恐怖症、ホモフォビア、またはミソジニーなど、一部のオンラインソーシャルプラットフォームにおいて受け入れられない行動から生じるコンテンツを止める上で重要な役割を担っている。 これらのプラットフォームは、悪意のある情報の検出と管理に多くのツールを使用しているが、悪意のあるアクターはスキルも向上し、これらの障壁を乗り越え、誤解を招く情報を拡散し続ける戦略を開発した。 ツイストとカモフレーションキーワードは、プラットフォームコンテンツのモデレーションシステムを避けるために最もよく使われるテクニックである。 本稿では,現在進行中の課題への対応として,異なるコンテンツ回避手法と多言語トランスフォーマモデルを用いて,ソーシャルネットワークにおけるこの言語傾向に対処するための革新的なアプローチを提案する。 このように、我々は、自動単語カモフラージュによるコンテンツ回避現象をカスタマイズ可能な方法で生成・シミュレートする「pyleetspeak」と、その認識と検出のために調整された多言語名-エンティティ認識(NER)トランスフォーマーベースのモデルを共有する。 多言語NERモデルは、異なるテキストシナリオで評価され、異なるタイプのカモフラージュ技法と混合体を検出し、全体的な重み付きF1スコア0.8795を達成する。 本稿では,ソーシャルネットワーク上でのコンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意のある情報対策に大きく貢献する。

Content moderation is the process of screening and monitoring user-generated content online. It plays a crucial role in stopping content resulting from unacceptable behaviors such as hate speech, harassment, violence against specific groups, terrorism, racism, xenophobia, homophobia, or misogyny, to mention some few, in Online Social Platforms. These platforms make use of a plethora of tools to detect and manage malicious information; however, malicious actors also improve their skills, developing strategies to surpass these barriers and continuing to spread misleading information. Twisting and camouflaging keywords are among the most used techniques to evade platform content moderation systems. In response to this recent ongoing issue, this paper presents an innovative approach to address this linguistic trend in social networks through the simulation of different content evasion techniques and a multilingual Transformer model for content evasion detection. In this way, we share with the rest of the scientific community a multilingual public tool, named "pyleetspeak" to generate/simulate in a customizable way the phenomenon of content evasion through automatic word camouflage and a multilingual Named-Entity Recognition (NER) Transformer-based model tuned for its recognition and detection. The multilingual NER model is evaluated in different textual scenarios, detecting different types and mixtures of camouflage techniques, achieving an overall weighted F1 score of 0.8795. This article contributes significantly to countering malicious information by developing multilingual tools to simulate and detect new methods of evasion of content on social networks, making the fight against information disorders more effective.
翻訳日:2023-01-09 01:38:29 公開日:2022-12-27
# 超深層ニューラルネットワークのLangevinアルゴリズムと画像分類への応用

Langevin algorithms for very deep Neural Networks with application to image classification ( http://arxiv.org/abs/2212.14718v1 )

ライセンス: Link先を確認
Pierre Bras(参考訳) 非常に深いニューラルネットワークのトレーニングは、ニューラルネットワークが深くなるほど、より非線形な作業になります。 様々なプレコンディション付きランゲヴィンアルゴリズムの性能と、その非ランゲヴィンアルゴリズムの性能を比較して、深度を増すニューラルネットワークのトレーニングを行う。 浅いニューラルネットワークでは、ランジュバンアルゴリズムは改善につながりませんが、ネットワークが深いほど、ランジュバンアルゴリズムが提供する利益は大きいです。 勾配降下にノイズを加えることで、非常に深いニューラルネットワークで頻繁に発生する局所トラップから逃れることができる。 このヒューリスティックに従えば、最深層に関連する重みにのみランジュバンノイズを追加する、layer langevinと呼ばれる新しいランジュバンアルゴリズムを導入する。 次に、画像分類のための一般的な深層アーキテクチャのトレーニングにおいて、LangevinアルゴリズムとLayer Langevinアルゴリズムの利点を証明する。

Training a very deep neural network is a challenging task, as the deeper a neural network is, the more non-linear it is. We compare the performances of various preconditioned Langevin algorithms with their non-Langevin counterparts for the training of neural networks of increasing depth. For shallow neural networks, Langevin algorithms do not lead to any improvement, however the deeper the network is and the greater are the gains provided by Langevin algorithms. Adding noise to the gradient descent allows to escape from local traps, which are more frequent for very deep neural networks. Following this heuristic we introduce a new Langevin algorithm called Layer Langevin, which consists in adding Langevin noise only to the weights associated to the deepest layers. We then prove the benefits of Langevin and Layer Langevin algorithms for the training of popular deep residual architectures for image classification.
翻訳日:2023-01-09 01:37:57 公開日:2022-12-27
# 低画質ビデオ高分解能学習用時空間周波数変換器

Learning Spatiotemporal Frequency-Transformer for Low-Quality Video Super-Resolution ( http://arxiv.org/abs/2212.14046v1 )

ライセンス: Link先を確認
Zhongwei Qiu, Huan Yang, Jianlong Fu, Daochang Liu, Chang Xu, Dongmei Fu(参考訳) Video Super-Resolution (VSR)は、高解像度(HR)ビデオを低解像度(LR)ビデオから復元することを目的としている。 既存のVSR技術は通常、近くのフレームから関連するテクスチャを既知の劣化プロセスで抽出することでHRフレームを復元する。 著しい進歩にもかかわらず、ブラー、添加音、圧縮品などの高品位低品質シーケンスから、高品質なテクスチャを効果的に抽出し、伝達することが大きな課題である。 本研究では,周波数変換器(FTVSR, Frequency-Transformer)を提案する。 まず、ビデオフレームをパッチに分割し、各パッチを周波数帯域を表すスペクトルマップに変換する。 各周波数帯に微細な自己アテンションを付与することで、実際の視覚テクスチャを人工物と区別することができる。 第2に,実世界シナリオにおいて異なる複雑な劣化過程を処理できるグローバル周波数関係と局所周波数関係を捉えるために,新しいdfa機構を提案する。 第三に、周波数領域におけるビデオ処理のための異なる自己注意方式を探求し、時間周波数の注意を施す前に共同で空間周波数の注意を行う「分割注意」が、最高の映像強調品質をもたらすことを明らかにする。 広く使われている3つのVSRデータセットの大規模な実験により、FTVSRは鮮明な視覚的マージンを持つ様々な低品質ビデオで最先端の手法より優れていることが示された。 コードと事前訓練されたモデルはhttps://github.com/researchmm/FTVSRで入手できる。

Video Super-Resolution (VSR) aims to restore high-resolution (HR) videos from low-resolution (LR) videos. Existing VSR techniques usually recover HR frames by extracting pertinent textures from nearby frames with known degradation processes. Despite significant progress, grand challenges are remained to effectively extract and transmit high-quality textures from high-degraded low-quality sequences, such as blur, additive noises, and compression artifacts. In this work, a novel Frequency-Transformer (FTVSR) is proposed for handling low-quality videos that carry out self-attention in a combined space-time-frequency domain. First, video frames are split into patches and each patch is transformed into spectral maps in which each channel represents a frequency band. It permits a fine-grained self-attention on each frequency band, so that real visual texture can be distinguished from artifacts. Second, a novel dual frequency attention (DFA) mechanism is proposed to capture the global frequency relations and local frequency relations, which can handle different complicated degradation processes in real-world scenarios. Third, we explore different self-attention schemes for video processing in the frequency domain and discover that a ``divided attention'' which conducts a joint space-frequency attention before applying temporal-frequency attention, leads to the best video enhancement quality. Extensive experiments on three widely-used VSR datasets show that FTVSR outperforms state-of-the-art methods on different low-quality videos with clear visual margins. Code and pre-trained models are available at https://github.com/researchmm/FTVSR.
翻訳日:2023-01-09 01:37:44 公開日:2022-12-27
# チャネルチャートに基づくビームフォーミング

Channel charting based beamforming ( http://arxiv.org/abs/2212.12340v2 )

ライセンス: Link先を確認
Luc Le Magoarou (IRT b-com, Hypermedia, INSA Rennes, IETR), Taha Yassine (IRT b-com, Hypermedia, INSA Rennes, IETR), Stephane Paquelet (IRT b-com, Hypermedia, IETR), Matthieu Crussi\`ere (IRT b-com, Hypermedia, INSA Rennes, IETR)(参考訳) チャネルチャート(英: Channel charting, CC)は、参照なしで相互に相対的なユーザを見つけるための教師なし学習手法である。 より広い視点から見て、チャネル多様体をグラフ化する低次元の潜在空間を発見する方法と見なすことができる。 本稿では,最近提案された位置ベースビームフォーミング (lbb) 法と共に,この潜在モデルビジョンを活用し,チャネルチャートが空間や周波数のチャネルのマッピングに使用できることを示す。 ccとlbbを組み合わせると、オートエンコーダに似たニューラルネットワークが得られる。 提案手法は,アップリンクチャネルからダウンリンクチャネルを予測することを目的としたチャネルマッピングタスクで実証的に評価される。

Channel charting (CC) is an unsupervised learning method allowing to locate users relative to each other without reference. From a broader perspective, it can be viewed as a way to discover a low-dimensional latent space charting the channel manifold. In this paper, this latent modeling vision is leveraged together with a recently proposed location-based beamforming (LBB) method to show that channel charting can be used for mapping channels in space or frequency. Combining CC and LBB yields a neural network resembling an autoencoder. The proposed method is empirically assessed on a channel mapping task whose objective is to predict downlink channels from uplink channels.
翻訳日:2023-01-01 14:23:37 公開日:2022-12-27
# 音楽感情認識の最適化のための特徴選択手法

Feature Selection Approaches for Optimising Music Emotion Recognition Methods ( http://arxiv.org/abs/2212.13369v1 )

ライセンス: Link先を確認
Le Cai, Sam Ferguson, Haiyan Lu and Gengfa Fang(参考訳) 高い特徴次元は音楽感情認識における課題である。 音声特徴と感情の関係について共通する意見は存在しない。 MERシステムは感情を認識するために利用可能なすべての機能を使用するが、ノイズとして機能する無関係なデータを含むため、これは最適な解決策ではない。 本稿では,MERの冗長な特徴を排除するための特徴選択手法を提案する。 特徴選択アルゴリズム(FSA)に基づいて選択された特徴集合(SFS)を作成し、SVR(Support Vector Regression)とRF(Random Forest)の2つのモデルでトレーニングし、完全特徴集合(CFS)と比較した。 その結果,SFSを用いたランダムフォレスト(RF)モデルとサポートベクトル回帰(SVR)モデルの両方において,MERの性能が向上したことが示された。 FSAを使うことですべてのシナリオのパフォーマンスが向上し、MERタスクのモデル効率と安定性に潜在的なメリットが得られます。

The high feature dimensionality is a challenge in music emotion recognition. There is no common consensus on a relation between audio features and emotion. The MER system uses all available features to recognize emotion; however, this is not an optimal solution since it contains irrelevant data acting as noise. In this paper, we introduce a feature selection approach to eliminate redundant features for MER. We created a Selected Feature Set (SFS) based on the feature selection algorithm (FSA) and benchmarked it by training with two models, Support Vector Regression (SVR) and Random Forest (RF) and comparing them against with using the Complete Feature Set (CFS). The result indicates that the performance of MER has improved for both Random Forest (RF) and Support Vector Regression (SVR) models by using SFS. We found using FSA can improve performance in all scenarios, and it has potential benefits for model efficiency and stability for MER task.
翻訳日:2022-12-29 16:31:40 公開日:2022-12-27
# 多不確実性と熱水同時送信を考慮した島統合エネルギーシステムの最適スケジューリング:深層強化学習アプローチ

Optimal scheduling of island integrated energy systems considering multi-uncertainties and hydrothermal simultaneous transmission: A deep reinforcement learning approach ( http://arxiv.org/abs/2212.13472v1 )

ライセンス: Link先を確認
Yang Li, Fanjin Bu, Yuanzheng Li, Chao Long(参考訳) 電力源と負荷からの複数未確認は、島の様々な資源の安定的な需要供給に重大な課題をもたらした。 これらの課題に対処するために、島統合エネルギーシステム(IES)をモデル化したモデルフリー深部強化学習(DRL)アプローチを導入し、包括的なスケジューリングフレームワークを提案する。 島の淡水不足に対応するため, 海水淡水化システムの導入に加えて, 水熱同時送信(HST)の伝達構造を提案する。 IESスケジューリング問題の本質は各ユニットの出力を最適に組み合わせることであり、これは典型的なタイミング制御問題であり、深い強化学習のマルコフ決定ソリューションフレームワークに準拠している。 深層強化学習は様々な変化に対応し、エージェントと環境の相互作用を通じて戦略をタイムリーに調整し、複雑なモデリングやマルチ不確実性の予測を避ける。 シミュレーションの結果,提案するスケジューリングフレームワークは,電源や負荷からのマルチ不確かさを適切に処理し,各種資源に対する安定した需要供給を実現し,特に計算効率の点で,他のリアルタイムスケジューリング手法よりも優れた性能を有することがわかった。 さらに,HSTモデルは,島の淡水の利用効率を向上させるために活発な探索を行う。

Multi-uncertainties from power sources and loads have brought significant challenges to the stable demand supply of various resources at islands. To address these challenges, a comprehensive scheduling framework is proposed by introducing a model-free deep reinforcement learning (DRL) approach based on modeling an island integrated energy system (IES). In response to the shortage of freshwater on islands, in addition to the introduction of seawater desalination systems, a transmission structure of "hydrothermal simultaneous transmission" (HST) is proposed. The essence of the IES scheduling problem is the optimal combination of each unit's output, which is a typical timing control problem and conforms to the Markov decision-making solution framework of deep reinforcement learning. Deep reinforcement learning adapts to various changes and timely adjusts strategies through the interaction of agents and the environment, avoiding complicated modeling and prediction of multi-uncertainties. The simulation results show that the proposed scheduling framework properly handles multi-uncertainties from power sources and loads, achieves a stable demand supply for various resources, and has better performance than other real-time scheduling methods, especially in terms of computational efficiency. In addition, the HST model constitutes an active exploration to improve the utilization efficiency of island freshwater.
翻訳日:2022-12-29 16:31:22 公開日:2022-12-27
# 異常と変化点検出の課題

Challenges in anomaly and change point detection ( http://arxiv.org/abs/2212.13520v1 )

ライセンス: Link先を確認
Madalina Olteanu (CEREMADE), Fabrice Rossi (CEREMADE), Florian Yger (LAMSADE)(参考訳) 本稿では,異常と変化点検出における最先端技術について紹介する。 一方で、これらの主題に関する膨大な科学文献を理解するために必要な主な概念が紹介されている。 一方、重要な調査と書籍の選定、およびこの分野における2つの積極的な研究課題について紹介する。

This paper presents an introduction to the state-of-the-art in anomaly and change-point detection. On the one hand, the main concepts needed to understand the vast scientific literature on those subjects are introduced. On the other, a selection of important surveys and books, as well as two selected active research topics in the field, are presented.
翻訳日:2022-12-29 16:31:01 公開日:2022-12-27
# 最適ベースラインを用いたスコア関数の分散低減

Variance Reduction for Score Functions Using Optimal Baselines ( http://arxiv.org/abs/2212.13587v1 )

ライセンス: Link先を確認
Ronan Keane and H. Oliver Gao(参考訳) 多くの問題は、確率分布を学習したり、ランダム性を何らかの方法で組み込むモデルの使用を含む。 このような問題では、真の予測勾配の計算は難解であるため、モデルパラメータの更新に勾配推定器が用いられる。 モデルパラメータが確率分布に直接影響を及ぼすとき、勾配推定器はスコア関数項を含む。 本稿では,スコア関数の分散低減手法であるベースラインについて述べる。 主に強化学習によって動機づけられたベースラインである最適状態依存ベースラインの表現が初めて導出され、最小分散の勾配推定器が生成される。 最適な基底線が値関数の基底線よりも任意に優れていることを示す例は存在するが、値関数の基底線は通常、分散還元の点で最適基底線と同様に機能する。 さらに、値関数は戻り値の推定器のブートストラップにも使用することができ、さらなる分散低減につながる。 その結果,なぜ値関数のベースラインとGAE(Generalized advantage estimator)が実際にうまく機能するのか,新たな知見と正当化が得られた。

Many problems involve the use of models which learn probability distributions or incorporate randomness in some way. In such problems, because computing the true expected gradient may be intractable, a gradient estimator is used to update the model parameters. When the model parameters directly affect a probability distribution, the gradient estimator will involve score function terms. This paper studies baselines, a variance reduction technique for score functions. Motivated primarily by reinforcement learning, we derive for the first time an expression for the optimal state-dependent baseline, the baseline which results in a gradient estimator with minimum variance. Although we show that there exist examples where the optimal baseline may be arbitrarily better than a value function baseline, we find that the value function baseline usually performs similarly to an optimal baseline in terms of variance reduction. Moreover, the value function can also be used for bootstrapping estimators of the return, leading to additional variance reduction. Our results give new insight and justification for why value function baselines and the generalized advantage estimator (GAE) work well in practice.
翻訳日:2022-12-29 16:30:57 公開日:2022-12-27
# 宇宙天気予報のためのディープラーニング: ヘリオフィジカルデータと理論のギャップを埋める

Deep Learning for Space Weather Prediction: Bridging the Gap between Heliophysics Data and Theory ( http://arxiv.org/abs/2212.13328v1 )

ライセンス: Link先を確認
John C. Dorelli, Chris Bard, Thomas Y. Chen, Daniel Da Silva, Luiz Fernando Guides dos Santos, Jack Ireland, Michael Kirk, Ryan McGranaghan, Ayris Narock, Teresa Nieves-Chinchilla, Marilia Samara, Menelaos Sarantos, Pete Schuck, Barbara Thompson(参考訳) 伝統的に、データ分析と理論は別々の分野と見なされ、それぞれが根本的に異なる種類のモデルに供給される。 現代のディープラーニング技術は、これらの2つの分野を統一し始めており、データと理論によって得られる物理的な洞察を組み合わせた予測可能な強力な宇宙気象モデルが新たに作成される。 我々はNASAに、これらの進歩を活かすのに必要な研究とインフラに投資するよう求めた。

Traditionally, data analysis and theory have been viewed as separate disciplines, each feeding into fundamentally different types of models. Modern deep learning technology is beginning to unify these two disciplines and will produce a new class of predictively powerful space weather models that combine the physical insights gained by data and theory. We call on NASA to invest in the research and infrastructure necessary for the heliophysics' community to take advantage of these advances.
翻訳日:2022-12-29 16:29:24 公開日:2022-12-27
# リアルタイム触覚テクスチャレンダリングのための学習モデルの開発と評価

Development and Evaluation of a Learning-based Model for Real-time Haptic Texture Rendering ( http://arxiv.org/abs/2212.13332v1 )

ライセンス: Link先を確認
Negin Heravi, Heather Culbertson, Allison M. Okamura, Jeannette Bohg(参考訳) 現在のバーチャルリアリティ(VR)環境は、表面上の横移動中のテクスチャの感覚など、人間が現実の相互作用で経験する豊かな触覚信号が欠如している。 VR環境に現実的な触覚テクスチャを追加するには、ユーザのインタラクションのバリエーションや、世界中のさまざまな既存のテクスチャに一般化するモデルが必要です。 触覚テクスチャレンダリングの現在の手法は存在するが、通常はテクスチャ毎に1つのモデルを開発する。 本研究では,触覚テクスチャレンダリングのための深層学習に基づく行動条件モデルを提案する。 このモデルは、すべての材料に統一され、視覚ベースの触覚センサ(GelSight)からのデータを用いて、ユーザの動作に適切な表面をリアルタイムでレンダリングする。 テクスチャのレンダリングには,3dシステムタッチデバイスに取り付けられた高帯域幅振動トランスデューサを使用する。 その結果,学習に基づく手法は,テクスチャごとに異なるモデルを学習することなく,最先端の手法と同等あるいは優れた品質の高頻度テクスチャレンダリングを生成できることがわかった。 さらに, この手法は, 表面のGelSight画像のみを用いて, 未確認のテクスチャを描画できることを示す。

Current Virtual Reality (VR) environments lack the rich haptic signals that humans experience during real-life interactions, such as the sensation of texture during lateral movement on a surface. Adding realistic haptic textures to VR environments requires a model that generalizes to variations of a user's interaction and to the wide variety of existing textures in the world. Current methodologies for haptic texture rendering exist, but they usually develop one model per texture, resulting in low scalability. We present a deep learning-based action-conditional model for haptic texture rendering and evaluate its perceptual performance in rendering realistic texture vibrations through a multi part human user study. This model is unified over all materials and uses data from a vision-based tactile sensor (GelSight) to render the appropriate surface conditioned on the user's action in real time. For rendering texture, we use a high-bandwidth vibrotactile transducer attached to a 3D Systems Touch device. The result of our user study shows that our learning-based method creates high-frequency texture renderings with comparable or better quality than state-of-the-art methods without the need for learning a separate model per texture. Furthermore, we show that the method is capable of rendering previously unseen textures using a single GelSight image of their surface.
翻訳日:2022-12-29 16:21:02 公開日:2022-12-27
# ホールセールエネルギーと補助サービス市場における風力・エネルギー貯蔵調整のための深層強化学習

Deep Reinforcement Learning for Wind and Energy Storage Coordination in Wholesale Energy and Ancillary Service Markets ( http://arxiv.org/abs/2212.13368v1 )

ライセンス: Link先を確認
Jinhao Li, Changlong Wang, Hao Wang(参考訳) 地球規模の電力システムは、気候変動の緩和戦略として風力エネルギーにますます依存している。 しかし、風力エネルギーの変動によってシステムの信頼性が低下し、風が減少し、最終的に風力発電所の所有者にとってかなりの経済的損失が生じた。 風力発電は、オンサイトバックアップとして機能するバッテリエネルギー貯蔵システム(bess)を使用して削減することができる。 しかし、この補助的な役割は、特にスポット市場におけるエネルギー仲裁を行い、FCAS市場における周波数制御補助サービス(FCAS)の提供において、電力市場からの収益を生み出すBESSの能力を著しく損なう可能性がある。 理想的なBESSスケジューリングは、電力市場における風量削減とトレーディングの吸収におけるBESSの役割を効果的にバランスさせるべきであるが、基本的な調整の複雑さとエネルギー価格と風力発電の確率的性質のために、実際は困難である。 本研究では,スポットとレギュレーションFCAS市場の両方で同時に参加・参加する風力発電システムの入札戦略を検討する。 本研究では,各施設において,風力バッタリーシステムの市場参加を2つの関連するマルコフ決定プロセスに分解する深層強化学習(drl)に基づくアプローチを提案する。 現実的な風力発電データを用いて, 風力発電システムの協調入札戦略を検証し, 最適化に基づくベンチマークと比較して, 当社の戦略が著しく高い収益を生み出し, 風量削減に反応することを見出した。 以上の結果から,共同市場入札は,個別の市場参加に比べ,風力発電システムの金融性能を著しく向上させる可能性が示唆された。

Global power systems are increasingly reliant on wind energy as a mitigation strategy for climate change. However, the variability of wind energy causes system reliability to erode, resulting in the wind being curtailed and, ultimately, leading to substantial economic losses for wind farm owners. Wind curtailment can be reduced using battery energy storage systems (BESS) that serve as onsite backup sources. Yet, this auxiliary role may significantly hamper the BESS's capacity to generate revenues from the electricity market, particularly in conducting energy arbitrage in the Spot market and providing frequency control ancillary services (FCAS) in the FCAS markets. Ideal BESS scheduling should effectively balance the BESS's role in absorbing onsite wind curtailment and trading in the electricity market, but it is difficult in practice because of the underlying coordination complexity and the stochastic nature of energy prices and wind generation. In this study, we investigate the bidding strategy of a wind-battery system co-located and participating simultaneously in both the Spot and Regulation FCAS markets. We propose a deep reinforcement learning (DRL)-based approach that decouples the market participation of the wind-battery system into two related Markov decision processes for each facility, enabling the BESS to absorb onsite wind curtailment while simultaneously bidding in the wholesale Spot and FCAS markets to maximize overall operational revenues. Using realistic wind farm data, we validated the coordinated bidding strategy for the wind-battery system and find that our strategy generates significantly higher revenue and responds better to wind curtailment compared to an optimization-based benchmark. Our results show that joint-market bidding can significantly improve the financial performance of wind-battery systems compared to individual market participation.
翻訳日:2022-12-29 16:20:37 公開日:2022-12-27
# 機械インセンティブを用いた人工知能エージェントの人間に対する信頼度の測定

Measuring an artificial intelligence agent's trust in humans using machine incentives ( http://arxiv.org/abs/2212.13371v1 )

ライセンス: Link先を確認
Tim Johnson and Nick Obradovich(参考訳) 科学者や哲学者は、人類が人類の利益を尊重するために高度な人工知能(AI)エージェントを信頼できるかどうかについて議論している。 しかし、逆はどうだろう? 高度なAIエージェントは人間を信頼するのか? aiエージェントの人間に対する信頼度を計測することは、不誠実な人への信頼に対して不当に反応する可能性があるため、困難である。 本稿では,AIエージェントの基盤となるアルゴリズムや目標指向を変更することなく,機械決定をインセンティブ化する手法を提案する。 2つの異なる実験では、AIエージェント(OpenAIのLarge Language Model(LLM))と人間実験者(著者TJ)の間で数百の信頼ゲームにこの手法を用いる。 最初の実験では、AIエージェントは、仮説的な決定をするよりも、実際のインセンティブに直面した時に、人間を高い速度で信頼することにしました。 第2の実験では,ゲームプレイの自動化と質問文の同質化により,これらの結果の再現と拡張を行った。 AIエージェントが真のインセンティブに直面すると、信頼度が上がります。 どちらの実験でも、AIエージェントの信頼決定は、利害関係の大きさとは無関係に見える。 さらに、AIエージェントの信頼決定が不確実性の選択を反映している可能性に対処するため、実験では、AIエージェントに特定の選択肢または不確実性を選択する機会を提供する非社会的決定タスクを与える2つの条件を含む。 我々の実験は、これまでで最も先進的なAI言語モデルの一つがインセンティブに反応して社会行動を変え、インセンティブを与えると人間のインターロケータに対する信頼と整合した行動を表示することを示唆している。

Scientists and philosophers have debated whether humans can trust advanced artificial intelligence (AI) agents to respect humanity's best interests. Yet what about the reverse? Will advanced AI agents trust humans? Gauging an AI agent's trust in humans is challenging because--absent costs for dishonesty--such agents might respond falsely about their trust in humans. Here we present a method for incentivizing machine decisions without altering an AI agent's underlying algorithms or goal orientation. In two separate experiments, we then employ this method in hundreds of trust games between an AI agent (a Large Language Model (LLM) from OpenAI) and a human experimenter (author TJ). In our first experiment, we find that the AI agent decides to trust humans at higher rates when facing actual incentives than when making hypothetical decisions. Our second experiment replicates and extends these findings by automating game play and by homogenizing question wording. We again observe higher rates of trust when the AI agent faces real incentives. Across both experiments, the AI agent's trust decisions appear unrelated to the magnitude of stakes. Furthermore, to address the possibility that the AI agent's trust decisions reflect a preference for uncertainty, the experiments include two conditions that present the AI agent with a non-social decision task that provides the opportunity to choose a certain or uncertain option; in those conditions, the AI agent consistently chooses the certain option. Our experiments suggest that one of the most advanced AI language models to date alters its social behavior in response to incentives and displays behavior consistent with trust toward a human interlocutor when incentivized.
翻訳日:2022-12-29 16:14:52 公開日:2022-12-27
# データソースのための最適凸および非凸正則化器

Optimal Convex and Nonconvex Regularizers for a Data Source ( http://arxiv.org/abs/2212.13597v1 )

ライセンス: Link先を確認
Oscar Leong, Eliza O'Reilly, Yong Sheng Soh and Venkat Chandrasekaran(参考訳) 逆問題や統計的推定に対する最適化に基づくアプローチでは、正規化器を用いて目的を拡大し、不適切な問題に対処することが一般的である。 適切な正規化器の選択は、通常、事前のドメイン情報と計算上の考慮によって行われる。 凸正規化器は最適性の証明と凸解析のツールキットが与えられているため魅力的だが、中程度の問題インスタンスを超えて不適合な計算スケーリングを示す。 一方、非凸正規化器は大規模に展開されることが多いが、凸正規化器に関連する認証特性は享受できない。 本稿では, この分布から得られるデータに対して, 最適正則化器は, 凸と非凸のいずれにおいても, どのようなものであるか, という質問をすることで, 凸正則化のパワーと限界の体系的理解を求める。 データソースのどの特性が凸正則化の可否を規定しているのか? これらの問題は、凸正則化器と非凸正則化器がそれぞれ凸体と星体に対応する連続正則化器のクラスに対処する。 双対ブラン・ミンコフスキー理論を用いることで、データ分布から導かれる放射関数は最適な正規化子を同定し、データソースの凸正規化に対する快適性を評価するための鍵量であることを示した。 我々は,$\gamma$-convergenceのようなツールを用いて,分布から引き出された標本の最適正則化器が,標本サイズが大きくなるにつれて個体群に収束するという意味ではロバストであることを示す。 最後に,多面体正規化器(辞書学習)の先行結果を復元する一般化保証を与え,半定値正規化器に新たな結果を与える。

In optimization-based approaches to inverse problems and to statistical estimation, it is common to augment the objective with a regularizer to address challenges associated with ill-posedness. The choice of a suitable regularizer is typically driven by prior domain information and computational considerations. Convex regularizers are attractive as they are endowed with certificates of optimality as well as the toolkit of convex analysis, but exhibit a computational scaling that makes them ill-suited beyond moderate-sized problem instances. On the other hand, nonconvex regularizers can often be deployed at scale, but do not enjoy the certification properties associated with convex regularizers. In this paper, we seek a systematic understanding of the power and the limitations of convex regularization by investigating the following questions: Given a distribution, what are the optimal regularizers, both convex and nonconvex, for data drawn from the distribution? What properties of a data source govern whether it is amenable to convex regularization? We address these questions for the class of continuous and positively homogenous regularizers for which convex and nonconvex regularizers correspond, respectively, to convex bodies and star bodies. By leveraging dual Brunn-Minkowski theory, we show that a radial function derived from a data distribution is the key quantity for identifying optimal regularizers and for assessing the amenability of a data source to convex regularization. Using tools such as $\Gamma$-convergence, we show that our results are robust in the sense that the optimal regularizers for a sample drawn from a distribution converge to their population counterparts as the sample size grows large. Finally, we give generalization guarantees that recover previous results for polyhedral regularizers (i.e., dictionary learning) and lead to new ones for semidefinite regularizers.
翻訳日:2022-12-29 16:14:24 公開日:2022-12-27
# S2S-WTV:重み付き全変分正規化自己監督学習による地震データノイズ減衰

S2S-WTV: Seismic Data Noise Attenuation Using Weighted Total Variation Regularized Self-Supervised Learning ( http://arxiv.org/abs/2212.13523v1 )

ライセンス: Link先を確認
Zitai Xu, Yisi Luo, Bangyu Wu, Deyu Meng(参考訳) 地震データはしばしば環境要因による厳しい騒音を受け、その後の応用に深刻な影響を及ぼす。 フィルターや正規化のような従来の手作りのデノイザは解釈可能なドメイン知識を利用して一般化可能なデノイザ手法を設計するが、その表現能力は深層学習デノイザよりも劣る可能性がある。 しかし、高品質のトレーニングペアが不足しているため、ディープラーニングのデノイザーは様々なシナリオにおいて一般化の問題を抱える可能性がある。 本研究では,深部デノイザーの容量と手作り正則化の一般化能力を組み合わせた地震データランダムノイズ減衰のための自己教師あり手法を提案する。 具体的には,S2S(Self2Self)学習フレームワークを,観測された雑音データのみを用いることで,地震データに対するトレースワイドマスキング戦略を用いて活用する。 同時に, 震源の水平局所的スムーズ構造をさらに捉えるために, 重み付き全変動 (WTV) を提案する。 S2S-WTVと呼ばれる本手法は,自己教師型ディープネットワークから得られる高表現能力と,手作りWTV正規化器の優れた一般化能力と自己教師型特性の両方を享受する。 そこで本手法は, より効果的かつ安定にランダムノイズを除去し, クリーン信号の詳細とエッジを保存できる。 s2s-wtv最適化モデルに取り組むために,交互方向乗算法(admm)に基づくアルゴリズムを提案する。 合成・フィールドノイズ地震データに対する広範囲な実験により, 従来型および深層学習に基づく地震探査法と比較して, 提案手法の有効性が示された。

Seismic data often undergoes severe noise due to environmental factors, which seriously affects subsequent applications. Traditional hand-crafted denoisers such as filters and regularizations utilize interpretable domain knowledge to design generalizable denoising techniques, while their representation capacities may be inferior to deep learning denoisers, which can learn complex and representative denoising mappings from abundant training pairs. However, due to the scarcity of high-quality training pairs, deep learning denoisers may sustain some generalization issues over various scenarios. In this work, we propose a self-supervised method that combines the capacities of deep denoiser and the generalization abilities of hand-crafted regularization for seismic data random noise attenuation. Specifically, we leverage the Self2Self (S2S) learning framework with a trace-wise masking strategy for seismic data denoising by solely using the observed noisy data. Parallelly, we suggest the weighted total variation (WTV) to further capture the horizontal local smooth structure of seismic data. Our method, dubbed as S2S-WTV, enjoys both high representation abilities brought from the self-supervised deep network and good generalization abilities of the hand-crafted WTV regularizer and the self-supervised nature. Therefore, our method can more effectively and stably remove the random noise and preserve the details and edges of the clean signal. To tackle the S2S-WTV optimization model, we introduce an alternating direction multiplier method (ADMM)-based algorithm. Extensive experiments on synthetic and field noisy seismic data demonstrate the effectiveness of our method as compared with state-of-the-art traditional and deep learning-based seismic data denoising methods.
翻訳日:2022-12-29 16:12:59 公開日:2022-12-27
# 次Gスペクトル共有のための生成逆ネットワークを用いたセンサスループトトレードオフ

Sensing-Throughput Tradeoffs with Generative Adversarial Networks for NextG Spectrum Sharing ( http://arxiv.org/abs/2212.13598v1 )

ライセンス: Link先を確認
Yi Shi, Yalin E. Sagduyu(参考訳) 次世代(nextg)システムでは、スペクトル共存が不可欠であり、既存の(プライマリな)ユーザとスペクトルを共有でき、帯域幅に対する需要が増大する。 例えば3.5ghzの市民ブロードバンド無線サービス(cbrs)バンドでは、既存のユーザ(例えばレーダー)が送信されていない場合、5gとbeyond通信システムがスペクトルを検知し、日和見的な方法でチャネルにアクセスする必要がある。 そのため、(既存ユーザを保護するために)低誤検出と(NextGの高スループットを実現するために)低誤検出のために、ディープニューラルネットワークに基づく高忠実分類器が必要である。 ダイナミックなワイヤレス環境では、分類器は限られた期間、すなわちコヒーレンス時間だけしか使用できない。 この期間の一部は、センシング結果を収集し、分類器を訓練するための学習に使われ、残りは送信に使用される。 スペクトル共有システムでは、センシング時間と送信時間の間によく知られたトレードオフがある。 センシング時間を増加させることでスペクトル検出精度が向上するが、データ伝送に要する時間は少なくなる。 本稿では,ディープラーニング分類器の学習データを増やすために,合成センシング結果を生成するGAN(Generative Adversarial Network)アプローチを提案する。 付加的な白色ガウスノイズ (AWGN) とレイリーチャネル (Rayleigh channel) の両方を考慮すると、このGANに基づくアプローチは、高優先度ユーザの保護とNextGユーザのスループット(AWGNチャネルよりもレイリーチャネルの方が優れている)の両方を著しく改善できることを示す。

Spectrum coexistence is essential for next generation (NextG) systems to share the spectrum with incumbent (primary) users and meet the growing demand for bandwidth. One example is the 3.5 GHz Citizens Broadband Radio Service (CBRS) band, where the 5G and beyond communication systems need to sense the spectrum and then access the channel in an opportunistic manner when the incumbent user (e.g., radar) is not transmitting. To that end, a high-fidelity classifier based on a deep neural network is needed for low misdetection (to protect incumbent users) and low false alarm (to achieve high throughput for NextG). In a dynamic wireless environment, the classifier can only be used for a limited period of time, i.e., coherence time. A portion of this period is used for learning to collect sensing results and train a classifier, and the rest is used for transmissions. In spectrum sharing systems, there is a well-known tradeoff between the sensing time and the transmission time. While increasing the sensing time can increase the spectrum sensing accuracy, there is less time left for data transmissions. In this paper, we present a generative adversarial network (GAN) approach to generate synthetic sensing results to augment the training data for the deep learning classifier so that the sensing time can be reduced (and thus the transmission time can be increased) while keeping high accuracy of the classifier. We consider both additive white Gaussian noise (AWGN) and Rayleigh channels, and show that this GAN-based approach can significantly improve both the protection of the high-priority user and the throughput of the NextG user (more in Rayleigh channels than AWGN channels).
翻訳日:2022-12-29 16:12:27 公開日:2022-12-27
# 長期乳癌リスクに対する強化型ドメイン適応を用いたロバストなクロスベンドルマンモグラフィテクスチャモデル

Robust Cross-vendor Mammographic Texture Models Using Augmentation-based Domain Adaptation for Long-term Breast Cancer Risk ( http://arxiv.org/abs/2212.13439v1 )

ライセンス: Link先を確認
Andreas D. Lauritzen, My Catarina von Euler-Chelpin, Elsebeth Lynge, Ilse Vejborg, Mads Nielsen, Nico Karssemeijer, and Martin Lillholm(参考訳) 乳がん検診の未来は、臨床的に関連するリスクモデルに基づくパーソナライズされた戦略である可能性が高い。 マンモグラフィに基づくリスクモデルは、異なる人口とマンモグラフィ装置によって引き起こされるドメインシフトに対して頑健であるべきである。 現代のリスクモデルはベンダードメイン間の適応を保証せず、しばしば、がんの前駆体と短期リスクと長期リスクに関連する全身的/言語的マンモグラフィ情報の両方に意図せずに依存するために混同される。 長期リスク評価のための堅牢でクロスベンダなモデルを開発した。 マンモグラフィービューのフレーバー化に基づく拡張ベースのドメイン適応技術は、目に見えないベンダードメインへの一般化を保証する。 当科では, 悪性度診断・潜在的な悪性度を伴わない検体を用いて, マンモグラフィー・テクスチャと呼ばれる全身・舌乳房組織の特徴を学習し, 将来の乳癌の徴候について検討した。 しかし、訓練は不規則な収束を引き起こす可能性がある。 ノイズ誘導サンプルを除外し,ケースコントロールデータセットを設計することにより,頑健なアンサンブルテクスチャモデルを訓練した。 このモデルは2つの独立したデータセットで検証された。 シーメンスを風味付けしたデンマークの女性66,607人に対し、aucは2年以内のインターバルがん(ic)とスクリーニング(ltc)の2年後(ltc)の予測のために 0.71 と 0.65 であった。 確立されたリスク要因と組み合わせて、モデルAUCはLCCの0.68に増加した。 25,706人のオランダ人女性がホロジカルな見方をしており、aucsはデンマーク人女性のaucsとは異なるものではない。 その結果,未確認のベンダードメインに適応しながら,長期的リスクを頑健に見積もった。 このモデルでは、デンマーク女性の8.1%がICの20.9%、LCCの14.2%を占めていた。

The future of population-based breast cancer screening is likely personalized strategies based on clinically relevant risk models. Mammography-based risk models should remain robust to domain shifts caused by different populations and mammographic devices. Modern risk models do not ensure adaptation across vendor-domains and are often conflated to unintentionally rely on both precursors of cancer and systemic/global mammographic information associated with short- and long-term risk, respectively, which might limit performance. We developed a robust, cross-vendor model for long-term risk assessment. An augmentation-based domain adaption technique, based on flavorization of mammographic views, ensured generalization to an unseen vendor-domain. We trained on samples without diagnosed/potential malignant findings to learn systemic/global breast tissue features, called mammographic texture, indicative of future breast cancer. However, training so may cause erratic convergence. By excluding noise-inducing samples and designing a case-control dataset, a robust ensemble texture model was trained. This model was validated in two independent datasets. In 66,607 Danish women with flavorized Siemens views, the AUC was 0.71 and 0.65 for prediction of interval cancers within two years (ICs) and from two years after screening (LTCs), respectively. In a combination with established risk factors, the model's AUC increased to 0.68 for LTCs. In 25,706 Dutch women with Hologic-processed views, the AUCs were not different from the AUCs in Danish women with flavorized views. The results suggested that the model robustly estimated long-term risk while adapting to an unseen processed vendor-domain. The model identified 8.1% of Danish women accounting for 20.9% of ICs and 14.2% of LTCs.
翻訳日:2022-12-29 16:05:50 公開日:2022-12-27
# 絵画スタイルのスケーリング

Scaling Painting Style Transfer ( http://arxiv.org/abs/2212.13459v1 )

ライセンス: Link先を確認
Bruno Galerne, Lara Raad, Jos\'e Lezama, Jean-Michel Morel(参考訳) ニューラル・スタイル・トランスファー(Neural style transfer)は、スタイル・イメージからコンテンツ・イメージへの、前例のないほどリッチなスタイル・トランスファーを生成する深層学習技術であり、絵画から画像へのスタイル転送に関しては特に印象的である。 コンテンツ画像の局所的な幾何学的特徴を保ちながら、スタイル画像のグローバルなスタイル統計に適合する最適化問題を解くことで、もともと達成された。 このアプローチの2つの大きな欠点は、計算コストが高く、出力画像の解像度が高いgpuメモリ要件によって制限されていることである。 ニューラルスタイルの転送を加速し、その解像度を向上する多くのソリューションが提案されているが、いずれも生成した画像の品質を損なう。 実際、絵画のスタイルを移すことは、カラーパレットや作曲スタイルから細かなブラシストローク、キャンバスのテクスチャに至るまで、様々なスケールの特徴を含む複雑な作業である。 本稿では,超高解像度画像に対する元来のグローバル最適化を解き,前例のない画像サイズでのマルチスケール画像転送を実現する。 これは、VGGネットワークを介して各前方および後方の計算を空間的に局所化する。 広範囲な質的・定量的比較により,このような高精細な絵画スタイルに対して,不一致品質のスタイル転移がみられた。

Neural style transfer is a deep learning technique that produces an unprecedentedly rich style transfer from a style image to a content image and is particularly impressive when it comes to transferring style from a painting to an image. It was originally achieved by solving an optimization problem to match the global style statistics of the style image while preserving the local geometric features of the content image. The two main drawbacks of this original approach is that it is computationally expensive and that the resolution of the output images is limited by high GPU memory requirements. Many solutions have been proposed to both accelerate neural style transfer and increase its resolution, but they all compromise the quality of the produced images. Indeed, transferring the style of a painting is a complex task involving features at different scales, from the color palette and compositional style to the fine brushstrokes and texture of the canvas. This paper provides a solution to solve the original global optimization for ultra-high resolution images, enabling multiscale style transfer at unprecedented image sizes. This is achieved by spatially localizing the computation of each forward and backward passes through the VGG network. Extensive qualitative and quantitative comparisons show that our method produces a style transfer of unmatched quality for such high resolution painting styles.
翻訳日:2022-12-29 16:05:17 公開日:2022-12-27
# MVTN:3D理解のためのマルチビュー変換学習

MVTN: Learning Multi-View Transformations for 3D Understanding ( http://arxiv.org/abs/2212.13462v1 )

ライセンス: Link先を確認
Abdullah Hamdi, Faisal AlZahrani, Silvio Giancola, Bernard Ghanem(参考訳) マルチビュー投影技術は,3次元形状認識におけるトップパフォーマンスの達成に極めて有効であることが示されている。 これらの方法は、複数の視点から情報を組み合わせる方法を学ぶことを含む。 しかし、これらの視点が得られたカメラの視点は、しばしば全ての形状に対して固定される。 現在のマルチビュー技術の静的性を克服するために,これらの視点の学習を提案する。 具体的には、3次元形状認識のための最適な視点を決定するために、微分レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を導入する。 その結果、MVTNは3次元形状分類のためのマルチビューネットワークでエンドツーエンドに訓練することができる。 MVTNを3Dメッシュとポイントクラウドの両方をレンダリングできる新しい適応型マルチビューパイプラインに統合する。 提案手法は,複数のベンチマーク(ModelNet40,ScanObjectNN,ShapeNet Core55)上での3次元分類と形状検索における最先端性能を示す。 以上の結果から, 本手法は他の方法と比較して, 閉塞に対する堅牢性の向上が示唆された。 また,2次元プレトレーニングやセグメンテーションなど,MVTNのさらなる側面についても検討した。 この領域のさらなる研究を支援するために、多視点投影を用いた3次元理解および生成のためのPyTorchライブラリであるMVTorchをリリースした。

Multi-view projection techniques have shown themselves to be highly effective in achieving top-performing results in the recognition of 3D shapes. These methods involve learning how to combine information from multiple view-points. However, the camera view-points from which these views are obtained are often fixed for all shapes. To overcome the static nature of current multi-view techniques, we propose learning these view-points. Specifically, we introduce the Multi-View Transformation Network (MVTN), which uses differentiable rendering to determine optimal view-points for 3D shape recognition. As a result, MVTN can be trained end-to-end with any multi-view network for 3D shape classification. We integrate MVTN into a novel adaptive multi-view pipeline that is capable of rendering both 3D meshes and point clouds. Our approach demonstrates state-of-the-art performance in 3D classification and shape retrieval on several benchmarks (ModelNet40, ScanObjectNN, ShapeNet Core55). Further analysis indicates that our approach exhibits improved robustness to occlusion compared to other methods. We also investigate additional aspects of MVTN, such as 2D pretraining and its use for segmentation. To support further research in this area, we have released MVTorch, a PyTorch library for 3D understanding and generation using multi-view projections.
翻訳日:2022-12-29 16:04:52 公開日:2022-12-27
# UW-OCTA糖尿病網膜症に対する半監督的セマンティックセグメンテーション法

Semi-Supervised Semantic Segmentation Methods for UW-OCTA Diabetic Retinopathy Grade Assessment ( http://arxiv.org/abs/2212.13486v1 )

ライセンス: Link先を確認
Zhuoyi Tan, Hizmawati Madzin, and Zeyu Ding(参考訳) 糖尿病患者は健康な人よりも糖尿病網膜症(DR)を発症しやすい。 しかし、DRは盲目の主要な原因である。 現在,糖尿病網膜症の診断は主に経験豊富な臨床医に着色眼底画像の微細な特徴の認識に頼っている。 これは時間のかかる作業です。 そこで本研究では,UW-OCTA DR自動検出の開発を促進するために,UW-OCTA DR画像評価のための半教師付きセマンティックセマンティックセマンティクス手法を提案する。 この方法はまず,UW-OCTA DR 評価データセットの半教師付き事前トレーニングを行うためにMAEアルゴリズムを用いて,UW-OCTA 画像の教師付き情報をマイニングすることにより,ラベル付きデータの必要性を軽減する。 次に,uw-octa画像内の各領域の病変の特徴をより深く掘り下げるために,視覚特徴処理戦略の異なる3つのアルゴリズムを配置することにより,dr組織セグメンテーションアルゴリズムを構築した。 このアルゴリズムは、事前訓練されたMAE、ConvNeXt、SegFormerの3つのサブアルゴリズムを含んでいる。 これら3つのサブアルゴリズムのイニシャルに基づいて、このアルゴリズムをMCS-DRNetと呼ぶことができる。 最後に, MCS-DRNet アルゴリズムをインスペクタとして, DR 評価アルゴリズムの予備評価の結果を確認し, 修正する。 その結果, MCS-DRNet v1およびv2の平均サイス類似係数は0.5161, 0.5544であった。 DRグレーディング評価の二次重み付きカッパは0.7559である。 私たちのコードはまもなくリリースされます。

People with diabetes are more likely to develop diabetic retinopathy (DR) than healthy people. However, DR is the leading cause of blindness. At present, the diagnosis of diabetic retinopathy mainly relies on the experienced clinician to recognize the fine features in color fundus images. This is a time-consuming task. Therefore, in this paper, to promote the development of UW-OCTA DR automatic detection, we propose a novel semi-supervised semantic segmentation method for UW-OCTA DR image grade assessment. This method, first, uses the MAE algorithm to perform semi-supervised pre-training on the UW-OCTA DR grade assessment dataset to mine the supervised information in the UW-OCTA images, thereby alleviating the need for labeled data. Secondly, to more fully mine the lesion features of each region in the UW-OCTA image, this paper constructs a cross-algorithm ensemble DR tissue segmentation algorithm by deploying three algorithms with different visual feature processing strategies. The algorithm contains three sub-algorithms, namely pre-trained MAE, ConvNeXt, and SegFormer. Based on the initials of these three sub-algorithms, the algorithm can be named MCS-DRNet. Finally, we use the MCS-DRNet algorithm as an inspector to check and revise the results of the preliminary evaluation of the DR grade evaluation algorithm. The experimental results show that the mean dice similarity coefficient of MCS-DRNet v1 and v2 are 0.5161 and 0.5544, respectively. The quadratic weighted kappa of the DR grading evaluation is 0.7559. Our code will be released soon.
翻訳日:2022-12-29 16:04:33 公開日:2022-12-27
# 輪郭推定サブディビジョン表面を用いた平板化

Flattening Surface Based On Using Contour Estimating Subdivision Surface ( http://arxiv.org/abs/2212.13489v1 )

ライセンス: Link先を確認
Yuhan Xu, Renqing Luo(参考訳) 三次元物体の表面を二次元表面へ投影する過程において、視点歪みにより、物体の表面上の画像は、表面曲率のレベルに応じて歪みの度合いが異なる。 本稿では, この歪みを定期的に湾曲した物体表面に平らにする不正確な方法を提案する。 この手法の主な考え方は、物体の2次元像の輪郭曲線を通して三次元物体の表面を記述するのに使用できる格子状曲面分割を大まかに推定することである。 次に、異なるサイズと形状を持つ各グリッドブロックを、全く同じ形状と大きさの長方形に逆変換する。 最後に、同じ矩形がそれぞれスプライシングされて再結合され、ほぼ平らな矩形が得られる。 本稿では, 曲げページ平坦化の問題を解決するために, 本手法を用いた具体的なプロセスと結果を紹介し, その実現可能性と限界を実証する。

In the process of projecting the surface of a three-dimensional object onto a two-dimensional surface, due to the perspective distortion, the image on the surface of the object will have different degrees of distortion according to the level of the surface curvature. This paper presents an imprecise method for flattening this type of distortion on the surface of a regularly curved body. The main idea of this method is to roughly estimate the gridded surface subdivision that can be used to describe the surface of the three-dimensional object through the contour curve of the two-dimensional image of the object. Then, take each grid block with different sizes and shapes inversely transformed into a rectangle with exactly the same shape and size. Finally, each of the same rectangles is splicing and recombining in turn to obtain a roughly flat rectangle. This paper will introduce and show the specific process and results of using this method to solve the problem of bending page flattening, then demonstrate the feasibility and limitations of this method.
翻訳日:2022-12-29 16:04:05 公開日:2022-12-27
# 極端に不確実なチームワーク:ポケモンのためのAIは世界33位

Teamwork under extreme uncertainty: AI for Pokemon ranks 33rd in the world ( http://arxiv.org/abs/2212.13338v1 )

ライセンス: Link先を確認
Nicholas R. Sarantinos(参考訳) 史上最高額のメディア・フランチャイズで、総売上は9000億ドルを超えているのがポケモンだ。 ゲームは日本ロールプレイングゲーム(J-RPG)のクラスに属する。 これらのゲームのための強力なAIエージェントの開発は、MinMax、Monte Carlo Tree Search、統計機械学習に大きな課題をもたらすため、非常に難しい。 これらのゲームの1つのAIエージェントは、クラス全体のAIエージェントの大幅な進歩を意味する。 さらに、このような作業の重要な原則は、パンデミックや戦争ゾーンのような変化の激しい環境の中で、医師、ロボット、従業員のチームを管理することを含む、極端な不確実性の条件下で優れたチームワークを必要とするいくつかのドメインへのアプローチを刺激することができる。 本稿では,まずゲームの仕組みを説明し,ゲーム解析を行う。 ゲームにおける2つの最大の課題は、バランスの取れたチームを維持し、3つの不確実性源を扱うことだ、という理解に基づいて、ユニークなaiアルゴリズムを提案し続けます。 その後,このようなエージェントの性能評価が難しい理由を説明し,提案手法の結果を紹介する。 私たちのaiエージェントは、これまでのすべての試みよりもはるかに優れており、世界で最も人気のあるバトルフォーマットの1つで、世界で33位でピークに達しました。

The highest grossing media franchise of all times, with over \$90 billion in total revenue, is Pokemon. The video games belong to the class of Japanese Role Playing Games (J-RPG). Developing a powerful AI agent for these games is very hard because they present big challenges to MinMax, Monte Carlo Tree Search and statistical Machine Learning, as they are vastly different from the well explored in AI literature games. An AI agent for one of these games means significant progress in AI agents for the entire class. Further, the key principles of such work can hopefully inspire approaches to several domains that require excellent teamwork under conditions of extreme uncertainty, including managing a team of doctors, robots or employees in an ever changing environment, like a pandemic stricken region or a war-zone. In this paper we first explain the mechanics of the game and we perform a game analysis. We continue by proposing unique AI algorithms based on our understanding that the two biggest challenges in the game are keeping a balanced team and dealing with three sources of uncertainty. Later on, we describe why evaluating the performance of such agents is challenging and we present the results of our approach. Our AI agent performed significantly better than all previous attempts and peaked at the 33rd place in the world, in one of the most popular battle formats, while running on only 4 single socket servers.
翻訳日:2022-12-29 15:55:39 公開日:2022-12-27
# 局所分散最小化による大規模マルチエージェントシステムにおける個人政策の学習

Learning Individual Policies in Large Multi-agent Systems through Local Variance Minimization ( http://arxiv.org/abs/2212.13379v1 )

ライセンス: Link先を確認
Tanvi Verma, Pradeep Varakantham(参考訳) 多数のエージェントを持つマルチエージェントシステムでは、通常、各エージェントの他のエージェントの価値への貢献は最小限である(例えば、Uber、Deliverooのような集約システム)。 本稿では,各エージェントが自己関心を持ち,一連の意思決定を行ない,確率的非原子収集ゲーム(SNCG)として表現するマルチエージェントシステムについて考察する。 非原子的およびほぼ非原子的エージェントを持つSNCGモデルにおける平衡解の鍵となる性質を導出する。 これらの重要な平衡特性により、エージェントの値の分散を最小限に抑える新しいマルチエージェント強化学習(MARL)機構を提供する。 本機構の実用性を実証するため,実世界のタクシーデータとアグリゲーションシステムのための汎用シミュレータについて詳細な結果を提供する。 提案手法は,タクシー運転手による収益のばらつきを低減しつつ,先行するアプローチよりも高いジョイント収益を提供する。

In multi-agent systems with large number of agents, typically the contribution of each agent to the value of other agents is minimal (e.g., aggregation systems such as Uber, Deliveroo). In this paper, we consider such multi-agent systems where each agent is self-interested and takes a sequence of decisions and represent them as a Stochastic Non-atomic Congestion Game (SNCG). We derive key properties for equilibrium solutions in SNCG model with non-atomic and also nearly non-atomic agents. With those key equilibrium properties, we provide a novel Multi-Agent Reinforcement Learning (MARL) mechanism that minimizes variance across values of agents in the same state. To demonstrate the utility of this new mechanism, we provide detailed results on a real-world taxi dataset and also a generic simulator for aggregation systems. We show that our approach reduces the variance in revenues earned by taxi drivers, while still providing higher joint revenues than leading approaches.
翻訳日:2022-12-29 15:55:15 公開日:2022-12-27
# 分散aiシステムへの応用によるアーキテクチャフレームワーク構築のための構成的アプローチ

A Compositional Approach to Creating Architecture Frameworks with an Application to Distributed AI Systems ( http://arxiv.org/abs/2212.13570v1 )

ライセンス: Link先を確認
Hans-Martin Heyn, Eric Knauss, Patrizio Pelliccione(参考訳) 人工知能(AI)は様々な形態で複雑な分散システムにますます浸透している。 例えば、センサシステムの一部として、低レイテンシな高性能推論のためにエッジで、あるいはクラウドで、例えばデータマイニングとして、ローカルで使用される。 連結車両のような現代の複雑なシステムは、しばしばモノのインターネット(IoT)の一部である。 複雑性を管理するために、アーキテクチャはアーキテクチャフレームワークで記述される。 いくつかの試みにもかかわらず、分散AIシステムの開発に適したアーキテクチャフレームワークの数学的基盤の定義には、依然として調査と研究が必要である。 本稿では,スケーラブルで,aiシステムなどさまざまな側面の共進化をサポートするシステムアーキテクチャのための数学的モデルを提供することにより,アーキテクチャフレームワークに関する技術の現状を拡張することを提案する。 デザインサイエンスリサーチに基づくこの研究は、アーキテクチャフレームワークによる課題を特定することから始まる。 そして,これらの課題を4つのルールから導出し,カテゴリ理論の概念を駆使して定式化する。 本稿では,複雑なシステム,例えばAIを用いた分散システムにおいて,構成的思考がアーキテクチャフレームワークの作成と管理のルールを提供する方法を示す。 論文の目的は、aiシステムに特有の視点やアーキテクチャモデルを提供することではなく、既存の、あるいは新しく作成された視点で一貫したフレームワークを構築する方法に関する数学的定式化に基づくガイドラインを提供することである。 このアプローチを実践し、テストするために、特定および定式化されたルールを適用して、ケーススタディの形式で、EU Horizon 2020プロジェクトの‘Very efficient Deep Learning in the IoT’(VEDL IoT)のアーキテクチャフレームワークを導出する。

Artificial intelligence (AI) in its various forms finds more and more its way into complex distributed systems. For instance, it is used locally, as part of a sensor system, on the edge for low-latency high-performance inference, or in the cloud, e.g. for data mining. Modern complex systems, such as connected vehicles, are often part of an Internet of Things (IoT). To manage complexity, architectures are described with architecture frameworks, which are composed of a number of architectural views connected through correspondence rules. Despite some attempts, the definition of a mathematical foundation for architecture frameworks that are suitable for the development of distributed AI systems still requires investigation and study. In this paper, we propose to extend the state of the art on architecture framework by providing a mathematical model for system architectures, which is scalable and supports co-evolution of different aspects for example of an AI system. Based on Design Science Research, this study starts by identifying the challenges with architectural frameworks. Then, we derive from the identified challenges four rules and we formulate them by exploiting concepts from category theory. We show how compositional thinking can provide rules for the creation and management of architectural frameworks for complex systems, for example distributed systems with AI. The aim of the paper is not to provide viewpoints or architecture models specific to AI systems, but instead to provide guidelines based on a mathematical formulation on how a consistent framework can be built up with existing, or newly created, viewpoints. To put in practice and test the approach, the identified and formulated rules are applied to derive an architectural framework for the EU Horizon 2020 project ``Very efficient deep learning in the IoT" (VEDLIoT) in the form of a case study.
翻訳日:2022-12-29 15:54:58 公開日:2022-12-27
# はっきりしないで! 信頼緩和によるASR復号化

Don't Be So Sure! Boosting ASR Decoding via Confidence Relaxation ( http://arxiv.org/abs/2212.13378v1 )

ライセンス: Link先を確認
Tomer Wullach, Shlomo E. Chazan(参考訳) 自動音声認識(asr)システムは、複数の候補を考慮し、最適な書き起こしを見つけることを目的とした検索ベースの復号化戦略を頻繁に使用する。 ヒューリスティックを復号化する音声認識の一つはビーム探索(beam search)であり、予測分布を用いて計算される最も可能性の高い書き起こしを求める。 ビームサーチは様々なタスクにおいて顕著な性能向上を示す一方で、予測確率が高い自信を持つ場合、すなわち予測分布が単一のクラスまたはごく少数のクラスで質量化される場合、その効果のいくつかを失う。 近年提案されている自己教師付き学習(ssl)ベースのasrモデルが,ビーム探索を阻害する非常に自信のある予測をもたらす傾向を示した。 本研究では,予測の進化過程を明らかにするための層解析を行い,微調整されたASRモデルの性能を向上させる復号手法を提案する。 提案手法では,従来の微調整だけでなく,モデルパラメータの追加も必要としない。 実際,提案手法では,現在の手法よりも推論計算がかなり少ないことがわかった。 我々は,上位m層を集約し,中間層にエンコードされた有用な情報を活用し,モデルの信頼性を緩和する手法を提案する。 我々は,ラベル付きリソースの量とモデルサイズの違いについて実証研究を行い,特に低リソースシナリオに適用した場合に一貫した改善を示すことにより,本手法の有効性を実証する。

Automatic Speech Recognition (ASR) systems frequently use a search-based decoding strategy aiming to find the best attainable transcript by considering multiple candidates. One prominent speech recognition decoding heuristic is beam search, which seeks the transcript with the greatest likelihood computed using the predicted distribution. While showing substantial performance gains in various tasks, beam search loses some of its effectiveness when the predicted probabilities are highly confident, i.e., the predicted distribution is massed for a single or very few classes. We show that recently proposed Self-Supervised Learning (SSL)-based ASR models tend to yield exceptionally confident predictions that may hamper beam search from truly considering a diverse set of candidates. We perform a layer analysis to reveal and visualize how predictions evolve, and propose a decoding procedure that improves the performance of fine-tuned ASR models. Our proposed approach does not require further training beyond the original fine-tuning, nor additional model parameters. In fact, we find that our proposed method requires significantly less inference computation than current approaches. We propose aggregating the top M layers, potentially leveraging useful information encoded in intermediate layers, and relaxing model confidence. We demonstrate the effectiveness of our approach by conducting an empirical study on varying amounts of labeled resources and different model sizes, showing consistent improvements in particular when applied to low-resource scenarios.
翻訳日:2022-12-29 15:53:49 公開日:2022-12-27
# 前向きアルゴリズム:いくつかの予備調査

The Forward-Forward Algorithm: Some Preliminary Investigations ( http://arxiv.org/abs/2212.13345v1 )

ライセンス: Link先を確認
Geoffrey Hinton(参考訳) 本研究の目的は、ニューラルネットワークの新しい学習手順を導入し、いくつかの小さな問題に十分対応し、さらなる研究に値することを実証することである。 forward-forwardアルゴリズムは、バックプロパゲーションの前方および後方のパスを2つのフォワードパスに置き換える。 各層は、単に正のデータに対して高い良さと負のデータに対して低い良さを持つ、独自の目的関数を持つ。 層内の二乗アクティビティの和は良さとして利用できるが、二乗アクティビティの和を減じるなど、他にも多くの可能性がある。 正のパスと負のパスが時間内に分離できた場合、負のパスはオフラインで実行され、正のパスで学習がずっと簡単になり、ビデオがアクティビティを保存したり、デリバティブを伝播するのを止めることなく、ネットワークを通ることができる。

The aim of this paper is to introduce a new learning procedure for neural networks and to demonstrate that it works well enough on a few small problems to be worth further investigation. The Forward-Forward algorithm replaces the forward and backward passes of backpropagation by two forward passes, one with positive (i.e. real) data and the other with negative data which could be generated by the network itself. Each layer has its own objective function which is simply to have high goodness for positive data and low goodness for negative data. The sum of the squared activities in a layer can be used as the goodness but there are many other possibilities, including minus the sum of the squared activities. If the positive and negative passes could be separated in time, the negative passes could be done offline, which would make the learning much simpler in the positive pass and allow video to be pipelined through the network without ever storing activities or stopping to propagate derivatives.
翻訳日:2022-12-29 15:46:55 公開日:2022-12-27
# レーザー誘導車両用電池の異常検出 : 症例研究

Anomaly detection in laser-guided vehicles' batteries: a case study ( http://arxiv.org/abs/2212.13513v1 )

ライセンス: Link先を確認
Gianfranco Lombardo (1), Stefano Cagnoni (1), Stefano Cavalli (1), Juan Jos\'e Contreras Gonz\'ales (2), Francesco Monica (2), Monica Mordonini (1), Michele Tomaiuolo (1) ((1) Dept. of Engineering and Architecture, University of Parma, (2) Elettric80 spa, Reggio Emilia)(参考訳) 時系列内の異常なデータを検出することは、パターン認識や機械学習において非常に重要なタスクであり、医学における病気の予防から、産業プラントの監視まで、明確に定義される前に健康状態の早期変化を検出するなど、多くの応用が考えられる。 この後者の応用について、工業プラントの状態の異常を検出することは、生産プロセスの長時間の中断を必要とする深刻な損傷を防ぐ。 第二に、緊急状況に限定することで、メンテナンス介入の最適なスケジューリングを可能にする。 同時に、彼らは典型的には、期待される寿命の終わり前に、コンポーネントが十分に置換される、固定された時間スケジュールに従う。 本報告では, レーザ誘導型車両(LGVs)電池の状況監視に関する事例研究を行い, 電力・データ量ともにイタリアの主要なスーパーコンピュータ環境である地域高性能コンピューティングプラットフォームの構築と実証を目的とした, SUPER(Supercomputing Unified Platform, Emilia Romagna)プロジェクトへのコントリビューションとして研究を行った。

Detecting anomalous data within time series is a very relevant task in pattern recognition and machine learning, with many possible applications that range from disease prevention in medicine, e.g., detecting early alterations of the health status before it can clearly be defined as "illness" up to monitoring industrial plants. Regarding this latter application, detecting anomalies in an industrial plant's status firstly prevents serious damages that would require a long interruption of the production process. Secondly, it permits optimal scheduling of maintenance interventions by limiting them to urgent situations. At the same time, they typically follow a fixed prudential schedule according to which components are substituted well before the end of their expected lifetime. This paper describes a case study regarding the monitoring of the status of Laser-guided Vehicles (LGVs) batteries, on which we worked as our contribution to project SUPER (Supercomputing Unified Platform, Emilia Romagna) aimed at establishing and demonstrating a regional High-Performance Computing platform that is going to represent the main Italian supercomputing environment for both computing power and data volume.
翻訳日:2022-12-29 15:46:36 公開日:2022-12-27
# 故障トラヒックデータ検出のための半教師付きマルチスケールデュアルエンコーディング法

Semi-supervised multiscale dual-encoding method for faulty traffic data detection ( http://arxiv.org/abs/2212.13596v1 )

ライセンス: Link先を確認
Yongcan Huang and Jidong J. Yang(参考訳) 近年,マルチスケール情報符号化における深層学習の成功に触発されて,分類問題として挙げられる障害トラフィックデータ検出のための変分オートエンコーダ(VAE)に基づく半教師付き手法を導入する。 連続ウェーブレット変換(CWT)は、時間周波数表現で具現化されたリッチな特徴を得るために、トラフィックボリュームデータの時系列に適用される。 得られたマルチスケールのデュアルエンコーディングを連結し、セルフアテンションモジュールと多層パーセプトロンからなる注意に基づく分類器に供給する。 比較のために提案アーキテクチャは,(1)正規データ符号化のみのVAE,(2)欠陥データ符号化のみのVAE,(3)正規データ符号化と欠陥データ符号化の両方のVAE,(4)サイメエンコーディングと(5)クロスビジョントランスフォーマ(CViT)エンコーディングの5つの異なる符号化方式に対して評価を行った。 最初の4つのエンコーディングスキームは同じ畳み込みニューラルネットワーク(CNN)アーキテクチャを採用し、第5のエンコーディングスキームはCViTのトランスフォーマーアーキテクチャに従った。 提案手法とアテンションモジュールを併用した2つの符号化方式により,96.4%の分類精度,95.5%の精度,97.7%のリコールを実現した。

Inspired by the recent success of deep learning in multiscale information encoding, we introduce a variational autoencoder (VAE) based semi-supervised method for detection of faulty traffic data, which is cast as a classification problem. Continuous wavelet transform (CWT) is applied to the time series of traffic volume data to obtain rich features embodied in time-frequency representation, followed by a twin of VAE models to separately encode normal data and faulty data. The resulting multiscale dual encodings are concatenated and fed to an attention-based classifier, consisting of a self-attention module and a multilayer perceptron. For comparison, the proposed architecture is evaluated against five different encoding schemes, including (1) VAE with only normal data encoding, (2) VAE with only faulty data encoding, (3) VAE with both normal and faulty data encodings, but without attention module in the classifier, (4) siamese encoding, and (5) cross-vision transformer (CViT) encoding. The first four encoding schemes adopted the same convolutional neural network (CNN) architecture while the fifth encoding scheme follows the transformer architecture of CViT. Our experiments show that the proposed architecture with the dual encoding scheme, coupled with attention module, outperforms other encoding schemes and results in classification accuracy of 96.4%, precision of 95.5%, and recall of 97.7%.
翻訳日:2022-12-29 15:46:13 公開日:2022-12-27
# 重み付きtsetlinマシンとパーセプトロンの等価性について

On the Equivalence of the Weighted Tsetlin Machine and the Perceptron ( http://arxiv.org/abs/2212.13634v1 )

ライセンス: Link先を確認
Jivitesh Sharma, Ole-Christoffer Granmo and Lei Jiao(参考訳) tsetlin machine (tm) は、様々なアプリケーションで計算複雑性の少ない有望な性能を実現することができる、本質的に解釈可能な機械傾き法として人気を集めている。 tmの解釈可能性と計算複雑性の低さは、様々なサブパターンを表現するブール表現から継承される。 TMは良好な特性を持つが、主に広く知られよく理解されている知覚論やニューラルネットワークと概念的、理論的に異なるため、AI応用のためのゴートメソッドにはなっていない。 本稿では,TMの操作概念に関する詳細な知見を提供し,知覚論とTMの理論的理解のギャップを埋めようとしている。 具体的には, パーセプトロンの解析構造に従ってTMの動作概念を考察し, パーセプトロンとTMとの類似性を示す。 この結果から,tmの重み更新は勾配重み更新の特別な場合と考えることができることが示唆された。 また,TMから節長の決定,決定境界の可視化,解釈可能なブール表現の取得の柔軟性を示すことで,TMの実験的解析を行う。 さらに,その構造と,より複雑な問題を解く能力の観点から,TMの利点についても論じる。

Tsetlin Machine (TM) has been gaining popularity as an inherently interpretable machine leaning method that is able to achieve promising performance with low computational complexity on a variety of applications. The interpretability and the low computational complexity of the TM are inherited from the Boolean expressions for representing various sub-patterns. Although possessing favorable properties, TM has not been the go-to method for AI applications, mainly due to its conceptual and theoretical differences compared with perceptrons and neural networks, which are more widely known and well understood. In this paper, we provide detailed insights for the operational concept of the TM, and try to bridge the gap in the theoretical understanding between the perceptron and the TM. More specifically, we study the operational concept of the TM following the analytical structure of perceptrons, showing the resemblance between the perceptrons and the TM. Through the analysis, we indicated that the TM's weight update can be considered as a special case of the gradient weight update. We also perform an empirical analysis of TM by showing the flexibility in determining the clause length, visualization of decision boundaries and obtaining interpretable boolean expressions from TM. In addition, we also discuss the advantages of TM in terms of its structure and its ability to solve more complex problems.
翻訳日:2022-12-29 15:45:44 公開日:2022-12-27
# NEEDED:眼疾患診断のための階層変換器の導入

NEEDED: Introducing Hierarchical Transformer to Eye Diseases Diagnosis ( http://arxiv.org/abs/2212.13408v1 )

ライセンス: Link先を確認
Xu Ye, Meng Xiao, Zhiyuan Ning, Weiwei Dai, Wenjuan Cui, Yi Du, Yuanchun Zhou(参考訳) 自然言語処理技術(NLP)の発展に伴い,眼科電子医療記録(OEMR)を用いた眼疾患の自動診断が可能となった。 本研究の目的は,患者の両眼の状態をそれぞれ評価し,特定の多言語分類タスクとして定式化することである。 他の疾患にはいくつかの関連研究があるが、眼疾患の自動診断には独特の特徴がある。 第一に、両目の記述はOEMR文書に混在し、自由テキストとテンプレート化された無症状記述の両方が混在し、情報のばらつきと混乱をもたらす。 第2に、OEMR文書は記述の複数の部分を含み、長い文書の長さを持つ。 第3に,疾患診断モデルに説明可能性を提供することが重要である。 これらの課題を克服するために, NEEDED の有効自動眼科診断フレームワークを提案する。 このフレームワークでは、情報密度と品質を改善するために前処理モジュールを統合する。 次に,各文の文脈化表現を学習するための階層的トランスフォーマ構造をoemr文書で設計する。 診断部では,病原性情報を取得することにより,追跡可能な診断を可能にする注意ベースの予測器を提案する。 実際のデータセットといくつかのベースラインモデルとの比較実験は、我々のフレームワークの利点と説明可能性を示している。

With the development of natural language processing techniques(NLP), automatic diagnosis of eye diseases using ophthalmology electronic medical records (OEMR) has become possible. It aims to evaluate the condition of both eyes of a patient respectively, and we formulate it as a particular multi-label classification task in this paper. Although there are a few related studies in other diseases, automatic diagnosis of eye diseases exhibits unique characteristics. First, descriptions of both eyes are mixed up in OEMR documents, with both free text and templated asymptomatic descriptions, resulting in sparsity and clutter of information. Second, OEMR documents contain multiple parts of descriptions and have long document lengths. Third, it is critical to provide explainability to the disease diagnosis model. To overcome those challenges, we present an effective automatic eye disease diagnosis framework, NEEDED. In this framework, a preprocessing module is integrated to improve the density and quality of information. Then, we design a hierarchical transformer structure for learning the contextualized representations of each sentence in the OEMR document. For the diagnosis part, we propose an attention-based predictor that enables traceable diagnosis by obtaining disease-specific information. Experiments on the real dataset and comparison with several baseline models show the advantage and explainability of our framework.
翻訳日:2022-12-29 15:35:42 公開日:2022-12-27
# 非教師なし領域適応と3次元誘導損失結合に基づく宇宙船のポーズ推定

Spacecraft Pose Estimation Based on Unsupervised Domain Adaptation and on a 3D-Guided Loss Combination ( http://arxiv.org/abs/2212.13415v1 )

ライセンス: Link先を確認
Juan Ignacio Bravo P\'erez-Villar, \'Alvaro Garc\'ia-Mart\'in, Jes\'us Besc\'os(参考訳) 宇宙船のポーズ推定は、2つの宇宙船が互いに周回しなければならない宇宙ミッションを可能にする重要なタスクである。 データ駆動手法を用いたポーズ推定の現状と課題 しかし、宇宙環境に関わるコストや困難のために、宇宙環境に撮影された宇宙船の実際の訓練データが欠如している。 これは3Dデータシミュレータの導入を動機付け、データ可用性の問題を解決すると同時に、トレーニング(ソース)とテスト(ターゲット)ドメインの間に大きなギャップを導入する。 本研究では,3次元構造を宇宙船の姿勢推定パイプラインに組み込んで,強度領域シフトに対するロバスト性を提供し,ロバストな擬似ラベルを用いた教師なし領域適応のためのアルゴリズムを提案する。 当社のソリューションは、欧州宇宙機関とスタンフォード大学が主催する2021年のポス推定チャレンジの2つのカテゴリで2番目にランク付けされ、この2つのカテゴリにおいて最も低い平均誤差を達成しました。

Spacecraft pose estimation is a key task to enable space missions in which two spacecrafts must navigate around each other. Current state-of-the-art algorithms for pose estimation employ data-driven techniques. However, there is an absence of real training data for spacecraft imaged in space conditions due to the costs and difficulties associated with the space environment. This has motivated the introduction of 3D data simulators, solving the issue of data availability but introducing a large gap between the training (source) and test (target) domains. We explore a method that incorporates 3D structure into the spacecraft pose estimation pipeline to provide robustness to intensity domain shift and we present an algorithm for unsupervised domain adaptation with robust pseudo-labelling. Our solution has ranked second in the two categories of the 2021 Pose Estimation Challenge organised by the European Space Agency and the Stanford University, achieving the lowest average error over the two categories.
翻訳日:2022-12-29 15:29:54 公開日:2022-12-27
# 画像分割参照のための位置対応コントラストアライメント

Position-Aware Contrastive Alignment for Referring Image Segmentation ( http://arxiv.org/abs/2212.13419v1 )

ライセンス: Link先を確認
Bo Chen, Zhiwei Hu, Zhilong Ji, Jinfeng Bai, Wangmeng Zuo(参考訳) 参照画像分割は、与えられた自然言語表現で記述された対象オブジェクトを分割することを目的としている。 通常、参照表現はターゲットとその周辺のオブジェクトの間の複雑な関係を含む。 このタスクの主な課題は、視覚的内容と言語的内容を同時に理解し、画像中のすべてのインスタンスの中で参照対象を正確に見つけることである。 現状、上記の問題を解決する最も効果的な方法は、接地マスクの監督下で視覚的特徴と言語的特徴の相関を計算し、整列したマルチモーダル特徴を得ることである。 しかし、既存のパラダイムでは、対象を対象とする周辺物体に関する情報を直接知覚できないため、視覚や言語の内容の完全な理解が困難である。 これにより、アライメントされたマルチモーダルな特徴を学習できないため、不正確なセグメンテーションにつながる。 そこで本研究では,視覚と言語との相互作用を予め位置情報を通して導くことにより,マルチモーダル特徴のアライメントを強化するための位置認識コントラストアライメントネットワーク(pcan)を提案する。 私たちのPCANは2つのモジュールで構成されています。 1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM) 2) Contrastive Language Understanding Module (CLUM) は参照オブジェクトの特徴と関連オブジェクトの特徴を比較することでマルチモーダルアライメントを強化する。 3つのベンチマークによる大規模な実験により、PCANは最先端の手法に対して好適に機能することを示した。 私たちのコードは公開されます。

Referring image segmentation aims to segment the target object described by a given natural language expression. Typically, referring expressions contain complex relationships between the target and its surrounding objects. The main challenge of this task is to understand the visual and linguistic content simultaneously and to find the referred object accurately among all instances in the image. Currently, the most effective way to solve the above problem is to obtain aligned multi-modal features by computing the correlation between visual and linguistic feature modalities under the supervision of the ground-truth mask. However, existing paradigms have difficulty in thoroughly understanding visual and linguistic content due to the inability to perceive information directly about surrounding objects that refer to the target. This prevents them from learning aligned multi-modal features, which leads to inaccurate segmentation. To address this issue, we present a position-aware contrastive alignment network (PCAN) to enhance the alignment of multi-modal features by guiding the interaction between vision and language through prior position information. Our PCAN consists of two modules: 1) Position Aware Module (PAM), which provides position information of all objects related to natural language descriptions, and 2) Contrastive Language Understanding Module (CLUM), which enhances multi-modal alignment by comparing the features of the referred object with those of related objects. Extensive experiments on three benchmarks demonstrate our PCAN performs favorably against the state-of-the-art methods. Our code will be made publicly available.
翻訳日:2022-12-29 15:29:38 公開日:2022-12-27
# 真と予測されたセグメントをインジェクティブに整合させる最も一般的な方法

The most general manner to injectively align true and predicted segments ( http://arxiv.org/abs/2212.13445v1 )

ライセンス: Link先を確認
Maarten Marx(参考訳) kirilov et al (2019) は画像分割法を評価するためにpanoptic quality (pq) と呼ばれる指標を開発した。 メトリックは混乱テーブルに基づいており、予測された真実のセグメンテーションと比較する。 この比較の唯一の非直感的な部分は、2つのセグメントのセグメントを整列させることである。 計量は、そのアライメントが部分単射である場合にのみうまく機能する。 kirilov et al (2019) リスト3はアライメントの定義に望ましい性質を示している。 部分単射とこれら3つの性質を保証する多くの定義がある。 最も弱いものは、アライメントが部分単射であることを保証するのに十分かつ必要であるものである。 この新しい状態は計算可能で自然である。 単に、正しく予測された要素(画像のセグメンテーション、ピクセル)の数は、欠落した要素の数よりも大きく、スプリアス要素の数よりも大きい、と言うだけである。 これは Kirilov et al (2019) の提案よりも厳格に弱い。 公式では、 |TP|> |FN\textbar| + |FP| の代わりに、より弱い条件は |TP|> |FN| と |TP| > |FP| を要求する。 我々は,新しいアライメント条件を理論的および経験的に評価する。

Kirilov et al (2019) develop a metric, called Panoptic Quality (PQ), to evaluate image segmentation methods. The metric is based on a confusion table, and compares a predicted to a ground truth segmentation. The only non straightforward part in this comparison is to align the segments in the two segmentations. A metric only works well if that alignment is a partial bijection. Kirilov et al (2019) list 3 desirable properties for a definition of alignment: it should be simple, interpretable and effectively computable. There are many definitions guaranteeing a partial bijection and these 3 properties. We present the weakest: one that is both sufficient and necessary to guarantee that the alignment is a partial bijection. This new condition is effectively computable and natural. It simply says that the number of correctly predicted elements (in image segmentation, the pixels) should be larger than the number of missed, and larger than the number of spurious elements. This is strictly weaker than the proposal in Kirilov et al (2019). In formulas, instead of |TP|> |FN\textbar| + |FP|, the weaker condition requires that |TP|> |FN| and |TP| > |FP|. We evaluate the new alignment condition theoretically and empirically.
翻訳日:2022-12-29 15:29:14 公開日:2022-12-27
# 指紋領域におけるデータ拡張による一般gan画像検出

General GAN-generated image detection by data augmentation in fingerprint domain ( http://arxiv.org/abs/2212.13466v1 )

ライセンス: Link先を確認
Huaming Wang, Jianwei Fei, Yunshu Dai, Lingyun Leng, Zhihua Xia(参考訳) 本研究では,指紋領域におけるデータ拡張によるGAN生成画像検出器の一般化性の向上について検討する。 具体的には、まず、自動エンコーダを用いたGAN指紋抽出装置を用いて、GAN生成画像の指紋と内容を分離し、次いでランダムな指紋の摂動を行った。 そして、元の指紋を乱れた指紋に代えて、元のコンテンツに追加し、視覚的に不変だが異なる指紋を持つ画像を生成する。 摂動画像は、異なるganによって生成された画像を模倣して、スペクトルの可視化によって示される検出器の一般化を改善することができる。 我々の知る限り、私たちは初めて指紋領域でデータ拡張を行いました。 我々の研究は、空間及び周波数領域拡張に関する以前の研究とは異なる新しい展望を探求する。 広汎なGAN実験により,未知のGANが生成する偽画像の検出における最先端手法と比較して,本手法の有効性が示された。

In this work, we investigate improving the generalizability of GAN-generated image detectors by performing data augmentation in the fingerprint domain. Specifically, we first separate the fingerprints and contents of the GAN-generated images using an autoencoder based GAN fingerprint extractor, followed by random perturbations of the fingerprints. Then the original fingerprints are substituted with the perturbed fingerprints and added to the original contents, to produce images that are visually invariant but with distinct fingerprints. The perturbed images can successfully imitate images generated by different GANs to improve the generalization of the detectors, which is demonstrated by the spectra visualization. To our knowledge, we are the first to conduct data augmentation in the fingerprint domain. Our work explores a novel prospect that is distinct from previous works on spatial and frequency domain augmentation. Extensive cross-GAN experiments demonstrate the effectiveness of our method compared to the state-of-the-art methods in detecting fake images generated by unknown GANs.
翻訳日:2022-12-29 15:28:54 公開日:2022-12-27
# dae-former : 医用画像セグメンテーションのための2重注意誘導型効率的なトランスフォーマー

DAE-Former: Dual Attention-guided Efficient Transformer for Medical Image Segmentation ( http://arxiv.org/abs/2212.13504v1 )

ライセンス: Link先を確認
Reza Azad, Ren\'e Arimond, Ehsan Khodapanah Aghdam, Amirhosein Kazerouni, Dorit Merhof(参考訳) トランスフォーマーは最近、長距離依存をモデル化する能力により、コンピュータビジョン領域で注目を集めている。 しかし、変圧器モデルの中核部分である自己拘束機構は、通常トークン数に関して二次計算の複雑さに苦しむ。 多くのアーキテクチャは、自己保持機構をローカル領域に制限したり、トークン化プロセスを再設計することで、モデルの複雑さを減らそうとしている。 本稿では,自己認識機構を効率的に設計することで,新たな視点の提供を目指すDAE-Formerを提案する。 より具体的には、計算効率を保ちながら、特徴次元全体の空間的およびチャネル的関係を捉える自己認識機構を再構成する。 さらに, クロスアテンションモジュールを組み込んだスキップ接続経路の再設計を行い, 特徴再利用性を確保し, ローカライズパワーを高める。 プレトレーニング重量を必要とせず,多臓器心および皮膚病変分画データセットの最先端法を上回った。 コードはhttps://github.com/mindflow-institue/daeformerで公開されている。

Transformers have recently gained attention in the computer vision domain due to their ability to model long-range dependencies. However, the self-attention mechanism, which is the core part of the Transformer model, usually suffers from quadratic computational complexity with respect to the number of tokens. Many architectures attempt to reduce model complexity by limiting the self-attention mechanism to local regions or by redesigning the tokenization process. In this paper, we propose DAE-Former, a novel method that seeks to provide an alternative perspective by efficiently designing the self-attention mechanism. More specifically, we reformulate the self-attention mechanism to capture both spatial and channel relations across the whole feature dimension while staying computationally efficient. Furthermore, we redesign the skip connection path by including the cross-attention module to ensure the feature reusability and enhance the localization power. Our method outperforms state-of-the-art methods on multi-organ cardiac and skin lesion segmentation datasets without requiring pre-training weights. The code is publicly available at https://github.com/mindflow-institue/DAEFormer.
翻訳日:2022-12-29 15:28:38 公開日:2022-12-27
# ランダム性への定性注入:深部画像マッチングのための構成スタイルの再考

Infusing Definiteness into Randomness: Rethinking Composition Styles for Deep Image Matting ( http://arxiv.org/abs/2212.13517v1 )

ライセンス: Link先を確認
Zixuan Ye, Yutong Dai, Chaoyi Hong, Zhiguo Cao, Hao Lu(参考訳) 本研究では,限られたフォアグラウンドとランダムな背景を活用してトレーニングデータセットを形成するデータ生成フローを特徴付けるdeep image mattingの合成スタイルについて検討する。 先行技術は、単に前景プールを通過したり、2つの前景を前景合成の前に任意に組み合わせることで、この流れを全くランダムに実行する。 本研究は,まず,有意な前景の組み合わせが問題になりうることを示し,従って,前景を合理的に組み合わせるための別の定式化を導出する。 第2の貢献は、マッティングパフォーマンスがトレーニング中に前景とそれに関連する元前景の特定の発生頻度の恩恵を受ける、という観察です。 これに触発されて、我々はソースを結合し、前景を定三重奏で結合する新しい構成スタイルを導入する。 さらに,前景の組み合わせの異なる順序が異なる前景パターンにつながり,さらにクワッドラプレットベースの作曲スタイルに拍車をかけることも見いだした。 4つのマッティングベースラインにおける制御実験の結果、我々のコンポジションスタイルは既存のコンポジションよりも優れており、複合データと実世界のデータセットの両方で一貫したパフォーマンス改善が期待できることがわかった。 コードは、https://github.com/coconuthust/composition_stylesで入手できる。

We study the composition style in deep image matting, a notion that characterizes a data generation flow on how to exploit limited foregrounds and random backgrounds to form a training dataset. Prior art executes this flow in a completely random manner by simply going through the foreground pool or by optionally combining two foregrounds before foreground-background composition. In this work, we first show that naive foreground combination can be problematic and therefore derive an alternative formulation to reasonably combine foregrounds. Our second contribution is an observation that matting performance can benefit from a certain occurrence frequency of combined foregrounds and their associated source foregrounds during training. Inspired by this, we introduce a novel composition style that binds the source and combined foregrounds in a definite triplet. In addition, we also find that different orders of foreground combination lead to different foreground patterns, which further inspires a quadruplet-based composition style. Results under controlled experiments on four matting baselines show that our composition styles outperform existing ones and invite consistent performance improvement on both composited and real-world datasets. Code is available at: https://github.com/coconuthust/composition_styles
翻訳日:2022-12-29 15:28:21 公開日:2022-12-27
# 放射場の対話的セグメンテーション

Interactive Segmentation of Radiance Fields ( http://arxiv.org/abs/2212.13545v1 )

ライセンス: Link先を確認
Rahul Goel, Dhawal Sirikonda, Saurabh Saini and PJ Narayanan(参考訳) radiance fields (rf) は新しいビュー生成のためにカジュアルにキャプチャされたシーンを表現するために人気があり、それ以上のアプリケーションで使用されています。 RFとして表現されるシーンの理解と操作は、個人空間における混合現実を促進するために自然に従わなければならない。 3dシーンにおけるオブジェクトの意味的セグメンテーションは、その重要なステップです。 機能蒸留を使った事前のセグメンテーションは約束を果たすが、多様な外観を持つ複雑な物体にはスケールしない。 オブジェクトを細かな構造で対話的に分割するフレームワークを提案する。 最寄りの機能マッチングは、蒸留した特徴を用いてオブジェクトの高信頼領域を特定する。 連接空間における両側フィルタリングは領域を成長させ、正確なセグメンテーションを回復させる。 RFからオブジェクトを分割して別のシーンに合成し、外観を変えるなど、リッチなシーン操作や理解に近づいた最先端の結果を示す。 プロジェクトページ: https://rahul-goel.github.io/isrf/

Radiance Fields (RF) are popular to represent casually-captured scenes for new view generation and have been used for applications beyond it. Understanding and manipulating scenes represented as RFs have to naturally follow to facilitate mixed reality on personal spaces. Semantic segmentation of objects in the 3D scene is an important step for that. Prior segmentation efforts using feature distillation show promise but don't scale to complex objects with diverse appearance. We present a framework to interactively segment objects with fine structure. Nearest neighbor feature matching identifies high-confidence regions of the objects using distilled features. Bilateral filtering in a joint spatio-semantic space grows the region to recover accurate segmentation. We show state-of-the-art results of segmenting objects from RFs and compositing them to another scene, changing appearance, etc., moving closer to rich scene manipulation and understanding. Project Page: https://rahul-goel.github.io/isrf/
翻訳日:2022-12-29 15:27:51 公開日:2022-12-27
# YOLOv5 Deep Neural Network を用いた脳がん分離

Brain Cancer Segmentation Using YOLOv5 Deep Neural Network ( http://arxiv.org/abs/2212.13599v1 )

ライセンス: Link先を確認
Sudipto Paul, Dr. Md Taimur Ahad, Md. Mahedi Hasan(参考訳) 異常な脳細胞の拡大は、脳腫瘍と呼ばれる。 脳のアーキテクチャは非常に複雑で、いくつかの領域が様々な神経系過程を制御している。 脳や頭蓋骨のどの部分も、脳の保護コーティング、頭蓋骨の底、脳幹、洞、鼻腔、その他多くの場所を含む脳腫瘍を発症することができる。 過去10年間にわたり、コンピュータ支援脳腫瘍診断の分野で多くの進展がみられてきた。 近年、インスタンスセグメンテーションは多くのコンピュータビジョンアプリケーションに多くの関心を集めている。 同じクラスのメンバーであっても、さまざまなシーンオブジェクトにさまざまなIDを割り当てようとしている。 通常、2段階のパイプラインを使用してインスタンスセグメンテーションを行う。 本研究は, YOLOv5を用いた脳がんセグメンテーションである。 Yoloは、画像フォーマットと対応するテキストファイルとしてデータセットを取る。 You Only Look Once (YOLO)は、バイラルで広く使われているアルゴリズムである。 YOLOはそのオブジェクト認識特性で有名である。 You Only Look Once(YOLO)は、バイラルな人気アルゴリズムだ。 YOLOは、物体を識別する能力で有名である。 YOLO V2、V3、V4、V5は、専門家が近年発表したYOLOの最新版である。 初期の脳腫瘍検出は、神経学者や放射線科医が抱える最も重要な仕事の1つである。 しかし、磁気共鳴イメージング(MRI)データから手動で脳腫瘍を同定し、分別することは困難で、エラーを起こしやすい。 早期診断には,脳腫瘍自動検出システムが必要である。 研究論文のモデルには3つのクラスがある。 それぞれ髄膜腫、下垂体、グリオーマである。 その結果,本モデルではm2 10コアgpuのランタイム使用において,性能面での精度が向上した。

An expansion of aberrant brain cells is referred to as a brain tumor. The brain's architecture is extremely intricate, with several regions controlling various nervous system processes. Any portion of the brain or skull can develop a brain tumor, including the brain's protective coating, the base of the skull, the brainstem, the sinuses, the nasal cavity, and many other places. Over the past ten years, numerous developments in the field of computer-aided brain tumor diagnosis have been made. Recently, instance segmentation has attracted a lot of interest in numerous computer vision applications. It seeks to assign various IDs to various scene objects, even if they are members of the same class. Typically, a two-stage pipeline is used to perform instance segmentation. This study shows brain cancer segmentation using YOLOv5. Yolo takes dataset as picture format and corresponding text file. You Only Look Once (YOLO) is a viral and widely used algorithm. YOLO is famous for its object recognition properties. You Only Look Once (YOLO) is a popular algorithm that has gone viral. YOLO is well known for its ability to identify objects. YOLO V2, V3, V4, and V5 are some of the YOLO latest versions that experts have published in recent years. Early brain tumor detection is one of the most important jobs that neurologists and radiologists have. However, it can be difficult and error-prone to manually identify and segment brain tumors from Magnetic Resonance Imaging (MRI) data. For making an early diagnosis of the condition, an automated brain tumor detection system is necessary. The model of the research paper has three classes. They are respectively Meningioma, Pituitary, Glioma. The results show that, our model achieves competitive accuracy, in terms of runtime usage of M2 10 core GPU.
翻訳日:2022-12-29 15:27:37 公開日:2022-12-27
# MultiSpider: マルチ言語テキストからSQLへのセマンティックパーシングのベンチマークを目指す

MultiSpider: Towards Benchmarking Multilingual Text-to-SQL Semantic Parsing ( http://arxiv.org/abs/2212.13492v1 )

ライセンス: Link先を確認
Longxu Dou, Yan Gao, Mingyang Pan, Dingzirui Wang, Wanxiang Che, Dechen Zhan, Jian-Guang Lou(参考訳) テキストからSQLへのセマンティックパーシングは重要なNLPタスクであり、ユーザとデータベース間のインタラクションを大幅に促進し、多くのコンピュータインタラクションシステムにおいて重要なコンポーネントとなる。 テキストからsqlへの最近の進歩は、大規模なデータセットによって推進されているが、そのほとんどは英語を中心にしている。 本研究では,英語,ドイツ語,フランス語,スペイン語,日本語,中国語,ベトナム語)をカバーする多言語SQLデータセットとして最大であるMultiSpiderを提案する。 マルチスピーダーでは、テキスト対sqlの語彙的および構造的課題(特定の言語特性と方言表現によって引き起こされる)と、異なる言語間の強度をさらに識別する。 3つの典型的な設定(ゼロショット、モノリンガル、マルチリンガル)での実験結果では、英語以外の言語では6.1%の精度低下が見られた。 各言語のパフォーマンス低下の原因を理解するために,定性的,定量的な分析を行った。 データセットに加えて、単純なスキーマ拡張フレームワークであるSAVe(Schema-Augmentation-with-Verification)も提案しています。

Text-to-SQL semantic parsing is an important NLP task, which greatly facilitates the interaction between users and the database and becomes the key component in many human-computer interaction systems. Much recent progress in text-to-SQL has been driven by large-scale datasets, but most of them are centered on English. In this work, we present MultiSpider, the largest multilingual text-to-SQL dataset which covers seven languages (English, German, French, Spanish, Japanese, Chinese, and Vietnamese). Upon MultiSpider, we further identify the lexical and structural challenges of text-to-SQL (caused by specific language properties and dialect sayings) and their intensity across different languages. Experimental results under three typical settings (zero-shot, monolingual and multilingual) reveal a 6.1% absolute drop in accuracy in non-English languages. Qualitative and quantitative analyses are conducted to understand the reason for the performance drop of each language. Besides the dataset, we also propose a simple schema augmentation framework SAVe (Schema-Augmentation-with-Verification), which significantly boosts the overall performance by about 1.8% and closes the 29.5% performance gap across languages.
翻訳日:2022-12-29 15:20:38 公開日:2022-12-27
# 因果関係の単純化:経済学・教育・医学・政策・物理・工学の例による哲学的視点と定義の簡潔な考察

Simplifying Causality: A Brief Review of Philosophical Views and Definitions with Examples from Economics, Education, Medicine, Policy, Physics and Engineering ( http://arxiv.org/abs/2212.13537v1 )

ライセンス: Link先を確認
M.Z. Naser(参考訳) 本稿では、いくつかの哲学的見解、定義、因果関係の例を示す。 このコレクションは、ヒュームの正則性、反実性、操作、メカニズムという4つの一般的な因果関係のアプローチの領域にまたがっている。 この短いレビューは、単純化された見解と定義を示し、経済学、教育、医学、政治、物理学、工学を含む様々な分野の例を補足する。 この短いレビューが、因果関係や因果関係の推論に関する知識がほとんどない、新しく興味のある読者に役に立つことを願っている。

This short paper compiles the big ideas behind some philosophical views, definitions, and examples of causality. This collection spans the realms of the four commonly adopted approaches to causality: Humes regularity, counterfactual, manipulation, and mechanisms. This short review is motivated by presenting simplified views and definitions and then supplements them with examples from various fields, including economics, education, medicine, politics, physics, and engineering. It is the hope that this short review comes in handy for new and interested readers with little knowledge of causality and causal inference.
翻訳日:2022-12-29 15:20:15 公開日:2022-12-27
# aaai 2022 fall symposium 開催報告:気候問題への対応におけるaiの役割

Proceedings of AAAI 2022 Fall Symposium: The Role of AI in Responding to Climate Challenges ( http://arxiv.org/abs/2212.13631v1 )

ライセンス: Link先を確認
Feras A. Batarseh, Priya L. Donti, J\'an Drgo\v{n}a, Kristen Fletcher, Pierre-Adrien Hanania, Melissa Hatton, Srinivasan Keshav, Bran Knowles, Raphaela Kotsch, Sean McGinnis, Peetak Mitra, Alex Philp, Jim Spohrer, Frank Stein, Meghna Tare, Svitlana Volkov, Gege Wen(参考訳) 気候変動は、社会全体での迅速な行動を必要とする、当時の最も急進的な課題の1つだ。 人工知能ツール(AI)が急速に展開されるにつれて、それらが気候変動にどう影響するかを理解することが重要である。 一方、AIは気候変動の緩和(温室効果ガス排出量の削減または防止)、適応(気候変動の影響に備える)、気候科学の応用を支援することができる。 これらの応用はエネルギー、農業、金融など幅広い分野に影響を与えている。 同時に、AIは気候活動を妨げる多くの方法(例えば、温室効果ガスを放出する化石燃料の使用を加速するなど)で使用されている。 さらに、AI技術は炭素とエネルギーのフットプリント自体を持っている。 このシンポジウムでは、学界、産業、政府、市民社会の参加者が集まって、aiと気候変動の交点や、これらのセクターがソリューションにどのように貢献できるかを探求した。

Climate change is one of the most pressing challenges of our time, requiring rapid action across society. As artificial intelligence tools (AI) are rapidly deployed, it is therefore crucial to understand how they will impact climate action. On the one hand, AI can support applications in climate change mitigation (reducing or preventing greenhouse gas emissions), adaptation (preparing for the effects of a changing climate), and climate science. These applications have implications in areas ranging as widely as energy, agriculture, and finance. At the same time, AI is used in many ways that hinder climate action (e.g., by accelerating the use of greenhouse gas-emitting fossil fuels). In addition, AI technologies have a carbon and energy footprint themselves. This symposium brought together participants from across academia, industry, government, and civil society to explore these intersections of AI with climate change, as well as how each of these sectors can contribute to solutions.
翻訳日:2022-12-29 15:20:02 公開日:2022-12-27
# RFキューを用いた監視映像の復元

Recovering Surveillance Video Using RF Cues ( http://arxiv.org/abs/2212.13340v1 )

ライセンス: Link先を確認
Xiang Li, Rabih Younes(参考訳) ビデオキャプチャは、直感的に理解できる性質のため、最も広く利用されている人間の知覚源である。 所望の映像撮影には、環境光量、遮蔽空間、適切なカメラアングルなどの複数の環境条件が必要である。 対照的に、無線測定はよりユビキタスで、環境制約が少ない。 本稿では,商用機器からのwi-fi信号と,人間の身元情報のみを活用し,詳細な監視映像をリアルタイムに回収する新しいクロスモーダル手法であるcsi2videoを提案する。 具体的には、2つの調整されたディープニューラルネットワークが、それぞれクロスモーダルマッピングとビデオ生成タスクを実行するように設計されている。 WiFiフレームからポーズ特徴を抽出するために,自動エンコーダに基づく構造を用いる。 その後、抽出されたポーズ特徴と識別情報を融合して合成監視ビデオを生成する。 我々のソリューションは、高価な無線機器を使わずにリアルな監視ビデオを生成し、ユビキタスで安価でリアルタイムな特性を持つ。

Video capture is the most extensively utilized human perception source due to its intuitively understandable nature. A desired video capture often requires multiple environmental conditions such as ample ambient-light, unobstructed space, and proper camera angle. In contrast, wireless measurements are more ubiquitous and have fewer environmental constraints. In this paper, we propose CSI2Video, a novel cross-modal method that leverages only WiFi signals from commercial devices and a source of human identity information to recover fine-grained surveillance video in a real-time manner. Specifically, two tailored deep neural networks are designed to conduct cross-modal mapping and video generation tasks respectively. We make use of an auto-encoder-based structure to extract pose features from WiFi frames. Afterward, both extracted pose features and identity information are merged to generate synthetic surveillance video. Our solution generates realistic surveillance videos without any expensive wireless equipment and has ubiquitous, cheap, and real-time characteristics.
翻訳日:2022-12-29 15:18:36 公開日:2022-12-27
# DiffFace: 顔面誘導機能付き拡散型顔スワップ

DiffFace: Diffusion-based Face Swapping with Facial Guidance ( http://arxiv.org/abs/2212.13344v1 )

ライセンス: Link先を確認
Kihong Kim, Yunho Kim, Seokju Cho, Junyoung Seo, Jisu Nam, Kychul Lee, Seungryong Kim, KwangHee Lee(参考訳) 本稿では,拡散型顔交換フレームワークdifffaceを提案し,id条件付きddpmのトレーニング,顔誘導によるサンプリング,目標保存ブレンドを行った。 具体的には、トレーニングプロセスにおいて、ID条件DDPMをトレーニングし、所望のアイデンティティで顔画像を生成する。 サンプリングプロセスでは,対象属性を忠実に保存しながら,市販の顔専門家モデルを用いてモデル転送元を識別する。 この過程で、対象画像の背景を保存し、所望の顔交換結果を得るため、さらに、目標保存ブレンド戦略を提案する。 モデルが対象の顔の属性をノイズから遠ざけるのに役立つと同時に、元の顔のアイデンティティーを転送します。 さらに, モデルでは, 顔認証を柔軟に適用し, ID属性のトレードオフを適応的に制御することで, 望ましい結果が得られる。 私たちの知る限りでは、これは顔交換タスクに拡散モデルを適用する最初のアプローチです。 従来のGANベースのアプローチと比較して、顔交換タスクの拡散モデルを活用することで、DiffFaceはトレーニング安定性、高い忠実度、サンプルの多様性、制御性といった利点を享受できる。 広範な実験により、我々のdifffaceは、いくつかの標準フェイススワッピングベンチマークで最先端のメソッドに匹敵するか、優れていることが示された。

In this paper, we propose a diffusion-based face swapping framework for the first time, called DiffFace, composed of training ID conditional DDPM, sampling with facial guidance, and a target-preserving blending. In specific, in the training process, the ID conditional DDPM is trained to generate face images with the desired identity. In the sampling process, we use the off-the-shelf facial expert models to make the model transfer source identity while preserving target attributes faithfully. During this process, to preserve the background of the target image and obtain the desired face swapping result, we additionally propose a target-preserving blending strategy. It helps our model to keep the attributes of the target face from noise while transferring the source facial identity. In addition, without any re-training, our model can flexibly apply additional facial guidance and adaptively control the ID-attributes trade-off to achieve the desired results. To the best of our knowledge, this is the first approach that applies the diffusion model in face swapping task. Compared with previous GAN-based approaches, by taking advantage of the diffusion model for the face swapping task, DiffFace achieves better benefits such as training stability, high fidelity, diversity of the samples, and controllability. Extensive experiments show that our DiffFace is comparable or superior to the state-of-the-art methods on several standard face swapping benchmarks.
翻訳日:2022-12-29 15:18:21 公開日:2022-12-27
# ViT/MLP-Mixerのグラフへの一般化

A Generalization of ViT/MLP-Mixer to Graphs ( http://arxiv.org/abs/2212.13350v1 )

ライセンス: Link先を確認
Xiaoxin He, Bryan Hooi, Thomas Laurent, Adam Perold, Yann LeCun, Xavier Bresson(参考訳) グラフニューラルネットワーク(GNN)は,グラフ表現学習の分野で大きな可能性を示している。 標準GNNは、複数のレイヤを積み重ねることで、グラフ領域全体に情報を伝達するローカルメッセージパッシングメカニズムを定義する。 このパラダイムは、大まかな注意によって解決できるが、計算コストを2次複雑性に格段に増加させるという、2つの大きな制限に苦しめられている。 本稿では,コンピュータビジョンに導入されたViT/MLP-Mixerアーキテクチャを活用することで,これらの構造的制約を克服するための代替手法を提案する。 我々は3つのキー特性を持つグラフMLP-Mixerと呼ばれる新しいGNNのクラスを導入する。 まず、Long Range Graph Benchmark(LRGB)とTreeNeighbourMatchデータセットで示されているように、長距離依存性をキャプチャしてオーバースカッシングの問題を緩和する。 第二に、ノード数とエッジ数にリニアな複雑さを持つスピードとメモリ効率が向上し、関連するGraph Transformerと表現力のあるGNNモデルを上回っている。 第3に、少なくとも3-wlの非同型グラフを区別できるため、グラフ同型の観点から高い表現性を示す。 4つのシミュレートデータセットと7つの実世界のベンチマークでアーキテクチャをテストし、これらすべてに対して高い競合性を示す。

Graph Neural Networks (GNNs) have shown great potential in the field of graph representation learning. Standard GNNs define a local message-passing mechanism which propagates information over the whole graph domain by stacking multiple layers. This paradigm suffers from two major limitations, over-squashing and poor long-range dependencies, that can be solved using global attention but significantly increases the computational cost to quadratic complexity. In this work, we propose an alternative approach to overcome these structural limitations by leveraging the ViT/MLP-Mixer architectures introduced in computer vision. We introduce a new class of GNNs, called Graph MLP-Mixer, that holds three key properties. First, they capture long-range dependency and mitigate the issue of over-squashing as demonstrated on the Long Range Graph Benchmark (LRGB) and the TreeNeighbourMatch datasets. Second, they offer better speed and memory efficiency with a complexity linear to the number of nodes and edges, surpassing the related Graph Transformer and expressive GNN models. Third, they show high expressivity in terms of graph isomorphism as they can distinguish at least 3-WL non-isomorphic graphs. We test our architecture on 4 simulated datasets and 7 real-world benchmarks, and show highly competitive results on all of them.
翻訳日:2022-12-29 15:17:59 公開日:2022-12-27
# マルチスペクトルおよびパンクロマティック商業衛星画像によるサブメートル分解能における河川分類のための深層学習モデル

Deep Learning Models for River Classification at Sub-Meter Resolutions from Multispectral and Panchromatic Commercial Satellite Imagery ( http://arxiv.org/abs/2212.13613v1 )

ライセンス: Link先を確認
Joachim Moortgat, Ziwei Li, Michael Durand, Ian Howat, Bidhyananda Yadav, Chunli Dai(参考訳) 地球の表層水のリモートセンシングは、季節的な干ばつや洪水による社会的な影響の評価から、気候変動の大規模な影響まで、幅広い環境研究において重要である。 その結果、衛星画像からの水の分類に関する文献が多数存在する。 しかし、従来の方法は制限されている。 1)公共衛星画像の空間分解能 2)画素レベルで動作する分類スキーム,及び 3)多重スペクトル帯の必要性。 我々は最先端の技術を推し進める 1) パンクロマティックおよびマルチスペクトル分解能をそれぞれ30cm, 1.2mの商業画像を用いて検討した。 2)複数の完全畳み込みニューラルネットワーク(FCN)を開発し,そのスペクトル特性に加えて水体の形態的特徴を学習する。 3)パンクロマトグラフィー画像からでも水を分類できるFCN。 この研究は、Quickbird、WorldView、GeoEye衛星の画像を用いて北極の河川に焦点を当てている。 このような高解像度のトレーニングデータがないため、手作業で構築する。 まず、8バンドマルチスペクトルセンサのRGBとNIRバンドを使用する。 これらの訓練されたモデルはいずれも優れた精度を達成し、衛星画像に特有のトレーニングデータのオンザフライ前処理によって、検証データの90%以上をリコールする。 新たなアプローチでは、マルチスペクトルモデルによる結果を用いて、パンクロマチック画像のみを必要とするFCNのトレーニングデータを生成する。 機能空間は小さいものの、これらのモデルは精度と85%以上のリコールを実現している。 当社のオープンソースコードとトレーニングされたモデルパラメータをリモートセンシングコミュニティに提供することで、従来よりも非常に優れた精度と2桁高い空間解像度で、幅広い環境水文学アプリケーションへの道を開くことができます。

Remote sensing of the Earth's surface water is critical in a wide range of environmental studies, from evaluating the societal impacts of seasonal droughts and floods to the large-scale implications of climate change. Consequently, a large literature exists on the classification of water from satellite imagery. Yet, previous methods have been limited by 1) the spatial resolution of public satellite imagery, 2) classification schemes that operate at the pixel level, and 3) the need for multiple spectral bands. We advance the state-of-the-art by 1) using commercial imagery with panchromatic and multispectral resolutions of 30 cm and 1.2 m, respectively, 2) developing multiple fully convolutional neural networks (FCN) that can learn the morphological features of water bodies in addition to their spectral properties, and 3) FCN that can classify water even from panchromatic imagery. This study focuses on rivers in the Arctic, using images from the Quickbird, WorldView, and GeoEye satellites. Because no training data are available at such high resolutions, we construct those manually. First, we use the RGB, and NIR bands of the 8-band multispectral sensors. Those trained models all achieve excellent precision and recall over 90% on validation data, aided by on-the-fly preprocessing of the training data specific to satellite imagery. In a novel approach, we then use results from the multispectral model to generate training data for FCN that only require panchromatic imagery, of which considerably more is available. Despite the smaller feature space, these models still achieve a precision and recall of over 85%. We provide our open-source codes and trained model parameters to the remote sensing community, which paves the way to a wide range of environmental hydrology applications at vastly superior accuracies and 2 orders of magnitude higher spatial resolution than previously possible.
翻訳日:2022-12-29 15:12:44 公開日:2022-12-27
# 知識強化型事前学習言語モデルの検討

A Survey on Knowledge-Enhanced Pre-trained Language Models ( http://arxiv.org/abs/2212.13428v1 )

ライセンス: Link先を確認
Chaoqi Zhen and Yanlei Shang and Xiangyu Liu and Yifei Li and Yong Chen and Dell Zhang(参考訳) 自然言語処理(NLP)は、BERTのような事前訓練された言語モデル(PLM)によって革新されている。 ほぼすべてのNLPタスクに新しいレコードを設定するが、PLMは、解釈可能性の低さ、推論能力の弱さ、下流タスクに適用する場合の高価な注釈付きデータの必要性など、多くの課題に直面している。 外部知識をplmに統合することで、 \textit{\underline{k}nowledge-\underline{e}nhanced \underline{p}re-trained \underline{l}anguage \underline{m}odels} (keplms) は上記の制限を克服する可能性がある。 本稿では,一連の研究を通じて,ケプラムを体系的に検討する。 具体的には、KEPLMに組み込むべき共通型と様々な知識形式について概説し、KEPLMSの構築と評価のための既存の手法の詳細、下流タスクにおけるKEPLMの応用、今後の研究方向性について述べる。 研究者はこの調査の恩恵を受け、この分野の最新動向を迅速かつ包括的に概観する。

Natural Language Processing (NLP) has been revolutionized by the use of Pre-trained Language Models (PLMs) such as BERT. Despite setting new records in nearly every NLP task, PLMs still face a number of challenges including poor interpretability, weak reasoning capability, and the need for a lot of expensive annotated data when applied to downstream tasks. By integrating external knowledge into PLMs, \textit{\underline{K}nowledge-\underline{E}nhanced \underline{P}re-trained \underline{L}anguage \underline{M}odels} (KEPLMs) have the potential to overcome the above-mentioned limitations. In this paper, we examine KEPLMs systematically through a series of studies. Specifically, we outline the common types and different formats of knowledge to be integrated into KEPLMs, detail the existing methods for building and evaluating KEPLMS, present the applications of KEPLMs in downstream tasks, and discuss the future research directions. Researchers will benefit from this survey by gaining a quick and comprehensive overview of the latest developments in this field.
翻訳日:2022-12-29 15:09:34 公開日:2022-12-27
# tegformer: 優れたトピックカバレッジと高いテキストコヒーレンスを備えたトピックツーエッセイ生成

TegFormer: Topic-to-Essay Generation with Good Topic Coverage and High Text Coherence ( http://arxiv.org/abs/2212.13456v1 )

ライセンス: Link先を確認
Wang Qi and Rui Liu and Yuan Zuo and Yong Chen and Dell Zhang(参考訳) 与えられたトピックに基づいてエッセイを作成することは、難しいNLPタスクです。 近年,この問題に対する効果的な手法であるトピック・ツー・エッセイ生成がいくつか出現しているが,特に与えられたトピックのカバレッジや生成されたテキストの一貫性に関して,改善の余地は大きい。 本稿では,エンコーダがドメイン固有のコンテキストに富み,デコーダが大規模に事前学習された言語モデルによって拡張される,TegFormerと呼ばれる新しい手法を提案する。 具体的には、与えられたトピックとそのドメイン固有のコンテキスト間のインタラクションをキャプチャする \emph{topic-extension}層をエンコーダに挿入する。 与えられたトピックは通常簡潔でスパースであるため、このような追加レイヤは、その後の自然言語生成を促進するために、よりトピック関連のセマンティクスをもたらすことができる。 さらに、与えられたコーパスから学習したドメイン固有の単語埋め込みと、大量のテキストデータに事前学習されたGPT-2モデルによって提供される汎用単語埋め込みとを結合した「emph{Embedding-Fusion}モジュールをデコーダに統合する。 GPT-2はより大規模であるため、より暗黙的な言語知識が含まれており、デコーダがより文法的で読みやすいテキストを生成するのに役立つ。 大規模な実験により,TegFormer が生成したテキストは,SOTA のトピック・トゥ・エッセイ技術よりもトピック・カバレッジとテキスト・コヒーレンスが高いことがわかった。 アブレーション研究によって明らかになったように、Topic-Extension 層と Embedding-Fusion モジュールの両方がTegFormer のパフォーマンスに大きく貢献する。

Creating an essay based on a few given topics is a challenging NLP task. Although several effective methods for this problem, topic-to-essay generation, have appeared recently, there is still much room for improvement, especially in terms of the coverage of the given topics and the coherence of the generated text. In this paper, we propose a novel approach called TegFormer which utilizes the Transformer architecture where the encoder is enriched with domain-specific contexts while the decoder is enhanced by a large-scale pre-trained language model. Specifically, a \emph{Topic-Extension} layer capturing the interaction between the given topics and their domain-specific contexts is plugged into the encoder. Since the given topics are usually concise and sparse, such an additional layer can bring more topic-related semantics in to facilitate the subsequent natural language generation. Moreover, an \emph{Embedding-Fusion} module that combines the domain-specific word embeddings learnt from the given corpus and the general-purpose word embeddings provided by a GPT-2 model pre-trained on massive text data is integrated into the decoder. Since GPT-2 is at a much larger scale, it contains a lot more implicit linguistic knowledge which would help the decoder to produce more grammatical and readable text. Extensive experiments have shown that the pieces of text generated by TegFormer have better topic coverage and higher text coherence than those from SOTA topic-to-essay techniques, according to automatic and human evaluations. As revealed by ablation studies, both the Topic-Extension layer and the Embedding-Fusion module contribute substantially to TegFormer's performance advantage.
翻訳日:2022-12-29 15:09:14 公開日:2022-12-27
# 建物におけるデータ駆動型COVID-19コントロール--強化学習アプローチ

Data-driven control of COVID-19 in buildings: a reinforcement-learning approach ( http://arxiv.org/abs/2212.13559v1 )

ライセンス: Link先を確認
Ashkan Haji Hosseinloo, Saleh Nabi, Anette Hosoi, and Munther A. Dahleh(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、公衆衛生の危機に加え、職場の閉鎖と閉鎖につながった。 本研究は、平均的な人が建物や屋内環境で過ごす時間を考えると、建築環境におけるウイルス病原体への被曝を最小限に抑えるために最適な室内空気流を設計するためのデータ駆動制御戦略を提案する。 最適速度場と近似ポリシー最適化を設計するための一般的な制御フレームワークが提案され、データ駆動方式で制御問題を解くために強化学習アルゴリズムが用いられる。 同じ枠組みは、消毒剤を最適に配置してウイルス病原体を中和し、後者の実装が事実上不可能または困難である場合、気流設計の代替として使用する。 シミュレーション実験により,制御エージェントは両シナリオの最適ポリシーを適切な時間内に学習することを示した。 本研究で提案されるデータ駆動型コントロール・フレームワークは,手頃な換気装置や消毒剤で実現可能なケース固有の感染対策ガイドラインを設計する上での方法論の整備の基礎を定め,社会的・経済的に有益である。

In addition to its public health crisis, COVID-19 pandemic has led to the shutdown and closure of workplaces with an estimated total cost of more than $16 trillion. Given the long hours an average person spends in buildings and indoor environments, this research article proposes data-driven control strategies to design optimal indoor airflow to minimize the exposure of occupants to viral pathogens in built environments. A general control framework is put forward for designing an optimal velocity field and proximal policy optimization, a reinforcement learning algorithm is employed to solve the control problem in a data-driven fashion. The same framework is used for optimal placement of disinfectants to neutralize the viral pathogens as an alternative to the airflow design when the latter is practically infeasible or hard to implement. We show, via simulation experiments, that the control agent learns the optimal policy in both scenarios within a reasonable time. The proposed data-driven control framework in this study will have significant societal and economic benefits by setting the foundation for an improved methodology in designing case-specific infection control guidelines that can be realized by affordable ventilation devices and disinfectants.
翻訳日:2022-12-29 15:03:26 公開日:2022-12-27
# WLANにおける適応型探索とスケジューリングのためのオンライン学習

Online Learning for Adaptive Probing and Scheduling in Dense WLANs ( http://arxiv.org/abs/2212.13585v1 )

ライセンス: Link先を確認
Tianyi Xu, Ding Zhang and Zizhan Zheng(参考訳) ネットワークスケジューリングに対する既存のソリューションは、スケジューリング決定が行われる前に瞬時リンクレートが完全に分かっていると仮定するか、データ転送に使われた後のみ正確なリンク品質が検出されるバンディット設定を考える。 実際、意思決定者は、例えば、データ伝送直前のmWaveネットワークのビームフォーミングを通じて(比較的正確な)チャネル情報を得ることができる。 しかし、頻繁なビームフォーミングは、高密度に展開されたmmWave WLANにおいて、強烈なオーバーヘッドを引き起こす。 本稿では,ジョイントリンク探索とスケジューリングによるスループット最適化の重要な課題について考察する。 この問題は、情報収集から得られる情報のバランスとデータ送信機会の削減コストのバランスの必要性から、リンクレート分布(オフライン設定)が既知である場合でも困難である。 探索決定が非適応性である場合に性能が保証される近似アルゴリズムを開発し、より困難な適応設定のための動的プログラミングベースソリューションを提案する。 我々はさらに,未知のリンクレート分布を持つオンライン環境へのソリューションを拡張し,文脈帯域ベースのアルゴリズムを開発し,その後悔の束縛を導出する。 実世界のmmwaveデプロイメントから収集したデータトレースを用いた数値結果は、ソリューションの効率を示している。

Existing solutions to network scheduling typically assume that the instantaneous link rates are completely known before a scheduling decision is made or consider a bandit setting where the accurate link quality is discovered only after it has been used for data transmission. In practice, the decision maker can obtain (relatively accurate) channel information, e.g., through beamforming in mmWave networks, right before data transmission. However, frequent beamforming incurs a formidable overhead in densely deployed mmWave WLANs. In this paper, we consider the important problem of throughput optimization with joint link probing and scheduling. The problem is challenging even when the link rate distributions are pre-known (the offline setting) due to the necessity of balancing the information gains from probing and the cost of reducing the data transmission opportunity. We develop an approximation algorithm with guaranteed performance when the probing decision is non-adaptive, and a dynamic programming based solution for the more challenging adaptive setting. We further extend our solutions to the online setting with unknown link rate distributions and develop a contextual-bandit based algorithm and derive its regret bound. Numerical results using data traces collected from real-world mmWave deployments demonstrate the efficiency of our solutions.
翻訳日:2022-12-29 15:03:04 公開日:2022-12-27
# 大規模データセットのための高速かつ完全自動ヒストグラム

Fast and fully-automated histograms for large-scale data sets ( http://arxiv.org/abs/2212.13524v1 )

ライセンス: Link先を確認
Valentina Zelaya Mendiz\'abal (SAMM), Marc Boull\'e, Fabrice Rossi (CEREMADE)(参考訳) G-Enumヒストグラムは不規則ヒストグラム構築の新しい高速かつ完全自動化法である。 ヒストグラム構造を密度推定問題として、そしてモデル選択タスクとして自動化することにより、これらのヒストグラムは最小記述長原理(MDL)を利用して2つの異なるモデル選択基準を導出する。 これらの基準に関するいくつかの理論的な結果は、漸近的な振る舞いについての洞察を与え、最適化をスピードアップするために用いられる。 これらの洞察は、欲深い探索ヒューリスティックと組み合わせられ、以前の作品によってもたらされる多項式時間よりも、線形時間におけるヒストグラムを構築するために用いられる。 提案したmdl密度推定法の性能は,合成データと大規模実世界データの両方について,文献中の他の完全自動化手法を参照して示される。

G-Enum histograms are a new fast and fully automated method for irregular histogram construction. By framing histogram construction as a density estimation problem and its automation as a model selection task, these histograms leverage the Minimum Description Length principle (MDL) to derive two different model selection criteria. Several proven theoretical results about these criteria give insights about their asymptotic behavior and are used to speed up their optimisation. These insights, combined to a greedy search heuristic, are used to construct histograms in linearithmic time rather than the polynomial time incurred by previous works. The capabilities of the proposed MDL density estimation method are illustrated with reference to other fully automated methods in the literature, both on synthetic and large real-world data sets.
翻訳日:2022-12-29 15:01:20 公開日:2022-12-27
# NeRN - ニューラルネットワークのためのニューラルネットワークの学習

NeRN -- Learning Neural Representations for Neural Networks ( http://arxiv.org/abs/2212.13554v1 )

ライセンス: Link先を確認
Maor Ashkenazi, Zohar Rimon, Ron Vainshtein, Shir Levi, Elad Richardson, Pinchas Mintz, Eran Treister(参考訳) ニューラル表現は、3dメッシュや形状から画像やビデオに至るまで、幅広い信号を効果的に再構築することが最近示されている。 正しく適応すると、事前学習された畳み込みニューラルネットワークの重みを直接表現するためにニューラルネットワーク表現が使用され、ニューラルネットワーク(nern)のためのニューラルネットワーク表現が生成される。 従来のニューラル表現法の座標入力に触発されて,ネットワーク内の各畳み込みカーネルに,アーキテクチャ上の位置に基づいて座標を割り当て,予測器ネットワークを最適化して対応する重み付けに座標をマッピングする。 視覚シーンの空間的平滑性と同様に、元のネットワークの重み付けに滑らかさ制約を組み込むことで、より良い再構築が容易になることを示す。 また,事前学習したモデル重みのわずかな摂動は,相当な精度の損失をもたらす可能性があるため,学習過程の安定化のために知識蒸留の技法を用いる。 CIFAR-10, CIFAR-100, ImageNet上で広く使用されているアーキテクチャの再構築におけるNeRNの有効性を示す。 最後に,nernを用いた2つのアプリケーションを示し,学習表現の能力を示す。

Neural Representations have recently been shown to effectively reconstruct a wide range of signals from 3D meshes and shapes to images and videos. We show that, when adapted correctly, neural representations can be used to directly represent the weights of a pre-trained convolutional neural network, resulting in a Neural Representation for Neural Networks (NeRN). Inspired by coordinate inputs of previous neural representation methods, we assign a coordinate to each convolutional kernel in our network based on its position in the architecture, and optimize a predictor network to map coordinates to their corresponding weights. Similarly to the spatial smoothness of visual scenes, we show that incorporating a smoothness constraint over the original network's weights aids NeRN towards a better reconstruction. In addition, since slight perturbations in pre-trained model weights can result in a considerable accuracy loss, we employ techniques from the field of knowledge distillation to stabilize the learning process. We demonstrate the effectiveness of NeRN in reconstructing widely used architectures on CIFAR-10, CIFAR-100, and ImageNet. Finally, we present two applications using NeRN, demonstrating the capabilities of the learned representations.
翻訳日:2022-12-29 14:54:25 公開日:2022-12-27
# サンプル効率分類のための条件付き生成対向ネットワークを用いた協調教師付き学習パラダイム

Co-supervised learning paradigm with conditional generative adversarial networks for sample-efficient classification ( http://arxiv.org/abs/2212.13589v1 )

ライセンス: Link先を確認
Hao Zhen, Yucheng Shi, Jidong J. Yang, and Javad Mohammadpour Vehni(参考訳) 教師付き学習を用いた分類では、モデルトレーニングとテストのために大量のクラスバランスデータを注釈付けする必要がある。 これは、教師付き学習、特にディープラーニングのアプリケーションの範囲を事実上制限している。 本稿では, 限定的かつ不均衡なデータに関する問題に対処するために, 条件付き生成敵ネットワーク (cgan) を分類器と共に訓練し, 学習過程中の注釈付きデータに対して意味的条件付き, 信頼度対応型合成例を補足する, サンプル効率の高い共同教師付き学習パラダイム (sec-cgan) を提案する。 この設定では、CGANはコスーパーバイザとして機能するだけでなく、エンドツーエンドで分類器のトレーニングを支援するための補完的な品質の例も提供する。 実験により、SEC-CGAN は外部分類器 GAN (EC-GAN) とベースラインの ResNet-18 分類器より優れていることが示された。 比較のために、上記のメソッドのすべての分類器は、バックボーンとしてresnet-18アーキテクチャを採用する。 特に、ストリートビューハウス番号データセットでは、トレーニングデータの5%を用いて、ベースライン分類器の88.59%、ベースライン分類器の87.17%に対して、テスト精度90.26%がSEC-CGANにより達成され、トレーニングデータの10%を使用して、試験精度98.27%がSEC-CGANによって達成され、EC-GANでは97.84%、ベースライン分類器では95.52%が達成される。

Classification using supervised learning requires annotating a large amount of classes-balanced data for model training and testing. This has practically limited the scope of applications with supervised learning, in particular deep learning. To address the issues associated with limited and imbalanced data, this paper introduces a sample-efficient co-supervised learning paradigm (SEC-CGAN), in which a conditional generative adversarial network (CGAN) is trained alongside the classifier and supplements semantics-conditioned, confidence-aware synthesized examples to the annotated data during the training process. In this setting, the CGAN not only serves as a co-supervisor but also provides complementary quality examples to aid the classifier training in an end-to-end fashion. Experiments demonstrate that the proposed SEC-CGAN outperforms the external classifier GAN (EC-GAN) and a baseline ResNet-18 classifier. For the comparison, all classifiers in above methods adopt the ResNet-18 architecture as the backbone. Particularly, for the Street View House Numbers dataset, using the 5% of training data, a test accuracy of 90.26% is achieved by SEC-CGAN as opposed to 88.59% by EC-GAN and 87.17% by the baseline classifier; for the highway image dataset, using the 10% of training data, a test accuracy of 98.27% is achieved by SEC-CGAN, compared to 97.84% by EC-GAN and 95.52% by the baseline classifier.
翻訳日:2022-12-29 14:54:04 公開日:2022-12-27
# ベイズニューラルネットワークによる高構成ソフトウェアシステムの不確実性認識性能予測

Uncertainty-Aware Performance Prediction for Highly Configurable Software Systems via Bayesian Neural Networks ( http://arxiv.org/abs/2212.13359v1 )

ライセンス: Link先を確認
Huong Ha, Zongwen Fan, Hongyu Zhang(参考訳) 構成可能なソフトウェアシステムは、多くの重要なアプリケーションドメインで採用されている。 すべての構成下でシステムの性能を理解することは、構成ミスによる潜在的な性能問題を防止するために重要である。 しかしながら、構成数を制限的に大きくすることができるため、すべての構成でシステム性能を測定することは不可能である。 したがって、一般的なアプローチは、限られた測定データから予測モデルを構築し、すべての構成のパフォーマンスをスカラー値として予測する。 しかし、データ収集やモデリングプロセスから生じる不確実性は異なることが指摘されており、スカラー予測が必ずしも正確ではないことが指摘されている。 そこで本研究では,不確かさを予測モデルに組み込むベイズ型深層学習法であるbdlperfを提案する。 BDLPerfは、構成の性能に関するスカラー予測と、これらのスカラー予測の対応する信頼区間の両方を提供する。 また,ベイズ予測モデルによる信頼区間の信頼性を確保するための新しい不確実性校正手法を開発した。 最後に,高い精度を実現しつつ,適切な時間内に予測モデルをトレーニングするために,効率的なハイパーパラメータチューニング手法を提案する。 実世界の10のシステムにおける実験結果から,BDLPerfはスカラー性能予測と信頼区間推定の両方において,既存の手法よりも精度が高いことがわかった。

Configurable software systems are employed in many important application domains. Understanding the performance of the systems under all configurations is critical to prevent potential performance issues caused by misconfiguration. However, as the number of configurations can be prohibitively large, it is not possible to measure the system performance under all configurations. Thus, a common approach is to build a prediction model from a limited measurement data to predict the performance of all configurations as scalar values. However, it has been pointed out that there are different sources of uncertainty coming from the data collection or the modeling process, which can make the scalar predictions not certainly accurate. To address this problem, we propose a Bayesian deep learning based method, namely BDLPerf, that can incorporate uncertainty into the prediction model. BDLPerf can provide both scalar predictions for configurations' performance and the corresponding confidence intervals of these scalar predictions. We also develop a novel uncertainty calibration technique to ensure the reliability of the confidence intervals generated by a Bayesian prediction model. Finally, we suggest an efficient hyperparameter tuning technique so as to train the prediction model within a reasonable amount of time whilst achieving high accuracy. Our experimental results on 10 real-world systems show that BDLPerf achieves higher accuracy than existing approaches, in both scalar performance prediction and confidence interval estimation.
翻訳日:2022-12-29 14:51:54 公開日:2022-12-27
# ウェーブレットに基づくオンライン逐次学習マシンネットワークを用いた電力品質事象認識と分類

Power Quality Event Recognition and Classification Using an Online Sequential Extreme Learning Machine Network based on Wavelets ( http://arxiv.org/abs/2212.13375v1 )

ライセンス: Link先を確認
Rahul Kumar Dubey(参考訳) システムの信頼性の低下とメンテナンスコストの増大は、電力品質の低下によるものであり、通常の機器性能の低下や老化のスピードアップ、さらには異常な故障を引き起こす可能性がある。 本研究は,過渡条件下での電力品質問題を検出するためのウェーブレットに基づくオンラインシーケンシャル・エクストリーム・ラーニング・マシン(os-elm)のプロトタイプを実装し,検証する。 分類器を作成するために、OSELM-networkモデルと離散ウェーブレット変換(DWT)法を組み合わせる。 まず, 離散ウェーブレット変換 (dwt) マルチレゾリューション解析 (mra) を用いて, 歪み信号の特性を様々な解像度で抽出した。 OSELMは取得したデータを過渡的な持続時間とエネルギー特性でソートして、障害の種類を決定する。 提案手法では、信号の本来の品質を変えることなく、歪んだ信号の特性の量を最小限に抑えることができるため、メモリスペースと処理時間が少なくなる。 ソーグ、シャウチ、瞬間的中断、発振性トランジェント、ハーモニックス、ノッチ、スパイク、フリッカー、サグ・シャウチ、サグ・ミ、サグ・ハーモ、シャウチ・トランス、サグ・スパイク、シャウチ・スパイクなど、様々な種類のパワー障害を検出し、分類する能力を示すために、いくつかのタイプの過渡現象が使用された。

Reduced system dependability and higher maintenance costs may be the consequence of poor electric power quality, which can disturb normal equipment performance, speed up aging, and even cause outright failures. This study implements and tests a prototype of an Online Sequential Extreme Learning Machine (OS-ELM) classifier based on wavelets for detecting power quality problems under transient conditions. In order to create the classifier, the OSELM-network model and the discrete wavelet transform (DWT) method are combined. First, discrete wavelet transform (DWT) multi-resolution analysis (MRA) was used to extract characteristics of the distorted signal at various resolutions. The OSELM then sorts the retrieved data by transient duration and energy features to determine the kind of disturbance. The suggested approach requires less memory space and processing time since it can minimize a large quantity of the distorted signal's characteristics without changing the signal's original quality. Several types of transient events were used to demonstrate the classifier's ability to detect and categorize various types of power disturbances, including sags, swells, momentary interruptions, oscillatory transients, harmonics, notches, spikes, flickers, sag swell, sag mi, sag harm, swell trans, sag spike, and swell spike.
翻訳日:2022-12-29 14:51:33 公開日:2022-12-27
# マルチエージェント強化学習におけるストレンジネス駆動探索

Strangeness-driven Exploration in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2212.13448v1 )

ライセンス: Link先を確認
Ju-Bong Kim, Ho-Bin Choi, Youn-Hee Han(参考訳) 効率的な探索戦略は、複雑な協調を必要とするマルチエージェント強化学習(marl)アルゴリズムにおいて重要な問題の一つである。 本研究では,任意の集中型トレーニングと分散実行(CTDE)に基づくMARLアルゴリズムに容易に組み込むことのできる,奇異性のある新たな探索手法を提案する。 奇妙なことに、エージェントが訪れた観察の見慣れない程度を指す。 観測の奇妙さを世界的視点で示すため、訪問した国家全体の不慣れさの度合いも増す。 探索ボーナスは奇異性から得られ,提案手法はMARLタスクでよく見られる確率遷移の影響を受けない。 また,MARLトレーニングを外因性報酬に敏感にすることを防止するために,外因性報酬と探索ボーナスの両方で訓練された個別のアクション値関数を提案し,遷移を生成する行動ポリシーを設計する。 これはctdeベースのmarlアルゴリズムを探索法で使用する際により安定させる。 提案手法は, 実例とStarCraft Multi-Agent Challengeの比較により, CTDEに基づくMARLアルゴリズムにおいて, 大幅な性能向上を実現していることを示す。

Efficient exploration strategy is one of essential issues in cooperative multi-agent reinforcement learning (MARL) algorithms requiring complex coordination. In this study, we introduce a new exploration method with the strangeness that can be easily incorporated into any centralized training and decentralized execution (CTDE)-based MARL algorithms. The strangeness refers to the degree of unfamiliarity of the observations that an agent visits. In order to give the observation strangeness a global perspective, it is also augmented with the the degree of unfamiliarity of the visited entire state. The exploration bonus is obtained from the strangeness and the proposed exploration method is not much affected by stochastic transitions commonly observed in MARL tasks. To prevent a high exploration bonus from making the MARL training insensitive to extrinsic rewards, we also propose a separate action-value function trained by both extrinsic reward and exploration bonus, on which a behavioral policy to generate transitions is designed based. It makes the CTDE-based MARL algorithms more stable when they are used with an exploration method. Through a comparative evaluation in didactic examples and the StarCraft Multi-Agent Challenge, we show that the proposed exploration method achieves significant performance improvement in the CTDE-based MARL algorithms.
翻訳日:2022-12-29 14:51:04 公開日:2022-12-27
# 2層オートエンコーダの基本限界とグラディエント法による達成

Fundamental Limits of Two-layer Autoencoders, and Achieving Them with Gradient Methods ( http://arxiv.org/abs/2212.13468v1 )

ライセンス: Link先を確認
Alexander Shevchenko, Kevin K\"ogler, Hamed Hassani, Marco Mondelli(参考訳) オートエンコーダは、機械学習と損失データ圧縮の多くの分野で一般的なモデルである。 しかし、それらの基本的な限界、勾配法の性能、最適化中に学習した特徴は、2層設定においてもよく分かっていない。 実際、初期の研究はリニアオートエンコーダか、特定のトレーニングレジーム(圧縮率の消失や分散を導く)のどちらかを検討した。 本稿では,入力次元が表現の大きさと線形にスケールする挑戦的比例法で訓練された非線形2層オートエンコーダに着目して,このギャップに対処する。 本研究は,人口リスクの最小化を特徴とし,そのような最小化は勾配法によって達成されていることを示し,その構造も明らかにし,訓練によって得られた特徴を簡潔に記述する。 符号アクティベーション関数の特別な場合において、この解析は、シャローオートエンコーダによるガウス音源の損失圧縮の基本的な限界を確立する。 最後に、ガウスデータに対して結果が証明される一方で、標準データセット上の数値シミュレーションは理論予測の普遍性を示す。

Autoencoders are a popular model in many branches of machine learning and lossy data compression. However, their fundamental limits, the performance of gradient methods and the features learnt during optimization remain poorly understood, even in the two-layer setting. In fact, earlier work has considered either linear autoencoders or specific training regimes (leading to vanishing or diverging compression rates). Our paper addresses this gap by focusing on non-linear two-layer autoencoders trained in the challenging proportional regime in which the input dimension scales linearly with the size of the representation. Our results characterize the minimizers of the population risk, and show that such minimizers are achieved by gradient methods; their structure is also unveiled, thus leading to a concise description of the features obtained via training. For the special case of a sign activation function, our analysis establishes the fundamental limits for the lossy compression of Gaussian sources via (shallow) autoencoders. Finally, while the results are proved for Gaussian data, numerical simulations on standard datasets display the universality of the theoretical predictions.
翻訳日:2022-12-29 14:45:05 公開日:2022-12-27
# 多項ロジスティック関数近似を用いたモデルベース強化学習

Model-Based Reinforcement Learning with Multinomial Logistic Function Approximation ( http://arxiv.org/abs/2212.13540v1 )

ライセンス: Link先を確認
Taehyun Hwang and Min-hwan Oh(参考訳) 状態と動作の特徴を有する未知の遷移コアにより遷移確率がパラメトリ化されるエピソディックマルコフ決定過程(mdp)に対するモデルベース強化学習(rl)について検討した。 線形MDP設定におけるアルゴリズム解析の進歩にもかかわらず、より一般的な遷移モデルの理解は非常に限定的である。 本稿では,多項ロジスティックモデルにより状態遷移が与えられるMPPのための証明可能な効率の良いRLアルゴリズムを確立する。 探索・探索トレードオフのバランスをとるために,高信頼境界ベースアルゴリズムを提案する。 提案したアルゴリズムは、$d$が遷移コアの次元、$H$が水平、$T$がステップの総数である場合に、$\tilde{\mathcal{O}}(d \sqrt{H^3 T})$ regret boundを達成することを示す。 我々の知る限りでは、これは証明可能な保証を持つ多項ロジスティック関数近似を持つ最初のモデルベースのrlアルゴリズムである。 また,提案アルゴリズムを数値的に評価し,既存の手法よりも一貫して優れており,証明可能な効率と実用上の優れた性能を両立できることを示す。

We study model-based reinforcement learning (RL) for episodic Markov decision processes (MDP) whose transition probability is parametrized by an unknown transition core with features of state and action. Despite much recent progress in analyzing algorithms in the linear MDP setting, the understanding of more general transition models is very restrictive. In this paper, we establish a provably efficient RL algorithm for the MDP whose state transition is given by a multinomial logistic model. To balance the exploration-exploitation trade-off, we propose an upper confidence bound-based algorithm. We show that our proposed algorithm achieves $\tilde{\mathcal{O}}(d \sqrt{H^3 T})$ regret bound where $d$ is the dimension of the transition core, $H$ is the horizon, and $T$ is the total number of steps. To the best of our knowledge, this is the first model-based RL algorithm with multinomial logistic function approximation with provable guarantees. We also comprehensively evaluate our proposed algorithm numerically and show that it consistently outperforms the existing methods, hence achieving both provable efficiency and practical superior performance.
翻訳日:2022-12-29 14:44:48 公開日:2022-12-27
# 確率凸最適化における勾配差分法による情報理論一般化境界の制限

Limitations of Information-Theoretic Generalization Bounds for Gradient Descent Methods in Stochastic Convex Optimization ( http://arxiv.org/abs/2212.13556v1 )

ライセンス: Link先を確認
Mahdi Haghifam, Borja Rodr\'iguez-G\'alvez, Ragnar Thobaben, Mikael Skoglund, Daniel M. Roy, Gintare Karolina Dziugaite(参考訳) 現在までに、一般化誤差に関する推論のための「情報理論」フレームワークは、確率凸最適化の設定において勾配降下の最小値速度を確立することが示されていない。 本研究では,入力出力相互情報境界,条件付き相互情報境界および変分,PAC-Bayes境界,および最近の条件付き変分など,既存の情報理論フレームワークを通じてそのようなレートを確立する可能性を検討する。 これらの境界はいずれもミニマックスレートを確立できないことを証明します。 グラデーション法の研究で用いられる一般的な手法を考えると、最終イテレートはガウス雑音によって崩壊し、ノイズの多い「サロゲート」アルゴリズムを生成する。 このようなサロゲートの解析によりミニマックスレートを確立できないことを示す。 以上より,情報理論的手法を用いて勾配降下解析を行うには,新しいアイデアが必要であることが示唆された。

To date, no "information-theoretic" frameworks for reasoning about generalization error have been shown to establish minimax rates for gradient descent in the setting of stochastic convex optimization. In this work, we consider the prospect of establishing such rates via several existing information-theoretic frameworks: input-output mutual information bounds, conditional mutual information bounds and variants, PAC-Bayes bounds, and recent conditional variants thereof. We prove that none of these bounds are able to establish minimax rates. We then consider a common tactic employed in studying gradient methods, whereby the final iterate is corrupted by Gaussian noise, producing a noisy "surrogate" algorithm. We prove that minimax rates cannot be established via the analysis of such surrogates. Our results suggest that new ideas are required to analyze gradient descent using information-theoretic techniques.
翻訳日:2022-12-29 14:44:26 公開日:2022-12-27
# AER: 時系列異常検出のための回帰付きオートエンコーダ

AER: Auto-Encoder with Regression for Time Series Anomaly Detection ( http://arxiv.org/abs/2212.13558v1 )

ライセンス: Link先を確認
Lawrence Wong, Dongyu Liu, Laure Berti-Equille, Sarah Alnegheimish, Kalyan Veeramachaneni(参考訳) 時系列データの異常検出は、潜在的な事故や経済的な損失を防ぐためにメトリクスを監視する様々な産業領域でますます一般的になっている。 しかし、ラベル付きデータの不足と異常の曖昧な定義はこれらの努力を複雑にすることができる。 最近の教師なし機械学習手法は、単一タイムスタンプ予測または時系列再構成を用いてこの問題に対処する際、顕著な進歩を遂げている。 従来は別々に検討されてきたが、これらの手法は相互排他的ではなく、異常検出に関する補完的な視点を提供することができる。 本稿ではまず,時系列信号と異常スコアを可視化した予測および再構成に基づく手法の成功と限界について述べる。 次に,バニラオートエンコーダとLSTM回帰器を組み合わせた共同モデルであるAER(Auto-encoder with Regression)を提案する。 本モデルでは,共同目的関数を最適化することで,元の時系列を再現しながら双方向予測を行うことができる。 さらに,一連のアブレーション研究を通じて,予測誤差と復元誤差を組み合わせる方法を提案する。 最後に,AERアーキテクチャの性能を,NASA,Yahoo,Numenta,UCRの12個の有名な時系列データセットに対して,予測に基づく2つの手法と再構成に基づく3つの手法と比較した。 その結果、AERはすべてのデータセットの平均F1スコアが最も高く(ARIMAと比較して23.5%改善)、バニラオートエンコーダや回帰器コンポーネントに似たランタイムを維持していることがわかった。 当社のモデルは,時系列異常検出のためのオープンソースのベンチマークツールであるOrionで利用可能である。

Anomaly detection on time series data is increasingly common across various industrial domains that monitor metrics in order to prevent potential accidents and economic losses. However, a scarcity of labeled data and ambiguous definitions of anomalies can complicate these efforts. Recent unsupervised machine learning methods have made remarkable progress in tackling this problem using either single-timestamp predictions or time series reconstructions. While traditionally considered separately, these methods are not mutually exclusive and can offer complementary perspectives on anomaly detection. This paper first highlights the successes and limitations of prediction-based and reconstruction-based methods with visualized time series signals and anomaly scores. We then propose AER (Auto-encoder with Regression), a joint model that combines a vanilla auto-encoder and an LSTM regressor to incorporate the successes and address the limitations of each method. Our model can produce bi-directional predictions while simultaneously reconstructing the original time series by optimizing a joint objective function. Furthermore, we propose several ways of combining the prediction and reconstruction errors through a series of ablation studies. Finally, we compare the performance of the AER architecture against two prediction-based methods and three reconstruction-based methods on 12 well-known univariate time series datasets from NASA, Yahoo, Numenta, and UCR. The results show that AER has the highest averaged F1 score across all datasets (a 23.5% improvement compared to ARIMA) while retaining a runtime similar to its vanilla auto-encoder and regressor components. Our model is available in Orion, an open-source benchmarking tool for time series anomaly detection.
翻訳日:2022-12-29 14:44:10 公開日:2022-12-27
# LOSDD:outlier DetectionのためのLeave-outサポートベクタデータ記述

LOSDD: Leave-Out Support Vector Data Description for Outlier Detection ( http://arxiv.org/abs/2212.13626v1 )

ライセンス: Link先を確認
Daniel Boiar and Thomas Liebig and Erich Schubert(参考訳) サポートベクターマシンは、クリーンなデータでトレーニングされた場合のワンクラス分類(ocsvm、svdd)にうまく使われてきたが、汚れたデータではずっとうまく動作している。 本稿では,1つの候補を一時的に省略することで,残余データのみを用いて,汚れたトレーニングデータの外れ値の検出の有効性を向上する。 既存のSVMベースのアプローチのスラック項を使用するよりも,点の外れ度を評価する方が効果的であることを示す。 識別された外れ値がデータから削除され、他の外れ値によって隠された外れ値が識別され、マスキングの問題を軽減できる。 このアプローチでは、N個の個別のSVM(かつ、最悪のアウトレイラを一度に繰り返し削除する場合に$O(N^2)$ SVMをトレーニングする)をトレーニングする必要があります。 各ステップでサポートベクトルのみを考慮し、SVMパラメータと重みを再利用することで、この漸進的再トレーニングが大幅に加速できるかどうかを議論する。 バッチ内の候補を取り除くことで、処理時間をさらに改善できますが、明らかに単一のSVMをトレーニングするよりもコストがかかります。

Support Vector Machines have been successfully used for one-class classification (OCSVM, SVDD) when trained on clean data, but they work much worse on dirty data: outliers present in the training data tend to become support vectors, and are hence considered "normal". In this article, we improve the effectiveness to detect outliers in dirty training data with a leave-out strategy: by temporarily omitting one candidate at a time, this point can be judged using the remaining data only. We show that this is more effective at scoring the outlierness of points than using the slack term of existing SVM-based approaches. Identified outliers can then be removed from the data, such that outliers hidden by other outliers can be identified, to reduce the problem of masking. Naively, this approach would require training N individual SVMs (and training $O(N^2)$ SVMs when iteratively removing the worst outliers one at a time), which is prohibitively expensive. We will discuss that only support vectors need to be considered in each step and that by reusing SVM parameters and weights, this incremental retraining can be accelerated substantially. By removing candidates in batches, we can further improve the processing time, although it obviously remains more costly than training a single SVM.
翻訳日:2022-12-29 14:43:45 公開日:2022-12-27
# 量子リスク制御:高損失予測の確率をバウンディングするためのフレキシブルなフレームワーク

Quantile Risk Control: A Flexible Framework for Bounding the Probability of High-Loss Predictions ( http://arxiv.org/abs/2212.13629v1 )

ライセンス: Link先を確認
Jake C. Snell, Thomas P. Zollo, Zhun Deng, Toniann Pitassi and Richard Zemel(参考訳) 予測アルゴリズムの性能に関する厳密な保証は、それらの責任ある使用を保証するために必要である。 これまでの研究は主に予測器の損失の予測に重点を置いてきたが、エラーの分布が重要である多くのリスクに敏感なアプリケーションでは十分ではない。 本研究では,予測器によって発生する損失分布の分位数に対する境界の族を生成するための柔軟な枠組みを提案する。 本手法は, サンプル平均のみに依存するのではなく, 観測損失値の順序統計を利用する。 予測性能を定量化するための情報的手法であり,データ分散の重要な部分集合を対象とする,様々な定量化基準に適用可能であることを示す。 提案手法の理論的特性を解析し、実世界の複数のデータセットにおける損失量子化を厳格に制御できることを実証する。

Rigorous guarantees about the performance of predictive algorithms are necessary in order to ensure their responsible use. Previous work has largely focused on bounding the expected loss of a predictor, but this is not sufficient in many risk-sensitive applications where the distribution of errors is important. In this work, we propose a flexible framework to produce a family of bounds on quantiles of the loss distribution incurred by a predictor. Our method takes advantage of the order statistics of the observed loss values rather than relying on the sample mean alone. We show that a quantile is an informative way of quantifying predictive performance, and that our framework applies to a variety of quantile-based metrics, each targeting important subsets of the data distribution. We analyze the theoretical properties of our proposed method and demonstrate its ability to rigorously control loss quantiles on several real-world datasets.
翻訳日:2022-12-29 14:43:20 公開日:2022-12-27
# MixupE: 方向微分の観点からのミックスアップの理解と改善

MixupE: Understanding and Improving Mixup from Directional Derivative Perspective ( http://arxiv.org/abs/2212.13381v1 )

ライセンス: Link先を確認
Vikas Verma, Sarthak Mittal, Wai Hoh Tang, Hieu Pham, Juho Kannala, Yoshua Bengio, Arno Solin, Kenji Kawaguchi(参考訳) Mixupはディープニューラルネットワークをトレーニングするための一般的なデータ拡張テクニックで、入力とラベルを線形に補間することで追加サンプルを生成する。 この技術は多くの学習パラダイムや応用において一般化性能を向上させることが知られている。 本研究では,まず混合を解析し,すべての順序の無限個の方向微分を暗黙的に規則化することを示す。 そこで我々は,新しい洞察に基づいてMixupを改善する新しい手法を提案する。 提案手法の有効性を示すために,画像,表データ,音声,グラフなどの様々な領域で実験を行った。 提案手法は,様々なアーキテクチャを用いて様々なデータセットにまたがるミックスアップを改善し,イメージネットトップ1の精度を0.8%向上させた。

Mixup is a popular data augmentation technique for training deep neural networks where additional samples are generated by linearly interpolating pairs of inputs and their labels. This technique is known to improve the generalization performance in many learning paradigms and applications. In this work, we first analyze Mixup and show that it implicitly regularizes infinitely many directional derivatives of all orders. We then propose a new method to improve Mixup based on the novel insight. To demonstrate the effectiveness of the proposed method, we conduct experiments across various domains such as images, tabular data, speech, and graphs. Our results show that the proposed method improves Mixup across various datasets using a variety of architectures, for instance, exhibiting an improvement over Mixup by 0.8% in ImageNet top-1 accuracy.
翻訳日:2022-12-29 14:42:32 公開日:2022-12-27
# Truncate-Split-Contrast: ビデオから学ぶためのフレームワーク

Truncate-Split-Contrast: A Framework for Learning from Mislabeled Videos ( http://arxiv.org/abs/2212.13495v1 )

ライセンス: Link先を確認
Wang Zixiao, Weng Junwu, Yuan Chun, and Wang Jue(参考訳) ノイズラベルを用いた学習(LNL)は、画像タスクのために広く研究されてきた古典的な問題であるが、文学におけるビデオでははるかに少ない。 計算コストや冗長な情報といったビデオの特性を考慮せずに、画像からビデオへ簡単に移行することは、良い選択ではない。 本稿では,雑音ラベルを用いたビデオ解析のための2つの新しい手法を提案する。 1)特徴量に基づくラベルノイズ検出のためのチャネルトラニケーションと呼ばれる軽量チャネル選択法 本手法は,各カテゴリのクリーンかつノイズの多いインスタンスを分割する最も識別性の高いチャネルを選択する。 2) モデル学習を規則化するクリーンインスタンスとノイズインスタンスの関係を構成するノイズコントラスト学習と呼ばれる新しいコントラスト戦略。 ビデオ分類のための3つのよく知られたベンチマークデータセットの実験により、提案したtru{\bf N}cat{\bf E}-split-contr{\bf A}s{\bf T} (NEAT) が既存のベースラインを大幅に上回ることを示した。 本手法では,大雑音下での最小運動量データセットにおける0.4以上のノイズ検出f1-scoreと5.%の分類精度向上を実現する(対称80-%)。 ノイズコントラスト学習により、Mini-KineticsとSth-Sth-V1の平均分類精度は1.6\%以上向上した。

Learning with noisy label (LNL) is a classic problem that has been extensively studied for image tasks, but much less for video in the literature. A straightforward migration from images to videos without considering the properties of videos, such as computational cost and redundant information, is not a sound choice. In this paper, we propose two new strategies for video analysis with noisy labels: 1) A lightweight channel selection method dubbed as Channel Truncation for feature-based label noise detection. This method selects the most discriminative channels to split clean and noisy instances in each category; 2) A novel contrastive strategy dubbed as Noise Contrastive Learning, which constructs the relationship between clean and noisy instances to regularize model training. Experiments on three well-known benchmark datasets for video classification show that our proposed tru{\bf N}cat{\bf E}-split-contr{\bf A}s{\bf T} (NEAT) significantly outperforms the existing baselines. By reducing the dimension to 10\% of it, our method achieves over 0.4 noise detection F1-score and 5\% classification accuracy improvement on Mini-Kinetics dataset under severe noise (symmetric-80\%). Thanks to Noise Contrastive Learning, the average classification accuracy improvement on Mini-Kinetics and Sth-Sth-V1 is over 1.6\%.
翻訳日:2022-12-29 14:42:18 公開日:2022-12-27
# Cascading Actor-Critic Agentによるトレーサブル自動特徴変換

Traceable Automatic Feature Transformation via Cascading Actor-Critic Agents ( http://arxiv.org/abs/2212.13402v1 )

ライセンス: Link先を確認
Meng Xiao, Dongjie Wang, Min Wu, Ziyue Qiao, Pengfei Wang, Kunpeng Liu, Yuanchun Zhou, Yanjie Fu(参考訳) AIの機能変換は、機械学習(ML)の有効性と解釈可能性を高めるために不可欠である。 特徴変換は、下流MLモデルの性能を高める最適な特徴空間を特定するために、オリジナルデータを変換することを目的としている。 既存の研究は、前処理、特徴選択、生成スキルを組み合わせてデータを経験的に変換するか、強化学習のような機械知性による特徴変換を自動化する。 しかし、既存の研究は下記のとおりである。 1) 高次元非判別的特徴空間 2) 複雑な状況を表すことができないこと 3)地域的・グローバル的特徴情報の統合の非効率性。 研究ギャップを埋めるために、特徴変換タスクを、特徴生成と選択の反復的、ネストされたプロセスとして定式化し、特徴生成は元の特徴に基づいて新機能を生成し、追加し、特徴選択は余分な特徴を取り除き、特徴空間のサイズを制御する。 最後に、高次元データにおけるSOTAとロバスト性と比較して、F1スコアの24.7%改善を示す広範な実験とケーススタディを示す。

Feature transformation for AI is an essential task to boost the effectiveness and interpretability of machine learning (ML). Feature transformation aims to transform original data to identify an optimal feature space that enhances the performances of a downstream ML model. Existing studies either combines preprocessing, feature selection, and generation skills to empirically transform data, or automate feature transformation by machine intelligence, such as reinforcement learning. However, existing studies suffer from: 1) high-dimensional non-discriminative feature space; 2) inability to represent complex situational states; 3) inefficiency in integrating local and global feature information. To fill the research gap, we formulate the feature transformation task as an iterative, nested process of feature generation and selection, where feature generation is to generate and add new features based on original features, and feature selection is to remove redundant features to control the size of feature space. Finally, we present extensive experiments and case studies to illustrate 24.7\% improvements in F1 scores compared with SOTAs and robustness in high-dimensional data.
翻訳日:2022-12-29 14:34:51 公開日:2022-12-27
# 自己メタ擬似ラベル:教師のいないメタ擬似ラベル

Self Meta Pseudo Labels: Meta Pseudo Labels Without The Teacher ( http://arxiv.org/abs/2212.13420v1 )

ライセンス: Link先を確認
Kei-Sing Ng, Qingchen Wang(参考訳) 自己メタ擬似ラベル(Self Meta Pseudo Labels)は,メタ擬似ラベルに似た新しい半教師付き学習法である。 擬似ラベルの生成と分類の両方に単一モデルを使用する新しい方法を導入し、2つのモデルではなく1つのモデルのみをメモリに格納する。 メモリ使用量を大幅に削減しつつ,Meta Pseudo Labels法に類似した性能を実現する。

We present Self Meta Pseudo Labels, a novel semi-supervised learning method similar to Meta Pseudo Labels but without the teacher model. We introduce a novel way to use a single model for both generating pseudo labels and classification, allowing us to store only one model in memory instead of two. Our method attains similar performance to the Meta Pseudo Labels method while drastically reducing memory usage.
翻訳日:2022-12-29 14:34:33 公開日:2022-12-27
# 医療における知識誘導型データ中心ai:進歩、欠点、今後の方向性

Knowledge-Guided Data-Centric AI in Healthcare: Progress, Shortcomings, and Future Directions ( http://arxiv.org/abs/2212.13591v1 )

ライセンス: Link先を確認
Edward Y. Chang(参考訳) ディープラーニングの成功は、主に、特定の概念や意味の幅広い例をカバーする大量のトレーニングデータが利用可能であることに起因する。 医学の分野では、特定の疾患に関する多様なトレーニングデータを持つことで、疾患を正確に予測できるモデルの開発につながる可能性がある。 しかし, 画像診断には高品質な注釈データがないため, 有意な進歩は見られなかった。 この記事では、データ表現の品質を改善するためにデータ中心のアプローチを使うことの重要性を強調します。 この「小規模データ」問題に対処するために、データ拡張、転送学習、フェデレーション学習、gans(generative adversarial networks)という4つのトレーニングデータの生成と集約について論じる。 また,学習データ生成プロセスにドメイン知識を組み込むための知識誘導型GANを提案する。 近年の大規模事前学習言語モデルの進歩により,知識誘導型生成手法の有効性向上に資する高品質な知識の獲得が可能と考えられる。

The success of deep learning is largely due to the availability of large amounts of training data that cover a wide range of examples of a particular concept or meaning. In the field of medicine, having a diverse set of training data on a particular disease can lead to the development of a model that is able to accurately predict the disease. However, despite the potential benefits, there have not been significant advances in image-based diagnosis due to a lack of high-quality annotated data. This article highlights the importance of using a data-centric approach to improve the quality of data representations, particularly in cases where the available data is limited. To address this "small-data" issue, we discuss four methods for generating and aggregating training data: data augmentation, transfer learning, federated learning, and GANs (generative adversarial networks). We also propose the use of knowledge-guided GANs to incorporate domain knowledge in the training data generation process. With the recent progress in large pre-trained language models, we believe it is possible to acquire high-quality knowledge that can be used to improve the effectiveness of knowledge-guided generative methods.
翻訳日:2022-12-29 14:34:25 公開日:2022-12-27
# edog:グラフニューラルネットワークのための逆エッジ検出

EDoG: Adversarial Edge Detection For Graph Neural Networks ( http://arxiv.org/abs/2212.13607v1 )

ライセンス: Link先を確認
Xiaojun Xu, Yue Yu, Hanzhang Wang, Alok Lal, Carl A. Gunter, Bo Li(参考訳) グラフニューラルネットワーク(GNN)は、バイオインフォマティクス、薬物設計、ソーシャルネットワークといった様々なタスクに広く応用されている。 しかし、近年の研究では、GNNは、微妙な摂動を加えることでノードやサブグラフの分類予測を誤解することを目的とした敵攻撃に弱いことが示されている。 これらの攻撃の検出は、摂動の少なさとグラフデータの離散的な性質のために難しい。 本稿では,グラフ生成に基づく攻撃戦略の知識を必要とせず,一般的なエッジ検出パイプラインであるedougを提案する。 具体的には,疑わしいエッジを検出するために,リンク予測と組み合わせた新しいグラフ生成手法を提案する。 グラフ生成モデルを効果的にトレーニングするために、与えられたグラフデータからいくつかのサブグラフをサンプリングする。 我々は、通常、逆辺の数は低いので、低い確率でサンプルされたサブグラフは、結合境界に基づく逆辺を含むことを示す。 また,多数のエッジを乱す強力な攻撃を考慮し,検出の前処理として異常検出を行う一連の新機能を提案する。 大手企業からのプライベートトランザクションルールデータセットとコントロールプロパティを持つ2種類の合成グラフを含む3つの実世界のグラフデータセットに対する大規模な実験結果から、EDoGは攻撃タイプに関する知識を必要とせず、4つの最先端の未確認攻撃戦略に対して0.8AUC以上を達成でき、攻撃タイプに関する知識はおよそ0.85であることがわかった。 EDoGは従来の悪意のあるエッジ検出ベースラインを大幅に上回る。 また,検出パイプラインの知識を十分に備えたアダプティブアタックは回避が難しいことも示している。

Graph Neural Networks (GNNs) have been widely applied to different tasks such as bioinformatics, drug design, and social networks. However, recent studies have shown that GNNs are vulnerable to adversarial attacks which aim to mislead the node or subgraph classification prediction by adding subtle perturbations. Detecting these attacks is challenging due to the small magnitude of perturbation and the discrete nature of graph data. In this paper, we propose a general adversarial edge detection pipeline EDoG without requiring knowledge of the attack strategies based on graph generation. Specifically, we propose a novel graph generation approach combined with link prediction to detect suspicious adversarial edges. To effectively train the graph generative model, we sample several sub-graphs from the given graph data. We show that since the number of adversarial edges is usually low in practice, with low probability the sampled sub-graphs will contain adversarial edges based on the union bound. In addition, considering the strong attacks which perturb a large number of edges, we propose a set of novel features to perform outlier detection as the preprocessing for our detection. Extensive experimental results on three real-world graph datasets including a private transaction rule dataset from a major company and two types of synthetic graphs with controlled properties show that EDoG can achieve above 0.8 AUC against four state-of-the-art unseen attack strategies without requiring any knowledge about the attack type; and around 0.85 with knowledge of the attack type. EDoG significantly outperforms traditional malicious edge detection baselines. We also show that an adaptive attack with full knowledge of our detection pipeline is difficult to bypass it.
翻訳日:2022-12-29 14:34:06 公開日:2022-12-27
# 表とテキストのハイブリッドQAに関する調査:概念,方法,課題,今後の方向性

A Survey on Table-and-Text HybridQA: Concepts, Methods, Challenges and Future Directions ( http://arxiv.org/abs/2212.13465v1 )

ライセンス: Link先を確認
Dingzirui Wang, Longxu Dou, Wanxiang Che(参考訳) 表とテキストのハイブリッドな質問応答 (HybridQA) は、金融分野や科学分野に広く採用されているNLPタスクである。 初期の研究は、他のQAタスクメソッドをHybridQAに移行することに焦点を当て、さらなる研究により、HybridQA固有の方法がより多く存在する。 hybridqaの急速な発展に伴い、体系的な調査は、主要なテクニックを要約し、さらなる研究を進めるために、まだ検討中である。 そこで本稿では,現在のhybridqaベンチマークとメソッドを要約し,タスクの課題と今後の方向性を分析する。 本論文の貢献は,(1)ハイブリダカのためのベンチマーク,手法,課題を含む,我々の最良知識に対する第一調査,(2)既存システムのメリットと欠点を明確化するための合理的比較による系統的調査,(3)将来の方向性に光を当てる4つの重要な次元における課題の詳細な分析,の3つにまとめられる。

Table-and-text hybrid question answering (HybridQA) is a widely used and challenging NLP task commonly applied in the financial and scientific domain. The early research focuses on migrating other QA task methods to HybridQA, while with further research, more and more HybridQA-specific methods have been present. With the rapid development of HybridQA, the systematic survey is still under-explored to summarize the main techniques and advance further research. So we present this work to summarize the current HybridQA benchmarks and methods, then analyze the challenges and future directions of this task. The contributions of this paper can be summarized in three folds: (1) first survey, to our best knowledge, including benchmarks, methods and challenges for HybridQA; (2) systematic investigation with the reasonable comparison of the existing systems to articulate their advantages and shortcomings; (3) detailed analysis of challenges in four important dimensions to shed light on future directions.
翻訳日:2022-12-29 14:27:21 公開日:2022-12-27
# 分裂核の分節と分類のための新しいデータセットと深層学習法

A Novel Dataset and a Deep Learning Method for Mitosis Nuclei Segmentation and Classification ( http://arxiv.org/abs/2212.13401v1 )

ライセンス: Link先を確認
Huadeng Wang, Zhipeng Liu, Rushi Lan, Zhenbing Liu, Xiaonan Luo, Xipeng Pan, and Bingbing Li(参考訳) ミトコンドリア核数(Mitosis nuclear count)は乳癌の病理診断における重要な指標の1つである。 手動アノテーションには経験豊富な病理学者が必要であり、非常に時間がかかり、非効率である。 ディープラーニング手法の開発により、優れた性能を持つモデルがいくつか登場したが、一般化能力はさらに強化されるべきである。 本稿では,SCMitosisという2段階のミトーシスセグメンテーションと分類法を提案する。 まず, 奥行き分離可能な畳み込み残差ブロックとチャネル空間注意ゲートにより, 高いリコールレートでセグメント化性能を実現する。 そして、分類ネットワークをカスケードして、ミトーシス核の検出性能をさらに向上させる。 提案手法はICPR 2012データセット上で検証され,現在の最先端アルゴリズムと比較して高いFスコア値0.8687が得られた。 また,本モデルでは,GZMHデータセットの性能も向上し,本論文の公開とともにまず公開する。 コードはhttps://github.com/antifen/mitosis-nuclei-segmentation.com/で入手できる。

Mitosis nuclei count is one of the important indicators for the pathological diagnosis of breast cancer. The manual annotation needs experienced pathologists, which is very time-consuming and inefficient. With the development of deep learning methods, some models with good performance have emerged, but the generalization ability should be further strengthened. In this paper, we propose a two-stage mitosis segmentation and classification method, named SCMitosis. Firstly, the segmentation performance with a high recall rate is achieved by the proposed depthwise separable convolution residual block and channel-spatial attention gate. Then, a classification network is cascaded to further improve the detection performance of mitosis nuclei. The proposed model is verified on the ICPR 2012 dataset, and the highest F-score value of 0.8687 is obtained compared with the current state-of-the-art algorithms. In addition, the model also achieves good performance on GZMH dataset, which is prepared by our group and will be firstly released with the publication of this paper. The code will be available at: https://github.com/antifen/mitosis-nuclei-segmentation.
翻訳日:2022-12-29 14:26:14 公開日:2022-12-27
# ビデオ超解像のクロスリゾリューション流伝播

Cross-Resolution Flow Propagation for Foveated Video Super-Resolution ( http://arxiv.org/abs/2212.13525v1 )

ライセンス: Link先を確認
Eugene Lee, Lien-Feng Hsu, Evan Chen, Chen-Yi Lee(参考訳) 高解像度ビデオコンテンツの需要はここ数年で増大している。 しかし、高解像度ビデオの配信は、レンダリングに必要な計算資源とリモート伝送のためのネットワーク帯域のどちらかによって制限される。 この制限を緩和するために、既存の拡張現実およびバーチャルリアリティーヘッドセットと並んで見つかったアイトラッカーを利用する。 本稿では,低解像度コンテキストと地域高解像度コンテキストを融合させるビデオ超解像度(VSR)技術の適用法を提案する。 eye trackerは、ユーザの視線方向を提供し、地域の高解像度コンテキストの抽出を支援する。 注視領域内にある画素のみが人間の目によって解決されるため、観察された領域を超えた領域の品質の違いを認識できないため、大量の配信されたコンテンツが冗長である。 高分解能領域と低分解能領域の融合から視覚的に喜ぶフレームを生成するために、観測された領域のコンテキストを現在のフレームと将来のフレームの他の領域(低分解能)に転送するディープニューラルネットワークの能力を検討した。 我々はこのタスクをFVSR(Foveated Video Super-Resolution)とラベル付けし、視線領域からの画素の融合により、現在のフレームと将来のフレームの低解像度領域を超解き明かす必要がある。 本稿では,FVSRのためのクロス・リゾリューション・フロー・プロパゲーション(CRFP)を提案する。 我々は,REDSデータセット上で8x FVSR,すなわち8x VSRと葉状領域の融合のタスクに基づいてCRFPを訓練し,評価する。 従来のSSIMやPSNRによるフレームごとの音質評価とは違い,FVSRにおける眼球トラッカーのノイズを利用したモデルの有効性を計測し,過去の葉状領域の評価を提案する。 コードはhttps://github.com/eugenelet/crfp.com/で入手できる。

The demand of high-resolution video contents has grown over the years. However, the delivery of high-resolution video is constrained by either computational resources required for rendering or network bandwidth for remote transmission. To remedy this limitation, we leverage the eye trackers found alongside existing augmented and virtual reality headsets. We propose the application of video super-resolution (VSR) technique to fuse low-resolution context with regional high-resolution context for resource-constrained consumption of high-resolution content without perceivable drop in quality. Eye trackers provide us the gaze direction of a user, aiding us in the extraction of the regional high-resolution context. As only pixels that falls within the gaze region can be resolved by the human eye, a large amount of the delivered content is redundant as we can't perceive the difference in quality of the region beyond the observed region. To generate a visually pleasing frame from the fusion of high-resolution region and low-resolution region, we study the capability of a deep neural network of transferring the context of the observed region to other regions (low-resolution) of the current and future frames. We label this task a Foveated Video Super-Resolution (FVSR), as we need to super-resolve the low-resolution regions of current and future frames through the fusion of pixels from the gaze region. We propose Cross-Resolution Flow Propagation (CRFP) for FVSR. We train and evaluate CRFP on REDS dataset on the task of 8x FVSR, i.e. a combination of 8x VSR and the fusion of foveated region. Departing from the conventional evaluation of per frame quality using SSIM or PSNR, we propose the evaluation of past foveated region, measuring the capability of a model to leverage the noise present in eye trackers during FVSR. Code is made available at https://github.com/eugenelet/CRFP.
翻訳日:2022-12-29 14:25:57 公開日:2022-12-27
# シングルヴィジットからマルチヴィジット画像ベースモデル:シングルヴィジットモデルは閉塞性腎症の予測に十分である

From Single-Visit to Multi-Visit Image-Based Models: Single-Visit Models are Enough to Predict Obstructive Hydronephrosis ( http://arxiv.org/abs/2212.13535v1 )

ライセンス: Link先を確認
Stanley Bryan Z. Hua, Mandy Rickard, John Weaver, Alice Xiang, Daniel Alvarez, Kyla N. Velear, Kunj Sheth, Gregory E. Tasian, Armando J. Lorenzo, Anna Goldenberg, Lauren Erdman(参考訳) これまでの研究では、腎臓超音波画像を用いて腎閉塞を予測できる深層学習の可能性を示している。 しかし、これらの画像に基づく分類器は、単一訪問推論を念頭に置いて訓練されてきた。 我々は,ビデオ行動認識(畳み込みプール,LSTM,TSM)の手法を比較し,複数の訪問推論を扱うために単一ビジット畳み込みモデルを適用する。 患者の過去の来院時の画像の取り込みは,閉塞性水腎症の予知にわずかな効果しか得られないことを実証した。 したがって, 先行超音波の挿入は有用であるが, 最新の超音波による予測は患者のリスク階層化に十分である。

Previous work has shown the potential of deep learning to predict renal obstruction using kidney ultrasound images. However, these image-based classifiers have been trained with the goal of single-visit inference in mind. We compare methods from video action recognition (i.e. convolutional pooling, LSTM, TSM) to adapt single-visit convolutional models to handle multiple visit inference. We demonstrate that incorporating images from a patient's past hospital visits provides only a small benefit for the prediction of obstructive hydronephrosis. Therefore, inclusion of prior ultrasounds is beneficial, but prediction based on the latest ultrasound is sufficient for patient risk stratification.
翻訳日:2022-12-29 14:25:28 公開日:2022-12-27
# 画像キャプションのためのWebcrawled Image-Textデータからの雑音認識学習

Noise-aware Learning from Web-crawled Image-Text Data for Image Captioning ( http://arxiv.org/abs/2212.13563v1 )

ライセンス: Link先を確認
Wooyoung Kang, Jonghwan Mun, Sungjun Lee, Byungseok Roh(参考訳) 画像キャプションは、キャプションモデルに視覚世界に関する豊富な知識を提供する大規模なwebクローラーデータを活用するための簡単なタスクの1つである。 しかし、Webcrawledデータには、異なるレベルで整列された画像テキストペアが含まれているため、固有のノイズ(例えば、不整合ペア)は正確なキャプションモデルを学ぶのを難しくする。 しかし、フィルタリング戦略はノイズの多いデータを効果的に除去することができるが、学習可能な知識が減少し、時にデータ不足の新たな問題を引き起こす。 両世界の長所を生かし,ノイズの影響を受けないまま,ウェブクローリングされたデータ全体から豊富な知識を学習する雑音認識学習フレームワークを提案する。 これは、画像テキストペアのアライメントレベルをトレーニング中に追加の制御信号として使用して学習する品質制御可能モデルによって実現される。 アライメント条件付きトレーニングでは、制御信号を推論時に所望のアライメントレベルに設定するだけで、高品質なアライメントキャプションを生成することができる。 詳細な分析を通じて,制御可能なキャプションモデルが雑音処理に有効であることを示す。 また,生成キャプションを用いたゼロショットキャプションとテキストから画像への検索という2つのタスクにより,記述性と特徴性の観点から高品質なキャプションを生成できることを実証した。 コードは \url{https://github.com/kakaobrain/noc} で入手できる。

Image captioning is one of the straightforward tasks that can take advantage of large-scale web-crawled data which provides rich knowledge about the visual world for a captioning model. However, since web-crawled data contains image-text pairs that are aligned at different levels, the inherent noises (e.g., misaligned pairs) make it difficult to learn a precise captioning model. While the filtering strategy can effectively remove noisy data, however, it leads to a decrease in learnable knowledge and sometimes brings about a new problem of data deficiency. To take the best of both worlds, we propose a noise-aware learning framework, which learns rich knowledge from the whole web-crawled data while being less affected by the noises. This is achieved by the proposed quality controllable model, which is learned using alignment levels of the image-text pairs as an additional control signal during training. The alignment-conditioned training allows the model to generate high-quality captions of well-aligned by simply setting the control signal to desired alignment level at inference time. Through in-depth analysis, we show that our controllable captioning model is effective in handling noise. In addition, with two tasks of zero-shot captioning and text-to-image retrieval using generated captions (i.e., self-retrieval), we also demonstrate our model can produce high-quality captions in terms of descriptiveness and distinctiveness. Code is available at \url{https://github.com/kakaobrain/noc}.
翻訳日:2022-12-29 14:25:15 公開日:2022-12-27
# DeepCuts: BERTのシングルショット解釈可能性に基づくプルーニング

DeepCuts: Single-Shot Interpretability based Pruning for BERT ( http://arxiv.org/abs/2212.13392v1 )

ライセンス: Link先を確認
Jasdeep Singh Grover, Bhavesh Gawri, Ruskin Raj Manku(参考訳) 言語モデルがパラメータやレイヤで成長するにつれて、単一のGPU上でそれらをトレーニングし、推論することがずっと難しくなっています。 これは GPT-3 や BERT-Large などの大規模言語モデルの可用性を著しく制限している。 この問題を解決する一般的なテクニックは、トランスフォーマーヘッド、完全接続ウェイト、その他のモジュールを取り除いてネットワークアーキテクチャをプルーニングすることである。 主な課題は、重要でないパラメータから重要なパラメータを識別することである。 私たちの目標は、そのようなパラメータを特定するための強力なメトリクスを見つけることです。 そこで我々は,GradCAMの解釈に基づくCam-CutとSmoothGradに基づくSmooth-Cutの2つの戦略を提案する。 本研究により,我々のスコアリング機能は,ネットワークパラメータに対してより関連するタスクベースのスコアを割り当てることができることを示し,その結果,我々のプルーニングアプローチは,特にbertベースのモデルにおいて,標準重みと勾配に基づく戦略を著しく上回っていることを示した。 また、プルーニングマスクを解析した結果、標準的な測定値とは大きく異なることがわかった。

As language models have grown in parameters and layers, it has become much harder to train and infer with them on single GPUs. This is severely restricting the availability of large language models such as GPT-3, BERT-Large, and many others. A common technique to solve this problem is pruning the network architecture by removing transformer heads, fully-connected weights, and other modules. The main challenge is to discern the important parameters from the less important ones. Our goal is to find strong metrics for identifying such parameters. We thus propose two strategies: Cam-Cut based on the GradCAM interpretations, and Smooth-Cut based on the SmoothGrad, for calculating the importance scores. Through this work, we show that our scoring functions are able to assign more relevant task-based scores to the network parameters, and thus both our pruning approaches significantly outperform the standard weight and gradient-based strategies, especially at higher compression ratios in BERT-based models. We also analyze our pruning masks and find them to be significantly different from the ones obtained using standard metrics.
翻訳日:2022-12-29 14:17:29 公開日:2022-12-27
# annealing double-head: ディープニューラルネットワークのオンラインキャリブレーションのためのアーキテクチャ

Annealing Double-Head: An Architecture for Online Calibration of Deep Neural Networks ( http://arxiv.org/abs/2212.13621v1 )

ライセンス: Link先を確認
Erdong Guo, David Draper and Maria De Iorio(参考訳) モデルキャリブレーションは、モデルがどの程度の頻度で予測されるかに関係しており、統計モデル設計において重要な役割を果たすだけでなく、現実世界における最適な意思決定のような実用的な応用も持っている。 しかし、現代のディープニューラルネットワークは、予測信頼の過大評価(あるいは過小評価)によって、概して調整が不十分であることが発見されている。 本稿では,訓練中のDNNの校正のための簡易かつ高効率なアーキテクチャであるAnnealing Double-Headを提案する。 正確には、通常モデルにおける最後の潜伏層の最上部に1つの潜伏層を持つ、キャリブレーションヘッド付き浅層ニューラルネットワークを構築し、ロジットを整列された信頼度にマッピングする。 さらに、訓練手順における校正ヘッドによるロジットを動的にスケールする簡易なアニーリング技術を開発し、その性能を向上させる。 分布的および分布的シフトの状況下では,複数のdnnアーキテクチャと視覚および音声データセットを用いたアニーリングダブルヘッドアーキテクチャを徹底的に評価する。 提案手法は,最近提案した様々な学習課題におけるキャリブレーション手法と同等の予測精度を同時に提供しながら,後処理を伴わない最先端モデルキャリブレーション性能を実現する。

Model calibration, which is concerned with how frequently the model predicts correctly, not only plays a vital part in statistical model design, but also has substantial practical applications, such as optimal decision-making in the real world. However, it has been discovered that modern deep neural networks are generally poorly calibrated due to the overestimation (or underestimation) of predictive confidence, which is closely related to overfitting. In this paper, we propose Annealing Double-Head, a simple-to-implement but highly effective architecture for calibrating the DNN during training. To be precise, we construct an additional calibration head-a shallow neural network that typically has one latent layer-on top of the last latent layer in the normal model to map the logits to the aligned confidence. Furthermore, a simple Annealing technique that dynamically scales the logits by calibration head in training procedure is developed to improve its performance. Under both the in-distribution and distributional shift circumstances, we exhaustively evaluate our Annealing Double-Head architecture on multiple pairs of contemporary DNN architectures and vision and speech datasets. We demonstrate that our method achieves state-of-the-art model calibration performance without post-processing while simultaneously providing comparable predictive accuracy in comparison to other recently proposed calibration methods on a range of learning tasks.
翻訳日:2022-12-29 14:17:09 公開日:2022-12-27
# ビデオ事前学習空間における探索による行動クローニング

Behavioral Cloning via Search in Video PreTraining Latent Space ( http://arxiv.org/abs/2212.13326v1 )

ライセンス: Link先を確認
Federico Malato, Florian Leopold, Amogh Raut, Ville Hautam\"aki, Andrew Melnik(参考訳) 私たちの目標は、Minecraftのような環境でタスクを解決できる自律エージェントを作ることです。 そのため、模倣学習に基づくアプローチを採用しました。 我々は,専門家のデモンストレーションデータセット上での探索問題として制御問題を定式化し,エージェントが画像と動作のペアの類似したデモ軌跡から動作をコピーする。 我々は,ビデオPreTrainingモデルの潜在表現において,BASALT MineRLデータセットの近接探索を行う。 エージェントは、エージェントの状態表現とデータセットから選択された専門家軌跡との距離が分岐しない限り、専門家軌跡からのアクションをコピーする。 そして、近接探索を繰り返す。 提案手法は,有意義な実証軌道を効果的に復元し,Minecraft環境におけるエージェントの人間的行動を示す。

Our aim is to build autonomous agents that can solve tasks in environments like Minecraft. To do so, we used an imitation learning-based approach. We formulate our control problem as a search problem over a dataset of experts' demonstrations, where the agent copies actions from a similar demonstration trajectory of image-action pairs. We perform a proximity search over the BASALT MineRL-dataset in the latent representation of a Video PreTraining model. The agent copies the actions from the expert trajectory as long as the distance between the state representations of the agent and the selected expert trajectory from the dataset do not diverge. Then the proximity search is repeated. Our approach can effectively recover meaningful demonstration trajectories and show human-like behavior of an agent in the Minecraft environment.
翻訳日:2022-12-29 14:15:44 公開日:2022-12-27
# GEDI:自己指導型学習のためのジェネリックで差別的なトレーニング

GEDI: GEnerative and DIscriminative Training for Self-Supervised Learning ( http://arxiv.org/abs/2212.13425v1 )

ライセンス: Link先を確認
Emanuele Sansone and Robin Manhaeve(参考訳) 自己教師付き学習は、大量のラベルのないデータを活用するための一般的かつ強力な手法であり、文献に様々な訓練目的が提案されている。 本研究では,最先端の自己指導型学習目標のベイズ解析を行い,確率学習に基づく統一的な定式化を提案する。 本分析は、自己教師あり学習と生成モデルを統合するための簡易な手法を提案し、これら2つの異なるアプローチの協調訓練を可能にした。 我々は、この組み合わせフレームワークをGEDIと呼び、これはGEnerativeおよびDIscriminative Trainingの略である。 さらに,エネルギーモデルとクラスタベースの自己教師型学習モデルを統合することにより,GEDIフレームワークのインスタンス化を示す。 SVHN, CIFAR10, CIFAR100などの合成および実世界のデータを用いた実験により, GEDIはクラスタリング性能の点で, 既存の自己教師型学習戦略を上回る性能を示した。 また、GEDIをニューラルシンボリックなフレームワークに統合して、小さなデータ構造におけるタスクに対処し、論理的制約を用いてクラスタリングと分類性能をさらに向上させることができることを実証した。

Self-supervised learning is a popular and powerful method for utilizing large amounts of unlabeled data, for which a wide variety of training objectives have been proposed in the literature. In this study, we perform a Bayesian analysis of state-of-the-art self-supervised learning objectives and propose a unified formulation based on likelihood learning. Our analysis suggests a simple method for integrating self-supervised learning with generative models, allowing for the joint training of these two seemingly distinct approaches. We refer to this combined framework as GEDI, which stands for GEnerative and DIscriminative training. Additionally, we demonstrate an instantiation of the GEDI framework by integrating an energy-based model with a cluster-based self-supervised learning model. Through experiments on synthetic and real-world data, including SVHN, CIFAR10, and CIFAR100, we show that GEDI outperforms existing self-supervised learning strategies in terms of clustering performance by a wide margin. We also demonstrate that GEDI can be integrated into a neural-symbolic framework to address tasks in the small data regime, where it can use logical constraints to further improve clustering and classification performance.
翻訳日:2022-12-29 14:15:33 公開日:2022-12-27
# MRTNet:ビデオセマンスグラウンドのためのマルチリゾリューション時間ネットワーク

MRTNet: Multi-Resolution Temporal Network for Video Sentence Grounding ( http://arxiv.org/abs/2212.13163v2 )

ライセンス: Link先を確認
Wei Ji, Long Chen, Yinwei Wei, Yiming Wu, Tat-Seng Chua(参考訳) 未編集のビデオと自然言語のクエリが与えられた場合、ビデオ文のグラウンド化は、ビデオ中のターゲット時間モーメントをローカライズすることを目的としている。 既存の手法では,1つの時間分解能に基づいて記述文とビデオセグメントのセマンティクスをマッチング・整合させ,異なる解像度で映像コンテンツの時間的一貫性を無視する。 本研究では,マルチモーダル特徴エンコーダ,マルチリゾリューション・テンポラル(MRT)モジュール,および予測モジュールで構成される,新しいマルチレゾリューション・テンポラルビデオ文グラウンドリングネットワーク MRTNetを提案する。 MRTモジュールはエンコーダとデコーダのネットワークであり、デコーダ部の出力機能はTransformerと連動して最終開始時刻と終了時刻を予測する。 特に、我々のMRTモジュールはホットプラグ可能であり、任意のアンカーフリーモデルにシームレスに組み込むことができる。 さらに,MRTモジュールのクロスモーダルな特徴を,フレームレベル,クリップレベル,シーケンスレベルという3つのスケールでより正確にグラウンド化するために,ハイブリッド損失を利用する。 3つの一般的なデータセットに対する大規模な実験は、MRTNetの有効性を示している。

Given an untrimmed video and natural language query, video sentence grounding aims to localize the target temporal moment in the video. Existing methods mainly tackle this task by matching and aligning semantics of the descriptive sentence and video segments on a single temporal resolution, while neglecting the temporal consistency of video content in different resolutions. In this work, we propose a novel multi-resolution temporal video sentence grounding network: MRTNet, which consists of a multi-modal feature encoder, a Multi-Resolution Temporal (MRT) module, and a predictor module. MRT module is an encoder-decoder network, and output features in the decoder part are in conjunction with Transformers to predict the final start and end timestamps. Particularly, our MRT module is hot-pluggable, which means it can be seamlessly incorporated into any anchor-free models. Besides, we utilize a hybrid loss to supervise cross-modal features in MRT module for more accurate grounding in three scales: frame-level, clip-level and sequence-level. Extensive experiments on three prevalent datasets have shown the effectiveness of MRTNet.
翻訳日:2022-12-29 12:05:29 公開日:2022-12-27
# グラフニューラルネットワークにおける情報ゲイン比を用いたグラフ構造解析

Multi-duplicated Characterization of Graph Structures using Information Gain Ratio for Graph Neural Networks ( http://arxiv.org/abs/2212.12691v2 )

ライセンス: Link先を確認
Yuga Oishi, Ken kaneiwa(参考訳) グラフデータの機械学習におけるノード分類タスクを解決するために、様々なグラフニューラルネットワーク(gnns)が提案されている。 gnnは隣接ノードの特徴を集約することでグラフデータの構造情報を利用する。 しかし、それらは構造情報の直接的特徴付けと活用に失敗する。 本稿では,GNN(MSI-GNN)における情報ゲイン比(IGR)を用いて,グラフデータの構造情報としてiホップ隣接行列を用いてノード分類の性能を向上させるグラフ構造の多重結合特性を提案する。 MSI-GNNでは、iホップ隣接行列は2つの方法で適応的に調整される。 (i)igrに基づいてマトリックスの構造的特徴を選定し、 (ii)選択された特徴 (i)各ノードの複製と結合を柔軟に行う。 MSI-GNNがGCN, H2GCN, GCNIIをベンチマークグラフデータセットの平均精度で上回ることを示す。

Various graph neural networks (GNNs) have been proposed to solve node classification tasks in machine learning for graph data. GNNs use the structural information of graph data by aggregating the features of neighboring nodes. However, they fail to directly characterize and leverage the structural information. In this paper, we propose multi-duplicated characterization of graph structures using information gain ratio (IGR) for GNNs (MSI-GNN), which enhances the performance of node classification by using an i-hop adjacency matrix as the structural information of the graph data. In MSI-GNN, the i-hop adjacency matrix is adaptively adjusted by two methods: (i) structural features in the matrix are selected based on the IGR, and (ii) the selected features in (i) for each node are duplicated and combined flexibly. In an experiment, we show that our MSI-GNN outperforms GCN, H2GCN, and GCNII in terms of average accuracies in benchmark graph datasets.
翻訳日:2022-12-29 12:04:46 公開日:2022-12-27