このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220905となっている論文です。

PDF登録状況(公開日: 20220905)

TitleAuthorsAbstract論文公表日・翻訳日
# 効率的なマルチポート型テレポーテーション方式

Efficient multi port-based teleportation schemes ( http://arxiv.org/abs/2008.00984v4 )

ライセンス: Link先を確認
Micha{\l} Studzi\'nski, Marek Mozrzymas, Piotr Kopszak and Micha{\l} Horodecki(参考訳) この写本では、ポートベースのテレポーテーション(PBT)スキームを解析し、未知の量子状態(または複合量子状態)を1行に1つ以上送信し、そこで状態はボブ側の複数のポートで終わる。 最大絡み合った状態を共有する決定的ケースと確率的ケースの両方を議論する手法の有効性を検討する。 新しい方式は、同じタスクに使用されるpbtプロトコルの様々なバリエーションよりも優れた性能をもたらすことが判明した。 すべての結果は、シュール・ワイル双対性における既約表現の次元や多重性などの量に依存して群論的に示される。 提示された解析は、複数のサブシステムに作用する部分転置の作用によって歪んだn系に作用する置換作用素の代数を考えることで可能である。 ヒルベルト空間の n 次元テンソル積に対する作用を有限次元で考えると、それぞれの既約行列表現(実際は壁付きブラウアー代数の既約行列表現)を構築する。 導入された形式主義やその下にある対称性は、反強磁性理論、重力理論の側面、未知のユニタリを反転させるような特別なタスクのために量子回路を設計する問題など、理論物理学と数学の多くの側面に現れる。

In this manuscript we analyse generalised port-based teleportation (PBT) schemes, allowing for transmitting more than one unknown quantum state (or a composite quantum state) in one go, where the state ends up in several ports at Bob's side. We investigate the efficiency of our scheme discussing both deterministic and probabilistic case, where parties share maximally entangled states. It turns out that the new scheme gives better performance than various variants of the optimal PBT protocol used for the same task. All the results are presented in group-theoretic manner depending on such quantities like dimensions and multiplicities of irreducible representations in the Schur-Weyl duality. The presented analysis was possible by considering the algebra of permutation operators acting on n systems distorted by the action of partial transposition acting on more than one subsystem. Considering its action on the n-fold tensor product of the Hilbert space with finite dimension, we present construction of the respective irreducible matrix representations, which are in fact matrix irreducible representations of the Walled Brauer Algebra. I turns out that the introduced formalism, and symmetries beneath it, appears in many aspects of theoretical physics and mathematics - theory of anti ferromagnetism, aspects of gravity theory or in the problem of designing quantum circuits for special task like for example inverting an unknown unitary.
翻訳日:2023-05-07 06:38:41 公開日:2022-09-05
# 時空の重ね合わせのアナログ重力シミュレーション

Analogue gravity simulation of superpositions of spacetimes ( http://arxiv.org/abs/2104.15078v2 )

ライセンス: Link先を確認
Carlos Barcel\'o, Luis J. Garay, Gerardo Garc\'ia-Moreno(参考訳) 量子力学の原理を立証して重力に適用すると、少なくとも公式には時空の重ね合わせを生成できるかもしれないという結論に至る。 このような可能性を類似の重力の観点から解析する。 二重井戸ポテンシャルを持つボース・アインシュタイン凝縮体からなるアナログトイモデルを示し,有効時空の重ね合わせとして解釈可能な状態を特定する。 これらの状態は不安定であり、微視的な観点からの不安定の源は、効果的な幾何学的記述において明確に定義された因果構造が存在しないことに関係している。 これらの不安定性の結果を探究し、十分に異なる重力場を持つ状態の重畳が経験すべき崩壊についてのペンローズの考えに共鳴すると主張する。

Taking the principles of quantum mechanics as they stand and applying them to gravity, leads to the conclusion that one might be able to generate superpositions of spacetimes, at least formally. We analyze such a possibility from an analogue gravity perspective. We present an analogue toy model consisting of a Bose-Einstein condensate in a double-well potential and identify the states that could potentially be interpreted as superposition of effective spacetimes. These states are unstable and the source of instability from a microscopic point of view can be related to the absence of a well-defined causal structure in the effective geometric description. We explore the consequences of these instabilities and argue that they resonate with Penrose's ideas about the decay that superpositions of states with sufficiently different gravitational fields associated should experience.
翻訳日:2023-04-01 23:42:26 公開日:2022-09-05
# キュートリット集合密度行列の光学的再構成

Optical reconstruction of collective density matrix of qutrit ( http://arxiv.org/abs/2107.03923v3 )

ライセンス: Link先を確認
Marek Kopciuch and Szymon Pustelny(参考訳) 量子状態の再構成は、量子情報科学において最も重要なものである。 特に、室温蒸気の原子の状態の効率的な決定の手段は、量子計算や暗号学に応用することができる。 本稿では,このような応用に向けて,f=1$の基底状態を持つ原子からなる原子アンサンブルの集団密度行列の再構成法を提案する。 このような寿命の長い状態は、実際のシステム(例えばカリウム、ナトリウム、ルビジウム)でしばしば見られ、実用的な利用が可能である。 理論的な処理により、特定の密度行列要素と光学信号(偏光回転と楕円性変化)に関する明示的な公式を導出することができる。 解析は数値シミュレーションによって支援され、アルゴリズムの忠実性と堅牢性を評価することができる。 実験の結果,本アルゴリズムは雑音環境や原子操作の不完全性においても0.95以上の忠実度が得られることがわかった。

Reconstruction of a quantum state is of prime importance for quantum-information science. Specifically, means of efficient determination of a state of atoms of room-temperature vapor may enable applications in quantum computations and cryptography. To step toward such applications, here we present a method of reconstruction of a collective density matrix of an atomic ensemble, consisting of atoms with an $F=1$ ground state. Such a long-lived state is often encountered in real systems (e.g., potassium, sodium, rubidium) and hence may be practically utilized. Our theoretical treatment enables derivation of explicit formulas relating optical signals (polarization rotation and ellipticity change) with specific density-matrix elements. The analysis are supported with numerical simulations, which allows to evaluate fidelity and robustness of the algorithm. The tests show that our algorithm allows to obtain the fidelity exceeded 0.95 even at noisy environment and/or significant atomic manipulation imperfections.
翻訳日:2023-03-23 01:59:28 公開日:2022-09-05
# スターリングによるスターリング:測定によるキラリティー

Stirring by Staring: Measurement Induced Chirality ( http://arxiv.org/abs/2108.05906v2 )

ライセンス: Link先を確認
Matthew Wampler, Brian J. J. Khor, Gil Refael and Israel Klich(参考訳) 量子力学において、オブザーバは必ず系の力学においてアクティブな役割を果たすため、システムを乱すことなく探究することは困難である。 ここでは,この明らかな難しさを,初期自明なシステムをキラルなフェーズに導くためのツールとして活用する。 特に, 繰り返し占有測定のパターンを利用して, リーブ格子上にホッピングするフェルミオンのキラルエッジ輸送を生成できることを示す。 この手順は、フラケットトポロジカル絶縁体におけるキラルエッジ輸送を誘導するために周期駆動を用いるのと精神的に似ているが、同時に量子測定の非一意性により新しい現象を示す。 本研究は, 測定周波数依存性を詳細に検討し, ゼノ限界において, システムは古典的確率力学により記述でき, 保護輸送が得られることを示した。 測定頻度が減少するにつれて、電荷の流れが減少し、測定を行わない場合に消滅する。

In quantum mechanics, the observer necessarily plays an active role in the dynamics of the system, making it difficult to probe a system without disturbing it. Here, we leverage this apparent difficulty as a tool for driving an initially trivial system into a chiral phase. In particular, we show that by utilizing a pattern of repeated occupation measurements we can produce chiral edge transport of fermions hopping on a Lieb lattice. The procedure is similar in spirit to the use of periodic driving to induce chiral edge transport in Floquet topological insulators, while also exhibiting novel phenomena due to the non-unitary nature of the quantum measurements. We study in detail the dependence of the procedure on measurement frequency, showing that in the Zeno limit the system can be described by a classical stochastic dynamics, yielding protected transport. As the frequency of measurements is reduced, the charge flow is reduced and vanishes when no measurements are done.
翻訳日:2023-03-18 17:04:16 公開日:2022-09-05
# パルトンシャワーシミュレーションのための量子ウォークアプローチ

Quantum walk approach to simulating parton showers ( http://arxiv.org/abs/2109.13975v2 )

ライセンス: Link先を確認
Simon Williams, Sarah Malik, Michael Spannowsky and Khadeejah Bepari(参考訳) 本稿では,量子コンピュータ上でパートンシャワーをシミュレートする新しい量子ウォーク法を提案する。 量子ウォークパラダイムは、ウォーカーのコインフリップとして実装された発光確率と、2次元のウォーカーの動きに対応するグルーオンまたはクォーク対への粒子放出とを用いて、量子デバイス上のパルトンシャワーをシミュレーションする自然な、より効率的なアプローチを提供する。 量子アルゴリズムは31ステップのコリニアパルトンシャワーの単純化された玩具モデルに対して提案され、それによって従来の量子アルゴリズムと比較してシミュレーション可能なパルトンシャワーのステップ数を著しく増加させる。 さらに、可能なシャワーステップの数はキュービット数とともに指数関数的に増加し、回路深さはステップ数とともに直線的に増加する。 したがって、量子ウォークの文脈でパートンシャワーを反射させることは劇的な改善をもたらし、より現実的なパートンシャワーをシミュレートするために現在の量子アルゴリズムを拡張するための一歩となる。

This paper presents a novel quantum walk approach to simulating parton showers on a quantum computer. We demonstrate that the quantum walk paradigm offers a natural and more efficient approach to simulating parton showers on quantum devices, with the emission probabilities implemented as the coin flip for the walker, and the particle emissions to either gluons or quark pairs corresponding to the movement of the walker in two dimensions. A quantum algorithm is proposed for a simplified, toy model of a 31-step, collinear parton shower, hence significantly increasing the number of steps of the parton shower that can be simulated compared to previous quantum algorithms. Furthermore, it scales efficiently: the number of possible shower steps increases exponentially with the number of qubits, and the circuit depth grows linearly with the number of steps. Reframing the parton shower in the context of a quantum walk therefore brings dramatic improvements, and is a step towards extending the current quantum algorithms to simulate more realistic parton showers.
翻訳日:2023-03-13 07:19:28 公開日:2022-09-05
# 2次元刺激ラマン断熱通路による空間的に強く閉じ込められた原子励起

Spatially strongly confined atomic excitation via two dimensional stimulated Raman adiabatic passage ( http://arxiv.org/abs/2111.03750v2 )

ライセンス: Link先を確認
Hamid R. Hamedi, Giedrius Zlabys, Veronica Ahufinger, Thomas Halfmann, Jordi Mompart, and Gediminas Juzeliunas(参考訳) 2次元刺激ラマン断熱通路 (2d stirap) プロセスによるサブ波長超局所化法と原子物質波のパターニング法について検討した。 地上レベルで調製された原子はドーナツ型光渦ポンプビームと進行波ストークスレーザービームと相互作用し、空間において一定の(トップハットの)強度プロファイルを持つ。 ビームは、ストクスパルスがポンプパルスに先行する反直感的時間列で送信される。 走行波と渦ビームの両方と相互作用する原子は2D STIRAPを介して最終状態に移され、渦ビームのコアに位置する原子は初期状態のままであり、基底状態原子の空間分布において超狭ナノメートルスケールの原子スポットを形成する。 数値シミュレーションにより, 2次元STIRAP法はコヒーレント集団トラップ法よりも優れており, 原子励起の閉じ込めがより強いことを示す。 Gross-Pitaevskii方程式の数値シミュレーションにより、この方法でボース=アインシュタイン凝縮体(BEC)に2次元の明るい暗いソリトニック構造を生成できることが示されている。 この方法では、ナノメートル分解能欠陥の位置とサイズを完全に制御しながら、従来の局所ソリトン形成法に固有の回折限界による制限を回避することができる。

We consider a method of sub-wavelength superlocalization and patterning of atomic matter waves via a two dimensional stimulated Raman adiabatic passage (2D STIRAP) process. An atom initially prepared in its ground level interacts with a doughnut-shaped optical vortex pump beam and a traveling wave Stokes laser beam with a constant (top-hat) intensity profile in space. The beams are sent in a counter-intuitive temporal sequence, in which the Stokes pulse precedes the pump pulse. The atoms interacting with both the traveling wave and the vortex beam are transferred to a final state through the 2D STIRAP, while those located at the core of the vortex beam remain in the initial state, creating a super-narrow nanometer scale atomic spot in the spatial distribution of ground state atoms. By numerical simulations we show that the 2D STIRAP approach outperforms the established method of coherent population trapping, yielding much stronger confinement of atomic excitation. Numerical simulations of the Gross-Pitaevskii equation show that using such a method one can create 2D bright and dark solitonic structures in trapped Bose-Einstein condensates (BECs). The method allows one to circumvent the restriction set by the diffraction limit inherent to conventional methods for formation of localized solitons, with a full control over the position and size of nanometer resolution defects.
翻訳日:2023-03-09 02:06:37 公開日:2022-09-05
# 計算基底サンプリングによる量子期待値推定

Quantum expectation-value estimation by computational basis sampling ( http://arxiv.org/abs/2112.07416v2 )

ライセンス: Link先を確認
Masaya Kohda, Ryosuke Imai, Keita Kanno, Kosuke Mitarai, Wataru Mizukami, Yuya O. Nakagawa(参考訳) 可観測性の期待値の測定は、変分量子アルゴリズムにおいて必須の要素である。 実用的な障害は、量子化学計算への応用における化学精度など、精度の要件を満たすために統計収束のための大量の測定が必要であることである。 本稿では,量子コンピュータ上での量子状態のサンプリングにより,重みと変調係数を評価可能な行列要素の重み付け和として近似式に基づいて推定するアルゴリズムを提案する。 それぞれの状態は、期待値が評価されたターゲット量子状態に対して、Nが量子ビットの数である、少なくともN個のCNOTゲートからなるユニタリ変換を適用することで作成される。 対象量子状態が特に計算基底状態に集中している場合, 予測値の統計的精度が要求される従来の手法よりも少ない測定値が要求される。 種々の小分子の電子基底状態エネルギー(電子ハミルトニアンの最低エネルギー状態に対する予測値)を測定するための既存の方法との比較を行った。 数値計算により, 基底状態が集中した分子に対して, 目標精度の基底状態エネルギーを数桁程度削減できることがわかった。 この結果から,観測可能量の期待値を測定する方法が提案され,変動量子アルゴリズムの高速化が期待できる。

Measuring expectation values of observables is an essential ingredient in variational quantum algorithms. A practical obstacle is the necessity of a large number of measurements for statistical convergence to meet requirements of precision, such as chemical accuracy in the application to quantum chemistry computations. Here we propose an algorithm to estimate the expectation value based on its approximate expression as a weighted sum of classically-tractable matrix elements with some modulation, where the weight and modulation factors are evaluated by sampling appropriately prepared quantum states in the computational basis on quantum computers. Each of those states is prepared by applying a unitary transformation consisting of at most N CNOT gates, where N is the number of qubits, to a target quantum state whose expectation value is evaluated. Our algorithm is expected to require fewer measurements than conventional methods for a required statistical precision of the expectation value when the target quantum state is concentrated in particular computational basis states. We provide numerical comparisons of our method with existing ones for measuring electronic ground state energies (expectation values of electronic Hamiltonians for the lowest-energy states) of various small molecules. Numerical results show that our method can reduce the numbers of measurements to obtain the ground state energies for a targeted precision by several orders of magnitudes for molecules whose ground states are concentrated. Our results provide another route to measure expectation values of observables, which could accelerate the variational quantum algorithms.
翻訳日:2023-03-04 14:11:20 公開日:2022-09-05
# グラモニウム:グラニュラーアルミナノ接合フラクソニウム

Gralmonium: Granular Aluminum Nano-Junction Fluxonium Qubit ( http://arxiv.org/abs/2202.01776v2 )

ライセンス: Link先を確認
D. Rieger, S. G\"unzler, M. Spiecker, P. Paluch, P. Winkel, L. Hahn, J. K. Hohmann, A. Bacher, W. Wernsdorfer, I. M. Pop(参考訳) ナノメートルの薄い酸化物層で隔てられた重なり合う超伝導電極からなるメゾスコピックジョセフソン接合(jjs)は、超伝導量子回路の非線形性の貴重な源となり、トランスモンやフラックスニウムのような最先端の量子ビットの中心にある。 ここでは、フラクソニウム量子ビットにおいて、JJの役割は、リソグラフィで定義された自己構造粒状アルミニウム(grAl)ナノ接合(超伝導体-絶縁体-超伝導体(SIS)JJ)によっても担うことができることを示す。 結果として得られた量子ビットのスペクトルはグラルモニウム(gralmonium)と呼ばれ、標準のフラックスニウム量子ビットとは区別がつかない。 驚くべきことに、メソスコピックな平行板キャパシタがないことは、ジョセフソンエネルギー$e_\mathrm{j}$に匹敵する数万ドルの範囲で、本質的に大きなグラルナノ接合充電エネルギーをもたらす。 平均エネルギー緩和時間は$t_1=10\,\mathrm{\mu s}$、ハーンエコーコヒーレンス時間は$t_2^\text{echo}=9\,\mathrm{\mu s}$である。 grAlナノ接合の$E_\text{J}$に対するグラモニウムの指数感度は、非常に感受性の高い検出器を提供する。 実際、ミリ秒から数日の時間スケールで$E_\text{J}$の値の自発的なジャンプを観察し、超伝導材料における顕微鏡欠陥の強力な診断ツールを提供する。

Mesoscopic Josephson junctions (JJs), consisting of overlapping superconducting electrodes separated by a nanometer thin oxide layer, provide a precious source of nonlinearity for superconducting quantum circuits and are at the heart of state-of-the-art qubits, such as the transmon and fluxonium. Here, we show that in a fluxonium qubit the role of the JJ can also be played by a lithographically defined, self-structured granular aluminum (grAl) nano-junction: a superconductor-insulator-superconductor (SIS) JJ obtained in a single layer, zero-angle evaporation. The measured spectrum of the resulting qubit, which we nickname gralmonium, is indistinguishable from the one of a standard fluxonium qubit. Remarkably, the lack of a mesoscopic parallel plate capacitor gives rise to an intrinsically large grAl nano-junction charging energy in the range of tens of $\mathrm{GHz}$, comparable to its Josephson energy $E_\mathrm{J}$. We measure average energy relaxation times of $T_1=10\,\mathrm{\mu s}$ and Hahn echo coherence times of $T_2^\text{echo}=9\,\mathrm{\mu s}$. The exponential sensitivity of the gralmonium to the $E_\text{J}$ of the grAl nano-junction provides a highly susceptible detector. Indeed, we observe spontaneous jumps of the value of $E_\text{J}$ on timescales from milliseconds to days, which offer a powerful diagnostics tool for microscopic defects in superconducting materials.
翻訳日:2023-02-26 22:59:05 公開日:2022-09-05
# 非検出光子を用いた量子イメージングの基礎分解能限界

Fundamental resolution limit of quantum imaging with undetected photons ( http://arxiv.org/abs/2203.06106v3 )

ライセンス: Link先を確認
Andres Vega, Elkin A. Santos, Jorge Fuenzalida, Marta Gilaberte Basset, Thomas Pertsch, Markus Grafe, Sina Saravi and Frank Setzpfandt(参考訳) 未検出光子による量子イメージングは、誘導放出のない誘導コヒーレンス原理に依存し、信号とアイドラー光子を持つ2つの光子対の源を用いる。 それぞれのペアは位置と運動量の両方で強い量子相関を持ち、物体と相互作用しない信号光子を測定するだけでアイドラ光子で照らされた物体を撮像することができる。 本研究では, この非局所イメージング方式の逆分解能を, 一般的に用いられる同軸近似を超えて伝播する光子を扱う一般の定式化法により理論的に検討する。 ここでは、未検出光子による量子イメージングの分解能が、信号とアイドラー対の長い波長に限られていることを証明する。 さらに、この結果は他の非局所2光子撮像法でも有効であると結論づけた。

Quantum imaging with undetected photons relies on the principle of induced coherence without induced emission and uses two sources of photon-pairs with a signal- and an idler photon. Each pair shares strong quantum correlations in both position and momentum, which allows to image an object illuminated with idler photons by just measuring signal photons that never interact with the object. In this work, we theoretically investigate the transverse resolution of this non-local imaging scheme through a general formalism that treats propagating photons beyond the commonly used paraxial approximation. We hereby prove that the resolution of quantum imaging with undetected photons is fundamentally diffraction limited to the longer wavelength of the signal and idler pairs. Moreover, we conclude that this result is also valid for other non-local two-photon imaging schemes.
翻訳日:2023-02-22 09:22:29 公開日:2022-09-05
# ドリフトリアルタイム進化による効率的な量子想像時間進化--低ゲートと測定複雑性のアプローチ

Efficient quantum imaginary time evolution by drifting real time evolution: an approach with low gate and measurement complexity ( http://arxiv.org/abs/2203.11112v2 )

ライセンス: Link先を確認
Yifei Huang, Yuguo Shao, Weiluo Ren, Jinzhao Sun and Dingshun Lv(参考訳) qite(quantum imaginary time evolution)は、ハミルトニアンの固有値と固有状態を見つけるための有望な候補の一つである。 しかし、実時間進化による想像上の時間進化を近似する元のQITE提案(Phys. 16, 205-210 (2020))は、パウリ作用素プールとトロッタライゼーションの大きさによる大きな回路深さと測定に悩まされている。 深部回路の要件を軽減するため,qDRIFTアルゴリズム [Phys. Lett 123, 070503 (2019)] に着想を得た時間依存ドリフト方式を提案する。 このドリフト方式は,演算子プールの深さ依存性を除去し,ステップ数に対して線形に収束することを示す。 さらに, 支配的なポーリ項を選択する決定論的アルゴリズムを提案し, 基底状態生成のゆらぎを低減させる。 一方, トロッターステップを横断する効率的な測定削減方式を導入し, 反復数に依存するコスト依存性を解消し, 時間ステップ毎に異なる観測可能な測定分散プロトコルを提案する。 また,本手法の主な誤差源を理論的および数値的に解析した。 我々は,LiH,BeH$_2$およびN$_2$分子上で,我々のアルゴリズムの深度低減,収束性能,測定精度の忠実性の妥当性を数値的に検証した。 特に、LiH分子上の結果は、より少ない測定を必要としながら、高度な適応型変分量子固有解法~VQE法に匹敵する回路深さを与える。

Quantum imaginary time evolution (QITE) is one of the promising candidates for finding eigenvalues and eigenstates of a Hamiltonian. However, the original QITE proposal [Nat. Phys. 16, 205-210 (2020)], which approximates the imaginary time evolution by real time evolution, suffers from large circuit depth and measurements due to the size of the Pauli operator pool and Trotterization. To alleviate the requirement for deep circuits, we propose a time-dependent drifting scheme inspired by the qDRIFT algorithm [Phys. Rev. Lett 123, 070503 (2019)], which randomly draws a Pauli term out of the approximated unitary operation generators of QITE according to the strength and rescales that term by the total strength of the Pauli terms. We show that this drifting scheme removes the depth dependency on size of the operator pool and converges inverse linearly to the number of steps. We further propose a deterministic algorithm that selects the dominant Pauli term to reduce the fluctuation for the ground state preparation. Meanwhile, we introduce an efficient measurement reduction scheme across Trotter steps, which removes its cost dependence on the number of iterations, and a measurement distribution protocol for different observables within each time step. We also analyze the main source of error for our scheme both theoretically and numerically. We numerically test the validity of depth reduction, convergence performance, and faithfulness of measurement reduction approximation of our algorithms on LiH, BeH$_2$ and N$_2$ molecules. In particular, the results on LiH molecule give circuit depths comparable to that of the advanced adaptive variational quantum eigensolver~(VQE) methods while requiring much fewer measurements.
翻訳日:2023-02-21 04:57:39 公開日:2022-09-05
# 光子冷却:線形相互作用と非線形相互作用

Photon cooling: linear vs nonlinear interactions ( http://arxiv.org/abs/2203.14116v2 )

ライセンス: Link先を確認
A. Hovhannisyan, V. Stepanyan, and A.E. Allahverdyan(参考訳) リニア光学は熱力学の第二法則よりも一般的な関係を課している: 線形進化を行うモードの場合、(一般化された)対角状態から始まると、完全な平均占有数(すなわち光モードの光子数)は減少しない。 この関係はノイズの増大(または加熱)につながり、第2法則に似ており、幅広い初期状態を保持する。 また、モードのボースエントロピーは増加するが、この関係は初期状態と線形進化にさらなる制限を課す。 加熱はモード間の非線形相互作用によって逆転できることを示す。 それらの周波数が異なるモードの平衡系である、すなわち、平均的職業数と関連する騒音を減らし、冷却することができる。 このような効果は、平衡系の一部のみが冷却されるエネルギー冷却では存在できない。 非線形光学におけるマンリー・ローの定理と冷却効果の関係を,効率と性能係数の両面から記述する。

Linear optics imposes a relation that is more general than the second law of thermodynamics: For modes undergoing a linear evolution, the full mean occupation number (i.e. photon number for optical modes) does not decrease, provided that the evolution starts from a (generalized) diagonal state. This relation connects to noise-increasing (or heating), and is akin to the second law and holds for a wide set of initial states. Also, the Bose-entropy of modes increases, though this relation imposes additional limitations on the initial states and on linear evolution. We show that heating can be reversed via nonlinear interactions between the modes. They can cool -- i.e. decrease the full mean occupation number and the related noise -- an equilibrium system of modes provided that their frequencies are different. Such an effect cannot exist in energy cooling, where only a part of an equilibrium system is cooled. We describe the cooling set-up via both efficiency and coefficient of performance and relate the cooling effect to the Manley-Rowe theorem in nonlinear optics.
翻訳日:2023-02-20 18:50:49 公開日:2022-09-05
# 制約付き組合せ最適化問題に対する量子インスパイアテンソルネットワーク法

A quantum-inspired tensor network method for constrained combinatorial optimization problems ( http://arxiv.org/abs/2203.15246v2 )

ライセンス: Link先を確認
Tianyi Hao and Xuxin Huang and Chunjing Jia and Cheng Peng(参考訳) 組合せ最適化は理論研究と実世界の応用の両方に一般的に関心がある。 高速開発量子アルゴリズムは組合せ最適化問題の解法に関して異なる視点を提供する。 本稿では,一般の局所制約付き組合せ最適化問題に対する量子インスパイアされたテンソルネットワークに基づくアルゴリズムを提案する。 我々のアルゴリズムは、興味のある問題に対してハミルトニアンを構築し、量子問題に効果的にマッピングし、その制約を直接テンソルネットワーク状態に符号化し、ハミルトニアンの基底状態にシステムを進化させることで最適解を解く。 このアルゴリズムをオープンピットマイニング問題を用いて実演し,二次漸近的時間複雑性をもたらす。 この構成の有効性と,一般組合せ最適化問題に対するさらなる研究への応用の可能性を示した。

Combinatorial optimization is of general interest for both theoretical study and real-world applications. Fast-developing quantum algorithms provide a different perspective on solving combinatorial optimization problems. In this paper, we propose a quantum-inspired tensor-network-based algorithm for general locally constrained combinatorial optimization problems. Our algorithm constructs a Hamiltonian for the problem of interest, effectively mapping it to a quantum problem, then encodes the constraints directly into a tensor network state and solves the optimal solution by evolving the system to the ground state of the Hamiltonian. We demonstrate our algorithm with the open-pit mining problem, which results in a quadratic asymptotic time complexity. Our numerical results show the effectiveness of this construction and potential applications in further studies for general combinatorial optimization problems.
翻訳日:2023-02-20 09:32:44 公開日:2022-09-05
# モーフィング攻撃検出における人間のオブザーバ能力の解析 --どこに立つのか?

Analyzing Human Observer Ability in Morphing Attack Detection -- Where Do We Stand? ( http://arxiv.org/abs/2202.12426v4 )

ライセンス: Link先を確認
Sankini Rancha Godage, Fr{\o}y L{\o}v{\aa}sdal, Sushma Venkatesh, Kiran Raja, Raghavendra Ramachandra, Christoph Busch(参考訳) いくつかの出版物が自動FRSの感受性を調べ、モーフィング攻撃検出(MAD)アプローチを提供したとしても、人々がモーフィング攻撃をどのように認識するかを検討する研究はほとんどない。 MADアプローチは、比較(S-MAD)または参照イメージ(D-MAD)を使用する基準のない単一の画像に基づいて決定を行う。 顔形態検出の検査官や観察官の能力は、その課題に対する専門知識、経験、親密性に依存しており、自分の仕事のID(ID)文書を定期的に検証している観察者の具体的な結果を報告していないという誤解がある。 人間の観察者が顔画像を持つID文書の確認に関与しているため、その能力の低下は社会的な大きな課題となる。 観察者の習熟度を評価するため、この研究はまず48の被験者による現実的なモルヒネ攻撃のベンチマークデータベースを構築し、400のモルヒネ画像を生成する。 また、D-MAD設定における現実的な境界交差シナリオを再現するために、自動境界制御(ABC)ゲートからの画像を400個のプローブ画像でキャプチャし、人間の観察者がモルヒド画像を検出する能力を調べる。 s-mad環境における人間の能力を研究するために、180個のモーフィング画像の新しいデータセットも作成されている。 S-MADおよびD-MAD分析を行うための新たな評価プラットフォームの作成に加えて、40か国以上の政府職員であるD-MADの観察者469人、S-MADの観察者410人、検査員でない103人の被験者を雇用している。 この分析は興味深い洞察を与え、専門家による膨大な数の攻撃を認識できない専門知識の欠如と失敗を強調している。 本研究の目的は,画像がボナファイドであるか変化しているかを判定しながら,セキュリティ上の障害を防止するためのトレーニングプログラムの開発を支援することである。

Few studies have focused on examining how people recognize morphing attacks, even as several publications have examined the susceptibility of automated FRS and offered morphing attack detection (MAD) approaches. MAD approaches base their decisions either on a single image with no reference to compare against (S-MAD) or using a reference image (D-MAD). One prevalent misconception is that an examiner's or observer's capacity for facial morph detection depends on their subject expertise, experience, and familiarity with the issue and that no works have reported the specific results of observers who regularly verify identity (ID) documents for their jobs. As human observers are involved in checking the ID documents having facial images, a lapse in their competence can have significant societal challenges. To assess the observers' proficiency, this work first builds a new benchmark database of realistic morphing attacks from 48 different subjects, resulting in 400 morphed images. We also capture images from Automated Border Control (ABC) gates to mimic the realistic border-crossing scenarios in the D-MAD setting with 400 probe images to study the ability of human observers to detect morphed images. A new dataset of 180 morphing images is also produced to research human capacity in the S-MAD environment. In addition to creating a new evaluation platform to conduct S-MAD and D-MAD analysis, the study employs 469 observers for D-MAD and 410 observers for S-MAD who are primarily governmental employees from more than 40 countries, along with 103 subjects who are not examiners. The analysis offers intriguing insights and highlights the lack of expertise and failure to recognize a sizable number of morphing attacks by experts. The results of this study are intended to aid in the development of training programs to prevent security failures while determining whether an image is bona fide or altered.
翻訳日:2023-02-19 15:13:38 公開日:2022-09-05
# 大学生のメンタルヘルスに及ぼすcovid-19とオンライン学習の影響に関する人工知能による分析

Artificial Intelligence-Based Analytics for Impacts of COVID-19 and Online Learning on College Students' Mental Health ( http://arxiv.org/abs/2202.07441v3 )

ライセンス: Link先を確認
Mostafa Rezapour, Scott K. Elmshaeuser(参考訳) 新型コロナウイルス感染症(SARS-CoV-2)は、2019年12月下旬に中国の武漢で発生した。 間もなく、ウイルスは世界中に広がり、2020年3月に世界保健機関(who)によってパンデミックと宣言された。 これは、オンライン学習への教育的シフトを含む、世界と米国で多くの変化を引き起こした。 本稿では,新型コロナウイルスのパンデミックとオンライン学習の増加が大学生の感情回復に与える影響を理解することを目的とする。 スロベニアのリュブリャナ大学の行政学部が収集したデータを、大学、他の高等教育機関、学生会の国際コンソーシアムと連携して、いくつかの機械学習と統計モデルを用いて分析する。 本研究は,学生の学業生活に関連する特徴が,その感情的幸福に最も影響を与えていることを示す。 その他の重要な要因としては、学生の大学への満足度、パンデミックに対する政府の対応、学生の財政安定などが挙げられる。

COVID-19, the disease caused by the novel coronavirus (SARS-CoV-2), first emerged in Wuhan, China late in December 2019. Not long after, the virus spread worldwide and was declared a pandemic by the World Health Organization in March 2020. This caused many changes around the world and in the United States, including an educational shift towards online learning. In this paper, we seek to understand how the COVID-19 pandemic and increase in online learning impact college students' emotional wellbeing. We use several machine learning and statistical models to analyze data collected by the Faculty of Public Administration at the University of Ljubljana, Slovenia in conjunction with an international consortium of universities, other higher education institutions, and students' associations. Our results indicate that features related to students' academic life have the largest impact on their emotional wellbeing. Other important factors include students' satisfaction with their university's and government's handling of the pandemic as well as students' financial security.
翻訳日:2023-02-19 14:55:14 公開日:2022-09-05
# デモグラフィー・マイグレーション・ヒューマンモビリティにおけるデータイノベーション

Data Innovation in Demography, Migration and Human Mobility ( http://arxiv.org/abs/2209.05460v1 )

ライセンス: Link先を確認
Claudio Bosco, Sara Grubanov-Boskovic, Stefano Iacus, Umberto Minora, Francesco Sermi, Spyridon Spyratos(参考訳) 証拠に基づく政策立案の文化の強化により、データの入手は政策立案者にとって重要になっている。 現在、革新的なデータソースは、リアルタイムおよび空間的な詳細なデータを大量に利用できるようにすることで、人口統計、移動性、移動現象をより正確に記述する機会を提供している。 しかし同時に、データ革新は、市民、統計事務所、政策立案者、民間部門の新たな課題(倫理、プライバシー、データガバナンスモデル、データ品質)につながっている。 本報告は,デモグラフィ,モビリティ,マイグレーション研究の分野に着目し,科学文献におけるデータ革新の現状を評価するとともに,データ革新が政策立案に最も具体的な可能性を持つ領域を特定することを目的とする。 その結果、300以上の論文や科学的報告、また多くのツールが、重要な人口の出来事(死、出生率)、移動と人の移動、人口変化と人口分布を測定するために、非伝統的なデータソースを用いた。 報告書の具体的所見は議論の基礎となっている a) 従来のデータソースと比較して,いかに革新的なデータが使用されるか b) 革新的なデータが政策立案に寄与する最大の可能性を有する領域 c) 公式統計や政策立案に組織的に貢献しようとする革新的なデータ移行の見通し

With the consolidation of the culture of evidence-based policymaking, the availability of data has become central to policymakers. Nowadays, innovative data sources offer an opportunity to describe demographic, mobility, and migratory phenomena more accurately by making available large volumes of real-time and spatially detailed data. At the same time, however, data innovation has led to new challenges (ethics, privacy, data governance models, data quality) for citizens, statistical offices, policymakers and the private sector. Focusing on the fields of demography, mobility, and migration studies, the aim of this report is to assess the current state of data innovation in the scientific literature as well as to identify areas in which data innovation has the most concrete potential for policymaking. Consequently, this study has reviewed more than 300 articles and scientific reports, as well as numerous tools, that employed non-traditional data sources to measure vital population events (mortality, fertility), migration and human mobility, and the population change and population distribution. The specific findings of our report form the basis of a discussion on a) how innovative data is used compared to traditional data sources; b) domains in which innovative data have the greatest potential to contribute to policymaking; c) the prospects of innovative data transition towards systematically contributing to official statistics and policymaking.
翻訳日:2023-02-19 11:07:05 公開日:2022-09-05
# 米国での人体移動と小売販売に及ぼすCOVID-19の影響

Impact of COVID-19 on human mobility and retail sales in the US ( http://arxiv.org/abs/2209.01871v1 )

ライセンス: Link先を確認
Ayobami Esther Olanrewaju, Patrick E. McSharry(参考訳) 新型コロナウイルス(COVID-19)のパンデミックのため、政府はヒトの移動を制限するロックダウンポリシーを迅速に実施し、感染拡大を抑制し、死亡率を下げなければならなかった。 パンデミックに対する政府の対応による移動制限のため、2020年4月の米国小売売上高は前年同期比で22%減少した。 本研究は,政府政策の厳格性,モビリティ・パターン,コンプライアンス・レベルについて考察する。 これらの変数と小売販売への影響の関係は、過去の人間の行動を理解し、将来のパンデミックに備えるのに役立つ。 小売業の損失はミシシッピ州では-1.6%からハワイ州では-38.9%に大きく変化した。 西と北東の州は最も影響を受け、南の州は比較的回復力があった。 回帰は統計的に重要な状態レベルの特徴を特定するために用いられた。 最も大きな損失は、2020年の大統領選挙で民主党有権者の比率が高く、人口が多い州で発生した。 民主党票の10%増は小売売上高の2.4%増と関係している。 高校の卒業証書に満たない成人の割合の高い州は、最も回復力があった。 一人当たり1マイル未満の旅行の数は、平均して米国全州で小売販売に最も大きな影響を与えているモビリティ指標として定義される。 この移動度指数の10%の増加は小売売上高の4.6%の増加と関連している。 全ての州は概して従順であり、寛大さを増すとともに機動性が低下した。 弦率指数の1%の上昇は、モビリティ指数の1%の低下と関連している。 民主党の有権者の割合が高く、人口が多い州であり、西部に位置する州は最も順応する傾向にある。 民主党の投票率の10%の上昇は、コンプライアンスの5%の増加に関連している。

Due to the COVID-19 pandemic, governments had to rapidly implement lockdown policies that restricted human mobility to suppress the spread of the disease and reduce mortality. Because of the movement restrictions resulting from government responses to the pandemic, US retail sales declined by -22% in April 2020 compared to the previous year. This study looks at the stringency of government policies, mobility patterns, and implied compliance levels. The relationships between these variables and the influence on retail sales serve to understand past human behavior and prepare for future pandemics. Retail losses varied dramatically across the US states, from -1.6% in Mississippi to -38.9% in Hawaii. States in the west and northeast were most affected, while those in the south were relatively resilient. Regression was used to identify statistically significant state-level characteristics. The greatest losses occurred in states with a high percentage of Democrat voters in the 2020 Presidential Election and those with large populations. A 10% increase in the Democrat vote is associated with a 2.4% increase in retail sales loss. States with a high percentage of adults with less than a high school diploma were most resilient. The number of trips of less than one-mile per capita is defined as the mobility index as it has the greatest influence on retail sales, on average, across the US states. An increase of 10% in this mobility index is associated with a 4.6% increase in retail sales. All states were generally compliant and exhibited reduced mobility with increasing stringency. A rise of 1% in the stringency index is associated with a decline of 1% in the mobility index. States with a high percentage of Democrat voters, large populations, and located in the west tend to be most compliant. A 10% rise in the proportion of people voting Democrat is associated with a 5% increase in compliance.
翻訳日:2023-02-19 10:57:29 公開日:2022-09-05
# 同時計測のためのイジングモデルを用いたpauli文字列分割アルゴリズム

Pauli String Partitioning Algorithm with the Ising Model for Simultaneous Measurement ( http://arxiv.org/abs/2205.03999v2 )

ライセンス: Link先を確認
Tomochika Kurita, Mikio Morita, Hirotaka Oshima and Shintaro Sato(参考訳) 本稿では,パウリ弦を1つの量子回路で同時に測定できる部分群に分割する効率的なアルゴリズムを提案する。 我々のパーティショニングアルゴリズムは、量子コンピューティングの最も有望な応用の一つである量子化学のための変分量子固有解法における測定総数を劇的に削減する。 このアルゴリズムは、Isingマシンを用いて迅速に解けるIsingモデル最適化問題に基づいている。 我々は,Isingマシンが反復的に扱うことができる最大変数数よりも大きいサイズの問題に適用可能なアルゴリズムを開発する。 このアルゴリズムはboppana-halld\'orssonアルゴリズムやbron-kerboschアルゴリズムのような他のアルゴリズムよりも時間の複雑さと解の最適性が優れており、ポーリ弦の期待値を測定するのに必要な量子回路の数を迅速かつ効果的に減らすのに有用である。 高性能Isingハードウェアである第2世代のDigital Annealerを用いて,分子のハミルトニアンと量子状態のフルトモグラフィーを用いて,最大65,535ドルのパウリ弦を用いてアルゴリズムの性能を検討した。 量子化学計算の分割問題は、最悪の場合には$o(n)$ for $n\leq n_\text{bit}$ と $o(n^2)$ for $n>n_\text{bit}$ という時間の複雑さで解くことができる。 パウリ弦の数である還元係数は、得られた分割数で割られたもので、最大で200ドルである。

We propose an efficient algorithm for partitioning Pauli strings into subgroups, which can be simultaneously measured in a single quantum circuit. Our partitioning algorithm drastically reduces the total number of measurements in a variational quantum eigensolver for a quantum chemistry, one of the most promising applications of quantum computing. The algorithm is based on the Ising model optimization problem, which can be quickly solved using an Ising machine. We develop an algorithm that is applicable to problems with sizes larger than the maximum number of variables that an Ising machine can handle ($n_\text{bit}$) through its iterative use. The algorithm has much better time complexity and solution optimality than other algorithms such as Boppana--Halld\'orsson algorithm and Bron--Kerbosch algorithm, making it useful for the quick and effective reduction of the number of quantum circuits required for measuring the expectation values of multiple Pauli strings. We investigate the performance of the algorithm using the second-generation Digital Annealer, a high-performance Ising hardware, for up to $65,535$ Pauli strings using Hamiltonians of molecules and the full tomography of quantum states. We demonstrate that partitioning problems for quantum chemical calculations can be solved with a time complexity of $O(N)$ for $N\leq n_\text{bit}$ and $O(N^2)$ for $N>n_\text{bit}$ for the worst case, where $N$ denotes the number of candidate Pauli strings and $n_\text{bit}=8,192$ for the second-generation Digital Annealer used in this study. The reduction factor, which is the number of Pauli strings divided by the number of obtained partitions, can be $200$ at maximum.
翻訳日:2023-02-13 20:47:24 公開日:2022-09-05
# プロトン化水二量体の状態分解赤外スペクトル:特性陽子転移ダブレットピークの再検討

State-resolved infrared spectrum of the protonated water dimer: Revisiting the characteristic proton transfer doublet peak ( http://arxiv.org/abs/2206.12029v2 )

ライセンス: Link先を確認
Henrik R. Larsson, Markus Schr\"oder, Richard Beckmann, Fabien Brieuc, Christoph Schran, Dominik Marx, Oriol Vendrell(参考訳) プロトン化水クラスターの赤外線スペクトルは、水和した陽子の力学と構造に関する正確な情報を符号化する。 しかし、これらの難解な種の強いアンハーモニックカップリングと量子効果は、今日まで続いている。 本報告では, プロトン移動と, プロトン化水二量体 (ズンデルイオン) の水和運動の相互作用が, 特徴的な二重重ねピークを生じさせることは, 従来考えられていたよりも複雑で, 微妙なエネルギー変化に敏感であることを示す。 特に、実験スペクトルで観測された低強度衛星のピークが明らかになり、機械的に割り当てられた。 本研究は,2つの高精度ポテンシャルエネルギー表面と高精度状態分解量子シミュレーションを用いたIRスペクトルの比較に依拠する。 これらの高精度なシミュレーションは、フラクショナル分子の複雑なIR信号の明確な割り当てを提供する上で重要であることを示す。

The infrared (IR) spectra of protonated water clusters encode precise information on the dynamics and structure of the hydrated proton. However, the strong anharmonic coupling and quantum effects of these elusive species remain puzzling up to the present day. Here, we report unequivocal evidence that the interplay between the proton transfer and the water wagging motions in the protonated water dimer (Zundel ion) giving rise to the characteristic doublet peak is both more complex and more sensitive to subtle energetic changes than previously thought. In particular, hitherto overlooked low-intensity satellite peaks in the experimental spectrum are now unveiled and mechanistically assigned. Our findings rely on the comparison of IR spectra obtained using two highly accurate potential energy surfaces in conjunction with highly accurate state-resolved quantum simulations. We demonstrate that these high-accuracy simulations are important for providing definite assignments of the complex IR signals of fluxional molecules.
翻訳日:2023-02-08 04:38:06 公開日:2022-09-05
# 量子コードの絡み合いはどれくらい必要か?

How Much Entanglement Does a Quantum Code Need? ( http://arxiv.org/abs/2207.05647v2 )

ライセンス: Link先を確認
Gaojun Luo, Martianus Frederic Ezerman, Markus Grassl, and San Ling(参考訳) エンタングルメント支援量子誤り訂正符号(eaqecc)の設定では、送信側と受信側が予め共有されたエンタングルメントにアクセスすることができる。 このようなコードは情報レートの向上やエラー処理特性の向上を約束する。 エンタングルメントはコストを発生させ、配置パラメーターと比較して優れた性能で量子コードを設計する際に適切に調整されなければならない。 既知の構成を再検討し、エンタングルメントの量がどのように変化するのかをより理解するために、古典的なコーディング理論からツールを考案する。 3つの新しい伝搬規則を示し、それぞれがエラー処理にどのように影響するかについて議論する。 明示的に構成できる最高のqubitとqutrit eaqeccのパラメータをリストしたテーブルは、参照と比較のために提供されます。

In the setting of entanglement-assisted quantum error-correcting codes (EAQECCs), the sender and the receiver have access to pre-shared entanglement. Such codes promise better information rates or improved error handling properties. Entanglement incurs costs and must be judiciously calibrated in designing quantum codes with good performance, relative to their deployment parameters. Revisiting known constructions, we devise tools from classical coding theory to better understand how the amount of entanglement can be varied. We present three new propagation rules and discuss how each of them affects the error handling. Tables listing the parameters of the best performing qubit and qutrit EAQECCs that we can explicitly construct are supplied for reference and comparison.
翻訳日:2023-02-05 09:28:06 公開日:2022-09-05
# 連続時間確率過程の量子解析

Quantum Analysis of Continuous Time Stochastic Process ( http://arxiv.org/abs/2208.02364v2 )

ライセンス: Link先を確認
Xi-Ning Zhuang, Zhao-Yun Chen, Cheng Xue, Yu-Chun Wu, Guo-Ping Guo(参考訳) 連続時間確率過程 (continuous time stochastic process) は、金融、統計、物理学、時系列分析を含む幅広い応用でランダム世界をモデル化する主流の数学的手法であり、連続時間確率過程のシミュレーションと解析は古典的コンピュータにとって難しい問題である。 本研究では,量子コンピュータにおける連続時間確率過程の経路を効率的に作成するための一般的な枠組みを構築した。 クビット数と回路深さの両方を圧縮状態準備法により最適化するため、保持時間のキーパラメータに対して記憶資源と演算資源を指数関数的に削減する。 財務問題に不可欠な経路依存情報及び履歴依存情報を含む所望情報は、圧縮されたサンプリングパスから効率的に抽出でき、さらに二次的なスピードアップが認められる。 さらに、この抽出方法は、極端な市場イベントを捉える不連続なジャンプに対してより敏感である。 メルトンジャンプ拡散モデルにおけるオプション価格の2つの応用と集団リスクモデルにおける破壊確率計算について述べる。

The continuous time stochastic process is a mainstream mathematical instrument modeling the random world with a wide range of applications involving finance, statistics, physics, and time series analysis, while the simulation and analysis of the continuous time stochastic process is a challenging problem for classical computers. In this work, a general framework is established to prepare the path of a continuous time stochastic process in a quantum computer efficiently. The storage and computation resource is exponentially reduced on the key parameter of holding time, as the qubit number and the circuit depth are both optimized via our compressed state preparation method. The desired information, including the path-dependent and history-sensitive information that is essential for financial problems, can be extracted efficiently from the compressed sampling path, and admits a further quadratic speed-up. Moreover, this extraction method is more sensitive to those discontinuous jumps capturing extreme market events. Two applications of option pricing in Merton jump diffusion model and ruin probability computing in the collective risk model are given.
翻訳日:2023-02-02 09:47:37 公開日:2022-09-05
# 3体調和分子

3-body harmonic molecule ( http://arxiv.org/abs/2208.08947v3 )

ライセンス: Link先を確認
H. Olivares-Pil\'on, A. M. Escobar-Ruiz and F. Montoya(参考訳) 本研究では,有限静止長$R$と0全角運動量$L=0$の量子3体調和系について検討した。 近似状態の固有関数である$s$-states eigenfunctions $\psi(r_{12},r_{13},r_{23}) 粒子間の相対距離である$r_{ij}=|{\mathbf r}_i-{\mathbf r}_j|$に依存する任意の対閉ポテンシャル$v(r_{12},r_{13},r_{23})$によって相互作用する3つの同一点粒子の和を制御している。 R=0$のとき、システムはジャコビ座標における変数の完全分離を認め、(最大)超可積分かつ正確に解ける。 励起状態のスペクトル全体を縮退させ、それを分析するために、対応する還元ハミルトニアンの2つの関連するリー代数表現の詳細な比較を行う。 R>0$ の場合、問題は積分可能でも、正確には解けず、退化は部分的に除去される。 この場合、Schr\"odinger方程式の正確な解は発見されていないが、古典的な解はカオス系であることが判明している。 R>0$の場合、ラグランジュメッシュ法を用いて最低量子状態の合計エネルギー$E$の正確な値を求める。 N=0,1,2,3$の11桁以下の具体的な明示的な結果は、0\leq R \leq 4.0$~a.u.の範囲で示される。 特に、(i)エネルギー曲線 $e=e(r)$ は、静止長 $r$ の関数として大域的最小値を開発し、(ii)退化状態は、大きな $r$ で有限値に漸近的に変化する傾向がある。 基底状態については、摂動的(小さい=$r$)と2パラメトリックな変動結果(arbitrary $r$)も表示される。 モデルの拡張と分子物理学への応用について概説する。

In this study, the quantum 3-body harmonic system with finite rest length $R$ and zero total angular momentum $L=0$ is explored. It governs the near-equilibrium $S$-states eigenfunctions $\psi(r_{12},r_{13},r_{23})$ of three identical point particles interacting by means of any pairwise confining potential $V(r_{12},r_{13},r_{23})$ that entirely depends on the relative distances $r_{ij}=|{\mathbf r}_i-{\mathbf r}_j|$ between particles. At $R=0$, the system admits a complete separation of variables in Jacobi-coordinates, it is (maximally) superintegrable and exactly-solvable. The whole spectra of excited states is degenerate, and to analyze it a detailed comparison between two relevant Lie-algebraic representations of the corresponding reduced Hamiltonian is carried out. At $R>0$, the problem is not even integrable nor exactly-solvable and the degeneration is partially removed. In this case, no exact solutions of the Schr\"odinger equation have been found so far whilst its classical counterpart turns out to be a chaotic system. For $R>0$, accurate values for the total energy $E$ of the lowest quantum states are obtained using the Lagrange-mesh method. Concrete explicit results with not less than eleven significant digits for the states $N=0,1,2,3$ are presented in the range $0\leq R \leq 4.0$~a.u. . In particular, it is shown that (I) the energy curve $E=E(R)$ develops a global minimum as a function of the rest length $R$, and it tends asymptotically to a finite value at large $R$, and (II) the degenerate states split into sub-levels. For the ground state, perturbative (small-$R$) and two-parametric variational results (arbitrary $R$) are displayed as well. An extension of the model with applications in molecular physics is briefly discussed.
翻訳日:2023-01-30 17:54:23 公開日:2022-09-05
# チップ上のパッシブ超電導循環器

Passive superconducting circulator on a chip ( http://arxiv.org/abs/2208.13339v2 )

ライセンス: Link先を確認
Rohit Navarathna, Dat Thanh Le, Andr\'es Rosario Hamann, Hien Duy Nguyen, Thomas M. Stace and Arkady Fedorov(参考訳) 超伝導デバイスと互換性のあるオンチップマイクロ波循環器は超伝導回路のスケールアップの鍵となる要素である。 チップにサーキュレータを統合する以前のアプローチは、マイクロ波線を余分に必要とする外部駆動か、超伝導を損なう強磁場のいずれかである。 ここでは、3つの概念的なジョセフソン接合によって中断された超伝導ループから作られる受動オンチップ循環器の第一原理的実現を報告する。 実験結果は非相互散乱の証拠を示し,理論シミュレーションと良好に一致した。 また,隠れマルコフモデルを用いた準粒子トンネルの詳細な解析を行った。 接合非対称性を低減し、準粒子からの既知の保護方法を活用することにより、超伝導回路においてジョセフソンループ循環器がユビキタスになると予想する。

An on-chip microwave circulator that is compatible with superconducting devices is a key element for scale-up of superconducting circuits. Previous approaches to integrating circulators on chip involve either external driving that requires extra microwave lines or a strong magnetic field that would compromise superconductivity. Here we report the first proof-of-principle realisation of a passive on-chip circulator which is made from a superconducting loop interrupted by three notionally-identical Josephson junctions and is tuned with only DC control fields. Our experimental results shows evidence for nonreciprocal scattering, and excellent agreement with theoretical simulations. We also present a detailed analysis of quasiparticle tunneling in our device using a hidden Markov model. By reducing the junction asymmetry and utilising the known methods of protection from quasiparticles, we anticipate that Josephson-loop circulator will become ubiquitous in superconducting circuits.
翻訳日:2023-01-28 15:00:27 公開日:2022-09-05
# 相関誘起コヒーレンスとその量子相転移検出への応用

Correlation-induced coherence and its use in detecting quantum phase transitions ( http://arxiv.org/abs/2209.01823v1 )

ライセンス: Link先を確認
Ming-Ming Du, Abdul Sattar Khan, Zhao-Yi Zhou, Da-Jian Zhang(参考訳) 過去20年間、量子相転移(QPTs)を研究するための相関とコヒーレンス対策の探求への関心が高まってきた。 ここでは,この方向への継続的な押し付けに動機づけられ,いわゆるコヒーレンス度に基づく尺度を提案し,qptの検出に本尺度の感受性を利用することを提唱する。 両分枝状態におけるコヒーレンスと相関の概念の両方を捉えることができ、したがってこれらの2つの概念のハイブリッドを表現できることを示す。 XXZ モデルと Kitaev ハニカムモデルを調べることにより,提案手法は従来の多くの提案と比較してQPT の検出に好適であることを示す。

The past two decades have witnessed a surge of interest in exploring correlation and coherence measures to investigate quantum phase transitions (QPTs). Here, motivated by the continued push along this direction, we propose a measure which is built upon the so-called degree of coherence, and advocate using the susceptibility of our measure to detect QPTs. We show that our measure can capture both the notions of coherence and correlations exhibited in bipartite states and therefore represents a hybrid of these two notions. Through examining the XXZ model and the Kitaev honeycomb model, we demonstrate that our measure is favorable for detecting QPTs in comparison to many previous proposals.
翻訳日:2023-01-27 21:05:40 公開日:2022-09-05
# tabu強化ハイブリッド量子最適化の収束性評価

Evaluating the Convergence of Tabu Enhanced Hybrid Quantum Optimization ( http://arxiv.org/abs/2209.01799v1 )

ライセンス: Link先を確認
Enrico Blanzieri, Davide Pastorello, Valter Cavecchia, Alexander Rumyantsev and Mariia Maltseva(参考訳) 本稿では,量子ハードウェア上での最適化問題解決に有用な Tabu Enhanced Hybrid Quantum Optimization メタヒューリスティック手法を提案する。 提案手法の理論的収束を,イジングモデルに基づくタブ状態を保存する対象の衝突の観点から考察する。 量子ハードウェアおよび古典半導体ハードウェアモデル上でのアルゴリズムの数値評価結果も示す。

In this paper we introduce the Tabu Enhanced Hybrid Quantum Optimization metaheuristic approach useful for optimization problem solving on a quantum hardware. We address the theoretical convergence of the proposed scheme from the viewpoint of the collisions in the object which stores the tabu states, based on the Ising model. The results of numerical evaluation of the algorithm on quantum hardware as well as on a classical semiconductor hardware model are also demonstrated.
翻訳日:2023-01-27 21:05:27 公開日:2022-09-05
# 放散熱浴による量子コヒーレンス追跡

Trapping quantum coherence with a dissipative thermal bath ( http://arxiv.org/abs/2209.01781v1 )

ライセンス: Link先を確認
Jia-Ming Zhang, Bing Chen and Jun Jing(参考訳) 長期の限界では、散逸環境に結合したオープン量子系は、駆動や測定なしにコヒーレンスを失うと考えられている。 熱浴による2レベルシステムのコヒーレンスを捕捉するために必要な条件について検討した。 時間-局所マスター方程式に基づいて,長時間のラムシフトが系の遷移周波数と正に負である限り,残余コヒーレンスは高温浴中においても持続することがわかった。 この状態は一般的に、環境温度を上昇させることで緩和できる強固かつ超強結合状態において満たされる。 システムの初期状態と浴構造に影響を及ぼす残留コヒーレンスには,システムと浴間の対回転相互作用が不可欠である。

In the long-time limit, an open quantum system coupled to a dissipative environment is believed to lose its coherence without driving or measurement. Counterintuitively, we provide a necessary condition on trapping the coherence of a two-level system entirely with a thermal bath. Based on a time-local master equation, it is found that the residue coherence survives even under a high-temperature bath as long as the long-time Lamb shift is exactly negative to the system transition frequency. This condition is generally met in the strong and even ultrastrong coupling regime that could be relaxed by increasing the environmental temperature. The counter-rotating interactions between system and bath is indispensable to the residue coherence, whose magnitude is affected by the system initial state and the bath structure.
翻訳日:2023-01-27 21:05:21 公開日:2022-09-05
# 強磁性体$p$-spinモデルの分岐型量子アニール反応のための非定常触媒

Nonstoquastic catalyst for bifurcation-based quantum annealing of ferromagnetic $p$-spin model ( http://arxiv.org/abs/2209.01737v1 )

ライセンス: Link先を確認
Yuki Susa, Takashi Imoto, Yuichiro Matsuzaki(参考訳) 非古典的触媒の導入は、横磁場によって駆動される量子アニーリングを改善する有望な方法である。 スピンモデルがスピン-1演算子によって記述される分岐型量子アニール法が提案された。 我々は,分岐型量子アニーリングにおける$p$-spinモデルを検討し,このアニーリングプロトコルを加速するための非定常触媒を提案する。 半古典的解析により、特定の場合において、第一階の相転移は元の確率的ハミルトニアンに現れ、適切なパラメータを選択すると、我々の非古典的触媒は第二階に変化させることができることを示した。 これは、我々の非触媒が分岐型量子アニールの性能を向上させる可能性があることを意味する。

The introduction of a nonstoquastic catalyst is a promising avenue to improve quantum annealing driven by the transverse field. Bifurcation-based quantum annealing, where the spin model is described by the spin-1 operators, was proposed. We consider the $p$-spin model in bifurcation-based quantum annealing and propose a nonstoquastic catalyst for accelerating this annealing's protocol. Semiclassical analysis showed that, for specific cases, the first-order phase transition appears in the original stoquastic Hamiltonian, and our nonstoquastic catalyst can be effective in changing it to the second order if we choose the appropriate parameters. This means that our nonstoquastic catalyst has the potential to improve the performance of bifurcation-based quantum annealing.
翻訳日:2023-01-27 21:05:02 公開日:2022-09-05
# 直接フィードスルー量子ノイズのみを有する伝達関数行列の物理的実現性に対するJスペクトル分解条件

A J-spectral Factorization Condition for the Physical Realizability of a Transfer Function Matrix with only Direct Feedthrough Quantum Noise ( http://arxiv.org/abs/2209.01730v1 )

ライセンス: Link先を確認
Rebbecca TY Thien, Shanon L. Vuglar and Ian R. Petersen(参考訳) 本稿では, 直接フィードスルー量子ノイズのみを用いた物理的実現可能な量子システムとして, 厳密に適切な伝達関数行列を実装するためのJスペクトル分解条件を提案する。 必要な周波数応答条件も提示される。 主な成果を説明するために例を挙げる。

This paper gives a J-spectral factorization condition for the implementation of a strictly proper transfer function matrix as a physically realizable quantum system using only direct feedthrough quantum noise. A necessary frequency response condition is also presented. Examples are included to illustrate the main results.
翻訳日:2023-01-27 21:04:48 公開日:2022-09-05
# 忠実度に基づく絡み合い対策の厳密な一夫一婦関係

Tighter monogamy relations of entanglement measures based on fidelity ( http://arxiv.org/abs/2209.01729v1 )

ライセンス: Link先を確認
Meiming Zhang, Naihuan Jing(参考訳) 絡み合いのバーズ測度と絡み合いの幾何測度を、忠実性に基づく絡み合い測度の特別な場合として検討し、三量子ビット系および多量子ビット系上のより強固な単元不等式を求める。 さらに,高次元状態から量子状態への投影により,量子系における共起の単元不等式を導出する。

We study the Bures measure of entanglement and the geometric measure of entanglement as special cases of entanglement measures based on fidelity, and find their tighter monogamy inequalities over tri-qubit systems as well as multi-qubit systems. Furthermore, we derive the monogamy inequality of concurrence for qudit quantum systems by projecting higher-dimensional states to qubit substates.
翻訳日:2023-01-27 21:04:43 公開日:2022-09-05
# 量子ウォーカーと彼女の量子コインの間の3段階目以降の最大絡み合い

Maximal entanglement between a quantum walker and her quantum coin for the third step and beyond regardless of the initial state ( http://arxiv.org/abs/2209.01727v1 )

ライセンス: Link先を確認
Xiao-Xu Fang, Kui An, Bai-Tao Zhang, Barry C. Sanders and He Lu(参考訳) 各ステップに設定された2つのコインオペレータのうちの1つからランダムにコイン操作を選択する離散時間量子ウォークによって、ウォーカーと彼女のコインの間の最大絡み合いの発生を調べる。 量子プロセス忠実度をコスト関数として最適化問題として最大エンタングルメント生成を解く。 次に,1パラメータのコインと1パラメータのコイン列の適切なペアを定め,最大絡みを発生させ,初期条件によらず第2段階を超えて利用できるようにした。 さらに、実験的に実現可能なアダマールとアイデンティティ操作からなるコインセットをさらに単純化する。 実験では,このようなコイン列を用いた10段階の量子ウォークを実演し,所望の高次元2成分の絡み合いを示す。

We study maximal entanglement generation between a walker and her coin via a discrete-time quantum walk, in which the coin operation is randomly selected from one of two coin operators set at each step. We solve maximal-entanglement generation as an optimization problem with quantum process fidelity as the cost function. Then we determine an appropriate pair of one-parameter coins along with coin sequences that generate maximal entanglement, which is available for any step beyond the second regardless of initial condition. We further simplify the coin set to comprising Hadamard and identity operations, which are feasible experimentally. Experimentally, we demonstrate a ten-step quantum walk with such coin sequences and thereby show the desired high-dimensional bipartite entanglement.
翻訳日:2023-01-27 21:04:32 公開日:2022-09-05
# 負のウィグナー関数を持つ決定論的フリープロパゲーティングフォトニック量子

Deterministic Free-Propagating Photonic Qubits with Negative Wigner Functions ( http://arxiv.org/abs/2209.02047v1 )

ライセンス: Link先を確認
Valentin Magro, Julien Vaneecloo, S\'ebastien Garcia, and Alexei Ourjoumtsev(参考訳) 自由伝播光の量子状態は、量子技術にとって最も重要なものである。 古典的および量子通信においてユビキタスなコヒーレントな状態、量子センシングや、量子コンピューティングの文脈で研究される高い絡み合ったクラスター状態は決定論的に生成できるが、ガウス的正のウィグナー関数によって記述される準古典的光学場統計に従う。 多くの量子工学プロトコルのポテンシャルを十分に活用するには、非ガウジアンウィグナー負の状態を用いる必要がある。 ここでは、光の非ガウスウィグナー負のフリープロパゲーション状態の最初の決定論的準備について述べる。これは、共振器内Rydberg超原子の内部状態を0と1の重畳として符号化された光学量子ビットにマッピングすることで得られる。 このアプローチにより、強い光子反束を維持しながら、よく制御された時空間モードで60%の光子生成効率に達することができる。 クォービット回転角を変化させることで、二次的スクイーズからウィグナー負性への進化を観察する。 実験では、この新手法を非ガウスフォトニック資源を決定論的に生成し、光量子工学におけるいくつかの主要な障害を持ち上げるための実行可能な手法と定めている。

Engineering quantum states of free-propagating light is of paramount importance for quantum technologies. Coherent states ubiquitous in classical and quantum communications, squeezed states used in quantum sensing, and even highly-entangled cluster states studied in the context of quantum computing can be produced deterministically, but they obey quasi-classical optical field statistics described by Gaussian, positive Wigner functions. Fully harnessing the potential of many quantum engineering protocols requires using non-Gaussian Wigner-negative states, so far produced using intrinsically probabilistic methods. Here we describe the first fully deterministic preparation of non-Gaussian Wigner-negative free-propagating states of light, obtained by mapping the internal state of an intracavity Rydberg superatom onto an optical qubit encoded as a superposition of 0 and 1 photons. This approach allows us to reach a 60% photon generation efficiency in a well-controlled spatio-temporal mode, while maintaining a strong photon antibunching. By changing the qubit rotation angle, we observe an evolution from quadrature squeezing to Wigner negativity. Our experiment sets this new technique as a viable method to deterministically generate non-Gaussian photonic resources, lifting several major roadblocks in optical quantum engineering.
翻訳日:2023-01-27 20:58:42 公開日:2022-09-05
# 大規模量子カーネルマシンにおける決定論的・ランダム特徴

Deterministic and random features for large-scale quantum kernel machine ( http://arxiv.org/abs/2209.01958v1 )

ライセンス: Link先を確認
Kouhei Nakaji, Hiroyuki Tezuka, Naoki Yamamoto(参考訳) 量子機械学習(QML)は、量子コンピュータアプリケーションの先駆者である。 特に、量子ニューラルネットワーク(QNN)は、短期量子コンピュータとフォールトトレラント量子コンピュータの両方で動作する方法として積極的に研究されている。 近年の研究では、QNNを用いた教師付き機械学習が量子カーネル法(QKM)として解釈できることが示されており、QKMの実用性の向上がQMLの短期的応用構築の鍵であることを示唆している。 しかし、QKMには2つの深刻な問題があることも知られている。 一つは、元の大きなヒルベルト空間で定義される(内積に基づく)量子核を持つqkmは一般化しない、すなわち、モデルが見当たらないデータのパターンを見つけることができないことである。 もうひとつは、QKMの古典的な計算コストがデータ数で少なくとも2次的に増加するため、QKMはデータサイズでスケーラブルではないことである。 本稿では,これら2つの問題から自由なアルゴリズムを提供することを目標とする。 すなわち、一般化能力を持つ量子カーネルのクラスに対して、提案した決定論的およびランダムな特徴を用いて量子カーネルを持つQKMをスケーラブルにすることができることを示す。 O(1,000) \sim O(10,000)$トレーニングデータを含むデータセットを用いて,本手法の有効性を検証した。

Quantum machine learning (QML) is the spearhead of quantum computer applications. In particular, quantum neural networks (QNN) are actively studied as the method that works both in near-term quantum computers and fault-tolerant quantum computers. Recent studies have shown that supervised machine learning with QNN can be interpreted as the quantum kernel method (QKM), suggesting that enhancing the practicality of the QKM is the key to building near-term applications of QML. However, the QKM is also known to have two severe issues. One is that the QKM with the (inner-product based) quantum kernel defined in the original large Hilbert space does not generalize; namely, the model fails to find patterns of unseen data. The other one is that the classical computational cost of the QKM increases at least quadratically with the number of data, and therefore, QKM is not scalable with data size. This paper aims to provide algorithms free from both of these issues. That is, for a class of quantum kernels with generalization capability, we show that the QKM with those quantum kernels can be made scalable by using our proposed deterministic and random features. Our numerical experiment, using datasets including $O(1,000) \sim O(10,000)$ training data, supports the validity of our method.
翻訳日:2023-01-27 20:58:05 公開日:2022-09-05
# カシミール力に対する同位体効果

Isotope effect on the Casimir force ( http://arxiv.org/abs/2209.01931v1 )

ライセンス: Link先を確認
Lanyi Xie, Fuwei Yang and Bai Song(参考訳) カシミール力の同位体依存性は新しい物理学を探究し、マイクロスケールとナノスケールで新しい技術を推進する鍵となるが、ほとんど探究されていない。 2002年、金属の10^(-4)の同位体効果が実験分解能を超える桁数で推定された。 ここでは、リフシッツ理論を用いて、極性誘電体に対する10^(-1)以上の同位体効果を示す。 この効果は、ゾーン中心の光フォノンの同位体質量誘起線シフトから生じ、線幅に敏感である。 虚数軸と実数軸の両方について数値解析を行い,同位体効果の予測のための解析式を導出する。

Isotopic dependence of the Casimir force is key to probing new physics and pushing novel technologies at the micro and nanoscale, but is largely unexplored. In 2002, an isotope effect of 10^(-4) was estimated for metals -- orders of magnitude beyond the experimental resolution. Here, by employing the Lifshitz theory, we reveal a significant isotope effect of over 10^(-1) for polar dielectrics. This effect arises from the isotope-mass-induced line shift of the zone-center optical phonons and is insensitive to the linewidth. We perform numerical analyses on both the imaginary and real-frequency axes, and derive analytical formulas for predicting the isotope effect.
翻訳日:2023-01-27 20:57:43 公開日:2022-09-05
# 絡み込み型磁気誘導トモグラフィ

Entanglement-enhanced magnetic induction tomography ( http://arxiv.org/abs/2209.01920v1 )

ライセンス: Link先を確認
Wenqiang Zheng, Hengyan Wang, Rebecca Schmieg, Alan Oesterle, Eugene S. Polzik(参考訳) 磁気誘導トモグラフィー(MIT)は、高周波磁場に対する応答を通じて導電性物体を探索するセンシングプロトコルである。 MITは、地球物理学から医学応用まで、非破壊的な試験に使われている。 MITセンサーとして使用される原子磁気センサは、MIT感度の大幅な向上と量子限界の探索を可能にする。 本稿では,センシング素子として原子磁気センサを用いたエンタングルメントエンハンスメントmitについて報告する。 ストロボスコピック量子非脱離測定により、センサの原子の絡み合い・スピン配列状態を生成する。 このスピン状態を利用して、標準量子限界を超える1次元のMIT感度の改善を実証する。

Magnetic induction tomography (MIT) is a sensing protocol, exploring conductive objects via their response to radio-frequency magnetic fields. MIT is used in nondestructive testing ranging from geophysics to medical applications. Atomic magnetometers, employed as MIT sensors, allow for significant improvement of the MIT sensitivity and for exploring its quantum limits. Here we report entanglement-enhanced MIT with an atomic magnetometer used as the sensing element. We generate an entangled and spin-squeezed state of atoms of the sensor by stroboscopic quantum non-demolition measurement. We then utilize this spin state to demonstrate the improvement of one dimensional MIT sensitivity beyond the standard quantum limit.
翻訳日:2023-01-27 20:57:34 公開日:2022-09-05
# パラメトリックダウンコンバージョンにおける横ラゲール・ガウスモードのスペクトル特性

Spectral Properties of Transverse Laguerre-Gauss Modes in Parametric Down-Conversion ( http://arxiv.org/abs/2209.01913v1 )

ライセンス: Link先を確認
Carlos Sevilla-Guti\'errez, Varun Raj Kaipalath, Baghdasar Baghdasaryan, Markus Gr\"afe, Stephan Fritzsche and Fabian Steinlechner(参考訳) パラメトリックダウンコンバージョン(PDC)放出円錐の最も初期のカラー写真は、プロセス中の縦-横運動量、すなわちPDC光子の波長と放射角の相関をはっきりと示している。 しかし、現在の実験と応用は離散モード集合の観点でより正確に記述されており、最適選択は実験条件の伝播対称性に依存する。 驚くべきことに、実験がますます要求されるようになっているにもかかわらず、離散様相分解の場合のパラメトリックダウンコンバージョンにおけるスペクトル-空間結合の記述は依然として不足している。 本稿では,パラメトリックダウンコンバージョンにおけるラゲール・ガウスモードのスペクトル依存性について,理論的および実験的に包括的に研究する。 さらに、スペクトル結合と空間結合が、よく知られた軌道角運動量絡み合いの純度を調整できることを示す。 この研究は、横方向の単一モードにおける絡み合った光子の効率的な収集、量子イメージング、高次元量子情報処理のための工学的純粋状態に影響を及ぼす。

The very first color photos of the parametric down-conversion (PDC) emission cone clearly illustrate the correlation of longitudinal- and transverse momentum in the process, i.e., wavelength and emission angle of PDC photons. However, current experiments and applications are more accurately described in terms of discrete mode sets, with the optimal choice depending on the propagation symmetries of the experimental setting. Remarkably, despite the fact that experiments are becoming ever more demanding, a description of spectral-spatial coupling in parametric downconversion for the case of discrete modal decompositions is still lacking. We present a comprehensive study, in theory and experiment, of the spectral dependence of the transverse Laguerre-Gauss modes in parametric downconversion. Moreover, we demonstrate how the spectral and spatial coupling can be harnessed to tune the purity of the well-known orbital angular momentum entanglement. This work has implications for efficient collection of entangled photons in a transverse single mode, quantum imaging, and engineering pure states for high-dimensional quantum information processing.
翻訳日:2023-01-27 20:57:24 公開日:2022-09-05
# 層間3-マグノンカップリングの非局所検出

Nonlocal detection of interlayer three-magnon coupling ( http://arxiv.org/abs/2209.01875v1 )

ライセンス: Link先を確認
Lutong Sheng, Mehrdad Elyasi, Jilei Chen, Wenqing He, Yizhan Wang, Hanchen Wang, Hongmei Feng, Yu Zhang, Israa Medlej, Song Liu, Wanjun Jiang, Xiufeng Han, Dapeng Yu, Jean-Philippe Ansermet, Gerrit E. W. Bauer and Haiming Yu(参考訳) マグノニクスにおける主要な非線形効果は、高周波マグノンを保存された線形運動量を持つ2つの低周波マノンに分割する相互作用である。 本稿では,cofebナノワイヤとyig(yttrium iron garnet)薄膜の空間分離磁気系間における非局所3マグノン散乱の実験的観察を行った。 CoFeBキッテルマグノンは、印加されたマイクロ波場の一定のしきい値の電力の上に、各側のPt電極の電圧信号を誘導する対向伝搬YIGマグノンに、層間双極子相互作用に基づくモデル計算とよく一致する。 励起YIGマグノン対は主に第一励起(n=1)垂直スピン波モードにある。 パワーを増大させると、n=1マグノンは4マグノンプロセスで連続してノードレス(n=0)マグノンに散乱する。 本研究は,遠方マグノン間の量子絡み合いを量子情報応用に適用できるマグノン回路における非局所散乱過程の評価に有効である。

A leading nonlinear effect in magnonics is the interaction that splits a high-frequency magnon into two low-frequency ones with conserved linear momentum. Here, we report experimental observation of nonlocal three-magnon scattering between spatially separated magnetic systems, viz. a CoFeB nanowire and an yttrium iron garnet (YIG) thin film. Above a certain threshold power of an applied microwave field, a CoFeB Kittel magnon splits into a pair of counter-propagating YIG magnons that induce voltage signals in Pt electrodes on each side, in excellent agreement with model calculations based on the interlayer dipolar interaction. The excited YIG magnon pairs reside mainly in the first excited (n=1) perpdendicular standing spin-wave mode. With increasing power, the n=1 magnons successively scatter into nodeless (n=0) magnons through a four-magnon process. Our results help to assess non-local scattering processes in magnonic circuits that may enable quantum entanglement between distant magnons for quantum information applications.
翻訳日:2023-01-27 20:57:05 公開日:2022-09-05
# 重力波観測におけるマクロ量子力学

Macroscopic quantum mechanics in gravitational-wave observatories and beyond ( http://arxiv.org/abs/2209.01840v1 )

ライセンス: Link先を確認
Roman Schnabel, Mikhail Korobko(参考訳) 量子相関の存在は、顕微鏡系とマクロ系の両方に影響を及ぼす。 マクロシステムでは、環境とのエネルギー交換が頻繁に起こるため、観測が困難であり、通常はシステムの進化には無関係である。 世界規模の重力波観測ネットワーク(GW)は、光学系だけでなく、非常にマクロ的であり、主に環境から切り離された機械システムも活用している。 キロスケールのアーム共振器の準単色光野は10^{19}$以上の光子励起数を持ち、光野の伝搬方向において準自由落下する鏡の質量は約40kgである。 GW観測所LIGOとVirgoの最近の観測は、一方の系の量子不確実性がもう一方の系の不確実性に影響を及ぼすことを示した。 本稿では、これらの観測を概観し、他の基礎物理研究分野におけるメソスコピック光学系を対象とする研究目標とリンクする。 ガウス量子の不確実性は、gw観測所やシュル=オディンガー猫状態のような非ガウス量子不確実性である。

The existence of quantum correlations affects both microscopic and macroscopic systems. On macroscopic systems they are difficult to observe and usually irrelevant for the system's evolution due to the frequent energy exchange with the environment. The world-wide network of gravitational-wave (GW) observatories exploits optical as well as mechanical systems that are highly macroscopic and largely decoupled from the environment. The quasi-monochromatic light fields in the kilometre-scale arm resonators have photon excitation numbers larger than $10^{19}$, and the mirrors that are quasi-free falling in propagation direction of the light fields have masses of around 40 kg. Recent observations on the GW observatories LIGO and Virgo clearly showed that the quantum uncertainty of one system affected the uncertainty of the other. Here, we review these observations and provide links to research goals targeted with mesoscopic optomechanical systems in other fields of fundamental physical research. These may have Gaussian quantum uncertainties as the ones in GW observatories or even non-Gaussian ones, such as Schr\"odinger cat states.
翻訳日:2023-01-27 20:56:29 公開日:2022-09-05
# 植物運動に対する開量子力学

Open quantum dynamics for plant motions ( http://arxiv.org/abs/2209.13494v1 )

ライセンス: Link先を確認
Dorje C. Brody(参考訳) 開量子系の力学を支配する確率的シュレーディンガー方程式は、信号処理の方程式によって与えられる。 特に、システムの波動関数を駆動するブラウン運動は、ノイズを表すものではなく、純粋に新しい情報の到来を提供する。 このように、波動関数は雑音下での環境条件に関する最適な信号検出によって導かれる。 この挙動は、環境の手がかりを検出し、その情報を処理し、環境の状況に関する不確実性を最小化することによって最適な適応を行う生物学的システムに似ている。 情報処理能力は自然の基本的な法則であり、したがってオープン量子システムを記述するモデルは、その動力学をモデル化するために生物学的システムにも等しく適用できると仮定されている。 図示では、単純な確率モデルが植物の異方性と重力運動を捉えると考えられている。 このような動的モデルの利点は、植物が処理する情報の定量化を可能にすることである。 情報消去の結果を考えると、生物学的システムはランダウアーの計算限界に比較的近い環境信号を処理でき、情報の喪失は生物学的システムにおける老化の中心にある必要があると論じられる。

Stochastic Schr\"odinger equations that govern the dynamics of open quantum systems are given by the equations for signal processing. In particular, the Brownian motion that drives the wave function of the system does not represent noise, but provides purely the arrival of new information. Thus the wave function is guided by the optimal signal detection about the conditions of the environments under noisy observations. This behaviour is similar to biological systems that detect environmental cues, process this information, and adapt to them optimally by minimising uncertainties about the conditions of their environments. It is postulated that information-processing capability is a fundamental law of nature, and hence that models describing open quantum systems can equally be applied to biological systems to model their dynamics. For illustration, simple stochastic models are considered to capture heliotropic and gravitropic motions of plants. The advantage of such dynamical models is that it allows for the quantification of information processed by the plants. By considering the consequence of information erasure, it is argued that biological systems can process environmental signals relatively close to the Landauer limit of computation, and that loss of information must lie at the heart of ageing in biological systems.
翻訳日:2023-01-27 20:49:47 公開日:2022-09-05
# 遅延結合を有する結合振動子におけるエネルギー伝達とコヒーレンス:二層系の古典的画像

Energy Transfer and Coherence in Coupled Oscillators with Delayed Coupling: A Classical Picture for Two-Level Systems ( http://arxiv.org/abs/2209.03470v1 )

ライセンス: Link先を確認
Fahhad H Alharbi and Abdelrahman S Abdelrahman and Abdullah M Alkathiry and Hussain M Al-Qahtan(参考訳) 結合に一定の時間遅延を組み込むことで、結合振動子による2レベル系をシミュレートするFrimmer-Novotnyモデルを拡張する。 導入遅延がシステム力学および2レベルモデリングに与える影響について検討し,本研究を行った。 数学的には、遅延を導入することで、力学系を有限系から無限次元系に変換する。 得られた遅延微分方程式系は、チェビシェフ補間と後処理の洗練されたクリロフ法を用いて解く。 計算と分析により、遅延が果たす重要な役割が明らかになる。 主力学固有モードが結合強度に比例した半径と遅延に線形な角度で円の周りを移動するときの振動効果を持つ。 この変化はエネルギー移動力学とコヒーレンスを支配する。 したがって、遅延と結合強度の両方がシステムの安定性を規定する。 遅延は、ある間隔において結合によらずシステムが安定しているため、主な関連するパラメータである。 主要なモードの1つが虚軸を横切ると、重要な効果が生じる。 したがって、2つの状態エネルギーは極めて長い時間生存し、交換することができる。 さらに, 遅延は分裂と直線幅の両方を変え, エネルギー移動とコヒーレンスにさらに影響を及ぼすことがわかった。 また,遅延は大きな影響が及ぶほど大きくはならないことも見いだされた。 例えば、500nmの波長を持つ光学系では、臨界遅延は数秒間である。

The Frimmer-Novotny model to simulate two-level systems by coupled oscillators is extended by incorporating a constant time delay in the coupling. The effects of the introduced delay on system dynamics and two-level modeling are then investigated and found substantial. Mathematically, introducing a delay converts the dynamical system from a finite one into an infinite-dimensional system. The resulted system of delay differential equations is solved using the Krylov method with Chebyshev interpolation and post-processing refinement. The calculations and analyses reveal the critical role that a delay can play. It has oscillatory effects as the main dynamical eigenmodes move around a circle with a radius proportional to the coupling strength and an angle linear with the delay. This alteration governs the energy transfer dynamics and coherence. Accordingly, both, the delay and the coupling strength dictate the stability of the system. The delay is the main related parameter as for certain intervals of it, the system remains stable regardless of the coupling. A significant effect occurs when one of the main modes crosses the imaginary axis, where it becomes pure imaginary and dampingless. Thus, the two states energies can live and be exchanged for an extremely long time. Furthermore, it is found that the delay alters both the splitting and the linewidth in a way further influencing the energy transfer and coherence. It is found also that the delay should not be large to have significant effect. For example, for an optical system with 500 nm wavelength, the critical delay can be in tens of attoseconds.
翻訳日:2023-01-27 20:49:18 公開日:2022-09-05
# 水素原子を含む共形シュロディンガー方程式の解析的研究

Analytic study of conformable Schrodinger equation with Hydrogen atom ( http://arxiv.org/abs/2209.02699v1 )

ライセンス: Link先を確認
Mohamed.Al-Masaeed, Eqab.M.Rabei and Ahmed Al-Jamel(参考訳) 本稿では、共形ポテンシャルが与えられた水素原子に対する共形シュロディンガー方程式を解く。 整合性波動関数とエネルギー準位を求め、$\alpha = 1$のとき、従来の水素原子のエネルギー準位と波動関数を回収する。 最初の3つのレベルと異なる値である$\alpha$の確率密度をプロットする。 確率密度は徐々にすべてのレベルに対して$\alpha=0.5$から$\alpha = 1$に変換される。

In this paper, the conformable Schrodinger equation for hydrogen atom with given conformable potential is solved. The conformable wave functions and energy levels are obtained, and the traditional energy levels and wave function for hydrogen atom are recovered when $\alpha = 1$. The probability density for the first three levels and different values of $\alpha$ is plotted. It is observed that the probability density gradually convert from $\alpha=0.5$ to $\alpha = 1$ for all levels.
翻訳日:2023-01-27 20:48:55 公開日:2022-09-05
# 非線形干渉法による多光子吸収の測定

Nonlinear Interferometry for Quantum-Enhanced Measurements of Multiphoton Absorption ( http://arxiv.org/abs/2209.02697v1 )

ライセンス: Link先を確認
Shahram Panahiyan, Carlos S\'anchez Mu\~noz, Maria V. Chekhova, and Frank Schlawin(参考訳) 多光子吸収は、多くの分光、顕微鏡、リソグラフィーの応用において極めて重要である。 しかし、本質的に弱いプロセスであることを考えると、多光子吸収信号の検出は一般的に大きな磁場強度を必要とするため、多くの実用的な状況においてその適用性を妨げる。 本研究では,非平衡非線形干渉計内に多光子吸収剤を配置することで,コヒーレント光や圧縮光による直接透過測定に基づく戦略に対して,多光子断面積推定の精度を高めることができることを示す。 特に、光子フラックスによる感度のパワースケーリングは、コヒーレント光による試料の透過測定と比較して桁違いに大きくすることができる。 さらに, この測定精度の向上は光子損失につながる実験的不完全性に対して頑健であり, 検出感度を低下させる傾向があることを示した。 このエンハンスメントの起源は、非線形SU(1,1)干渉計で発生しなければならない最適のスクイージング度にまでさかのぼる。

Multiphoton absorption is of vital importance in many spectroscopic, microscopic or lithographic applications. However, given that it is an inherently weak process, the detection of multiphoton absorption signals typically requires large field intensities, hindering its applicability in many practical situations. In this work, we show that placing a multiphoton absorbent inside an imbalanced nonlinear interferometer can enhance the precision of multiphoton cross-section estimation with respect to strategies based on direct transmission measurements by coherent or even squeezed light. In particular, the power scaling of the sensitivity with photon flux can be increased by an order of magnitude compared to transmission measurements of the sample with coherent light, meaning that a signal could be observed at substantially reduced excitation intensities. Furthermore, we show that this enhanced measurement precision is robust against experimental imperfections leading to photon losses, which usually tend to degrade the detection sensitivity. We trace the origin of this enhancement to an optimal degree of squeezing which has to be generated in a nonlinear SU(1,1)-interferometer.
翻訳日:2023-01-27 20:48:45 公開日:2022-09-05
# 重力誘起光子対と量子記憶の絡み合いダイナミクス

Gravitationally induced entanglement dynamics of photon pairs and quantum memories ( http://arxiv.org/abs/2209.02099v1 )

ライセンス: Link先を確認
Roy Barzel, Mustafa G\"undo\u{g}an, Markus Krutzik, Dennis R\"atzel, Claus L\"ammerzahl(参考訳) 量子場理論の枠組みにおける光子状態に対する重力誘起エンタングルメントダイナミクス(普遍的デコヒーレンス機構の基礎)の効果について検討した。 本研究は,香港・ウーマンデル干渉による量子メモリと遅延線による効果の観測の可能性について論じる。 これは一般相対性理論の真の量子テストであり、光量子論によって予測される多粒子効果と重力時間拡大の一般相対論的効果を組み合わせたものである。

We investigate the effect of gravitationally induced entanglement dynamics -- the basis of a mechanism of universal decoherence -- for photonic states in a quantum field theoretical framework. We discuss the prospects of witnessing the effect by use of quantum memories and delay lines via Hong-Ou-Mandel interference. This would represent a genuine quantum test of general relativity, combining a multi-particle effect predicted by the quantum theory of light and the general relativistic effect of gravitational time dilation.
翻訳日:2023-01-27 20:48:28 公開日:2022-09-05
# 雑音一般化固有値問題に対するトリミングサンプリングアルゴリズム

Trimmed Sampling Algorithm for the Noisy Generalized Eigenvalue Problem ( http://arxiv.org/abs/2209.02083v1 )

ライセンス: Link先を確認
Caleb Hicks and Dean Lee(参考訳) 一般化固有値問題は、大きな量子系の極値固有値と固有ベクトルを見つけるための効率的な手法である。 部分空間射影を用いて、非直交状態の集合に対応するハミルトン行列とノルム行列を定義する。 残念なことに、この方法はしばしば、条件が悪くノイズに強いノルム行列の反転を伴う。 これは行列要素が確率的手法で評価され、かなりのエラーバーを持つ場合に特に問題となる。 本研究では,ノイズの影響を効果的に低減するトリミングサンプリングアルゴリズムを提案する。 ベイズ推定の枠組みを用いて、ハミルトニアン行列とノルム行列の事前確率分布と、ノルム行列の正則性および部分空間サイズに関する極端固有値の収束に関する物理学的インフォームド制約をサンプリングする。 最終的な出力は固有ベクトルとオブザーバブルの確率分布であり、エラーの信頼度を自動で推定し、標準正規化法よりもはるかに優れている。 この手法は、古典的から量子コンピューティングまで幅広い用途に即時に使用されるべきである。

The generalized eigenvalue problem is an efficient technique for finding extremal eigenvalues and eigenvectors of large quantum systems. It uses subspace projection to define Hamiltonian and norm matrices corresponding to some set of non-orthogonal states. Unfortunately the method often involves the inversion of norm matrices that are ill-conditioned and therefore highly susceptible to noise. This is especially problematic when matrix elements are evaluated using stochastic methods and have substantial error bars. In this work we introduce the trimmed sampling algorithm, which is able to substantially reduce the effects of noise. Using the framework of Bayesian inference, we sample prior probability distributions for the Hamiltonian and norm matrices along with physics-informed constraints about positivity of the norm matrix and convergence of extremal eigenvalues with respect to subspace size. The final output is a probability distribution for the eigenvectors and observables which automatically comes with a reliable estimate of the error and performs far better than standard regularization methods. The method should have immediate use for a wide range of applications from classical to quantum computing.
翻訳日:2023-01-27 20:47:54 公開日:2022-09-05
# 端点計測統計による量子ゲートコヒーレンスの診断

Diagnostics of quantum-gate coherences via end-point-measurement statistics ( http://arxiv.org/abs/2209.02049v1 )

ライセンス: Link先を確認
Ilaria Gianani, Alessio Belenchia, Stefano Gherardini, Vincenzo Berardi, Marco Barbieri, and Mauro Paternostro(参考訳) 量子コヒーレンス(quantum coherence)は、いくつかの理論的および技術的分岐を持つ量子物理学の中心的な要素である。 本研究では,量子ゲートが平均的に生成するコヒーレンスがユニタリ誤差(コヒーレントノイズ源)によってどのように影響を受けるのかをエンコードするメリットの図を考える。 このような情報がゲートの出力状態における局所エネルギー測定の統計によってよく把握されていることを示す数値的証拠を提供する。 これらの発見は、量子光学系で観測された実験データによって裏付けられる。

Quantum coherence is a central ingredient in quantum physics with several theoretical and technological ramifications. In this work we consider a figure of merit encoding the information on how the coherence generated on average by a quantum gate is affected by unitary errors (coherent noise sources). We provide numerical evidences that such information is well captured by the statistics of local energy measurements on the output states of the gate. These findings are then corroborated by experimental data taken in a quantum optics setting.
翻訳日:2023-01-27 20:47:21 公開日:2022-09-05
# 因果サバイバルフォレストを用いた右検閲データによる異種治療効果の推定

Estimating heterogeneous treatment effects with right-censored data via causal survival forests ( http://arxiv.org/abs/2001.09887v4 )

ライセンス: Link先を確認
Yifan Cui, Michael R. Kosorok, Erik Sverdrup, Stefan Wager, Ruoqing Zhu(参考訳) 近年,非パラメトリックな処理効果を推定する手法が人気を集めている。 本研究は, 生存環境と観察環境における不均質な治療効果を推定し, 結果の正しさを推定するために, 因果生存林を導入している。 提案手法は直交推定方程式に頼り、非整合性の下での検閲効果と選択効果の両方を堅牢に調整する。 実験では,多数のベースラインに対して高いパフォーマンスを実現するためのアプローチを見出した。

Forest-based methods have recently gained in popularity for non-parametric treatment effect estimation. Building on this line of work, we introduce causal survival forests, which can be used to estimate heterogeneous treatment effects in a survival and observational setting where outcomes may be right-censored. Our approach relies on orthogonal estimating equations to robustly adjust for both censoring and selection effects under unconfoundedness. In our experiments, we find our approach to perform well relative to a number of baselines.
翻訳日:2023-01-06 07:59:44 公開日:2022-09-05
# アルゴリズム的公正感における多様性の次元

Dimensions of Diversity in Human Perceptions of Algorithmic Fairness ( http://arxiv.org/abs/2005.00808v3 )

ライセンス: Link先を確認
Nina Grgi\'c-Hla\v{c}a, Gabriel Lima, Adrian Weller, Elissa M. Redmiles(参考訳) 多くの監視委員会や規制機関が、人々の生活に関する意思決定を行うアルゴリズムの監視と統制を追求している。 従来の研究は、人々がアルゴリズムによる決定をどう信じるべきかを探求してきたが、社会デマトグラフィーや意思決定シナリオでの直接的な経験といった個々の要因が倫理的見解にどのように影響するかは、ほとんど理解されていない。 このギャップを埋めるために、手続き的アルゴリズムフェアネス(アルゴリズム決定における特定の特徴の使用の公正さ)の1つの側面に対する人々の認識が、どのように彼らに与える影響を探求する。 (i)人口統計(年齢、教育、性別、人種、政治観) (ii)アルゴリズム的意思決定シナリオにおける個人的経験 アルゴリズム決定文脈における政治的見解と個人的経験は,異なる特徴を用いた保釈意思決定の公平性に対する認識に大きく影響している。 以上より,利害関係者の関与とアルゴリズムによる監督の意義について考察し,多次元の多様性を考慮することの必要性について考察した。

A growing number of oversight boards and regulatory bodies seek to monitor and govern algorithms that make decisions about people's lives. Prior work has explored how people believe algorithmic decisions should be made, but there is little understanding of how individual factors like sociodemographics or direct experience with a decision-making scenario may affect their ethical views. We take a step toward filling this gap by exploring how people's perceptions of one aspect of procedural algorithmic fairness (the fairness of using particular features in an algorithmic decision) relate to their (i) demographics (age, education, gender, race, political views) and (ii) personal experiences with the algorithmic decision-making scenario. We find that political views and personal experience with the algorithmic decision context significantly influence perceptions about the fairness of using different features for bail decision-making. Drawing on our results, we discuss the implications for stakeholder engagement and algorithmic oversight including the need to consider multiple dimensions of diversity in composing oversight and regulatory bodies.
翻訳日:2022-12-07 13:00:55 公開日:2022-09-05
# 運動による非剛体構造の閉形不確かさ伝播

A Closed-Form Uncertainty Propagation in Non-Rigid Structure from Motion ( http://arxiv.org/abs/2005.04810v5 )

ライセンス: Link先を確認
Jingwei Song, Mitesh Patel, Ashkan Jasour, and Maani Ghaffari(参考訳) 半有限計画法 (SDP) は, 動きからの非ディジタル構造 (NRSfM) において広く適用されている。 低ランク制約に基づいて、従来のベース形状やベース軌道法における基底数選択の曖昧さを回避する。 変形可能な形状復元の効率は高いが,SDPプロセスから復元した形状の不確実性を評価する方法はまだ不明である。 本稿では, 正確な低ランクSDP問題において, 推定変形3次元形状点の要素的不確実性定量化に関する統計的推測を行う。 閉形式不確実性定量化法を提案し, 実験を行った。 さらに, SDP に基づく NRSfM シナリオにおける実用的応用を可能にする数値的最適ランク選択法により, 正確な低ランク不確実性定量化を近似低ランクシナリオに拡張する。 提案手法はSDP法に対して独立モジュールを提供し,入力された2次元追跡点の統計情報のみを必要とする。 広汎な実験により,出力された3D点が2次元追跡と同一の正規分布を持つことが証明され,その不確かさを正確に定量化し,通常のSDPローランクベースNRSfMソルバに望ましい効果が得られた。

Semi-Definite Programming (SDP) with low-rank prior has been widely applied in Non-Rigid Structure from Motion (NRSfM). Based on a low-rank constraint, it avoids the inherent ambiguity of basis number selection in conventional base-shape or base-trajectory methods. Despite the efficiency in deformable shape reconstruction, it remains unclear how to assess the uncertainty of the recovered shape from the SDP process. In this paper, we present a statistical inference on the element-wise uncertainty quantification of the estimated deforming 3D shape points in the case of the exact low-rank SDP problem. A closed-form uncertainty quantification method is proposed and tested. Moreover, we extend the exact low-rank uncertainty quantification to the approximate low-rank scenario with a numerical optimal rank selection method, which enables solving practical application in SDP based NRSfM scenario. The proposed method provides an independent module to the SDP method and only requires the statistic information of the input 2D tracked points. Extensive experiments prove that the output 3D points have identical normal distribution to the 2D trackings, the proposed method and quantify the uncertainty accurately, and supports that it has desirable effects on routinely SDP low-rank based NRSfM solver.
翻訳日:2022-12-05 02:06:21 公開日:2022-09-05
# 東南アジアにおける病院の新型コロナウイルス対策のためのAIによるモニタリングと対応システム

AI-based Monitoring and Response System for Hospital Preparedness towards COVID-19 in Southeast Asia ( http://arxiv.org/abs/2007.15619v2 )

ライセンス: Link先を確認
Tushar Goswamy, Naishadh Parmar, Ayush Gupta, Raunak Shah, Vatsalya Tandon, Varun Goyal, Sanyog Gupta, Karishma Laud, Shivam Gupta, Sudhanshu Mishra, Ashutosh Modi(参考訳) 本研究は、東南アジア諸国の病院における患者数の増加と人工呼吸器などの重要な設備不足を把握し、医療施設の負担を把握するための、新型コロナウイルスモニタリングと対応システムを提案する。 これにより、これらの地域の当局は、モデルによって特定された領域にリソースをリダイレクトするリソース計画の手段を得られる。 病院における患者の流入状況や設備不足、これらの国の地域が直面している可能性があるICUユニットや病院のベッドに関するデータが公開されていないため、Twitterのデータを活用して情報を収集する。 このアプローチは、インドの州で正確な結果をもたらしており、我々は、当局が病院の負担を監視するための信頼できるツールとして役立つように、残りの国のモデルを検証することに取り組んでいます。

This research paper proposes a COVID-19 monitoring and response system to identify the surge in the volume of patients at hospitals and shortage of critical equipment like ventilators in South-east Asian countries, to understand the burden on health facilities. This can help authorities in these regions with resource planning measures to redirect resources to the regions identified by the model. Due to the lack of publicly available data on the influx of patients in hospitals, or the shortage of equipment, ICU units or hospital beds that regions in these countries might be facing, we leverage Twitter data for gleaning this information. The approach has yielded accurate results for states in India, and we are working on validating the model for the remaining countries so that it can serve as a reliable tool for authorities to monitor the burden on hospitals.
翻訳日:2022-11-05 13:41:25 公開日:2022-09-05
# 大腸癌検診における人工知能の展望

An Artificial Intelligence Outlook for Colorectal Cancer Screening ( http://arxiv.org/abs/2209.12624v1 )

ライセンス: Link先を確認
Panagiotis Katrakazas, Aristotelis Ballas, Marco Anisetti and Ilias Spais(参考訳) 大腸癌は男性で3番目に多く、女性では2番目に多く、全腫瘍の10%を占める。 がん関連死亡率は9.4%で、肺癌に次いで第2位である。 過去20年間に記録された死亡率の低下は、2017年以降に減少の兆しを示している。 このように、血液由来のタンパク質マーカーの技術的基盤と研究証拠が設定され、リスクファクターに関する知識も考慮した人工知能対応意思決定支援フレームワークへの比較検証、臨床実装、統合が保留されている。 本論文は, 容易かつ非侵襲的なリスク推定による既存の医療行為をレビューし, 直接的な人工知能の展望を活かし, 大腸癌検診における変化の原動力となることを目指している。

Colorectal cancer is the third most common tumor in men and the second in women, accounting for 10% of all tumors worldwide. It ranks second in cancer-related deaths with 9.4%, following lung cancer. The decrease in mortality rate documented over the last 20 years has shown signs of slowing down since 2017, necessitating concentrated actions on specific measures that have exhibited considerable potential. As such, the technical foundation and research evidence for blood-derived protein markers have been set, pending comparative validation, clinical implementation and integration into an artificial intelligence enabled decision support framework that also considers knowledge on risk factors. The current paper aspires to constitute the driving force for creating change in colorectal cancer screening by reviewing existing medical practices through accessible and non-invasive risk estimation, employing a straightforward artificial intelligence outlook.
翻訳日:2022-10-02 23:59:31 公開日:2022-09-05
# Spiking GAT: スパイクニューラルネットワークによるグラフアテンションの学習

Spiking GATs: Learning Graph Attentions via Spiking Neural Network ( http://arxiv.org/abs/2209.13539v1 )

ライセンス: Link先を確認
Beibei Wang and Bo Jiang(参考訳) グラフアテンションネットワーク(gats)は集中的に研究され、グラフデータ学習タスクで広く使われている。 既存のGATは一般的に、グラフエッジの注意学習を行うための自己注意機構を採用し、高価な計算を必要とする。 スパイクニューラルネットワーク(snn)は、入力信号データを離散スパイク列に送信することで安価な計算を実行し、スパース出力を返すことで知られている。 本研究では,SNNのメリットに触発されて,グラフデータ表現と学習のためのグラフスパイク注意ネットワーク(GSAT)を提案する。 既存のGATの自己保持機構とは対照的に,提案したGSATでは,エネルギー効率のよいSNNモジュールアーキテクチャを採用している。 さらに、GSATは自然界でスパースアテンション係数を返却できるため、選択された隣人に対して特徴集約を行うことができ、GSATはグラフエッジノイズを頑健に行うことができる。 いくつかのデータセットにおける実験結果は,gsatモデルの有効性,エネルギー効率,ロバスト性を示す。

Graph Attention Networks (GATs) have been intensively studied and widely used in graph data learning tasks. Existing GATs generally adopt the self-attention mechanism to conduct graph edge attention learning, requiring expensive computation. It is known that Spiking Neural Networks (SNNs) can perform inexpensive computation by transmitting the input signal data into discrete spike trains and can also return sparse outputs. Inspired by the merits of SNNs, in this work, we propose a novel Graph Spiking Attention Network (GSAT) for graph data representation and learning. In contrast to self-attention mechanism in existing GATs, the proposed GSAT adopts a SNN module architecture which is obvious energy-efficient. Moreover, GSAT can return sparse attention coefficients in natural and thus can perform feature aggregation on the selective neighbors which makes GSAT perform robustly w.r.t graph edge noises. Experimental results on several datasets demonstrate the effectiveness, energy efficiency and robustness of the proposed GSAT model.
翻訳日:2022-10-02 23:48:45 公開日:2022-09-05
# 共進化型ハイブリッドインテリジェンスのための認知アーキテクチャ

Cognitive Architecture for Co-Evolutionary Hybrid Intelligence ( http://arxiv.org/abs/2209.12623v1 )

ライセンス: Link先を確認
Kirill Krinkin and Yulia Shichkina(参考訳) 本稿では,データ中心人工知能(AI)の実現可能性について考察する。 この種の知能の欠点について論じる。 代替として、共進化型ハイブリッドインテリジェンスの概念が提案されている。 それは人間と機械の認知的相互運用性に基づいている。 認知アーキテクチャ構築における既存のアプローチの分析を行う。 インテリジェントな問題解決のループに人間をシームレスに組み込むアーキテクチャを考える。 記事は以下の通り構成されている。 最初の部分は、データ中心のインテリジェントシステムに対する批判を含んでいる。 このようなインテリジェンスに基づいて強力な人工知能を作成することが不可能な理由が示されている。 第2部では,共進化型ハイブリッドインテリジェンスの概念を簡潔に紹介するとともに,そのメリットを示す。 第3部では、既存の認知アーキテクチャの概要と分析を行っている。 人間はインテリジェントなデータ処理プロセスの一部ではないと考える者が多いと結論づけられた。 次のパートでは、人間とのインテグレーションを提供する共進化型ハイブリッド知能のための認知アーキテクチャについて論じる。 それは、問題解決のループの中で人間とインテリジェントなシステムを開発する可能性に関する一般的な結論で終わる。

This paper questions the feasibility of a strong (general) data-centric artificial intelligence (AI). The disadvantages of this type of intelligence are discussed. As an alternative, the concept of co-evolutionary hybrid intelligence is proposed. It is based on the cognitive interoperability of man and machine. An analysis of existing approaches to the construction of cognitive architectures is given. An architecture seamlessly incorporates a human into the loop of intelligent problem solving is considered. The article is organized as follows. The first part contains a critique of data-centric intelligent systems. The reasons why it is impossible to create a strong artificial intelligence based on this type of intelligence are indicated. The second part briefly presents the concept of co-evolutionary hybrid intelligence and shows its advantages. The third part gives an overview and analysis of existing cognitive architectures. It is concluded that many do not consider humans part of the intelligent data processing process. The next part discusses the cognitive architecture for co-evolutionary hybrid intelligence, providing integration with humans. It finishes with general conclusions about the feasibility of developing intelligent systems with humans in the problem-solving loop.
翻訳日:2022-10-02 23:48:13 公開日:2022-09-05
# 信念伝播の挙動を理解する

Understanding the Behavior of Belief Propagation ( http://arxiv.org/abs/2209.05464v1 )

ライセンス: Link先を確認
Christian Knoll(参考訳) 確率的グラフィカルモデルは高次元分布をモデル化するための強力な概念である。 確率的グラフィカルモデルは、分布のモデル化以外にも、統計的推論を行うためのエレガントなフレームワークを提供する。 信念伝達は近似推論を行い、効率的であり、長い成功ストーリーを振り返る。 しかし、ほとんどの場合、信念伝達はパフォーマンスと収束の保証を欠いている。 多くの現実的な問題はループを持つグラフィカルモデルによって示されるが、その場合、信念の伝播は正確な推定を提供し、全く収束しない。 本論文は,モデルパラメータが信念伝播の性能に与える影響を考察する。 私たちは特に彼らの影響に関心を持っています (i)不動点の数 (ii)収束特性、及び (iii)近似品質。

Probabilistic graphical models are a powerful concept for modeling high-dimensional distributions. Besides modeling distributions, probabilistic graphical models also provide an elegant framework for performing statistical inference; because of the high-dimensional nature, however, one must often use approximate methods for this purpose. Belief propagation performs approximate inference, is efficient, and looks back on a long success-story. Yet, in most cases, belief propagation lacks any performance and convergence guarantees. Many realistic problems are presented by graphical models with loops, however, in which case belief propagation is neither guaranteed to provide accurate estimates nor that it converges at all. This thesis investigates how the model parameters influence the performance of belief propagation. We are particularly interested in their influence on (i) the number of fixed points, (ii) the convergence properties, and (iii) the approximation quality.
翻訳日:2022-09-18 16:55:20 公開日:2022-09-05
# オントロジー的スマートコントラクトによるマルチモーダル交通分野におけるビジネス契約のモデル化

Modelling Business Agreements in the Multimodal Transportation Domain through Ontological Smart Contracts ( http://arxiv.org/abs/2209.05463v1 )

ライセンス: Link先を確認
Mario Scrocca, Marco Comerio, Alessio Carenini, Irene Celino(参考訳) ブロックチェーン技術は、情報の完全性と信頼性を提供し、アクターがビジネス契約を定義するマルチステイクホルダシナリオにおいて、信頼性を保証するための適切なソリューションを提供する。 ride2railプロジェクトは、マルチモーダル輸送ドメインで定義された異なる利害関係者間の契約をスマートコントラクトとして記録するためのブロックチェーンの使用を調査した。 スマートコントラクトを表現するオントロジーをモデル化することで、マシン可読で相互運用可能な契約表現を実現できる。 一方、基盤となるブロックチェーンは、契約の実行に対する信頼を保証する一方で、その存在論的表現は、エコシステム内の情報の検索を促進する。 本稿では、OASISオントロジーで定義された存在論的スマートコントラクトの概念が特定のドメインに適用可能であることを示すために、Ride2Rail Ontology for Agreementsの開発について述べる。 配車シナリオで定義されたビジネス契約のオントロジスマートコントラクトとしてモデルを記述することで、設計オントロジの使用について論じる。

The blockchain technology provides integrity and reliability of the information, thus offering a suitable solution to guarantee trustability in a multi-stakeholder scenario that involves actors defining business agreements. The Ride2Rail project investigated the use of the blockchain to record as smart contracts the agreements between different stakeholders defined in a multimodal transportation domain. Modelling an ontology to represent the smart contracts enables the possibility of having a machine-readable and interoperable representation of the agreements. On one hand, the underlying blockchain ensures trust in the execution of the contracts, on the other hand, their ontological representation facilitates the retrieval of information within the ecosystem. The paper describes the development of the Ride2Rail Ontology for Agreements to showcase how the concept of an ontological smart contract, defined in the OASIS ontology, can be applied to a specific domain. The usage of the designed ontology is discussed by describing the modelling as ontological smart contracts of business agreements defined in a ride-sharing scenario.
翻訳日:2022-09-18 16:53:54 公開日:2022-09-05
# 確率krigingを用いた多目的ランキングと選択

Multiobjective Ranking and Selection Using Stochastic Kriging ( http://arxiv.org/abs/2209.03919v1 )

ライセンス: Link先を確認
Sebastian Rojas Gonzalez, Juergen Branke and Inneke van Nieuwenhuyse(参考訳) 複数の競合対象を同時に最適化し,確率的シミュレーションによってのみ観測できる多目的シミュレーション最適化問題を考える。 目標は、目的間の本質的なトレードオフを明らかにするパレート最適解の(離散的な)集合を見つけるか、あるいは近似することであり、そこでは最適性は、他の目的の品質を損なうことなく目的が改善されないことを意味する。 真にパレート最適である解は誤って支配的とみなすことができ、真に支配的である解はパレート最適と見なすことができる。 提案手法は, 最適性能の解を同定する際の誤差を減らすため, ベイジアン多目的ランキングと選択法を提案する。 確率krigingメタモデルを用いて,目標の信頼性の高い予測分布を構築し,この情報を2つの効率的なスクリーニング手順と2つの新しいサンプリング基準で活用する。 我々はこれらを逐次サンプリングアルゴリズムでサンプルの割り当て方法を決定する。 実験の結果,提案手法は,標準割当法に比べて試料のごく一部しか必要とせず,その改善に寄与する相関構造を活用し,最先端の手法と競合していることがわかった。

We consider multiobjective simulation optimization problems, where several conflicting objectives are optimized simultaneously, and can only be observed via stochastic simulation. The goal is to find or approximate a (discrete) set of Pareto-optimal solutions that reveal the essential trade-offs between the objectives, where optimality means that no objective can be improved without deteriorating the quality of any other objective. The noise in the observed performance may lead to two possible misclassification errors: solutions that are truly Pareto-optimal can be wrongly considered dominated, and solutions that are truly dominated can be wrongly considered Pareto-optimal. We propose a Bayesian multiobjective ranking and selection method to reduce the number of errors when identifying the solutions with the true best expected performance. We use stochastic kriging metamodels to build reliable predictive distributions of the objectives, and exploit this information in two efficient screening procedures and two novel sampling criteria. We use these in a sequential sampling algorithm to decide how to allocate samples. Experimental results show that the proposed method only requires a small fraction of samples compared to the standard allocation method, and it's competitive against the state-of-the-art, with the exploitation of the correlation structure being the dominant contributor to the improvement.
翻訳日:2022-09-09 12:44:51 公開日:2022-09-05
# 認識的不確実性学習による分布外検出の改善

Improving Out-of-Distribution Detection via Epistemic Uncertainty Adversarial Training ( http://arxiv.org/abs/2209.03148v1 )

ライセンス: Link先を確認
Derek Everett, Andre T. Nguyen, Luke E. Richards, Edward Raff(参考訳) 不確実性の定量化は、機械学習の採用、特にood(out-of-distribution)データを人間の専門家にレビューするために拒否する上で重要である。 しかし、計算効率と不確実性評価の質の間にバランスを取る必要があるため、進捗は遅くなっている。 このため、比較的最小限の計算とメモリで妥当な不確実性推定のために、ニューラルネットワークの深いアンサンブルやモンテカルロのドロップアウトを使用することが多い。 驚いたことに、実際の適用制約である$\leq 1\%$ false positive rate (FPR)に注目すると、事前の手法ではOODサンプルを確実に検出できない。 特に、ガウス的ランダムノイズでさえ、これらの一般的なOODテクニックを誘発することができない。 我々は,ドロップアウト・アンサンブルによって予測される認識的不確実性への攻撃を組み込んだ,単純な敵対的訓練方式を考案することで,この問題を軽減することを支援する。 本手法は,標準データにおけるOOD検出性能を向上し,ほぼランダムな推定性能から$\geq 0.75$まで,標準化された部分AUCを改善する。

The quantification of uncertainty is important for the adoption of machine learning, especially to reject out-of-distribution (OOD) data back to human experts for review. Yet progress has been slow, as a balance must be struck between computational efficiency and the quality of uncertainty estimates. For this reason many use deep ensembles of neural networks or Monte Carlo dropout for reasonable uncertainty estimates at relatively minimal compute and memory. Surprisingly, when we focus on the real-world applicable constraint of $\leq 1\%$ false positive rate (FPR), prior methods fail to reliably detect OOD samples as such. Notably, even Gaussian random noise fails to trigger these popular OOD techniques. We help to alleviate this problem by devising a simple adversarial training scheme that incorporates an attack of the epistemic uncertainty predicted by the dropout ensemble. We demonstrate this method improves OOD detection performance on standard data (i.e., not adversarially crafted), and improves the standardized partial AUC from near-random guessing performance to $\geq 0.75$.
翻訳日:2022-09-08 12:47:48 公開日:2022-09-05
# ハイパースペクトルイメージングのための波長認識2次元畳み込み

Wavelength-aware 2D Convolutions for Hyperspectral Imaging ( http://arxiv.org/abs/2209.03136v1 )

ライセンス: Link先を確認
Leon Amadeus Varga, Martin Messmer, Nuri Benbarka, Andreas Zell(参考訳) ディープラーニングはハイパースペクトルイメージング(HSI)の分類精度を大幅に向上させる可能性がある。 それでも、ほとんどの小さなハイパースペクトルデータセットでのトレーニングは簡単ではありません。 2つの重要な課題は、録音の大きなチャネル次元と、異なるメーカーのカメラ間の非互換性である。 適切なモデルバイアスを導入し、チャネル次元を連続的に定義することにより、ハイパースペクトルイメージングの課題に最適化された2次元畳み込みを提案する。 本手法は2種類のハイパースペクトル応用(インラインインスペクションとリモートセンシング)に基づいて評価する。 モデルが示す優越性に加えて、追加の説明力が追加される。 さらに、モデルは必要なカメラフィルタをデータ駆動方式で学習する。 これらのカメラフィルタに基づいて最適なカメラを設計することができる。

Deep Learning could drastically boost the classification accuracy for Hyperspectral Imaging (HSI). Still, the training on the mostly small hyperspectral data sets is not trivial. Two key challenges are the large channel dimension of the recordings and the incompatibility between cameras of different manufacturers. By introducing a suitable model bias and continuously defining the channel dimension, we propose a 2D convolution optimized for these challenges of Hyperspectral Imaging. We evaluate the method based on two different hyperspectral applications (inline inspection and remote sensing). Besides the shown superiority of the model, the modification adds additional explanatory power. In addition, the model learns the necessary camera filters in a data-driven manner. Based on these camera filters, an optimal camera can be designed.
翻訳日:2022-09-08 12:43:41 公開日:2022-09-05
# マルチモーダルデータを用いたフェデレーション転送学習

Federated Transfer Learning with Multimodal Data ( http://arxiv.org/abs/2209.03137v1 )

ライセンス: Link先を確認
Yulian Sun(参考訳) スマートカー、スマートフォン、IoT(Internet of Things)の他のデバイスは、通常複数のセンサーを持ち、マルチモーダルデータを生成する。 Federated Learningは、さまざまなデバイスから豊富なマルチモーダルデータを収集するのをサポートする。 伝達学習法は、あるデバイスから他のデバイスへ知識を伝達するのに役立つ。 フェデレーション・トランスファー・ラーニング(Federated Transfer Learning)は、フェデレーション・ラーニングとフェデレーション・ラーニングの両方に効果がある。 この新しく提案されたフェデレーション転送学習フレームワークは、データ島とプライバシ保護をつなぐことを目的としている。 私たちの構築は連合学習と転校学習に基づいている。 従来のフェデレーテッド・トランスファー・ラーニング(Federated Transfer Learnings)と比較すると、各ユーザが同じモダリティを持つデータ(すべてのunimodalまたはすべてのマルチモーダル)を持つべきであるが、私たちの新しいフレームワークはより汎用的で、ユーザデータのハイブリッドな分散を可能にしている。 コア戦略は、2種類のユーザに対して、異なるが本質的に接続されたトレーニング方法を使用することです。 教師あり学習はユニモーダルデータのみを持つユーザ(タイプ1)に採用され、自己教師あり学習はマルチモーダルデータ(タイプ2)を持つユーザに対して、各モダリティの特徴とそれらの接続の両方に適用される。 タイプ2の接続知識は、後期のトレーニングにおいてタイプ1の助けとなる。 新しいフレームワークでのトレーニングは3つのステップに分けられる。 最初のステップでは、同一のモダリティを持つデータを持つユーザをグループ化する。 例えば、音声信号のみのユーザはグループ1、画像のみのユーザはグループ2、マルチモーダルデータを持つユーザはグループ3などである。 第2のステップでは、連合学習がグループ内で実行され、グループの性質に応じて教師付き学習と自己教師付き学習が使用される。 転送学習の大部分は、前回のステップから得られたネットワーク内の関連部分を集約(フェデレート)した第3のステップで行われる。

Smart cars, smartphones and other devices in the Internet of Things (IoT), which usually have more than one sensors, produce multimodal data. Federated Learning supports collecting a wealth of multimodal data from different devices without sharing raw data. Transfer Learning methods help transfer knowledge from some devices to others. Federated Transfer Learning methods benefit both Federated Learning and Transfer Learning. This newly proposed Federated Transfer Learning framework aims at connecting data islands with privacy protection. Our construction is based on Federated Learning and Transfer Learning. Compared with previous Federated Transfer Learnings, where each user should have data with identical modalities (either all unimodal or all multimodal), our new framework is more generic, it allows a hybrid distribution of user data. The core strategy is to use two different but inherently connected training methods for our two types of users. Supervised Learning is adopted for users with only unimodal data (Type 1), while Self-Supervised Learning is applied to user with multimodal data (Type 2) for both the feature of each modality and the connection between them. This connection knowledge of Type 2 will help Type 1 in later stages of training. Training in the new framework can be divided in three steps. In the first step, users who have data with the identical modalities are grouped together. For example, user with only sound signals are in group one, and those with only images are in group two, and users with multimodal data are in group three, and so on. In the second step, Federated Learning is executed within the groups, where Supervised Learning and Self-Supervised Learning are used depending on the group's nature. Most of the Transfer Learning happens in the third step, where the related parts in the network obtained from the previous steps are aggregated (federated).
翻訳日:2022-09-08 12:01:02 公開日:2022-09-05
# 風力エネルギー取引のためのオンライン意思決定

Online Decision Making for Trading Wind Energy ( http://arxiv.org/abs/2209.02009v1 )

ライセンス: Link先を確認
Miguel Angel Mu\~noz, Pierre Pinson and Jalal Kazempour(参考訳) 本稿では,電力市場における風力エネルギー取引のための新しいアルゴリズムを,オンライン学習と最適化の枠組みで提案・開発する。 特に、勾配降下アルゴリズムのコンポーネントワイド適応版と、機能駆動型ニューズベンダーモデルにおける最近の進歩を組み合わせる。 これにより、データ豊富な環境を活用でき、エネルギーや電力市場の非定常特性に適応し、計算負担を最小限に抑えるオンライン提供アプローチが実現される。 本手法の性能は,いくつかの数値実験に基づいて解析され,不確実性パラメータへの適応性の向上と経済効果の有意さが示された。

This paper proposes and develops a new algorithm for trading wind energy in electricity markets, within an online learning and optimization framework. In particular, we combine a component-wise adaptive variant of the gradient descent algorithm with recent advances in the feature-driven newsvendor model. This results in an online offering approach capable of leveraging data-rich environments, while adapting to non-stationary characteristics of energy generation and electricity markets, and with a minimal computational burden. The performance of our approach is analyzed based on several numerical experiments, showing both better adaptability to non-stationary uncertain parameters and significant economic gains.
翻訳日:2022-09-07 15:44:59 公開日:2022-09-05
# ネットワークパケットキャプチャのai分類を説明するためのクラスアクティベーションマップの可視化

Visualization Of Class Activation Maps To Explain AI Classification Of Network Packet Captures ( http://arxiv.org/abs/2209.02045v1 )

ライセンス: Link先を確認
Igor Cherepanov, Alex Ulmer, Jonathan Geraldi Joewono, J\"orn Kohlhammer(参考訳) インターネットトラフィックの分類は、今日のネットワークやアプリケーションの急速な成長により、ますます重要になっている。 ネットワーク内のコネクションの数と新しいアプリケーションの追加は、大量のログデータを引き起こし、専門家による共通パターンの検索を複雑にします。 ネットワーク分析のさまざまな要件を満たすためには、特定のアプリケーションクラス間でそのようなパターンを見つける必要がある。 深層学習法は,単一システムにおける特徴抽出とデータ分類の両方を提供する。 しかし、これらのネットワークは非常に複雑であり、ブラックボックスモデルとして使われ、分類に対する専門家の信頼を弱める。 さらに,ブラックボックスとして用いることで,優れた性能にもかかわらず,モデル予測から新たな知識を得ることはできない。 したがって,分類の妥当性は重要である。 信頼度の向上に加えて、この説明はデータから新たな洞察を得てモデルを改善するためのモデル評価にも利用できる。 本稿では,ネットワークデータの分類と説明手法を組み合わせて,専門家,アルゴリズム,データ間のインターフェースを形成する視覚対話型ツールを提案する。

The classification of internet traffic has become increasingly important due to the rapid growth of today's networks and applications. The number of connections and the addition of new applications in our networks causes a vast amount of log data and complicates the search for common patterns by experts. Finding such patterns among specific classes of applications is necessary to fulfill various requirements in network analytics. Deep learning methods provide both feature extraction and classification from data in a single system. However, these networks are very complex and are used as black-box models, which weakens the experts' trust in the classifications. Moreover, by using them as a black-box, new knowledge cannot be obtained from the model predictions despite their excellent performance. Therefore, the explainability of the classifications is crucial. Besides increasing trust, the explanation can be used for model evaluation gaining new insights from the data and improving the model. In this paper, we present a visual interactive tool that combines the classification of network data with an explanation technique to form an interface between experts, algorithms, and data.
翻訳日:2022-09-07 15:44:48 公開日:2022-09-05
# 非線形レオロジーを用いた氷河モデルのための変分ニューラルネットワークアプローチ

A variational neural network approach for glacier modelling with nonlinear rheology ( http://arxiv.org/abs/2209.02088v1 )

ライセンス: Link先を確認
Tiangang Cui, Zhongjian Wang, Zhiwen Zhang(参考訳) 本稿では,氷河運動を非線形レオロジーでモデル化した全ストークス方程式のメッシュフリー解法を提案する。 このアプローチは[12]で提案されたdeep-ritz法にインスパイアされています。 まず,非ニュートン氷流モデルの解を境界制約付き変分積分の最小値に定式化する。 次に、損失関数が変動積分と混合境界条件からのソフト制約であるディープニューラルネットワークにより解を近似する。 損失関数を評価するためにメッシュグリッドや基底関数を導入する代わりに、我々の手法はドメインとバウンダリの均一なサンプリングのみを必要とする。 実世界のスケーリングにおける不安定性に対処するため,ネットワークの入力を第1層で再正規化し,各境界に対する正規化係数のバランスをとる。 最後に, 解析解を持つ2次元モデル, 実スケーリングを伴うarolla glacierモデル, 周期境界条件を持つ3次元モデルなどの数値実験により, 本手法の性能を示す。 提案手法は,非線形レオロジーを用いた氷河モデルから生じる非ニュートン力学を効率的に解くことができることを示す。

In this paper, we propose a mesh-free method to solve full stokes equation which models the glacier movement with nonlinear rheology. Our approach is inspired by the Deep-Ritz method proposed in [12]. We first formulate the solution of non-Newtonian ice flow model into the minimizer of a variational integral with boundary constraints. The solution is then approximated by a deep neural network whose loss function is the variational integral plus soft constraint from the mixed boundary conditions. Instead of introducing mesh grids or basis functions to evaluate the loss function, our method only requires uniform samplers of the domain and boundaries. To address instability in real-world scaling, we re-normalize the input of the network at the first layer and balance the regularizing factors for each individual boundary. Finally, we illustrate the performance of our method by several numerical experiments, including a 2D model with analytical solution, Arolla glacier model with real scaling and a 3D model with periodic boundary conditions. Numerical results show that our proposed method is efficient in solving the non-Newtonian mechanics arising from glacier modeling with nonlinear rheology.
翻訳日:2022-09-07 15:44:34 公開日:2022-09-05
# uformer-ics:画像圧縮センシングのためのu字形トランス

Uformer-ICS: A Specialized U-Shaped Transformer for Image Compressive Sensing ( http://arxiv.org/abs/2209.01763v1 )

ライセンス: Link先を確認
Kuiyuan Zhang and Zhongyun Hua and Yuanman Li and Yushu Zhang and Yicong Zhou(参考訳) 近年,画像圧縮センシング(CS)タスクに深部畳み込みニューラルネットワーク(CNN)を適用して,再現性の向上を図っている。 しかし、畳み込み層は一般的に受容野が小さいため、CNNを用いた長距離画素相関のキャプチャは困難であり、画像CSタスクの再構成性能が制限される。 この制限を考慮すると、Uformer-ICSと呼ばれる画像CSタスクのためのU字型変換器を提案する。 我々は,csの事前投影知識を元の変圧器ブロックに統合し,投影に基づく変圧器ブロックと残留畳み込みブロックを用いた対称復元モデルを構築した。 ローカル画像の特徴のみを活用できる従来のCNNベースのCS手法と比較して,提案手法は画像の局所的特徴と長距離依存性とCS理論の事前投影知識を同時に利用することができる。 さらに、ブロック間隔に基づいて画像ブロックを適応的にサンプリングできる適応サンプリングモデルを設計し、圧縮された結果が元の画像の可能な限りの情報を一定のサンプリング比で保持することを保証する。 提案するUformer-ICSは、サンプリングと再構築のプロセスを同時に学習するエンドツーエンドフレームワークである。 実験結果から,既存の最先端の深層学習に基づくCS手法に比べて,再構築性能が大幅に向上することが示された。

Recently, several studies have applied deep convolutional neural networks (CNNs) in image compressive sensing (CS) tasks to improve reconstruction quality. However, convolutional layers generally have a small receptive field; therefore, capturing long-range pixel correlations using CNNs is challenging, which limits their reconstruction performance in image CS tasks. Considering this limitation, we propose a U-shaped transformer for image CS tasks, called the Uformer-ICS. We develop a projection-based transformer block by integrating the prior projection knowledge of CS into the original transformer blocks, and then build a symmetrical reconstruction model using the projection-based transformer blocks and residual convolutional blocks. Compared with previous CNN-based CS methods that can only exploit local image features, the proposed reconstruction model can simultaneously utilize the local features and long-range dependencies of an image, and the prior projection knowledge of the CS theory. Additionally, we design an adaptive sampling model that can adaptively sample image blocks based on block sparsity, which can ensure that the compressed results retain the maximum possible information of the original image under a fixed sampling ratio. The proposed Uformer-ICS is an end-to-end framework that simultaneously learns the sampling and reconstruction processes. Experimental results demonstrate that it achieves significantly better reconstruction performance than existing state-of-the-art deep learning-based CS methods.
翻訳日:2022-09-07 15:31:43 公開日:2022-09-05
# ガウス前の自由エネルギー障壁と高次元単潮分布に対するMCMCの失敗について

On free energy barriers in Gaussian priors and failure of MCMC for high-dimensional unimodal distributions ( http://arxiv.org/abs/2209.02001v1 )

ライセンス: Link先を確認
Afonso S. Bandeira, Antoine Maillard, Richard Nickl, Sven Wang(参考訳) 本稿では,非線形回帰モデルで生じる高次元一次元後方分布の例を示す。この場合,最悪ケース ( ‘cold start') を初期化したMCMC法は,後方測度の大部分が集中する領域に入るのに指数的実行時間を要するのが一般的である。 逆例としては、勾配やランダムウォークステップに基づく一般的なmcmcスキームがあり、この理論は、pcnやマラのようなメトロポリス・ヘイスティング調整法で示されている。

We exhibit examples of high-dimensional unimodal posterior distributions arising in non-linear regression models with Gaussian process priors for which worst-case (`cold start') initialised MCMC methods typically take an exponential run-time to enter the regions where the bulk of the posterior measure concentrates. The counter-examples hold for general MCMC schemes based on gradient or random walk steps, and the theory is illustrated for Metropolis-Hastings adjusted methods such as pCN and MALA.
翻訳日:2022-09-07 15:30:15 公開日:2022-09-05
# データソースの多様化による車載ネットワークの分散化学習の促進

Boost Decentralized Federated Learning in Vehicular Networks by Diversifying Data Sources ( http://arxiv.org/abs/2209.01750v1 )

ライセンス: Link先を確認
Dongyuan Su, Yipeng Zhou, Laizhong Cui(参考訳) 近年、分散学習(FL)は、分散クライアントのデータプライバシを保護し、機械学習モデルを協調的にトレーニングする能力のために、集中的な研究を受けている。 一般的に、パラメータサーバ(PS)は、異なるクライアントから提供されたモデルパラメータを集約するためにデプロイされる。 分散連合学習(DFL)はFLからアップグレードされ、クライアントはモデルパラメータを直接隣人と集約することができる。 dflは車両同士が車両間通信(v2v)方式で通信する車載ネットワークとして特に実現可能である。 しかし、車両の経路や通信距離が制限されているため、個々の車両がモデルと十分に交換することは困難である。 個々の車両のモデルに寄与するデータソースは、モデル精度が劣るほど多様化しない可能性がある。 そこで本研究では,DFLにおけるデータソースの多様化を目的としたDFL-DDSアルゴリズムを提案する。 具体的には、各車両は状態ベクトルを保持して各データソースのモデルへの寄与重みを記録する。 Kullback-Leibler (KL) は状態ベクトルの多様性を測定するために用いられる。 DFLの収束を高めるために、車両は状態ベクトルのKL分散を最小化し、各データソースの集約重量を調整し、そのデータソースの多様化効果を理論的に証明することができる。 最後に、DFL-DDSの優位性について、DFL-DDSがDFLの収束を加速し、最先端のベースラインと比較してモデル精度を大幅に向上できることを示す広範な実験(MNISTとCIFAR-10データセット)により評価する。

Recently, federated learning (FL) has received intensive research because of its ability in preserving data privacy for scattered clients to collaboratively train machine learning models. Commonly, a parameter server (PS) is deployed for aggregating model parameters contributed by different clients. Decentralized federated learning (DFL) is upgraded from FL which allows clients to aggregate model parameters with their neighbours directly. DFL is particularly feasible for vehicular networks as vehicles communicate with each other in a vehicle-to-vehicle (V2V) manner. However, due to the restrictions of vehicle routes and communication distances, it is hard for individual vehicles to sufficiently exchange models with others. Data sources contributing to models on individual vehicles may not diversified enough resulting in poor model accuracy. To address this problem, we propose the DFL-DDS (DFL with diversified Data Sources) algorithm to diversify data sources in DFL. Specifically, each vehicle maintains a state vector to record the contribution weight of each data source to its model. The Kullback-Leibler (KL) divergence is adopted to measure the diversity of a state vector. To boost the convergence of DFL, a vehicle tunes the aggregation weight of each data source by minimizing the KL divergence of its state vector, and its effectiveness in diversifying data sources can be theoretically proved. Finally, the superiority of DFL-DDS is evaluated by extensive experiments (with MNIST and CIFAR-10 datasets) which demonstrate that DFL-DDS can accelerate the convergence of DFL and improve the model accuracy significantly compared with state-of-the-art baselines.
翻訳日:2022-09-07 15:25:32 公開日:2022-09-05
# 強化学習における自然政策のグラディエント

Natural Policy Gradients In Reinforcement Learning Explained ( http://arxiv.org/abs/2209.01820v1 )

ライセンス: Link先を確認
W.J.A. van Heeswijk(参考訳) 従来の政策勾配法は根本的な欠陥がある。 自然勾配はより早く収束し、信頼地域政策最適化(TRPO)やPPO(Pximal Policy Optimization)といった現代強化学習の基礎を形成する。 本講義の目的は,思考過程と重要な数学的構成に着目し,自然政策勾配の背後にある直観を明らかにすることである。

Traditional policy gradient methods are fundamentally flawed. Natural gradients converge quicker and better, forming the foundation of contemporary Reinforcement Learning such as Trust Region Policy Optimization (TRPO) and Proximal Policy Optimization (PPO). This lecture note aims to clarify the intuition behind natural policy gradients, focusing on the thought process and the key mathematical constructs.
翻訳日:2022-09-07 15:25:04 公開日:2022-09-05
# DISA:分散凸合成最適化のための二重非接触分割アルゴリズム

DISA: A Dual Inexact Splitting Algorithm for Distributed Convex Composite Optimization ( http://arxiv.org/abs/2209.01850v1 )

ライセンス: Link先を確認
Luyao Guo, Xinli Shi, Shaofu Yang, Jinde Cao(参考訳) 本稿では、分散凸合成最適化問題に対して、局所損失関数が$L$-smooth項と、線形演算子で構成されるおそらく非smooth項からなる新しい双対不動分割アルゴリズム(DISA)を提案する。 原始および双対が$\tau$、$\beta$が$0<\tau<{2}/{L}$と$0<\tau\beta <1$を満たすとき、disAが収束することが証明される。 既存の原始-二重近位分割アルゴリズム (PD-PSA) と比較すると、 DisA は線型作用素のユークリッドノルムに対する収束段階範囲の依存を克服する。 これは DISA がユークリッドノルムが大きければより大きな段階化を許容し、それによってその高速収束が保証されることを意味する。 さらに, 一般凸性および計量準正則性の下で, DISA の線形収束率と線形収束率を確立する。 さらに,disaの近似反復バージョンを提供し,この近似バージョンの大域収束とサブリニア収束率を証明した。 最後に, 数値実験により, disa が既存の pd-psas と比較して著しく加速することを示す。

This paper proposes a novel dual inexact splitting algorithm (DISA) for the distributed convex composite optimization problem, where the local loss function consists of an $L$-smooth term and a possibly nonsmooth term which is composed with a linear operator. We prove that DISA is convergent when the primal and dual stepsizes $\tau$, $\beta$ satisfy $0<\tau<{2}/{L}$ and $0<\tau\beta <1$. Compared with existing primal-dual proximal splitting algorithms (PD-PSAs), DISA overcomes the dependence of the convergence stepsize range on the Euclidean norm of the linear operator. It implies that DISA allows for larger stepsizes when the Euclidean norm is large, thus ensuring fast convergence of it. Moreover, we establish the sublinear and linear convergence rate of DISA under general convexity and metric subregularity, respectively. Furthermore, an approximate iterative version of DISA is provided, and the global convergence and sublinear convergence rate of this approximate version are proved. Finally, numerical experiments not only corroborate the theoretical analyses but also indicate that DISA achieves a significant acceleration compared with the existing PD-PSAs.
翻訳日:2022-09-07 15:24:56 公開日:2022-09-05
# 原子論的機械学習のスムーズな基礎

A smooth basis for atomistic machine learning ( http://arxiv.org/abs/2209.01948v1 )

ライセンス: Link先を確認
Filippo Bigi, Kevin Huguenin-Dumittan, Michele Ceriotti, David E. Manolopoulos(参考訳) 原子間位置の相関に基づく機械学習フレームワークは、システム内の各原子の近傍における他の原子の密度の離散化記述から始まります。 対称性の考慮は、この密度の角依存性を広げるために球面高調波を使うことを支持するが、一方の放射状基底を他方から選択する明確な根拠はまだ存在しない。 ここでは、興味の原子の周りの球面内のラプラシアン固有値問題の解から得られる基礎を考察する。 これは球面内の任意の大きさの最も滑らかな基底を生成することを示し、ラプラシアン固有状態のテンソル積は、適切な超球面内の原子密度の任意の高次相関を拡張できる最も滑らかな基礎を与える。 与えられたデータセットのベースの品質に関する教師なしの指標をいくつか検討し、ラプラシア固有状態基底は、広く使用されているベースセットよりもはるかに優れた性能を有し、各メトリックを数値的に最適化するデータ駆動ベースと競合することを示す。 教師付き機械学習テストにおいて、ラプラシア固有状態の最適関数の滑らかさは、特定のデータセットの原子密度相関を記述するために最適化された類似サイズのデータ駆動型ベースから得られるものよりも、同等または優れた性能をもたらすことがわかった。 我々は基底関数の滑らかさが鍵であり、原子密度表現の成功の側面をほとんど見落としていると結論づける。

Machine learning frameworks based on correlations of interatomic positions begin with a discretized description of the density of other atoms in the neighbourhood of each atom in the system. Symmetry considerations support the use of spherical harmonics to expand the angular dependence of this density, but there is as yet no clear rationale to choose one radial basis over another. Here we investigate the basis that results from the solution of the Laplacian eigenvalue problem within a sphere around the atom of interest. We show that this generates the smoothest possible basis of a given size within the sphere, and that a tensor product of Laplacian eigenstates also provides the smoothest possible basis for expanding any higher-order correlation of the atomic density within the appropriate hypersphere. We consider several unsupervised metrics of the quality of a basis for a given dataset, and show that the Laplacian eigenstate basis has a performance that is much better than some widely used basis sets and is competitive with data-driven bases that numerically optimize each metric. In supervised machine learning tests, we find that the optimal function smoothness of the Laplacian eigenstates leads to comparable or better performance than can be obtained from a data-driven basis of a similar size that has been optimized to describe the atom-density correlation for the specific dataset. We conclude that the smoothness of the basis functions is a key and hitherto largely overlooked aspect of successful atomic density representations.
翻訳日:2022-09-07 15:24:35 公開日:2022-09-05
# 平均治療効果推定のためのロバスト因果学習

Robust Causal Learning for the Estimation of Average Treatment Effects ( http://arxiv.org/abs/2209.01805v1 )

ライセンス: Link先を確認
Yiyan Huang, Cheuk Hang Leung, Xing Yan, Qi Wu, Shumin Ma, Zhiri Yuan, Dongdong Wang, Zhixiang Huang(参考訳) 経済学や医療における多くの実践的な意思決定問題は、観察データから平均治療効果(ATE)を推定しようとする。 ダブル/デバイアスド機械学習(Double/Debiased Machine Learning, DML)は、観測研究におけるATEを推定する一般的な手法の1つである。 しかし、dml推定器は誤差推定問題に苦しめられ、プロペンサリティスコアが0または1に非常に近い場合にも極端な推定を行うことができる。 従来の研究は、確率スコアトリミングのような経験的なトリックによってこの問題を克服してきたが、既存の文献では理論的な観点からこの問題を解決していない。 本稿では,DML推定器の欠陥を相殺するロバスト因果学習(RCL)手法を提案する。 理論的には、RCL推定器 i)DML推定値と同じくらい一貫性があり、二重に堅牢であり、 ii) エラー拡散問題を取り除くことができる。 実験の結果 総合的な実験は 一)RCL推定器は、DML推定器より因果パラメータをより安定的に推定し、 二 シミュレーション及びベンチマークデータセットの両方に異なる機械学習モデルを適用する場合において、rcl推定器は、従来の推定器及びその変種を上回る。

Many practical decision-making problems in economics and healthcare seek to estimate the average treatment effect (ATE) from observational data. The Double/Debiased Machine Learning (DML) is one of the prevalent methods to estimate ATE in the observational study. However, the DML estimators can suffer an error-compounding issue and even give an extreme estimate when the propensity scores are misspecified or very close to 0 or 1. Previous studies have overcome this issue through some empirical tricks such as propensity score trimming, yet none of the existing literature solves this problem from a theoretical standpoint. In this paper, we propose a Robust Causal Learning (RCL) method to offset the deficiencies of the DML estimators. Theoretically, the RCL estimators i) are as consistent and doubly robust as the DML estimators, and ii) can get rid of the error-compounding issue. Empirically, the comprehensive experiments show that i) the RCL estimators give more stable estimations of the causal parameters than the DML estimators, and ii) the RCL estimators outperform the traditional estimators and their variants when applying different machine learning models on both simulation and benchmark datasets.
翻訳日:2022-09-07 15:13:51 公開日:2022-09-05
# 差分プライバシーを応用した大規模グラフ信号

Large Graph Signal Denoising with Application to Differential Privacy ( http://arxiv.org/abs/2209.02043v1 )

ライセンス: Link先を確認
Elie Chedemail, Basile de Loynes, Fabien Navarro, Baptiste Olivier(参考訳) 過去10年間で、グラフ上の信号処理は非常に活発な研究領域となった。 具体的には、例えば統計学や深層学習において、グラフ上のウェーブレットのようなグラフから構築されたフレームを使用するアプリケーションの数が大幅に増加した。 特に,データ駆動のウェーブレットタイトフレーム手法を用いて,グラフ上の信号デノージングを行う場合を考える。 この適応的アプローチは、タイトなフレーム表現に適応したスタインの非バイアスリスク推定を用いて、しきい値のキャリブレーションに基づいている。 本研究では,ラプラシアン固有デコンポジションを計算することなく,ウェーブレット係数の高速計算を可能にするチェビシェフ・ジャックソン多項式近似を用いて,大規模グラフへの拡張性を実現する。 しかし、タイトフレームの過剰な性質により、ホワイトノイズは相関したノイズに変換される。 その結果、変換されたノイズの共分散はSUREの発散項に現れるため、フレームの計算と保存が必要となり、大きなグラフに対する非現実的な計算に繋がる。 このような共分散を推定するために,ゼロ平均と単位分散確率変数の高速変換に基づくモンテカルロ戦略を開発し,解析する。 この新しいデータ駆動のデノベーション手法は、差分プライバシーの自然な応用を見出す。 実データとシミュレーションデータから,様々な大きさのグラフ上で総合的な性能解析を行う。

Over the last decade, signal processing on graphs has become a very active area of research. Specifically, the number of applications, for instance in statistical or deep learning, using frames built from graphs, such as wavelets on graphs, has increased significantly. We consider in particular the case of signal denoising on graphs via a data-driven wavelet tight frame methodology. This adaptive approach is based on a threshold calibrated using Stein's unbiased risk estimate adapted to a tight-frame representation. We make it scalable to large graphs using Chebyshev-Jackson polynomial approximations, which allow fast computation of the wavelet coefficients, without the need to compute the Laplacian eigendecomposition. However, the overcomplete nature of the tight-frame, transforms a white noise into a correlated one. As a result, the covariance of the transformed noise appears in the divergence term of the SURE, thus requiring the computation and storage of the frame, which leads to an impractical calculation for large graphs. To estimate such covariance, we develop and analyze a Monte-Carlo strategy, based on the fast transformation of zero mean and unit variance random variables. This new data-driven denoising methodology finds a natural application in differential privacy. A comprehensive performance analysis is carried out on graphs of varying size, from real and simulated data.
翻訳日:2022-09-07 15:13:34 公開日:2022-09-05
# 計算するか計算しないか? 資源制約エッジコンピューティングにおける適応型スマートセンシング

To Compute or not to Compute? Adaptive Smart Sensing in Resource-Constrained Edge Computing ( http://arxiv.org/abs/2209.02166v1 )

ライセンス: Link先を確認
Luca Ballotta, Giovanni Peserico, Francesco Zanini, Paolo Dini(参考訳) エッジコンピューティングアプリケーション用のスマートセンサのネットワークについて検討し,関心のある信号をサンプリングし,リモートのグローバル監視のために基地局に更新を送信する。 センサーはセンシングと計算機能を備えており、生データを送信したり、送信前に処理することができる。 エッジの限られたハードウェアリソースは、基本的な遅延精度のトレードオフを生成する: 生の測定は不正確だが、タイムリーであるのに対して、正確な処理更新は計算遅延後に利用可能である。 また,センサオンボード処理にデータ圧縮が伴う場合,無線通信による遅延が生測値より大きくなる可能性がある。 したがって、センサが生の測定をいつ送信すべきか、あるいはネットワーク全体の性能を最大化するためにローカル処理に依存するかを決定する必要がある。 このセンシング設計問題に対処するために,計算遅延と通信遅延を組み込んだ推定理論最適化フレームワークをモデル化し,各センサに動的に計算資源を割り当てる強化学習ベースアプローチを提案する。 提案手法の有効性は、ドローンインターネットと自動運転車によるケーススタディによる数値シミュレーションによって検証される。

We consider a network of smart sensors for edge computing application that sample a signal of interest and send updates to a base station for remote global monitoring. Sensors are equipped with sensing and compute, and can either send raw data or process them on-board before transmission. Limited hardware resources at the edge generate a fundamental latency-accuracy trade-off: raw measurements are inaccurate but timely, whereas accurate processed updates are available after computational delay. Also, if sensor on-board processing entails data compression, latency caused by wireless communication might be higher for raw measurements. Hence, one needs to decide when sensors should transmit raw measurements or rely on local processing to maximize overall network performance. To tackle this sensing design problem, we model an estimation-theoretic optimization framework that embeds computation and communication delays, and propose a Reinforcement Learning-based approach to dynamically allocate computational resources at each sensor. Effectiveness of our proposed approach is validated through numerical simulations with case studies motivated by the Internet of Drones and self-driving vehicles.
翻訳日:2022-09-07 15:06:41 公開日:2022-09-05
# SPCNet: ステップワイズポイントクラウドコンプリートネットワーク

SPCNet: Stepwise Point Cloud Completion Network ( http://arxiv.org/abs/2209.01746v1 )

ライセンス: Link先を確認
Fei Hu, Honghua Chen, Xuequan Lu, Zhe Zhu, Jun Wang, Weiming Wang, Fu Lee Wang, Mingqiang Wei(参考訳) 物足りない物をどうやって修理するのですか。 まず、グローバルで粗い形状を回復し、局所的な詳細を段階的に増やすことができる。 我々は、上述の物理的修復手順を模倣して、point cloud completionタスクに対処する動機があります。 本稿では,様々な3dモデルに対するステップワイズ・ポイント・クラウド・コンプリート・ネットワーク(spcnet)を提案する。 SPCNetには階層的なボトムアップネットワークアーキテクチャがある。 形状の完成を反復的に達成する。 1) まず,粗い結果のグローバルな特徴を推測する。 2) グローバルな特徴の助けを借りて局所的特徴を推測し, 3)最後に、局所的な特徴と粗い結果の助けを借りて詳細な結果を推測する。 物理的修復をシミュレートする知恵の他に,SPCNetの一般化と堅牢性を高めるために,サイクル損失%に基づくトレーニング戦略を新たに設計する。 広範な実験により、spcnetが3dポイント雲の最先端の手法よりも優れていることが明らかとなった。

How will you repair a physical object with large missings? You may first recover its global yet coarse shape and stepwise increase its local details. We are motivated to imitate the above physical repair procedure to address the point cloud completion task. We propose a novel stepwise point cloud completion network (SPCNet) for various 3D models with large missings. SPCNet has a hierarchical bottom-to-up network architecture. It fulfills shape completion in an iterative manner, which 1) first infers the global feature of the coarse result; 2) then infers the local feature with the aid of global feature; and 3) finally infers the detailed result with the help of local feature and coarse result. Beyond the wisdom of simulating the physical repair, we newly design a cycle loss %based training strategy to enhance the generalization and robustness of SPCNet. Extensive experiments clearly show the superiority of our SPCNet over the state-of-the-art methods on 3D point clouds with large missings.
翻訳日:2022-09-07 15:04:26 公開日:2022-09-05
# 4d lut: 学習可能なコンテキストアウェアな4dルックアップテーブル

4D LUT: Learnable Context-Aware 4D Lookup Table for Image Enhancement ( http://arxiv.org/abs/2209.01749v1 )

ライセンス: Link先を確認
Chengxu Liu, Huan Yang, Jianlong Fu, Xueming Qian(参考訳) 画像強調は、色やトーンを変えることで写真の美的視覚的品質を向上させることを目的としており、プロのデジタル写真に欠かせない技術である。 近年,ディープラーニングに基づく画像強調アルゴリズムは有望な性能を達成し,人気が高まっている。 しかし、典型的な試みは、すべてのピクセルの色変換の均一なエンハンサーを構築しようとするものである。 これは、写真に重要な異なるコンテンツ(例えば、空、海など)のピクセル差を無視し、不満足な結果をもたらす。 本稿では,写真コンテキストを適応的に学習することで,各画像内の異なる内容のコンテンツ依存的な拡張を実現する,学習可能なコンテキスト対応4次元ルックアップテーブル(4D LUT)を提案する。 特に,まず,画素レベルカテゴリのコンテキストマップと画像適応係数のグループを学習するために,軽量なコンテキストエンコーダとパラメータエンコーダを導入する。 そして、この係数を介して複数のベース4D LUTを統合することにより、コンテキスト対応4D LUTを生成する。 最後に、ソース画像とコンテキストマップを4次線形補間により融合したコンテキスト認識4D〜LUTに入力することにより、拡張画像を得ることができる。 従来の3dlut、すなわちrgbからrgbへのマッピングは、カメライメージングパイプラインシステムやツール、すなわちrgbへの4dlut、すなわちrgbへのrgbc(rgb+context)マッピングで一般的に使用される。 実験の結果,本手法は広く使用されているベンチマークにおいて,他の最先端手法よりも優れていることがわかった。

Image enhancement aims at improving the aesthetic visual quality of photos by retouching the color and tone, and is an essential technology for professional digital photography. Recent years deep learning-based image enhancement algorithms have achieved promising performance and attracted increasing popularity. However, typical efforts attempt to construct a uniform enhancer for all pixels' color transformation. It ignores the pixel differences between different content (e.g., sky, ocean, etc.) that are significant for photographs, causing unsatisfactory results. In this paper, we propose a novel learnable context-aware 4-dimensional lookup table (4D LUT), which achieves content-dependent enhancement of different contents in each image via adaptively learning of photo context. In particular, we first introduce a lightweight context encoder and a parameter encoder to learn a context map for the pixel-level category and a group of image-adaptive coefficients, respectively. Then, the context-aware 4D LUT is generated by integrating multiple basis 4D LUTs via the coefficients. Finally, the enhanced image can be obtained by feeding the source image and context map into fused context-aware 4D~LUT via quadrilinear interpolation. Compared with traditional 3D LUT, i.e., RGB mapping to RGB, which is usually used in camera imaging pipeline systems or tools, 4D LUT, i.e., RGBC(RGB+Context) mapping to RGB, enables finer control of color transformations for pixels with different content in each image, even though they have the same RGB values. Experimental results demonstrate that our method outperforms other state-of-the-art methods in widely-used benchmarks.
翻訳日:2022-09-07 15:04:14 公開日:2022-09-05
# REQA:範囲効果を緩和するための画像品質の粗大な評価

REQA: Coarse-to-fine Assessment of Image Quality to Alleviate the Range Effect ( http://arxiv.org/abs/2209.01760v1 )

ライセンス: Link先を確認
Bingheng Li and Fushuo Huo(参考訳) ユーザ生成コンテンツ(UGC)のブラインド画像品質評価(BIQA)は、全体品質範囲において平均意見スコア(MOS)と予測MOS(pMOS)がよく相関していることを示す範囲効果に苦しむ。 範囲効果の理由は、予測された偏差が広い範囲と狭い範囲の両方で、MOSとpMOSの均一性を破壊するためである。 この問題に取り組むため,粗粒度から微粒度予測まで,新しい手法を提案する。 まず、粗粒度メトリクスのランクとグレードの損失をデザインする。 この損失はpMOSとMOSの順序と階調の整合性を保ち、予測偏差を広範囲に減少させる。 次に,細粒度予測を行うために,マルチレベル耐性損失を提案する。 損失は、予測された偏差を狭く狭くする閾値の低下によって制限される。 最後に,細部まで粗い評価を行うためのフィードバックネットワークを設計する。 一方,ネットワークは,マルチスケールの歪み特徴を反復的に処理するためのフィードバックブロックを採用し,その一方で,各イテレーションの出力に非局所的コンテキスト特徴を融合させて,より品質の高い特徴表現を取得する。 実験結果から,提案手法は最先端手法と比較して有効に範囲効果を緩和できることが示された。

Blind image quality assessment (BIQA) of user generated content (UGC) suffers from the range effect which indicates that on the overall quality range, mean opinion score (MOS) and predicted MOS (pMOS) are well correlated; focusing on a particular range, the correlation is lower. The reason for the range effect is that the predicted deviations both in a wide range and in a narrow range destroy the uniformity between MOS and pMOS. To tackle this problem, a novel method is proposed from coarse-grained metric to fine-grained prediction. Firstly, we design a rank-and-gradient loss for coarse-grained metric. The loss keeps the order and grad consistency between pMOS and MOS, thereby reducing the predicted deviation in a wide range. Secondly, we propose multi-level tolerance loss to make fine-grained prediction. The loss is constrained by a decreasing threshold to limite the predicted deviation in narrower and narrower ranges. Finally, we design a feedback network to conduct the coarse-to-fine assessment. On the one hand, the network adopts feedback blocks to process multi-scale distortion features iteratively and on the other hand, it fuses non-local context feature to the output of each iteration to acquire more quality-aware feature representation. Experimental results demonstrate that the proposed method can alleviate the range effect compared to the state-of-the-art methods effectively.
翻訳日:2022-09-07 15:03:47 公開日:2022-09-05
# B-CANF:条件付き正規化流を用いた適応的Bフレーム符号化

B-CANF: Adaptive B-frame Coding with Conditional Augmented Normalizing Flows ( http://arxiv.org/abs/2209.01769v1 )

ライセンス: Link先を確認
Mu-Jung Chen, Yi-Hsin Chen, Peng-Yu Chen, Chih Hsuan Lin, Yung-Han Ho, Wen-Hsiao Peng(参考訳) この研究は、Bフレームコーディングのための条件付き拡張正規化フローを利用するBフレームコーディングフレームワークであるB-CANFを導入する。 学習されたbフレームコーディングは、より探索的で、より困難である。 条件付きPフレームコーディングの最近の進歩により、B-CANFは条件付きモーションとフレーム間コーディングの両方にフローベースのモデルを適用する最初の試みである。 B-CANFはフレーム型適応符号化を備え、階層的Bフレーム符号化のビット割り当てを改善する。 B-CANFはまた、B*フレームと呼ばれる特別なタイプのBフレームを導入し、Pフレームのコーディングを模倣した。 一般的に使用されるデータセットでは、B-CANFは最先端の圧縮性能を達成し、ランダムアクセス構成の下では(PSNR-RGBの観点から)HM-16.23と同等なBDレートの結果を示す。

This work introduces a B-frame coding framework, termed B-CANF, that exploits conditional augmented normalizing flows for B-frame coding. Learned B-frame coding is less explored and more challenging. Motivated by recent advances in conditional P-frame coding, B-CANF is the first attempt at applying flow-based models to both conditional motion and inter-frame coding. B-CANF features frame-type adaptive coding that learns better bit allocation for hierarchical B-frame coding. B-CANF also introduces a special type of B-frame, called B*-frame, to mimic P-frame coding. On commonly used datasets, B-CANF achieves the state-of-the-art compression performance, showing comparable BD-rate results (in terms of PSNR-RGB) to HM-16.23 under the random access configuration.
翻訳日:2022-09-07 15:03:22 公開日:2022-09-05
# UDC-UNet:U字型ダイナミックネットワークによる映像再生

UDC-UNet: Under-Display Camera Image Restoration via U-Shape Dynamic Network ( http://arxiv.org/abs/2209.01809v1 )

ライセンス: Link先を確認
Xina Liu, Jinfan Hu, Xiangyu Chen, Chao Dong(参考訳) under-display camera (udc) はスマートフォンがフルスクリーンディスプレイを実現するために広く利用されている。 しかし、スクリーンは必然的に光伝播プロセスに影響を与えるため、UDCシステムによって撮影された画像にはフレア、ヘイズ、ぼかし、ノイズが含まれている。 特に、UDC画像のフレアやぼやけは、ハイダイナミックレンジ(HDR)シーンのユーザエクスペリエンスを著しく悪化させる可能性がある。 本稿では,hdrシーンにおける既知の点拡散関数(psf)を用いたudc画像復元問題に対処するための,新しい深層モデルであるudc-unetを提案する。 UDCシステムのポイントスプレッド機能(PSF)が知られていることを前提として,UDC画像復元を非盲点画像復元問題として扱い,新しい学習手法を提案する。 本ネットワークは,マルチスケール情報を利用するU字型ベースネットワーク,空間変動変調を行う条件分岐,与えられたPSFの事前知識を提供するカーネルブランチの3つの部分から構成される。 HDRデータの特徴から,ネットワーク最適化を安定させ,視覚的品質を向上させるために,トーンマッピング損失を設計する。 実験結果から,提案したUDC-UNetは,定量および定性比較において最先端の手法よりも優れていた。 われわれのアプローチはMIPIチャレンジのUDC画像復元トラックで2位を獲得した。 コードは公開されます。

Under-Display Camera (UDC) has been widely exploited to help smartphones realize full screen display. However, as the screen could inevitably affect the light propagation process, the images captured by the UDC system usually contain flare, haze, blur, and noise. Particularly, flare and blur in UDC images could severely deteriorate the user experience in high dynamic range (HDR) scenes. In this paper, we propose a new deep model, namely UDC-UNet, to address the UDC image restoration problem with the known Point Spread Function (PSF) in HDR scenes. On the premise that Point Spread Function (PSF) of the UDC system is known, we treat UDC image restoration as a non-blind image restoration problem and propose a novel learning-based approach. Our network consists of three parts, including a U-shape base network to utilize multi-scale information, a condition branch to perform spatially variant modulation, and a kernel branch to provide the prior knowledge of the given PSF. According to the characteristics of HDR data, we additionally design a tone mapping loss to stabilize network optimization and achieve better visual quality. Experimental results show that the proposed UDC-UNet outperforms the state-of-the-art methods in quantitative and qualitative comparisons. Our approach won the second place in the UDC image restoration track of MIPI challenge. Codes will be publicly available.
翻訳日:2022-09-07 15:03:08 公開日:2022-09-05
# healthygan: 注釈のない医療画像から学ぶことで、ヒト疾患に関連する異常を検出する

HealthyGAN: Learning from Unannotated Medical Images to Detect Anomalies Associated with Human Disease ( http://arxiv.org/abs/2209.01822v1 )

ライセンス: Link先を確認
Md Mahfuzur Rahman Siddiquee, Jay Shah, Teresa Wu, Catherine Chong, Todd Schwedt, and Baoxin Li(参考訳) MRIやX線などの医療画像からの自動異常検出は、疾患診断における人間の労力を大幅に削減する。 モデリングの複雑さと、ドメインの専門家(放射線技師など)による手動アノテーションのコストの高さから、現在の医療画像文献では、モデルが患者からの画像を異常値として検出することを前提として、健康な被験者からのみ診断モデルを導出することに焦点を当てている。 しかし、多くの現実世界のシナリオでは、健全な個人と病気の個人の両方が混在した注釈のないデータセットが豊富である。 そこで本稿では,(1)混合画像の無記名集合と(2)文献に使用される健全画像の集合を用いて,教師なし異常検出を改善する方法についての研究課題を提案する。 そこで本研究では,混合データセットから健常画像のみへの画像変換を学習する,一方向画像対画像変換法であるhealthganを提案する。 一方向であることから、HealthyGANは既存の未ペア画像から画像への翻訳手法のサイクル一貫性の要求を緩和する。 翻訳が学習されると、変換された出力を減算して任意の画像の差分マップを生成する。 差分マップにおける重要な応答領域は、(もしあれば)潜在的な異常に対応する。 私たちのHealthyGANは、新型コロナウイルス(COVID-19)とNIH ChestX-ray14(NIH ChestX-ray14)という2つの公開データセットと、メイヨークリニックから収集された1つの機関的データセットに対して、従来の最先端の手法よりも大幅に優れています。 実装はhttps://github.com/mahfuzmohammad/HealthyGANで公開されている。

Automated anomaly detection from medical images, such as MRIs and X-rays, can significantly reduce human effort in disease diagnosis. Owing to the complexity of modeling anomalies and the high cost of manual annotation by domain experts (e.g., radiologists), a typical technique in the current medical imaging literature has focused on deriving diagnostic models from healthy subjects only, assuming the model will detect the images from patients as outliers. However, in many real-world scenarios, unannotated datasets with a mix of both healthy and diseased individuals are abundant. Therefore, this paper poses the research question of how to improve unsupervised anomaly detection by utilizing (1) an unannotated set of mixed images, in addition to (2) the set of healthy images as being used in the literature. To answer the question, we propose HealthyGAN, a novel one-directional image-to-image translation method, which learns to translate the images from the mixed dataset to only healthy images. Being one-directional, HealthyGAN relaxes the requirement of cycle consistency of existing unpaired image-to-image translation methods, which is unattainable with mixed unannotated data. Once the translation is learned, we generate a difference map for any given image by subtracting its translated output. Regions of significant responses in the difference map correspond to potential anomalies (if any). Our HealthyGAN outperforms the conventional state-of-the-art methods by significant margins on two publicly available datasets: COVID-19 and NIH ChestX-ray14, and one institutional dataset collected from Mayo Clinic. The implementation is publicly available at https://github.com/mahfuzmohammad/HealthyGAN.
翻訳日:2022-09-07 15:02:46 公開日:2022-09-05
# 回収検出における疑似画像の法医学的評価

Forensicability Assessment of Questioned Images in Recapturing Detection ( http://arxiv.org/abs/2209.01935v1 )

ライセンス: Link先を確認
Changsheng Chen, Lin Zhao, Rizhao Cai, Zitong Yu, Jiwu Huang, Alex C. Kot(参考訳) 顔画像と文書画像の再検出は重要な法医学的課題である。 深層学習では, 対面アンチスプーフィング(FAS)と再適応文書検出の性能が大幅に向上した。 しかし、弱い法医学的手がかりを持つサンプルでは、その性能はまだ満足できない。 法医学的な手がかりの量を定量化し、信頼できる法医学的な結果を得られる。 そこで本研究では,質問試料の鑑識を定量化する鑑識評価ネットワークを提案する。 低フォレンシビリティサンプルは、実際の再適応検出プロセスの前に拒絶され、再適応検出システムの効率が向上する。 まず,画像品質評価と法医学的課題の両方に関連する法医学的特徴を抽出する。 画像品質と法医学的特徴における法医学的応用のドメイン知識を活用することで、3つのタスク固有の法医学的クラスと特徴空間における初期化位置を定義する。 抽出した特徴と定義されたセンターに基づいて,提案する法医学評価ネットワーク(FANet)をクロスエントロピー損失でトレーニングし,モーメントに基づく更新手法でセンターを更新する。 本研究は, フェース・アンチ・スプーフィングと文書検出タスクにおける実用的再捕集検出スキームと統合する。 実験の結果、一般的な cnn ベースの fas スキームでは、fanet は 30% の可視性スコアのサンプルを拒絶することで、eers を 33.75% から 19.23% に減らすことが示されている。 FASスキームの性能は拒否されたサンプルでは不十分であり、EERは56.48%である。 FASと再適応された文書検出タスクにおける最先端のアプローチに対して、低フォレンシビリティサンプルを拒絶する同様の性能が観察されている。 私たちの知る限りでは、これは文書画像の検索可能性を評価し、システム効率を向上させる最初の仕事です。

Recapture detection of face and document images is an important forensic task. With deep learning, the performances of face anti-spoofing (FAS) and recaptured document detection have been improved significantly. However, the performances are not yet satisfactory on samples with weak forensic cues. The amount of forensic cues can be quantified to allow a reliable forensic result. In this work, we propose a forensicability assessment network to quantify the forensicability of the questioned samples. The low-forensicability samples are rejected before the actual recapturing detection process to improve the efficiency of recapturing detection systems. We first extract forensicability features related to both image quality assessment and forensic tasks. By exploiting domain knowledge of the forensic application in image quality and forensic features, we define three task-specific forensicability classes and the initialized locations in the feature space. Based on the extracted features and the defined centers, we train the proposed forensic assessment network (FANet) with cross-entropy loss and update the centers with a momentum-based update method. We integrate the trained FANet with practical recapturing detection schemes in face anti-spoofing and recaptured document detection tasks. Experimental results show that, for a generic CNN-based FAS scheme, FANet reduces the EERs from 33.75% to 19.23% under ROSE to IDIAP protocol by rejecting samples with the lowest 30% forensicability scores. The performance of FAS schemes is poor in the rejected samples, with EER as high as 56.48%. Similar performances in rejecting low-forensicability samples have been observed for the state-of-the-art approaches in FAS and recaptured document detection tasks. To the best of our knowledge, this is the first work that assesses the forensicability of recaptured document images and improves the system efficiency.
翻訳日:2022-09-07 15:02:13 公開日:2022-09-05
# 不均一脳MRIデータセットの大規模解析のためのロバスト機械学習セグメンテーション

Robust machine learning segmentation for large-scale analysis of heterogeneous clinical brain MRI datasets ( http://arxiv.org/abs/2209.02032v1 )

ライセンス: Link先を確認
Benjamin Billot, Colin Magdamo, Steven E. Arnold, Sudeshna Das, Juan. E. Iglesias(参考訳) 毎年、何百万もの脳MRIスキャンが病院で取得されている。 したがって、そのようなスキャンを分析する能力は、神経画像研究を変革する可能性がある。 しかし、その可能性は未解決であり、自動アルゴリズムは臨床取得における高い変動性(mrコントラスト、解像度、方向など)に対応できない。 ここでは、異種の臨床データセットの堅牢な分析を可能にするAIセグメンテーションスイートであるSynthSeg+を紹介する。 具体的には、全脳セグメンテーションに加えて、SynthSeg+は皮質パーセレーション、頭蓋内体積推定、故障セグメンテーションの自動検出(主に非常に低い品質のスキャンによって引き起こされる)も行う。 われわれはSynthSeg+を14,000スキャンの老化研究を含む7つの実験で実証し、より高品質なデータで観測された萎縮パターンを正確に再現した。 SynthSeg+は、広範囲な設定で量的形態計測の可能性を解き放つための使えるツールとして、一般公開されている。

Every year, millions of brain MRI scans are acquired in hospitals, which is a figure considerably larger than the size of any research dataset. Therefore, the ability to analyse such scans could transform neuroimaging research. Yet, their potential remains untapped, since no automated algorithm can cope with the high variability in clinical acquisitions (MR contrast, resolution, orientation, etc.). Here we present SynthSeg+, an AI segmentation suite that enables, for the first time, robust analysis of heterogeneous clinical datasets. Specifically, in addition to whole-brain segmentation, SynthSeg+ also performs cortical parcellation, intracranial volume estimation, and automated detection of faulty segmentations (mainly caused by scans of very low quality). We demonstrate SynthSeg+ in seven experiments, including an ageing study on 14,000 scans, where it accurately replicates atrophy patterns observed on data of much higher quality. SynthSeg+ is publicly released as a ready-to-use tool to unlock the potential of quantitative morphometry in wide-ranging settings.
翻訳日:2022-09-07 15:01:41 公開日:2022-09-05
# 経直腸超音波画像における前立腺分割のための領域一般化 : 多施設共同研究

Domain Generalization for Prostate Segmentation in Transrectal Ultrasound Images: A Multi-center Study ( http://arxiv.org/abs/2209.02126v1 )

ライセンス: Link先を確認
Sulaiman Vesal, Iani Gayo, Indrani Bhattacharya, Shyam Natarajan, Leonard S. Marks, Dean C Barratt, Richard E. Fan, Yipeng Hu, Geoffrey A. Sonn, and Mirabela Rusu(参考訳) 前立腺生検や画像ガイド下治療は、MRI(MRI)と融合した超音波で行うことが多い。 正確な画像融合は、超音波画像による前立腺の正確なセグメンテーションに依存する。 しかし,超音波画像における信号対雑音比とアーチファクト(スペックルやシャドーイングなど)の低減は,自動前立腺セグメンテーション技術の性能を制限し,これらの手法を新たな画像領域に一般化することは本質的に困難である。 本研究では,超音波画像の前立腺セグメンテーションのための2.5次元深層ニューラルネットワークを導入することで,これらの課題に対処した。 提案手法は,教師付きドメイン適応手法と知識蒸留損失を組み合わせることで,伝達学習と微調整手法(モデルの重みが更新されたとき,元のトレーニングデータに性能を落としてしまう)の限界に対処する。 知識蒸留損失は、学習した知識の保存を可能にし、新しいデータセットのモデル微調整後の性能低下を低減する。 さらに,セグメンテーション精度を向上させるために,モデル特徴位置情報を考慮したアテンションモジュールを用いる。 1つの機関から764名の被験者を訓練し,その後10名の被験者のみを用いてモデルを微調整した。 我々は,3つの異なる機関から2067名の被験者を対象とする3つの大規模データセット上での手法の性能を解析した。 本手法は,第1機関から独立した被験者群で平均9,4.0\pm0.03$,Hausdorff Distance(HD95)2.28$mm$のDice類似係数(Dice)を達成した。 さらに,このモデルは他の2つの機関の研究でよく一般化された (dice: 91.0\pm0.03$; hd95: 3.7$mm$; dice: 82.0\pm0.03$; hd95: 7.1$mm$)。

Prostate biopsy and image-guided treatment procedures are often performed under the guidance of ultrasound fused with magnetic resonance images (MRI). Accurate image fusion relies on accurate segmentation of the prostate on ultrasound images. Yet, the reduced signal-to-noise ratio and artifacts (e.g., speckle and shadowing) in ultrasound images limit the performance of automated prostate segmentation techniques and generalizing these methods to new image domains is inherently difficult. In this study, we address these challenges by introducing a novel 2.5D deep neural network for prostate segmentation on ultrasound images. Our approach addresses the limitations of transfer learning and finetuning methods (i.e., drop in performance on the original training data when the model weights are updated) by combining a supervised domain adaptation technique and a knowledge distillation loss. The knowledge distillation loss allows the preservation of previously learned knowledge and reduces the performance drop after model finetuning on new datasets. Furthermore, our approach relies on an attention module that considers model feature positioning information to improve the segmentation accuracy. We trained our model on 764 subjects from one institution and finetuned our model using only ten subjects from subsequent institutions. We analyzed the performance of our method on three large datasets encompassing 2067 subjects from three different institutions. Our method achieved an average Dice Similarity Coefficient (Dice) of $94.0\pm0.03$ and Hausdorff Distance (HD95) of 2.28 $mm$ in an independent set of subjects from the first institution. Moreover, our model generalized well in the studies from the other two institutions (Dice: $91.0\pm0.03$; HD95: 3.7$mm$ and Dice: $82.0\pm0.03$; HD95: 7.1 $mm$).
翻訳日:2022-09-07 15:01:23 公開日:2022-09-05
# CTCに基づくASRにおけるBERTの知識の希薄化

Distilling the Knowledge of BERT for CTC-based ASR ( http://arxiv.org/abs/2209.02030v1 )

ライセンス: Link先を確認
Hayato Futami, Hirofumi Inaguma, Masato Mimura, Shinsuke Sakai, Tatsuya Kawahara(参考訳) コネクショニスト時間分類(ctc)に基づくモデルは、自動音声認識(asr)の高速推論のために魅力的である。 浅い融合や再構成のような言語モデル(LM)の統合アプローチは、テキストコーパスの知識を活用することで、CTCベースのASRの認識精度を向上させることができる。 しかし、CTCの推測を著しく遅くする。 本研究では,CTCをベースとしたASRにおけるBERTの知識を抽出することを提案する。 CTCベースのASRは、トレーニング中にBERTの知識を学び、テスト中にBERTを使用しない。 注意に基づくモデルとは異なり、CTCベースのモデルはフレームレベルの予測を行うため、蒸留のためにBERTのトークンレベルの予測と整合する必要がある。 我々は,最も有効なCTC経路を計算してアライメントを得る。 自発日本語コーパス(CSJ)とTED-Lium2(TED-Lium2)を実験的に評価したところ,提案手法は推論速度のコストを伴わずにCTCベースのASRの性能を向上させることがわかった。

Connectionist temporal classification (CTC) -based models are attractive because of their fast inference in automatic speech recognition (ASR). Language model (LM) integration approaches such as shallow fusion and rescoring can improve the recognition accuracy of CTC-based ASR by taking advantage of the knowledge in text corpora. However, they significantly slow down the inference of CTC. In this study, we propose to distill the knowledge of BERT for CTC-based ASR, extending our previous study for attention-based ASR. CTC-based ASR learns the knowledge of BERT during training and does not use BERT during testing, which maintains the fast inference of CTC. Different from attention-based models, CTC-based models make frame-level predictions, so they need to be aligned with token-level predictions of BERT for distillation. We propose to obtain alignments by calculating the most plausible CTC paths. Experimental evaluations on the Corpus of Spontaneous Japanese (CSJ) and TED-LIUM2 show that our method improves the performance of CTC-based ASR without the cost of inference speed.
翻訳日:2022-09-07 14:58:19 公開日:2022-09-05
# トロイア攻撃(TrojDef)に対する適応的ブラックボックス防御

An Adaptive Black-box Defense against Trojan Attacks (TrojDef) ( http://arxiv.org/abs/2209.01721v1 )

ライセンス: Link先を確認
Guanxiong Liu, Abdallah Khreishah, Fatima Sharadgah, Issa Khalil(参考訳) トロイの木戸(Trojan backdoor)は、ニューラルネットワーク(NN)分類器に対する毒攻撃であり、敵は(非常に望ましい)モデルの再利用性を利用して、毒を盛ったトレーニングプロセスを通じてトロイの木戸をバックドア違反のモデルパラメータに埋め込もうとする。 提案されたトロイの木馬攻撃に対する防御のほとんどがホワイトボックスの設定を前提としており、ディフェンダーはNNの内部状態にアクセスするか、あるいはそれを通してバックプロパゲーションを実行することができる。 本研究では,NNの前方通過のみが可能なTrojDefという,より実用的なブラックボックスディフェンスを提案する。 trojdefは、ランダムノイズによって入力が繰り返し摂動されるときの予測信頼度の変化を監視し、トロイの木馬の入力(すなわちトロイの木馬のトリガーで強化された入力)を識別してフィルタしようとする。 入力例がトロイの木馬であるか否かを判断するための予測信頼度と呼ばれる予測出力に基づいて関数を導出する。 直観的には、誤分類はトリガーのみに依存するため、トロイの木馬の入力はより安定であり、一方良質な入力は分類特徴の摂動によってノイズが増すと苦しむ。 数学的解析により、攻撃者がバックドアを注入するのに完璧であれば、トロイの木馬感染モデルが、任意の摂動下でトロイの木馬と良性の入力を区別するために使用される適切な予測信頼度を学習するために訓練されることが示される。 しかし,攻撃者はバックドアの注入に最適ではないため,予測信頼度に非線形変換を導入し,現実的な設定で検出精度を向上させる。 広範囲にわたる経験的評価は、TrojDefが最先端の防御を著しく上回り、分類器アーキテクチャ、トレーニングプロセス、ハイパーパラメータが変化しても、異なる設定で非常に安定していることを示している。

Trojan backdoor is a poisoning attack against Neural Network (NN) classifiers in which adversaries try to exploit the (highly desirable) model reuse property to implant Trojans into model parameters for backdoor breaches through a poisoned training process. Most of the proposed defenses against Trojan attacks assume a white-box setup, in which the defender either has access to the inner state of NN or is able to run back-propagation through it. In this work, we propose a more practical black-box defense, dubbed TrojDef, which can only run forward-pass of the NN. TrojDef tries to identify and filter out Trojan inputs (i.e., inputs augmented with the Trojan trigger) by monitoring the changes in the prediction confidence when the input is repeatedly perturbed by random noise. We derive a function based on the prediction outputs which is called the prediction confidence bound to decide whether the input example is Trojan or not. The intuition is that Trojan inputs are more stable as the misclassification only depends on the trigger, while benign inputs will suffer when augmented with noise due to the perturbation of the classification features. Through mathematical analysis, we show that if the attacker is perfect in injecting the backdoor, the Trojan infected model will be trained to learn the appropriate prediction confidence bound, which is used to distinguish Trojan and benign inputs under arbitrary perturbations. However, because the attacker might not be perfect in injecting the backdoor, we introduce a nonlinear transform to the prediction confidence bound to improve the detection accuracy in practical settings. Extensive empirical evaluations show that TrojDef significantly outperforms the-state-of-the-art defenses and is highly stable under different settings, even when the classifier architecture, the training process, or the hyper-parameters change.
翻訳日:2022-09-07 14:55:28 公開日:2022-09-05
# 等変深層学習によるイメージング

Imaging with Equivariant Deep Learning ( http://arxiv.org/abs/2209.01725v1 )

ライセンス: Link先を確認
Dongdong Chen, Mike Davies, Matthias J. Ehrhardt, Carola-Bibiane Sch\"onlieb, Ferdia Sherry, Juli\'an Tachella(参考訳) 初期の画像処理から現代の計算イメージングまで、成功したモデルとアルゴリズムは自然信号の基本的な特性である対称性に依存してきた。 ここでの対称性は、信号集合の変換(変換、回転、スケーリング)への不変性を指す。 対称性は、等価性の形でディープニューラルネットワークに組み込むこともできるため、よりデータ効率のよい学習が可能になる。 近年、画像分類のためのエンド・ツー・エンドの同変ネットワークの設計において重要な進歩があるが、計算画像は、通常、不規則なフォワード演算子を通してのみ像を観察するので、等変ネットワークソリューションに固有の課題をもたらす。 本稿では,同変イメージングの新興分野を概観し,その一般化と新たなイメージング機会をいかに提供できるかを示す。 その過程で,獲得物理学と集団行動の相互作用,反復的再構築,盲目圧縮センシング,自己監督学習との関連を示す。

From early image processing to modern computational imaging, successful models and algorithms have relied on a fundamental property of natural signals: symmetry. Here symmetry refers to the invariance property of signal sets to transformations such as translation, rotation or scaling. Symmetry can also be incorporated into deep neural networks in the form of equivariance, allowing for more data-efficient learning. While there has been important advances in the design of end-to-end equivariant networks for image classification in recent years, computational imaging introduces unique challenges for equivariant network solutions since we typically only observe the image through some noisy ill-conditioned forward operator that itself may not be equivariant. We review the emerging field of equivariant imaging and show how it can provide improved generalization and new imaging opportunities. Along the way we show the interplay between the acquisition physics and group actions and links to iterative reconstruction, blind compressed sensing and self-supervised learning.
翻訳日:2022-09-07 14:54:53 公開日:2022-09-05
# 深層強化学習による補助ロボットの改良

Improving Assistive Robotics with Deep Reinforcement Learning ( http://arxiv.org/abs/2209.02160v1 )

ライセンス: Link先を確認
Yash Jakhotiya and Iman Haque(参考訳) アシスティヴ・ロボティクス(Assistive Robotics)は、障害者や年齢による行為を抑えることができる日々のケア作業を支援するロボット工学のクラスである。 古典的な制御手法はこれらのタスクを完了させるためにポリシーを設計するのに使用できるが、これらの方法がタスクの様々なインスタンス化に一般化することは困難である。 強化学習は、ロボットがシミュレーションで訓練され、そのポリシーが現実世界のマシンに転送される、この問題に対する解決策を提供する。 本研究では,アシスティブガイム環境における3つのタスクでロボットを訓練するためのベースラインを再現し,リカレントニューラルネットワークとファシックポリシーのグラディエント学習を用いて,元の作業を強化することを検討した。 ベースライン実装はオリジナルの作業のベースラインを満たしたり超えたりしていますが、新しい手法の探索は期待したほど効果的ではなかったことが分かりました。 ベースラインの結果と、新しいメソッドがうまくいかなかった理由についていくつか考えています。

Assistive Robotics is a class of robotics concerned with aiding humans in daily care tasks that they may be inhibited from doing due to disabilities or age. While research has demonstrated that classical control methods can be used to design policies to complete these tasks, these methods can be difficult to generalize to a variety of instantiations of a task. Reinforcement learning can provide a solution to this issue, wherein robots are trained in simulation and their policies are transferred to real-world machines. In this work, we replicate a published baseline for training robots on three tasks in the Assistive Gym environment, and we explore the usage of a Recurrent Neural Network and Phasic Policy Gradient learning to augment the original work. Our baseline implementation meets or exceeds the baseline of the original work, however, we found that our explorations into the new methods was not as effective as we anticipated. We discuss the results of our baseline, and some thoughts on why our new methods were not successful.
翻訳日:2022-09-07 14:51:27 公開日:2022-09-05
# スケッチデータによるベイズ非パラメトリック被覆確率と別個数の推定

Bayesian nonparametric estimation of coverage probabilities and distinct counts from sketched data ( http://arxiv.org/abs/2209.02135v1 )

ライセンス: Link先を確認
Stefano Favaro, Matteo Sesia(参考訳) 被覆確率の推定、特に不足質量は、多くの科学分野における応用に関する古典的な統計問題である。 本稿では,この問題をランダム化データ圧縮やスケッチ処理と関連づけて検討する。 これは、新しいが実際は関係のある視点であり、個々のシンボルの完全なデータも経験周波数も直接観察できないため、真のデータの圧縮された不完全な要約やスケッチに基づいて、カバレッジ確率を推定しなければならない状況を指す。 我々の貢献は、ランダムハッシュによってスケッチされたデータからカバレッジ確率を推定するベイズ非パラメトリック手法であり、また、真のデータと特定の経験的頻度で異なるカウントの数を復元する難しい問題を解決している。 提案したベイズ推定器は、ディリクレ過程と組み合わせて大規模解析に容易に適用可能であるが、より一般的なピットマン・ヨル過程の下では、いくつかのオープンな計算課題が伴う。 本手法の実証的有効性は,covid-19 dna配列,古典英語文献,ipアドレスの実データ集合に対する数値実験と応用により実証された。

The estimation of coverage probabilities, and in particular of the missing mass, is a classical statistical problem with applications in numerous scientific fields. In this paper, we study this problem in relation to randomized data compression, or sketching. This is a novel but practically relevant perspective, and it refers to situations in which coverage probabilities must be estimated based on a compressed and imperfect summary, or sketch, of the true data, because neither the full data nor the empirical frequencies of distinct symbols can be observed directly. Our contribution is a Bayesian nonparametric methodology to estimate coverage probabilities from data sketched through random hashing, which also solves the challenging problems of recovering the numbers of distinct counts in the true data and of distinct counts with a specified empirical frequency of interest. The proposed Bayesian estimators are shown to be easily applicable to large-scale analyses in combination with a Dirichlet process prior, although they involve some open computational challenges under the more general Pitman-Yor process prior. The empirical effectiveness of our methodology is demonstrated through numerical experiments and applications to real data sets of Covid DNA sequences, classic English literature, and IP addresses.
翻訳日:2022-09-07 14:49:27 公開日:2022-09-05
# クラウドソース音楽コメントによる音楽とテキストのブリッジ:テーマ音楽コメント生成のためのシーケンス・ツー・シーケンス・フレームワーク

Bridging Music and Text with Crowdsourced Music Comments: A Sequence-to-Sequence Framework for Thematic Music Comments Generation ( http://arxiv.org/abs/2209.01996v1 )

ライセンス: Link先を確認
Peining Zhang, Junliang Guo, Linli Xu, Mu You, Junming Yin(参考訳) 楽曲のテキスト記述を自動的に生成する新しい課題を考える。 画像キャプションのような、確立された他のテキスト生成タスクと比較すると、十分にペアリングされた音楽やテキストデータセットの不足は、より困難なタスクになります。 本稿では,クラウドソースの音楽コメントを利用して新しいデータセットを構築し,楽曲のテキスト記述を生成するシーケンシャル・ツー・シーケンスモデルを提案する。 より具体的には、拡張畳み込み層をエンコーダの基本成分とし、メモリベースのリカレントニューラルネットワークをデコーダとして使用する。 生成したテキストの真正性と主題性を高めるため、識別器と新しい話題評価器を用いてモデルを微調整することを提案する。 生成されたテキストの品質を測定するために、bleuのような従来の指標よりも人間による評価に合致する2つの新しい評価指標を提案する。 実験結果から,本モデルがオリジナル楽曲の主題や内容情報を含意しながら,流動的で意味のあるコメントを生成できることが確認された。

We consider a novel task of automatically generating text descriptions of music. Compared with other well-established text generation tasks such as image caption, the scarcity of well-paired music and text datasets makes it a much more challenging task. In this paper, we exploit the crowd-sourced music comments to construct a new dataset and propose a sequence-to-sequence model to generate text descriptions of music. More concretely, we use the dilated convolutional layer as the basic component of the encoder and a memory based recurrent neural network as the decoder. To enhance the authenticity and thematicity of generated texts, we further propose to fine-tune the model with a discriminator as well as a novel topic evaluator. To measure the quality of generated texts, we also propose two new evaluation metrics, which are more aligned with human evaluation than traditional metrics such as BLEU. Experimental results verify that our model is capable of generating fluent and meaningful comments while containing thematic and content information of the original music.
翻訳日:2022-09-07 14:47:49 公開日:2022-09-05
# 最善の決定は最善のアドバイスではない - 順守を意識した推奨を行う

The Best Decisions Are Not the Best Advice: Making Adherence-Aware Recommendations ( http://arxiv.org/abs/2209.01874v1 )

ライセンス: Link先を確認
Julien Grand-Cl\'ement and Jean Pauphilet(参考訳) 多くのhigh-stake decisionは、人間のオペレータがアルゴリズムからレコメンデーションを受けるが、究極の意思決定者であるという、expert-in-loop構造に従う。 したがって、アルゴリズムの推奨は、実際に実施されている実際の決定と異なるかもしれない。 しかし、ほとんどのアルゴリズムレコメンデーションは、レコメンデーションが完全に実装されると仮定する最適化問題を解くことで得られる。 提案手法は,提案したポリシーと実装したポリシーの二分法を捕捉し,部分的付着が最適勧告に与える影響を分析する。 提案手法では,現在の人体ベースライン性能と推奨アルゴリズムの双方と比較して,現在ほとんどのレコメンデーションエンジンが実施している部分付着現象を見越すことで,任意の性能劣化を招きかねないことが示されている。 また,本フレームワークは,このような人的逸脱に対して自然に免疫を持ち,基本方針の改善が保証される,構造を解析し,最適なレコメンデーションポリシーを算出するための有用なツールを提供する。

Many high-stake decisions follow an expert-in-loop structure in that a human operator receives recommendations from an algorithm but is the ultimate decision maker. Hence, the algorithm's recommendation may differ from the actual decision implemented in practice. However, most algorithmic recommendations are obtained by solving an optimization problem that assumes recommendations will be perfectly implemented. We propose an adherence-aware optimization framework to capture the dichotomy between the recommended and the implemented policy and analyze the impact of partial adherence on the optimal recommendation. We show that overlooking the partial adherence phenomenon, as is currently being done by most recommendation engines, can lead to arbitrarily severe performance deterioration, compared with both the current human baseline performance and what is expected by the recommendation algorithm. Our framework also provides useful tools to analyze the structure and to compute optimal recommendation policies that are naturally immune against such human deviations, and are guaranteed to improve upon the baseline policy.
翻訳日:2022-09-07 14:42:05 公開日:2022-09-05
# 予測に基づく高速道路運転の意思決定

Prediction Based Decision Making for Autonomous Highway Driving ( http://arxiv.org/abs/2209.02106v1 )

ライセンス: Link先を確認
Mustafa Yildirim, Sajjad Mozaffari, Luc McCutcheon, Mehrdad Dianati, Alireza Tamaddoni-Nezhad Saber Fallah(参考訳) 自動運転の意思決定は、交通の複雑さと不確実性のために難しい課題である。 例えば、隣接する車両は、速度の遅い車両を通り抜けたり、交通の流れを助けるために、いつでも車線を変更できる。 周囲の車両の意図を予測し、将来の状態を推定し、自動運転車の意思決定プロセスに統合することで、複雑な運転シナリオにおける自動運転の信頼性を高めることができる。 本稿では,道路走行の意思決定過程における周辺車両の運転意図を考慮した予測型深層強化学習(pdrl)意思決定モデルを提案する。 モデルは実際の交通データを用いて訓練され、シミュレーションプラットフォームを介して様々な交通条件でテストされる。 その結果,PDRLモデルでは衝突数を減らすことにより,深部強化学習(DRL)モデルと比較して意思決定性能が向上し,運転の安全性が向上した。

Autonomous driving decision-making is a challenging task due to the inherent complexity and uncertainty in traffic. For example, adjacent vehicles may change their lane or overtake at any time to pass a slow vehicle or to help traffic flow. Anticipating the intention of surrounding vehicles, estimating their future states and integrating them into the decision-making process of an automated vehicle can enhance the reliability of autonomous driving in complex driving scenarios. This paper proposes a Prediction-based Deep Reinforcement Learning (PDRL) decision-making model that considers the manoeuvre intentions of surrounding vehicles in the decision-making process for highway driving. The model is trained using real traffic data and tested in various traffic conditions through a simulation platform. The results show that the proposed PDRL model improves the decision-making performance compared to a Deep Reinforcement Learning (DRL) model by decreasing collision numbers, resulting in safer driving.
翻訳日:2022-09-07 14:41:46 公開日:2022-09-05
# HAGCN : 不均一性を考慮した交通信号予測のための時空間グラフ畳み込みネットワーク

HAGCN : Network Decentralization Attention Based Heterogeneity-Aware Spatiotemporal Graph Convolution Network for Traffic Signal Forecasting ( http://arxiv.org/abs/2209.01967v1 )

ライセンス: Link先を確認
JunKyu Jang and Sung-Hyuk Park(参考訳) グラフ畳み込みネットワーク(GCN)を用いた時空間ネットワークの構築は,交通信号を予測するための最も一般的な手法の1つである。 しかし,GCNを交通速度予測に用いる場合,従来の手法ではセンサ間の関係を均一なグラフとして仮定し,センサが蓄積したデータを用いて隣接行列を学習する。 しかし,センサ間の空間的相関は,それぞれ異なる視点で定義されている。 そこで本研究では,交通信号データに固有の異種特性を調査し,センサ間の隠れた関係を様々な方法で学習することを目的とする。 具体的には,センサ間の空間的関係を静的および動的モジュールに分割することで,各モジュールの異種グラフを構築する手法を設計した。 ヘテロジニアスグラフにおける各チャネルの重要性を考慮し,隣接ノードの隠れ状態を集約するネットワーク分散注意に基づくヘテロジニアス対応グラフ畳み込みネットワーク(HAGCN)を提案する。 実トラヒックデータセットにおける実験結果は,提案手法の有効性を検証し,既存モデルよりも6.35%向上し,最先端予測性能を実現する。

The construction of spatiotemporal networks using graph convolution networks (GCNs) has become one of the most popular methods for predicting traffic signals. However, when using a GCN for traffic speed prediction, the conventional approach generally assumes the relationship between the sensors as a homogeneous graph and learns an adjacency matrix using the data accumulated by the sensors. However, the spatial correlation between sensors is not specified as one but defined differently from various viewpoints. To this end, we aim to study the heterogeneous characteristics inherent in traffic signal data to learn the hidden relationships between sensors in various ways. Specifically, we designed a method to construct a heterogeneous graph for each module by dividing the spatial relationship between sensors into static and dynamic modules. We propose a network decentralization attention based heterogeneity-aware graph convolution network (HAGCN) method that aggregates the hidden states of adjacent nodes by considering the importance of each channel in a heterogeneous graph. Experimental results on real traffic datasets verified the effectiveness of the proposed method, achieving a 6.35% improvement over the existing model and realizing state-of-the-art prediction performance.
翻訳日:2022-09-07 14:38:32 公開日:2022-09-05
# ハイパーパラメータフリーなラベル分布学習のためのフルクレルバック・リーブラ・ディバージェンス損失

Full Kullback-Leibler-Divergence Loss for Hyperparameter-free Label Distribution Learning ( http://arxiv.org/abs/2209.02055v1 )

ライセンス: Link先を確認
Maurice G\"under, Nico Piatkowski, Christian Bauckhage(参考訳) ラベル分布学習(LDL)の概念は、曖昧なラベルや不均衡なラベルによる分類と回帰問題を安定化させる手法である。 LDLの原型的ユースケースは、プロファイル画像に基づく人間の年齢推定である。 この回帰問題に関して、Deep Label Distribution Learning (DLDL) と呼ばれる手法を開発した。 主な考え方は、ラベル分布とその期待値の合同回帰である。 しかし, 従来のDLDL法では, 数学的モチベーションの異なる損失成分を用いており, スケールが異なるため, ハイパーパラメータの使用が必要となる。 本稿では,KL(Kullback-Leibler)の発散によって完全に定義されるDLDLの損失関数を導入する。 dldlの概念を、特に多次元または多スケールの分布学習タスクにおいて、さらなるユースケースに関して一般化する。

The concept of Label Distribution Learning (LDL) is a technique to stabilize classification and regression problems with ambiguous and/or imbalanced labels. A prototypical use-case of LDL is human age estimation based on profile images. Regarding this regression problem, a so called Deep Label Distribution Learning (DLDL) method has been developed. The main idea is the joint regression of the label distribution and its expectation value. However, the original DLDL method uses loss components with different mathematical motivation and, thus, different scales, which is why the use of a hyperparameter becomes necessary. In this work, we introduce a loss function for DLDL whose components are completely defined by Kullback-Leibler (KL) divergences and, thus, are directly comparable to each other without the need of additional hyperparameters. It generalizes the concept of DLDL with regard to further use-cases, in particular for multi-dimensional or multi-scale distribution learning tasks.
翻訳日:2022-09-07 14:38:13 公開日:2022-09-05
# 審判はどの学術論文にもっと注意を払っているか。 ピアレビューの視点と学術論文の全文

Which structure of academic articles do referees pay more attention to?: perspective of peer review and full-text of academic articles ( http://arxiv.org/abs/2209.01841v1 )

ライセンス: Link先を確認
Chenglei Qin and Chengzhi Zhang(参考訳) 目的】本論文の目的は,学術論文のレビュアーがどの構造に注意を払うか,特定のコンテンツレビュアーが注目するか,prcの分布が引用との関連性について検討することである。 まず、節タイトルの特徴語と階層的注意ネットワークモデル(han)を用いて、学術論文の構造を識別する。 次に, ルールによって抽出された位置情報に基づいて, 異なる構造におけるPRCの分布を分析する。 第3に,Chi-squareテストとTF-IDFで抽出したPRCの特徴単語の分布解析を行った。 最後に、異なる構造におけるPRCの分布が励起と相関しているかどうかを4つの相関解析法を用いて分析する。 発見 資料・方法・結果セクションに配布されるPRCの数は、紹介・議論の構造よりもはるかに多く、審判が資料・方法・結果により注意を払っていることを示す。 異なる構造におけるPRCの特徴単語の分布は明らかに異なり、レフェリーの関心事の内容が反映される。 異なる構造におけるPRCの分布と励起の間には相関がない。 研究上の制限/影響 レフェリーがピアレビューレポートを書く方法が異なるため、位置情報を抽出するルールはすべてのPRCをカバーできない。 論文の独創性/価値 長期的な経験的理解を証明する異なる学術論文構造におけるprc分布のパターンを見出す。 研究者は、研究者から高い評価を得るために、学術論文を書く際に、方法の科学的妥当性と結果の信頼性を確保する必要がある。

Purpose The purpose of this paper is to explore which structures of academic articles referees would pay more attention to, what specific content referees focus on, and whether the distribution of PRC is related to the citations. Design/methodology/approach Firstly, utilizing the feature words of section title and hierarchical attention network model (HAN) to identify the academic article structures. Secondly, analyzing the distribution of PRC in different structures according to the position information extracted by rules in PRC. Thirdly, analyzing the distribution of feature words of PRC extracted by the Chi-square test and TF-IDF in different structures. Finally, four correlation analysis methods are used to analyze whether the distribution of PRC in different structures is correlated to the citations. Findings The count of PRC distributed in Materials and Methods and Results section is significantly more than that in the structure of Introduction and Discussion, indicating that referees pay more attention to the Material and Methods and Results. The distribution of feature words of PRC in different structures is obviously different, which can reflect the content of referees' concern. There is no correlation between the distribution of PRC in different structures and the citations. Research limitations/implications Due to the differences in the way referees write peer review reports, the rules used to extract position information cannot cover all PRC. Originality/value The paper finds a pattern in the distribution of PRC in different academic article structures proving the long-term empirical understanding. It also provides insight into academic article writing: researchers should ensure the scientificity of methods and the reliability of results when writing academic article to obtain a high degree of recognition from referees.
翻訳日:2022-09-07 14:24:57 公開日:2022-09-05
# ユーザコンテキストはどれくらい必要か? メンタルヘルスNLPアプリケーションにおける設計によるプライバシ

How Much User Context Do We Need? Privacy by Design in Mental Health NLP Application ( http://arxiv.org/abs/2209.02022v1 )

ライセンス: Link先を確認
Ramit Sawhney and Atula Tejaswi Neerkaje and Ivan Habernal and Lucie Flek(参考訳) テキストからのメンタルヘルスアセスメントのようなNLPの臨床的タスクは、社会的制約を考慮に入れなければならない。 gdprのような消費者保護規則は、通常、特定の目的のためにユーザーデータを「必要なもの」に制限することなど、データ可用性を制限することでプライバシーを処理する。 本研究では,厳格な形式的プライバシ保証の提供が,モデル内のユーザデータの量を増やす一方で,ほとんどの場合,関係者,特にユーザに対する利益を増大させるのが理由である。 我々は,twitter と reddit の投稿について,既存の自殺リスクアセスメントデータセットについて議論する。 本稿では,ユーザ履歴と差分プライバシ予算を並べた最初の分析を行い,ユーザコンテキストのモデリングによってユーザプライバシ保証を許容しつつ,実用性を維持する方法について詳しく述べる。

Clinical NLP tasks such as mental health assessment from text, must take social constraints into account - the performance maximization must be constrained by the utmost importance of guaranteeing privacy of user data. Consumer protection regulations, such as GDPR, generally handle privacy by restricting data availability, such as requiring to limit user data to 'what is necessary' for a given purpose. In this work, we reason that providing stricter formal privacy guarantees, while increasing the volume of user data in the model, in most cases increases benefit for all parties involved, especially for the user. We demonstrate our arguments on two existing suicide risk assessment datasets of Twitter and Reddit posts. We present the first analysis juxtaposing user history length and differential privacy budgets and elaborate how modeling additional user context enables utility preservation while maintaining acceptable user privacy guarantees.
翻訳日:2022-09-07 14:24:32 公開日:2022-09-05
# 類似性に基づく擬似ラベル注入による半教師付きドメイン適応

Semi-Supervised Domain Adaptation by Similarity based Pseudo-label Injection ( http://arxiv.org/abs/2209.01881v1 )

ライセンス: Link先を確認
Abhay Rawat, Isha Dua, Saurav Gupta and Rahul Tallamraju(参考訳) 半教師付きドメイン適応(SSDA)における主な課題の1つは、ラベル付きソース数とターゲットサンプル数のスキュード比であり、モデルがソースドメインに偏っていることである。 ssdaの最近の研究によると、ラベル付きターゲットサンプルのみをソースサンプルにアライメントすることは、ターゲットドメインをソースドメインに不完全なドメインアライメントに導く可能性がある。 提案手法では,2つのドメインを整合させるために,両ドメインの教師付きサンプルを用いて意味論的かつドメインに依存しない特徴空間を学習する。 ラベル比のゆがみによる課題を軽減するために,これらの特徴表現をソース領域とターゲット領域の両方のラベル付きサンプルと比較することにより,ラベルなしのターゲットサンプルを擬似ラベル化する。 さらに、ターゲットドメインのサポートを増やすために、トレーニング中にラベル付きターゲットデータセットに、潜在的にノイズの多い擬似ラベルを徐々に注入する。 具体的には, 温度スケールしたコサイン類似度尺度を用いて, 軟質擬似ラベルを対象試料に割り当てる。 さらに,各非ラベル標本に対するソフト擬似ラベルの指数的移動平均を計算する。 これらの擬似ラベルは、ソースとターゲット分布のアライメントを補完する信頼しきい値に基づいてラベル付きターゲットデータセット(から)に徐々に注入または除去される。 最後に、ラベル付きおよび擬似ラベル付きデータセットの教師付きコントラスト損失を用いて、ソースとターゲットの分布を整列する。 提案手法を用いて,SSDAベンチマーク(Office-Home,DomainNet,Office-31)の最先端性能を示す。

One of the primary challenges in Semi-supervised Domain Adaptation (SSDA) is the skewed ratio between the number of labeled source and target samples, causing the model to be biased towards the source domain. Recent works in SSDA show that aligning only the labeled target samples with the source samples potentially leads to incomplete domain alignment of the target domain to the source domain. In our approach, to align the two domains, we leverage contrastive losses to learn a semantically meaningful and a domain agnostic feature space using the supervised samples from both domains. To mitigate challenges caused by the skewed label ratio, we pseudo-label the unlabeled target samples by comparing their feature representation to those of the labeled samples from both the source and target domains. Furthermore, to increase the support of the target domain, these potentially noisy pseudo-labels are gradually injected into the labeled target dataset over the course of training. Specifically, we use a temperature scaled cosine similarity measure to assign a soft pseudo-label to the unlabeled target samples. Additionally, we compute an exponential moving average of the soft pseudo-labels for each unlabeled sample. These pseudo-labels are progressively injected or removed) into the (from) the labeled target dataset based on a confidence threshold to supplement the alignment of the source and target distributions. Finally, we use a supervised contrastive loss on the labeled and pseudo-labeled datasets to align the source and target distributions. Using our proposed approach, we showcase state-of-the-art performance on SSDA benchmarks - Office-Home, DomainNet and Office-31.
翻訳日:2022-09-07 14:09:56 公開日:2022-09-05
# シングルポイントデコードネットワークを用いたシーンテキスト認識

Scene Text Recognition with Single-Point Decoding Network ( http://arxiv.org/abs/2209.01914v1 )

ライセンス: Link先を確認
Lei Chen, Haibo Qin, Shi-Xue Zhang, Chun Yang, Xucheng Yin(参考訳) 近年,注目に基づくシーンテキスト認識手法が広く普及し,多くの研究者の関心を集めている。 注意ベースの方法は、注意行列がほぼ1ホットの分布であるデコード中、小さな領域や単一点に適応的に注意を向けることができる。 さらに、機能マップ全体は推論中にすべての注意行列によって重み付けされ、合計され、巨大な冗長な計算を引き起こす。 本稿では,従来のアテンションベースのデコーディングネットワークに代わる,シーンテキスト認識のための効率的なアテンションフリーシングルポイントデコーディングネットワーク(SPDN)を提案する。 具体的には、1文字をデコードするための特徴マップ上の1つのキーポイントを効率的にサンプリングするシングルポイントサンプリングモジュール(SPSM)を提案する。 この方法では,各文字のキーポイントを正確に特定できるだけでなく,冗長な計算を除去できる。 SPSMに基づいて,注目に基づく復号ネットワークに代わる,効率的で斬新な単一点復号ネットワークを設計する。 公開ベンチマークの大規模な実験により、SPDNは性能を犠牲にすることなくデコード効率を大幅に改善できることを確認した。

In recent years, attention-based scene text recognition methods have been very popular and attracted the interest of many researchers. Attention-based methods can adaptively focus attention on a small area or even single point during decoding, in which the attention matrix is nearly one-hot distribution. Furthermore, the whole feature maps will be weighted and summed by all attention matrices during inference, causing huge redundant computations. In this paper, we propose an efficient attention-free Single-Point Decoding Network (dubbed SPDN) for scene text recognition, which can replace the traditional attention-based decoding network. Specifically, we propose Single-Point Sampling Module (SPSM) to efficiently sample one key point on the feature map for decoding one character. In this way, our method can not only precisely locate the key point of each character but also remove redundant computations. Based on SPSM, we design an efficient and novel single-point decoding network to replace the attention-based decoding network. Extensive experiments on publicly available benchmarks verify that our SPDN can greatly improve decoding efficiency without sacrificing performance.
翻訳日:2022-09-07 14:09:26 公開日:2022-09-05
# 胸部X線における弱半監督異常局在のベンチマーク

A Benchmark for Weakly Semi-Supervised Abnormality Localization in Chest X-Rays ( http://arxiv.org/abs/2209.01988v1 )

ライセンス: Link先を確認
Haoqin Ji, Haozhe Liu, Yuexiang Li, Jinheng Xie, Nanjun He, Yawen Huang, Dong Wei, Xinrong Chen, Linlin Shen, Yefeng Zheng(参考訳) 胸部X線(CXR)の正確な異常局在は,胸部疾患の診断に有用である。 しかし、病変レベルのアノテーションは経験豊富な放射線技師によってのみ実行され、退屈で時間を要するため取得が困難である。 このような状況は、CXRの完全教師付き異常局所化システムの開発に困難をもたらす。 そこで本研究では,少数の完全アノテートされたcxrと,病変レベルのバウンディングボックスと広範囲に弱アノテートされたサンプルを点別に活用した,弱い半教師付き戦略であるpoint beyond class(pbc)を用いて,cxr異常局在の枠組みを訓練することを提案する。 このようなポイントアノテーション設定は、限界アノテーションコストで異常ローカライゼーションのための弱いインスタンスレベルの情報を提供することができる。 特にPBCの背後にある中核的な考え方は、アノテーションからアノテーションの分散に対する境界ボックスへの堅牢で正確なマッピングを学習することである。 これを実現するために、同一の異常内で異なる点アノテーションから一貫性のある境界ボックスを生成するようにモデルを駆動する正規化項、すなわち多点一貫性を提案する。 さらに, 弱アノテートされたデータから異常局所化のための有用な情報を深く活用するために, 対称整合性と呼ばれる自己超越性も提案されている。 RSNAとVinDr-CXRデータセットの実験結果は,提案手法の有効性を正当化するものである。 トレーニングに20%未満のボックスレベルラベルを使用する場合、現在の最先端手法(ポイントDETR)と比較して、PBCによってmAPの約5の改善が達成される。 コードはhttps://github.com/HaozheLiu-ST/Point-Beyond-Classで入手できる。

Accurate abnormality localization in chest X-rays (CXR) can benefit the clinical diagnosis of various thoracic diseases. However, the lesion-level annotation can only be performed by experienced radiologists, and it is tedious and time-consuming, thus difficult to acquire. Such a situation results in a difficulty to develop a fully-supervised abnormality localization system for CXR. In this regard, we propose to train the CXR abnormality localization framework via a weakly semi-supervised strategy, termed Point Beyond Class (PBC), which utilizes a small number of fully annotated CXRs with lesion-level bounding boxes and extensive weakly annotated samples by points. Such a point annotation setting can provide weakly instance-level information for abnormality localization with a marginal annotation cost. Particularly, the core idea behind our PBC is to learn a robust and accurate mapping from the point annotations to the bounding boxes against the variance of annotated points. To achieve that, a regularization term, namely multi-point consistency, is proposed, which drives the model to generate the consistent bounding box from different point annotations inside the same abnormality. Furthermore, a self-supervision, termed symmetric consistency, is also proposed to deeply exploit the useful information from the weakly annotated data for abnormality localization. Experimental results on RSNA and VinDr-CXR datasets justify the effectiveness of the proposed method. When less than 20% box-level labels are used for training, an improvement of ~5 in mAP can be achieved by our PBC, compared to the current state-of-the-art method (i.e., Point DETR). Code is available at https://github.com/HaozheLiu-ST/Point-Beyond-Class.
翻訳日:2022-09-07 14:09:07 公開日:2022-09-05
# 視覚認識のためのフェデレーションゼロショット学習

Federated Zero-Shot Learning for Visual Recognition ( http://arxiv.org/abs/2209.01994v1 )

ライセンス: Link先を確認
Zhi Chen, Yadan Luo, Sen Wang, Jingjing Li, Zi Huang(参考訳) ゼロショット・ラーニング(ゼロショット・ラーニング、zero-shot learning)は、視覚的・意味的な関係を視覚的に一般化することにより、目に見えないクラスを認識する学習システムである。 効果的なZSLモデルを得るためには、複数のソースからのトレーニングサンプルをキュレートして、異なる組織間でのデータ共有に関するプライバシー上の懸念を必然的に高めることができる。 本稿では,エッジデバイス上に存在する分散データから中央モデルを学ぶ新しいフェデレート型ゼロショット学習fezslフレームワークを提案する。 以前は見つからなかったクラスをより一般化するために、FedZSLは、従来のフェデレーション学習が一般的に想定するi.d.から遠く離れた、重複しないクラスからサンプリングされた各デバイスのトレーニングデータを許可する。 fedzslプロトコルの重要な課題は2つあります。 1) 訓練されたモデルは,局所的に観測されたクラスに偏りやすいため,他のデバイスに現れる未発見のクラス及び/又は見慣れたクラスに一般化できない。 2) トレーニングデータの各カテゴリは単一のソースから来るため、中央モデルはモデル置換(バックドア)攻撃に対して非常に脆弱である。 これらの課題に対処するため, デバイス間の予測ロジットの整合性を調整するために, 正規化クラスワイド共分散を利用した関係蒸留による視覚的セマンティックアライメントとデバイス間アライメントの3つの局所目的を提案する。 バックドア攻撃を防御するため,特徴量防御技術が提案されている。 悪意のあるサンプルは与えられたセマンティック属性と相関が低いため、低等級の視覚的特徴は破棄され、モデルの更新が安定する。 FedZSLの有効性と堅牢性は、3つのゼロショットベンチマークデータセットで実施された広範な実験によって実証された。

Zero-shot learning is a learning regime that recognizes unseen classes by generalizing the visual-semantic relationship learned from the seen classes. To obtain an effective ZSL model, one may resort to curating training samples from multiple sources, which may inevitably raise the privacy concerns about data sharing across different organizations. In this paper, we propose a novel Federated Zero-Shot Learning FedZSL framework, which learns a central model from the decentralized data residing on edge devices. To better generalize to previously unseen classes, FedZSL allows the training data on each device sampled from the non-overlapping classes, which are far from the i.i.d. that traditional federated learning commonly assumes. We identify two key challenges in our FedZSL protocol: 1) the trained models are prone to be biased to the locally observed classes, thus failing to generalize to the unseen classes and/or seen classes appeared on other devices; 2) as each category in the training data comes from a single source, the central model is highly vulnerable to model replacement (backdoor) attacks. To address these issues, we propose three local objectives for visual-semantic alignment and cross-device alignment through relation distillation, which leverages the normalized class-wise covariance to regularize the consistency of the prediction logits across devices. To defend against the backdoor attacks, a feature magnitude defending technique is proposed. As malicious samples are less correlated to the given semantic attributes, the visual features of low magnitude will be discarded to stabilize model updates. The effectiveness and robustness of FedZSL are demonstrated by extensive experiments conducted on three zero-shot benchmark datasets.
翻訳日:2022-09-07 14:08:40 公開日:2022-09-05
# 部分的インクリメンタルソートと蓄積を用いた高速幾何トリムフィッティング

Fast geometric trim fitting using partial incremental sorting and accumulation ( http://arxiv.org/abs/2209.02034v1 )

ライセンス: Link先を確認
Min Li and Laurent Kneip(参考訳) 本稿では,幾何学的回帰問題に対するロバストなトリムフィッティングの効率を改善するためのアルゴリズム的貢献について述べる。 この手法はクイックソートアルゴリズムに大きく依存しており,二つの重要な知見を提示する。 第一に、部分的ソートは x-パーセンタイル値のインクリメンタルな計算に十分である。 第二に、線形フィッティング問題における正規方程式は、ソート中に x-th percentile 境界を越えてスワップ演算をロギングすることで漸進的に更新することができる。 線形フィッティング問題に加えて,この手法を閉形式,非線形エネルギー最小化問題に適用し,幾何学的最適目標の下での効率的なトリムフィッティングを実現する方法を示す。 本手法を2つの異なるカメラ切除アルゴリズムに適用し,高効率で信頼性の高い幾何学的トリムフィッティングを示す。

We present an algorithmic contribution to improve the efficiency of robust trim-fitting in outlier affected geometric regression problems. The method heavily relies on the quick sort algorithm, and we present two important insights. First, partial sorting is sufficient for the incremental calculation of the x-th percentile value. Second, the normal equations in linear fitting problems may be updated incrementally by logging swap operations across the x-th percentile boundary during sorting. Besides linear fitting problems, we demonstrate how the technique can be additionally applied to closed-form, non-linear energy minimization problems, thus enabling efficient trim fitting under geometrically optimal objectives. We apply our method to two distinct camera resectioning algorithms, and demonstrate highly efficient and reliable, geometric trim fitting.
翻訳日:2022-09-07 14:08:10 公開日:2022-09-05
# ハリケーン後の衛星画像を用いた畳み込みニューラルネットワークによる洪水被害の同定

Utilizing Post-Hurricane Satellite Imagery to Identify Flooding Damage with Convolutional Neural Networks ( http://arxiv.org/abs/2209.02124v1 )

ライセンス: Link先を確認
Jimmy Bao(参考訳) 災害後被害評価は資源配分の管理と効果的な対応に不可欠である。 伝統的に、この評価は、遅い、危険で、厳しい、野戦偵察によって行われる。 そこで本稿では,建築のハリケーン後の衛星画像を洪水・被害・被害と分類するために,畳み込みニューラルネットワークによる深層学習を実現するという考え方をさらに進める。 実験は2017年のハリケーン・ハーヴェイの後、ヒューストン大都市圏の衛星画像を含むデータセットを用いて行われた。 本稿では3つの畳み込みニューラルネットワークモデルアーキテクチャを,高精度(99%以上)を達成するために追加モデル考慮と組み合わせて実装し,ハリケーン後の災害評価における機械学習の有効活用を補強した。

Post-hurricane damage assessment is crucial towards managing resource allocations and executing an effective response. Traditionally, this evaluation is performed through field reconnaissance, which is slow, hazardous, and arduous. Instead, in this paper we furthered the idea of implementing deep learning through convolutional neural networks in order to classify post-hurricane satellite imagery of buildings as Flooded/Damaged or Undamaged. The experimentation was conducted employing a dataset containing post-hurricane satellite imagery from the Greater Houston area after Hurricane Harvey in 2017. This paper implemented three convolutional neural network model architectures paired with additional model considerations in order to achieve high accuracies (over 99%), reinforcing the effective use of machine learning in post-hurricane disaster assessment.
翻訳日:2022-09-07 14:07:55 公開日:2022-09-05
# 検査画像解析における多クラスブリッジ要素解析のためのディープニューラルネットワーク

A Deep Neural Network for Multiclass Bridge Element Parsing in Inspection Image Analysis ( http://arxiv.org/abs/2209.02141v1 )

ライセンス: Link先を確認
Chenyu Zhang, Muhammad Monjurul Karim, Zhaozheng Yin, Ruwen Qin(参考訳) ドローンのような空中ロボットは橋梁検査に活用されている。 検知可能な構造要素と明らかな表面欠陥の両方を有する検査画像をオンボードカメラで収集し、条件評価に有用な情報を提供する。 本稿では,検査画像における多クラスブリッジ要素の解析に適したディープニューラルネットワーク(DNN)を決定することを目的とする。 定量的評価と定性的な例により、高分解能ネット(HRNet)が望ましい能力を持っていることが示されている。 データ拡張と130の画像のトレーニングサンプルにより、事前訓練されたHRNetは、構造要素解析のタスクに効率的に移行され、92.67%の平均F1スコアと86.33%の平均IoUを達成した。

Aerial robots such as drones have been leveraged to perform bridge inspections. Inspection images with both recognizable structural elements and apparent surface defects can be collected by onboard cameras to provide valuable information for the condition assessment. This article aims to determine a suitable deep neural network (DNN) for parsing multiclass bridge elements in inspection images. An extensive set of quantitative evaluations along with qualitative examples show that High-Resolution Net (HRNet) possesses the desired ability. With data augmentation and a training sample of 130 images, a pre-trained HRNet is efficiently transferred to the task of structural element parsing and has achieved a 92.67% mean F1-score and 86.33% mean IoU.
翻訳日:2022-09-07 14:07:26 公開日:2022-09-05
# 点雲完了のためのプロトタイプ対応不均一タスク

Prototype-Aware Heterogeneous Task for Point Cloud Completion ( http://arxiv.org/abs/2209.01733v1 )

ライセンス: Link先を確認
Junshu Tang, Jiachen Xu, Jingyu Gong, Haichuan Song, Yuan Xie, Lizhuang Ma(参考訳) 部分的なポイントクラウドから元の形状情報を復元することを目的としたポイントクラウド補完は、3Dビジョンコミュニティに注目を集めている。 既存の方法は通常標準形状の完成に成功し、非標準形状の点雲の局所的な詳細を生成できない。 所望の地域的詳細を達成するためには,グローバル形状情報からの指導が重要である。 本研究では,提案する教師付き形状クラスタリングプリテキストタスクにより計算可能なクラス内形状表現を用いて,標準/非標準形状を識別する効果的な手法を設計し,異種成分w.r.t補完ネットワークを実現する。 形状カテゴリの特徴セントロイドとして定義された代表プロトタイプは、大域的な形状誘導を提供することができ、これはソフトパーセプティカル先行(英: soft-perceptual prior)と呼ばれ、所望の選択的知覚的特徴融合モジュールによって下流完了ネットワークにマルチスケールで注入される。 さらに,ネットワークが幾何情報が少ない部分点雲により多くの注意を払うことを奨励する難易度に基づくサンプリング戦略も検討した。 実験の結果,本手法は他の最先端手法よりも優れており,複雑な幾何学的形状を完備する能力が強いことがわかった。

Point cloud completion, which aims at recovering original shape information from partial point clouds, has attracted attention on 3D vision community. Existing methods usually succeed in completion for standard shape, while failing to generate local details of point clouds for some non-standard shapes. To achieve desirable local details, guidance from global shape information is of critical importance. In this work, we design an effective way to distinguish standard/non-standard shapes with the help of intra-class shape prototypical representation, which can be calculated by the proposed supervised shape clustering pretext task, resulting in a heterogeneous component w.r.t completion network. The representative prototype, defined as feature centroid of shape categories, can provide global shape guidance, which is referred to as soft-perceptual prior, to inject into downstream completion network by the desired selective perceptual feature fusion module in a multi-scale manner. Moreover, for effective training, we consider difficulty-based sampling strategy to encourage the network to pay more attention to some partial point clouds with fewer geometric information. Experimental results show that our method outperforms other state-of-the-art methods and has strong ability on completing complex geometric shapes.
翻訳日:2022-09-07 14:02:26 公開日:2022-09-05
# seformer: 3次元物体検出のための構造埋め込みトランス

SEFormer: Structure Embedding Transformer for 3D Object Detection ( http://arxiv.org/abs/2209.01745v1 )

ライセンス: Link先を確認
Xiaoyu Feng, Heming Du, Yueqi Duan, Yongpan Liu, Hehe Fan(参考訳) 不規則でスパースなLiDARポイントのオブジェクトから構造的特徴を効果的に保存および符号化することは、ポイントクラウド上での3Dオブジェクト検出において重要な課題である。 最近、Transformerは多くの2Dおよび3Dビジョンタスクで有望なパフォーマンスを示した。 固定および剛性畳み込みカーネルと比較して、Transformerの自己保持機構は、不規則なLiDAR点雲における局所的な空間構造を保存するのに適している。 しかし、Transformerは自己アテンション機構に基づいて、ポイントの特徴に関する単純な和のみを実行し、すべてのポイントは同じ変換を値として共有する。 このような等方的操作は、3次元物体検出に重要な方向距離指向の局所構造を捕捉する能力に欠ける。 本研究では,従来のトランスフォーマーとして局所構造を保存するだけでなく,局所構造をエンコードする機能を持つ構造埋め込みトランスフォーマー(SEFormer)を提案する。 従来のTransformerの自己保持機構と比較して、SEFormerはクエリポイントへの相対的な方向と距離に基づいて、値ポイントの異なる特徴変換を学習する。 次に,高性能3次元物体検出のためのセフォマベースネットワークを提案する。 大規模な実験により、提案したアーキテクチャは、自動運転のための最大の3D検出ベンチマークであるWaymo Open DatasetでSOTA結果が得られることが示された。 具体的には、SEFormerは79.02%のmAPを達成しており、これは既存の作業よりも1.2%高い。 コードをリリースします。

Effectively preserving and encoding structure features from objects in irregular and sparse LiDAR points is a key challenge to 3D object detection on point cloud. Recently, Transformer has demonstrated promising performance on many 2D and even 3D vision tasks. Compared with the fixed and rigid convolution kernels, the self-attention mechanism in Transformer can adaptively exclude the unrelated or noisy points and thus suitable for preserving the local spatial structure in irregular LiDAR point cloud. However, Transformer only performs a simple sum on the point features, based on the self-attention mechanism, and all the points share the same transformation for value. Such isotropic operation lacks the ability to capture the direction-distance-oriented local structure which is important for 3D object detection. In this work, we propose a Structure-Embedding transFormer (SEFormer), which can not only preserve local structure as traditional Transformer but also have the ability to encode the local structure. Compared to the self-attention mechanism in traditional Transformer, SEFormer learns different feature transformations for value points based on the relative directions and distances to the query point. Then we propose a SEFormer based network for high-performance 3D object detection. Extensive experiments show that the proposed architecture can achieve SOTA results on Waymo Open Dataset, the largest 3D detection benchmark for autonomous driving. Specifically, SEFormer achieves 79.02% mAP, which is 1.2% higher than existing works. We will release the codes.
翻訳日:2022-09-07 14:02:03 公開日:2022-09-05
# 定位正定値行列のマニフォールドにおける軌跡解析による自己申告痛の自動推定

Automatic Estimation of Self-Reported Pain by Trajectory Analysis in the Manifold of Fixed Rank Positive Semi-Definite Matrices ( http://arxiv.org/abs/2209.01813v1 )

ライセンス: Link先を確認
Benjamin Szczapa, Mohamed Daoudi, Stefano Berretti, Pietro Pala, Alberto Del Bimbo, Zakia Hammal(参考訳) ビデオから抽出した顔のランドマークに基づいて自己報告した痛みを自動的に推定する手法を提案する。 各映像列について, 表情を4つの異なる領域に分解し, これらの領域のランドマークを用いて顔面運動のダイナミックスをモデル化し, 痛み強度を測定した。 グラム行列に基づく定式化は、固定階の対称正半定値行列のリーマン多様体上のランドマークの軌跡を表すために用いられる。 曲線フィッティングアルゴリズムを用いて軌道を滑らかにし、多様体上の軌道間の類似性を計算するために時間的アライメントを行う。 サポートベクトル回帰分類器は、抽出された軌跡を自己申告した痛み強度測定と一致した痛み強度レベルに符号化するように訓練される。 最後に、各領域に対する推定の後期融合を行い、最終的な予測痛みレベルを得る。 提案手法は、UNBCMcMaster Shoulder Pain ArchiveとBiovid Heat Pain datasetの2つの公開データセットで評価されている。 提案手法を,異なるテストプロトコルを用いて両データセットの最先端と比較し,提案手法の競合性を示した。

We propose an automatic method to estimate self-reported pain based on facial landmarks extracted from videos. For each video sequence, we decompose the face into four different regions and the pain intensity is measured by modeling the dynamics of facial movement using the landmarks of these regions. A formulation based on Gram matrices is used for representing the trajectory of landmarks on the Riemannian manifold of symmetric positive semi-definite matrices of fixed rank. A curve fitting algorithm is used to smooth the trajectories and temporal alignment is performed to compute the similarity between the trajectories on the manifold. A Support Vector Regression classifier is then trained to encode extracted trajectories into pain intensity levels consistent with self-reported pain intensity measurement. Finally, a late fusion of the estimation for each region is performed to obtain the final predicted pain level. The proposed approach is evaluated on two publicly available datasets, the UNBCMcMaster Shoulder Pain Archive and the Biovid Heat Pain dataset. We compared our method to the state-of-the-art on both datasets using different testing protocols, showing the competitiveness of the proposed approach.
翻訳日:2022-09-07 14:01:39 公開日:2022-09-05
# RLIP:人間と物体の相互作用検出のための関係言語画像事前学習

RLIP: Relational Language-Image Pre-training for Human-Object Interaction Detection ( http://arxiv.org/abs/2209.01814v1 )

ライセンス: Link先を確認
Hangjie Yuan, Jianwen Jiang, Samuel Albanie, Tao Feng, Ziyuan Huang, Dong Ni, Mingqian Tang(参考訳) ヒューマン・オブジェクト・インタラクション(hoi)検出のタスクは、環境と相互作用する人間のきめ細かい視覚的解析をターゲットとし、幅広いアプリケーションを可能にする。 以前の研究は、より正確なhoi検出のために効果的なアーキテクチャ設計と関連する手がかりの統合の利点を実証した。 しかしながら、このタスクのための適切な事前学習戦略の設計は、既存のアプローチによって未検討のままである。 このギャップに対処するために,リレーショナル・ランゲージ・イメージ・プレトレーニング(rlip,relational language-image pre-training)を提案する。 To make effective use of such pre-training, we make three technical contributions: (1) a new Parallel entity detection and Sequential relation inference (ParSe) architecture that enables the use of both entity and relation descriptions during holistically optimized pre-training; (2) a synthetic data generation framework, Label Sequence Extension, that expands the scale of language data available within each minibatch; (3) mechanisms to account for ambiguity, Relation Quality Labels and Relation Pseudo-Labels, to mitigate the influence of ambiguous/noisy samples in the pre-training data. RLIP-ParSeと呼ばれるこれらのコントリビューションの広範な実験を通じて、ゼロショット、少数ショット、微調整によるHOI検出性能の向上、およびノイズの多いアノテーションからの学習に対する堅牢性の向上に対する利点を実証する。 コードは \url{https://github.com/JacobYuan7/RLIP} で入手できる。

The task of Human-Object Interaction (HOI) detection targets fine-grained visual parsing of humans interacting with their environment, enabling a broad range of applications. Prior work has demonstrated the benefits of effective architecture design and integration of relevant cues for more accurate HOI detection. However, the design of an appropriate pre-training strategy for this task remains underexplored by existing approaches. To address this gap, we propose Relational Language-Image Pre-training (RLIP), a strategy for contrastive pre-training that leverages both entity and relation descriptions. To make effective use of such pre-training, we make three technical contributions: (1) a new Parallel entity detection and Sequential relation inference (ParSe) architecture that enables the use of both entity and relation descriptions during holistically optimized pre-training; (2) a synthetic data generation framework, Label Sequence Extension, that expands the scale of language data available within each minibatch; (3) mechanisms to account for ambiguity, Relation Quality Labels and Relation Pseudo-Labels, to mitigate the influence of ambiguous/noisy samples in the pre-training data. Through extensive experiments, we demonstrate the benefits of these contributions, collectively termed RLIP-ParSe, for improved zero-shot, few-shot and fine-tuning HOI detection performance as well as increased robustness to learning from noisy annotations. Code will be available at \url{https://github.com/JacobYuan7/RLIP}.
翻訳日:2022-09-07 14:01:19 公開日:2022-09-05
# ADTR:特徴再構成を用いた異常検出変換器

ADTR: Anomaly Detection Transformer with Feature Reconstruction ( http://arxiv.org/abs/2209.01816v1 )

ライセンス: Link先を確認
Zhiyuan You, Kai Yang, Wenhan Luo, Lei Cui, Yu Zheng, Xinyi Le(参考訳) 正常サンプルからの事前知識のみによる異常検出は異常サンプルの欠如により注目される。 既存のCNNベースの画素再構成アプローチには2つの懸念がある。 まず、再構成元とターゲットは、識別不能な意味情報を含む生の画素値である。 第二に、cnnは正常なサンプルと異常の両方をよく再構築する傾向があり、区別が難しい。 本稿では,事前学習した特徴の再構成にトランスフォーマを適用するために,ADTR(Anomaly Detection TRansformer)を提案する。 事前訓練された特徴には識別可能な意味情報が含まれる。 また、再構成が失敗すると容易に異常を検出することができるように、異常をよく再構築するためのトランスフォーマー制限の導入も行われた。 さらに,通常のサンプルのみの場合と,画像レベルと画素レベルのラベル付き異常とを併用する新たな損失関数を提案する。 単純な合成または外部無関係な異常を追加することで、パフォーマンスをさらに改善することができる。 MVTec-AD や CIFAR-10 などの異常検出データセットに対して大規模な実験を行った。 本手法は全てのベースラインと比較して優れた性能を実現する。

Anomaly detection with only prior knowledge from normal samples attracts more attention because of the lack of anomaly samples. Existing CNN-based pixel reconstruction approaches suffer from two concerns. First, the reconstruction source and target are raw pixel values that contain indistinguishable semantic information. Second, CNN tends to reconstruct both normal samples and anomalies well, making them still hard to distinguish. In this paper, we propose Anomaly Detection TRansformer (ADTR) to apply a transformer to reconstruct pre-trained features. The pre-trained features contain distinguishable semantic information. Also, the adoption of transformer limits to reconstruct anomalies well such that anomalies could be detected easily once the reconstruction fails. Moreover, we propose novel loss functions to make our approach compatible with the normal-sample-only case and the anomaly-available case with both image-level and pixel-level labeled anomalies. The performance could be further improved by adding simple synthetic or external irrelevant anomalies. Extensive experiments are conducted on anomaly detection datasets including MVTec-AD and CIFAR-10. Our method achieves superior performance compared with all baselines.
翻訳日:2022-09-07 14:00:56 公開日:2022-09-05
# 多方向GLCMと局所三成分パターンの接合部に基づくテクスチャ画像解析

Texture image analysis based on joint of multi directions GLCM and local ternary patterns ( http://arxiv.org/abs/2209.01866v1 )

ライセンス: Link先を確認
Akshakhi Kumar Pritoonka, Faeze Kiani(参考訳) 人間の視覚脳は、環境や物体を検知または識別するために、色、テクスチャ、形状の3つの主成分を使用する。 そのため、過去20年間、テクスチャ分析は科学研究者から大きな注目を集めてきた。 テクスチャ機能は、通勤視覚や機械学習問題における多くの異なるアプリケーションで使用することができる。 それ以来、テクスチャの分類には様々なアプローチが提案されている。 それらの多くは、分類精度を改善すべき主な課題と見なしている。 本稿では,2つの効率的なテクスチャ記述子,共起行列,局所三元パターン(LTP)を組み合わせた新しい手法を提案する。 まず,基本的局所二分法パターンとLTPを用いて局所的なテクスチャ情報を抽出する。 次に、灰色の共起行列から統計的特徴のサブセットを抽出する。 最後に、連結機能を使用して分類器を訓練する。 パフォーマンスは、精度の観点からbrodatzベンチマークデータセットで評価される。 実験の結果,提案手法は最先端手法に比べて高い分類率をもたらすことがわかった。

Human visual brain use three main component such as color, texture and shape to detect or identify environment and objects. Hence, texture analysis has been paid much attention by scientific researchers in last two decades. Texture features can be used in many different applications in commuter vision or machine learning problems. Since now, many different approaches have been proposed to classify textures. Most of them consider the classification accuracy as the main challenge that should be improved. In this article, a new approach is proposed based on combination of two efficient texture descriptor, co-occurrence matrix and local ternary patterns (LTP). First of all, basic local binary pattern and LTP are performed to extract local textural information. Next, a subset of statistical features is extracted from gray-level co-occurrence matrixes. Finally, concatenated features are used to train classifiers. The performance is evaluated on Brodatz benchmark dataset in terms of accuracy. Experimental results show that proposed approach provide higher classification rate in comparison with some state-of-the-art approaches.
翻訳日:2022-09-07 14:00:40 公開日:2022-09-05
# マルチモーダル不規則時系列イベントのための機能融合フレームワーク

Features Fusion Framework for Multimodal Irregular Time-series Events ( http://arxiv.org/abs/2209.01728v1 )

ライセンス: Link先を確認
Peiwang Tang and Xianchao Zhang(参考訳) 複数のソースからのデータは、異なるサンプリング周波数、データ構成、時間関係、特性を持つマルチモーダル時系列イベントとしてモデル化することができる。 異なる種類の事象は複雑な非線形関係を持ち、各事象の時刻は不規則である。 古典的リカレントニューラルネットワーク(RNN)モデルも、現在の最先端のTransformerモデルも、これらの機能をうまく扱えない。 本稿では,Long Short-Term Memory Network (LSTM) に基づくマルチモーダル不規則な時系列イベントのための特徴融合フレームワークを提案する。 まず、異なる事象の不規則なパターンに応じて複雑な特徴を抽出する。 次に、複素特徴間の非線形相関と複素時間依存性の関係を捉えてテンソルに融合する。 最後に、異なるテンソルのアクセス周波数を制御するために特徴ゲートを使用する。 MIMIC-IIIデータセットの大規模な実験により、提案手法はAUC(受信者動作特性曲線下)とAP(平均精度)において既存の手法よりも大幅に優れていた。

Some data from multiple sources can be modeled as multimodal time-series events which have different sampling frequencies, data compositions, temporal relations and characteristics. Different types of events have complex nonlinear relationships, and the time of each event is irregular. Neither the classical Recurrent Neural Network (RNN) model nor the current state-of-the-art Transformer model can deal with these features well. In this paper, a features fusion framework for multimodal irregular time-series events is proposed based on the Long Short-Term Memory networks (LSTM). Firstly, the complex features are extracted according to the irregular patterns of different events. Secondly, the nonlinear correlation and complex temporal dependencies relationship between complex features are captured and fused into a tensor. Finally, a feature gate are used to control the access frequency of different tensors. Extensive experiments on MIMIC-III dataset demonstrate that the proposed framework significantly outperforms to the existing methods in terms of AUC (the area under Receiver Operating Characteristic curve) and AP (Average Precision).
翻訳日:2022-09-07 13:51:50 公開日:2022-09-05
# 自律運転のための複数の協調エージェントの訓練手法

A New Approach to Training Multiple Cooperative Agents for Autonomous Driving ( http://arxiv.org/abs/2209.02157v1 )

ライセンス: Link先を確認
Ruiyang Yang, Siheng Li, Beihong Jin(参考訳) 自律運転の複雑なシナリオにおいて、安全かつ協調的な制御を行うために複数のエージェントを訓練することは困難である。 この論文は、複数のエージェントを訓練するための新しいアプローチであるlepusを提案する。 lepusは、ポリシーネットワークの共有パラメータと複数のエージェントの共有報酬機能を備えた、純粋に協力的な方法で複数のエージェントを訓練する。 特に、lepusは政策ネットワークを敵対的プロセスを通じて事前訓練し、協調的な意思決定能力を改善し、さらに自動車運転の安定性を高める。 さらに、スパース報酬の問題を軽減するために、ランダムネットワークと蒸留ネットワークを組み合わせることにより、専門家軌道から近似報酬関数を学習する。 我々はMADRaSシミュレーションプラットフォーム上で広範な実験を行う。 実験の結果,レプスで訓練された複数のエージェントは,同時に運転しながら衝突を回避でき,他の4つの方法,すなわちDDPG-FDE,PSDDPG,MADDPG,MAGAIL(DDPG)の安定性に優れていた。

Training multiple agents to perform safe and cooperative control in the complex scenarios of autonomous driving has been a challenge. For a small fleet of cars moving together, this paper proposes Lepus, a new approach to training multiple agents. Lepus adopts a pure cooperative manner for training multiple agents, featured with the shared parameters of policy networks and the shared reward function of multiple agents. In particular, Lepus pre-trains the policy networks via an adversarial process, improving its collaborative decision-making capability and further the stability of car driving. Moreover, for alleviating the problem of sparse rewards, Lepus learns an approximate reward function from expert trajectories by combining a random network and a distillation network. We conduct extensive experiments on the MADRaS simulation platform. The experimental results show that multiple agents trained by Lepus can avoid collisions as many as possible while driving simultaneously and outperform the other four methods, that is, DDPG-FDE, PSDDPG, MADDPG, and MAGAIL(DDPG) in terms of stability.
翻訳日:2022-09-07 13:51:35 公開日:2022-09-05
# 4Ward: 任意複素非巡回グラフの効率的な学習のための再層化戦略

4Ward: a Relayering Strategy for Efficient Training of Arbitrarily Complex Directed Acyclic Graphs ( http://arxiv.org/abs/2209.02037v1 )

ライセンス: Link先を確認
Tommaso Boccato, Matteo Ferrante, Andrea Duggento, Nicola Toschi(参考訳) 実装が容易になったため、多層パーセプトロン(MLP)はディープラーニングアプリケーションで広く普及している。 MLPの下のグラフは確かに多部構造であり、ニューロンの各層は隣の層に属するニューロンにのみ接続する。 コンストラストでは、個々のシナプスのレベルでの生体内脳のコネクトームは、生物学的神経ネットワークがスケールフリーの度数分布または指数的に歪んだ力の法則の強さ分布によって特徴づけられ、進化由来の神経ネットワークを活用するための新たな道のりを示唆している。 本稿では,任意に複雑な非巡回グラフからフレキシブルで効率的なニューラルネットワーク(NN)を生成する方法とPythonライブラリである"4Ward"を提案する。 4ward はグラフ描画の分野から引き出された階層化アルゴリズムに触発され、効率的なフォワードパスを実装し、様々な erd\h{o}s-r\'enyi グラフを用いた計算実験においてかなりの時間効果をもたらす。 4Wardは、アクティベーションの計算を並列化することで学習行列法のシーケンシャルな性質を克服し、ウェイト初期化とアクティベーション機能をカスタマイズする自由を提供する。 我々のアルゴリズムは、マイクロスケールのNN設計フレームワークで複雑なトポロジを活用しようとする研究者に役立てることができる。

Thanks to their ease of implementation, multilayer perceptrons (MLPs) have become ubiquitous in deep learning applications. The graph underlying an MLP is indeed multipartite, i.e. each layer of neurons only connects to neurons belonging to the adjacent layer. In constrast, in vivo brain connectomes at the level of individual synapses suggest that biological neuronal networks are characterized by scale-free degree distributions or exponentially truncated power law strength distributions, hinting at potentially novel avenues for the exploitation of evolution-derived neuronal networks. In this paper, we present "4Ward", a method and Python library capable of generating flexible and efficient neural networks (NNs) from arbitrarily complex directed acyclic graphs. 4Ward is inspired by layering algorithms drawn from the graph drawing discipline to implement efficient forward passes, and provides significant time gains in computational experiments with various Erd\H{o}s-R\'enyi graphs. 4Ward overcomes the sequential nature of the learning matrix method by parallelizing the computation of activations and provides the designer with freedom to customize weight initialization and activation functions. Our algorithm can be of aid for any investigator seeking to exploit complex topologies in a NN design framework at the microscale.
翻訳日:2022-09-07 13:44:04 公開日:2022-09-05
# 機械読解における推論ショートカットの測定と緩和に関する調査

A Survey on Measuring and Mitigating Reasoning Shortcuts in Machine Reading Comprehension ( http://arxiv.org/abs/2209.01824v1 )

ライセンス: Link先を確認
Xanh Ho, Johannes Mario Meissner, Saku Sugawara, and Akiko Aizawa(参考訳) ショートカット学習の問題はNLPで広く知られており、近年は重要な研究分野となっている。 データ内の意図しない相関により、高度な言語理解と推論能力を示すことを意図したタスクを簡単に解決できる。 本稿では,機械読影理解(MRC)の分野に着目し,様々なショートカットに悩まされるハイレベルな言語理解を示す重要な課題である。 近道の計測と緩和のための利用可能な手法を要約し,近道研究のさらなる進展を示唆する。 最も重要なことは、mrcにおける近道緩和の2つの主な懸念点である、パブリックチャレンジセットの欠如、効果的で再利用可能な評価に必要なコンポーネント、他の領域で目立つ特定の緩和テクニックの欠如である。

The issue of shortcut learning is widely known in NLP and has been an important research focus in recent years. Unintended correlations in the data enable models to easily solve tasks that were meant to exhibit advanced language understanding and reasoning capabilities. In this survey paper, we focus on the field of machine reading comprehension (MRC), an important task for showcasing high-level language understanding that also suffers from a range of shortcuts. We summarize the available techniques for measuring and mitigating shortcuts and conclude with suggestions for further progress in shortcut research. Most importantly, we highlight two main concerns for shortcut mitigation in MRC: the lack of public challenge sets, a necessary component for effective and reusable evaluation, and the lack of certain mitigation techniques that are prominent in other areas.
翻訳日:2022-09-07 13:40:21 公開日:2022-09-05
# マルチフィギュラティブ言語生成

Multi-Figurative Language Generation ( http://arxiv.org/abs/2209.01835v1 )

ライセンス: Link先を確認
Huiyuan Lai and Malvina Nissim(参考訳) 具体的言語生成(英: Figurative language generation)とは、元の文脈に忠実でありながら、所望の言語図形のテキストを再構成する作業である。 英語における5つの共通表現型の自動生成のためのベンチマークを提供することにより,多形言語モデリングへの第一歩を踏み出した。 我々は、bart上に事前学習する多形言語のためのスキームと、そのエンコーダに対象のフィギュレーション情報を注入するメカニズムを用いて、mflagを訓練する。これにより、平行なフィギュラティブ・フィギュラティブな文対を使わずに、他のフィギュラティブ形式から対象のフィギュラティブ形式を持つテキストを生成することができる。 私たちのアプローチは、すべての強力なベースラインを上回ります。 また,音声の異なる図形間の関係を定性的に分析し,考察する。

Figurative language generation is the task of reformulating a given text in the desired figure of speech while still being faithful to the original context. We take the first step towards multi-figurative language modelling by providing a benchmark for the automatic generation of five common figurative forms in English. We train mFLAG employing a scheme for multi-figurative language pre-training on top of BART, and a mechanism for injecting the target figurative information into the encoder; this enables the generation of text with the target figurative form from another figurative form without parallel figurative-figurative sentence pairs. Our approach outperforms all strong baselines. We also offer some qualitative analysis and reflections on the relationship between the different figures of speech.
翻訳日:2022-09-07 13:40:08 公開日:2022-09-05
# Selective Annotationは、Few-Shot学習者の言語モデルを改善する

Selective Annotation Makes Language Models Better Few-Shot Learners ( http://arxiv.org/abs/2209.01975v1 )

ライセンス: Link先を確認
Hongjin Su, Jungo Kasai, Chen Henry Wu, Weijia Shi, Tianlu Wang, Jiayi Xin, Rui Zhang, Mari Ostendorf, Luke Zettlemoyer, Noah A. Smith, Tao Yu(参考訳) 自然言語タスクに対する最近の多くのアプローチは、大きな言語モデルの驚くべき能力に基づいている。 大きな言語モデルは、コンテキスト内学習を実行し、パラメータの更新なしに、いくつかのタスクデモから新しいタスクを学習する。 本稿では,新しい自然言語タスクのためのデータセット作成における文脈内学習の意義について検討する。 最近のin-context learningメソッドを離れて、アノテーション効率のよい2段階のフレームワークを定式化した。事前にラベルなしのデータから注釈付きサンプルのプールを選択し、テスト時に注釈付きプールからタスク例を取得するプロンプト検索を行う。 本稿では,このフレームワークに基づき,非教師なし,グラフベースの選択的アノテーション手法voke-kを提案する。 10のデータセット(分類、コモンセンス推論、対話、テキスト/コード生成など)に関する広範な実験により、選択的なアノテーション手法がタスクパフォーマンスを大きなマージンで改善できることが示されている。 平均投票率は18/100のアノテーション予算で12.9%/11.4%の相対利得を達成している。 最先端の教師付き微調整手法と比較すると、10タスク間で10~100倍のアノテーションコストで同様の性能が得られる。 我々は、さまざまなサイズを持つ言語モデル、代替の選択的アノテーションメソッド、テストデータドメインシフトがあるケースなど、さまざまなシナリオにおけるフレームワークの有効性をさらに分析する。 大規模な言語モデルが新たなタスクにますます適用されていくにつれて、私たちの研究がデータアノテーションの基礎となることを期待しています。 私たちのコードはhttps://github.com/hkunlp/icl-selective-annotationで利用可能です。

Many recent approaches to natural language tasks are built on the remarkable abilities of large language models. Large language models can perform in-context learning, where they learn a new task from a few task demonstrations, without any parameter updates. This work examines the implications of in-context learning for the creation of datasets for new natural language tasks. Departing from recent in-context learning methods, we formulate an annotation-efficient, two-step framework: selective annotation that chooses a pool of examples to annotate from unlabeled data in advance, followed by prompt retrieval that retrieves task examples from the annotated pool at test time. Based on this framework, we propose an unsupervised, graph-based selective annotation method, voke-k, to select diverse, representative examples to annotate. Extensive experiments on 10 datasets (covering classification, commonsense reasoning, dialogue, and text/code generation) demonstrate that our selective annotation method improves the task performance by a large margin. On average, vote-k achieves a 12.9%/11.4% relative gain under an annotation budget of 18/100, as compared to randomly selecting examples to annotate. Compared to state-of-the-art supervised finetuning approaches, it yields similar performance with 10-100x less annotation cost across 10 tasks. We further analyze the effectiveness of our framework in various scenarios: language models with varying sizes, alternative selective annotation methods, and cases where there is a test data domain shift. We hope that our studies will serve as a basis for data annotations as large language models are increasingly applied to new tasks. Our code is available at https://github.com/HKUNLP/icl-selective-annotation.
翻訳日:2022-09-07 13:39:51 公開日:2022-09-05
# わずかなインクリメンタルイベント検出

Few-shot Incremental Event Detection ( http://arxiv.org/abs/2209.01979v1 )

ライセンス: Link先を確認
Hao Wang, Hanwen Shi, and Jianyong Duan(参考訳) イベント検出タスクは、複雑なテキストからドメインを素早く決定するのに役立つ。 また、自然言語処理の下流タスクに対する強力なサポートも提供でき、既存の手法では大量のデータに基づいて定型学習を実装している。 新しいクラスに拡張する際には、しばしば元のデータを保持し、モデルを再訓練する必要がある。さらにイベント検出タスクは、新しいクラスの生涯学習を可能にするが、既存のほとんどのメソッドは、大量のオリジナルデータを保持したり、破滅的な忘れの問題に直面したりする必要がある。 これとは別に、実際に高品質なデータがないため、モデルトレーニングのための十分なデータを得ることは困難であり、上記の問題に対処するために、少ないインクリメンタルなイベント検出であるイベント検出の領域において、新しいタスクを定義する。このタスクでは、各ラウンドで新しいイベントタイプを限られた入力で学習する場合、モデルが以前の型を保持する必要がある。 ベンチマークデータセットを fewevent に基づいて,数回のインクリメンタルイベント検出タスクで再作成し,リリースしました。 さらに, IFSED-K と IFSED-KP の2つのベンチマーク手法を提案する。 その結果,本手法はF1スコアが高く,ベースラインよりも安定であることがわかった。

Event detection tasks can help people quickly determine the domain from complex texts. It can also provides powerful support for downstream tasks of natural language processing.Existing methods implement fixed-type learning only based on large amounts of data. When extending to new classes, it is often required to retain the original data and retrain the model.Incremental event detection tasks enables lifelong learning of new classes, but most existing methods need to retain a large number of original data or face the problem of catastrophic forgetting. Apart from that, it is difficult to obtain enough data for model training due to the lack of high-quality data in practical.To address the above problems, we define a new task in the domain of event detection, which is few-shot incremental event detection.This task require that the model should retain previous type when learning new event type in each round with limited input. We recreate and release a benchmark dataset in the few-shot incremental event detection task based on FewEvent.The dataset we published is more appropriate than other in this new task. In addition, we propose two benchmark approaches, IFSED-K and IFSED-KP, which can address the task in different ways. Experiments results have shown that our approach has a higher F1 score and is more stable than baseline.
翻訳日:2022-09-07 13:39:22 公開日:2022-09-05
# 「ダミーおじいちゃん、何か知ってる?」:野生のアド・ホミネムの誤用を識別して特徴付ける

"Dummy Grandpa, do you know anything?": Identifying and Characterizing Ad hominem Fallacy Usage in the Wild ( http://arxiv.org/abs/2209.02062v1 )

ライセンス: Link先を確認
Utkarsh Patel, Animesh Mukherjee, Mainack Mondal(参考訳) 今日、オンラインフォーラムでの議論は極めて一般的であり、これらの議論はオンラインユーザ全体の意見に強い影響を与え始めている。 当然、議論の流れを歪めることは、ナイーブなユーザーの心に強い影響を与える可能性がある。 したがって、これらのプラットフォームは、個人的またはコホートとして、世論を揺さぶる動機のある悪質な議論を巻き起こす悪質なプレイヤーに対して、潜在的に非常に脆弱である。 Ad hominem arguments はそのような誤認の最も効果的な形の一つである。 単純な誤りではあるが、オフラインの世界における公衆の議論を妨げ、スランダーによる反対の声を遮断する先駆者として使用できる。 本研究では,野生でのアドホミネム誤用について,その利用方法の解明に向けて第一歩を踏み出した。 まず,アノテートされたインスタンスが極めて少ないデータセットであっても,精度の高いアドホミネム検出器(f1は83%以上,以前の作業よりも大幅に改善している)を構築する。 次に、オンライン討論フォーラム、CreateDebateから収集された265kの引数で検出器を使用しました。 クラウドソーシングによる調査は、createebateデータ(手動アノテーションと94%の一致)の予測を検証しています。 分析の結果,CreateDebateのコンテンツのうち31.23%がアドホミネムの誤用によるものであることが判明した。 そして、我々の時間分析により、2016年のアメリカ合衆国大統領選挙以降、政治だけでなく、科学と法についても、アドホミン論の利用が大幅に増加したことが判明した。 我々は、アドホマイネムの誤認を検知し、防御する作業の重要な意味を議論することで結論付けた。

Today, participating in discussions on online forums is extremely commonplace and these discussions have started rendering a strong influence on the overall opinion of online users. Naturally, twisting the flow of the argument can have a strong impact on the minds of naive users, which in the long run might have socio-political ramifications, for example, winning an election or spreading targeted misinformation. Thus, these platforms are potentially highly vulnerable to malicious players who might act individually or as a cohort to breed fallacious arguments with a motive to sway public opinion. Ad hominem arguments are one of the most effective forms of such fallacies. Although a simple fallacy, it is effective enough to sway public debates in offline world and can be used as a precursor to shutting down the voice of opposition by slander. In this work, we take a first step in shedding light on the usage of ad hominem fallacies in the wild. First, we build a powerful ad hominem detector with high accuracy (F1 more than 83%, showing a significant improvement over prior work), even for datasets for which annotated instances constitute a very small fraction. We then used our detector on 265k arguments collected from the online debate forum - CreateDebate. Our crowdsourced surveys validate our in-the-wild predictions on CreateDebate data (94% match with manual annotation). Our analysis revealed that a surprising 31.23% of CreateDebate content contains ad hominem fallacy, and a cohort of highly active users post significantly more ad hominem to suppress opposing views. Then, our temporal analysis revealed that ad hominem argument usage increased significantly since the 2016 US Presidential election, not only for topics like Politics, but also for Science and Law. We conclude by discussing important implications of our work to detect and defend against ad hominem fallacies.
翻訳日:2022-09-07 13:39:01 公開日:2022-09-05
# コンクリート:クロスランガル検索によるクロスランガルファクトチェックの改善

CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual Retrieval ( http://arxiv.org/abs/2209.02071v1 )

ライセンス: Link先を確認
Kung-Hsiang Huang, ChengXiang Zhai, Heng Ji(参考訳) ファクトチェックは偽情報の普及により注目を集めている。 ほとんどのファクトチェックアプローチは、他の言語のデータ不足の問題によってのみ、英語による主張に焦点を当てている。 低リソース言語におけるファクトチェックデータセットの欠如は、ファクトチェックに効果的な言語間転送技術を求めている。 さらに、異なる言語で信頼できる情報が補完され、事実の検証に役立つ。 そこで本研究では,複数言語から検索した証拠を,言語横断検索により集約した最初のファクトチェックフレームワークを提案する。 クレームライクな問合せを伴う言語間情報検索データセットが存在しないことから,提案したクロスランガル逆クローズタスク(X-ICT)を用いて検索者を訓練する。 X-ICTの目標は、モデルが与えられた翻訳タイトルに対応する節を識別することを学ぶ言語間検索を学習することである。 x-factデータセットでは,先行システムに対するゼロショットクロスリンガルセットアップにおいて,絶対f1が2.23%向上した。 ソースコードとデータはhttps://github.com/khuangaf/CONCRETEで公開されている。

Fact-checking has gained increasing attention due to the widespread of falsified information. Most fact-checking approaches focus on claims made in English only due to the data scarcity issue in other languages. The lack of fact-checking datasets in low-resource languages calls for an effective cross-lingual transfer technique for fact-checking. Additionally, trustworthy information in different languages can be complementary and helpful in verifying facts. To this end, we present the first fact-checking framework augmented with cross-lingual retrieval that aggregates evidence retrieved from multiple languages through a cross-lingual retriever. Given the absence of cross-lingual information retrieval datasets with claim-like queries, we train the retriever with our proposed Cross-lingual Inverse Cloze Task (X-ICT), a self-supervised algorithm that creates training instances by translating the title of a passage. The goal for X-ICT is to learn cross-lingual retrieval in which the model learns to identify the passage corresponding to a given translated title. On the X-Fact dataset, our approach achieves 2.23% absolute F1 improvement in the zero-shot cross-lingual setup over prior systems. The source code and data are publicly available at https://github.com/khuangaf/CONCRETE.
翻訳日:2022-09-07 13:38:24 公開日:2022-09-05
# 手作り逆解析による事前学習言語モデルの感受性評価

Evaluating the Susceptibility of Pre-Trained Language Models via Handcrafted Adversarial Examples ( http://arxiv.org/abs/2209.02128v1 )

ライセンス: Link先を確認
Hezekiah J. Branch, Jonathan Rodriguez Cefalu, Jeremy McHugh, Leyla Hujer, Aditya Bahl, Daniel del Castillo Iglesias, Ron Heichman, Ramesh Darwishi(参考訳) 大規模言語モデルの開発における最近の進歩は、GPT-3(Generative Pre-trained Transformer 3)やBERT(Bidirectional Encoder Representations from Transformers)など、最先端の事前訓練言語モデル(PLM)へのパブリックアクセスをもたらした。 しかし, PLMの評価は, 実際に, 開発段階および微調整段階において, 敵の攻撃に対する感受性を示した。 このような攻撃は、誤ったアウトプット、モデル生成のヘイトスピーチ、ユーザーのセンシティブな情報の露出をもたらす可能性がある。 既存の研究は、PLMの訓練中または微調整中の敵攻撃に焦点を当てているが、これらの2つの開発段階の間に行われた攻撃に関する情報が不足している。 本稿では,GPT-3の公開リリースにおける重大なセキュリティ脆弱性を強調し,他の最先端PLMの脆弱性をさらに調査する。 我々は、微調整を受けていない事前訓練されたモデルに作業を制限する。 さらに, トークン距離最小化摂動を, 教師なしと教師なしの両方の品質対策を回避し, 効果的な逆方向アプローチとして評価する。 提案手法は,意味的類似性を評価する際に,テキスト分類品質の大幅な低下を観察する。

Recent advances in the development of large language models have resulted in public access to state-of-the-art pre-trained language models (PLMs), including Generative Pre-trained Transformer 3 (GPT-3) and Bidirectional Encoder Representations from Transformers (BERT). However, evaluations of PLMs, in practice, have shown their susceptibility to adversarial attacks during the training and fine-tuning stages of development. Such attacks can result in erroneous outputs, model-generated hate speech, and the exposure of users' sensitive information. While existing research has focused on adversarial attacks during either the training or the fine-tuning of PLMs, there is a deficit of information on attacks made between these two development phases. In this work, we highlight a major security vulnerability in the public release of GPT-3 and further investigate this vulnerability in other state-of-the-art PLMs. We restrict our work to pre-trained models that have not undergone fine-tuning. Further, we underscore token distance-minimized perturbations as an effective adversarial approach, bypassing both supervised and unsupervised quality measures. Following this approach, we observe a significant decrease in text classification quality when evaluating for semantic similarity.
翻訳日:2022-09-07 13:38:07 公開日:2022-09-05
# 低資源シナリオにおける言語横断とドメイン横断の危機分類

Cross-Lingual and Cross-Domain Crisis Classification for Low-Resource Scenarios ( http://arxiv.org/abs/2209.02139v1 )

ライセンス: Link先を確認
Cinthia S\'anchez, Hernan Sarmiento, Jorge P\'erez, Andres Abeliuk, Barbara Poblete(参考訳) ソーシャルメディアのデータは、現実世界の危機イベントに関するタイムリーな情報ソースとして登場した。 災害管理におけるソーシャルメディアの利用に関する主なタスクの1つは、危機関連メッセージの自動識別である。 このトピックに関するほとんどの研究は、特定の言語における特定のタイプのイベントのデータ分析に焦点を当てています。 これは、モデルが新しいタイプのイベントや他の言語に直接適用できないため、既存のアプローチを一般化する可能性を制限する。 本研究では,言語間およびドメイン間ラベル付きデータを活用し,危機事象に関連するメッセージを自動分類するタスクについて検討する。 私たちのゴールは、高リソース言語のラベル付きデータを使用して、他の(低リソースの)言語や、新しい(以前は見えなかった)危機状況からのメッセージを分類することです。 本研究では,複数の危機事象と言語を含む大規模統一データセットを文献から統合した。 我々の経験的発見は、英語の危機イベントのデータを利用して、スペイン語やイタリア語(80.0% F1スコア)など他の言語で同じ種類の出来事を分類することが可能であることを示している。 さらに,ドメイン間タスク(80.0%F1スコア)を言語間設定で高い性能を達成する。 全体として,本研究は,多言語危機分類において非常に重要なデータ不足問題の改善に寄与する。 特に、時間の本質である緊急時におけるコールドスタートの緩和。

Social media data has emerged as a useful source of timely information about real-world crisis events. One of the main tasks related to the use of social media for disaster management is the automatic identification of crisis-related messages. Most of the studies on this topic have focused on the analysis of data for a particular type of event in a specific language. This limits the possibility of generalizing existing approaches because models cannot be directly applied to new types of events or other languages. In this work, we study the task of automatically classifying messages that are related to crisis events by leveraging cross-language and cross-domain labeled data. Our goal is to make use of labeled data from high-resource languages to classify messages from other (low-resource) languages and/or of new (previously unseen) types of crisis situations. For our study we consolidated from the literature a large unified dataset containing multiple crisis events and languages. Our empirical findings show that it is indeed possible to leverage data from crisis events in English to classify the same type of event in other languages, such as Spanish and Italian (80.0% F1-score). Furthermore, we achieve good performance for the cross-domain task (80.0% F1-score) in a cross-lingual setting. Overall, our work contributes to improving the data scarcity problem that is so important for multilingual crisis classification. In particular, mitigating cold-start situations in emergency events, when time is of essence.
翻訳日:2022-09-07 13:37:45 公開日:2022-09-05
# ニューラルパラフレーズ生成のための粒度の連続分解

Continuous Decomposition of Granularity for Neural Paraphrase Generation ( http://arxiv.org/abs/2209.01765v1 )

ライセンス: Link先を確認
Xiaodong Gu, Zhaowei Zhang, Sang-Woo Lee, Kang Min Yoo, Jung-Woo Ha(参考訳) トランスフォーマーは段落世代で大きな成功を収めているが、文をトークンの線形列として扱い、しばしば階層的な情報を無視する。 以前の研究は、入力トークンに対する粒度のレベル~(例えば、単語、フレーズ、文)の分解が大幅に改善され、よりきめ細かい粒度のモデリングによってトランスフォーマーを強化する可能性が示唆されている。 本研究では,ニューラルパラフレーズ生成(C-DNPG)のための粒度連続分解法を提案する。 文の符号化に粒度を効率的に組み込むため、C-DNPGは多頭部自己注意を拡大する粒度認識機構(GA-Attention)を導入する。 1)各入力トークンの粒度レベルを神経的に推定して自動的に文の階層構造を推測する粒度ヘッド, 2)2つの新しい注目マスク,すなわち粒度共鳴と粒度スコープは,注目度を効率よく符号化する。 Quoraの質問ペアとTwitterのURLを含む2つのベンチマークの実験では、C-DNPGはベースラインモデルよりも優れたマージンを示し、多くのメトリクスで最先端の結果を達成する。 定性的分析により、C-DNPGは実際に粒度の細かいレベルを効果的に捉えていることが明らかとなった。

While Transformers have had significant success in paragraph generation, they treat sentences as linear sequences of tokens and often neglect their hierarchical information. Prior work has shown that decomposing the levels of granularity~(e.g., word, phrase, or sentence) for input tokens has produced substantial improvements, suggesting the possibility of enhancing Transformers via more fine-grained modeling of granularity. In this work, we propose a continuous decomposition of granularity for neural paraphrase generation (C-DNPG). In order to efficiently incorporate granularity into sentence encoding, C-DNPG introduces a granularity-aware attention (GA-Attention) mechanism which extends the multi-head self-attention with: 1) a granularity head that automatically infers the hierarchical structure of a sentence by neurally estimating the granularity level of each input token; and 2) two novel attention masks, namely, granularity resonance and granularity scope, to efficiently encode granularity into attention. Experiments on two benchmarks, including Quora question pairs and Twitter URLs have shown that C-DNPG outperforms baseline models by a remarkable margin and achieves state-of-the-art results in terms of many metrics. Qualitative analysis reveals that C-DNPG indeed captures fine-grained levels of granularity with effectiveness.
翻訳日:2022-09-07 13:31:43 公開日:2022-09-05
# バイオメディカルおよびCOVID-19複合質問応答のためのクエリ中心抽出要約

Query-focused Extractive Summarisation for Biomedical and COVID-19 Complex Question Answering ( http://arxiv.org/abs/2209.01815v1 )

ライセンス: Link先を確認
Diego Moll\'a (Macquarie University, Sydney, Australia)(参考訳) 本稿では,近年の2つのBioASQ Synergy Tasks(2022年6月現在)とBioASQ10 Task~B(BioASQ10b)へのMacquarie大学参加について述べる。 これらの課題において、参加システムは、複数の文を含む可能性のある生体医学的質問に対する複雑な回答を生成することが期待されている。 クエリに焦点をあてた抽出要約手法を適用する。 特に,質問に関連付けられた各候補文を採点する文分類に基づくアプローチを踏襲し,その答えとして$n$最高スコアの文を返却する。 synergyタスクは、ドキュメントの選択、スニペットの選択、最終回答の検索を必要とするエンドツーエンドシステムに対応するが、トレーニングデータは非常に限られている。 提案手法では,bioasq9bの学習データに基づいて学習したディチルバート/アルベルト分類器を用いて,文書検索とスニペット検索の2段階から候補文を選択し,最終回答を得た。 文書検索は,BioASQオーガナイザが提供した検索APIを用いて,CORD-19データの標準検索として達成し,質問文と候補文の余分な類似性を用いて,上位文書の文を再ランク付けすることで,スニペット検索を実現した。 sBERT で表されるベクトルは tf.idf 上のエッジを持つ。 BioASQ10b フェーズBは、バイオメディカルな疑問に対する具体的な答えを見つけることに焦点を当てている。 このタスクでは、データ中心のアプローチに従いました。 我々は、最初のBioASQ年のトレーニングデータにバイアスがかかる可能性があると仮定し、トレーニングデータの異なるサブセットを実験した。 bioasq10bトレーニングデータの後半にシステムがトレーニングされた際に、結果の改善が観察された。

This paper presents Macquarie University's participation to the two most recent BioASQ Synergy Tasks (as per June 2022), and to the BioASQ10 Task~B (BioASQ10b), Phase~B. In these tasks, participating systems are expected to generate complex answers to biomedical questions, where the answers may contain more than one sentence. We apply query-focused extractive summarisation techniques. In particular, we follow a sentence classification-based approach that scores each candidate sentence associated to a question, and the $n$ highest-scoring sentences are returned as the answer. The Synergy Task corresponds to an end-to-end system that requires document selection, snippet selection, and finding the final answer, but it has very limited training data. For the Synergy task, we selected the candidate sentences following two phases: document retrieval and snippet retrieval, and the final answer was found by using a DistilBERT/ALBERT classifier that had been trained on the training data of BioASQ9b. Document retrieval was achieved as a standard search over the CORD-19 data using the search API provided by the BioASQ organisers, and snippet retrieval was achieved by re-ranking the sentences of the top retrieved documents, using the cosine similarity of the question and candidate sentence. We observed that vectors represented via sBERT have an edge over tf.idf. BioASQ10b Phase B focuses on finding the specific answers to biomedical questions. For this task, we followed a data-centric approach. We hypothesised that the training data of the first BioASQ years might be biased and we experimented with different subsets of the training data. We observed an improvement of results when the system was trained on the second half of the BioASQ10b training data.
翻訳日:2022-09-07 13:31:19 公開日:2022-09-05
# SlateFree: Slate Actionsを用いた強化学習のためのモデルフリー分解

SlateFree: a Model-Free Decomposition for Reinforcement Learning with Slate Actions ( http://arxiv.org/abs/2209.01876v1 )

ライセンス: Link先を確認
Anastasios Giovanidis(参考訳) 逐次的なレコメンデーションの問題は,各ステップでエージェントが,より大きなサイズのカタログである$K>>N$から,ユーザに対してN$の異なるアイテムのスレートを提示する,という問題だ。 ユーザにはレコメンデーションに対する選好が不明で、エージェントは強化学習の助けを借りて、ユーザ関連コストを最適化する(私たちの場合)逐次的なアクションを取る。 スレートの可能なアイテムの組み合わせは$\binom{K}{N}$であり、膨大な数のレンダリング値反復メソッドを抽出可能である。 我々は,Slate-MDPを1状態あたり$K$アイテム関連$Q$関数で分解できることを証明し,よりコンパクトで効率的な方法で問題を記述した。 そこで本研究では,1ステップあたりn$並列反復を行うモデルフリーのsarsaおよびq学習アルゴリズムを提案する。 我々は、このメソッドを、フリー・オブ・スレート(free-of-slates)と呼び、任意のユーザプロファイルに対して正確な最適値に非常に早く収束し、文献の代替よりも優れていることを示す。

We consider the problem of sequential recommendations, where at each step an agent proposes some slate of $N$ distinct items to a user from a much larger catalog of size $K>>N$. The user has unknown preferences towards the recommendations and the agent takes sequential actions that optimise (in our case minimise) some user-related cost, with the help of Reinforcement Learning. The possible item combinations for a slate is $\binom{K}{N}$, an enormous number rendering value iteration methods intractable. We prove that the slate-MDP can actually be decomposed using just $K$ item-related $Q$ functions per state, which describe the problem in a more compact and efficient way. Based on this, we propose a novel model-free SARSA and Q-learning algorithm that performs $N$ parallel iterations per step, without any prior user knowledge. We call this method \texttt{SlateFree}, i.e. free-of-slates, and we show numerically that it converges very fast to the exact optimum for arbitrary user profiles, and that it outperforms alternatives from the literature.
翻訳日:2022-09-07 13:28:25 公開日:2022-09-05
# 低ハロ質量におけるSZフラックス質量(Y$-M$)関係--シンボリック回帰による改善とバリオンフィードバックに対する強い制約-

The SZ flux-mass ($Y$-$M$) relation at low halo masses: improvements with symbolic regression and strong constraints on baryonic feedback ( http://arxiv.org/abs/2209.02075v1 )

ライセンス: Link先を確認
Digvijay Wadekar, Leander Thiele, J. Colin Hill, Shivam Pandey, Francisco Villaescusa-Navarro, David N. Spergel, Miles Cranmer, Daisuke Nagai, Daniel Angl\'es-Alc\'azar, Shirley Ho, Lars Hernquist(参考訳) ハロ円盤中のイオン化ガスは、熱的スニャーエフ・ゼルドヴィッチ効果(tSZ)を通して宇宙マイクロ波背景にインプリントを残す。 活動銀河核(AGN)と超新星からのフィードバックは、ハロスの積分tSZフラックス(Y_\mathrm{SZ}$)の測定に影響し、ハロス質量(Y_\mathrm{SZ}-M$)との関係を、ウイルスの定理の自己相似パワー則予測から逸脱させる。 そこで本研究では,フィードバック処方の多種多様な変動を伴う流体力学シミュレーションの組であるcamelsを用いて,これらの偏差を包括的に研究する。 我々は2つの機械学習ツール(ランダムフォレストとシンボリックレグレッション)を組み合わせて、低質量のフィードバックプロセスに対してより堅牢な$Y-M$関係(M\lesssim 10^{14}\, h^{-1} \, M_\odot$)の類似を探索する(M\lesssim 10^{14}\, h^{-1} \, M_\odot$)。 これは、低質量クラスターと銀河群のための堅牢な多波長質量プロキシとして機能する。 我々の方法論は、他の天体物理学的スケーリング関係の有効性の領域を改善するのにも有用である。 また,現在最先端の流体力学シミュレーションで用いられる超新星とAGNのパラメータ空間の大部分を除外し,フィードバックパラメータの特定の組み合わせに対して,Y-M$関係の測定がパーセンテージレベルの制約を与える可能性があると予測した。 我々の結果は、今後のSZサーベイ(SO、CMB-S4など)や銀河探査(DESI、Rubinなど)を用いて、バリオニックフィードバックの性質を制限するのに有用である。 最後に、別の関係である$Y-M_*$は、$Y-M$よりもフィードバックの相補的な情報を提供する。

Ionized gas in the halo circumgalactic medium leaves an imprint on the cosmic microwave background via the thermal Sunyaev-Zeldovich (tSZ) effect. Feedback from active galactic nuclei (AGN) and supernovae can affect the measurements of the integrated tSZ flux of halos ($Y_\mathrm{SZ}$) and cause its relation with the halo mass ($Y_\mathrm{SZ}-M$) to deviate from the self-similar power-law prediction of the virial theorem. We perform a comprehensive study of such deviations using CAMELS, a suite of hydrodynamic simulations with extensive variations in feedback prescriptions. We use a combination of two machine learning tools (random forest and symbolic regression) to search for analogues of the $Y-M$ relation which are more robust to feedback processes for low masses ($M\lesssim 10^{14}\, h^{-1} \, M_\odot$); we find that simply replacing $Y\rightarrow Y(1+M_*/M_\mathrm{gas})$ in the relation makes it remarkably self-similar. This could serve as a robust multiwavelength mass proxy for low-mass clusters and galaxy groups. Our methodology can also be generally useful to improve the domain of validity of other astrophysical scaling relations. We also forecast that measurements of the $Y-M$ relation could provide percent-level constraints on certain combinations of feedback parameters and/or rule out a major part of the parameter space of supernova and AGN feedback models used in current state-of-the-art hydrodynamic simulations. Our results can be useful for using upcoming SZ surveys (e.g. SO, CMB-S4) and galaxy surveys (e.g. DESI and Rubin) to constrain the nature of baryonic feedback. Finally, we find that the an alternative relation, $Y-M_*$, provides complementary information on feedback than $Y-M$.
翻訳日:2022-09-07 13:28:02 公開日:2022-09-05
# GRASP: 分類学習のための適合性テスト

GRASP: A Goodness-of-Fit Test for Classification Learning ( http://arxiv.org/abs/2209.02064v1 )

ライセンス: Link先を確認
Adel Javanmard and Mohammad Mehrabi(参考訳) 分類器の性能はテストデータの平均精度で測定されることが多い。 標準測度であるにもかかわらず、平均精度は、モデルの不特定性、過度な適合性、高次元性などの特徴ベクトル(Y|X$)が与えられたラベルの基本的な条件法則にモデルを適合させるのに失敗する。 本稿では,一般二項分類器の適合性を評価するための基本的問題を考察する。 我々のフレームワークは条件付き法則$Y|X$のパラメトリックな仮定を一切行わず、クエリを通してのみアクセス可能なブラックボックスオラクルモデルとして扱う。 h_0: \mathbb{e}\big[d_f\big({\sf bern}(\eta(x))\|{\sf bern}(\hat{\eta}(x))\big]\leq \tau\, \] ここで、$d_f$ は$f$-divergence関数を表し、$\eta(x)$, $\hat{\eta}(x)$ はそれぞれ正のラベルを許容する特徴ベクトル $x$ の真と推定可能性を表す。 H_0$をテストするための新しいテストである \grasp を提案する。 また,特徴ベクトルの結合分布が知られているモデルx設定用に設計したモデルx \graspを提案する。 model-x \graspは、この分布情報を使ってより良い力を得る。 広範囲な数値実験により,本試験の性能評価を行った。

Performance of classifiers is often measured in terms of average accuracy on test data. Despite being a standard measure, average accuracy fails in characterizing the fit of the model to the underlying conditional law of labels given the features vector ($Y|X$), e.g. due to model misspecification, over fitting, and high-dimensionality. In this paper, we consider the fundamental problem of assessing the goodness-of-fit for a general binary classifier. Our framework does not make any parametric assumption on the conditional law $Y|X$, and treats that as a black box oracle model which can be accessed only through queries. We formulate the goodness-of-fit assessment problem as a tolerance hypothesis testing of the form \[ H_0: \mathbb{E}\Big[D_f\Big({\sf Bern}(\eta(X))\|{\sf Bern}(\hat{\eta}(X))\Big)\Big]\leq \tau\,, \] where $D_f$ represents an $f$-divergence function, and $\eta(x)$, $\hat{\eta}(x)$ respectively denote the true and an estimate likelihood for a feature vector $x$ admitting a positive label. We propose a novel test, called \grasp for testing $H_0$, which works in finite sample settings, no matter the features (distribution-free). We also propose model-X \grasp designed for model-X settings where the joint distribution of the features vector is known. Model-X \grasp uses this distributional information to achieve better power. We evaluate the performance of our tests through extensive numerical experiments.
翻訳日:2022-09-07 13:27:00 公開日:2022-09-05
# 生命保険に機械学習を適用する: itを習得するための知識共有

Applying Machine Learning to Life Insurance: some knowledge sharing to master it ( http://arxiv.org/abs/2209.02057v1 )

ライセンス: Link先を確認
Antoine Chancel, Laura Bradier, Antoine Ly, Razvan Ionescu, Laurene Martin(参考訳) 機械学習は多くの産業に浸透し、企業に新たな利益をもたらす。 しかし, 生命保険業界では, 過去数年間, 統計モデルによるリスク評価の有効性が示されてきたため, 機械学習は一般的には使われていない。 したがって、保険会社は人工知能の価値を評価するのに困難に直面することがある。 生命保険業界の変化に時間をかけて焦点を合わせることで、保険会社に機械学習を使うことのリスクと、データ価値を解き放つことで得られる利益が浮き彫りになる。 本稿では,従来の生存モデリング手法をレビューし,機械学習技術を用いて拡張する。 これは、通常の機械学習モデルとの違いを指摘し、機械学習モデルファミリで検閲されたデータに直面するための、特定の実装の重要性を強調します。 さまざまなオープンソースの機械学習アルゴリズムが、生命保険データの特異性、すなわち検閲と切り離しに適応するように調整されている。 このようなモデルは、このSCORライブラリから簡単に適用でき、生命保険のリスクを正確にモデル化することができる。

Machine Learning permeates many industries, which brings new source of benefits for companies. However within the life insurance industry, Machine Learning is not widely used in practice as over the past years statistical models have shown their efficiency for risk assessment. Thus insurers may face difficulties to assess the value of the artificial intelligence. Focusing on the modification of the life insurance industry over time highlights the stake of using Machine Learning for insurers and benefits that it can bring by unleashing data value. This paper reviews traditional actuarial methodologies for survival modeling and extends them with Machine Learning techniques. It points out differences with regular machine learning models and emphasizes importance of specific implementations to face censored data with machine learning models family.In complement to this article, a Python library has been developed. Different open-source Machine Learning algorithms have been adjusted to adapt the specificities of life insurance data, namely censoring and truncation. Such models can be easily applied from this SCOR library to accurately model life insurance risks.
翻訳日:2022-09-07 13:22:32 公開日:2022-09-05
# 潜在オートエンコーダを用いた非メラノーマ皮膚癌の表現学習

Representation Learning for Non-Melanoma Skin Cancer using a Latent Autoencoder ( http://arxiv.org/abs/2209.01779v1 )

ライセンス: Link先を確認
Simon Myles Thomas(参考訳) 生成学習は表現学習の強力なツールであり、バイオメディカルイメージングにおける問題に対して特に有望である。 しかし、この文脈では、分布からのサンプリングは、しばしばラベル付きでターゲット分布の内容と品質を明示的に表現する実際の画像の表現を見つけることに二次的である。 生成モデル、特に組織像と同じくらい複雑なモデルから忠実に画像を再構成することは困難である。 本研究では,非メラノーマ皮膚癌,特に上皮内癌(iec)の実像のエンコードとデコード能力を向上させるために,既存の2つの手法(autoencodersとadversarial latent autoencoder)を組み合わせる。 iec(256 x 256)の高品質画像のデータセットを利用して、画像再構成品質と表現学習の両方の結果を評価する。 対向訓練は,ベースラインfidスコアを76点から50点に向上させ,表現学習におけるベンチマークを最大3%改善できることを示した。 また, 形態構造の変化の滑らかで現実的な補間を初めて提示し, 計算病理学の文脈において有望な方向性としての表現学習の位置づけを示した。

Generative learning is a powerful tool for representation learning, and shows particular promise for problems in biomedical imaging. However, in this context, sampling from the distribution is secondary to finding representations of real images, which often come with labels and explicitly represent the content and quality of the target distribution. It remains difficult to faithfully reconstruct images from generative models, particularly those as complex as histological images. In this work, two existing methods (autoencoders and adversarial latent autoencoders) are combined in attempt to improve our ability to encode and decode real images of non-melanoma skin cancer, specifically intra-epidermal carcinoma (IEC). Utilising a dataset of high-quality images of IEC (256 x 256), this work assesses the result of both image reconstruction quality and representation learning. It is shown that adversarial training can improve baseline FID scores from 76 to 50, and that benchmarks on representation learning can be improved by up to 3%. Smooth and realistic interpolations of the variation in the morphological structure are also presented for the first time, positioning representation learning as a promising direction in the context of computational pathology.
翻訳日:2022-09-07 13:20:57 公開日:2022-09-05
# 上顎洞の副鼻腔奇形分類のための教師付きコントラスト学習

Supervised Contrastive Learning to Classify Paranasal Anomalies in the Maxillary Sinus ( http://arxiv.org/abs/2209.01937v1 )

ライセンス: Link先を確認
Debayan Bhattacharya, Benjamin Tobias Becker, Finn Behrendt, Marcel Bengs, Dirk Beyersdorff, Dennis Eggert, Elina Petersen, Florian Jansen, Marvin Petersen, Bastian Cheng, Christian Betz, Alexander Schlaefer, Anna Sophie Hoffmann(参考訳) 深層学習技術を用いて、副鼻腔系の異常をMRI画像で自動的に検出し、その体積、形状、および局所コントラストなどのパラメータに基づいてさらに分析・分類することができる。 しかし、トレーニングデータに制限があるため、従来の教師付き学習方法は一般化できないことが多い。 副鼻腔奇形分類における既存の深層学習法は、少なくとも1つの異常を診断するために用いられてきた。 私たちの研究では、3つの異常を考慮に入れます。 具体的には3次元CNNを用いて上顎洞ボリュームと異常を伴う上顎洞ボリュームを分離する。 ラベル付きデータセットからロバスト表現を学習するために,コントラスト損失とクロスエントロピー損失を組み合わせた新しい学習パラダイムを提案する。 特に,交叉エントロピー損失が3d cnnの識別能力を維持することを奨励する一方で,上顎洞容積が異常なく2つの異なるクラスターを形成することを奨励する教師付きコントラスト損失を用いる。 双方の損失で最適化することは1つの損失で最適化するよりも有利だと報告する。 また、トレーニング戦略がラベル効率につながることも分かりました。 この方法では、3D CNN分類器は0.85のAUROCを、クロスエントロピー損失で最適化された3D CNN分類器は0.66のAUROCを達成する。

Using deep learning techniques, anomalies in the paranasal sinus system can be detected automatically in MRI images and can be further analyzed and classified based on their volume, shape and other parameters like local contrast. However due to limited training data, traditional supervised learning methods often fail to generalize. Existing deep learning methods in paranasal anomaly classification have been used to diagnose at most one anomaly. In our work, we consider three anomalies. Specifically, we employ a 3D CNN to separate maxillary sinus volumes without anomalies from maxillary sinus volumes with anomalies. To learn robust representations from a small labelled dataset, we propose a novel learning paradigm that combines contrastive loss and cross-entropy loss. Particularly, we use a supervised contrastive loss that encourages embeddings of maxillary sinus volumes with and without anomaly to form two distinct clusters while the cross-entropy loss encourages the 3D CNN to maintain its discriminative ability. We report that optimising with both losses is advantageous over optimising with only one loss. We also find that our training strategy leads to label efficiency. With our method, a 3D CNN classifier achieves an AUROC of 0.85 while a 3D CNN classifier optimised with cross-entropy loss achieves an AUROC of 0.66.
翻訳日:2022-09-07 13:20:37 公開日:2022-09-05
# 深層学習を用いた心臓MRIにおけるメッシュベース3次元運動追跡

Mesh-based 3D Motion Tracking in Cardiac MRI using Deep Learning ( http://arxiv.org/abs/2209.02004v1 )

ライセンス: Link先を確認
Qingjie Meng and Wenjia Bai and Tianrui Liu and Declan P O'Regan and Daniel Rueckert(参考訳) 心臓機能評価と心血管疾患の診断には, 心臓磁気共鳴(CMR)画像からの3次元運動推定が重要である。 従来の手法のほとんどは全画像空間における画素/ボクセル方向の運動場の推定に焦点をあてており、運動推定が主に関心対象(例えば心臓)において有益であるという事実を無視している。 本研究では、心臓を3次元幾何メッシュとしてモデル化し、2次元短軸CMR画像から心臓メッシュの3次元運動を推定できる新しいディープラーニングベースの手法を提案する。 メッシュ・ツー・イメージ・ラスタライザの開発により、2次元多視点CMR画像の解剖学的形状情報を利用して3次元運動推定を行うことができる。 rasterizerの差別化性によって、エンドツーエンドでメソッドをトレーニングすることができます。 提案手法の利点の1つは、各頂点の動きを追跡することにより、時間枠間の3次元メッシュの頂点対応を維持できることであり、メッシュ上の心臓機能の定量的評価に重要である。 英国バイオバンク研究から得られたCMR画像に対する提案手法の評価を行った。 実験結果から,提案手法は従来法と学習法の両方で定量的に,定性的に優れていた。

3D motion estimation from cine cardiac magnetic resonance (CMR) images is important for the assessment of cardiac function and diagnosis of cardiovascular diseases. Most of the previous methods focus on estimating pixel-/voxel-wise motion fields in the full image space, which ignore the fact that motion estimation is mainly relevant and useful within the object of interest, e.g., the heart. In this work, we model the heart as a 3D geometric mesh and propose a novel deep learning-based method that can estimate 3D motion of the heart mesh from 2D short- and long-axis CMR images. By developing a differentiable mesh-to-image rasterizer, the method is able to leverage the anatomical shape information from 2D multi-view CMR images for 3D motion estimation. The differentiability of the rasterizer enables us to train the method end-to-end. One advantage of the proposed method is that by tracking the motion of each vertex, it is able to keep the vertex correspondence of 3D meshes between time frames, which is important for quantitative assessment of the cardiac function on the mesh. We evaluate the proposed method on CMR images acquired from the UK Biobank study. Experimental results show that the proposed method quantitatively and qualitatively outperforms both conventional and learning-based cardiac motion tracking methods.
翻訳日:2022-09-07 13:20:15 公開日:2022-09-05
# ファジィアテンションニューラルネットワークによる気道セグメンテーションの不連続性解消

Fuzzy Attention Neural Network to Tackle Discontinuity in Airway Segmentation ( http://arxiv.org/abs/2209.02048v1 )

ライセンス: Link先を確認
Yang Nan, Javier Del Ser, Zeyu Tang, Peng Tang, Xiaodan Xing, Yingying Fang, Francisco Herrera, Witold Pedrycz, Simon Walsh, Guang Yang(参考訳) 気道セグメンテーションは肺疾患の検査、診断、予後に不可欠であるが、手動の脱線は極めて重荷である。 この時間的かつ潜在的に主観的な手作業の手順を緩和するために、研究者はコンピュータ断層撮影(ct)画像から気道を自動的に分割する方法を提案している。 しかし、いくつかの小型の気道枝(気管支および末期気管支)は、機械学習モデルによる自動セグメンテーションの難しさを著しく増す。 特に、voxel値のばらつきと気道分岐の深刻なデータ不均衡により、計算モジュールは不連続かつ偽陰性の予測に陥りやすい。 注意機構は複雑な構造を分割する能力を示し、ファジィ論理は特徴表現の不確実性を減少させる。 したがって、ディープアテンションネットワークとファジィアテンション層によって与えられるファジィ理論の統合は、エスカレートした解であるべきである。 本稿では,新しいファジィアテンションニューラルネットワークと,エアウェイセグメンテーションの空間連続性を高める包括的損失関数を含む,効率的なエアウェイセグメンテーション手法を提案する。 深いファジィ集合は特徴写像内のボクセルの集合と学習可能なガウス会員関数によって定式化される。 既存の注意機構と異なり、提案するチャネル固有のファジィ注意は、異なるチャネルにおける異種特徴の問題に対処する。 さらに, 気道構造物の連続性と完全性を評価するための新しい評価基準を提案する。 提案手法の有効性は,clear09およびlidcデータセット,および社内のcovid-19および線維性肺疾患データセットを含むオープンデータセットで検証することにより証明された。

Airway segmentation is crucial for the examination, diagnosis, and prognosis of lung diseases, while its manual delineation is unduly burdensome. To alleviate this time-consuming and potentially subjective manual procedure, researchers have proposed methods to automatically segment airways from computerized tomography (CT) images. However, some small-sized airway branches (e.g., bronchus and terminal bronchioles) significantly aggravate the difficulty of automatic segmentation by machine learning models. In particular, the variance of voxel values and the severe data imbalance in airway branches make the computational module prone to discontinuous and false-negative predictions. Attention mechanism has shown the capacity to segment complex structures, while fuzzy logic can reduce the uncertainty in feature representations. Therefore, the integration of deep attention networks and fuzzy theory, given by the fuzzy attention layer, should be an escalated solution. This paper presents an efficient method for airway segmentation, comprising a novel fuzzy attention neural network and a comprehensive loss function to enhance the spatial continuity of airway segmentation. The deep fuzzy set is formulated by a set of voxels in the feature map and a learnable Gaussian membership function. Different from the existing attention mechanism, the proposed channelspecific fuzzy attention addresses the issue of heterogeneous features in different channels. Furthermore, a novel evaluation metric is proposed to assess both the continuity and completeness of airway structures. The efficiency of the proposed method has been proved by testing on open datasets, including EXACT09 and LIDC datasets, and our in-house COVID-19 and fibrotic lung disease datasets.
翻訳日:2022-09-07 13:19:55 公開日:2022-09-05
# 言語グラウンディングの信頼:人間ロボットチームのための新しいAIチャレンジ

Trust in Language Grounding: a new AI challenge for human-robot teams ( http://arxiv.org/abs/2209.02066v1 )

ライセンス: Link先を確認
David M. Bossens and Christine Evers(参考訳) 言語基盤化の課題は、現実世界のレファレントで言語を基礎化することで自然言語を完全に理解することである。 AI技術は利用可能だが、人間ロボットチームにおけるそのような技術の普及と有効性は、ユーザの信頼に極めて依存している。 本調査は,新たな言語基盤の信頼分野に関する3つのコントリビューションを提供する。 a)AI技術,データセット及びユーザインターフェースの観点からの言語基礎研究の概要 b) 言語接地に関連する6つの仮説付き信頼要因は,人間とロボットの清掃チームにおいて実証的に試験される。 c)言語基盤の信頼に関する今後の研究の方向性

The challenge of language grounding is to fully understand natural language by grounding language in real-world referents. While AI techniques are available, the widespread adoption and effectiveness of such technologies for human-robot teams relies critically on user trust. This survey provides three contributions relating to the newly emerging field of trust in language grounding, including a) an overview of language grounding research in terms of AI technologies, data sets, and user interfaces; b) six hypothesised trust factors relevant to language grounding, which are tested empirically on a human-robot cleaning team; and c) future research directions for trust in language grounding.
翻訳日:2022-09-07 13:15:59 公開日:2022-09-05
# 深層強化学習におけるWhite-Box Adversarial Policies

White-Box Adversarial Policies in Deep Reinforcement Learning ( http://arxiv.org/abs/2209.02167v1 )

ライセンス: Link先を確認
Stephen Casper, Dylan Hadfield-Menell, Gabriel Kreiman(参考訳) AIシステムに対する敵の例は、悪意のある攻撃によるリスクと、敵の訓練による堅牢性向上の機会の両方を生じる。 マルチエージェント設定では、被害者の報酬を最小限に抑えるために、敵エージェントを訓練することで、敵ポリシーを開発することができる。 先行研究はブラックボックス攻撃を研究しており、敵は状態観察のみを見て、被害者を環境の他の部分として効果的に扱う。 本研究では,エージェントの内部状態が他のエージェントに有用な情報を提供できるかどうかを調べるために,ホワイトボックスの敵ポリシーを実験する。 我々は3つの貢献をした。 まず、攻撃者が各タイミングで被害者の内部状態を観察できるホワイトボックス対逆ポリシーを導入する。 第2に,被害者に対するホワイトボックスアクセスが2エージェント環境における攻撃を改善することを示し,初期学習の高速化と,被害者に対する漸近的パフォーマンスの向上を図った。 第3に、ホワイトボックスの敵対的ポリシーに対するトレーニングは、単一エージェント環境の学習者をドメインシフトに対してより堅牢にするために使用できることを示す。

Adversarial examples against AI systems pose both risks via malicious attacks and opportunities for improving robustness via adversarial training. In multiagent settings, adversarial policies can be developed by training an adversarial agent to minimize a victim agent's rewards. Prior work has studied black-box attacks where the adversary only sees the state observations and effectively treats the victim as any other part of the environment. In this work, we experiment with white-box adversarial policies to study whether an agent's internal state can offer useful information for other agents. We make three contributions. First, we introduce white-box adversarial policies in which an attacker can observe a victim's internal state at each timestep. Second, we demonstrate that white-box access to a victim makes for better attacks in two-agent environments, resulting in both faster initial learning and higher asymptotic performance against the victim. Third, we show that training against white-box adversarial policies can be used to make learners in single-agent environments more robust to domain shifts.
翻訳日:2022-09-07 13:15:50 公開日:2022-09-05
# 偏りのあるサンプルから学ぶ

Learning from a Biased Sample ( http://arxiv.org/abs/2209.01754v1 )

ライセンス: Link先を確認
Roshni Sahoo, Lihua Lei, Stefan Wager(参考訳) データ駆動型意思決定に対する実証的リスク最小化アプローチでは、同じ条件下で描画されたトレーニングデータから決定ルールを学習できると仮定しています。 しかし、多くの環境では、トレーニングサンプルが偏りがあり、一部のグループ(観測可能な属性または観測不可能な属性によって特徴付けられる)が一般大衆に対して過度または過度に表現されている場合があり、この設定では、トレーニングセットに対する経験的リスク最小化が、デプロイメントにおいてうまく機能するルールの獲得に失敗する可能性がある。 分布的ロバストな最適化と感度解析から導かれる概念に基づいて,条件分布が与えられた条件分布$Y$と条件分布分布$X$と,条件分布分布が少なくとも一定の因子によって異なり,条件分布が訓練データの共変分布に対して絶対連続であるようなテスト分布の族で発生する最悪のケースリスクを最小化する決定ルールを学習する手法を提案する。 我々はRockafellar と Uryasev の結果を適用し、この問題が拡張凸リスク最小化問題と等価であることを示す。 シーブ法を用いてロバストモデルを学ぶための統計的保証を与え,ロバスト性目標を損失関数が捉えるディープラーニングアルゴリズムを提案する。 シミュレーションにおいて提案手法を実証的に検証し,MIMIC-IIIデータセットを用いたケーススタディを行った。

The empirical risk minimization approach to data-driven decision making assumes that we can learn a decision rule from training data drawn under the same conditions as the ones we want to deploy it under. However, in a number of settings, we may be concerned that our training sample is biased, and that some groups (characterized by either observable or unobservable attributes) may be under- or over-represented relative to the general population; and in this setting empirical risk minimization over the training set may fail to yield rules that perform well at deployment. Building on concepts from distributionally robust optimization and sensitivity analysis, we propose a method for learning a decision rule that minimizes the worst-case risk incurred under a family of test distributions whose conditional distributions of outcomes $Y$ given covariates $X$ differ from the conditional training distribution by at most a constant factor, and whose covariate distributions are absolutely continuous with respect to the covariate distribution of the training data. We apply a result of Rockafellar and Uryasev to show that this problem is equivalent to an augmented convex risk minimization problem. We give statistical guarantees for learning a robust model using the method of sieves and propose a deep learning algorithm whose loss function captures our robustness target. We empirically validate our proposed method in simulations and a case study with the MIMIC-III dataset.
翻訳日:2022-09-07 13:15:05 公開日:2022-09-05
# トーラス生成対向ネットワークにおけるフーリエモードのダイナミクス

Dynamics of Fourier Modes in Torus Generative Adversarial Networks ( http://arxiv.org/abs/2209.01842v1 )

ライセンス: Link先を確認
\'Angel Gonz\'alez-Prieto, Alberto Mozo, Edgar Talavera and Sandra G\'omez-Canaval(参考訳) GAN(Generative Adversarial Networks)は、所望の事象の完全な合成サンプルを高解像度で生成できる強力な機械学習モデルである。 その成功にもかかわらず、ganの訓練プロセスは非常に不安定であり、典型的にはモデルが受け入れられる収束に達するためには、ネットワークにいくつかの付属のヒューリスティックを実装する必要がある。 本稿では,生成型adversarial networkの学習における収束と安定性を分析する新しい手法を提案する。 そこで本研究では,周期的なGANをFourier級数に定義した敵のmin-maxゲームの目的関数を分解することを提案する。 連続交互勾配降下アルゴリズムのための断続フーリエ級数のダイナミクスを研究することにより,実流れを近似し,ganの収束の主な特徴を同定することができる。 このアプローチは、未知の指数分布を生成するために2ドルのパラメトリックganでトレーニングフローを研究することによって実証的に確認される。 副生成物として、GANの収束軌道は周期軌道の小さな摂動であり、ナッシュ平衡はスパイラル引力であることを示す。 これは理論上、GANで観測される遅く不安定な訓練を正当化する。

Generative Adversarial Networks (GANs) are powerful Machine Learning models capable of generating fully synthetic samples of a desired phenomenon with a high resolution. Despite their success, the training process of a GAN is highly unstable and typically it is necessary to implement several accessory heuristics to the networks to reach an acceptable convergence of the model. In this paper, we introduce a novel method to analyze the convergence and stability in the training of Generative Adversarial Networks. For this purpose, we propose to decompose the objective function of the adversary min-max game defining a periodic GAN into its Fourier series. By studying the dynamics of the truncated Fourier series for the continuous Alternating Gradient Descend algorithm, we are able to approximate the real flow and to identify the main features of the convergence of the GAN. This approach is confirmed empirically by studying the training flow in a $2$-parametric GAN aiming to generate an unknown exponential distribution. As byproduct, we show that convergent orbits in GANs are small perturbations of periodic orbits so the Nash equillibria are spiral attractors. This theoretically justifies the slow and unstable training observed in GANs.
翻訳日:2022-09-07 13:14:40 公開日:2022-09-05
# ニューラルシミュレーションに基づく推論におけるモデル誤特定の影響の検討

Investigating the Impact of Model Misspecification in Neural Simulation-based Inference ( http://arxiv.org/abs/2209.01845v1 )

ライセンス: Link先を確認
Patrick Cannon, Daniel Ward, Sebastian M. Schmon(参考訳) ニューラル密度推定の進歩により、確率的シミュレーションモデルのための柔軟なブラックボックス、近似ベイズ推定を実行するための一連のシミュレーションベース推論(SBI)法へのかなりの進歩がなされている。 ニューラルsbi法が正確な後方近似をもたらすことが証明されているが、これらの結果を確立するシミュレーション研究は、十分に特定された問題のみ、すなわちモデルとデータ生成プロセスが正確に一致する問題を考える。 しかし、モデル不特定の場合のそのようなアルゴリズムの挙動はほとんど注目されていない。 本研究は, モデル不特定の様々な形態が存在する場合のニューラルネットワークSBIアルゴリズムの挙動を包括的に研究した初めてのものである。 誤特定はパフォーマンスに極めて有害な影響を及ぼす可能性がある。 いくつかの緩和戦略が検討されているが、テストされたアプローチがすべてのケースで失敗を防ぐことはない。 我々は、ニューラルネットワークSBIアルゴリズムが正確な科学的結論を導出するために頼らなければならない場合、モデルの誤特定に対処するために新しいアプローチが必要であると結論付けた。

Aided by advances in neural density estimation, considerable progress has been made in recent years towards a suite of simulation-based inference (SBI) methods capable of performing flexible, black-box, approximate Bayesian inference for stochastic simulation models. While it has been demonstrated that neural SBI methods can provide accurate posterior approximations, the simulation studies establishing these results have considered only well-specified problems -- that is, where the model and the data generating process coincide exactly. However, the behaviour of such algorithms in the case of model misspecification has received little attention. In this work, we provide the first comprehensive study of the behaviour of neural SBI algorithms in the presence of various forms of model misspecification. We find that misspecification can have a profoundly deleterious effect on performance. Some mitigation strategies are explored, but no approach tested prevents failure in all cases. We conclude that new approaches are required to address model misspecification if neural SBI algorithms are to be relied upon to derive accurate scientific conclusions.
翻訳日:2022-09-07 13:14:21 公開日:2022-09-05
# 一般化確率支配による分類器の統計的比較

Statistical Comparisons of Classifiers by Generalized Stochastic Dominance ( http://arxiv.org/abs/2209.01857v1 )

ライセンス: Link先を確認
Christoph Jansen (1), Malte Nalenz (1), Georg Schollmeyer (1), Thomas Augustin (1) ((1) Ludwig-Maximilians-Universit\"at Munich)(参考訳) 機械学習の方法論的なコアでは疑問視されているが、分類器の比較方法に関する合意は一致していない。 すべての比較フレームワークは、品質基準の多重性、データセットの多重性、データセットの選択のランダム性/arbitrarinessという3つの基本的な課題に直面しています。 本稿では,最近の意思決定理論の展開を取り入れた,鮮明な議論に新たな視点を加える。 結果として得られた枠組みは,いわゆる選好システムに基づいて,確率的支配という一般的な概念によって分類器を分類する。 さらに, 一般化された確率的支配は, 簡単な線形プログラムを解いて操作可能であり, 適応型2サンプル観測ランダム化テストを用いて統計的に検証できることを示した。 これは、同時に複数の品質基準に関して分類器を統計的に比較するための強力な枠組みをもたらす。 シミュレーション研究と標準ベンチマークデータセットを用いて,我々のフレームワークを概説し,検討する。

Although being a question in the very methodological core of machine learning, there is still no unanimous consensus on how to compare classifiers. Every comparison framework is confronted with (at least) three fundamental challenges: the multiplicity of quality criteria, the multiplicity of data sets and the randomness/arbitrariness of the selection of data sets. In this paper, we add a fresh view to the vivid debate by adopting recent developments in decision theory. Our resulting framework, based on so-called preference systems, ranks classifiers by a generalized concept of stochastic dominance, which powerfully circumvents the cumbersome, and often even self-contradictory, reliance on aggregates. Moreover, we show that generalized stochastic dominance can be operationalized by solving easy-to-handle linear programs and statistically tested by means of an adapted two-sample observation-randomization test. This indeed yields a powerful framework for the statistical comparison of classifiers with respect to multiple quality criteria simultaneously. We illustrate and investigate our framework in a simulation study and with standard benchmark data sets.
翻訳日:2022-09-07 13:14:05 公開日:2022-09-05
# テンソルトレインを用いた深部重要なサンプリングと前兆および後遺症事象推定への応用

Deep importance sampling using tensor-trains with application to a priori and a posteriori rare event estimation ( http://arxiv.org/abs/2209.01941v1 )

ライセンス: Link先を確認
Tiangang Cui, Sergey Dolgov, Robert Scheichl(参考訳) 本研究では,高次元問題における希少事象確率推定に適した重要度サンプリング手法を提案する。 次数保存変換の合成による基準分布のプッシュフォワードとして, 一般重要サンプリング問題における最適重要度分布を近似し, それぞれの変換を2乗テンソル-トレイン分解により生成する。 2乗テンソル-トレイン分解は、密度近似による秩序保存高次元変換を構築するためのスケーラブルなアンサッツを提供する。 架橋密度の列に沿って移動する地図の組成を使用することで、集中密度関数を直接近似する困難さが軽減される。 本研究では,非正規化確率分布に対する期待値を計算するために,テンソル-トレイン形式の変換の合成によって構築した,別の重要分布を用いて正規化定数を推定する比推定器を設計する。 これにより、自己正規化重要度サンプリングよりも理論的な分散の低減が得られ、ベイズ推論問題における稀な事象確率の効率的な計算への扉を開くことができる。 微分方程式に制約された問題に関する数値実験では、事象確率がゼロとなると計算複雑性がほとんど増減せず、複雑で高次元の後方密度に対して稀な事象確率の予測が不可能となる。

We propose a deep importance sampling method that is suitable for estimating rare event probabilities in high-dimensional problems. We approximate the optimal importance distribution in a general importance sampling problem as the pushforward of a reference distribution under a composition of order-preserving transformations, in which each transformation is formed by a squared tensor-train decomposition. The squared tensor-train decomposition provides a scalable ansatz for building order-preserving high-dimensional transformations via density approximations. The use of composition of maps moving along a sequence of bridging densities alleviates the difficulty of directly approximating concentrated density functions. To compute expectations over unnormalized probability distributions, we design a ratio estimator that estimates the normalizing constant using a separate importance distribution, again constructed via a composition of transformations in tensor-train format. This offers better theoretical variance reduction compared with self-normalized importance sampling, and thus opens the door to efficient computation of rare event probabilities in Bayesian inference problems. Numerical experiments on problems constrained by differential equations show little to no increase in the computational complexity with the event probability going to zero, and allow to compute hitherto unattainable estimates of rare event probabilities for complex, high-dimensional posterior densities.
翻訳日:2022-09-07 13:13:49 公開日:2022-09-05
# データ駆動モデルによる反応流シミュレーションの改善

Advancing Reacting Flow Simulations with Data-Driven Models ( http://arxiv.org/abs/2209.02051v1 )

ライセンス: Link先を確認
Kamila Zdyba{\l}, Giuseppe D'Alessio, Gianmarco Aversano, Mohammad Rafi Malik, Axel Coussement, James C. Sutherland, Alessandro Parente(参考訳) 複雑なシステムの振る舞いを予測するために機械学習アルゴリズムが使われています。 しかし、燃焼を含む多物理問題に機械学習ツールを効果的に活用する鍵は、それらを物理モデルとコンピュータモデルに結合することである。 これらのツールの性能は、すべての事前知識と物理的な制約が具体化されていれば向上する。 言い換えれば、この科学的手法は、機械学習を画像に取り入れ、我々が生成した膨大なデータを最大限に活用するためには、数値計算の進歩のおかげで適応する必要がある。 本章では, 燃焼システムにおけるデータ駆動型低次モデリングの適用可能性について概説する。 乱流燃焼データ, 経験的低次元多様体(ELDM)識別, 分類, 回帰, 縮小次モデリングにおける特徴抽出の例を示す。

The use of machine learning algorithms to predict behaviors of complex systems is booming. However, the key to an effective use of machine learning tools in multi-physics problems, including combustion, is to couple them to physical and computer models. The performance of these tools is enhanced if all the prior knowledge and the physical constraints are embodied. In other words, the scientific method must be adapted to bring machine learning into the picture, and make the best use of the massive amount of data we have produced, thanks to the advances in numerical computing. The present chapter reviews some of the open opportunities for the application of data-driven reduced-order modeling of combustion systems. Examples of feature extraction in turbulent combustion data, empirical low-dimensional manifold (ELDM) identification, classification, regression, and reduced-order modeling are provided.
翻訳日:2022-09-07 13:13:26 公開日:2022-09-05
# ChemBERTa-2:化学基礎モデルに向けて

ChemBERTa-2: Towards Chemical Foundation Models ( http://arxiv.org/abs/2209.01712v1 )

ライセンス: Link先を確認
Walid Ahmad, Elana Simon, Seyone Chithrananda, Gabriel Grand, Bharath Ramsundar(参考訳) GPT-3のような事前訓練された大規模なモデルは、自己教師付き学習を利用して、様々な下流タスクで簡単に微調整できる有能な表現を学習することで、現代の自然言語処理に大きな影響を与えている。 SMILESの言語を用いて化学基礎モデルであるChemBERTa-2を構築することにより、分子機械学習にそのような進歩をもたらす可能性を検討する。 分子予測タスクのラベル付きデータは典型的には少ないが、SMILES文字列のライブラリは容易に利用できる。 本研究では,事前学習プロセスの最適化によりChemBERTaを構築した。 マルチタスクと自己教師付きプリトレーニングを比較し,ハイパーパラメータとプリトレーニングデータセットサイズ,最大77mのpubchem化合物を比較した。 我々の知る限り、77Mデータセットはこれまでに分子プレトレーニングに使われた最大のデータセットの1つである。 これらの事前トレーニングの改善により、MoeculeNetベンチマークスイートの既存の最先端アーキテクチャと競合していることが分かりました。 我々は、プレトレーニングの改善が下流タスクの改善につながる程度を分析する。

Large pretrained models such as GPT-3 have had tremendous impact on modern natural language processing by leveraging self-supervised learning to learn salient representations that can be used to readily finetune on a wide variety of downstream tasks. We investigate the possibility of transferring such advances to molecular machine learning by building a chemical foundation model, ChemBERTa-2, using the language of SMILES. While labeled data for molecular prediction tasks is typically scarce, libraries of SMILES strings are readily available. In this work, we build upon ChemBERTa by optimizing the pretraining process. We compare multi-task and self-supervised pretraining by varying hyperparameters and pretraining dataset size, up to 77M compounds from PubChem. To our knowledge, the 77M set constitutes one of the largest datasets used for molecular pretraining to date. We find that with these pretraining improvements, we are competitive with existing state-of-the-art architectures on the MoleculeNet benchmark suite. We analyze the degree to which improvements in pretraining translate to improvement on downstream tasks.
翻訳日:2022-09-07 13:08:36 公開日:2022-09-05
# 直交情報を用いた治療効果の適度な表現学習

Moderately-Balanced Representation Learning for Treatment Effects with Orthogonality Information ( http://arxiv.org/abs/2209.01956v1 )

ライセンス: Link先を確認
Yiyan Huang, Cheuk Hang Leung, Shumin Ma, Qi Wu, Dongdong Wang, Zhixiang Huang(参考訳) 平均治療効果(ATE)を観測データから推定することは選択バイアスにより困難である。 既存の作業は主に2つの方法でこの課題に取り組む。 一部の研究者は直交条件を満たすスコア関数の構築を提案し、これは確立されたATE推定器がより堅牢であることを保証する。 他の者は、処理されたグループと制御されたグループの間のバランスのとれた表現を達成するために表現学習モデルを探索する。 しかし 既存の研究は 1) 過均衡問題を回避するため,表示空間における処理単位と制御単位を判別すること。 2) "orthogonality information" を十分に活用する。 本稿では,最近の共変量均衡表現学習法と直交機械学習理論に基づく中等バランス表現学習(MBRL)フレームワークを提案する。 このフレームワークはマルチタスク学習によるオーバーバランスから表現を保護する。 同時に、MBRLはトレーニングおよび検証段階にノイズ直交情報を組み込んで、より良いATE推定を実現する。 ベンチマークおよびシミュレーションデータセットの包括的実験により,既存の最先端法と比較して,治療効果推定法の有用性とロバスト性が示された。

Estimating the average treatment effect (ATE) from observational data is challenging due to selection bias. Existing works mainly tackle this challenge in two ways. Some researchers propose constructing a score function that satisfies the orthogonal condition, which guarantees that the established ATE estimator is "orthogonal" to be more robust. The others explore representation learning models to achieve a balanced representation between the treated and the controlled groups. However, existing studies fail to 1) discriminate treated units from controlled ones in the representation space to avoid the over-balanced issue; 2) fully utilize the "orthogonality information". In this paper, we propose a moderately-balanced representation learning (MBRL) framework based on recent covariates balanced representation learning methods and orthogonal machine learning theory. This framework protects the representation from being over-balanced via multi-task learning. Simultaneously, MBRL incorporates the noise orthogonality information in the training and validation stages to achieve a better ATE estimation. The comprehensive experiments on benchmark and simulated datasets show the superiority and robustness of our method on treatment effect estimations compared with existing state-of-the-art methods.
翻訳日:2022-09-07 13:08:20 公開日:2022-09-05
# TFN:知的故障診断のための時間周波数変換を組み込んだ解釈可能なニューラルネットワーク

TFN: An Interpretable Neural Network with Time-Frequency Transform Embedded for Intelligent Fault Diagnosis ( http://arxiv.org/abs/2209.01992v1 )

ライセンス: Link先を確認
Qian Chen, Xingjian Dong, Guowei Tu, Dong Wang, Baoxuan Zhao and Zhike Peng(参考訳) 畳み込みニューラルネットワーク(CNN)はその強力な特徴抽出と分類能力のため、機械系の故障診断に広く用いられている。 しかし、CNNは典型的なブラックボックスモデルであり、CNNの意思決定のメカニズムは明確ではない。 そこで本研究では,時間周波数ネットワーク(TFN, Time-Frequency Network)と呼ばれる新しい解釈可能なニューラルネットワークを提案し,物理的に意味のある時間周波数変換(TFT)法を適応前処理層として従来の畳み込み層に組み込む。 時間周波数畳み込み(tfconv)層と呼ばれるこの前処理層は、よく設計されたカーネル関数によって制約され、故障に関連する時間周波数情報を抽出する。 診断性能を向上するだけでなく、周波数領域におけるCNN予測の論理的基礎を明らかにする。 TFT法はTFconv層の異なるカーネル関数に対応している。 本研究では, TFNを定式化する4つの典型的なTFT法について検討し, 3つの機械的故障診断実験によりその妥当性と解釈性を示した。 実験の結果、tfconv層は深さが異なる他のcnnに容易に一般化できることがわかった。 TFNのコードはhttps://github.com/ChenQian0618/TFNで公開されている。

Convolutional Neural Networks (CNNs) are widely used in fault diagnosis of mechanical systems due to their powerful feature extraction and classification capabilities. However, the CNN is a typical black-box model, and the mechanism of CNN's decision-making are not clear, which limits its application in high-reliability-required fault diagnosis scenarios. To tackle this issue, we propose a novel interpretable neural network termed as Time-Frequency Network (TFN), where the physically meaningful time-frequency transform (TFT) method is embedded into the traditional convolutional layer as an adaptive preprocessing layer. This preprocessing layer named as time-frequency convolutional (TFconv) layer, is constrained by a well-designed kernel function to extract fault-related time-frequency information. It not only improves the diagnostic performance but also reveals the logical foundation of the CNN prediction in the frequency domain. Different TFT methods correspond to different kernel functions of the TFconv layer. In this study, four typical TFT methods are considered to formulate the TFNs and their effectiveness and interpretability are proved through three mechanical fault diagnosis experiments. Experimental results also show that the proposed TFconv layer can be easily generalized to other CNNs with different depths. The code of TFN is available on https://github.com/ChenQian0618/TFN.
翻訳日:2022-09-07 13:08:05 公開日:2022-09-05
# 自己モデリングの起源について

On the Origins of Self-Modeling ( http://arxiv.org/abs/2209.02010v1 )

ライセンス: Link先を確認
Robert Kwiatkowski, Yuhang Hu, Boyuan Chen, Hod Lipson(参考訳) 自己モデリング(self-modeling)とは、動物や機械などのエージェントが自身のダイナミクスの予測モデルを作成することを学ぶプロセスである。 この自己モデルは、コストのかかる物理的実験を使わずに、自己モデルを用いて内部で様々な潜在的な行動を計画し、評価することができる。 本稿では,ロボットの複雑さに対する自己モデリングの利点を定量化する。 ロボットが持つ自由度と、直接学習ベースラインと比較して自己モデリングの付加価値との間には、R2 =0.90の相関関係が認められる。 この結果は、ますます複雑なロボットシステムにおける自己モデリングの動機付けに役立つだけでなく、動物や人間の自己モデリングや最終的には自己認識の起源にも光を当てる。

Self-Modeling is the process by which an agent, such as an animal or machine, learns to create a predictive model of its own dynamics. Once captured, this self-model can then allow the agent to plan and evaluate various potential behaviors internally using the self-model, rather than using costly physical experimentation. Here, we quantify the benefits of such self-modeling against the complexity of the robot. We find a R2 =0.90 correlation between the number of degrees of freedom a robot has, and the added value of self-modeling as compared to a direct learning baseline. This result may help motivate self modeling in increasingly complex robotic systems, as well as shed light on the origins of self-modeling, and ultimately self-awareness, in animals and humans.
翻訳日:2022-09-07 13:07:42 公開日:2022-09-05
# RX-ADS:電気自動車CANデータに対する逆MLを用いた解釈可能な異常検出

RX-ADS: Interpretable Anomaly Detection using Adversarial ML for Electric Vehicle CAN data ( http://arxiv.org/abs/2209.02052v1 )

ライセンス: Link先を確認
Chathurika S. Wickramasinghe, Daniel L. Marino, Harindra S. Mavikumbure, Victor Cobilean, Timothy D. Pennington, Benny J. Varghese, Craig Rieger, Milos Manic(参考訳) 近年、電気自動車(ev)や関連するインフラや通信が大幅に進歩している。 侵入検知システム(IDS)は、このような重要なインフラにおける異常検出のために広く展開されている。 本稿では,EVにおけるCANプロトコル通信における侵入検出のための解釈可能な異常検出システム(RX-ADS)を提案する。 貢献は以下の通り。 1) ウィンドウベースの特徴抽出方法 2)ディープオートエンコーダに基づく異常検出方法,及び 3)敵対的機械学習に基づく説明生成手法。 提案したアプローチは、OTIDSとCar Hackingの2つのベンチマークCANデータセットでテストされた。 RX-ADSの異常検出性能は,これらのデータセット(HIDSとGIDS)の最先端手法と比較した。 RX-ADSアプローチはHIDSアプローチ(OTIDSデータセット)に匹敵するパフォーマンスを示し、HIDSとGIDSアプローチ(Car Hackingデータセット)を上回った。 さらに, 提案手法は, 様々な侵入から発生する異常行動に対する説明を生成することができた。 これらの説明は後にドメインの専門家が異常を検出するために使った情報によって検証された。 RX-ADSのその他の利点は以下のとおりである。 1) この方法はラベルのないデータで訓練することができる。 2) 説明は、専門家が異常やルートコースの分析を理解するのに役立つとともに、AIモデルのデバッグと診断に役立つ。

Recent year has brought considerable advancements in Electric Vehicles (EVs) and associated infrastructures/communications. Intrusion Detection Systems (IDS) are widely deployed for anomaly detection in such critical infrastructures. This paper presents an Interpretable Anomaly Detection System (RX-ADS) for intrusion detection in CAN protocol communication in EVs. Contributions include: 1) window based feature extraction method; 2) deep Autoencoder based anomaly detection method; and 3) adversarial machine learning based explanation generation methodology. The presented approach was tested on two benchmark CAN datasets: OTIDS and Car Hacking. The anomaly detection performance of RX-ADS was compared against the state-of-the-art approaches on these datasets: HIDS and GIDS. The RX-ADS approach presented performance comparable to the HIDS approach (OTIDS dataset) and has outperformed HIDS and GIDS approaches (Car Hacking dataset). Further, the proposed approach was able to generate explanations for detected abnormal behaviors arising from various intrusions. These explanations were later validated by information used by domain experts to detect anomalies. Other advantages of RX-ADS include: 1) the method can be trained on unlabeled data; 2) explanations help experts in understanding anomalies and root course analysis, and also help with AI model debugging and diagnostics, ultimately improving user trust in AI systems.
翻訳日:2022-09-07 13:07:30 公開日:2022-09-05
# DNN分類モデルの類似・非同一データに対する有効性比較のための原理的評価プロトコル

A Principled Evaluation Protocol for Comparative Investigation of the Effectiveness of DNN Classification Models on Similar-but-non-identical Datasets ( http://arxiv.org/abs/2209.01848v1 )

ライセンス: Link先を確認
Esla Timothy Anzaku, Haohan Wang, Arnout Van Messem, Wesley De Neve(参考訳) ディープニューラルネットワーク(DNN)モデルは、古い人気のあるベンチマークデータセットに類似するように慎重に作成されている新しいレプリケーションテストデータセットを使用して、ますます評価されている。 しかし、期待に反して、DNN分類モデルでは、これらのレプリケーションテストデータセットの精度が著しく、一貫性があり、ほとんど説明されていない。 一般的な評価アプローチは、各テストデータセットで利用可能なすべてのデータポイントを使用することで、モデルの正確性を評価することであるが、dnnモデルの振る舞いを適切に捉えることや、その正確性に対する現実的な期待を持つことを妨げていると主張する。 そこで本研究では,複数のテストデータセットにおけるdnnモデルの精度の比較調査に好適な原理評価プロトコルを提案し,不確実性関連情報を含む異なる基準を用いて選択可能なデータポイントのサブセットを活用する。 この新たな評価プロトコルを用いて,(1)CIFAR-10およびImageNetデータセットと(2)複製データセットの両方において,564ドルのDNNモデルの精度を決定した。 実験結果から,確立されたベンチマークデータセットとそれらの複製データの間で観測された精度劣化は,公表された論文で報告された精度劣化よりも一貫して低い(すなわち,再現テストデータセットの精度が向上する)ことが示唆された。

Deep Neural Network (DNN) models are increasingly evaluated using new replication test datasets, which have been carefully created to be similar to older and popular benchmark datasets. However, running counter to expectations, DNN classification models show significant, consistent, and largely unexplained degradation in accuracy on these replication test datasets. While the popular evaluation approach is to assess the accuracy of a model by making use of all the datapoints available in the respective test datasets, we argue that doing so hinders us from adequately capturing the behavior of DNN models and from having realistic expectations about their accuracy. Therefore, we propose a principled evaluation protocol that is suitable for performing comparative investigations of the accuracy of a DNN model on multiple test datasets, leveraging subsets of datapoints that can be selected using different criteria, including uncertainty-related information. By making use of this new evaluation protocol, we determined the accuracy of $564$ DNN models on both (1) the CIFAR-10 and ImageNet datasets and (2) their replication datasets. Our experimental results indicate that the observed accuracy degradation between established benchmark datasets and their replications is consistently lower (that is, models do perform better on the replication test datasets) than the accuracy degradation reported in published works, with these published works relying on conventional evaluation approaches that do not utilize uncertainty-related information.
翻訳日:2022-09-07 13:04:12 公開日:2022-09-05
# ファウショット学習のための表現伝達に関する研究

A Study on Representation Transfer for Few-Shot Learning ( http://arxiv.org/abs/2209.02073v1 )

ライセンス: Link先を確認
Chun-Nam Yu, Yi Xie(参考訳) いくつかのラベル付き例を使って、新しいオブジェクトカテゴリを適切に分類することを目的としている。 他のモデルから特徴表現を転送することは、数少ない分類問題を解決するための一般的なアプローチである。 本研究は,MAMLから学習した表現,教師付き分類,いくつかの共通自己教師型タスクを含む,数発の分類のための様々な特徴表現の体系的研究を行う。 より複雑なタスクからの学習は、数ショットの分類においてより良い表現を与える傾向にあり、複数のタスクから学習した表現を用いて数ショットの分類を行う。 小さなサンプルサイズの問題に対処する機能選択と投票の新たなトリックと組み合わせて、我々のダイレクトトランスファー学習手法は、いくつかのベンチマークデータセットの最先端に匹敵するパフォーマンスを提供する。

Few-shot classification aims to learn to classify new object categories well using only a few labeled examples. Transferring feature representations from other models is a popular approach for solving few-shot classification problems. In this work we perform a systematic study of various feature representations for few-shot classification, including representations learned from MAML, supervised classification, and several common self-supervised tasks. We find that learning from more complex tasks tend to give better representations for few-shot classification, and thus we propose the use of representations learned from multiple tasks for few-shot classification. Coupled with new tricks on feature selection and voting to handle the issue of small sample size, our direct transfer learning method offers performance comparable to state-of-art on several benchmark datasets.
翻訳日:2022-09-07 13:03:47 公開日:2022-09-05
# 局所線形変換による教師なし形状対応のための標準埋め込み学習

Learning Canonical Embeddings for Unsupervised Shape Correspondence with Locally Linear Transformations ( http://arxiv.org/abs/2209.02152v1 )

ライセンス: Link先を確認
Pan He, Patrick Emami, Sanjay Ranka, Anand Rangarajan(参考訳) 本稿では,一対の点雲間の教師なし形状対応学習に対する新しいアプローチを提案する。 従来の局所線形埋め込みアルゴリズム (lle) を, 非線形次元の低減のために設計し, 形状対応に応用する試みを初めて行った。 鍵となる考え方は、まず低次元点雲の高次元近傍保存埋め込みを取得し、次いで局所線型変換を用いてソースとターゲットの埋め込みを整列させることによって、形状間の密接な対応を見つけることである。 新たなLLEにインスパイアされた点雲再構成目標を用いて埋め込みを学習すると,正確な形状対応が得られることを示す。 より具体的には、このアプローチは、高次元近傍保存埋め込みを抽出し、埋め込み空間内の局所線形変換を推定し、再構成および目標形状の上に構築された確率的密度関数の分岐測度に基づくアライメントによって形状を再構築するエンドツーエンド学習可能な枠組みを含む。 提案手法では, 同一の普遍的/正準的埋め込み空間に配置する形状の埋め込みを強制し, 学習過程の正規化に役立ち, 信頼性の高い対応を見つけるために, 形状埋め込み間の簡単な近接アプローチを導出する。 包括的実験により、この新手法は、人間と非人間の両方の形状をカバーする標準形状対応ベンチマークデータセットに対する最先端アプローチよりも顕著に改善されていることが示された。

We present a new approach to unsupervised shape correspondence learning between pairs of point clouds. We make the first attempt to adapt the classical locally linear embedding algorithm (LLE) -- originally designed for nonlinear dimensionality reduction -- for shape correspondence. The key idea is to find dense correspondences between shapes by first obtaining high-dimensional neighborhood-preserving embeddings of low-dimensional point clouds and subsequently aligning the source and target embeddings using locally linear transformations. We demonstrate that learning the embedding using a new LLE-inspired point cloud reconstruction objective results in accurate shape correspondences. More specifically, the approach comprises an end-to-end learnable framework of extracting high-dimensional neighborhood-preserving embeddings, estimating locally linear transformations in the embedding space, and reconstructing shapes via divergence measure-based alignment of probabilistic density functions built over reconstructed and target shapes. Our approach enforces embeddings of shapes in correspondence to lie in the same universal/canonical embedding space, which eventually helps regularize the learning process and leads to a simple nearest neighbors approach between shape embeddings for finding reliable correspondences. Comprehensive experiments show that the new method makes noticeable improvements over state-of-the-art approaches on standard shape correspondence benchmark datasets covering both human and nonhuman shapes.
翻訳日:2022-09-07 13:03:32 公開日:2022-09-05
# 逆検出:物体検出をリアルタイムで攻撃する

Adversarial Detection: Attacking Object Detection in Real Time ( http://arxiv.org/abs/2209.01962v1 )

ライセンス: Link先を確認
Han Wu, Syed Yunas, Sareh Rowlands, Wenjie Ruan, and Johan Wahlstrom(参考訳) インテリジェントロボットは、環境を知覚するために正確な物体検出モデルにヒンジする。 ディープラーニングセキュリティの進歩は、オブジェクト検出モデルが敵の攻撃に対して脆弱であることを明らかにする。 しかし、以前の研究は主に静的画像やオフラインビデオの攻撃に焦点を当てていた。 このような攻撃が、動的環境における現実世界のロボットアプリケーションを阻害するかどうかはまだ不明だ。 理論的な発見と現実世界の応用の間にはまだギャップがある。 オブジェクト検出モデルに対する最初のリアルタイムオンライン攻撃を提案することで、ギャップを埋める。 所望の場所で非存在オブジェクトのバウンディングボックスを構成する3つの攻撃を考案した。

Intelligent robots hinge on accurate object detection models to perceive the environment. Advances in deep learning security unveil that object detection models are vulnerable to adversarial attacks. However, prior research primarily focuses on attacking static images or offline videos. It is still unclear if such attacks could jeopardize real-world robotic applications in dynamic environments. There is still a gap between theoretical discoveries and real-world applications. We bridge the gap by proposing the first real-time online attack against object detection models. We devised three attacks that fabricate bounding boxes for nonexistent objects at desired locations.
翻訳日:2022-09-07 13:01:43 公開日:2022-09-05
# hotellingのt2統計とq-residualsによる隣人のブラックボックスの開放

Opening the black-box of Neighbor Embedding with Hotelling's T2 statistic and Q-residuals ( http://arxiv.org/abs/2209.01984v1 )

ライセンス: Link先を確認
Roman Josef Rainer, Michael Mayr, Johannes Himmelbauer, Ramin Nikzad-Langerodi(参考訳) 主成分分析(PCA)のような高次元データセットの探索的解析のための古典的手法とは対照的に、隣接埋め込み(NE)技術は高次元データの局所構造やトポロジーをよりよく保存する傾向がある。 t-Distributed Stochastic Neighbor Embedding (t-SNE) や Uniform Manifold Approximation and Projection (UMAP) のような手法は、入力変数が対応する埋め込みで見られるトポロジカル(クラスタ)構造をどの部分で満たすかについての洞察を与えない。 そこで我々は,PCA,Q-Residuals,HotellingのT2コントリビューションと,近隣の埋め込みに関する局所的およびグローバルな説明を導出するための新しい可視化手法を組み合わせた,化学計測分野からの「トリック」を提案する。 我々は、標準の非変量的または多変量的アプローチを用いて、nesを探索する際に気づかないデータポイント群間で識別可能なアプローチを示す。

In contrast to classical techniques for exploratory analysis of high-dimensional data sets, such as principal component analysis (PCA), neighbor embedding (NE) techniques tend to better preserve the local structure/topology of high-dimensional data. However, the ability to preserve local structure comes at the expense of interpretability: Techniques such as t-Distributed Stochastic Neighbor Embedding (t-SNE) or Uniform Manifold Approximation and Projection (UMAP) do not give insights into which input variables underlie the topological (cluster) structure seen in the corresponding embedding. We here propose different "tricks" from the chemometrics field based on PCA, Q-residuals and Hotelling's T2 contributions in combination with novel visualization approaches to derive local and global explanations of neighbor embedding. We show how our approach is capable of identifying discriminatory features between groups of data points that remain unnoticed when exploring NEs using standard univariate or multivariate approaches.
翻訳日:2022-09-07 12:58:29 公開日:2022-09-05
# LKD-Net:シングルイメージデハジングのための大規模カーネル畳み込みネットワーク

LKD-Net: Large Kernel Convolution Network for Single Image Dehazing ( http://arxiv.org/abs/2209.01788v1 )

ライセンス: Link先を確認
Pinjun Luo, Guoqiang Xiao, Xinbo Gao, Song Wu(参考訳) 深層畳み込みニューラルネットワーク(cnns)ベースの単一画像デハジング手法は大きな成功を収めている。 従来の手法はネットワークの深さと幅を増大させることでネットワークの性能を向上させることに集中している。 現在の手法は畳み込み型カーネルのサイズを増加させ、より大きな受容場から恩恵を受けることでその性能を向上させることに焦点を当てている。 しかし、畳み込みカーネルのサイズを直接増大させると、膨大な計算オーバーヘッドとパラメータが発生する。 本稿では,dlkcb(deep-wise large kernel convolution block)とcefn(channel enhanced feed-forward network)の分解からなる,新しい大きなカーネル畳み込みデヘイズブロック(lkd block)を提案する。 設計されたDLKCBは、大規模なカーネルの畳み込みを、大量のパラメータや計算オーバーヘッドを伴わずに、より小さな奥行きの畳み込みと奥行きの縮み込みに分割することができる。 一方、設計されたCEFNは、フィードフォワードネットワークにチャネルアテンション機構を組み込んで、重要なチャネルを活用し、堅牢性を高める。 複数のLKDブロックとUp-Downサンプリングモジュールを組み合わせることで、Large Kernel Convolution Dehaze Network(LKD-Net)を行う。 その結果,設計したDLKCBとCEFNの有効性が示され,LKD-Netは最先端技術よりも優れていた。 SOTS屋内データセットでは、我々のLKD-NetはTransformerベースのメソッドであるDehamerを1.79%の#Paramと48.9%のFLOPで劇的に上回っている。 LKD-Netのソースコードはhttps://github.com/SWU-CS-MediaLab/LKD-Netで公開されている。

The deep convolutional neural networks (CNNs)-based single image dehazing methods have achieved significant success. The previous methods are devoted to improving the network's performance by increasing the network's depth and width. The current methods focus on increasing the convolutional kernel size to enhance its performance by benefiting from the larger receptive field. However, directly increasing the size of the convolutional kernel introduces a massive amount of computational overhead and parameters. Thus, a novel Large Kernel Convolution Dehaze Block (LKD Block) consisting of the Decomposition deep-wise Large Kernel Convolution Block (DLKCB) and the Channel Enhanced Feed-forward Network (CEFN) is devised in this paper. The designed DLKCB can split the deep-wise large kernel convolution into a smaller depth-wise convolution and a depth-wise dilated convolution without introducing massive parameters and computational overhead. Meanwhile, the designed CEFN incorporates a channel attention mechanism into Feed-forward Network to exploit significant channels and enhance robustness. By combining multiple LKD Blocks and Up-Down sampling modules, the Large Kernel Convolution Dehaze Network (LKD-Net) is conducted. The evaluation results demonstrate the effectiveness of the designed DLKCB and CEFN, and our LKD-Net outperforms the state-of-the-art. On the SOTS indoor dataset, our LKD-Net dramatically outperforms the Transformer-based method Dehamer with only 1.79% #Param and 48.9% FLOPs. The source code of our LKD-Net is available at https://github.com/SWU-CS-MediaLab/LKD-Net.
翻訳日:2022-09-07 12:55:41 公開日:2022-09-05
# 水平:インタラクティブで構成的なディープフェイク

On the Horizon: Interactive and Compositional Deepfakes ( http://arxiv.org/abs/2209.01714v1 )

ライセンス: Link先を確認
Eric Horvitz(参考訳) 5年間にわたって、コンピュータサイエンス研究チームによるエキゾチックなデモンストレーションから、偽情報のツールとしての使用へと、高忠実で架空の人物や出来事の描写を生成するための計算方法が移行した。 ディープフェイク(deepfakes)のポートマントー(Portmanteau)と呼ばれる手法は、魅力的なオーディオヴィジュアルコンテンツを作成するために使われてきた。 ここで、私は、社会にとってコストのかかる影響を伴う2種類のディープフェイク、すなわちインタラクティブとコンポジションのディープフェイク(deepfakes)の有望な使用に対する課題を共有します。 インタラクティブなディープフェイクは、マルチモーダルインタラクションの進歩を生かして、現実的なインタラクティブな振る舞いを持つ人々をまねる能力を持っている。 構成的ディープフェイクは、観察され、予測され、設計された世界の出来事と時間をかけて統合し、説得力のある合成ヒストリを作成する、より大きな偽情報プランで合成コンテンツを活用する。 合成ヒストリーは手動で構築できるが、いつの日か逆生成的説明(age)技術によって誘導されることがある。 緩和がなければ、インタラクティブで構成的なディープフェイクは、事実がフィクションと区別できないポストエステミックな世界へと私たちを近づけることを脅かす。 対話的かつ構成的なディープフェイクについて述べ、それらに対する警戒及び潜在的な緩和について考察する。

Over a five-year period, computing methods for generating high-fidelity, fictional depictions of people and events moved from exotic demonstrations by computer science research teams into ongoing use as a tool of disinformation. The methods, referred to with the portmanteau of "deepfakes," have been used to create compelling audiovisual content. Here, I share challenges ahead with malevolent uses of two classes of deepfakes that we can expect to come into practice with costly implications for society: interactive and compositional deepfakes. Interactive deepfakes have the capability to impersonate people with realistic interactive behaviors, taking advantage of advances in multimodal interaction. Compositional deepfakes leverage synthetic content in larger disinformation plans that integrate sets of deepfakes over time with observed, expected, and engineered world events to create persuasive synthetic histories. Synthetic histories can be constructed manually but may one day be guided by adversarial generative explanation (AGE) techniques. In the absence of mitigations, interactive and compositional deepfakes threaten to move us closer to a post-epistemic world, where fact cannot be distinguished from fiction. I shall describe interactive and compositional deepfakes and reflect about cautions and potential mitigations to defend against them.
翻訳日:2022-09-07 12:52:24 公開日:2022-09-05
# エンティティアライメントのための最適トランスポートによる競合認識擬似ラベリング

Conflict-Aware Pseudo Labeling via Optimal Transport for Entity Alignment ( http://arxiv.org/abs/2209.01847v1 )

ライセンス: Link先を確認
Qijie Ding, Daokun Zhang, Jie Yin(参考訳) エンティティアライメントは、異なる知識グラフ(KG)で同じ意味を持つユニークな等価エンティティペアを見つけることを目的としている。 知識の統合や融合は魅力的な作業ですが、難しい作業でした。 既存のモデルは主に、エンティティアライメントのためのエンティティ間の固有のセマンティクスを捉えるために、潜在埋め込み空間にkgを投影することに焦点を当てている。 しかし、アライメントコンフリクトの悪影響はトレーニング中にほとんど見過ごされ、エンティティアライメントのパフォーマンスが制限されている。 この問題に対処するために,エンティティアライメントのための最適輸送モデル(CPL-OT)を用いた新しい衝突対応Pseudo Labelingを提案する。 CPL-OTの鍵となる考え方は、コンフリクトを意識した最適輸送モデリングにより、繰り返し擬似ラベルアライメントペアを付与し、エンティティアライメントの精度を高めることである。 CPL-OTは、グローバルな局所的な集約を伴う2つの重要なコンポーネントの埋め込み学習と、相互に強化する反復的なコンフリクト認識の擬似ラベリングで構成されている。 擬似ラベリングにおけるアライメント競合を軽減するため,2つのKG間の1対1のエンティティアライメントを最小の輸送コストで保証する手段として,最適なトランスポート(OT)を提案する。 トランスポートコストは,グローバルレベルのセマンティクスを付加したグラフ畳み込みにより得られたエンティティ埋め込み間の整合距離として計算される。 ベンチマークデータセットの大規模な実験によると、CPL-OTは、事前のアライメントシードと非設定の両方で、最先端のベースラインを著しく上回る。

Entity alignment aims to discover unique equivalent entity pairs with the same meaning across different knowledge graphs (KG). It has been a compelling but challenging task for knowledge integration or fusion. Existing models have primarily focused on projecting KGs into a latent embedding space to capture inherent semantics between entities for entity alignment. However, the adverse impacts of alignment conflicts have been largely overlooked during training, thus limiting the entity alignment performance. To address this issue, we propose a novel Conflict-aware Pseudo Labeling via Optimal Transport model (CPL-OT) for entity alignment. The key idea of CPL-OT is to iteratively pseudo-label alignment pairs empowered with conflict-aware Optimal Transport modeling to boost the precision of entity alignment. CPL-OT is composed of two key components-entity embedding learning with global-local aggregation and iterative conflict-aware pseudo labeling-that mutually reinforce each other. To mitigate alignment conflicts during pseudo labeling, we propose to use optimal transport (OT) as an effective means to warrant one-to-one entity alignment between two KGs with the minimal overall transport cost. The transport cost is calculated as the rectified distance between entity embeddings obtained via graph convolution augmented with global-level semantics. Extensive experiments on benchmark datasets show that CPL-OT can markedly outperform state-of-the-art baselines under both settings with and without prior alignment seeds.
翻訳日:2022-09-07 12:52:00 公開日:2022-09-05
# 不確実性を考慮した科学機械学習モデルのためのロバスト学習手法

A Robust Learning Methodology for Uncertainty-aware Scientific Machine Learning models ( http://arxiv.org/abs/2209.01900v1 )

ライセンス: Link先を確認
Erbet Costa Almeida, Carine de Menezes Rebello, Marcio Fontana, Leizer Schnitman, Idelfonso Bessa dos Reis Nogueira(参考訳) ロバスト学習は科学的機械学習(sciml)において重要な問題である。 この話題を扱う文献にはいくつかの著作がある。 しかし、SciMLモデル識別に関わる様々な不確実性要素を同時に考慮できる手法の需要が高まっている。 そこで本研究では,SciMLの不確実性評価のための包括的方法論を提案する。 提案手法で考慮される不確実性は,理論と因果モデルが存在しないこと,データの腐敗や不完全さに対する敏感さ,計算努力である。 したがって、SciML分野における不確実性認識モデルに対する全体的な戦略を提供することができた。 本手法は, 重合反応器用ソフトセンサの開発を事例研究により検証した。 その結果, 同定されたソフトセンサは不確実性に対して頑健であり, 提案手法の整合性と相関することがわかった。

Robust learning is an important issue in Scientific Machine Learning (SciML). There are several works in the literature addressing this topic. However, there is an increasing demand for methods that can simultaneously consider all the different uncertainty components involved in SciML model identification. Hence, this work proposes a comprehensive methodology for uncertainty evaluation of the SciML that also considers several possible sources of uncertainties involved in the identification process. The uncertainties considered in the proposed method are the absence of theory and causal models, the sensitiveness to data corruption or imperfection, and the computational effort. Therefore, it was possible to provide an overall strategy for the uncertainty-aware models in the SciML field. The methodology is validated through a case study, developing a Soft Sensor for a polymerization reactor. The results demonstrated that the identified Soft Sensor are robust for uncertainties, corroborating with the consistency of the proposed approach.
翻訳日:2022-09-07 12:51:34 公開日:2022-09-05
# iPFI(Incremental Permutation Feature Importance) - データストリームのオンライン説明に向けて

Incremental Permutation Feature Importance (iPFI): Towards Online Explanations on Data Streams ( http://arxiv.org/abs/2209.01939v1 )

ライセンス: Link先を確認
Fabian Fumagalli (1), Maximilian Muschalik (2), Eyke H\"ullermeier (2), Barbara Hammer (1) ((1) Bielefeld University, Bielefeld, Germany, (2) LMU Munich, Munich, Germany)(参考訳) 説明可能な人工知能(XAI)は、主に静的学習シナリオに焦点を当てている。 私たちは、データが徐々にサンプリングされ、学習がバッチモードではなくインクリメンタルに行われる動的シナリオに興味を持っています。 本研究では,PFI(permutation feature importance)に類似した特徴量の特徴残差化に基づく,特徴量重要度(FI)尺度の効率的なインクリメンタルアルゴリズムを提案する。 概念ドリフトを含む動的モデリング条件下で,iPFIと呼ばれる効率的なモデルに依存しないアルゴリズムを提案する。 我々は予測と分散の観点から近似品質の理論的保証を証明する。 従来のバッチPFIと比較して,提案手法の理論的結果と有効性を検証するため,概念ドリフトを伴わないベンチマークデータについて,複数の実験を行った。

Explainable Artificial Intelligence (XAI) has mainly focused on static learning scenarios so far. We are interested in dynamic scenarios where data is sampled progressively, and learning is done in an incremental rather than a batch mode. We seek efficient incremental algorithms for computing feature importance (FI) measures, specifically, an incremental FI measure based on feature marginalization of absent features similar to permutation feature importance (PFI). We propose an efficient, model-agnostic algorithm called iPFI to estimate this measure incrementally and under dynamic modeling conditions including concept drift. We prove theoretical guarantees on the approximation quality in terms of expectation and variance. To validate our theoretical findings and the efficacy of our approaches compared to traditional batch PFI, we conduct multiple experimental studies on benchmark data with and without concept drift.
翻訳日:2022-09-07 12:51:19 公開日:2022-09-05
# 知識融合による授業インクリメンタルラーニング

Class-Incremental Learning via Knowledge Amalgamation ( http://arxiv.org/abs/2209.02112v1 )

ライセンス: Link先を確認
Marcus de Carvalho, Mahardhika Pratama, Jie Zhang, Yajuan San(参考訳) 破滅的な忘れは、継続的な学習環境におけるディープラーニングアルゴリズムの展開を妨げる重要な問題である。 エージェントが新しいタスクを学習しながら、古いタスクの一般化能力を失う破滅的な忘れの問題に対処するために、多くの方法が提案されている。 我々は,従来のタスクを専門とする多種多様な教師モデルから学生のネットワークを学習し,現在のオフライン手法に適用可能な,破滅的な忘れを知識の融合(CFA)で処理するための代替戦略を提案した。 知識融合処理は、選択された数の記憶されたサンプルと注釈のない単頭方式で行われる。 教師と生徒は同じネットワーク構造を共有する必要はなく、不均一なタスクをコンパクトまたはスパースなデータ表現に適応させることができる。 本手法を異なる戦略の競合ベースラインと比較し,アプローチの利点を実証した。

Catastrophic forgetting has been a significant problem hindering the deployment of deep learning algorithms in the continual learning setting. Numerous methods have been proposed to address the catastrophic forgetting problem where an agent loses its generalization power of old tasks while learning new tasks. We put forward an alternative strategy to handle the catastrophic forgetting with knowledge amalgamation (CFA), which learns a student network from multiple heterogeneous teacher models specializing in previous tasks and can be applied to current offline methods. The knowledge amalgamation process is carried out in a single-head manner with only a selected number of memorized samples and no annotations. The teachers and students do not need to share the same network structure, allowing heterogeneous tasks to be adapted to a compact or sparse data representation. We compare our method with competitive baselines from different strategies, demonstrating our approach's advantages.
翻訳日:2022-09-07 12:51:04 公開日:2022-09-05
# コントラスト視覚テキストアライメントのためのトポロジーの設計

Design of the topology for contrastive visual-textual alignment ( http://arxiv.org/abs/2209.02127v1 )

ライセンス: Link先を確認
Zhun Sun(参考訳) 対照的なスタイルの弱関連画像テキストペアの事前学習は、モーダルモデル間のセマンティックアライメントの学習において大きな力を発揮する。 イメージテキスト対の特徴表現間の距離を測定する一般的な選択はコサイン類似性であり、これは数学的に球面に埋め込まれた特徴の負の内積と見なすことができる。 このようなトポロジーは、低い計算資源の消費と適切に定義された一様性から恩恵を受けるが、適用する際の大きな欠点は2つある。 第1に、弱関連画像テキスト対のノイズに起因する意味曖昧性現象に対して脆弱である。 第二に、学習の進歩は最初は不安定で脆弱です。 前者の研究では、学習可能なソフトマックス温度パラメータと長いウォームアップスキームを使用してトレーニングの進捗を改善するが、これらの問題を深く分析することができない。 本研究では,最適化の観点から,特徴表現の埋め込みベクトルに対するトポロジーと固有距離関数の所望の性質について考察する。 次に、上記の問題を改善するための、かなり単純な解決策を提案する。 すなわち、その特徴表現を、負の内積を距離函数として持つ斜め多様体に写像する。 実験分析では、トレーニングコードの2行のみを変更することで、ベースライン性能を大きなマージン(例えばゼロショット画像からテキスト検索タスクへの4%)で向上できることを示した。

Pre-training weakly related image-text pairs in the contrastive style shows great power in learning semantic aligning cross-modal models. The common choice to measure the distance between the feature representations of the image-text pairs is the cosine similarity, which can be considered as the negative inner product of features embedded on a sphere mathematically. While such topology benefits from the low computational resources consumption and a properly defined uniformity, typically, there are two major drawbacks when applied. First, it is vulnerable to the semantic ambiguity phenomenon resulting from the noise in the weakly-related image-text pairs. Second, the learning progress is unstable and fragile at the beginning. Although, in the practice of former studies, a learnable softmax temperature parameter and a long warmup scheme are employed to meliorate the training progress, still there lacks an in-depth analysis of these problems. In this work, we discuss the desired properties of the topology and its endowed distance function for the embedding vectors of feature representations from the view of optimization. We then propose a rather simple solution to improve the aforementioned problem. That is, we map the feature representations onto the oblique manifold endowed with the negative inner product as the distance function. In the experimental analysis, we show that we can improve the baseline performance by a large margin (e.g. 4% in the zero-shot image to text retrieval task) by changing only two lines of the training codes.
翻訳日:2022-09-07 12:39:22 公開日:2022-09-05
# promptattack:gradient searchによる言語モデルのプロンプトベース攻撃

PromptAttack: Prompt-based Attack for Language Models via Gradient Search ( http://arxiv.org/abs/2209.01882v1 )

ライセンス: Link先を確認
Yundi Shi, Piji Li, Changchun Yin, Zhaoyang Han, Lu Zhou, Zhe Liu(参考訳) 事前学習された言語モデル(plm)が成長を続けるにつれ、微調整plmのハードウェアとデータ要件も増大する。 そこで研究者たちは、より軽い方法である \textit{prompt learning} を考案した。 しかし,本研究では,迅速学習手法が脆弱であり,不正に構築されたプロンプトによって容易に攻撃され,分類エラーやplmの深刻なセキュリティ問題が発生することを検証した。 現在の研究のほとんどは、プロンプトベースのメソッドのセキュリティ問題を無視している。 そこで本稿では, PLMのセキュリティ性能を調査するために, 悪意あるプロンプトテンプレート構築手法(\textbf{PromptAttack})を提案する。 いくつかの非フレンドリーなテンプレート構築アプローチが、タスクを誤分類するモデルを導くために研究されている。 3つのデータセットと3つのplmに関する広範な実験により,提案手法の有効性が証明された。 また,本手法が少数のシナリオに適用可能であることを検証する実験を行った。

As the pre-trained language models (PLMs) continue to grow, so do the hardware and data requirements for fine-tuning PLMs. Therefore, the researchers have come up with a lighter method called \textit{Prompt Learning}. However, during the investigations, we observe that the prompt learning methods are vulnerable and can easily be attacked by some illegally constructed prompts, resulting in classification errors, and serious security problems for PLMs. Most of the current research ignores the security issue of prompt-based methods. Therefore, in this paper, we propose a malicious prompt template construction method (\textbf{PromptAttack}) to probe the security performance of PLMs. Several unfriendly template construction approaches are investigated to guide the model to misclassify the task. Extensive experiments on three datasets and three PLMs prove the effectiveness of our proposed approach PromptAttack. We also conduct experiments to verify that our method is applicable in few-shot scenarios.
翻訳日:2022-09-07 12:38:37 公開日:2022-09-05
# 「あなたの説明は安定ですか?」:機能属性のためのロバストネス評価フレームワーク

"Is your explanation stable?": A Robustness Evaluation Framework for Feature Attribution ( http://arxiv.org/abs/2209.01782v1 )

ライセンス: Link先を確認
Yuyou Gan, Yuhao Mao, Xuhong Zhang, Shouling Ji, Yuwen Pu, Meng Han, Jianwei Yin, Ting Wang(参考訳) ニューラルネットワークの決定プロセスを理解することは難しい。 説明の重要な方法は、その決定を重要な特徴とみなすことである。 多くのアルゴリズムが提案されているが、そのほとんどはモデルに対する忠実性を改善するものである。 しかし、実環境には多くのランダムノイズがあり、説明に大きな変動をもたらす可能性がある。 より真剣に、最近の研究は、説明アルゴリズムが敵の攻撃に弱いことを示している。 これらはすべて、実際のシナリオを信頼することが難しい。 このギャップを埋めるために,不確かさを定量化し,理論的な保証により説明アルゴリズムの安定性を高めるためのモデル非依存型特徴帰納法 (metfa) を提案する。 1つの特徴が重要なのか重要でないのかを調べ、その結果を視覚化するためにMeTFAに重要なマップを生成し、2)特徴属性スコアの信頼区間を計算し、説明の安定性を高めるためにMeTFAに平滑なマップを生成する。 実験の結果,MeTFAは説明の視覚的品質を改善し,信頼性を維持しながら不安定性を著しく低下させることがわかった。 異なる雑音環境下で説明の忠実さを定量的に評価するために,いくつかのロバストな忠実度指標を提案する。 実験結果から,MeTFA平滑な説明は頑健な忠実度を著しく向上させる可能性が示唆された。 さらに、アプリケーションにおけるMeTFAの可能性を示すために、2つのシナリオを使用します。 まず,意味的セグメンテーションモデルにおける文脈バイアスを特定するためのSOTA説明法を適用すると,MeTFAに代表される説明は,より小さな領域を用いて99\%以上の忠実性を維持する。 第二に、異なる説明指向の攻撃でテストすると、MeTFAはバニラを防御し、説明に対する適応的で敵対的な攻撃を支援することができる。

Understanding the decision process of neural networks is hard. One vital method for explanation is to attribute its decision to pivotal features. Although many algorithms are proposed, most of them solely improve the faithfulness to the model. However, the real environment contains many random noises, which may leads to great fluctuations in the explanations. More seriously, recent works show that explanation algorithms are vulnerable to adversarial attacks. All of these make the explanation hard to trust in real scenarios. To bridge this gap, we propose a model-agnostic method \emph{Median Test for Feature Attribution} (MeTFA) to quantify the uncertainty and increase the stability of explanation algorithms with theoretical guarantees. MeTFA has the following two functions: (1) examine whether one feature is significantly important or unimportant and generate a MeTFA-significant map to visualize the results; (2) compute the confidence interval of a feature attribution score and generate a MeTFA-smoothed map to increase the stability of the explanation. Experiments show that MeTFA improves the visual quality of explanations and significantly reduces the instability while maintaining the faithfulness. To quantitatively evaluate the faithfulness of an explanation under different noise settings, we further propose several robust faithfulness metrics. Experiment results show that the MeTFA-smoothed explanation can significantly increase the robust faithfulness. In addition, we use two scenarios to show MeTFA's potential in the applications. First, when applied to the SOTA explanation method to locate context bias for semantic segmentation models, MeTFA-significant explanations use far smaller regions to maintain 99\%+ faithfulness. Second, when tested with different explanation-oriented attacks, MeTFA can help defend vanilla, as well as adaptive, adversarial attacks against explanations.
翻訳日:2022-09-07 12:34:11 公開日:2022-09-05
# スタイル認識型自己中間ドメインによる教師なしドメイン適応

Unsupervised Domain Adaptation via Style-Aware Self-intermediate Domain ( http://arxiv.org/abs/2209.01870v1 )

ライセンス: Link先を確認
Lianyu Wang, Meng Wang, Daoqiang Zhang and Huazhu Fu(参考訳) 非教師なしドメイン適応(UDA)は、ラベル豊富なソースドメインから関連するがラベルのないターゲットドメインに知識を伝達する、かなりの注目を集めている。 ドメイン間の差異を減らすことは、特にソースとターゲットドメインの間に大きなギャップがあるタスクにおいて、UDAのパフォーマンスを改善する上で、常に重要な要素である。 そこで本研究では,クラス識別情報の喪失を軽減しつつ,大きなドメインギャップと伝達知識を橋渡しする,SAFF(style-aware feature fusion)手法を提案する。 ヒトの推移的推論と学習能力にインスパイアされた新しいスタイル認識型自己中間ドメイン (SSID) を探索し、一連の中間的合成概念を通して2つの非関連概念を結びつける。 具体的には、ソースドメインとターゲットドメインの両方からサンプルをアンカーとして選択し、アンカーのオブジェクトとスタイルの特徴をランダムに融合させ、ラベル付きおよびスタイルリッチな中間特徴を生成するSSIDの新しい学習戦略を提案する。 さらに,外部メモリバンクの設計を行い,指定されたラベル付き特徴を格納・更新し,安定したクラス機能とクラスワイズスタイル機能を得る。 提案したメモリバンクに基づいて,ドメイン内損失関数とドメイン間損失関数をそれぞれ,クラス認識能力と機能互換性を改善するように設計されている。 一方,無限サンプリングによるssidの豊富な潜在特徴空間と,数理理論による損失関数の収束をシミュレートする。 最後に,一般的なドメイン適応ベンチマークを用いた包括的実験を行い,提案するsaffを異なるバックボーンネットワークと組み合わせることで,プラグイン・プラグイン・アウトモジュールとしての性能向上が期待できることを示した。

Unsupervised domain adaptation (UDA) has attracted considerable attention, which transfers knowledge from a label-rich source domain to a related but unlabeled target domain. Reducing inter-domain differences has always been a crucial factor to improve performance in UDA, especially for tasks where there is a large gap between source and target domains. To this end, we propose a novel style-aware feature fusion method (SAFF) to bridge the large domain gap and transfer knowledge while alleviating the loss of class-discriminative information. Inspired by the human transitive inference and learning ability, a novel style-aware self-intermediate domain (SSID) is investigated to link two seemingly unrelated concepts through a series of intermediate auxiliary synthesized concepts. Specifically, we propose a novel learning strategy of SSID, which selects samples from both source and target domains as anchors, and then randomly fuses the object and style features of these anchors to generate labeled and style-rich intermediate auxiliary features for knowledge transfer. Moreover, we design an external memory bank to store and update specified labeled features to obtain stable class features and class-wise style features. Based on the proposed memory bank, the intra- and inter-domain loss functions are designed to improve the class recognition ability and feature compatibility, respectively. Meanwhile, we simulate the rich latent feature space of SSID by infinite sampling and the convergence of the loss function by mathematical theory. Finally, we conduct comprehensive experiments on commonly used domain adaptive benchmarks to evaluate the proposed SAFF, and the experimental results show that the proposed SAFF can be easily combined with different backbone networks and obtain better performance as a plug-in-plug-out module.
翻訳日:2022-09-07 12:33:45 公開日:2022-09-05
# SR-GNN:微細画像分類のための空間関係対応グラフニューラルネットワーク

SR-GNN: Spatial Relation-aware Graph Neural Network for Fine-Grained Image Categorization ( http://arxiv.org/abs/2209.02109v1 )

ライセンス: Link先を確認
Asish Bera and Zachary Wharton and Yonghuai Liu and Nik Bessis and Ardhendu Behera(参考訳) 過去数年間、深層畳み込みニューラルネットワーク(CNN)に基づく画像認識において、大きな進歩が見られた。 これは主に、識別対象のポーズをマイニングする上でのネットワークの強力な能力と、テクスチャや形状からの情報によるものである。 これは、咬合、変形、照明などによるクラス内およびクラス間のばらつきが高いため、きめ細かい視覚分類(FGVC)には不適当であることが多い。 したがって、グローバルな構造情報を記述する表現的特徴表現は、オブジェクト/シーンを特徴付けるキーとなる。 そこで本研究では,関連する画像領域からコンテキスト認識特徴を集約し,境界ボックスや識別可能な部分アノテーションを回避し,細粒度カテゴリを識別することの重要性を効果的に把握する手法を提案する。 このアプローチは,近年の自己注意とグラフニューラルネットワーク(gnns)の進歩に触発され,シンプルで効果的な関係認識型特徴変換と,その改良にコンテキスト認識型注意機構を用いてエンド・ツー・エンドの学習プロセスにおける特徴の識別性を高める。 このモデルは細粒度オブジェクトと人間とオブジェクトの相互作用からなる8つのベンチマークデータセットで評価される。 これは認識精度のかなりの差で最先端のアプローチを上回っている。

Over the past few years, a significant progress has been made in deep convolutional neural networks (CNNs)-based image recognition. This is mainly due to the strong ability of such networks in mining discriminative object pose and parts information from texture and shape. This is often inappropriate for fine-grained visual classification (FGVC) since it exhibits high intra-class and low inter-class variances due to occlusions, deformation, illuminations, etc. Thus, an expressive feature representation describing global structural information is a key to characterize an object/ scene. To this end, we propose a method that effectively captures subtle changes by aggregating context-aware features from most relevant image-regions and their importance in discriminating fine-grained categories avoiding the bounding-box and/or distinguishable part annotations. Our approach is inspired by the recent advancement in self-attention and graph neural networks (GNNs) approaches to include a simple yet effective relation-aware feature transformation and its refinement using a context-aware attention mechanism to boost the discriminability of the transformed feature in an end-to-end learning process. Our model is evaluated on eight benchmark datasets consisting of fine-grained objects and human-object interactions. It outperforms the state-of-the-art approaches by a significant margin in recognition accuracy.
翻訳日:2022-09-07 12:33:16 公開日:2022-09-05
# ランドマーク誘導型GANを用いた顔表情変換

Facial Expression Translation using Landmark Guided GANs ( http://arxiv.org/abs/2209.02136v1 )

ライセンス: Link先を確認
Hao Tang, Nicu Sebe(参考訳) 本稿では,表現から表現への変換が非線形で非整合的な問題であるため,コンピュータビジョンにおいて重要かつ困難な課題である,単一の画像を用いた表情から表現への変換のためのシンプルなランドマークガイド付き生成支援ネットワーク(LandmarkGAN)を提案する。 さらに、画像内のオブジェクトは任意のポーズ、サイズ、場所、背景、自己閉塞を持つことができるため、入力画像と出力画像の間で高いレベルの意味理解が必要である。 この問題に対処するため,我々は顔のランドマーク情報を明示的に活用することを提案する。 難しい問題なので、それを2つのサブタスクに分割しました。 (i)カテゴリー案内ランドマーク生成、及び (二)ランドマーク誘導表現対表現翻訳 2つのサブタスクは、生成されたランドマークと表現の相互改善されたメリットを楽しむことを目的として、エンドツーエンドでトレーニングされる。 現在のキーポイント誘導アプローチと比較して、LandmarkGANは様々な表現を生成するために単一の顔画像しか必要としない。 4つの公開データセットに対する大規模な実験結果から、提案したLandmarkGANは、単一の画像のみを使用して、最先端のアプローチよりも優れた結果が得られることが示された。 コードはhttps://github.com/ha0tang/landmarkganで入手できる。

We propose a simple yet powerful Landmark guided Generative Adversarial Network (LandmarkGAN) for the facial expression-to-expression translation using a single image, which is an important and challenging task in computer vision since the expression-to-expression translation is a non-linear and non-aligned problem. Moreover, it requires a high-level semantic understanding between the input and output images since the objects in images can have arbitrary poses, sizes, locations, backgrounds, and self-occlusions. To tackle this problem, we propose utilizing facial landmark information explicitly. Since it is a challenging problem, we split it into two sub-tasks, (i) category-guided landmark generation, and (ii) landmark-guided expression-to-expression translation. Two sub-tasks are trained in an end-to-end fashion that aims to enjoy the mutually improved benefits from the generated landmarks and expressions. Compared with current keypoint-guided approaches, the proposed LandmarkGAN only needs a single facial image to generate various expressions. Extensive experimental results on four public datasets demonstrate that the proposed LandmarkGAN achieves better results compared with state-of-the-art approaches only using a single image. The code is available at https://github.com/Ha0Tang/LandmarkGAN.
翻訳日:2022-09-07 12:32:55 公開日:2022-09-05
# 透過電子顕微鏡画像のセグメンテーションと品質検出のための事前学習ニューラルネットワークの組み立て

Ensemble of Pre-Trained Neural Networks for Segmentation and Quality Detection of Transmission Electron Microscopy Images ( http://arxiv.org/abs/2209.01908v1 )

ライセンス: Link先を確認
Arun Baskaran, Yulin Lin, Jianguo Wen, Maria K.Y. Chan(参考訳) 電子顕微鏡データセットの自動解析は、トレーニングデータセットのサイズの制限、サンプルの品質の変化によるデータ分布の変化、実験条件など、複数の課題をもたらす。 訓練されたモデルは、新しいデータに対して許容されるセグメンテーション/分類性能を提供し続け、その予測に関連する不確実性を定量化することが重要である。 機械学習の幅広い応用の中で、ベイジアンモデリング、モンテカルロのドロップアウト、アンサンブルなど、不確実性を定量化する様々なアプローチが採用されている。 本研究では,電子顕微鏡のデータ領域に特有の課題に対処するため,2種類の事前学習ニューラルネットワークのアンサンブルを実装した。 アンサンブルは2相混合液中で氷結晶のセグメンテーションを行い、水への相転移を追跡した。 第1のアンサンブル(EA)は、異なる基盤アーキテクチャを持つU-netスタイルのネットワークで構成され、第2のアンサンブル(ER-i)はランダムに初期化されたU-netスタイルのネットワークで構成されている。 ベース学習者のエンコーダはImagenetデータセットで事前トレーニングされた。 EAとERのパフォーマンスは,精度,キャリブレーション,不確実性の3つの指標で評価した。 EAはERと比較して分類精度が高く、校正も良好である。 これらの2種類のアンサンブルの不確かさの定量化は同等であるが、ERが示した不確実性スコアは基礎メンバーの特定の構造('i')に依存しており、EAより一貫して優れているわけではない。 したがって、電子顕微鏡データセットの分析に求められる課題は、ERのようなアンサンブル設計と比較して、EAのようなアンサンブル設計によって対処されているように見える。

Automated analysis of electron microscopy datasets poses multiple challenges, such as limitation in the size of the training dataset, variation in data distribution induced by variation in sample quality and experiment conditions, etc. It is crucial for the trained model to continue to provide acceptable segmentation/classification performance on new data, and quantify the uncertainty associated with its predictions. Among the broad applications of machine learning, various approaches have been adopted to quantify uncertainty, such as Bayesian modeling, Monte Carlo dropout, ensembles, etc. With the aim of addressing the challenges specific to the data domain of electron microscopy, two different types of ensembles of pre-trained neural networks were implemented in this work. The ensembles performed semantic segmentation of ice crystal within a two-phase mixture, thereby tracking its phase transformation to water. The first ensemble (EA) is composed of U-net style networks having different underlying architectures, whereas the second series of ensembles (ER-i) are composed of randomly initialized U-net style networks, wherein each base learner has the same underlying architecture 'i'. The encoders of the base learners were pre-trained on the Imagenet dataset. The performance of EA and ER were evaluated on three different metrics: accuracy, calibration, and uncertainty. It is seen that EA exhibits a greater classification accuracy and is better calibrated, as compared to ER. While the uncertainty quantification of these two types of ensembles are comparable, the uncertainty scores exhibited by ER were found to be dependent on the specific architecture of its base member ('i') and not consistently better than EA. Thus, the challenges posed for the analysis of electron microscopy datasets appear to be better addressed by an ensemble design like EA, as compared to an ensemble design like ER.
翻訳日:2022-09-07 12:29:28 公開日:2022-09-05
# 共振器ネットワークを用いたニューロモルフィックビジュアルオドメトリー

Neuromorphic Visual Odometry with Resonator Networks ( http://arxiv.org/abs/2209.02000v1 )

ライセンス: Link先を確認
Alpha Renner, Lazar Supic, Andreea Danielescu, Giacomo Indiveri, E. Paxon Frady, Friedrich T. Sommer and Yulia Sandamirskaya(参考訳) 自律エージェントは未知の環境をナビゲートするために自己ローカライゼーションを必要とする。 視覚オドメトリ(vo)を使って自己運動を推定し、視覚センサーを使って自分自身を局所化することができる。 この動き推定戦略は慣性センサーや車輪エンコーダとしてのすべりによって損なわれない。 しかし、従来のカメラとのvoは計算量が必要であり、厳格な低遅延、-メモリ、-エネルギー要求のシステムでの使用を制限する。 イベントベースのカメラとニューロモルフィックコンピューティングハードウェアを使用することで、vo問題に対する有望な低電力ソリューションを提供する。 しかし、従来のVOのアルゴリズムはニューロモルフィックなハードウェアに容易に変換できない。 本研究では,神経型実装に適したニューロン構築ブロックからなるVOアルゴリズムを提案する。 ビルディングブロックは、ニューロモルフィックハードウェアをプログラムするための抽象層として提案されたベクトル記号アーキテクチャ(VSA)の計算フレームワークにおいて、ベクトルを表すニューロンのグループである。 提案するvoネットワークは、提示された視覚環境の動作メモリを生成し記憶する。 この動作メモリを同時に更新し、カメラの位置や方向を推定する。 ニューロモルフィックロボットのコンピューティングパラダイムとしてVSAをどのように活用できるかを実証する。 さらに,本研究の結果は,高速かつ高効率なVOのためのニューロモルフィック・コンピューティング・ハードウェアの利用に向けた重要なステップであり,同時にローカライゼーションとマッピング(SLAM)の課題である。 このアプローチをロボットタスクとイベントベースのデータセットで実験的に検証し,最先端のパフォーマンスを示す。

Autonomous agents require self-localization to navigate in unknown environments. They can use Visual Odometry (VO) to estimate self-motion and localize themselves using visual sensors. This motion-estimation strategy is not compromised by drift as inertial sensors or slippage as wheel encoders. However, VO with conventional cameras is computationally demanding, limiting its application in systems with strict low-latency, -memory, and -energy requirements. Using event-based cameras and neuromorphic computing hardware offers a promising low-power solution to the VO problem. However, conventional algorithms for VO are not readily convertible to neuromorphic hardware. In this work, we present a VO algorithm built entirely of neuronal building blocks suitable for neuromorphic implementation. The building blocks are groups of neurons representing vectors in the computational framework of Vector Symbolic Architecture (VSA) which was proposed as an abstraction layer to program neuromorphic hardware. The VO network we propose generates and stores a working memory of the presented visual environment. It updates this working memory while at the same time estimating the changing location and orientation of the camera. We demonstrate how VSA can be leveraged as a computing paradigm for neuromorphic robotics. Moreover, our results represent an important step towards using neuromorphic computing hardware for fast and power-efficient VO and the related task of simultaneous localization and mapping (SLAM). We validate this approach experimentally in a robotic task and with an event-based dataset, demonstrating state-of-the-art performance.
翻訳日:2022-09-07 12:22:43 公開日:2022-09-05
# 最小削除による希少だが重大なニューラルマシン翻訳誤差:中国語と英語の実証的研究

Rare but Severe Neural Machine Translation Errors Induced by Minimal Deletion: An Empirical Study on Chinese and English ( http://arxiv.org/abs/2209.02145v1 )

ライセンス: Link先を確認
Ruikang Shi, Alvin Grissom II, Duc Minh Trinh(参考訳) 文字ベースモデルによる原文の最小削除による英語・中国語・中国語・中国語のニューラルネットワーク翻訳における稀な誤りの誘発について検討する。 一つの文字を削除することで、翻訳に深刻なエラーを生じさせることが分かる。 これらの誤りを分類し、単一文字と単一単語の削除結果と比較する。 また,これらの極小摂動によって引き起こされる病的症例の数と種類に対するトレーニングデータサイズの影響について検討し,有意な変動を見出した。

We examine the inducement of rare but severe errors in English-Chinese and Chinese-English in-domain neural machine translation by minimal deletion of the source text with character-based models. By deleting a single character, we find that we can induce severe errors in the translation. We categorize these errors and compare the results of deleting single characters and single words. We also examine the effect of training data size on the number and types of pathological cases induced by these minimal perturbations, finding significant variation.
翻訳日:2022-09-07 12:21:28 公開日:2022-09-05
# MO2: モデルベースのオフラインオプション

MO2: Model-Based Offline Options ( http://arxiv.org/abs/2209.01947v1 )

ライセンス: Link先を確認
Sasha Salter, Markus Wulfmeier, Dhruva Tirumala, Nicolas Heess, Martin Riedmiller, Raia Hadsell, Dushyant Rao(参考訳) 過去の経験から有用な行動を発見し、それらを新しいタスクに移す能力は、自然の具体的知性の中核的な要素であると考えられている。 神経科学に触発され、ボトルネック状態から切り替わる行動の発見は、タスク間の最小記述長の計画を誘発するために長い間求められてきた。 以前のアプローチでは、オンライン、オンポリシー、ボトルネック状態発見、サンプル効率の制限、あるいは個別の状態アクションドメインのみをサポートしていた。 モデルベースオフラインオプション(MO2)は、連続状態空間上でのサンプリング効率の高いボトルネックオプション発見をサポートするオフラインの隠れフレームワークである。 ボトルネックのオプションがソースドメイン上でオフラインで学習されると、オンラインに転送され、トランスファードメインの探索と価値評価が向上する。 実験により, 疎度, 遅延した報酬を伴う複雑な長期連続制御タスクにおいて, MO2の特性は不可欠であり, 近年のオプション学習よりも性能が高いことがわかった。 追加のアブレーションにより、オプション予測可能性とクレジット割り当てへの影響がさらに示される。

The ability to discover useful behaviours from past experience and transfer them to new tasks is considered a core component of natural embodied intelligence. Inspired by neuroscience, discovering behaviours that switch at bottleneck states have been long sought after for inducing plans of minimum description length across tasks. Prior approaches have either only supported online, on-policy, bottleneck state discovery, limiting sample-efficiency, or discrete state-action domains, restricting applicability. To address this, we introduce Model-Based Offline Options (MO2), an offline hindsight framework supporting sample-efficient bottleneck option discovery over continuous state-action spaces. Once bottleneck options are learnt offline over source domains, they are transferred online to improve exploration and value estimation on the transfer domain. Our experiments show that on complex long-horizon continuous control tasks with sparse, delayed rewards, MO2's properties are essential and lead to performance exceeding recent option learning methods. Additional ablations further demonstrate the impact on option predictability and credit assignment.
翻訳日:2022-09-07 12:20:41 公開日:2022-09-05
# 診断用ラジオグラフィ分類のための一貫性に基づく半教師付き能動学習

Consistency-Based Semi-supervised Evidential Active Learning for Diagnostic Radiograph Classification ( http://arxiv.org/abs/2209.01858v1 )

ライセンス: Link先を確認
Shafa Balaram, Cuong M. Nguyen, Ashraf Kassim, Pavitra Krishnaswamy(参考訳) ディープラーニングアプローチは、放射線画像の分類に最先端のパフォーマンスを実現するが、専門家によるリソース集約アノテーションを必要とする大きなラベル付きデータセットに依存している。 半教師付き学習とアクティブ学習の両方が、このアノテーションの負担を軽減するために利用できる。 しかし,マルチラベル医用画像分類における半教師付き・能動的学習手法の利点を組み合わせる作業は限られている。 本稿では,CSEAL(Consistency-based Semi-supervised Evidential Active Learning)フレームワークを紹介する。 具体的には,エビデンスの理論と主観的論理に基づく予測不確実性を利用して,一貫性に基づく半教師付き学習と不確実性に基づくアクティブ学習を組み合わせたエンドツーエンド統合アプローチを開発する。 提案手法は,Pseudo-labelling,Virtual Adversarial Training,Mean Teacher,NoTeacherの4つの指導的一貫性に基づく半教師付き学習手法に応用する。 マルチラベルチェストX線分類タスクの広範囲な評価は、CSEALが2つの主要な半教師付きアクティブラーニングベースラインに対して実質的な性能向上を達成することを示す。 さらに,本手法は,ラベル付きサンプルが少なく,より稀な異常の精度を大幅に向上させることができることを示す。

Deep learning approaches achieve state-of-the-art performance for classifying radiology images, but rely on large labelled datasets that require resource-intensive annotation by specialists. Both semi-supervised learning and active learning can be utilised to mitigate this annotation burden. However, there is limited work on combining the advantages of semi-supervised and active learning approaches for multi-label medical image classification. Here, we introduce a novel Consistency-based Semi-supervised Evidential Active Learning framework (CSEAL). Specifically, we leverage predictive uncertainty based on theories of evidence and subjective logic to develop an end-to-end integrated approach that combines consistency-based semi-supervised learning with uncertainty-based active learning. We apply our approach to enhance four leading consistency-based semi-supervised learning methods: Pseudo-labelling, Virtual Adversarial Training, Mean Teacher and NoTeacher. Extensive evaluations on multi-label Chest X-Ray classification tasks demonstrate that CSEAL achieves substantive performance improvements over two leading semi-supervised active learning baselines. Further, a class-wise breakdown of results shows that our approach can substantially improve accuracy on rarer abnormalities with fewer labelled samples.
翻訳日:2022-09-07 12:20:15 公開日:2022-09-05
# ScaleFace: 不確実性を意識した深層学習

ScaleFace: Uncertainty-aware Deep Metric Learning ( http://arxiv.org/abs/2209.01880v1 )

ライセンス: Link先を確認
Roman Kail, Kirill Fedyanin, Nikita Muravev, Alexey Zaytsev and Maxim Panov(参考訳) 現代のディープラーニングベースのシステムの性能は、入力オブジェクトの品質に依存する。 例えば、顔の認識品質はぼやけや劣化した入力に対して低い。 しかし,より複雑なシナリオにおいて,入力品質が結果の精度に与える影響を予測することは困難である。 計算コストをほとんど増やさずに不確実性を直接推定できる深層メトリック学習の手法を提案する。 開発された \textit{ScaleFace} アルゴリズムは、埋め込み空間の類似性を変更するトレーニング可能なスケール値を使用する。 これらの入力依存スケール値は、認識結果に対する信頼度を表し、不確実性推定を可能にする。 本稿では,他の不確実性認識手法と比較して,スケールフェイスの優れた性能を示す顔認識タスクに関する包括的実験を行う。 また,提案手法が競争相手を打ち負かしていることを示すテキストから画像への検索のタスクにも結果を広げた。

The performance of modern deep learning-based systems dramatically depends on the quality of input objects. For example, face recognition quality would be lower for blurry or corrupted inputs. However, it is hard to predict the influence of input quality on the resulting accuracy in more complex scenarios. We propose an approach for deep metric learning that allows direct estimation of the uncertainty with almost no additional computational cost. The developed \textit{ScaleFace} algorithm uses trainable scale values that modify similarities in the space of embeddings. These input-dependent scale values represent a measure of confidence in the recognition result, thus allowing uncertainty estimation. We provide comprehensive experiments on face recognition tasks that show the superior performance of ScaleFace compared to other uncertainty-aware face recognition approaches. We also extend the results to the task of text-to-image retrieval showing that the proposed approach beats the competitors with significant margin.
翻訳日:2022-09-07 12:19:52 公開日:2022-09-05
# 縦断的自己監督学習による糖尿病網膜症の検出

Detection of diabetic retinopathy using longitudinal self-supervised learning ( http://arxiv.org/abs/2209.00915v2 )

ライセンス: Link先を確認
Rachid Zeghlache, Pierre-Henri Conze, Mostafa El Habib Daho, Ramin Tadayoni, Pascal Massin, B\'eatrice Cochener, Gwenol\'e Quellec, Mathieu Lamard(参考訳) 縦断イメージングは、静的解剖学的構造と疾患の進行のダイナミックな変化の両方を、より早くより優れた患者固有の病理管理に向けて捉えることができる。 しかし,従来の糖尿病網膜症(DR)検出手法では,経時的情報を利用してDR解析を改善することは稀である。 本研究は,DR診断目的の縦断的特徴を持つ自己教師型学習の利点について検討する。 縦型自己教師付き学習 (lssl) 法と縦型網膜色眼底写真 (cfp) の疾患進展をモデル化し, 2回の連続試験で早期のdr重症度変化を検出する方法を比較した。 実験は、長手DRスクリーニングデータセットを用いて、訓練されたエンコーダ(LSSL)が長手プレテキストタスクとして機能するか否かを判定した。 その結果、ベースライン(スクラッチから訓練されたモデル)に対して0.875のAUCと、p値<2.2e-16でp値の0.96(95% CI: 0.9593-0.9655 DeLong test)を達成した。

Longitudinal imaging is able to capture both static anatomical structures and dynamic changes in disease progression towards earlier and better patient-specific pathology management. However, conventional approaches for detecting diabetic retinopathy (DR) rarely take advantage of longitudinal information to improve DR analysis. In this work, we investigate the benefit of exploiting self-supervised learning with a longitudinal nature for DR diagnosis purposes. We compare different longitudinal self-supervised learning (LSSL) methods to model the disease progression from longitudinal retinal color fundus photographs (CFP) to detect early DR severity changes using a pair of consecutive exams. The experiments were conducted on a longitudinal DR screening dataset with or without those trained encoders (LSSL) acting as a longitudinal pretext task. Results achieve an AUC of 0.875 for the baseline (model trained from scratch) and an AUC of 0.96 (95% CI: 0.9593-0.9655 DeLong test) with a p-value < 2.2e-16 on early fusion using a simple ResNet alike architecture with frozen LSSL weights, suggesting that the LSSL latent space enables to encode the dynamic of DR progression.
翻訳日:2022-09-07 10:45:12 公開日:2022-09-05
# 単眼ビデオからの眼表面のマッピングとドライアイ病評価への応用

Mapping the ocular surface from monocular videos with an application to dry eye disease grading ( http://arxiv.org/abs/2209.00886v2 )

ライセンス: Link先を確認
Ikram Brahim, Mathieu Lamard, Anas-Alexis Benyoussef, Pierre-Henri Conze, B\'eatrice Cochener, Divi Cornec, Gwenol\'e Quellec(参考訳) 5~50%の有病率で、ドライアイ病(ded)は眼科医の診察の主要な理由の1つである。 DEDの診断と定量化は通常、スリットランプ検査による眼表面分析に依存している。 しかし、評価は主観的で再現不可能である。 診断を改善するために,我々は提案する 1)検査中に取得した映像記録を用いた3次元眼表面の追跡 2) 登録フレームを用いて重症度を格付けする。 我々の登録方法は教師なしの深層学習を用いる。 これらの手法は、光と影から深度を学習し、深度マップに基づいてポーズを推定する。 しかし、ded検査では、移動光源や透明な眼組織など、未解決の課題がある。 これらを克服し, ego運動を推定するために, セマンティクスセグメンテーションと球面フィッティングにより, 先行した情報,すなわち眼の形状を含む複数の損失を含む合同cnnアーキテクチャを実装した。 達成された追跡誤差は最先端を上回り、平均ユークリッド距離はテストセットにおける画像幅の0.48%である。 この登録は、DED重度分類を0.20AUC差で改善する。 提案手法は単眼映像からの監視によりded診断に取り組む最初の方法である

With a prevalence of 5 to 50%, Dry Eye Disease (DED) is one of the leading reasons for ophthalmologist consultations. The diagnosis and quantification of DED usually rely on ocular surface analysis through slit-lamp examinations. However, evaluations are subjective and non-reproducible. To improve the diagnosis, we propose to 1) track the ocular surface in 3-D using video recordings acquired during examinations, and 2) grade the severity using registered frames. Our registration method uses unsupervised image-to-depth learning. These methods learn depth from lights and shadows and estimate pose based on depth maps. However, DED examinations undergo unresolved challenges including a moving light source, transparent ocular tissues, etc. To overcome these and estimate the ego-motion, we implement joint CNN architectures with multiple losses incorporating prior known information, namely the shape of the eye, through semantic segmentation as well as sphere fitting. The achieved tracking errors outperform the state-of-the-art, with a mean Euclidean distance as low as 0.48% of the image width on our test set. This registration improves the DED severity classification by a 0.20 AUC difference. The proposed approach is the first to address DED diagnosis with supervision from monocular videos
翻訳日:2022-09-07 10:44:47 公開日:2022-09-05
# 緑内障のマルチモーダル情報融合とDR分類

Multimodal Information Fusion for Glaucoma and DR Classification ( http://arxiv.org/abs/2209.00979v2 )

ライセンス: Link先を確認
Yihao Li, Mostafa El Habib Daho, Pierre-Henri Conze, Hassan Al Hajj, Sophie Bonnin, Hugang Ren, Niranchana Manivannan, Stephanie Magazzeni, Ramin Tadayoni, B\'eatrice Cochener, Mathieu Lamard, Gwenol\'e Quellec(参考訳) マルチモーダル情報はしばしば医療業務で利用できる。 複数の情報源からの情報を組み合わせることで、臨床医はより正確な判断をすることができる。 近年,2次元眼底写真,3D光コヒーレンス断層撮影(OCT),3D OCTアンギオグラフィなど,網膜分析のための複数の画像技術が臨床応用されている。 本稿では,早期融合,中間融合,階層融合という網膜解析課題を解決するために,ディープラーニングに基づく3つのマルチモーダル情報融合戦略を検討する。 一般的に用いられるアーリー融合と中間融合は単純であるが、モダリティ間の相補的な情報を完全に活用していない。 我々は,ネットワークの多次元的特徴とモダリティ間の相関性を検討することに焦点を当てた階層的融合手法を開発した。 これらのアプローチを緑内障および糖尿病網膜症分類に応用し,公共GAMMAデータセットとPlexElite 9000 (Carl Zeis Meditec Inc.) OCTアンギオグラフィーの個人データセットを用いて検討した。 両症例とも階層的融合法が良好に機能し, 良好な臨床診断への道を開いた。

Multimodal information is frequently available in medical tasks. By combining information from multiple sources, clinicians are able to make more accurate judgments. In recent years, multiple imaging techniques have been used in clinical practice for retinal analysis: 2D fundus photographs, 3D optical coherence tomography (OCT) and 3D OCT angiography, etc. Our paper investigates three multimodal information fusion strategies based on deep learning to solve retinal analysis tasks: early fusion, intermediate fusion, and hierarchical fusion. The commonly used early and intermediate fusions are simple but do not fully exploit the complementary information between modalities. We developed a hierarchical fusion approach that focuses on combining features across multiple dimensions of the network, as well as exploring the correlation between modalities. These approaches were applied to glaucoma and diabetic retinopathy classification, using the public GAMMA dataset (fundus photographs and OCT) and a private dataset of PlexElite 9000 (Carl Zeis Meditec Inc.) OCT angiography acquisitions, respectively. Our hierarchical fusion method performed the best in both cases and paved the way for better clinical diagnosis.
翻訳日:2022-09-07 10:44:02 公開日:2022-09-05
# 隣り合わせのスケーラブルな時間ネットワーク表現学習

Neighborhood-aware Scalable Temporal Network Representation Learning ( http://arxiv.org/abs/2209.01084v2 )

ライセンス: Link先を確認
Yuhong Luo and Pan Li(参考訳) 時間的ネットワークは金融システムやeコマースシステムのような現実世界の複雑なシステムをモデル化するために広く使われている。 時間的ネットワークでは、ノードの集合の結合近傍はしばしば、ある時間に相互作用するかどうかを予測する重要な構造情報を提供する。 しかし、近年の時間的ネットワーク表現学習手法では、そのような情報を抽出できない場合や、非常に時間を要する特徴構築手法に依存する場合が多い。 この問題に対処するため,本研究では,Norborhood-Aware Temporal Network Model (NAT)を提案する。 ネットワーク内の各ノードに対して、NATは、新しい辞書型近傍表現を採用しながら、一般的に使用されるワンシングルベクターベースの表現を捨てる。 このような辞書表現は、隣接ノードのダウンサンプリングされた集合をキーとして記録し、複数のノードのジョイント近傍の構造的特徴を高速に構築することができる。 また、GPU上でのこれらの辞書表現の並列アクセスと更新をサポートするために、N-cacheと呼ばれる専用データ構造を設計する。 NATは7つの現実世界の大規模時間ネットワークで評価される。 NATは、平均5.9%と6.0%という最先端のベースラインをそれぞれトランスダクティブリンク予測精度で上回るだけでなく、関節構造の特徴を取り入れたベースラインに対して4.1-76.7xのスピードアップを達成し、これらの特徴を採用できないベースラインに対して1.6-4.0xのスピードアップを達成してスケーラビリティを維持している。 コードへのリンク:https://github.com/Graph-COM/Neighborhood-Aware-Temporal-Network。

Temporal networks have been widely used to model real-world complex systems such as financial systems and e-commerce systems. In a temporal network, the joint neighborhood of a set of nodes often provides crucial structural information on predicting whether they may interact at a certain time. However, recent representation learning methods for temporal networks often fail to extract such information or depend on extremely time-consuming feature construction approaches. To address the issue, this work proposes Neighborhood-Aware Temporal network model (NAT). For each node in the network, NAT abandons the commonly-used one-single-vector-based representation while adopting a novel dictionary-type neighborhood representation. Such a dictionary representation records a down-sampled set of the neighboring nodes as keys, and allows fast construction of structural features for a joint neighborhood of multiple nodes. We also design dedicated data structure termed N-cache to support parallel access and update of those dictionary representations on GPUs. NAT gets evaluated over seven real-world large-scale temporal networks. NAT not only outperforms all cutting-edge baselines by averaged 5.9% and 6.0% in transductive and inductive link prediction accuracy, respectively, but also keeps scalable by achieving a speed-up of 4.1-76.7x against the baselines that adopts joint structural features and achieves a speed-up of 1.6-4.0x against the baselines that cannot adopt those features. The link to the code: https://github.com/Graph-COM/Neighborhood-Aware-Temporal-Network.
翻訳日:2022-09-07 10:42:41 公開日:2022-09-05
# nnモデルでは平面レイアウトを学べるのか?

Can an NN model plainly learn planar layouts? ( http://arxiv.org/abs/2209.01075v2 )

ライセンス: Link先を確認
Smon van Wageningen and Tamara Mchedlidze(参考訳) 平面グラフの描画は審美的に喜ばしい傾向にある。 このポスターでは、様々な平面グラフクラスを学習するニューラルネットワークの能力について検討する。 さらに, 平面性を超えた一般化におけるモデルの有効性についても検討した。 このモデルは、あるグラフクラスに対する従来のテクニックよりも優れています。 しかし、このモデルはデータのランダム性に影響を受けやすいようで、予想よりもロバスト性は低いようだ。

Planar graph drawings tend to be aesthetically pleasing. In this poster we explore a Neural Network's capability of learning various planar graph classes. Additionally, we also investigate the effectiveness of the model in generalizing beyond planarity. We find that the model can outperform conventional techniques for certain graph classes. The model, however, appears to be more susceptible to randomness in the data, and seems to be less robust than expected.
翻訳日:2022-09-07 10:42:13 公開日:2022-09-05