このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220805となっている論文です。

PDF登録状況(公開日: 20220805)

TitleAuthorsAbstract論文公表日・翻訳日
# バックプロパゲーションフリーフォトニックネットワークにおけるモナディックパブロヴィアン連想学習

Monadic Pavlovian associative learning in a backpropagation-free photonic network ( http://arxiv.org/abs/2011.14709v3 )

ライセンス: Link先を確認
James Y. S. Tan, Zengguang Cheng, Johannes Feldmann, Xuan Li, Nathan Youngblood, Utku E. Ali, C. David Wright, Wolfram H. P. Pernice and Harish Bhaskaran(参考訳) 1世紀以上前、イヴァン・パブロフ(Ivan P. Pavlov)は古典的な実験で、犬が鳴る鐘と食べ物を関連付けることを学べることを示した。 今日では、他の学習概念、特に人工知能ニューラルネットワーク(ANN)のバックプロパゲーションが盛んであるにもかかわらず、パブロフ型連想学習を人工知能(AI)応用に適用することはまれである。 しかし、従来のANNのバックプロパゲーション手法を用いたトレーニングは、特に現代のディープニューラルネットワーク(DNN)の形で、計算的かつエネルギー集約的である。 本稿では,単一(あるいは単調)連想ハードウェア要素を用いたバックプロパゲーションフリー学習の形式を実験的に示す。 位相変化材料とオンチップカスケード方向カプラを組み合わせた統合フォトニックプラットフォーム上でこれを実現する。 次に,モナディックなパブロフフォトニックハードウェアを用いて,単要素アソシエーションに基づく独自の機械学習フレームワークを提供するスケールアップ回路ネットワークを開発し,さらに,バックプロパゲーションフリーアーキテクチャを用いて一般的な学習課題に対処する。 本手法は,従来のニューラルネットワークの学習による計算負荷を低減し,高速化を実現するとともに,フォトニック実装に固有の帯域幅も高めている。

Over a century ago, Ivan P. Pavlov, in a classic experiment, demonstrated how dogs can learn to associate a ringing bell with food, thereby causing a ring to result in salivation. Today, it is rare to find the use of Pavlovian type associative learning for artificial intelligence (AI) applications even though other learning concepts, in particular backpropagation on artificial neural networks (ANNs) have flourished. However, training using the backpropagation method on 'conventional' ANNs, especially in the form of modern deep neural networks (DNNs), is computationally and energy intensive. Here we experimentally demonstrate a form of backpropagation-free learning using a single (or monadic) associative hardware element. We realize this on an integrated photonic platform using phase-change materials combined with on-chip cascaded directional couplers. We then develop a scaled-up circuit network using our monadic Pavlovian photonic hardware that delivers a distinct machine-learning framework based on single-element associations and, importantly, using backpropagation-free architectures to address general learning tasks. Our approach reduces the computational burden imposed by learning in conventional neural network approaches, thereby increasing speed, whilst also offering higher bandwidth inherent to our photonic implementation.
翻訳日:2023-04-22 14:39:20 公開日:2022-08-05
# トランスバーサブルワームホールプロトコルにおける演算子による多体量子テレポーテーション

Many-body quantum teleportation via operator spreading in the traversable wormhole protocol ( http://arxiv.org/abs/2102.00010v2 )

ライセンス: Link先を確認
Thomas Schuster, Bryce Kobrin, Ping Gao, Iris Cong, Emil T. Khabiboulline, Norbert M. Linke, Mikhail D. Lukin, Christopher Monroe, Beni Yoshida, Norman Y. Yao(参考訳) 一対の量子ビット間の共有絡み合いを利用することで、ある粒子から別の粒子へ量子状態をテレポートすることができる。 近年の進歩により、量子テレポーテーションは本質的に多体一般化され、エレガントで驚くほど重力に結びついている。 特に、量子情報のテレポーテーションは、ホログラフィック的に重力と双対な強い相互作用を持つ系に由来する多体力学に依存しており、重力の観点からは、そのような量子テレポーテーションは、トラバース可能なワームホールを通して情報の伝達として理解することができる。 本稿では,ピークサイズテレポーテーションと呼ばれる多体量子テレポーテーションの新しいメカニズムを提案し,解析する。 興味深いことに、ピークサイズのテレポーテーションは、トラベル可能なワームホール・テレポーテーションと全く同じタイプの量子回路を利用するが、完全に微妙な起源を持つ。 本研究では,ランダムユニタリ回路,sachdev-ye-kitaevモデル(高温の場合),1次元スピンチェーン,弦補正を伴うバルク重力理論など,物理系の多様な景観において,解析的および数値的にピークサイズのテレポーテーションの普遍性を示す。 私たちの結果は、多体量子テレポーテーションを強力な実験ツールとして利用する道を開いた。 (i)強相関系における作用素のサイズ分布の特徴と (ii)総称と本質的な重力スクランブルダイナミクスの区別。 この目的のために、捕捉されたイオンとリドバーグ原子配列の両方における多体量子テレポーテーションを実現するための詳細な実験的青写真を提供する。

By leveraging shared entanglement between a pair of qubits, one can teleport a quantum state from one particle to another. Recent advances have uncovered an intrinsically many-body generalization of quantum teleportation, with an elegant and surprising connection to gravity. In particular, the teleportation of quantum information relies on many-body dynamics, which originate from strongly-interacting systems that are holographically dual to gravity; from the gravitational perspective, such quantum teleportation can be understood as the transmission of information through a traversable wormhole. Here, we propose and analyze a new mechanism for many-body quantum teleportation -- dubbed peaked-size teleportation. Intriguingly, peaked-size teleportation utilizes precisely the same type of quantum circuit as traversable wormhole teleportation, yet has a completely distinct microscopic origin: it relies upon the spreading of local operators under generic thermalizing dynamics and not gravitational physics. We demonstrate the ubiquity of peaked-size teleportation, both analytically and numerically, across a diverse landscape of physical systems, including random unitary circuits, the Sachdev-Ye-Kitaev model (at high temperatures), one-dimensional spin chains and a bulk theory of gravity with stringy corrections. Our results pave the way towards using many-body quantum teleportation as a powerful experimental tool for: (i) characterizing the size distributions of operators in strongly-correlated systems and (ii) distinguishing between generic and intrinsically gravitational scrambling dynamics. To this end, we provide a detailed experimental blueprint for realizing many-body quantum teleportation in both trapped ions and Rydberg atom arrays; effects of decoherence and experimental imperfections are analyzed.
翻訳日:2023-04-13 08:43:27 公開日:2022-08-05
# 時間依存性強い相互作用に対する摂動対角化

Perturbative diagonalization for time-dependent strong interactions ( http://arxiv.org/abs/2103.09260v3 )

ライセンス: Link先を確認
Z. Xiao, E. Doucet, T. Noh, L. Ranzani, R. W. Simmonds, L. C. G. Govia, and A. Kamal(参考訳) 時間依存シュリーファー・ヴォルフ変換に基づく摂動ハミルトン対角化の体系的手法を提案する。 本手法を強いパラメトリック相互作用に適用することにより,分散状態においても,完全なrabiモデル物理が服装スペクトルを記述する上で重要であることを示す。 実験結果から, パラメトリック相互作用を媒介するポンプの周波数と振幅に適応し, 大きなエネルギー準位シフトの実現を含む, 定性的に新しい結果が得られた。 ブラッホ・シーガートシフトは、通常は超強結合系や深強結合系においてのみ重要であると考えられているが、弱い分散相互作用であっても大きな展開が可能であり、特定のポンプ周波数での装束シフト("blind spots')の正確なキャンセル点を実現することができる。 ここで開発されたフレームワークは、時間依存相互作用でアクセス可能なリッチな物理学を強調し、強い相互作用を持つ量子システムの制御と読み出しの機能を大幅に拡張するのに役立つ。

We present a systematic method to implement a perturbative Hamiltonian diagonalization based on the time-dependent Schrieffer-Wolff transformation. Applying our method to strong parametric interactions we show how, even in the dispersive regime, full Rabi model physics is essential to describe the dressed spectrum. Our results unveil several qualitatively new results including realization of large energy-level shifts, tunable in magnitude and sign with the frequency and amplitude of the pump mediating the parametric interaction. Crucially Bloch-Siegert shifts, typically thought to be important only in the ultra-strong or deep-strong coupling regimes, can be rendered large even for weak dispersive interactions to realize points of exact cancellation of dressed shifts (`blind spots') at specific pump frequencies. The framework developed here highlights the rich physics accessible with time-dependent interactions and serves to significantly expand the functionalities for control and readout of strongly-interacting quantum systems.
翻訳日:2023-04-07 23:23:35 公開日:2022-08-05
# 表面上の原子間原子集合電子スピン量子ビットプラットフォーム

An electron-spin qubit platform assembled atom-by-atom on a surface ( http://arxiv.org/abs/2108.09880v2 )

ライセンス: Link先を確認
Yu Wang, Yi Chen, Hong T. Bui, Christoph Wolf, Masahiro Haze, Cristina Mier, Jinkyung Kim, Deung-jang Choi, Christopher P. Lutz, Yujeong Bae, Soo-Hyon Phark, Andreas J. Heinrich(参考訳) 原子スケールで量子コヒーレントなアーキテクチャを構築することは、長い間量子科学とナノテクノロジーの野望だった。 この究極の長さスケールは、多くの固体環境で自然に起こる電子スピンのような原子の基本量子特性を利用し、電磁的な方法で高忠実な操作と読み出しを可能にする。 しかし、数十年の努力にもかかわらず、複数の電子スピン量子ビットを精密に組み立て、制御結合し、コヒーレントに操作できる原子スケールの量子アーキテクチャを実現することは、依然として素晴らしい課題である。 例えば半導体のドーパントや絶縁体の色中心で生成される電子スピン量子ビットは、個別に6-8で制御できるが、回路に結合することは難しい。 一方, 走査型トンネル顕微鏡 (STM) を用いて複雑な原子構造を構築することで, 表面上の複数の磁性原子と分子を結合させることができるが, コヒーレント動作はトンネル接合の1量子ビットに制限されている。 ここでは、原子間構造、コヒーレント操作、表面上の複数の電子スピン量子ビットの読み出しを示すことにより、原子スケールの量子ビットプラットフォームを示す。 トンネル接合の外側にある遠隔量子ビットのコヒーレント制御を可能にするため、近傍の単原子磁石から各電子スピンを局所磁場勾配で補完する。 リモート量子ビットの読み出しを可能にするため、トンネル接合部にセンサ量子ビットを用い、パルス二重電子スピン共鳴を実装した。 これらの手法を用いて、全電気方式で高速なシングルビット、2ビット、3ビット演算を実演する。 我々の研究はアングストロームスケールの量子ビットプラットフォームを作り、そこでは電子スピンアレイを用いた量子関数が表面上に原子単位で構築された。

Creating a quantum-coherent architecture at the atomic scale has long been an ambition in quantum science and nanotechnology. This ultimate length scale requires the use of fundamental quantum properties of atoms, such as the spin of electrons, which naturally occurs in many solid-state environments and allows high-fidelity operations and readout by electromagnetic means. Despite decades of effort, however, it remains a formidable task to realize an atomic-scale quantum architecture where multiple electron spin qubits can be precisely assembled, controllably coupled, and coherently operated. Electron spin qubits created in dopants in semiconductors and color centers in insulators, for example, can be well controlled individually6-8 but are difficult to couple together into a circuit. On the other hand, multiple magnetic atoms and molecules on surfaces can be coupled to each other by building sophisticated atomic structures using a scanning tunneling microscope (STM), but coherent operation has so far been limited to a single qubit in the tunnel junction. Here we demonstrate an atomic-scale qubit platform by showing atom-by-atom construction, coherent operations, and readout of multiple electron-spin qubits on a surface. To enable the coherent control of remote qubits that are outside the tunnel junction, we complement each electron spin with a local magnetic field gradient from a nearby single-atom magnet. To enable readout of remote qubits, we employ a sensor qubit in the tunnel junction and implement pulsed double electron spin resonance. Using these methods, we demonstrate fast single-, two-, and three-qubit operations in an all-electrical fashion. Our work marks the creation of an Angstrom-scale qubit platform, where quantum functionalities using electron spin arrays, built atom-by-atom on a surface, are now within reach.
翻訳日:2023-03-17 12:24:47 公開日:2022-08-05
# 先進量子ビットの量子設計:プラズモニウム

Quantum design for advanced qubits: plasmonium ( http://arxiv.org/abs/2109.00994v3 )

ライセンス: Link先を確認
Feng-Ming Liu, Ming-Cheng Chen, Can Wang, Shao-Wei Li, Zhong-Xia Shang, Chong Ying, Jian-Wen Wang, Cheng-Zhi Peng, Xiaobo Zhu, Chao-Yang Lu, Jian-Wei Pan(参考訳) 多数の結合量子自由度を持つ複雑な量子電子回路は、古典的コンピュータでシミュレートすることは難しくなり、効率的なシミュレーションのために量子コンピュータを必要とする。 次世代量子プロセッサの量子支援設計における中心的な概念となる。 本稿では,超伝導量子回路をプラズモン遷移状態をカバーする様々なパラメータで模擬する変分量子固有解器について述べる。 我々はこの新しい量子ビットを作製し、高い単一ビットと2量子ゲートの忠実度(それぞれ99.85(1)%と99.58(3)%)を示すだけでなく、物理サイズの縮小(60%)とトランスモンよりも大きい(50%)アンハーモニック性を示し、マルチキュービットデバイスのスケールアップに多くの利点をもたらすことを示した。 我々の研究は、既存の量子コンピューティングリソースを使用して高度な量子プロセッサを設計する方法を開く。

The increasingly complex quantum electronic circuits with a number of coupled quantum degrees of freedom will become intractable to be simulated on classical computers, and requires quantum computers for an efficient simulation. In turn, it will be a central concept in quantum-aided design for next-generation quantum processors. Here, we demonstrate variational quantum eigensolvers to simulate superconducting quantum circuits with varying parameters covering a plasmon-transition regime, which reveals an advanced post-transmon qubit, "plasmonium". We fabricate this new qubit and demonstrate that it exhibits not only high single- and two-qubit gate fidelities (99.85(1)% and 99.58(3)%, respectively), but also a shrinking (by 60%) physical size and larger (by 50%) anharmonicity than the transmon, which can bring a number of advantages for scaling up multi-qubit devices. Our work opens the way to designing advanced quantum processors using existing quantum computing resources.
翻訳日:2023-03-16 08:35:07 公開日:2022-08-05
# マルコフ熱過程の連続的熱大化と完全集合

Continuous thermomajorization and a complete set of laws for Markovian thermal processes ( http://arxiv.org/abs/2111.12130v2 )

ライセンス: Link先を確認
Matteo Lostaglio, Kamil Korzekwa(参考訳) 量子熱力学に対する標準的な力学アプローチは、大きな環境に弱結合した系の熱化を記述するマルコフマスター方程式と、エントロピー生成関係のようなツールに基づいている。 本稿では,現在の力学と情報理論のアプローチが直面する限界を克服する新しい枠組みを考案する。 より正確には、連続熱行列化の概念を導入し、システムの与えられた初期エネルギー分布と最終エネルギー分布の間で変換されるマルコフ熱過程の存在に必要な十分な条件を得る。 これらのことは、標準的なものを含む一般化エントロピー生成の不等式を特殊ケースとして完全に成す。 重要なことに、これらの条件はマスター方程式の下で非平衡変換を管理する有限検証可能な制約集合に還元できる。 さらに、フレームワークは構造的であり、任意の許容される変換を実現する明示的なプロトコルを返す。 これらのプロトコルは基本熱分解のビルディングブロックとして使われ、普遍制御であることが証明されている。 最後に、マルコフ熱過程を通じて与えられた初期状態から実現可能なエネルギー分布の完全なセットを構築するアルゴリズムを示し、ラップトップコンピュータ上で$d=6$を数分で解く$\texttt{mathematica}$実装を提供する。

The standard dynamical approach to quantum thermodynamics is based on Markovian master equations describing the thermalization of a system weakly coupled to a large environment, and on tools such as entropy production relations. Here we develop a new framework overcoming the limitations that the current dynamical and information theory approaches encounter when applied to this setting. More precisely, we introduce the notion of continuous thermomajorization, and employ it to obtain necessary and sufficient conditions for the existence of a Markovian thermal process transforming between given initial and final energy distributions of the system. These lead to a complete set of generalized entropy production inequalities including the standard one as a special case. Importantly, these conditions can be reduced to a finitely verifiable set of constraints governing non-equilibrium transformations under master equations. What is more, the framework is also constructive, i.e., it returns explicit protocols realizing any allowed transformation. These protocols use as building blocks elementary thermalizations, which we prove to be universal controls. Finally, we also present an algorithm constructing the full set of energy distributions achievable from a given initial state via Markovian thermal processes and provide a $\texttt{Mathematica}$ implementation solving $d=6$ on a laptop computer in minutes.
翻訳日:2023-03-07 01:56:26 公開日:2022-08-05
# 消散誘起秩序: オーミックバスに結合した$S=1/2$量子スピン鎖

Dissipation-Induced Order: The $S=1/2$ Quantum Spin Chain Coupled to an Ohmic Bath ( http://arxiv.org/abs/2112.02124v2 )

ライセンス: Link先を確認
Manuel Weber, David J. Luitz, Fakher F. Assaad(参考訳) S=1/2$反強磁性量子ハイゼンベルク鎖を考えると、各部位はオーミック散逸を伴う独立したボゾン浴に結合する。 浴とのカップリングは、大域SO(3)スピン対称性を保存する。 大規模で近似のない量子モンテカルロシミュレーションを用いて,浴槽への有限結合が長距離反強磁性秩序を安定化することを示す。 これは孤立ハイゼンベルク連鎖とは対照的に、SO(3)対称性の自発的な破れはメルミン=ワグナーの定理によって禁止される。 線形スピン波理論解析により、浴槽の記憶と共振子相互作用が秩序を安定化させることを確認した。 ハイゼンベルク鎖では、オーミック浴は限界摂動であり、小さなカップリングで長距離秩序を観測するには指数関数的に大きなシステムサイズが必要となる。 この長さスケール以下では、我々の数値は、スピン相関が空間と時間における異なるパワーロー挙動を示すクロスオーバーレジームによって支配されている。 この交叉現象の実験的関連について論じる。

We consider an $S=1/2$ antiferromagnetic quantum Heisenberg chain where each site is coupled to an independent bosonic bath with ohmic dissipation. The coupling to the bath preserves the global SO(3) spin symmetry. Using large-scale, approximation-free quantum Monte Carlo simulations, we show that any finite coupling to the bath suffices to stabilize long-range antiferromagnetic order. This is in stark contrast to the isolated Heisenberg chain where spontaneous breaking of the SO(3) symmetry is forbidden by the Mermin-Wagner theorem. A linear spin-wave theory analysis confirms that the memory of the bath and the concomitant retarded interaction stabilize the order. For the Heisenberg chain, the ohmic bath is a marginal perturbation so that exponentially large system sizes are required to observe long-range order at small couplings. Below this length scale, our numerics is dominated by a crossover regime where spin correlations show different power-law behaviors in space and time. We discuss the experimental relevance of this crossover phenomena.
翻訳日:2023-03-05 23:47:29 公開日:2022-08-05
# 分子スピンにおける多重量子相互作用

Multi-qudit interactions in molecular spins ( http://arxiv.org/abs/2112.09714v2 )

ライセンス: Link先を確認
\'Alvaro G\'omez-Le\'on(参考訳) 我々は、光子を介する分子スピンqudit間の相互作用について研究した。 結晶場の異方性(非線形スピン項の存在)と多値構造を含む分子スピン間の効果的な相互作用を微視的モデルから導出する。 最後に,複数スケール解析法を用いて,相互作用する分子スピンの長い時間ダイナミクスを計算した。 これにより、分子スピンの特定の選択のために実現できる2量子ゲートの集合を見つけ、その実装に必要な時間を決定することができる。 この結果は,不等間隔なquditsの一般システムにおける論理ゲートの実装や,情報を符号化・処理するための適切な計算部分空間の決定に関係している。

We study photon-mediated interactions between molecular spin qudits in the dispersive regime of operation. We derive from a microscopic model the effective interaction between molecular spins, including their crystal field anisotropy (i.e., the presence of non-linear spin terms) and their multi-level structure. Finally, we calculate the long time dynamics for a pair of interacting molecular spins using the method of multiple scales analysis. This allows to find the set of 2-qudit gates that can be realized for a specific choice of molecular spins and to determine the time required for their implementation. Our results are relevant for the implementation of logical gates in general systems of qudits with unequally spaced levels or to determine an adequate computational subspace to encode and process the information.
翻訳日:2023-03-04 07:01:30 公開日:2022-08-05
# 合成磁性による耐雑音光機械的絡み合い

Noise-Tolerant Optomechanical Entanglement via Synthetic Magnetism ( http://arxiv.org/abs/2201.10814v2 )

ライセンス: Link先を確認
Deng-Gao Lai, Jie-Qiao Liao, Adam Miranowicz, and Franco Nori(参考訳) 光と多重振動の絡み合いは、マルチチャネル量子情報処理とメモリの重要な資源である。 しかし、複数の縮退あるいは近縮退振動モードと共通の光学モードとのカップリングによって引き起こされる暗モード(DM)効果により、絡み合いの発生は一般的に抑制されるか、あるいは完全に破壊される。 本稿では, 合成磁性によって引き起こされる光力学的絡み合いの発生方法を提案する。 非ゼロ温度では、光と振動はDM非破壊状態では「emph{sparable」、DM非破壊状態では「emph{entangled」となる。 興味深いことに, シミュレーションにおけるエンタングルメント保存のためのしきい値の熱フォノン数は, DMアンブレイク方式よりも桁違いに強いことが観察されている。 DM遮断機構のオプティメカルネットワークへの適用により、耐雑音性のある絡み合いネットワークの実現が可能となる。 これらの結果は極めて一般的であり、ダークモードと熱雑音の両方に対して免疫を持つ量子リソースの進歩を起動することができる。

Entanglement of light and multiple vibrations is a key resource for multi-channel quantum information processing and memory. However, entanglement generation is generally suppressed, or even fully destroyed, by the dark-mode (DM) effect induced by the coupling of multiple degenerate or near-degenerate vibrational modes to a common optical mode. Here we propose how to generate optomechanical entanglement via \emph{DM breaking} induced by synthetic magnetism. We find that at nonzero temperature, light and vibrations are \emph{separable} in the DM-unbreaking regime but \emph{entangled} in the DM-breaking regime. Remarkably, the threshold thermal phonon number for preserving entanglement in our simulations has been observed to be up to \emph{three} orders of magnitude stronger than that in the DM-unbreaking regime. The application of the DM-breaking mechanism to optomechanical networks can make noise-tolerant entanglement networks feasible. These results are quite general and can initiate advances in quantum resources with immunity against both dark modes and thermal noise.
翻訳日:2023-02-27 20:34:03 公開日:2022-08-05
# QUIRK: 量子コンピューティングアプリケーションベンチマークのためのフレームワーク

QUARK: A Framework for Quantum Computing Application Benchmarking ( http://arxiv.org/abs/2202.03028v3 )

ライセンス: Link先を確認
Jernej Rudi Fin\v{z}gar, Philipp Ross, Leonhard H\"olscher, Johannes Klepsch, Andre Luckow(参考訳) 量子コンピューティング(QC)は、最適化、シミュレーション、機械学習の特定の問題に対して、古典的なHPCアプローチよりも高速になると予想されている。 実用的な応用に向けた量子コンピューティングの進歩により、異なる量子解を分析し比較する必要性が高まった。 QC用の異なる低レベルベンチマークが存在するが、これらのベンチマークは実際のアプリケーションレベルのパフォーマンスに関する十分な洞察を提供していない。 本稿では,アプリケーション中心のベンチマーク手法とquantum computing application benchmark(quark)フレームワークを提案する。 This paper establishes three significant contributions: (1) it makes a case for application-level benchmarks and provides an in-depth "pen and paper" benchmark formulation of two reference problems: robot path and vehicle option optimization from the industrial domain; (2) it proposes the open-source QUARK framework for designing, implementing, executing, and analyzing benchmarks; (3) it provides multiple reference implementations for these two reference problems based on different known, and where needed, extended, classical and quantum algorithmic approaches and analyzes their performance on different types of infrastructures.

Quantum computing (QC) is anticipated to provide a speedup over classical HPC approaches for specific problems in optimization, simulation, and machine learning. With the advances in quantum computing toward practical applications, the need to analyze and compare different quantum solutions increases. While different low-level benchmarks for QC exist, these benchmarks do not provide sufficient insights into real-world application-level performance. We propose an application-centric benchmark method and the QUantum computing Application benchmaRK (QUARK) framework to foster the investigation and creation of application benchmarks for QC. This paper establishes three significant contributions: (1) it makes a case for application-level benchmarks and provides an in-depth "pen and paper" benchmark formulation of two reference problems: robot path and vehicle option optimization from the industrial domain; (2) it proposes the open-source QUARK framework for designing, implementing, executing, and analyzing benchmarks; (3) it provides multiple reference implementations for these two reference problems based on different known, and where needed, extended, classical and quantum algorithmic approaches and analyzes their performance on different types of infrastructures.
翻訳日:2023-02-26 15:20:09 公開日:2022-08-05
# スピン依存スクイーズによる捕捉イオン量子ビット間のn$-body相互作用

$N$-body interactions between trapped ion qubits via spin-dependent squeezing ( http://arxiv.org/abs/2202.04230v2 )

ライセンス: Link先を確認
Or Katz, Marko Cetina, Christopher Monroe(参考訳) トラップされた原子イオン量子ビット間の相互作用を1ステップで生成する簡単なプロトコルについて述べる。 クビット状態依存のスクイーズ動作と原子運動の変位力によって、フル$N$ボディ相互作用が生成されることを示す。 イオン量子コンピュータとシミュレータのコアにおけるM{\o}lmer-S{\o}rensen二体Ising相互作用と同様に、提案された動作は運動の状態に比較的敏感である。 この$N$-bodyゲート操作によって、強力な$N$-Toffoliゲートのような、特定の状態にある他のすべての$N$-$1$ qubitが1つの量子ビットを反転させるような、N$-bitゲート操作のファミリーを1ステップで実装できることを示す。

We describe a simple protocol for the single-step generation of $N$-body entangling interactions between trapped atomic ion qubits. We show that qubit state-dependent squeezing operations and displacement forces on the collective atomic motion can generate full $N$-body interactions. Similar to the M{\o}lmer-S{\o}rensen two-body Ising interaction at the core of most trapped ion quantum computers and simulators, the proposed operation is relatively insensitive to the state of motion. We show how this $N$-body gate operation allows the single-step implementation of a family of $N$-bit gate operations such as the powerful $N$-Toffoli gate, which flips a single qubit if and only if all other $N$-$1$ qubits are in a particular state.
翻訳日:2023-02-26 07:12:01 公開日:2022-08-05
# 開量子系に対する場理論的アプローチとlindblad方程式

Field-theoretical approach to open quantum systems and the Lindblad equation ( http://arxiv.org/abs/2202.05203v2 )

ライセンス: Link先を確認
Hans C. Fogedby(参考訳) 我々は、凝縮物質多体法に基づくオープン量子システムに対する体系的場理論的アプローチを開発する。 開量子系における還元密度行列の時間発展は透過行列によって決定される。 図式摂動理論を発展させ、ウィックの定理を熱平衡におけるカルデイラ・レゲット量子振動子環境と関連付け、伝達行列は既約核によって特徴づけられるダイソン方程式を満たす。 中島・ズワンツィヒや標準的なアプローチとは異なり、ダイソン方程式は減密度行列に対する一般の非マルコフマスター方程式と等価であり、世俗的な効果を取り入れ、初期準備とは独立である。 核は相互作用の力の系統的図式展開によって決定される。 我々は、カーネルのボルン近似を考える。 凝縮マター極、または同値な準粒子型近似を時間スケール分離の通常の仮定と等価に適用すると、マルコフ型のマスター方程式を導出する。 さらに、回転波近似を適用すれば、リンドブラッド形式のマルコフマスター方程式が得られる。 本手法を説明するために,熱湯に結合した単一キュービットの標準的な例を考察する。

We develop a systematic field-theoretical approach to open quantum systems based on condensed-matter many-body methods. The time evolution of the reduced density matrix for the open quantum system is determined by a transmission matrix. Developing diagrammatic perturbation theory, invoking Wick's theorem in connection with a Caldeira-Leggett quantum oscillator environment in thermal equilibrium, the transmission matrix satisfies a Dyson equation characterized by an irreducible kernel. Unlike the Nakajima-Zwanzig and standard approaches, the Dyson equation is equivalent to a general non-Markovian master equation for the reduced density matrix, incorporating secular effects and independent of the initial preparation. The kernel is determined by a systematic diagrammatic expansion in powers of the interaction. We consider the Born approximation for the kernel. Applying a condensed-matter pole or, equivalently, a quasiparticle-type approximation, equivalent to the usual assumption of a timescale separation, we derive a master equation of the Markov type. Furthermore, imposing the rotating-wave approximation,we obtain a Markov master equation of the Lindblad form. To illustrate the method, we consider the standard example of a single qubit coupled to a thermal heat bath.
翻訳日:2023-02-26 04:40:05 公開日:2022-08-05
# 古典的レート理論におけるキャビティ誘起分岐

Cavity-induced bifurcation in classical rate theory ( http://arxiv.org/abs/2202.12182v2 )

ライセンス: Link先を確認
Kalle S. U. Kansanen and Tero T. Heikkil\"a(参考訳) 双安定系のアンサンブルと共振器場との結合が、このアンサンブルの集合確率的挙動にどのように影響するかを示す。 特に、空洞はシステム間の効果的な相互作用を提供し、準安定状態間の遷移率をパラメトリック的に調節する。 我々は,あるしきい値を超える結合強度に対して,空洞は,双安定系の定常状態が分岐し,一方の状態が優先的に結合する自発的対称性の破れを生じることを予測した。 この効果はシステムキャビティ結合強度の分布に大きく依存する。 カップリングの交互符号の場合、分岐は位相分離として現れる。 この結果は、キャビティの存在が化学反応に影響を与えることが示唆された分極化学において特に関係している。

We show how coupling an ensemble of bistable systems to a common cavity field affects the collective stochastic behavior of this ensemble. In particular, the cavity provides an effective interaction between the systems, and parametrically modifies the transition rates between the metastable states. We predict that for a coupling strength exceeding a certain threshold, the cavity induces a spontaneous symmetry breaking where the stationary states of the bistable system bifurcate and the systems coalesce preferentially in one of the states. The effect crucially depends on the distribution of system-cavity coupling strengths. In the case of alternating signs of the couplings, the bifurcation shows up as a phase separation. Our results are of particular relevance in polaritonic chemistry where the presence of a cavity has been suggested to affect chemical reactions.
翻訳日:2023-02-24 01:33:43 公開日:2022-08-05
# 最適熱化

Optimizing thermalizations ( http://arxiv.org/abs/2202.12616v2 )

ライセンス: Link先を確認
Kamil Korzekwa, Matteo Lostaglio(参考訳) 熱浴との弱い相互作用を通じて、与えられた初期状態からアクセス可能な量子システムのエネルギー占有の完全な集合をアルゴリズム的に特徴付けるために、連続的熱大化の概念に基づく厳密なアプローチを提案する。 アルゴリズムは、平衡外設定における複雑な最適化問題を解くためにデプロイされ、最適変換を実現する明示的な初等制御シーケンスを返す。 本稿では, 冷却, 作業抽出, 触媒反応の文脈で最適なプロトコルを見出すことにより, これを説明する。 同じツールにより、熱力学プロトコルの性能においてメモリ効果が果たす役割を定量的に評価することもできる。 私たちは、次元$d\leq 7$のシステムのためのラップトップマシンで、徹底的なソリューションを得たが、ヒューリスティックな方法では、ずっと高い$d$にアクセスできる。

We present a rigorous approach, based on the concept of continuous thermomajorisation, to algorithmically characterise the full set of energy occupations of a quantum system accessible from a given initial state through weak interactions with a heat bath. The algorithm can be deployed to solve complex optimization problems in out-of-equilibrium setups and it returns explicit elementary control sequences realizing optimal transformations. We illustrate this by finding optimal protocols in the context of cooling, work extraction and catalysis. The same tools also allow one to quantitatively assess the role played by memory effects in the performance of thermodynamic protocols. We obtained exhaustive solutions on a laptop machine for systems with dimension $d\leq 7$, but with heuristic methods one could access much higher $d$.
翻訳日:2023-02-23 23:35:08 公開日:2022-08-05
# ハバード鎖における磁気励起、非古典性、量子ウェイクスピンダイナミクス

Magnetic excitations, non-classicality and quantum wake spin dynamics in the Hubbard chain ( http://arxiv.org/abs/2203.06332v4 )

ライセンス: Link先を確認
Pontus Laurell and Allen Scheie and D. Alan Tennant and Satoshi Okamoto and Gonzalo Alvarez and Elbio Dagotto(参考訳) 近年の研究では、多成分の絡み合いの目撃者である量子フィッシャー情報(qfi)と、局所的な実空間実時間スピンダイナミクスのプローブである磁力ファンホーブ相関(英語版) $g(r,t)$ が、スピン系の非弾性中性子散乱から、動的スピン構造因子 $s(k,\omega)$ の正確な測定によってうまく抽出できることが示されている。 ここでは、理論上これらのアイデアを、最も近いホッピングを持つ半充填ハバードチェーンに適用し、強結合限界から遠ざかる。 このモデルは、非相互作用限界 (u=0$) から強いカップリング (u\rightarrow \infty$) への s(k,\omega)$ のスペクトル重の非自明な再分配を持ち、ハイゼンベルク量子スピンチェーンに還元される。 密度行列再正規化群(DMRG)を用いて$S(k,\omega)$を求め、そこからQFIを計算する。 qfiは$u$で成長している。 現実的なエネルギー分解能によって、U=2.5$(ホッピングの単位)以上の二部体の絡み合いを見ることができるようになり、傾きも変化する。 この点はまた、帯域幅$W(U)$とハーフチェインのフォン・ノイマン絡みエントロピーの勾配変化を近似する。 我々は$G(r,t)$ by Fourier-transforming $S(k,\omega)$を計算する。 その結果、強磁性光錐波面を特徴とする短距離U$の短距離力学と、強磁性光錐と空間的周期倍の反強磁性を特徴とする大規模U$のハイゼンベルク様挙動の交叉が示唆された。 このクロスオーバーは大体$U=3$で完了している。 その結果、いくつかの点で、ハバード鎖の強い結合限界は、比較的穏やかな相互作用強度で定性的に到達していることを示す。 低u$で見つかる$g(r,t)$ダイナミクスを観察するための実験的な候補について検討する。

Recent work has demonstrated that quantum Fisher information (QFI), a witness of multipartite entanglement, and magnetic Van Hove correlations $G(r,t)$, a probe of local real-space real-time spin dynamics, can be successfully extracted from inelastic neutron scattering on spin systems through accurate measurements of the dynamical spin structure factor $S(k,\omega)$. Here we apply theoretically these ideas to the half-filled Hubbard chain with nearest-neighbor hopping, away from the strong-coupling limit. This model has nontrivial redistribution of spectral weight in $S(k,\omega)$ going from the non-interacting limit ($U=0$) to strong coupling ($U\rightarrow \infty$), where it reduces to the Heisenberg quantum spin chain. We use the density matrix renormalization group (DMRG) to find $S(k,\omega)$, from which QFI is then calculated. We find that QFI grows with $U$. With realistic energy resolution it becomes capable of witnessing bipartite entanglement above $U=2.5$ (in units of the hopping), where it also changes slope. This point is also proximate to slope changes of the bandwidth $W(U)$ and the half-chain von Neumann entanglement entropy. We compute $G(r,t)$ by Fourier-transforming $S(k,\omega)$. The results indicate a crossover in the short-time short-distance dynamics at low $U$ characterized by ferromagnetic lightcone wavefronts, to a Heisenberg-like behavior at large $U$ featuring antiferromagnetic lightcones and spatially period-doubled antiferromagnetism. We find this crossover has largely been completed by $U=3$. Our results thus provide evidence that, in several aspects, the strong-coupling limit of the Hubbard chain is reached qualitatively already at a relatively modest interaction strength. We discuss experimental candidates for observing the $G(r,t)$ dynamics found at low $U$.
翻訳日:2023-02-22 07:32:42 公開日:2022-08-05
# 零次元におけるエルゴディディティ破壊遷移

Ergodicity breaking transition in zero dimensions ( http://arxiv.org/abs/2203.08844v2 )

ライセンス: Link先を確認
Jan \v{S}untajs and Lev Vidmar(参考訳) 量子多体系におけるエルゴード性破壊遷移のおもちゃモデルを確立することは、現在非常に興味深い。 ここでは、エルゴード量子ドットとスピン1/2の遠方の粒子とのカップリングを調整して、熱力学的極限におけるエルゴードから非エルゴード遷移を示すモデルについて検討する。 このモデルは事実上ゼロ次元であるが、de roeck と huveneers によって、一次元乱れたスピン鎖のエルゴディシティ崩壊遷移の雪崩メカニズムを記述するために、モデルの変種が提唱された。 本研究では, スペクトル形状係数計算に基づく正確な数値計算結果が理論予測と正確に一致していることを示し, エルゴディディティ破壊遷移の存在を明白に確認する。 有限系におけるエルゴード性破壊遷移の指標を表す特定の特性をベンチマークする。

It is of great current interest to establish toy models of ergodicity breaking transitions in quantum many-body systems. Here we study a model that is expected to exhibit an ergodic to nonergodic transition in the thermodynamic limit upon tuning the coupling between an ergodic quantum dot and distant particles with spin-1/2. The model is effectively zero dimensional, however, a variant of the model was proposed by De Roeck and Huveneers to describe the avalanche mechanism of ergodicity breaking transition in one-dimensional disordered spin chains. We show that exact numerical results based on the spectral form factor calculation accurately agree with theoretical predictions, and hence unambiguously confirm existence of the ergodicity breaking transition in this model. We benchmark specific properties that represent hallmarks of the ergodicity breaking transition in finite systems.
翻訳日:2023-02-21 22:49:51 公開日:2022-08-05
# Lisbon Hotspots: 時間境界位置証明のためのWi-Fiアクセスポイントデータセット

Lisbon Hotspots: Wi-Fi access point dataset for time-bound location proofs ( http://arxiv.org/abs/2208.04741v1 )

ライセンス: Link先を確認
Rui Claro and Samih Eisa and Miguel L. Pardal(参考訳) Wi-Fiホットスポットは、個人デバイスをインターネットに接続する手段を提供するため、旅行者、特に観光客にとって貴重なリソースである。 この余分な接続は、例えば、地図やチャットアプリケーションがセルラー接続が利用できない、あるいは高価である場合に屋外で動作できるようにするために、多くの状況で役立つ。 小売店や多くの公共サービスは、ホットスポットが顧客を引きつけ、維持する可能性があると認識しており、その多くが無料でオープンなWi-Fiを提供している。 忙しい都市では、多くの地元住民や観光客がいるため、ホットスポットの数は非常に大きい。 これらのホットスポットのいくつかは長期間利用でき、他は短命である。 ホットスポットを収集するデバイスを持つユーザが多い場合、他のユーザがその場所で観察した短命なホットスポットを使用して、ロケーション -- 長寿命のホットスポットを使用する -- を検出し、その場所を訪問した時間を証明するために使用できます。 本稿では,ポルトガル・リスボンの観光地において重要な観光地から収集されたwi-fiデータのデータセットについて紹介する。 得られたデータとアルゴリズムは、スマートツーリズムという特定のユースケースで評価された。 また,観測データを格納するためのデータモデルと,ユーザデバイスの位置を特定時間に検出・証明するために開発されたアルゴリズムを提案する。 Lisbon HotspotsデータセットであるLXspotsは、科学コミュニティに公開されており、他の研究者もそれを利用して、新しく革新的なモバイルおよびIoTアプリケーションを開発することができる。

Wi-Fi hotspots are a valuable resource for people on the go, especially tourists, as they provide a means to connect personal devices to the Internet. This extra connectivity can be helpful in many situations, e.g., to enable map and chat applications to operate outdoors when cellular connectivity is unavailable or is expensive. Retail stores and many public services have recognized that hotspots have potential to attract and retain customers, so many of them offer free and open Wi-Fi. In busy cities, with many locals and visitors, the number of hotspots is very significant. Some of these hotspots are available for long periods of time, while others are short-lived. When we have many users with devices collecting hotspot observations, they can be used to detect the location -- using the long-lived hotspots -- and to prove the time when the location was visited -- using the short-lived hotspots observed by others users at the location. In this article, we present a dataset of collected Wi-Fi data from the most important tourist locations in the city of Lisbon, Portugal, over a period of months, that was used to show the feasibility of using hotspot data for location detection and proof. The obtained data and algorithms were assessed for a specific use case: smart tourism. We also present the data model used to store the observations and the algorithms developed to detect and prove location of a user device at a specific time. The Lisbon Hotspots dataset, LXspots, is made publicly available to the scientific community so that other researchers can also make use of it to develop new and innovative mobile and Internet of Things applications.
翻訳日:2023-02-19 10:29:11 公開日:2022-08-05
# 初心者SPARCプログラマによる共通エラーの予備的データ駆動分析

A Preliminary Data-driven Analysis of Common Errors Encountered by Novice SPARC Programmers ( http://arxiv.org/abs/2208.03090v1 )

ライセンス: Link先を確認
Zach Hansen (University of Nebraska Omaha), Hanxiang Du (University of Florida), Wanli Xing (University of Florida), Rory Eckel (Texas Tech University), Justin Lugo (MRC LLC), Yuanlin Zhang (Texas Tech University)(参考訳) 論理プログラミングの現代的な開発であるAnswer Set Programming (ASP)は、STEM科目とコンピューティングの自然な統合を可能にする。 この統合は、K-12教育において広く認められた課題に対処し、ASPベースの統合に関する初期の経験的な結果が有望である。 ASPは命令型プログラミング言語と比較すると単純な言語だが、プログラミングエラーは学生にとって重要な障壁である。 ASP.NETの初心者ユーザであるK-12の学生には特に当てはまります。 エラーの分類と難易度の測定は、javaのような命令型言語に対する洞察をもたらした。 しかし、k-12の学生がasp.netで遭遇したエラーの種類や難しさについてはほとんど知られていない。 そこで我々は,asp言語sparcを指導する4セッションセミナーで提出した高校生のプログラムを収集した。 このデータセットのエラーメッセージから、エラークラスの集合を特定し、各クラスの発生頻度と解決の難しさを測定します。

Answer Set Programming (ASP), a modern development of Logic Programming, enables a natural integration of Computing with STEM subjects. This integration addresses a widely acknowledged challenge in K-12 education, and early empirical results on ASP-based integration are promising. Although ASP is considered a simple language when compared with imperative programming languages, programming errors can still be a significant barrier for students. This is particularly true for K-12 students who are novice users of ASP. Categorizing errors and measuring their difficulty has yielded insights into imperative languages like Java. However, little is known about the types and difficulty of errors encountered by K-12 students using ASP. To address this, we collected high school student programs submitted during a 4-session seminar teaching an ASP language known as SPARC. From error messages in this dataset, we identify a collection of error classes, and measure how frequently each class occurs and how difficult it is to resolve.
翻訳日:2023-02-19 10:21:20 公開日:2022-08-05
# MIX-RS:リモートセンシングデータストレージのためのHDFSに基づくマルチインデックスシステム

MIX-RS: A Multi-indexing System based on HDFS for Remote Sensing Data Storage ( http://arxiv.org/abs/2208.02987v1 )

ライセンス: Link先を確認
Jiashu Wu, Jingpan Xiong, Hao Dai, Yang Wang, Chengzhong Xu(参考訳) 衛星技術の展開に伴い、大量のリモートセンシング(rs)データが生成されている。 このデータは、生態モニタリング、土地管理、砂漠化などの研究を促進する。 rsデータ(例えば、巨大なボリューム、大きな単一ファイルサイズ、フォールトトレランスの要求)の特徴により、hadoop distributed file system(hdfs)は効率的でスケーラブルで、障害回復のためのデータレプリケーションメカニズムを備えているため、rsデータストレージにとって理想的な選択肢となっている。 RSデータを使用するには、地理空間インデックス化が最も重要なテクニックである。 しかし、巨大なデータボリュームは、効率的に構築し、活用するのに時間がかかる。 現代のほとんどの地理空間データセンタはHDFSベースのビッグデータ処理インフラストラクチャを備えているため、複数の地理空間インデックスのデプロイは、有効性を最適化するために自然なものになる。 さらに、高品質なハードウェアによって導入された信頼性とRSデータの頻繁な変更により、マルチインデックスの使用は大きなオーバーヘッドを生じさせない。 そこで我々は,hdfs上でマルチインデクシング機構を統一したマルチインデクシングrs(mix-rs)と呼ばれるフレームワークを設計し,フォールトトレランスと地理空間インデクシングの効率を両立させるデータレプリケーションを実現する。 HDFSが提供する耐障害性を考えると、RSデータは構造的に内部に格納され、地理空間インデックスがより高速になる。 さらに、マルチインデックスは効率を高める。 提案手法はhdfs上に自然に存在し、厳しいオーバーヘッドやシステム実装の精巧さを伴わずに総合的なフレームワークを形成する。 MIX-RSフレームワークは中国科学アカデミーが提供する実リモートセンシングデータを用いて実装・評価され、優れた地理空間インデックス性能を示す。

A large volume of remote sensing (RS) data has been generated with the deployment of satellite technologies. The data facilitates research in ecological monitoring, land management and desertification, etc. The characteristics of RS data (e.g., enormous volume, large single-file size and demanding requirement of fault tolerance) make the Hadoop Distributed File System (HDFS) an ideal choice for RS data storage as it is efficient, scalable and equipped with a data replication mechanism for failure resilience. To use RS data, one of the most important techniques is geospatial indexing. However, the large data volume makes it time-consuming to efficiently construct and leverage. Considering that most modern geospatial data centres are equipped with HDFS-based big data processing infrastructures, deploying multiple geospatial indices becomes natural to optimise the efficacy. Moreover, because of the reliability introduced by high-quality hardware and the infrequently modified property of the RS data, the use of multi-indexing will not cause large overhead. Therefore, we design a framework called Multi-IndeXing-RS (MIX-RS) that unifies the multi-indexing mechanism on top of the HDFS with data replication enabled for both fault tolerance and geospatial indexing efficiency. Given the fault tolerance provided by the HDFS, RS data is structurally stored inside for faster geospatial indexing. Additionally, multi-indexing enhances efficiency. The proposed technique naturally sits on top of the HDFS to form a holistic framework without incurring severe overhead or sophisticated system implementation efforts. The MIX-RS framework is implemented and evaluated using real remote sensing data provided by the Chinese Academy of Sciences, demonstrating excellent geospatial indexing performance.
翻訳日:2023-02-19 10:21:07 公開日:2022-08-05
# 開光格子系のき裂様モードにおけるフロケット加熱誘起ボース凝縮

Floquet-heating-induced Bose condensation in a scar-like mode of an open driven optical-lattice system ( http://arxiv.org/abs/2204.07147v2 )

ライセンス: Link先を確認
Alexander Schnell, Ling-Na Wu, Artur Widera, Andr\'e Eckardt(参考訳) 周期的に駆動される量子システムは共鳴励起による加熱に苦しむ。 このようなフロケ加熱は、一般的な孤立系を無限温度状態へと導くが、熱浴と結合した駆動開系は非平衡定常状態に近づく。 浴槽の消散とフロケット加熱制御の相互作用が,フロケット加熱から保護されたモードで非平衡ボース凝縮を生じさせることを示した。 特に,1次元(1次元)ボース気体を有限幅の光学格子で検討し,第2の原子種によって与えられる3次元熱浴と弱結合する。 浴温$t$は交叉温度よりもかなり高く、その下には系の粒子の大半が(有限の大きさの)ボース凝縮物を形成している。 しかし、強い局所ポテンシャル変調がスイッチオンされ、共鳴的に系が励起されると、非平衡ボース凝縮体が駆動から分離する状態に形成される。 Floquet-Born-Markov理論から導かれる運動の運動方程式を用いて解く顕微鏡モデルに基づく予測は,現実的な実験条件下で行うことができる。

Periodically driven quantum systems suffer from heating via resonant excitation. While such Floquet heating guides a generic isolated system towards the infinite-temperature state, a driven open system, coupled to a thermal bath, will approach a non-equilibrium steady state. We show that the interplay of bath-induced dissipation and controlled Floquet heating can give rise to non-equilibrium Bose condensation in a mode protected from Floquet heating. In particular, we consider a one-dimensional (1D) Bose gas in an optical lattice of finite extent, which is coupled weakly to a three-dimensional thermal bath given by a second atomic species. The bath temperature $T$ lies well above the crossover temperature, below which the majority of the system's particles form a (finite-size) Bose condensate in the ground state. However, when a strong local potential modulation is switched on, which resonantly excites the system, a non-equilibrium Bose condensate is formed in a state that decouples from the drive. Our predictions, which are based on a microscopic model that is solved using kinetic equations of motion derived from Floquet-Born-Markov theory, can be probed under realistic experimental conditions.
翻訳日:2023-02-16 23:58:46 公開日:2022-08-05
# 特許解析のための文埋め込みモデルの性能調査

A Survey on Sentence Embedding Models Performance for Patent Analysis ( http://arxiv.org/abs/2206.02690v3 )

ライセンス: Link先を確認
Hamid Bekamiri, Daniel S. Hain, Roman Jurowetzki(参考訳) 特許データは、イノベーション研究における重要な知識の源であり、特許のペア間の技術的類似性は、特許分析の鍵となる指標である。 最近の研究者は、異なるNLP埋め込みモデルに基づく特許ベクトル空間モデルを使用して、イノベーション、特許造園、技術マッピング、および特許品質評価の理解を深めるために、特許のペア間の技術的類似性を計算する。 たいていの場合、Text Embeddingは特許分析タスクにとって重要な先駆者だ。 これらの埋め込みの精度をどうやって測定し、評価するべきか? 私たちの知る限りでは、特許の類似性指標を計算するために埋め込みモデルのパフォーマンスを明確に記述した包括的な調査はありません。 そこで本研究では,これらのアルゴリズムの精度を特許分類性能に基づいて概説し,PhilipsSBERTaアプローチに基づく埋め込みモデルの精度を評価するための標準ライブラリとデータセットを提案する。 詳細な議論では、セクション、クラス、サブクラスの上位3つのアルゴリズムの性能について報告する。 特許の最初の主張に基づく結果は、PatentSBERTa, Bert-for-patents, TF-IDF Weighted Word Embeddingsがサブクラスレベルでの文埋め込みの計算に最適であることを示している。 最初の結果によると、異なるクラスのモデルの性能が異なるため、特許分析の研究者は、この研究の結果を利用して、使用した特許データの特定のセクションに基づいて最適なモデルを選択することができる。

Patent data is an important source of knowledge for innovation research, while the technological similarity between pairs of patents is a key enabling indicator for patent analysis. Recently researchers have been using patent vector space models based on different NLP embeddings models to calculate the technological similarity between pairs of patents to help better understand innovations, patent landscaping, technology mapping, and patent quality evaluation. More often than not, Text Embedding is a vital precursor to patent analysis tasks. A pertinent question then arises: How should we measure and evaluate the accuracy of these embeddings? To the best of our knowledge, there is no comprehensive survey that builds a clear delineation of embedding models' performance for calculating patent similarity indicators. Therefore, in this study, we provide an overview of the accuracy of these algorithms based on patent classification performance and propose a standard library and dataset for assessing the accuracy of embeddings models based on PatentSBERTa approach. In a detailed discussion, we report the performance of the top 3 algorithms at section, class, and subclass levels. The results based on the first claim of patents show that PatentSBERTa, Bert-for-patents, and TF-IDF Weighted Word Embeddings have the best accuracy for computing sentence embeddings at the subclass level. According to the first results, the performance of the models in different classes varies, which shows researchers in patent analysis can utilize the results of this study to choose the best proper model based on the specific section of patent data they used.
翻訳日:2023-02-15 06:24:32 公開日:2022-08-05
# 計量調整スキュー情報による厳密な和の不確実性関係

Tighter sum uncertainty relations via metric-adjusted skew information ( http://arxiv.org/abs/2205.09286v2 )

ライセンス: Link先を確認
Hui Li, Ting Gao, Fengli Yan(参考訳) 本稿では,3つの一般ノルム不等式を最初に提示し,計量調整スキュー情報を用いて任意の有限可観測数と量子チャネルの新しい不確実性関係を与える。 結果はwigner-yaase-dysonスキュー情報として特殊ケースに適用できる。 チャネルの不確かさの定量化では,2種類の下界を議論し,それらの間の強みを比較する。 私達が得た不確実性関係は、既存の関係より強い。 結果を説明するために、いくつかの具体例を挙げる。

In this paper, we first provide three general norm inequalities, which are used to give new uncertainty relations of any finite observables and quantum channels via metric-adjusted skew information. The results are applicable to its special cases as Wigner-Yanase-Dyson skew information. In quantifying the uncertainty of channels, we discuss two types of lower bounds and compare the tightness between them, meanwhile, a tight lower bound is given. The uncertainty relations obtained by us are stronger than the existing ones. To illustrate our results, we give several specific examples.
翻訳日:2023-02-12 16:10:20 公開日:2022-08-05
# 同一粒子系における不明瞭性の生成--量子資源アクティベーターとしての空間的変形

Generating indistinguishability within identical particle systems: spatial deformations as quantum resource activators ( http://arxiv.org/abs/2205.12136v2 )

ライセンス: Link先を確認
Matteo Piccolini, Farzam Nosrati, Gerardo Adesso, Roberto Morandotti, Rosario Lo Franco(参考訳) 同一の量子部分系は古典的な性質を持たない性質を持つことができる。 長く議論された現象として、同一粒子の識別不能性は様々な基本的な物理的結果の核心にあることが示されている。 空間自由度に係わる場合には、空間的変形によって空間的波動関数を重ね合わせて同一成分を区別できないようにすることができる。 量子力学の法則により、空間的自由度にのみ依存し、重なり合う領域でのみ実行される量を解くために設計された測定は、システム内の1つの特定の粒子に測定結果を割り当てることができない。 その結果、測定された性質が同一成分間で共有される絡み合った状態となる。 本研究では, 一般のn$粒子シナリオにおける変形概念のコヒーレントな形式化と, 識別不能性の適度な尺度を提案する。 我々は,非特異粒子のシナリオと基本的相違点を強調し,空間変形の固有な役割を「局所的局所化操作と古典的通信」の運用枠組みにおける絡み合いアクティベーターとして論じる。

Identical quantum subsystems can possess a property which does not have any classical counterpart: indistinguishability. As a long-debated phenomenon, identical particles' indistinguishability has been shown to be at the heart of various fundamental physical results. When concerned with the spatial degree of freedom, identical constituents can be made indistinguishable by overlapping their spatial wave functions via appropriately defined spatial deformations. By the laws of quantum mechanics, any measurement designed to resolve a quantity which depends on the spatial degree of freedom only and performed on the regions of overlap is not able to assign the measured outcome to one specific particle within the system. The result is an entangled state where the measured property is shared between the identical constituents. In this work, we present a coherent formalization of the concept of deformation in a general $N$-particle scenario, together with a suitable measure of the degree of indistinguishability. We highlight the basic differences with nonidentical particles scenarios and discuss the inherent role of spatial deformations as entanglement activators within the "spatially localized operations and classical communication" operational framework.
翻訳日:2023-02-11 21:53:16 公開日:2022-08-05
# 有限フレークにおける高次高調波発生に対する位相的エッジ状態の寄与

Topological edge-state contributions to high-order harmonic generation in finite flakes ( http://arxiv.org/abs/2205.12810v2 )

ライセンス: Link先を確認
Christoph J\"ur{\ss} and Dieter Bauer(参考訳) エッジ状態は、そのような物質の唯一の導電性部分であるため、位相絶縁体の電子動力学において重要な役割を果たす。 本研究では,強レーザー場を受ける2次元トポロジカル絶縁体のHaldaneモデルについて考察する。 ハルダン模型のバルクにおける数値シミュレーションされた高調波発生 (HHG) と, エッジ状態の対応する有限フレークにおけるHHGとの比較を行い, その相違を解説した。 特に、バルクバンドギャップ以下のエネルギーのピークは有限フレークのスペクトルに現れる。 これらのピークの位置はフレークの大きさに強く依存しており、エッジ状態の分散関係を用いて説明することができる。

Edge states play a major role in the electron dynamics of topological insulators as they are the only conducting part in such materials. In this work, we consider the Haldane model for a 2D topological insulator, subjected to an intense laser field. We compare the numerically simulated high-harmonic generation (HHG) in the bulk of the Haldane model to HHG in corresponding finite flakes with edge states present, and explain the differences. In particular, peaks for energies below the bulk band gap appear in the spectra for the finite flakes. The positions of these peaks show a strong dependence on the size of the flakes, which can be explained using the dispersion relation for the edge states.
翻訳日:2023-02-11 19:25:35 公開日:2022-08-05
# マクロ磁気障壁による2次元位相絶縁体の端状態からの境界状態の生成

Formation of bound states from the edge states of 2D topological insulator by macroscopic magnetic barriers ( http://arxiv.org/abs/2206.05528v2 )

ライセンス: Link先を確認
D.V. Khomitsky, A.A. Konakov, E.A. Lavrukhina(参考訳) 2次元位相絶縁体の非局在エッジ状態からの境界状態形成のモデルは、hgte/cdte量子井戸のエッジに付着する磁気障壁の影響を考慮して導出される。 結果として得られる構造は、1次元量子ドットの空間形式を持ち、バリアパラメータに依存する境界状態の可変数を持つ。 エッジ状態とバリア間の交換相互作用の空間的プロファイルは、単一不純物磁気モーメントとの相互作用から導かれ、不純物の集合によって形成されるバリアバルク構造に対して一般化される。 得られたハミルトニアンは、磁気モーメントの強さや配向を含む障壁パラメータの関数として研究される。 2つのバリアの並列磁化については, バリア強度に関わらず, 少なくとも2つの離散レベルが形成される。 反パラレル磁化の場合、バリアの任意の強度に対して少なくとも1つの束縛状態を形成する。 我々の結果は、トポロジカル絶縁体に基づく新しいタイプの量子ドットの設計に役立つかもしれない。

A model of bound state formation from the delocalized edge states of 2D topological insulator is derived by considering the effects of magnetic barriers attached to the edge of the HgTe/CdTe quantum well. The resulting structure has a spatial form of 1D quantum dot with variable number of bound states depending on barrier parameters. The spatial profile of exchange interaction between the edge states and barriers is derived from the interaction with single impurity magnetic moment and is generalized for the barrier bulk structure formed by ensemble of impurities. The resulting Hamiltonian is studied as a function of barrier parameters including their strength and orientation of the magnetic moments. It is shown that for parallel magnetization of two barriers at least two discrete levels are formed regardless of the barrier strength. For antiparallel magnetization at least a single bound state is formed for any strength of the barriers. Our results may help in design of novel types of quantum dots based on topological insulators.
翻訳日:2023-02-09 20:37:21 公開日:2022-08-05
# 凸結合攻撃に基づくデバイス独立量子鍵分布における鍵レートの上限

Upper bounds on key rates in device-independent quantum key distribution based on convex-combination attacks ( http://arxiv.org/abs/2206.06245v2 )

ライセンス: Link先を確認
Karol {\L}ukanowski, Maria Balanz\'o-Juand\'o, M\'at\'e Farkas, Antonio Ac\'in and Jan Ko{\l}ody\'nski(参考訳) デバイスに依存しないフレームワークは、実装を信頼しない量子プロトコルに対する最も実践的なアプローチを構成する。 セキュリティに関するすべての主張は、エンドユーザの手による最終古典的データのレベルで行う必要がある。 これは、デバイス非依存の量子鍵分布(DIQKD)において達成可能なキーレートを決定する上で大きな課題となるが、悪意のあるサードパーティが生成したデータに起因した盗聴攻撃も考慮すべきである。 本研究では,この経路を探索し,上界DIQKD鍵レートの効率的かつ使いやすい手法として凸結合攻撃を提案する。 片道通信か双方向通信かにかかわらず、最先端プロトコルのキーレートの低い境界の精度を検証することができる。 特に, 有限可視性や検出効率などの実験的不完全性に対する diqkd プロトコルのロバスト性に関する現在予測されている制約が, 究極の許容しきい値に非常に近いことを実証する。

The device-independent framework constitutes the most pragmatic approach to quantum protocols that does not put any trust in their implementations. It requires all claims, about e.g. security, to be made at the level of the final classical data in hands of the end-users. This imposes a great challenge for determining attainable key rates in device-independent quantum key distribution (DIQKD), but also opens the door for consideration of eavesdropping attacks that stem from the possibility of a given data being just generated by a malicious third-party. In this work, we explore this path and present the convex-combination attack as an efficient, easy-to-use technique for upper-bounding DIQKD key rates. It allows verifying the accuracy of lower bounds on key rates for state-of-the-art protocols, whether involving one-way or two-way communication. In particular, we demonstrate with its help that the currently predicted constraints on the robustness of DIQKD protocols to experimental imperfections, such as the finite visibility or detection efficiency, are already very close to the ultimate tolerable thresholds.
翻訳日:2023-02-09 12:37:49 公開日:2022-08-05
# 最小支配集合問題に対するハイブリッド・カッコウ探索アルゴリズム

Hybrid cuckoo search algorithm for the minimum dominating set problem ( http://arxiv.org/abs/2208.02593v2 )

ライセンス: Link先を確認
Belkacem Zouilekh and Sadek Bouroubi(参考訳) 支配的なグラフの集合の概念は、およそ400年前にチェスのゲームから始まり、このゲームは、支配的なグラフの集合の分析を、1960年代初めまで比較的緩やかに引き起こし、数学的な記述が与えられた。 グラフ理論において最も重要な問題の一つであり、多項式時間では解決できないNP-Complete問題でもある。 その結果,本研究におけるMDS問題に対処する新たなハイブリッド・カクー検索手法について述べる。 Cuckoo searchは、検索空間の広い領域を探索する能力で有名なメタヒューリスティックなメタヒューリスティックであり、多様化に有用である。 しかし,性能向上のため,提案手法では遺伝的クロスオーバー演算子に加えて強化技術も取り入れた。 本手法とそれに対応する最先端技術との比較を徹底的な実験で行った。 提案したアルゴリズムは, 得られた結果により, 現状よりも優れていた。

The notions of dominating sets of graphs began almost 400 years ago with the game of chess, which sparked the analysis of dominating sets of graphs, at first relatively loosely until the beginnings of the 1960s, when the issue was given mathematical description. It's among the most important problems in graph theory, as well as an NP-Complete problem that can't be solved in polynomial time. As a result, we describe a new hybrid cuckoo search technique to tackle the MDS problem in this work. Cuckoo search is a well-known metaheuristic famed for its capacity for exploring a large area of the search space, making it useful for diversification. However, to enhance performance, we incorporated intensification techniques in addition to the genetic crossover operator in the suggested approach. The comparison of our method with the corresponding state-of-the-art techniques from the literature is presented in an exhaustive experimental test. The suggested algorithm outperforms the present state of the art, according to the obtained results.
翻訳日:2023-02-07 09:56:15 公開日:2022-08-05
# リング内のゲージ結合二体問題

The gauge coupled two-body problem in a ring ( http://arxiv.org/abs/2207.00996v2 )

ライセンス: Link先を確認
Joel Priestley, Gerard Valent\'i-Rojas, Ewan M. Wright, Patrik \"Ohberg(参考訳) リングに閉じ込められた2つの量子粒子の性質について検討する。 粒子は粒子間の距離に比例した長距離ゲージ電位を介して相互作用する。 2体基底状態は、粒子間の相互作用が十分に強いことを仮定して、非零角運動量の状態に対応する。 さらに、粒子は相互作用の強さに応じて、密接な結合または環内で分離される傾向があるという意味で相関している。 本研究では, 粒子の位置を計測し, 粒子を環から除去する効果について検討し, 残りの粒子を非零角運動量で非分散状態にすることができることを示した。

We study the properties of two quantum particles which are confined in a ring. The particles interact via a long-range gauge potential proportional to the distance between the particles. It is found that the two-body ground state corresponds to a state with non-zero angular momentum provided that the interaction between the particles is strong enough. In addition, the particles are correlated in the sense that depending on the interaction strength there is a propensity to be found close together or separated in the ring. We discuss the effect of measuring the position of one of the particles and thereby removing the particle from the ring, where we show that the remaining particle can be prepared in a non-dispersive state with non-zero angular momentum.
翻訳日:2023-02-06 21:28:42 公開日:2022-08-05
# カオスの確率的制御における動的絡み合い遷移

Dynamical entanglement transition in the probabilistic control of chaos ( http://arxiv.org/abs/2207.12415v2 )

ライセンス: Link先を確認
Thomas Iadecola, Sriram Ganeshan, J. H. Pixley, Justin H. Wilson(参考訳) 局所的な順序パラメータで表される監視量子系における動的絡み合い遷移を明らかにする。 古典的には、カオス系は不安定な周期軌道上で確率的に制御でき、制御が適用される速度の関数として制御され制御されていない位相を示す。 このような制御遷移は、局所的な測定とユニタリフィードバックによって制御が実装されるオープン量子システムにおいて持続する。 既知の制御遷移を持つ単純な古典モデルから始まり、カオス的体積則エンタングル位相と異方性制御相との間の拡散的遷移を示す量子モデルを定義する。 監視された量子回路の他の絡み合い遷移とは異なり、この遷移は個々の量子軌道を解くことなく相関関数によって探究することもできる。

We uncover a dynamical entanglement transition in a monitored quantum system that is heralded by a local order parameter. Classically, chaotic systems can be stochastically controlled onto unstable periodic orbits and exhibit controlled and uncontrolled phases as a function of the rate at which the control is applied. We show that such control transitions persist in open quantum systems where control is implemented with local measurements and unitary feedback. Starting from a simple classical model with a known control transition, we define a quantum model that exhibits a diffusive transition between a chaotic volume-law entangled phase and a disentangled controlled phase. Unlike other entanglement transitions in monitored quantum circuits, this transition can also be probed by correlation functions without resolving individual quantum trajectories.
翻訳日:2023-02-03 19:39:35 公開日:2022-08-05
# 拡張Su-Schrieffer-Heegerモデルの相互作用トポロジカル絶縁体の探索

Exploring interacting topological insulator of extended Su-Schrieffer-Heeger model ( http://arxiv.org/abs/2208.00390v2 )

ライセンス: Link先を確認
Xiaofan Zhou, Jian-Song Pan and Suotang Jia(参考訳) 相互作用するシステムにおけるトポロジ的フェーズの探索は難しい作業である。 本研究では,SSHモデルの2つの部分格子を4つの部分格子に拡張したSu-Schrieffer-Heeger(SSH)モデルにおいて,相互作用するフェルミオンの多体トポロジー物理について検討する。 トポロジカル絶縁体から電荷密度波(CDW)相への相互作用駆動相転移は, エンタングルメントスペクトル, エンタングルメントエントロピー, エネルギーギャップ, およびCDW秩序パラメータの変動を分析して同定することができる。 非自明な位相絶縁体、自明な絶縁体およびcdw相を含む多体基底状態の大域的位相図をそれぞれ写像する。 cdw相への相転移が一階相転移であると主張する相互作用型sshモデルとは対照的に、cdw相と位相自明/非自明相の間の相転移は連続相転移であることが示されている。 最後に、相互作用するスピンフルSSH4モデルの位相図を示し、そこでは魅力的な(反発的な)オンサイトスピン相互作用がCDW位相を増幅(抑制)する。 ここで解析されたモデルは、光学超格子上の超低温原子で実装することができる。

Exploring topological phases in interacting systems is a challenging task. We investigate many-body topological physics of interacting fermions in an extended Su-Schrieffer-Heeger (SSH) model, which extends the two sublattices of SSH model into four sublattices and thus is dubbed SSH4 model, based on the density-matrix renormalization-group numerical method. The interaction-driven phase transition from topological insulator to charge density wave (CDW) phase can be identified by analyzing the variations of entanglement spectrum, entanglement entropies, energy gaps, and CDW order parameter. We map the global phase diagram of the many-body ground state, which contains nontrivial topological insulator, trivial insulator and CDW phases, respectively. In contrast to interacting SSH model, in which the phase transitions to the CDW phase are argued to be first-order phase transitions, the phase transitions between the CDW phase and topologically trivial/nontrivial phases are shown to be continuous phase transitions. Finally, we {also} show the phase diagram of interacting spinful SSH4 model, where the attractive (repulsive) on-site spin interaction amplifies (suppresses) the CDW phase. The models analyzed here can be implemented with ultracold atoms on optical superlattices.
翻訳日:2023-02-02 21:36:34 公開日:2022-08-05
# ベリー-双極子転移における外因的非線形ホール効果

Extrinsic and Intrinsic Nonlinear Hall Effects across Berry-Dipole Transitions ( http://arxiv.org/abs/2208.02972v1 )

ライセンス: Link先を確認
Zheng-Yang Zhuang, Zhongbo Yan(参考訳) 3次元ホップ絶縁体(3-dimensional Hopf insulator)は、トポロジカル位相のクラスである。 異なるホップ不変量を持つ2つの回転不変ホップ絶縁体相を分離する臨界点は、通常のディラック型やワイル型臨界点とは大きく異なり、量子化されたベリー双極子によって特徴付けられる。 このようなベリー-双極子遷移に近く、弱ドーピング状態における外在的および内在的非線形ホール伝導率テンソルは、ドーピングレベルとバルクエネルギーギャップの比の2つの普遍関数によって特徴づけられ、遷移のホップ不変量の変化に直接比例する。 本研究は, 非線形ホール効果がベリー-双極子遷移にまたがる一般感覚量子化挙動を示し, 非線形ホール効果とホップ不変量との対応を確立することを示唆する。

Three-dimensional Hopf insulators are a class of topological phases beyond the tenfold-way classification. The critical point separating two rotation-invariant Hopf insulator phases with distinct Hopf invariants is quite different from the usual Dirac-type or Weyl-type critical points and uniquely characterized by a quantized Berry dipole. Close to such Berry-dipole transitions, we find that the extrinsic and intrinsic nonlinear Hall conductivity tensors in the weakly doped regime are characterized by two universal functions of the ratio between doping level and bulk energy gap, and are directly proportional to the change in Hopf invariant across the transition. Our work suggests that the nonlinear Hall effects display a general-sense quantized behavior across Berry-dipole transitions, establishing a correspondence between nonlinear Hall effects and Hopf invariant.
翻訳日:2023-02-02 04:59:34 公開日:2022-08-05
# 開量子系の制御における非ユニタリ対ユニタリ最適化

Non-unitary versus unitary optimization in the} control of open quantum systems ( http://arxiv.org/abs/2208.03114v1 )

ライセンス: Link先を確認
Marllos E. Fonseca, Felipe F. Fanchini, Emanuel F. de Lima, and Leonardo K. Castelano(参考訳) 本研究では,開量子システムにおけるkrotov法の性能と閉量子システムにおけるkrotov法(ユニタリ最適化)との比較を行い,クビットやクトリットを環境下で操作するための最適制御について検討した。 ユニタリ最適化の場合、krotov法は、環境との相互作用を無視する量子システムに適用され、その後、環境ノイズとともにシステムを操作するために制御が使用される。 我々は、与えられた初期状態からの目標状態の準備と量子ゲートの実装の2つの異なる制御問題を考える。 状態準備のために、[ have ] は、非ユニタリ最適化から得られる制御の性能が、ユニタリ最適化から得られる制御よりも優れていることを見出した。 しかし、量子ゲートの実装の場合、ユニタリ進化から得られる最適制御は、非ユニタリ進化から得られるものと同様の平均忠実性を示すことが判明した。 ユニタリ最適化は減衰率や特定のノイズには依存しないため、計算量が少なくなるため、オープン量子システムにおいて量子ゲートを実装するための現在のベストプラクティスはユニタリ最適化を採用することであることが示唆された。

In this work, we compare the performance of the Krotov method for open quantum systems (non-unitary optimization) with the Krotov method for closed quantum systems (unitary optimization) in finding optimal controls aimed at manipulating qubits and qutrits in the presence of the environment. In the case of unitary optimization, the Krotov method is applied to quantum system neglecting its interaction with the environment, afterwards the resulting controls are used to manipulate the system along with the eviromental noise. We consider two distinct control problems: target-state preparation from a given initial state and quantum gate implementation. For the state preparation, we {have found that the performance of the controls obtained from the non-unitary optimization outperform that of the controls obtained from the unitary optimization}. {However, in the case of the implementation of quantum gates, we have found that the optimal controls obtained from the unitary evolution exhibit a mean fidelity similar to that obtained from the non-unitary evolution. Since unitary optimization does not depend on decay rates nor on specific kinds of noise, besides being less computationally demanding, our results suggest that the best current practice to implement quantum gates in open quantum systems is to employ unitary optimization.
翻訳日:2023-02-02 04:56:52 公開日:2022-08-05
# 運動量空間における切り欠きを伴う拡張GUP定式化

Extended GUP formulation with and without truncation in momentum space ( http://arxiv.org/abs/2208.03101v1 )

ライセンス: Link先を確認
Sebastiano Segreto, Giovanni Montani(参考訳) ヤコビの同一性を満たす最も一般的な定式化である代数 $[\mathbf{\hat{x}},\mathbf{\hat{p}}]=i\hbar\sqrt{1+2\beta \mathbf{\hat{p}}^2}$ から導かれる拡張gup理論を分析する。 By means of functional analysis, first, we show how a natural formulation of the theory in an infinite momentum space does not lead to the emergence of a nonzero minimal uncertainty in position, then we construct a truncated formulation of the theory in momentum space, proving that only in this case we can recover the desired feature of the presence of a nonzero minimal uncertainty in position, which - as usual in these theories - can be interpreted as a phenomenological and effective manifestation of a quantum gravity effect. どちらの量子化スキームも完全に特徴づけられ、最終的に波状パケットの挙動と時間的進化を研究するために応用される。

We analyze the extended GUP theory deriving from the algebra $[\mathbf{\hat{x}},\mathbf{\hat{p}}]=i\hbar\sqrt{1+2\beta \mathbf{\hat{p}}^2}$, which is the most general formulation satisfying the Jacobi identity. By means of functional analysis, first, we show how a natural formulation of the theory in an infinite momentum space does not lead to the emergence of a nonzero minimal uncertainty in position, then we construct a truncated formulation of the theory in momentum space, proving that only in this case we can recover the desired feature of the presence of a nonzero minimal uncertainty in position, which - as usual in these theories - can be interpreted as a phenomenological and effective manifestation of a quantum gravity effect. Both quantization schemes are completely characterized and finally applied to study wave packets behavior and their evolution in time.
翻訳日:2023-02-02 04:56:34 公開日:2022-08-05
# 純置換対称3量子状態のSLOCC分類のための幾何学的画像

Geometric picture for SLOCC classification of pure permutation symmetric three-qubit states ( http://arxiv.org/abs/2208.03024v1 )

ライセンス: Link先を確認
K. Anjali, I.Reena, Sudha, B. G. Divyamani, H. S. Karthik, K. S. Mallesh, A. R. Usha Devi(参考訳) ブロッホ球面内に刻まれた量子ステアリング楕円体は、アリスとボブの間で共有される2量子ビット状態のエレガントな幾何学的可視化を提供する。 ボブのキュービットのブロッホベクトルの集合は、アリスによってキュービット上のすべての可能な局所的な測定によって操られ、ステアリング楕円形を構成する。 ステアリング楕円体は、絡み合った多ビット系で示されるモノガミーのような量子相関特性を捉えるのに有効であることが示されている。 ここでは、Alice と Bob による最適な局所フィルタリング操作を各キュービットに組み込むことにより実現した2量子状態の正準楕円体に着目した。 これらの標準形式に基づいて、確率的局所演算やSLOCC(Classcial Communication)では等価でない純交絡3量子置換対称状態から引き出された2量子状態が、異なる幾何学的シグネチャを持つことを示す。 エンタングル3キュービット純対称状態から抽出された縮小2キュービット状態のslocc正準形式とそれに伴うステアリング楕円体の詳細な解析を行う。 (i) 3つの異なるスピノルの置換により構成される純粋な対称3量子状態において、z方向(スペロイドの対称性軸)に沿った最長の半軸が1に等しいブロッホ球の起源を中心とするプロレートスフェロイド (ii) ブロッホ球面内で$(0,0,1/2)$を中心とし、固定された半軸の長さ(1/sqrt[2],\, 1/sqrt[2],\, 1/2)を持つ楕円型スフェロイド。 また、slocc非同値な純エンタングル3量子対称状態のステアリング楕円体の体積で定式化された体積単元関係についても検討する。

The quantum steering ellipsoid inscribed inside the Bloch sphere offers an elegant geometric visualization of two-qubit states shared between Alice and Bob. The set of Bloch vectors of Bob's qubit, steered by Alice via all possible local measurements on her qubit, constitutes the steering ellipsoid. The steering ellipsoids are shown to be effective in capturing quantum correlation properties, such as monogamy, exhibited by entangled multiqubit systems. We focus here on the canonical ellipsoids of two-qubit states realized by incorporating optimal local filtering operations by Alice and Bob on their respective qubits. Based on these canonical forms we show that the reduced two-qubit states drawn from pure entangled three-qubit permutation symmetric states, which are inequivalent under stochastic local operations and classcial communication (SLOCC), carry distinct geometric signatures. We provide detailed analysis of the SLOCC canonical forms and the associated steering ellipsoids of the reduced two-qubit states extracted from entangled three-qubit pure symmetric states: We arrive at (i) a prolate spheroid centered at the origin of the Bloch sphere -- with longest semiaxis along the z-direction (symmetry axis of the spheroid) equal to 1 -- in the case of pure symmetric three-qubit states constructed by permutation of 3 distinct spinors and (ii) an oblate spheroid centered at $(0,0,1/2)$ inside the Bloch sphere, with fixed semiaxes lengths (1/Sqrt[2],\, 1/Sqrt[2],\, 1/2)), when the three-qubit pure state is constructed via symmetrization of 2 distinct spinors. We also explore volume monogamy relations formulated in terms of the volumes of the steering ellipsoids of the SLOCC inequivalent pure entangled three-qubit symmetric states.
翻訳日:2023-02-02 04:54:54 公開日:2022-08-05
# 非検出光子を用いた位相量子イメージング

Phase-quadrature quantum imaging with undetected photons ( http://arxiv.org/abs/2208.03005v1 )

ライセンス: Link先を確認
Bj\"orn Erik Haase, Joshua Hennig, Mirco Kutas, Erik Waller, Julian Hering, Georg von Freymann, and Daniel Molter(参考訳) 検出されていない光子のセンシングは、他の領域の光子の同時検出を伴うスペクトル領域へのアクセスを可能にし、非線形干渉法に基づいている。 サンプルの完全な情報を得るためには,複数の測定値と位相変化によってこれまで実現されてきた振幅と位相の観点から,対応する干渉図を解析する必要がある。 本稿では,非検出光子を赤外線領域で撮像する非線形干渉計において,偏光光学に基づく位相量子実装を提案する。 これにより、異なる光路や位相を必要とせずに、単一の画像取得で位相と可視性を得ることができるため、動的プロセスの検出が可能となる。 検出された光子に不透明な静的位相マスクを用いた方法と,イソプロパノールフィルムの乾燥や粘着テープの伸長などの動的測定課題について,本手法の有用性を示す。

Sensing with undetected photons allows access to spectral regions with simultaneous detection of photons of another region and is based on nonlinear interferometry. To obtain the full information of a sample, the corresponding interferogram has to be analyzed in terms of amplitude and phase, which has been realized so far by multiple measurements followed by phase variation. Here, we present a polarization-optics-based phase-quadrature implementation in a nonlinear interferometer for imaging with undetected photons in the infrared region. This allows us to obtain phase and visibility with a single image acquisition without the need of varying optical paths or phases, thus enabling the detection of dynamic processes. We demonstrate the usefullness of our method on a static phase mask opaque to the detected photons as well as on dynamic measurement tasks as the drying of an isopropanol film and the stretching of an adhesive tape.
翻訳日:2023-02-02 04:54:21 公開日:2022-08-05
# 非エルミート的進化とリンドブラッド的進化の間の連続的変換

A continuous transformation between non-Hermitian and Lindbladian evolution ( http://arxiv.org/abs/2208.03310v1 )

ライセンス: Link先を確認
Daniel Finkelstein-Shapiro(参考訳) 非エルミートハミルトニアンと力学半群は、異なる種類の環境と相互作用する量子系を記述する上で最も重要なダイナミクスの生成元である。 第1のタイプは粒子崩壊を引き起こす反エルミート項による保守的な進化と異なり、第2のタイプは貯水池とのエネルギー交換を可能にするリンドブラッド形式の散逸作用素によって異なる。 しかし、ある条件下では、同じ可観測性を記述するために2種類の写像を使うことができるが、2つの間に連続的な変換が存在しないため、解集合を形成する。 本研究では、エネルギー$z$に依存し、チューナブルパラメータ$\Gamma_c$を持つ$L_{\text{mixed}}(\rho) = -i[H,\rho] + \sum_i \gamma_i(\frac{\Gamma_c}{z+\Gamma_c}F_i\rho F_i^{\dagger} -\frac{1}{2} \{F_i^{\dagger} F_i,\rho\}_+)$の動力学の一般化生成器を提案する。 制限は非エルミート(\gamma_c \to 0$)とリンドブラド力学(\gamma_c \to \infty$)である。 中間レジームは、0 \leq \text{tr} (\rho) \leq 1$ のような密度行列を進化させる。 粒子密度のシンクとして作用する連続体多様体の助けを借りて, 生成器を導出する。 このシステムは二次固有値問題を線形化して発展作用素を得るリウヴィル空間のコピーで解く。 粒子密度とエネルギーの両方をその環境と交換できるマップに対応し、その主な特徴を2段階システムで記述する。

Non-Hermitian Hamiltonians and dynamical semigroups are some of the most important generator of dynamics for describing quantum systems interacting with different kinds of environments. The first type differs from conservative evolution by an anti-Hermitian term that causes particle decay, while the second type differs by a dissipation operator in Lindblad form that allows energy exchange with a reservoir. However, although under some conditions the two types of maps can be used to describe the same observable, they form a disjoint set as there is no continuous transformation between the two. In this work, we propose a generalized generator of dynamics of the form $L_{\text{mixed}}(\rho) = -i[H,\rho] + \sum_i \gamma_i(\frac{\Gamma_c}{z+\Gamma_c}F_i\rho F_i^{\dagger} -\frac{1}{2} \{F_i^{\dagger} F_i,\rho\}_+)$ that depends on the energy $z$, and has a tunable parameter $\Gamma_c$ that determines the degree of particle density lost. It has as its limits non-Hermitian ($\Gamma_c \to 0$) and Lindbladian dynamics ($\Gamma_c \to \infty$). The intermediate regime evolves density matrices such that $0 \leq \text{Tr} (\rho) \leq 1$. We derive our generator with the help of an ancillary continuum manifold acting as a sink for particle density. The system is solved with a copy of Liouville space that linearizes a quadratic eigenvalue problem to obtain the evolution operator. It corresponds a map that can exchange both particle density and energy with its environment, and we describe its main features for a two level system.
翻訳日:2023-02-02 04:48:13 公開日:2022-08-05
# 大規模イジング問題に対するハイブリッドゲートベースおよびアニーリング量子コンピューティング

Hybrid Gate-Based and Annealing Quantum Computing for Large-Size Ising Problems ( http://arxiv.org/abs/2208.03283v1 )

ライセンス: Link先を確認
Chen-Yu Liu and Hsi-Sheng Goan(参考訳) ほとんどの量子コンピューティングアプリケーションの大きな問題の1つは、現実的な問題を解決するために必要な量子ビット数が、今日の量子ハードウェアよりもはるかに大きいことである。 我々は,大系サンプリング近似 (LSSA) と呼ばれるアルゴリズムを提案し,最大サイズが$N_{\rm{gb}}2^{N_{\rm{gb}}}$,最大サイズが$N_{\rm{gb}}$-qubitゲートベース量子コンピュータ,最大サイズが$N_{\rm{an}}2^{N_{\rm{gb}}}$のハイブリッド計算アーキテクチャで$N_{\rm{an}}$-qubit量子アニールと$N_{\rm{gb}}$-qubitゲートベース量子コンピュータのIsing問題を解く。 LSSAアルゴリズムは、全システム問題をより小さなサブシステムに分割することにより、ゲートベースの量子コンピュータまたは量子アンナーによるサブシステム問題を解き、ゲートベースの量子コンピュータ上の変分量子固有解法(VQE)により、各サブシステムのソリューションの振幅寄与を最適化し、近似基底状態構成を決定する。 5量子ビットゲート型量子コンピュータを用いた160変数までの完全接続ランダムイジング問題に対するlssaのレベル1近似を適用し、100量子ビット量子アニーラと7量子ビットゲート型量子コンピュータを用いて4096変数までのポートフォリオ最適化問題を解く。 5-qubit (n_{\rm{gb}}2^{2n_{\rm{gb}}}$) のゲートベースの量子コンピュータを用いて、5120 (n_{\rm{gb}}2^{2n_{\rm{gb}}}$) までのポートフォリオ最適化問題を解決するためにlssaのレベル2近似を用いることを実証した。 ハイブリッドゲート型・アニーリング量子コンピューティングアーキテクチャの全く新しい計算概念は、大規模イジング問題と組合せ最適化問題を調査する可能性を開き、近い将来量子コンピューティングによる実用的な応用を可能にする。

One of the major problems of most quantum computing applications is that the required number of qubits to solve a practical problem is much larger than that of today's quantum hardware. We propose an algorithm, called large-system sampling approximation (LSSA), to solve Ising problems with sizes up to $N_{\rm{gb}}2^{N_{\rm{gb}}}$ by an $N_{\rm{gb}}$-qubit gate-based quantum computer, and with sizes up to $N_{\rm{an}}2^{N_{\rm{gb}}}$ by a hybrid computational architecture of an $N_{\rm{an}}$-qubit quantum annealer and an $N_{\rm{gb}}$-qubit gate-based quantum computer. By dividing the full-system problem into smaller subsystem problems, the LSSA algorithm then solves the subsystem problems by either gate-based quantum computers or quantum annealers, optimizes the amplitude contributions of the solutions of the different subsystems with the full-problem Hamiltonian by the variational quantum eigensolver (VQE) on a gate-based quantum computer, and determines the approximated ground-state configuration. We apply the level-1 approximation of LSSA to solving fully-connected random Ising problems up to 160 variables using a 5-qubit gate-based quantum computer, and solving portfolio optimization problems up to 4096 variables using a 100-qubit quantum annealer and a 7-qubit gate-based quantum computer. We demonstrate the use of the level-2 approximation of LSSA to solve the portfolio optimization problems up to 5120 ($N_{\rm{gb}}2^{2N_{\rm{gb}}}$) variables with pretty good performance by using just a 5-qubit ($N_{\rm{gb}}$-qubit) gate-based quantum computer. The completely new computational concept of the hybrid gate-based and annealing quantum computing architecture opens a promising possibility to investigate large-size Ising problems and combinatorial optimization problems, making practical applications by quantum computing possible in the near future.
翻訳日:2023-02-02 04:47:24 公開日:2022-08-05
# QUSUM:最も速い量子変化点検出

QUSUM: quickest quantum change-point detection ( http://arxiv.org/abs/2208.03265v1 )

ライセンス: Link先を確認
Marco Fanizza, Christoph Hirche, John Calsamiglia(参考訳) イベントのシーケンスの変化をオンラインで検出することは、基本的で実用的なタスクである。 この研究では、量子バージョンの問題を考察し、よく知られた(古典的)キュームアルゴリズムを一般化して量子変化点を検出する。 提案アルゴリズムは,検出遅延と偽検出のトレードオフを増幅するために共同測定を利用する。量子変化点の場合,量子相対エントロピーが漸近的に特徴付けられる。 さらに、相対エントロピーは任意の適応的な測定戦略の下で漸近的に最適であることを示し、最も速い量子変化点検出のための究極のバウンドを与える。 最後に,量子チャネルにおけるオンライン変化点検出について述べる。

Online detection of a change in a sequence of events is a fundamental and practically relevant task. In this work we consider the quantum version of the problem, generalizing the well known (classical) CUSUM algorithm to detect a quantum change point. Our algorithm exploits joint measurements to amplify the trade-off between detection delay and false detections, which in the case of a quantum change point is asymptotically characterized by the quantum relative entropy. Furthermore we also show that the relative entropy is indeed asymptotically optimal under arbitrary, potentially adaptive, measurement strategies, hence providing the ultimate bound for the quickest quantum change-point detection. Finally, we discuss online change point detection in quantum channels.
翻訳日:2023-02-02 04:46:39 公開日:2022-08-05
# 量子光回路シミュレーションにおける光子部分識別性の実装

Implementation of photon partial distinguishability in a quantum optical circuit simulation ( http://arxiv.org/abs/2208.03250v1 )

ライセンス: Link先を確認
Javier Osca and Jiri Vala(参考訳) 本稿では,任意の光量子回路のシミュレーションにおいて,光子間の偏微分性を実現する手法を提案する。 光子の連続的な自由度は、その時間と周波数分布の情報を含む波束によって表される。 光子の部分的識別性を考慮するため、回路動作に伴う自由度を増加させる。 また、無限のウェーブパックの構成を離散部分集合に還元し、それぞれの光子ウェーブパックを整数インデックスでラベル付けし、残りの回路量子数と同じ基盤で扱うことができる。 これにより、量子回路の他の線形演算に使用される同じ行列形式で遅延演算を定義することができる。

This paper presents a method to implement partial distinguishability between photons in a simulation of an arbitrary optical quantum circuit. The continuous degrees of freedom of the photons are represented by wavepackets which contain information of their time and frequency distributions. In order to account for partial distinguishability of photons, we increase the number of degrees of freedom associated with the circuit operation. We also reduce the infinite wavepacket configurations to a discrete subset where each different photon wavepacket is labeled by an integer index that can be treated in the same footing as the rest of the circuit quantum numbers. This allows to define a delay operation in the same matrix formalism used for any other linear operation of a quantum circuit.
翻訳日:2023-02-02 04:46:27 公開日:2022-08-05
# 不定因数順序は熱力学過程の資源であるとは限らない

Indefinite causal order is not always a resource for thermodynamic processes ( http://arxiv.org/abs/2208.03205v1 )

ライセンス: Link先を確認
Matheus Capela, Harshit Verma, Fabio Costa and Lucas Chibebe C\'eleri(参考訳) 不定因果順序は、量子高次変換の研究における重要な特徴である。 近年、量子プロセスの明確な因果順序の欠如に関連する利点について、強い研究がなされている。 量子スイッチはしばしば、情報理論と熱力学のタスクに利点をもたらすと主張される。 ここでは、不定因数順序が量子熱力学の資源であるかどうかを問う。 本研究は,自由エネルギーとエルゴトロピーを長所とする文献のこれまでの成果に触発されて,同タイプの高次変換を比較することにより,プロセスの熱力学的価値を適切に比較するための枠組みを提案する。 具体的には、非マルコフ過程、因果的に順序付けられた高次変換が存在し、量子スイッチで得られた結果よりも優れていることを示す。 また,一般的なシナリオにおいて,不定因果順序から生じる可能性のある利点について検討する方法についても検討する。

Indefinite causal order is a key feature involved in the study of quantum higher order transformations. Recently, intense research has been focused on possible advantages related to the lack of definite causal order of quantum processes. Quite often the quantum switch is claimed to provide advantages in information-theoretic and thermodynamic tasks. We address here the question whether indefinite causal order is a resource for quantum thermodynamics. Inspired by previous results in the literature taking free energy and ergotropy as the figures of merit, we propose a framework for properly comparing the thermodynamic value of processes by comparing higher order transformations of the same type, and show that for the tasks considered here indefinite causal order is not necessary for thermodynamic advantages. More specifically, we show that there is a non-Markovian process, a causally ordered higher-order transformation, outperforming the results obtained for the quantum switch. We also discuss a possible way to study the advantages that may arise from indefinite causal order in a general scenario.
翻訳日:2023-02-02 04:46:17 公開日:2022-08-05
# 任意ヘリシティを有する無質量粒子の波動方程式

Wave equation of massless particles of arbitrary helicity ( http://arxiv.org/abs/2208.03154v1 )

ライセンス: Link先を確認
Abraham Lozada and S. Tabban(参考訳) 本研究では、任意のヘリシティの質量を持たない粒子の相対論的波動方程式の第一原理から導かれる。 我々は、制限されたポアンカルイ群のユニタリ射影既約表現から始める。 局所化のより弱い概念を定義し、特に任意のヘリシティを持つ無質量粒子の位置作用素を見つける。 したがって、これらの粒子の位置表現を持ち、この表現で波動方程式を得る。 この結果と過去の文献との比較を行った。

In this work, we derive from first principles the relativistic wave equation of massless particles of arbitrary helicity. We start from unitary projective irreducible representations of the restricted Poincar\'e group. We define a weaker notion of localization and find, in particular, a position operator for any massless particle of arbitrary helicity. Therefore, having the position representation for these particles, we obtain the wave equations in this representation. We compare our results with previous findings in the literature.
翻訳日:2023-02-02 04:45:44 公開日:2022-08-05
# 量子フィッシャー情報の直接測定

Direct measurement of quantum Fisher information ( http://arxiv.org/abs/2208.03140v1 )

ライセンス: Link先を確認
Xingyu Zhang, Xiao-Ming Lu, Jing Liu, Wenkui Ding and Xiaoguang Wang(参考訳) 断熱摂動理論では、ベリー曲率は一般化された力と関連しており、量子計量テンソルはエネルギーゆらぎと結びついている。 前者は多数の数値結果と実験的な実現でテストされるが、後者は考慮されていない。 量子フィッシャー情報は、量子精度測定の鍵であり、量子計量テンソルの4倍である。 量子フィッシャー情報と物理観測量との関係は困難である。 興味深い候補の1つは対称対数微分の二乗であり、理論上および実験上の両方を得るのは通常困難である。 断熱摂動理論は、量子フィッシャー情報を直接抽出するためにエネルギーゆらぎを測定することを私たちに啓発する。 本稿では,まず,量子フィッシャー情報へのエネルギーゆらぎのリンクを導出する方法を提案する。 次に,2レベルシステムにおける断熱摂動に基づく量子フィッシャー情報の直接抽出を数値的に検証し,実験的なパラメータによる窒素空洞中心での実験的実現をシミュレートする。 また, 横磁場イジングモデルやハイゼンベルクスピンチェーンなどの統計モデルについても, 解析結果と比較し, それぞれレベル交差を示す。 我々の議論は、量子フィッシャー情報を測定するための新しい実践的スキームを提供するとともに、量子フィッシャー情報の正確な測定と理解にも役立ちます。

In the adiabatic perturbation theory, Berry curvature is related to the generalized force, and the quantum metric tensor is linked with energy fluctuation. While the former is tested with numerous numerical results and experimental realizations, the latter is less considered. Quantum Fisher information, key to quantum precision measurement, is four times quantum metric tensor. It is difficult to relate the quantum Fisher information with some physical observable. One interesting candidate is square of the symmetric logarithmic derivative, which is usually tough to obtain both theoretically and experimentally. The adiabatic perturbation theory enlightens us to measure the energy fluctuation to directly extract the quantum Fisher information. In this article, we first adopt an alternative way to derive the link of energy fluctuation to the quantum Fisher information. Then we numerically testify the direct extraction of the quantum Fisher information based on adiabatic perturbation in two-level systems and simulate the experimental realization in nitrogen-vacancy center with experimentally practical parameters. Statistical models such as transverse field Ising model and Heisenberg spin chains are also discussed to compare with the analytical result and show the level crossing respectively. Our discussion will provide a new practical scheme to measure the quantum Fisher information, and will also benefit the quantum precision measurement and the understand of the quantum Fisher information.
翻訳日:2023-02-02 04:45:38 公開日:2022-08-05
# 遠方量子ドットスピン量子ビットによる量子情報の伝達における誤差の影響

Influence of errors on the transport of quantum information through distant quantum dot spin qubits ( http://arxiv.org/abs/2208.03116v1 )

ライセンス: Link先を確認
Iann Cunha and Leonardo Kleber Castelano(参考訳) 遠い量子ビットを接続する能力は、量子コンピューティングにおいて基本的な役割を果たす。 したがって、量子計算の量子系候補は、全ての構成量子ビットと相互作用できなければならない。 ここでは、近接相互作用を持つスピン鎖によって量子ドットスピン量子ビットをモデル化する。 このモデルでは、連続するSWAPゲートの作用により、遠方量子ビットの相互作用を行うことができる。 SWAPゲートは、2つの異なる量子ビットの情報を交換し、量子情報がシステムを介して伝播されるときに切替される近隣の量子ビットの時間依存的な相互作用によって得られる。 この方式を用いることで、普遍的な量子計算を得るための基本ゲートであるCNOTゲートも実装できる。 これらのゲートはデコヒーレンスのないシステムで探索され、遠方量子ビット間の非常に効率的な接続を提供する。 さらに, 散逸の発生状況を分析する。 このようなタスクを行うために、スピンチェーンの各部位におけるデファスメントと振幅減衰型のエラーについて検討する。 その結果,SWAPゲートとCNOTゲートの順序は重要であり,量子ビット数が大きい場合の忠実度に関連性があることが判明した。

The ability to connect distant qubits plays a fundamental role in quantum computing. Therefore, quantum systems candidates for quantum computation must be able to interact all their constituent qubits. Here, we model the quantum dot spin qubits by a spin chain with nearest-neighbors interaction. Within this model, we can perform the interaction of distant qubits by the action of consecutive SWAP gates. The SWAP gate exchange the information of two different qubits and it is obtained by a time-dependent interaction of nearest-neighbors qubits that is switched on and off as the quantum information is propagated through the system. By using this scheme, we also are able to implement the CNOT gate, which is a fundamental gate to obtain universal quantum computation. These gates are probed in a system free from decoherence, which provides a very efficient connection between distant qubits. Furthermore, we analyze the situation when the dissipation is present. To perform such a task, we consider dephasing and amplitude-damping types of errors in each site of the spin chain. We found that the order of the SWAP and CNOT gates is important and it can lead to a relevant difference in fidelity when the number of qubits is large.
翻訳日:2023-02-02 04:45:17 公開日:2022-08-05
# IBM量子コンピュータにおけるSchrieffer-Wolff変換

Schrieffer-Wolff Transformation on IBM Quantum Computer ( http://arxiv.org/abs/2208.04746v1 )

ライセンス: Link先を確認
Rukhsan Ul Haq, Basit Iqbal, Mohsin Illahi, Baseer Ahmad, Nazama(参考訳) シュリーファー・ヴォルフ変換(SWT)は量子多体物理学において低エネルギー有効ハミルトニアンを計算するために広く用いられている。 量子多体モデルにおける強い相関の正規化効果を理解するための摂動的方法を提供する。 シュリーファー・ウルフ変換の生成子は、通常ヒューリスティックな方法で計算される。 近年、この極めて重要な変換を計算するための体系的でエレガントな方法が報告されている[1]。 量子凝縮物質物理学、量子光学、量子空洞電気力学など、多くの分野におけるSWTの大きな重要性を考えると、量子コンピュータ上でSWTを実行するための量子アルゴリズムを開発することが不可欠である。 本稿では,この量子アルゴリズムを提唱し,単一不純物アンダーソンモデル (SIAM) に対して実効ハミルトニアンとして近藤モデルに到達したことを示す。 我々はQisKitに量子アルゴリズムを実装し、IBM Quantumコンピュータ上でSIAMのためのSWTを実行する。 私たちの知る限りでは、この研究は量子アルゴリズムを用いてアンダーソンの不純物モデルから近藤モデルを得る最初の方法である。

Schrieffer-Wolff transformation (SWT) has been extensively used in quantum many-body physics to calculate the low energy effective Hamiltonian. It provides a perturbative method to comprehend the renormalization effects of strong correlations in the quantum many-body models. The generator for Schrieffer-Wolff transformation is calculated usually by heuristic methods. Recently, a systematic and elegant method for the calculation of this extremely significant transformation has been reported [1]. Given the huge significance of SWT for many areas including quantum condensed matter physics, quantum optics and quantum cavity electrodynamics, it is imperative to develop quantum algorithm for carrying out SWT on quantum computer. In this paper, we put forward this quantum algorithm and demonstrate it for single impurity Anderson model (SIAM), thereby arriving at Kondo model as effective Hamiltonian. We implement our quantum algorithm in QisKit and carry out SWT for SIAM on IBM Quantum computers. To the best of our knowledge, this work is the first of its kind to obtain Kondo model from Anderson impurity model using a quantum algorithm.
翻訳日:2023-02-02 04:38:42 公開日:2022-08-05
# 非ガウス2モード熱入力状態を用いたパリティ検出に基づくマッハ・ツェンダー干渉計の位相推定

Enhanced phase estimation in parity detection based Mach-Zehnder interferometer using non-Gaussian two-mode squeezed thermal input state ( http://arxiv.org/abs/2208.04742v1 )

ライセンス: Link先を確認
Chandan Kumar, Rishabh, and Shikhar Arora(参考訳) 二モード加圧真空(TMSV)状態における非ガウス演算の量子力学的優位性は広く研究されているが、二モード加圧熱(TMST)状態の文脈における同様の研究は不十分である。 本稿では,Mach-Zehnderインターフェロメトリに基づくパリティ検出を用いた位相推定のためのTMST状態における非ガウス演算の潜在的な利点について検討する。 この目的のために、光子減算、付加、触媒反応の現実的なモデルを考える。 まず,光子サブトラクション,光子付加および光子触媒tmst状態の統一ウィグナー関数の導出を行い,既存の文献では最良の知識が得られないことを示す。 このウィグナー関数は位相感度の式を得るために用いられる。 TMST状態における非ガウス的操作は,スキューズおよび透過率パラメータのかなりの範囲において位相感度を高めることができることを示す。 また,tmst状態においてこれらの非ガウシアン操作を行うことによる漸進的な利点は,tmsv状態におけるこれらの操作よりもかなり高いことも観察した。 これらの操作の確率的性質のため、成功確率を考慮に入れることが最も重要である。 本研究では,高透過率ビームスプリッタを用いた光子触媒操作を,成功確率を考慮した場合の最適非ガウス動作と同定した。 これはtmsvの場合とは対照的で、光子付加が最も最適であるのを観測する。 これらの結果は、TMST状態を含む将来の位相推定実験に高い関係を持つ。 さらに、非ガウスTMST状態の導出ウィグナー関数は、状態特徴づけとその様々な量子情報プロトコルへの応用に有用である。

While the quantum metrological advantages of performing non-Gaussian operations on two-mode squeezed vacuum (TMSV) states have been extensively explored, similar studies in the context of two-mode squeezed thermal (TMST) states are severely lacking. In this paper, we explore the potential advantages of performing non-Gaussian operations on TMST state for phase estimation using parity detection based Mach-Zehnder interferometry. To this end, we consider the realistic model of photon subtraction, addition, and catalysis. We first provide a derivation of the unified Wigner function of the photon subtracted, photon added and photon catalyzed TMST state, which to the best of our knowledge is not available in the existing literature. This Wigner function is then used to obtain the expression for the phase sensitivity. Our results show that performing non-Gaussian operations on TMST states can enhance the phase sensitivity for significant ranges of squeezing and transmissivity parameters. We also observe that incremental advantage provided by performing these non-Gaussian operations on the TMST state is considerably higher than that of performing these operations on the TMSV state. Because of the probabilistic nature of these operations, it is of utmost importance to take their success probability into account. We identify the photon catalysis operation performed using a high transmissivity beam splitter as the optimal non-Gaussian operation when the success probability is taken into account. This is in contrast to the TMSV case, where we observe photon addition to be the most optimal. These results will be of high relevance for any future phase estimation experiments involving TMST states. Further, the derived Wigner function of the non-Gaussian TMST states will be useful for state characterization and its application in various quantum information protocols.
翻訳日:2023-02-02 04:38:23 公開日:2022-08-05
# 力学系の閉包のための量子力学

Quantum Mechanics for Closure of Dynamical Systems ( http://arxiv.org/abs/2208.03390v1 )

ライセンス: Link先を確認
David Freeman, Dimitrios Giannakis, Joanna Slawinska(参考訳) 量子力学とクープマン作用素論の数学的枠組みに基づく力学系の未解決次元のデータ駆動パラメータ化のスキームを提案する。 状態のいくつかの成分が未知のシステムを考えると、この方法は時間依存の量子状態における代理系を定義し、各時間ステップにおける未解決自由度からフラックスを決定する。 量子状態は古典的可観測物の有限次元ヒルベルト空間上の密度作用素であり、クープマン作用素によって誘導される作用の下で時間とともに進化する。 量子状態はまた、演算子値特徴マップによって実装された量子ベイズの法則に従って、解決された変数の新しい値も更新する。 カーネル法は、データ駆動基底関数を学習し、量子状態、可観測物、進化作用素を行列として表現するために用いられる。 結果の計算スキームは自動的に肯定的に保存され、パラメータ化システムの物理的整合性を支援する。 本手法をLorenz 63 と Lorenz 96 のマルチスケールシステムに適用した2つの異なるモーダル性の結果を解析し,この手法が基礎となるカオスシステムの重要な統計的および定性的特性をいかに保存するかを示す。

We propose a scheme for data-driven parameterization of unresolved dimensions of dynamical systems based on the mathematical framework of quantum mechanics and Koopman operator theory. Given a system in which some components of the state are unknown, this method involves defining a surrogate system in a time-dependent quantum state which determines the fluxes from the unresolved degrees of freedom at each timestep. The quantum state is a density operator on a finite-dimensional Hilbert space of classical observables and evolves over time under an action induced by the Koopman operator. The quantum state also updates with new values of the resolved variables according to a quantum Bayes' law, implemented via an operator-valued feature map. Kernel methods are utilized to learn data-driven basis functions and represent quantum states, observables, and evolution operators as matrices. The resulting computational schemes are automatically positivity-preserving, aiding in the physical consistency of the parameterized system. We analyze the results of two different modalities of this methodology applied to the Lorenz 63 and Lorenz 96 multiscale systems, and show how this approach preserves important statistical and qualitative properties of the underlying chaotic systems.
翻訳日:2023-02-02 04:37:10 公開日:2022-08-05
# ワイル半金属中の光誘起プラズマ発振

Photoinduced plasma oscillations in Weyl semimetals ( http://arxiv.org/abs/2208.03379v1 )

ライセンス: Link先を確認
Pierre-Antoine Graham, Simon Bertrand, Micha\"el B\'edard, Robin Durand, Ion Garate(参考訳) ヴァン・ロスブロークの方程式は、時間と空間に依存した摂動の下での電子のダイナミクスを決定する汎用的なツールを構成する。 通常の半導体で広く使われているが、トポロジカルな材料から作られるデバイスへのポテンシャルは未解明である。 ここではファン・ロスブロークの方程式を適用し、磁場の存在下での超高速で空間的に局在した光パルスに対するワイル半金属の応答を理論的に研究する。 キラルな異常から生じる過渡的な振動光電圧を予測する。 振動はプラズマ周波数で発生し、インターバルリー散乱と誘電緩和によって減衰する。 その結果、ファン・ロスブロークの方程式がマイクロエレクトロニクスデバイスにおける電子バンドトポロジーと超高速キャリアダイナミクスの相互作用を明らかにした。

Van Roosbroeck's equations constitute a versatile tool to determine the dynamics of electrons under time- and space-dependent perturbations. Extensively utilized in ordinary semiconductors, their potential to model devices made from topological materials remains untapped. Here, we adapt van Roosbroeck's equations to theoretically study the response of a Weyl semimetal to an ultrafast and spatially localized light pulse in the presence of a magnetic field. We predict a transient oscillatory photovoltage that originates from the chiral anomaly. The oscillations take place at the plasma frequency and are damped by intervalley scattering and dielectric relaxation. Our results illustrate the ability of van Roosbroeck's equations to unveil the interplay between electronic band topology and ultrafast carrier dynamics in microelectronic devices.
翻訳日:2023-02-02 04:36:50 公開日:2022-08-05
# 量子不安定性

Quantum Instability ( http://arxiv.org/abs/2208.03371v1 )

ライセンス: Link先を確認
Michael Q. May and Hong Qin(参考訳) 多くの閉じた、保守的な系の物理学は古典理論と量子理論の両方で説明できる。 古典理論に基づく力学はシンプレクティックであり、当初はユニタリ量子記述と相反するような線形不安定性を認めている。 3-ウェーブ相互作用の例を用いて、全ての実固有値を持つエルミート系である時間に依存しない有限次元量子系が、古典系におけるそれに対応する線形不安定性をいかに生み出すかを記述する。 この不安定性は、占有数状態の空間における波動関数のカスケードとして量子理論において実現され、不安定な量子系は、安定な量子系よりも、よりリッチなスペクトルとより長い再帰時間を持つ。 量子不安定性の条件について述べる。

The physics of many closed, conservative systems can be described by both classical and quantum theories. The dynamics according to classical theory is symplectic and admits linear instabilities which would initially seem at odds with a unitary quantum description. Using the example of three-wave interactions, we describe how a time-independent, finite-dimensional quantum system, which is Hermitian with all real eigenvalues, can give rise to a linear instability corresponding to that in the classical system. We show that the instability is realized in the quantum theory as a cascade of the wave function in the space of occupation number states, and an unstable quantum system has a richer spectrum and a much longer recurrence time than a stable quantum system. The conditions for quantum instability are described.
翻訳日:2023-02-02 04:36:37 公開日:2022-08-05
# 間接測定の不確かさ関係

Uncertainty relation for indirect measurement ( http://arxiv.org/abs/2208.03341v1 )

ライセンス: Link先を確認
Ryo Mihashi, Yoshihiko Hasegawa(参考訳) 間接的な測定は、直接的なアプローチを使わずに量子システムの結果を読むのに使え、共役可観測性の非可逆性を説明する測定の不確かさ関係の基礎となる。 測定の不確実性は量子測定の精度のために確立されているが、古典的または量子的体制において物理的コストをトレードオフする変動観測器の精度に関する新たな視点として熱力学的不確実性が研究されている。 これらの考え方に従えば、量子熱力学の光の間接的な測定に関する新しい測定の不確かさを導出する。 その結果, 熱力学系に対するフレナティックな寄与である生存活動と, 測定手法による騒音の相互関係が得られた。 さらに、この不確かさは、普遍的ノイズ・ディストバンス関係を通じて、非互換な相手の干渉にも影響を及ぼす。

Indirect measurement can be used to read out the outcome of a quantum system without resorting to a straightforward approach, and it is the foundation of the measurement uncertainty relations that explain the incompatibility of conjugate observables. While measurement uncertainty has been established for the accuracy of quantum measurement, thermodynamic uncertainty is being researched as a new perspective on the accuracy of fluctuating observables that trades off a physical cost in the classical or quantum regime. Following these ideas, we derive a new measurement uncertainty with respect to indirect measurement in the light of quantum thermodynamics. The obtained result shows a reciprocal relation between a survival activity, which is a frenetic contribution to the thermodynamic system, and noise due to the measurement approach. Moreover, this uncertainty can also affect the disturbance of an incompatible counterpart through the universal noise-disturbance relation.
翻訳日:2023-02-02 04:35:59 公開日:2022-08-05
# 強化学習のためのモンテカルロ探索開始アルゴリズムの収束性について

On the Convergence of the Monte Carlo Exploring Starts Algorithm for Reinforcement Learning ( http://arxiv.org/abs/2002.03585v2 )

ライセンス: Link先を確認
Che Wang, Shuhan Yuan, Kai Shao, Keith Ross(参考訳) 強化学習(RL)のための単純で自然なアルゴリズムはモンテカルロ探索開始(MCES)であり、Q関数を平均化することでQ関数を推定し、Q関数の現在の推定を最大化するアクションを選択することでポリシーを改善する。 探索は「探索開始」によって行われ、各エピソードはランダムに選択された状態と動作から始まり、その後、現在のポリシーを端末状態に従わせる。 Sutton & Barto (2018) による古典的な RL の本で、MCES アルゴリズムの収束を確立することは、RL における最も重要なオープン理論上の問題の1つであることが述べられている。 しかし、MCESの収束問題はかなり曖昧であることが判明した。 Bertsekas & Tsitsiklis (1996) は MCES アルゴリズムが必ずしも収束しないことを示す反例を提供している。 Tsitsiklis (2002) はさらに、元の MCES アルゴリズムが変更され、Q-関数の推定値が全ての状態-作用対に対して同じ速度で更新され、割引係数が1より厳密に小さい場合、MCES アルゴリズムは収束することを示した。 本論文では,1998年にサットン・アンド・バルト(Sutton & Barto)で与えられた,より効率的な MCES アルゴリズムを用いて,最適政策フィードフォワード MDP に対するほぼ確実な収束性を確立する。 このようなmdpには、すべての決定論的環境や、時間ステップを持つすべてのエピソド環境、あるいは状態の一部として単調に変化する値など、幅広い種類の環境が含まれる。 確率近似を用いた以前の証明と異なり、非常に単純で、大数の強い法則を利用するだけで、新しい帰納的アプローチを導入する。

A simple and natural algorithm for reinforcement learning (RL) is Monte Carlo Exploring Starts (MCES), where the Q-function is estimated by averaging the Monte Carlo returns, and the policy is improved by choosing actions that maximize the current estimate of the Q-function. Exploration is performed by "exploring starts", that is, each episode begins with a randomly chosen state and action, and then follows the current policy to the terminal state. In the classic book on RL by Sutton & Barto (2018), it is stated that establishing convergence for the MCES algorithm is one of the most important remaining open theoretical problems in RL. However, the convergence question for MCES turns out to be quite nuanced. Bertsekas & Tsitsiklis (1996) provide a counter-example showing that the MCES algorithm does not necessarily converge. Tsitsiklis (2002) further shows that if the original MCES algorithm is modified so that the Q-function estimates are updated at the same rate for all state-action pairs, and the discount factor is strictly less than one, then the MCES algorithm converges. In this paper we make headway with the original and more efficient MCES algorithm given in Sutton & Barto (1998), establishing almost sure convergence for Optimal Policy Feed-Forward MDPs, which are MDPs whose states are not revisited within any episode when using an optimal policy. Such MDPs include a large class of environments such as all deterministic environments and all episodic environments with a timestep or any monotonically changing values as part of the state. Different from the previous proofs using stochastic approximations, we introduce a novel inductive approach, which is very simple and only makes use of the strong law of large numbers.
翻訳日:2023-01-02 07:10:43 公開日:2022-08-05
# ct画像による副腎腫瘤のサブクラス分化のための深層マルチスケール類似ネットワーク

Deep Multi-Scale Resemblance Network for the Sub-class Differentiation of Adrenal Masses on Computed Tomography Images ( http://arxiv.org/abs/2007.14625v2 )

ライセンス: Link先を確認
Lei Bi, Jinman Kim, Tingwei Su, Michael Fulham, David Dagan Feng, Guang Ning(参考訳) CT(Computed tomography)で検出された副腎(副腎)の腫瘤の正確な分類は,診断と患者管理に重要である。 副腎の腫瘤は良性または悪性であり、良性は様々な有病率を持つ。 畳み込みニューラルネットワーク(CNN)に基づく分類法は、大規模な医用画像訓練データセットのクラス間差を最大化するための最先端技術である。 副腎腫瘤に対するCNNの応用は、大きなクラス内変異、大きなクラス間類似性、質量病変の大きさによるトレーニングデータの不均衡により困難である。 そこで我々は,これらの制約を克服する深層マルチスケール類似ネットワーク(DMRN)を開発し,クラス内類似性を評価するためにペアCNNを利用した。 入力の異なるスケールで生成された補完情報を反復的に組み合わせて構造的特徴記述子を作成することにより,クラス間分離性を向上させるためにマルチスケール特徴埋め込みを用いた。 トレーニングデータをランダムにサンプリングした対副腎質量で拡張し,不均衡なトレーニングデータの影響を低減した。 副腎腫瘤229例のCT画像を用いて検討した。 5倍のクロスバリデーションでは,最先端の手法 (p<0.05) と比較して,最も優れた結果 (89.52% の精度) を得た。 医用サブフィギュア分類のためのimageclef 2016コンペティションデータセットにおいて,6,776画像のトレーニングセットと,30クラスにわたる4,166画像の試験セットからなる汎用性解析を行った。 本手法は,既存の手法と比較して分類性能(精度85.90%)が向上し,追加の訓練データを必要とする手法(精度1.47%)と比較して競争力が高かった。 DMRNはCTの副腎腫瘤を亜分類し,最先端のアプローチよりも優れていた。

The accurate classification of mass lesions in the adrenal glands (adrenal masses), detected with computed tomography (CT), is important for diagnosis and patient management. Adrenal masses can be benign or malignant and benign masses have varying prevalence. Classification methods based on convolutional neural networks (CNNs) are the state-of-the-art in maximizing inter-class differences in large medical imaging training datasets. The application of CNNs, to adrenal masses is challenging due to large intra-class variations, large inter-class similarities and imbalanced training data due to the size of the mass lesions. We developed a deep multi-scale resemblance network (DMRN) to overcome these limitations and leveraged paired CNNs to evaluate the intra-class similarities. We used multi-scale feature embedding to improve the inter-class separability by iteratively combining complementary information produced at different scales of the input to create structured feature descriptors. We augmented the training data with randomly sampled paired adrenal masses to reduce the influence of imbalanced training data. We used 229 CT scans of patients with adrenal masses for evaluation. In a five-fold cross-validation, our method had the best results (89.52% in accuracy) when compared to the state-of-the-art methods (p<0.05). We conducted a generalizability analysis of our method on the ImageCLEF 2016 competition dataset for medical subfigure classification, which consists of a training set of 6,776 images and a test set of 4,166 images across 30 classes. Our method achieved better classification performance (85.90% in accuracy) when compared to the existing methods and was competitive when compared with methods that require additional training data (1.47% lower in accuracy). Our DMRN sub-classified adrenal masses on CT and was superior to state-of-the-art approaches.
翻訳日:2022-11-05 20:29:35 公開日:2022-08-05
# segblocks:リアルタイムセグメンテーションのためのブロックベース動的解像度ネットワーク

SegBlocks: Block-Based Dynamic Resolution Networks for Real-Time Segmentation ( http://arxiv.org/abs/2011.12025v2 )

ライセンス: Link先を確認
Thomas Verelst and Tinne Tuytelaars(参考訳) segblocksは、画像領域の処理解像度を複雑度に応じて動的に調整することで、既存のニューラルネットワークの計算コストを削減する。 本手法では,イメージをブロックに分割し,低複雑性のブロックをサンプリングし,演算数やメモリ消費を減らす。 複雑な領域を選択する軽量なポリシーネットワークを強化学習を用いて訓練する。 さらに,ブロック内の画像を処理するためにCUDAに実装された複数のモジュールについても紹介する。 最も重要なのは、新しいblockpadモジュールは、メモリ消費を制御しながら、既存のメソッドが抱えるブロック境界における機能不連続を防止します。 セマンティクスセグメンテーションのためのcityscapes, camvid, mapillary vistasデータセットを用いた実験により,画像の動的処理は,類似する複雑性の静的ベースラインと比較して,より精度が向上することが示された。 例えば、SwiftNet-RN18の浮動小数点演算数を60%削減し、推論速度を50%向上させ、CityscapesのmIoU精度はわずか0.3%低下した。

SegBlocks reduces the computational cost of existing neural networks, by dynamically adjusting the processing resolution of image regions based on their complexity. Our method splits an image into blocks and downsamples blocks of low complexity, reducing the number of operations and memory consumption. A lightweight policy network, selecting the complex regions, is trained using reinforcement learning. In addition, we introduce several modules implemented in CUDA to process images in blocks. Most important, our novel BlockPad module prevents the feature discontinuities at block borders of which existing methods suffer, while keeping memory consumption under control. Our experiments on Cityscapes, Camvid and Mapillary Vistas datasets for semantic segmentation show that dynamically processing images offers a better accuracy versus complexity trade-off compared to static baselines of similar complexity. For instance, our method reduces the number of floating-point operations of SwiftNet-RN18 by 60% and increases the inference speed by 50%, with only 0.3% decrease in mIoU accuracy on Cityscapes.
翻訳日:2022-09-21 13:27:24 公開日:2022-08-05
# 材料科学と化学のためのグラフニューラルネットワーク

Graph neural networks for materials science and chemistry ( http://arxiv.org/abs/2208.09481v1 )

ライセンス: Link先を確認
Patrick Reiser, Marlen Neubert, Andr\'e Eberhard, Luca Torresi, Chen Zhou, Chen Shao, Houssam Metni, Clint van Hoesel, Henrik Schopmans, Timo Sommer, Pascal Friederich(参考訳) 機械学習は、材料特性の予測、シミュレーションの加速、新しい材料の設計、新しい材料の合成経路の予測など、化学や材料科学の多くの分野において、ますます重要な役割を担っている。 グラフニューラルネットワーク(GNN)は、機械学習モデルの最速成長クラスの1つである。 それらは化学や材料科学に特に関係しており、直接グラフや分子や物質の構造表現に取り組んでおり、物質を特徴づけるために必要なすべての関連情報に完全にアクセスできる。 本稿では,GNNの基本原理,広く使用されているデータセット,最先端アーキテクチャについて概説するとともに,化学・材料科学におけるGNNの幅広い応用について論じ,GNNのさらなる開発と応用に向けたロードマップをまとめる。

Machine learning plays an increasingly important role in many areas of chemistry and materials science, e.g. to predict materials properties, to accelerate simulations, to design new materials, and to predict synthesis routes of new materials. Graph neural networks (GNNs) are one of the fastest growing classes of machine learning models. They are of particular relevance for chemistry and materials science, as they directly work on a graph or structural representation of molecules and materials and therefore have full access to all relevant information required to characterize materials. In this review article, we provide an overview of the basic principles of GNNs, widely used datasets, and state-of-the-art architectures, followed by a discussion of a wide range of recent applications of GNNs in chemistry and materials science, and concluding with a road-map for the further development and application of GNNs.
翻訳日:2022-08-28 22:21:56 公開日:2022-08-05
# 2型糖尿病発症予測のための強化サポートベクターマシンのための深層学習の新たな解法

A novel solution of deep learning for enhanced support vector machine for predicting the onset of type 2 diabetes ( http://arxiv.org/abs/2208.06354v1 )

ライセンス: Link先を確認
Marmik Shrestha, Omar Hisham Alsadoon, Abeer Alsadoon, Thair Al-Dala'in, Tarik A. Rashid, P.W.C. Prasad, Ahmad Alrubaie(参考訳) 2型糖尿病は人間にとって最も重篤で致命的な病気の1つであり、毎年何千人もの人が2型糖尿病の発症を受ける。 しかし、現在のシナリオでは2型糖尿病の診断と予防は比較的コストがかかるため、機械学習とディープラーニング技術の使用が2型糖尿病の発症を予測するための勢いを増している。 本研究は, 2型糖尿病の発症を予測する処理時間を改善しつつ, 曲線(auc)測定値の精度と面積を向上させることを目的とした。 提案システムは,支援ベクトルマシン(SVM)アルゴリズムと放射ベース関数(RBF)を併用した深層学習手法と,2型糖尿病の発症予測のための長短記憶層(LSTM)から構成される。 提案法では,平均精度86.31 %,平均 auc 値は 0.8270 または 82.70 % となり,処理速度は 3.8 ミリ秒向上した。 Radial Base Function (RBF) カーネルとLSTMレイヤは、現在の業界標準から予測精度とAUCメトリックを強化し、処理時間を犠牲にすることなく実用的な使用を可能にした。

Type 2 Diabetes is one of the most major and fatal diseases known to human beings, where thousands of people are subjected to the onset of Type 2 Diabetes every year. However, the diagnosis and prevention of Type 2 Diabetes are relatively costly in today's scenario; hence, the use of machine learning and deep learning techniques is gaining momentum for predicting the onset of Type 2 Diabetes. This research aims to increase the accuracy and Area Under the Curve (AUC) metric while improving the processing time for predicting the onset of Type 2 Diabetes. The proposed system consists of a deep learning technique that uses the Support Vector Machine (SVM) algorithm along with the Radial Base Function (RBF) along with the Long Short-term Memory Layer (LSTM) for prediction of onset of Type 2 Diabetes. The proposed solution provides an average accuracy of 86.31 % and an average AUC value of 0.8270 or 82.70 %, with an improvement of 3.8 milliseconds in the processing. Radial Base Function (RBF) kernel and the LSTM layer enhance the prediction accuracy and AUC metric from the current industry standard, making it more feasible for practical use without compromising the processing time.
翻訳日:2022-08-28 22:15:32 公開日:2022-08-05
# 肺癌分類のためのディープラーニングニューラルネットワーク--最適化機能強化

Deep Learning Neural Network for Lung Cancer Classification: Enhanced Optimization Function ( http://arxiv.org/abs/2208.06353v1 )

ライセンス: Link先を確認
Bhoj Raj Pandit, Abeer Alsadoon, P.W.C. Prasad, Sarmad Al Aloussi, Tarik A. Rashid, Omar Hisham Alsadoon, Oday D. Jerew(参考訳) 背景と目的:畳み込みニューラルネットワークは現在,医療分野における画像認識に広く利用されている。 しかし,CT画像の再構成中にエラーが発生したため,肺腫瘍予測の全体的な精度は低く,処理時間も高い。 本研究の目的は,畳み込みニューラルネットワークのプーリング層におけるマルチスペース画像を用いて,全体の予測精度の向上と処理時間を短縮することである。 方法:提案手法は,畳み込みニューラルネットワークのプール層におけるマルチスペース画像と最適化のためのAdam Algorithmを用いて,全精度向上のためのオートエンコーダシステムを備え,肺がんの予測を行う。 まず,ct画像は畳み込みフィルタに画像を送り込んで前処理し,マックスプーリングを用いて試料をサンプリングした。 次に、畳み込みニューラルネットワークに基づくオートエンコーダモデルを用いて特徴を抽出し、画像再構成中の誤差を低減するために多空間画像再構成技術を用いて、精度の向上と肺結節の予測を行う。 最後に、再構成された画像をSoftMax分類器の入力として、CT画像の分類を行う。 結果: 最先端および提案されたソリューションはPython Tensor Flowで処理され, 肺癌の分類の精度は98.9から99.5に, 処理時間は10フレーム/秒から12秒/秒に大幅に向上した。 結論: 提案手法は, 技術状況と比較して処理時間が少なく, 高い分類精度を提供する。 将来の研究のために、大規模なデータセットを実装でき、低ピクセル画像を処理して分類を評価することができる。

Background and Purpose: Convolutional neural network is widely used for image recognition in the medical area at nowadays. However, overall accuracy in predicting lung tumor is low and the processing time is high as the error occurred while reconstructing the CT image. The aim of this work is to increase the overall prediction accuracy along with reducing processing time by using multispace image in pooling layer of convolution neural network. Methodology: The proposed method has the autoencoder system to improve the overall accuracy, and to predict lung cancer by using multispace image in pooling layer of convolution neural network and Adam Algorithm for optimization. First, the CT images were pre-processed by feeding image to the convolution filter and down sampled by using max pooling. Then, features are extracted using the autoencoder model based on convolutional neural network and multispace image reconstruction technique is used to reduce error while reconstructing the image which then results improved accuracy to predict lung nodule. Finally, the reconstructed images are taken as input for SoftMax classifier to classify the CT images. Results: The state-of-art and proposed solutions were processed in Python Tensor Flow and It provides significant increase in accuracy in classification of lung cancer to 99.5 from 98.9 and decrease in processing time from 10 frames/second to 12 seconds/second. Conclusion: The proposed solution provides high classification accuracy along with less processing time compared to the state of art. For future research, large dataset can be implemented, and low pixel image can be processed to evaluate the classification
翻訳日:2022-08-28 22:15:11 公開日:2022-08-05
# NRBdMF:方向を考慮した薬物効果予測アルゴリズム

NRBdMF: A recommendation algorithm for predicting drug effects considering directionality ( http://arxiv.org/abs/2208.04312v1 )

ライセンス: Link先を確認
Iori Azuma, Tadahaya Mizuno, Hiroyuki Kusuhara(参考訳) 承認薬に関する情報に基づく薬剤の新規効果の予測は推奨システムと見なすことができる。 行列分解は最もよく使われるレコメンデーションシステムの1つであり、様々なアルゴリズムが考案されている。 薬物効果を予測するための既存のアルゴリズムに関する文献調査と要約は、ベンチマークテストで最高の性能を発揮した近隣の正規化ロジスティック行列因数分解を含むほとんどの手法が相互作用の有無を考慮に入れた二項行列を用いたことを示した。 しかし、薬物効果には副作用と治療効果の2つの相反する側面があることが知られている。 本研究では,近接正規化二方向行列因子分解 (nrbdmf) を用いて, 薬物効果の特徴である双方向性を取り込むことにより, 薬物効果を予測する手法を提案する。 薬物効果の双方向性を考慮したマトリックスを用いた副作用予測手法として, 既知の副作用に正のラベル(プラス1)を付与し, 既知の治療効果に負のラベル(マイナス1)を付与した。 薬物の双方向情報を利用したNRBdMFモデルは,上位の副作用と予測リストの下部の指標の充実を実現した。 NRBdMFを用いた薬物効果の双方向性を検討した最初の試みは、偽陽性を減少させ、高い解釈可能な出力を生み出すことを示した。

Predicting the novel effects of drugs based on information about approved drugs can be regarded as a recommendation system. Matrix factorization is one of the most used recommendation systems and various algorithms have been devised for it. A literature survey and summary of existing algorithms for predicting drug effects demonstrated that most such methods, including neighborhood regularized logistic matrix factorization, which was the best performer in benchmark tests, used a binary matrix that considers only the presence or absence of interactions. However, drug effects are known to have two opposite aspects, such as side effects and therapeutic effects. In the present study, we proposed using neighborhood regularized bidirectional matrix factorization (NRBdMF) to predict drug effects by incorporating bidirectionality, which is a characteristic property of drug effects. We used this proposed method for predicting side effects using a matrix that considered the bidirectionality of drug effects, in which known side effects were assigned a positive label (plus 1) and known treatment effects were assigned a negative (minus 1) label. The NRBdMF model, which utilizes drug bidirectional information, achieved enrichment of side effects at the top and indications at the bottom of the prediction list. This first attempt to consider the bidirectional nature of drug effects using NRBdMF showed that it reduced false positives and produced a highly interpretable output.
翻訳日:2022-08-10 13:21:07 公開日:2022-08-05
# 呼吸音の異常検出のための変分オートエンコーダ

Variational Autoencoders for Anomaly Detection in Respiratory Sounds ( http://arxiv.org/abs/2208.03326v1 )

ライセンス: Link先を確認
Michele Cozzatti, Federico Simonetta, Stavros Ntalampiras(参考訳) 本稿では,患者に呼吸器疾患の可能性を警告するツールを目的とした,弱い教師付き機械学習に基づくアプローチを提案する。 様々な病型が呼吸器系に影響を与え、重篤な疾患や場合によっては死に至る可能性がある。 一般に、患者の健康状態を改善するための効果的な予防実践が主要な要因と考えられている。 提案手法は,呼吸器疾患の自動診断のための簡便なツールの実現を目指している。 具体的には、限られた複雑さと比較的小さなデータセットのトレーニングパイプラインの使用を可能にする変分オートコーダアーキテクチャを利用する。 重要な点として、既存の強く監督されたアプローチと一致した57パーセントの精度を提供する。

This paper proposes a weakly-supervised machine learning-based approach aiming at a tool to alert patients about possible respiratory diseases. Various types of pathologies may affect the respiratory system, potentially leading to severe diseases and, in certain cases, death. In general, effective prevention practices are considered as major actors towards the improvement of the patient's health condition. The proposed method strives to realize an easily accessible tool for the automatic diagnosis of respiratory diseases. Specifically, the method leverages Variational Autoencoder architectures permitting the usage of training pipelines of limited complexity and relatively small-sized datasets. Importantly, it offers an accuracy of 57 %, which is in line with the existing strongly-supervised approaches.
翻訳日:2022-08-09 14:31:16 公開日:2022-08-05
# DP$^2$-VAE:差分プライベート事前学習変分オートエンコーダ

DP$^2$-VAE: Differentially Private Pre-trained Variational Autoencoders ( http://arxiv.org/abs/2208.03409v1 )

ライセンス: Link先を確認
Dihong Jiang, Guojun Zhang, Mahdi Karami, Xi Chen, Yunfeng Shao, Yaoliang Yu(参考訳) 現代の機械学習システムは、大規模なデータセットでトレーニングすることで大きな成功を収める。 しかしながら、これらのデータセットは通常機密情報(医療記録、顔画像など)を含んでおり、深刻なプライバシー上の懸念を引き起こす。 個人化された機密データを生成することにより、プライバシー問題を回避するソリューションとして、微分プライベート生成モデル(DPGM)が出現する。 他の微分プライベート(DP)学習者と同様に、DPGMの最大の課題は、ユーティリティとプライバシの微妙なバランスを達成する方法である。 提案するDP$^2$-VAEは,可変オートエンコーダ(VAE)のための新しいトレーニング機構であり,DP保証が保証され,プライベートデータ上でのemph{pre-trainingによる利便性が向上する。 同じDP制約の下では、DP$^2$-VAEはトレーニング中の摂動ノイズを最小限に抑え、実用性を向上させる。 DP$^2$-VAEは非常に柔軟で、他の多くのVAE変種にも容易に対応できる。 理論的には,事前学習が個人データに与える影響について検討する。 実験的に、さまざまなプライバシー予算と評価指標の下で、ベースラインよりも優位性を示すために、画像データセットに関する広範な実験を行う。

Modern machine learning systems achieve great success when trained on large datasets. However, these datasets usually contain sensitive information (e.g. medical records, face images), leading to serious privacy concerns. Differentially private generative models (DPGMs) emerge as a solution to circumvent such privacy concerns by generating privatized sensitive data. Similar to other differentially private (DP) learners, the major challenge for DPGM is also how to achieve a subtle balance between utility and privacy. We propose DP$^2$-VAE, a novel training mechanism for variational autoencoders (VAE) with provable DP guarantees and improved utility via \emph{pre-training on private data}. Under the same DP constraints, DP$^2$-VAE minimizes the perturbation noise during training, and hence improves utility. DP$^2$-VAE is very flexible and easily amenable to many other VAE variants. Theoretically, we study the effect of pretraining on private data. Empirically, we conduct extensive experiments on image datasets to illustrate our superiority over baselines under various privacy budgets and evaluation metrics.
翻訳日:2022-08-09 14:21:03 公開日:2022-08-05
# IDLat: 科学データに対する重要性駆動型遅延生成手法

IDLat: An Importance-Driven Latent Generation Method for Scientific Data ( http://arxiv.org/abs/2208.03345v1 )

ライセンス: Link先を確認
Jingyi Shen, Haoyu Li, Jiayi Xu, Ayan Biswas, and Han-Wei Shen(参考訳) 深層学習に基づく潜在表現は、等表面類似性解析、ボリュームレンダリング、フロー場合成、データ還元など、多くの科学的視覚化用途に広く用いられている。 しかし、既存の潜在表現は、主に教師なしの方法で生データから生成されるため、潜在表現のサイズと再構成されたデータの品質を制御するためにドメインの関心を組み込むことは困難である。 本稿では,領域中心の科学的データ可視化と分析を容易にするために,新しい重要性駆動型潜在表現を提案する。 空間的重要度マップを用いて、様々な科学的関心を表現し、特徴変換ネットワークの入力として、潜在世代を導く。 さらに、オートエンコーダと共に訓練されたロスレスエントロピー符号化アルゴリズムにより、潜在サイズを削減し、ストレージとメモリ効率を改善した。 複数の科学的可視化アプリケーションから得られたデータを用いて,本手法による潜在表現の有効性と効率を質的に定量的に評価した。

Deep learning based latent representations have been widely used for numerous scientific visualization applications such as isosurface similarity analysis, volume rendering, flow field synthesis, and data reduction, just to name a few. However, existing latent representations are mostly generated from raw data in an unsupervised manner, which makes it difficult to incorporate domain interest to control the size of the latent representations and the quality of the reconstructed data. In this paper, we present a novel importance-driven latent representation to facilitate domain-interest-guided scientific data visualization and analysis. We utilize spatial importance maps to represent various scientific interests and take them as the input to a feature transformation network to guide latent generation. We further reduced the latent size by a lossless entropy encoding algorithm trained together with the autoencoder, improving the storage and memory efficiency. We qualitatively and quantitatively evaluate the effectiveness and efficiency of latent representations generated by our method with data from multiple scientific visualization applications.
翻訳日:2022-08-09 14:12:32 公開日:2022-08-05
# Photon-Counting CTにおける材料分解の深層学習

Deep Learning for Material Decomposition in Photon-Counting CT ( http://arxiv.org/abs/2208.03360v1 )

ライセンス: Link先を確認
Alma Eguizabal, Ozan \"Oktem, Mats U. Persson(参考訳) 光子計数CT(PCCT)は、空間分解能とエネルギー分解能の向上による診断性能の向上を提供するが、これらの大規模なデータセットに対処できる高品質な画像再構成手法の開発は困難である。 モデルベースのソリューションは、より正確な画像を再構成するために物理的取得のモデルを組み込むが、正確なフォワード演算子に依存し、良好な正規化を見つけるのに困難である。 もうひとつのアプローチは、ctで非常に有望なディープラーニング再構成です。 しかし、完全なデータ駆動ソリューションは一般的に大量のトレーニングデータを必要とし、解釈可能性に欠ける。 両手法の利点を組み合わせるため,それぞれの欠点を最小化しつつ,モデルベースとデータ駆動の両アプローチを組み合わせた再構成アルゴリズムを開発することが望ましい。 そこで本研究では,PCCTにおける材料分解のための新しい深層学習ソリューションを提案する。 モデル知識を暗黙的に利用する学習後処理と、アーキテクチャに明示的なモデルベースコンポーネントを持つ学習時差分という2つのケースを評価する。 提案手法により,低線量,ヨウ素コントラスト,および非常に小さなトレーニング試料担持による腹部画像の3物質分解という,PCCTシミュレーションの課題を解決した。 このシナリオでは,本手法は最大推定値,変分法,および完全学習型ネットワークよりも優れる。

Photon-counting CT (PCCT) offers improved diagnostic performance through better spatial and energy resolution, but developing high-quality image reconstruction methods that can deal with these large datasets is challenging. Model-based solutions incorporate models of the physical acquisition in order to reconstruct more accurate images, but are dependent on an accurate forward operator and present difficulties with finding good regularization. Another approach is deep-learning reconstruction, which has shown great promise in CT. However, fully data-driven solutions typically need large amounts of training data and lack interpretability. To combine the benefits of both methods, while minimizing their respective drawbacks, it is desirable to develop reconstruction algorithms that combine both model-based and data-driven approaches. In this work, we present a novel deep-learning solution for material decomposition in PCCT, based on an unrolled/unfolded iterative network. We evaluate two cases: a learned post-processing, which implicitly utilizes model knowledge, and a learned gradient-descent, which has explicit model-based components in the architecture. With our proposed techniques, we solve a challenging PCCT simulation case: three-material decomposition in abdomen imaging with low dose, iodine contrast, and a very small training sample support. In this scenario, our approach outperforms a maximum likelihood estimation, a variational method, as well as a fully-learned network.
翻訳日:2022-08-09 14:12:16 公開日:2022-08-05
# オンライン重み付きバイパートイトマッチングのためのサブ線形時間アルゴリズム

Sublinear Time Algorithm for Online Weighted Bipartite Matching ( http://arxiv.org/abs/2208.03367v1 )

ライセンス: Link先を確認
Hang Hu, Zhao Song, Runzhou Tao, Zhaozhuo Xu, Danyang Zhuo(参考訳) オンラインバイパーティイトマッチングは、オンラインアルゴリズムの基本的な問題である。 目標は、辺重みの和を最大化するために2組の頂点を一致させることであり、1組の頂点に対して、それぞれの頂点とその対応する辺重みが列に現れる。 現在、実用的なレコメンデーションシステムや検索エンジンでは、ユーザの深い表現とアイテムの深い表現との間の内積によって重み付けが決定される。 標準オンラインマッチングは、すべてのn$アイテムをリニアスキャンするためにnd$時間を支払う必要があり、(各表現ベクトルが長さ$d$と仮定して)重みを計算し、その重みに基づいてマッチングを決定する。 しかし、実際に$n$は、例えばオンラインeコマースプラットフォームにおいて非常に大きなものになり得る。 したがって、重みの計算時間を改善することは実用上重要な問題である。 本研究では,重みを近似的に計算する理論的基礎を提供する。 提案したランダム化データ構造では,マッチングアルゴリズムの競合比を保ちながら,重みをサブ線形時間で計算できることが示されている。

Online bipartite matching is a fundamental problem in online algorithms. The goal is to match two sets of vertices to maximize the sum of the edge weights, where for one set of vertices, each vertex and its corresponding edge weights appear in a sequence. Currently, in the practical recommendation system or search engine, the weights are decided by the inner product between the deep representation of a user and the deep representation of an item. The standard online matching needs to pay $nd$ time to linear scan all the $n$ items, computing weight (assuming each representation vector has length $d$), and then decide the matching based on the weights. However, in reality, the $n$ could be very large, e.g. in online e-commerce platforms. Thus, improving the time of computing weights is a problem of practical significance. In this work, we provide the theoretical foundation for computing the weights approximately. We show that, with our proposed randomized data structures, the weights can be computed in sublinear time while still preserving the competitive ratio of the matching algorithm.
翻訳日:2022-08-09 14:11:55 公開日:2022-08-05
# 多元多方向データのベイズ予測モデル

Bayesian predictive modeling of multi-source multi-way data ( http://arxiv.org/abs/2208.03396v1 )

ライセンス: Link先を確認
Jonathan Kim, Brian J. Sandri, Raghavendra B. Rao, Eric F. Lock(参考訳) マルチウェイ(多次元テンソル)構造を持つ複数のソースから収集されたデータから連続的あるいは二値的な結果を予測するベイズ的手法を開発する。 本研究の動機となる例として, 初期鉄欠乏症(ID)の予測因子として, 複数の発生時間点から測定された複数のオミクス源の分子データを考える。 係数に低ランク構造を持つ線形モデルを用いて,多方向依存を捉え,それらの相対的寄与を推定するために係数の分散を個別にモデル化する。 共役優先法は、正規誤差による連続結果やプロビットリンクによる二進結果と仮定して、後続推論のための効率的なgibbsサンプリングアルゴリズムを促進する。 シミュレーションにより, 推定係数の誤分類率と真の係数との相関から, 異なる音源の異なる信号サイズを考慮した場合, マルチウェイ構造とモデストゲインを組み込むことにより, 性能が大きく向上したことを示す。 さらに、私たちのモチベーション応用のために、IDサルの堅牢な分類を提供する。 Rコード形式のソフトウェアはhttps://github.com/BiostatsKim/BayesMSMWで入手できる。

We develop a Bayesian approach to predict a continuous or binary outcome from data that are collected from multiple sources with a multi-way (i.e.. multidimensional tensor) structure. As a motivating example we consider molecular data from multiple 'omics sources, each measured over multiple developmental time points, as predictors of early-life iron deficiency (ID) in a rhesus monkey model. We use a linear model with a low-rank structure on the coefficients to capture multi-way dependence and model the variance of the coefficients separately across each source to infer their relative contributions. Conjugate priors facilitate an efficient Gibbs sampling algorithm for posterior inference, assuming a continuous outcome with normal errors or a binary outcome with a probit link. Simulations demonstrate that our model performs as expected in terms of misclassification rates and correlation of estimated coefficients with true coefficients, with large gains in performance by incorporating multi-way structure and modest gains when accounting for differing signal sizes across the different sources. Moreover, it provides robust classification of ID monkeys for our motivating application. Software in the form of R code is available at https://github.com/BiostatsKim/BayesMSMW .
翻訳日:2022-08-09 14:05:59 公開日:2022-08-05
# LiDARとカメラを用いた視覚地図定位に関する調査

A Survey on Visual Map Localization Using LiDARs and Cameras ( http://arxiv.org/abs/2208.03376v1 )

ライセンス: Link先を確認
Elhousni Mahdi and Huang Xinming(参考訳) 自動運転産業が徐々に成熟しつつある中、視覚地図のローカライゼーションは、できるだけ正確に車をローカライズするための標準的なアプローチになりつつある。 カメラやライダーのような視覚センサーが返す豊富なデータにより、研究者は様々な詳細レベルを持つ異なる種類の地図を構築し、都市環境における車両のローカライゼーション精度と安定性の高レベルを達成することができる。 一般的なSLAMアプローチとは対照的に、ビジュアルマップのローカライゼーションは事前に構築されたマップに依存しており、エラーの蓄積やドリフトを回避して、ローカライズ精度の向上に重点を置いている。 視覚マップのローカライゼーションを2段階プロセスとして定義する。 位置認識の段階では、視覚センサ出力と関心のあるジオタグマップ領域とを比較して、地図における車両の初期位置を決定する。 その後、マップメトリックのローカライゼーションの段階では、視覚センサの出力とマップの現在の領域を連続的に調整して、マップを横切る間、車両を追跡する。 本稿では,それぞれのアプローチの強みと弱さを明らかにするために,LiDARベース,カメラベース,およびクロスモーダル視覚マップの両ステージにおける位置決め手法を調査,検討,比較する。

As the autonomous driving industry is slowly maturing, visual map localization is quickly becoming the standard approach to localize cars as accurately as possible. Owing to the rich data returned by visual sensors such as cameras or LiDARs, researchers are able to build different types of maps with various levels of details, and use them to achieve high levels of vehicle localization accuracy and stability in urban environments. Contrary to the popular SLAM approaches, visual map localization relies on pre-built maps, and is focused solely on improving the localization accuracy by avoiding error accumulation or drift. We define visual map localization as a two-stage process. At the stage of place recognition, the initial position of the vehicle in the map is determined by comparing the visual sensor output with a set of geo-tagged map regions of interest. Subsequently, at the stage of map metric localization, the vehicle is tracked while it moves across the map by continuously aligning the visual sensors' output with the current area of the map that is being traversed. In this paper, we survey, discuss and compare the latest methods for LiDAR based, camera based and cross-modal visual map localization for both stages, in an effort to highlight the strength and weakness of each approach.
翻訳日:2022-08-09 14:03:27 公開日:2022-08-05
# deepwsd:深部特徴空間における知覚空間からwasserstein距離への投影劣化

DeepWSD: Projecting Degradations in Perceptual Space to Wasserstein Distance in Deep Feature Space ( http://arxiv.org/abs/2208.03323v1 )

ライセンス: Link先を確認
Xigran Liao, Baoliang Chen, Hanwei Zhu, Shiqi Wang, Mingliang Zhou, Sam Kwong(参考訳) 既存のディープラーニングベースのフル参照IQA(FR-IQA)モデルは、通常、特徴を明示的に比較することで、画像の品質を決定論的に予測し、対応する特徴が参照画像の空間からどれだけ遠くにあるかによって、画像がどれほどひどく歪んだかを示す。 本稿では,この問題を異なる視点から考察し,統計的分布の観点から知覚空間における品質劣化のモデル化を提案する。 これにより、深い特徴領域におけるwasserstein距離に基づいて品質を測定することができる。 具体的には、最終品質スコアに基づいて、予め訓練されたvggネットワークの各ステージにおける1dwasserstein距離を測定する。 ニューラルネットワークの特徴に基づいて行われるディープワッサースタイン距離(DeepWSD)は、様々な種類の歪みに起因する品質汚染のより良い解釈可能性を示し、高度な品質予測能力を示す。 大規模実験と理論解析により,提案したDeepWSDの精度予測と最適化の両面で優位性を示した。

Existing deep learning-based full-reference IQA (FR-IQA) models usually predict the image quality in a deterministic way by explicitly comparing the features, gauging how severely distorted an image is by how far the corresponding feature lies from the space of the reference images. Herein, we look at this problem from a different viewpoint and propose to model the quality degradation in perceptual space from a statistical distribution perspective. As such, the quality is measured based upon the Wasserstein distance in the deep feature domain. More specifically, the 1DWasserstein distance at each stage of the pre-trained VGG network is measured, based on which the final quality score is performed. The deep Wasserstein distance (DeepWSD) performed on features from neural networks enjoys better interpretability of the quality contamination caused by various types of distortions and presents an advanced quality prediction capability. Extensive experiments and theoretical analysis show the superiority of the proposed DeepWSD in terms of both quality prediction and optimization.
翻訳日:2022-08-09 13:54:51 公開日:2022-08-05
# 単一画像超解像に対する知覚歪バランスADMM最適化

Perception-Distortion Balanced ADMM Optimization for Single-Image Super-Resolution ( http://arxiv.org/abs/2208.03324v1 )

ライセンス: Link先を確認
Yuehan Zhang, Bo Ji, Angela Yao(参考訳) 画像超解像では、画素の精度と知覚忠実度の両方が望ましい。 しかし、ほとんどのディープラーニング手法は、知覚ゆがみのトレードオフのため、一つの面において高い性能を達成し、トレードオフのバランスをとる作業は、個別に訓練されたモデルとアドホックな後処理の結果に頼っている。 本稿では,低周波制約(lfc-sr)を持つ超解像モデルを提案する。このモデルでは,単一モデルを通して目的と知覚の質をバランスさせ,高psnrと知覚スコアを持つ超解像を生成する。 さらに、制約付きモデルの非自明な学習のためのADMMに基づく交互最適化手法を提案する。 実験の結果,提案手法は加工後処理の煩雑さを伴わず,最先端の性能を達成できた。 コードはhttps://github.com/yuehan717/pdasrで入手できる。

In image super-resolution, both pixel-wise accuracy and perceptual fidelity are desirable. However, most deep learning methods only achieve high performance in one aspect due to the perception-distortion trade-off, and works that successfully balance the trade-off rely on fusing results from separately trained models with ad-hoc post-processing. In this paper, we propose a novel super-resolution model with a low-frequency constraint (LFc-SR), which balances the objective and perceptual quality through a single model and yields super-resolved images with high PSNR and perceptual scores. We further introduce an ADMM-based alternating optimization method for the non-trivial learning of the constrained model. Experiments showed that our method, without cumbersome post-processing procedures, achieved the state-of-the-art performance. The code is available at https://github.com/Yuehan717/PDASR.
翻訳日:2022-08-09 13:54:32 公開日:2022-08-05
# 顕微鏡画像における不完全ラベルのシームレスな半教師付き補正

Seamless Iterative Semi-Supervised Correction of Imperfect Labels in Microscopy Images ( http://arxiv.org/abs/2208.03327v1 )

ライセンス: Link先を確認
Marawan Elbatel, Christina Bornberg, Manasi Kattel, Enrique Almar, Claudio Marrocco, Alessandro Bria(参考訳) 生体内試験は、医療機器の毒性に対する動物実験の代替である。 細胞を第1ステップとして検出する細胞専門家は、顕微鏡下で細胞毒性のグレードに従って細胞の成長を評価する。 このように、人間の疲労は、深層学習の利用をアピールするエラー作成において重要な役割を果たしている。 データアノテーションのトレーニングに高いコストがかかるため、手動アノテーションのないアプローチが必要である。 雑音やアノテーションの欠如によるオブジェクト検出モデルを半教師付きでトレーニングする新しい手法として,Seanless Iterative Semi-Supervised correct of Imperfect labels (SISSI)を提案する。 我々のネットワークは、自己学習中に繰り返し修正される単純な画像処理アルゴリズムで生成されたノイズの多いラベルから学習する。 擬似ラベルにおけるバウンディングボックスの欠如がトレーニングに悪影響を及ぼすため,シームレスなクローニングを用いて動的に生成する合成画像の訓練を提案する。 本手法は,物体検出に適応的な早期学習補正技術を提供する。 分類とセマンティックセグメンテーションに応用された早期学習補正と合成ライクな画像生成の組み合わせは、通常の半教師ありアプローチよりも15%APと20%ARより効果的であることが証明された。 私たちのコードはhttps://github.com/marwankefah/SISSIで公開されています。

In-vitro tests are an alternative to animal testing for the toxicity of medical devices. Detecting cells as a first step, a cell expert evaluates the growth of cells according to cytotoxicity grade under the microscope. Thus, human fatigue plays a role in error making, making the use of deep learning appealing. Due to the high cost of training data annotation, an approach without manual annotation is needed. We propose Seamless Iterative Semi-Supervised correction of Imperfect labels (SISSI), a new method for training object detection models with noisy and missing annotations in a semi-supervised fashion. Our network learns from noisy labels generated with simple image processing algorithms, which are iteratively corrected during self-training. Due to the nature of missing bounding boxes in the pseudo labels, which would negatively affect the training, we propose to train on dynamically generated synthetic-like images using seamless cloning. Our method successfully provides an adaptive early learning correction technique for object detection. The combination of early learning correction that has been applied in classification and semantic segmentation before and synthetic-like image generation proves to be more effective than the usual semi-supervised approach by > 15% AP and > 20% AR across three different readers. Our code is available at https://github.com/marwankefah/SISSI.
翻訳日:2022-08-09 13:54:19 公開日:2022-08-05
# デュアルアクティベーション精度によるメモリ効率トレーニングに向けて

Towards Memory Efficient Training via Dual Activation Precision ( http://arxiv.org/abs/2208.04187v1 )

ライセンス: Link先を確認
Guanchu Wang and Zirui Liu and Zhimeng Jiang and Ninghao Liu and Na Zou and Xia Hu(参考訳) アクティベーション圧縮トレーニング~(ACT)は、ディープニューラルネットワークのトレーニングにおけるメモリ消費を減らすための有望な方法であることが示されている。 しかし、ACTの既存の研究は、量子化ノイズを減らすためにディープニューラルネットワーク(DNN)トレーニング中に最適なビット幅を探すことに依存しており、手順は複雑で透明ではない。 そこで本研究では,DNNトレーニングのための簡易かつ効果的なACT手法を提案する。 Emph{DNN後方伝播は主に高周波成分~(HFC)の代わりに活性化マップの低周波成分~(LFC)に依存する。 これは、活性化マップのHFCが、DNNトレーニング中に非常に冗長で圧縮可能であることを示し、提案したデュアルアクティベーションPrecISION~(DIVISION)に刺激を与える。 トレーニング中、DIVISIONは活性化マップのLFCとHFCの両方を推定し、HFCを低精度コピーに圧縮して冗長性を除去する。 これにより、DNNの後方伝播の精度に悪影響を及ぼすことなく、メモリ消費を大幅に削減することができる。 このように、DIVISIONは通常のトレーニングと同等のパフォーマンスを達成する。 3つのベンチマークデータセットによる実験結果から、DIVISIONはメモリ消費、モデル精度、実行速度の点で最先端のベースライン手法より優れていることが示された。

Activation compressed training~(ACT) has been shown to be a promising way to reduce the memory consumption in training deep neural networks. However, existing work of ACT relies on searching for the optimal bit-width during deep neural network (DNN) training to reduce the quantization noise, which makes the procedure complicated and less transparent. To this end, we propose a simple and effective ACT method for DNN training. Our method is motivated by the observation: \emph{DNN backward propagation mainly depends on the low-frequency component~(LFC) of the activation maps instead of the high-frequency component~(HFC)}. It indicates the HFC of the activation maps is highly redundant and compressible during DNN training, which inspires our proposed Dual ActIVation PrecISION~(DIVISION). During the training, DIVISION estimates both the LFC and HFC of the activation maps, and compresses the HFC into low-precision copy to remove the redundancy. This can significantly reduce the memory consumption without negatively affecting the precision of DNN backward propagation. In this way, DIVISION achieves comparable performance as normal training. Experimental results on three benchmark datasets demonstrate that DIVISION outperforms state-of-the-art baseline methods in terms of memory consumption, model accuracy, and running speed.
翻訳日:2022-08-09 13:49:04 公開日:2022-08-05
# イメージインペインティングを改善するキー: 構造とテクスチャが手に入る

Keys to Better Image Inpainting: Structure and Texture Go Hand in Hand ( http://arxiv.org/abs/2208.03382v1 )

ライセンス: Link先を確認
Jitesh Jain, Yuqian Zhou, Ning Yu, Humphrey Shi(参考訳) ディープ・イメージ・インペイントは画像生成と処理アルゴリズムの最近の進歩によって目覚ましい進歩を遂げた。 塗工アルゴリズムの性能は, 生成した構造やテクスチャによってよりよく判断できると主張している。 構造は穴内の生成した物体の境界や新しい幾何学的構造を指し、テクスチャは高周波の詳細、特に構造領域内の人工的な繰り返しパターンを指す。 私たちは、より優れた構造は通常粗いganベースのジェネレータネットワークから得られるが、今日の繰り返しパターンは最先端の高周波高速フーリエ畳み込み層を使ってより良くモデル化できると信じている。 本稿では,この2つの設計の利点を活かした新しいインペインティングネットワークを提案する。 そこで本モデルでは, 構造生成と繰り返しテクスチャ合成の両面において, 最先端の性能に見合った視覚的品質を実現する。 本手法の有効性を広範な実験により実証し,今後のネットワーク設計の方向性として,画像インパインティング品質,構造,テクスチャの2つの重要な要素をさらに強調した。

Deep image inpainting has made impressive progress with recent advances in image generation and processing algorithms. We claim that the performance of inpainting algorithms can be better judged by the generated structures and textures. Structures refer to the generated object boundary or novel geometric structures within the hole, while texture refers to high-frequency details, especially man-made repeating patterns filled inside the structural regions. We believe that better structures are usually obtained from a coarse-to-fine GAN-based generator network while repeating patterns nowadays can be better modeled using state-of-the-art high-frequency fast fourier convolutional layers. In this paper, we propose a novel inpainting network combining the advantages of the two designs. Therefore, our model achieves a remarkable visual quality to match state-of-the-art performance in both structure generation and repeating texture synthesis using a single network. Extensive experiments demonstrate the effectiveness of the method, and our conclusions further highlight the two critical factors of image inpainting quality, structures, and textures, as the future design directions of inpainting networks.
翻訳日:2022-08-09 13:16:10 公開日:2022-08-05
# 隣接スライス深部ディスクリプタを用いたct脳内出血のスライスレベル検出

Slice-level Detection of Intracranial Hemorrhage on CT Using Deep Descriptors of Adjacent Slices ( http://arxiv.org/abs/2208.03403v1 )

ライセンス: Link先を確認
Dat T. Ngo, Hieu H. Pham, Thao T.B. Nguyen, Hieu T. Nguyen, Dung B. Nguyen, Ha Q. Nguyen(参考訳) 表現学習技術の急速な発展と大規模医用画像データの利用は、3次元医用画像解析における機械学習の利用を急速に増加させている。 特に、深層畳み込みニューラルネットワーク(d-cnns)は、臨床医や医療専門家の病気診断を支援するために医療画像コミュニティによって採用されている。 しかし、D-CNNのようなディープニューラルネットワークをCTスキャンの高精細な3次元ボリュームでトレーニングすることで、診断タスクが困難になる。 これにより、2dイメージでの表現の学習に頑健な深層学習ベースのアプローチを開発する必要性が高まる。 本稿では,軸に沿って隣接するスライスのディスクリプタに基づいて,ctスキャンで \emph{slice-level} 分類器を訓練する新しい手法を提案する。 特に、それぞれが畳み込みニューラルネットワーク(CNN)を介して抽出される。 この方法は、ISCの存在を予測し、それを5つのサブタイプに分類することを目的としたRSNA頭蓋内出血(ICH)データセットなどのスライスラベル付きCTデータセットに適用できる。 我々は、モデルアンサンブルが許されるRSNA ICHチャレンジの最高パフォーマンスソリューションのトップ4の4倍の1つのモデルを得る。 また,提案手法がcq500のベースラインモデルを大きく上回ることを示した。 提案手法は汎用的であり,MRIなどの他の3次元診断タスクにも適用可能である。 この分野の新たな進歩を促進するため、論文の受理時に、コードと事前訓練されたモデルを利用可能にします。

The rapid development in representation learning techniques and the availability of large-scale medical imaging data have to a rapid increase in the use of machine learning in the 3D medical image analysis. In particular, deep convolutional neural networks (D-CNNs) have been key players and were adopted by the medical imaging community to assist clinicians and medical experts in disease diagnosis. However, training deep neural networks such as D-CNN on high-resolution 3D volumes of Computed Tomography (CT) scans for diagnostic tasks poses formidable computational challenges. This raises the need of developing deep learning-based approaches that are robust in learning representations in 2D images, instead 3D scans. In this paper, we propose a new strategy to train \emph{slice-level} classifiers on CT scans based on the descriptors of the adjacent slices along the axis. In particular, each of which is extracted through a convolutional neural network (CNN). This method is applicable to CT datasets with per-slice labels such as the RSNA Intracranial Hemorrhage (ICH) dataset, which aims to predict the presence of ICH and classify it into 5 different sub-types. We obtain a single model in the top 4\% best-performing solutions of the RSNA ICH challenge, where model ensembles are allowed. Experiments also show that the proposed method significantly outperforms the baseline model on CQ500. The proposed method is general and can be applied for other 3D medical diagnosis tasks such as MRI imaging. To encourage new advances in the field, we will make our codes and pre-trained model available upon acceptance of the paper.
翻訳日:2022-08-09 13:15:47 公開日:2022-08-05
# 単誘導心電図信号を用いた睡眠時無呼吸検出のための新しい深層学習手法

A novel deep learning-based approach for sleep apnea detection using single-lead ECG signals ( http://arxiv.org/abs/2208.03408v1 )

ライセンス: Link先を確認
Anh-Tu Nguyen, Thao Nguyen, Huy-Khiem Le, Huy-Hieu Pham, Cuong Do(参考訳) 睡眠時無呼吸 (sleep apnea, sa) は、睡眠障害の一種で、いびきと慢性無呼吸を特徴とし、高血圧、心不全、心筋症(心臓の筋肉組織の拡大)などの深刻な症状を引き起こすことがある。 心電図(ECG)は、異常な心臓活動を示すため、SAの同定に重要な役割を果たす。 近年のECGに基づくSA検出技術の研究は、複数のリードECG信号から特定の特徴を抽出し、それらを分類モデル入力として利用する特徴工学技術に焦点を当てている。 本研究では,Sピークの検出に基づく特徴抽出手法を提案する。 特に、単一のリード(V2)から収集されたECG特徴を用いてSAエピソードを識別する。 抽出された特徴に基づいて、SAを検出するためにCNNモデルを訓練する。 実験により, 単誘導ECGデータからSAを検出する手法は, 従来の最先端法よりも精度が高く, 分類精度91.13%, 感度92.58%, 特異度88.75%であった。 さらに、Sピークに関連する特徴のさらなる利用は、分類精度を0.85%向上させる。 提案する機械学習システムは,SA エピソードの検出に有効な手法である可能性が示唆された。

Sleep apnea (SA) is a type of sleep disorder characterized by snoring and chronic sleeplessness, which can lead to serious conditions such as high blood pressure, heart failure, and cardiomyopathy (enlargement of the muscle tissue of the heart). The electrocardiogram (ECG) plays a critical role in identifying SA since it might reveal abnormal cardiac activity. Recent research on ECG-based SA detection has focused on feature engineering techniques that extract specific characteristics from multiple-lead ECG signals and use them as classification model inputs. In this study, a novel method of feature extraction based on the detection of S peaks is proposed to enhance the detection of adjacent SA segments using a single-lead ECG. In particular, ECG features collected from a single lead (V2) are used to identify SA episodes. On the extracted features, a CNN model is trained to detect SA. Experimental results demonstrate that the proposed method detects SA from single-lead ECG data is more accurate than existing state-of-the-art methods, with 91.13% classification accuracy, 92.58% sensitivity, and 88.75% specificity. Moreover, the further usage of features associated with the S peaks enhances the classification accuracy by 0.85%. Our findings indicate that the proposed machine learning system has the potential to be an effective method for detecting SA episodes.
翻訳日:2022-08-09 13:15:24 公開日:2022-08-05
# インペインティングにおける知覚的アーティファクトの局在

Perceptual Artifacts Localization for Inpainting ( http://arxiv.org/abs/2208.03357v1 )

ライセンス: Link先を確認
Lingzhi Zhang, Yuqian Zhou, Connelly Barnes, Sohrab Amirghodsi, Zhe Lin, Eli Shechtman, Jianbo Shi(参考訳) 画像のインペイントは、オブジェクトの削除や画像編集など、複数の実用的なアプリケーションに必須のタスクである。 深いganベースのモデルは、穴内の構造やテクスチャの塗り込み性能を大幅に改善するが、破損した構造やカラーブロブのような予期せぬアーティファクトを生成することもある。 ユーザはこれらのアーティファクトを知覚して、塗り込みモデルの有効性を判断し、典型的な塗り替えワークフローで再び塗り替えるためにこれらの不完全な部分を再タッチします。 このワークフローに触発されて,知覚的アーティファクトの自動分割による新しい学習タスクを提案し,モデル評価と反復的洗練のためのモデルを適用する。 具体的には、まず、最先端のインペイントモデルの結果に知覚的アーティファクトを手動でアノテートすることで、新しいインペイントアーティファクトデータセットを構築する。 次に,このデータセット上で高度なセグメンテーションネットワークを訓練し,インペイント画像内のインペイントアーティファクトを確実にローカライズする。 第二に, 知覚的アーティファクト比(par)と呼ばれる新たな解釈可能な評価指標を提案する。 PARは実際のユーザの好みと強い相関を示す。 最後に,本手法と最近の複数のインペインティング手法を組み合わせることで,画像インペインティングに生成マスクを適用した。 広範な実験により、アーティファクト領域の一貫した減少と、異なる方法による品質向上が示されている。

Image inpainting is an essential task for multiple practical applications like object removal and image editing. Deep GAN-based models greatly improve the inpainting performance in structures and textures within the hole, but might also generate unexpected artifacts like broken structures or color blobs. Users perceive these artifacts to judge the effectiveness of inpainting models, and retouch these imperfect areas to inpaint again in a typical retouching workflow. Inspired by this workflow, we propose a new learning task of automatic segmentation of inpainting perceptual artifacts, and apply the model for inpainting model evaluation and iterative refinement. Specifically, we first construct a new inpainting artifacts dataset by manually annotating perceptual artifacts in the results of state-of-the-art inpainting models. Then we train advanced segmentation networks on this dataset to reliably localize inpainting artifacts within inpainted images. Second, we propose a new interpretable evaluation metric called Perceptual Artifact Ratio (PAR), which is the ratio of objectionable inpainted regions to the entire inpainted area. PAR demonstrates a strong correlation with real user preference. Finally, we further apply the generated masks for iterative image inpainting by combining our approach with multiple recent inpainting methods. Extensive experiments demonstrate the consistent decrease of artifact regions and inpainting quality improvement across the different methods.
翻訳日:2022-08-09 13:07:12 公開日:2022-08-05
# 非パラメトリック選択モデルのアクティブラーニング

Active Learning for Non-Parametric Choice Models ( http://arxiv.org/abs/2208.03346v1 )

ライセンス: Link先を確認
Fransisca Susan (1), Negin Golrezaei (2), Ehsan Emamjomeh-Zadeh (3), David Kempe (4) ((1) MIT Operations Research Center, (2) MIT Sloan School of Management, (3) Meta Platforms, Inc., (4) University of Southern California, Los Angeles)(参考訳) 消費者の判断に基づいて非パラメトリック選択モデルを積極的に学習する問題について検討する。 このような選択モデルが識別不能であることを示す負の結果を示す。 識別可能性の問題を克服するために,選択モデルの有向非巡回グラフ(DAG)表現を導入する。 次に,このDAG表現の近似を能動的学習環境で学習する問題を考察する。 我々は,非パラメトリック選択モデルのDAG表現を,頻繁なランクの集合がランダムに一様に描画される多項式時間で推定する効率的な能動学習アルゴリズムを設計する。 提案アルゴリズムは,頻繁な嗜好を呈するアイテムを積極的に繰り返し提供し,選択したアイテムを観察することで,最も人気のあるアイテムの分布を学習する。 提案アルゴリズムは, 消費者の嗜好に基づく合成データセットと公開データセットの両方において, 対応する非アクティブ学習推定アルゴリズムと比較して, 頻繁な嗜好を回復できることを示す。 これにより、我々のアルゴリズムとアクティブラーニングアプローチの価値がより一般的に示される。

We study the problem of actively learning a non-parametric choice model based on consumers' decisions. We present a negative result showing that such choice models may not be identifiable. To overcome the identifiability problem, we introduce a directed acyclic graph (DAG) representation of the choice model, which in a sense captures as much information about the choice model as could information-theoretically be identified. We then consider the problem of learning an approximation to this DAG representation in an active-learning setting. We design an efficient active-learning algorithm to estimate the DAG representation of the non-parametric choice model, which runs in polynomial time when the set of frequent rankings is drawn uniformly at random. Our algorithm learns the distribution over the most popular items of frequent preferences by actively and repeatedly offering assortments of items and observing the item chosen. We show that our algorithm can better recover a set of frequent preferences on both a synthetic and publicly available dataset on consumers' preferences, compared to the corresponding non-active learning estimation algorithms. This demonstrates the value of our algorithm and active-learning approaches more generally.
翻訳日:2022-08-09 12:55:32 公開日:2022-08-05
# 物理情報量による高雑音・スパースデータからの偏微分方程式の発見

Discovery of partial differential equations from highly noisy and sparse data with physics-informed information criterion ( http://arxiv.org/abs/2208.03322v1 )

ライセンス: Link先を確認
Hao Xu, Junsheng Zeng, Dongxiao Zhang(参考訳) データ駆動によるPDEの発見は近年大きく進歩し、多くの標準PDEが概念実証に成功している。 しかしながら、先行参照のない最も適切なPDEを決定することは、実際的な応用の観点からも難しい。 本研究では, 物理情報量規準(PIC)を提案し, 発見されたPDEの同義性と精度を総合的に測定した。 提案したPICは,異なる物理シーンからの7つの標準PDEの高ノイズ・スパースデータに対する最先端のロバスト性を実現し,困難な状況に対処する能力を確認する。 PICはまた、実際の物理的シーンにおける顕微鏡シミュレーションデータから、未発見のマクロスケール支配方程式を発見するためにも用いられる。 その結果,発見されたマクロスケールPDEは正確で相似であり,物理過程の理解とシミュレーションを容易にする基礎となる対称性を満たすことがわかった。 PICの提案は、より広い物理シーンにおける未発見の統治方程式の発見において、PDE発見の実践的な応用を可能にする。

Data-driven discovery of PDEs has made tremendous progress recently, and many canonical PDEs have been discovered successfully for proof-of-concept. However, determining the most proper PDE without prior references remains challenging in terms of practical applications. In this work, a physics-informed information criterion (PIC) is proposed to measure the parsimony and precision of the discovered PDE synthetically. The proposed PIC achieves state-of-the-art robustness to highly noisy and sparse data on seven canonical PDEs from different physical scenes, which confirms its ability to handle difficult situations. The PIC is also employed to discover unrevealed macroscale governing equations from microscopic simulation data in an actual physical scene. The results show that the discovered macroscale PDE is precise and parsimonious, and satisfies underlying symmetries, which facilitates understanding and simulation of the physical process. The proposition of PIC enables practical applications of PDE discovery in discovering unrevealed governing equations in broader physical scenes.
翻訳日:2022-08-09 12:52:51 公開日:2022-08-05
# ディープニューラルネットワークを用いた等方関数予測

Isoform Function Prediction Using Deep Neural Network ( http://arxiv.org/abs/2208.03325v1 )

ライセンス: Link先を確認
Sara Ghazanfari, Ali Rasteh, Seyed Abolfazl Motahari, Mahdieh Soleymani Baghshah(参考訳) アイソフォームは、オルタナティブスプライシングと呼ばれる現象において同じ遺伝子部位から生成されるmRNAである。 ヒトマルチエクソン遺伝子の95%以上が代替スプライシングを受けていることが研究で示されている。 mRNA配列にはほとんど変化はないが、細胞機能や調節に系統的な影響を及ぼす可能性がある。 遺伝子のアイソフォームは異なる、あるいは対照的な機能を持っていると広く報告されている。 多くの研究は、代替スプライシングが人間の健康と病気に重要な役割を果たすことを示した。 幅広い遺伝子機能研究にもかかわらず、アイソフォームの機能についてはほとんど情報がない。 近年,遺伝子機能と遺伝子発現プロファイルを用いてアイソフォーム関数を予測するために,複数インスタンス学習に基づく計算手法が提案されている。 しかし、ラベル付きトレーニングデータがないため、それらのパフォーマンスは望ましいものではない。 さらに、条件ランダム場(CRF)のような確率モデルを用いてアイソフォームの関係をモデル化している。 本研究は, アイソフォーム配列, 発現プロファイル, 遺伝子オントロジーグラフなどのデータと貴重な情報を全て利用し, ディープニューラルネットワークに基づく包括的モデルを提案する。 UniProt Gene Ontology (GO)データベースは、遺伝子機能の標準参照として使用される。 NCBI RefSeqデータベースは遺伝子およびアイソフォーム配列の抽出に使用され、NCBI SRAデータベースは発現プロファイルデータに使用される。 予測精度の測定には、曲線下の受信機動作特性領域(roc auc)や曲線下の精度リコール(pr auc)などの指標を用いる。

Isoforms are mRNAs produced from the same gene site in the phenomenon called Alternative Splicing. Studies have shown that more than 95% of human multi-exon genes have undergone alternative splicing. Although there are few changes in mRNA sequence, They may have a systematic effect on cell function and regulation. It is widely reported that isoforms of a gene have distinct or even contrasting functions. Most studies have shown that alternative splicing plays a significant role in human health and disease. Despite the wide range of gene function studies, there is little information about isoforms' functionalities. Recently, some computational methods based on Multiple Instance Learning have been proposed to predict isoform function using gene function and gene expression profile. However, their performance is not desirable due to the lack of labeled training data. In addition, probabilistic models such as Conditional Random Field (CRF) have been used to model the relation between isoforms. This project uses all the data and valuable information such as isoform sequences, expression profiles, and gene ontology graphs and proposes a comprehensive model based on Deep Neural Networks. The UniProt Gene Ontology (GO) database is used as a standard reference for gene functions. The NCBI RefSeq database is used for extracting gene and isoform sequences, and the NCBI SRA database is used for expression profile data. Metrics such as Receiver Operating Characteristic Area Under the Curve (ROC AUC) and Precision-Recall Under the Curve (PR AUC) are used to measure the prediction accuracy.
翻訳日:2022-08-09 12:52:23 公開日:2022-08-05
# LCCDE: 車両のインターネットにおける侵入検知のための決定に基づくアンサンブルフレームワーク

LCCDE: A Decision-Based Ensemble Framework for Intrusion Detection in The Internet of Vehicles ( http://arxiv.org/abs/2208.03399v1 )

ライセンス: Link先を確認
Li Yang, Abdallah Shami, Gary Stevens, Stephen De Rusett(参考訳) 自動運転車やコネクテッドカーを含む現代の車両は、他の車両、スマートデバイス、インフラとの接続や通信を通じて、様々な機能を取り入れている。 しかし、インターネット・オブ・ビークルズ(IoV)の接続が増加すると、ネットワーク攻撃に対する脆弱性も増大する。 IoVシステムをサイバー脅威から保護するために、悪意のあるサイバー攻撃を識別できる侵入検知システム(IDS)が機械学習(ML)アプローチを用いて開発された。 IoVネットワークにおける様々な種類の攻撃を正確に検出するために,新しいICSフレームワークであるLead Class and Confidence Decision Ensemble (LCCDE)を提案する。 クラスやタイプの攻撃に対して、3つの高度なMLアルゴリズム(XGBoost、LightGBM、CatBoost)の中で最高のパフォーマンスのMLモデルを決定することで構築される。 クラスリーダーモデルは、その予測信頼度値を用いて、様々なサイバー攻撃の検出に関する正確な決定を行う。 2つの公開iovセキュリティデータセット(car-hackingとcicids2017データセット)の実験は、車内および外部ネットワークにおける侵入検出における提案のlccdeの有効性を示している。

Modern vehicles, including autonomous vehicles and connected vehicles, have adopted an increasing variety of functionalities through connections and communications with other vehicles, smart devices, and infrastructures. However, the growing connectivity of the Internet of Vehicles (IoV) also increases the vulnerabilities to network attacks. To protect IoV systems against cyber threats, Intrusion Detection Systems (IDSs) that can identify malicious cyber-attacks have been developed using Machine Learning (ML) approaches. To accurately detect various types of attacks in IoV networks, we propose a novel ensemble IDS framework named Leader Class and Confidence Decision Ensemble (LCCDE). It is constructed by determining the best-performing ML model among three advanced ML algorithms (XGBoost, LightGBM, and CatBoost) for every class or type of attack. The class leader models with their prediction confidence values are then utilized to make accurate decisions regarding the detection of various types of cyber-attacks. Experiments on two public IoV security datasets (Car-Hacking and CICIDS2017 datasets) demonstrate the effectiveness of the proposed LCCDE for intrusion detection on both intra-vehicle and external networks.
翻訳日:2022-08-09 12:51:43 公開日:2022-08-05
# ニューラルネットワークテストのための構造的カバレッジ指標の概要

An Overview of Structural Coverage Metrics for Testing Neural Networks ( http://arxiv.org/abs/2208.03407v1 )

ライセンス: Link先を確認
Muhammad Usman, Youcheng Sun, Divya Gopinath, Rishi Dange, Luca Manolache, Corina S. Pasareanu(参考訳) 安全クリティカルなドメインで使用されるものを含むディープニューラルネットワーク(DNN)モデルは、さまざまなシナリオで確実に機能するように、徹底的にテストする必要がある。 本稿では、DNNモデルをテストするための構造的カバレッジ指標について概説する。例えば、ニューロンカバレッジ(NC)、kマルチセクションニューロンカバレッジ(kMNC)、トップkニューロンカバレッジ(TKNC)、ニューロン境界カバレッジ(NBC)、強いニューロンアクティベーションカバレッジ(SNAC)、条件/決定カバレッジ(MC/DC)である。 我々は,認識タスク(LeNet-1,LeNet-4,LeNet-5,ResNet20を含む)に使用される現実的なDNNモデルと,自律性(TaxiNet)に使用されるネットワークのメトリクスを評価する。 また、これらのメトリクスに対するテストカバレッジを測定するツールであるDNNCovも提供しています。 DNNCovは、研究者や実践者がDNNテストの妥当性を評価し、異なるカバレッジ対策を比較し、テスト中のモデルの内部をより便利に検査できるように、情報的なカバレッジレポートを出力する。

Deep neural network (DNN) models, including those used in safety-critical domains, need to be thoroughly tested to ensure that they can reliably perform well in different scenarios. In this article, we provide an overview of structural coverage metrics for testing DNN models, including neuron coverage (NC), k-multisection neuron coverage (kMNC), top-k neuron coverage (TKNC), neuron boundary coverage (NBC), strong neuron activation coverage (SNAC) and modified condition/decision coverage (MC/DC). We evaluate the metrics on realistic DNN models used for perception tasks (including LeNet-1, LeNet-4, LeNet-5, and ResNet20) as well as on networks used in autonomy (TaxiNet). We also provide a tool, DNNCov, which can measure the testing coverage for all these metrics. DNNCov outputs an informative coverage report to enable researchers and practitioners to assess the adequacy of DNN testing, compare different coverage measures, and to more conveniently inspect the model's internals during testing.
翻訳日:2022-08-09 12:51:23 公開日:2022-08-05
# 医学応用のための連合学習--分類学・最近の動向・研究課題

Federated Learning for Medical Applications: A Taxonomy, Current Trends, and Research Challenges ( http://arxiv.org/abs/2208.03392v1 )

ライセンス: Link先を確認
Ashish Rauniyar, Desta Haileselassie Hagos, Debesh Jha, Jan Erik H{\aa}keg{\aa}rd, Ulas Bagci, Danda B. Rawat, and Vladimir Vlassov(参考訳) IoT、AI、ML/DLアルゴリズムの出現により、このデータ駆動型医療アプリケーションは、医療データから信頼性がありスケーラブルな診断および予後モデルを設計するための有望なツールとして登場した。 近年、学界から産業への関心が高まっている。 これによって医療提供の質が向上したことは間違いない。 しかし、これらのAIベースの医療アプリケーションは、厳格なセキュリティ、プライバシ、(低レイテンシのような)サービス標準の品質を満たすのが難しいため、まだ採用されていない。 さらに、医療データは通常断片化され非公開であり、人口間で堅牢な結果を生み出すことは困難である。 最近の連合学習(fl)の発展により、複雑な機械学習モデルの分散学習が可能になった。 そのため、FLは積極的な研究領域となり、特にプライバシーとセキュリティの懸念を維持するために、ネットワークの端で医療データを分散的に処理している。 そこで本研究では,データ共有が重荷となる医療アプリケーションにおけるFL技術の現状と将来について述べる。 また、信頼性とスケーラブルなflモデルを設計するための現在の研究動向とその成果をレビューし、議論する。 我々は、一般のFLの統計問題、デバイスの問題、セキュリティ、プライバシー問題、医療領域におけるその可能性について概説する。 さらに,本研究は,がん治療のためのコンピュータ支援診断ツールの開発において,グローバルがんの負担とFLの効率的な利用に焦点を当てた医療応用にも焦点を当てている。 このレビューが既存の最先端の作品を徹底的に紹介し、オープンな問題と今後の研究の方向性を提供するチェックポイントになることを願っています。

With the advent of the IoT, AI, and ML/DL algorithms, the data-driven medical application has emerged as a promising tool for designing reliable and scalable diagnostic and prognostic models from medical data. This has attracted a great deal of attention from academia to industry in recent years. This has undoubtedly improved the quality of healthcare delivery. However, these AI-based medical applications still have poor adoption due to their difficulties in satisfying strict security, privacy, and quality of service standards (such as low latency). Moreover, medical data are usually fragmented and private, making it challenging to generate robust results across populations. Recent developments in federated learning (FL) have made it possible to train complex machine-learned models in a distributed manner. Thus, FL has become an active research domain, particularly processing the medical data at the edge of the network in a decentralized way to preserve privacy and security concerns. To this end, this survey paper highlights the current and future of FL technology in medical applications where data sharing is a significant burden. It also review and discuss the current research trends and their outcomes for designing reliable and scalable FL models. We outline the general FL's statistical problems, device challenges, security, privacy concerns, and its potential in the medical domain. Moreover, our study is also focused on medical applications where we highlight the burden of global cancer and the efficient use of FL for the development of computer-aided diagnosis tools for addressing them. We hope that this review serves as a checkpoint that sets forth the existing state-of-the-art works in a thorough manner and offers open problems and future research directions for this field.
翻訳日:2022-08-09 12:49:38 公開日:2022-08-05
# リアルタイム話者ダイアリゼーションのための時系列自己学習

Chronological Self-Training for Real-Time Speaker Diarization ( http://arxiv.org/abs/2208.03393v1 )

ライセンス: Link先を確認
Dirk Padfield, Daniel J. Liebling(参考訳) ダイアリゼーションは、話者の声に基づいて音声ストリームをセグメントに分割する。 登録ステップを含むリアルタイムダイアリゼーションシステムは、ユーザインタラクション時間を削減するために、登録トレーニングサンプルを制限する必要がある。 少数のサンプルでのトレーニングでは性能が低下するが,時系列的自己学習手法を用いて精度が劇的に向上することを示す。 トレーニング時間と分類性能のトレードオフを検討したところ、1秒で95%以上の精度に到達できることがわかった。 6つの異なる言語から約10分間の700の音声会話ファイルで評価し,平均ダイアリゼーションエラー率は10%であった。

Diarization partitions an audio stream into segments based on the voices of the speakers. Real-time diarization systems that include an enrollment step should limit enrollment training samples to reduce user interaction time. Although training on a small number of samples yields poor performance, we show that the accuracy can be improved dramatically using a chronological self-training approach. We studied the tradeoff between training time and classification performance and found that 1 second is sufficient to reach over 95% accuracy. We evaluated on 700 audio conversation files of about 10 minutes each from 6 different languages and demonstrated average diarization error rates as low as 10%.
翻訳日:2022-08-09 12:43:44 公開日:2022-08-05
# スケッチは千語分の価値がある - テキストとスケッチによる画像検索

A Sketch Is Worth a Thousand Words: Image Retrieval with Text and Sketch ( http://arxiv.org/abs/2208.03354v1 )

ライセンス: Link先を確認
Patsorn Sangkloy, Wittawat Jitkrittum, Diyi Yang, James Hays(参考訳) スケッチとテキストクエリの両方で画像を取得するという問題に対処する。 テキスト記述とスケッチを入力として用いた画像検索のためのエンドツーエンドトレーニングモデルであるTASK-former(Text And SKetch transformer)を提案する。 我々は、両方の入力モダリティが互いに、どちらか一方だけでは容易に達成できない方法で補完すると主張する。 TASK-formerは、CLIPと同様、遅延融合デュアルエンコーダアプローチに従っており、クエリとは独立して検索セットをインデックス化できるため、効率的でスケーラブルな検索を可能にする。 従来のテキストベースの画像検索に比べて,テキストに加えて入力スケッチ(貧弱な描画でも)を使うことが検索リコールを大幅に増加させることを示す。 提案手法を評価するため,COCOデータセットのテストセットで5000枚の手描きスケッチを画像として収集した。 収集されたスケッチはhttps://janesjanes.github.io/tsbir/で入手できる。

We address the problem of retrieving images with both a sketch and a text query. We present TASK-former (Text And SKetch transformer), an end-to-end trainable model for image retrieval using a text description and a sketch as input. We argue that both input modalities complement each other in a manner that cannot be achieved easily by either one alone. TASK-former follows the late-fusion dual-encoder approach, similar to CLIP, which allows efficient and scalable retrieval since the retrieval set can be indexed independently of the queries. We empirically demonstrate that using an input sketch (even a poorly drawn one) in addition to text considerably increases retrieval recall compared to traditional text-based image retrieval. To evaluate our approach, we collect 5,000 hand-drawn sketches for images in the test set of the COCO dataset. The collected sketches are available a https://janesjanes.github.io/tsbir/.
翻訳日:2022-08-09 12:40:06 公開日:2022-08-05
# open world survival game crafterにおけるオブジェクト中心エージェントの一般化のための学習

Learning to Generalize with Object-centric Agents in the Open World Survival Game Crafter ( http://arxiv.org/abs/2208.03374v1 )

ライセンス: Link先を確認
Aleksandar Stani\'c, Yujin Tang, David Ha, J\"urgen Schmidhuber(参考訳) 強化学習エージェントは、訓練経験を超えて一般化する必要がある。 先行研究は主に、同じトレーニングと評価環境に重点を置いてきた。 最近導入された2DオープンワールドサバイバルゲームであるCrafterベンチマークから、これまで見えない(数)オブジェクトを一般化し、迅速に適応する(メタラーニング)エージェントの能力を評価するのに適した、新しい環境セットを導入する。 crafterでは、エージェントは、1mステップのトレーニングでアンロックされた成果数(リソースの収集など)によって評価される。 現在のエージェントは一般化に苦慮しており、強力なベースラインよりも優れた新しいオブジェクト中心エージェントを導入している。 また、いくつかの実験を通じて、crafterに関する今後の作業に対する一般的な関心に関する批判的な洞察も提供しています。 注意深いハイパーパラメータチューニングはPPOベースラインエージェントを大きなマージンで改善し、フィードフォワードエージェントでさえ在庫表示に依存することでほぼすべての成果を解放できることを示す。 オリジナルの職人環境において,新たな最先端性能を実現する。 さらに、100万歩を超えるトレーニングを行うと、調整されたエージェントは、ほぼすべての成果を解放できます。 再帰的なPPOエージェントは在庫情報を削除してもフィードフォワードよりも改善することを示す。 OODの一般化を評価する15の新しい環境であるCrafterOODを紹介する。 CrafterOODでは、現在のエージェントが一般化に失敗するのに対し、新しいオブジェクト中心エージェントは最先端のOOD一般化を実現し、解釈可能であることを示す。 私たちのコードは公開されています。

Reinforcement learning agents must generalize beyond their training experience. Prior work has focused mostly on identical training and evaluation environments. Starting from the recently introduced Crafter benchmark, a 2D open world survival game, we introduce a new set of environments suitable for evaluating some agent's ability to generalize on previously unseen (numbers of) objects and to adapt quickly (meta-learning). In Crafter, the agents are evaluated by the number of unlocked achievements (such as collecting resources) when trained for 1M steps. We show that current agents struggle to generalize, and introduce novel object-centric agents that improve over strong baselines. We also provide critical insights of general interest for future work on Crafter through several experiments. We show that careful hyper-parameter tuning improves the PPO baseline agent by a large margin and that even feedforward agents can unlock almost all achievements by relying on the inventory display. We achieve new state-of-the-art performance on the original Crafter environment. Additionally, when trained beyond 1M steps, our tuned agents can unlock almost all achievements. We show that the recurrent PPO agents improve over feedforward ones, even with the inventory information removed. We introduce CrafterOOD, a set of 15 new environments that evaluate OOD generalization. On CrafterOOD, we show that the current agents fail to generalize, whereas our novel object-centric agents achieve state-of-the-art OOD generalization while also being interpretable. Our code is public.
翻訳日:2022-08-09 12:34:35 公開日:2022-08-05
# 多様な重要度推定の創発的手法の計算的探索

A Computational Exploration of Emerging Methods of Variable Importance Estimation ( http://arxiv.org/abs/2208.03373v1 )

ライセンス: Link先を確認
Louis Mozart Kamdem and Ernest Fokoue(参考訳) 変数の重要性を推定することは、現代の機械学習において不可欠なタスクである。 これは、あるモデルにおける機能の良さを評価するのに役立つ。 過去10年間に変数の重要性を推定するいくつかの技術が開発されてきた。 本稿では,多種多様な実生活・模擬データを用いて検証した変動重要度推定手法,すなわちLASSO(Least Absolute Shrinkage and Selection Operator),SVM(Support Vector Machine),PERF(Predictive Error Function),RF(Random Forest),XGBOOST(Extreme Gradient Boosting)の計算と理論的検討を行った。 これらのメソッドはすべて、回帰タスクと分類タスクの両方をシームレスに処理できるが、欠落した値を含むデータを扱う場合には、すべて失敗する。 その結果,高度に相関したデータにRFが追従する場合にはPERFが最も高い性能を示した。 PERFとXGBOOSTは"データハングリー(data-hungry)"メソッドで、小さなデータサイズではパフォーマンスが最悪でしたが、実行時間に関しては最速です。 SVMは、多くの冗長な機能がデータセットにある場合に最も適しています。 PERFの余剰は、ゼロでの自然なカットオフであり、すべての正と負のスコアが必須で重要な特徴を示す一方、負のスコアは役に立たない特徴を示す。 RFとLASSOは、最良の結果を提供していないにもかかわらず、ほぼ全ての状況で使用できるように、非常に多用途である。

Estimating the importance of variables is an essential task in modern machine learning. This help to evaluate the goodness of a feature in a given model. Several techniques for estimating the importance of variables have been developed during the last decade. In this paper, we proposed a computational and theoretical exploration of the emerging methods of variable importance estimation, namely: Least Absolute Shrinkage and Selection Operator (LASSO), Support Vector Machine (SVM), the Predictive Error Function (PERF), Random Forest (RF), and Extreme Gradient Boosting (XGBOOST) that were tested on different kinds of real-life and simulated data. All these methods can handle both regression and classification tasks seamlessly but all fail when it comes to dealing with data containing missing values. The implementation has shown that PERF has the best performance in the case of highly correlated data closely followed by RF. PERF and XGBOOST are "data-hungry" methods, they had the worst performance on small data sizes but they are the fastest when it comes to the execution time. SVM is the most appropriate when many redundant features are in the dataset. A surplus with the PERF is its natural cut-off at zero helping to separate positive and negative scores with all positive scores indicating essential and significant features while the negatives score indicates useless features. RF and LASSO are very versatile in a way that they can be used in almost all situations despite they are not giving the best results.
翻訳日:2022-08-09 12:33:19 公開日:2022-08-05
# 近似を超えて行く:微分可能な組合せソルバによる説明可能な多重ホップ推論のための制約の符号化

Going Beyond Approximation: Encoding Constraints for Explainable Multi-hop Inference via Differentiable Combinatorial Solvers ( http://arxiv.org/abs/2208.03339v1 )

ライセンス: Link先を確認
Mokanarangan Thayaparan, Marco Valentino, Andr\'e Freitas(参考訳) 整数線形プログラミング(ilp)は、自然言語で説明可能なマルチホップ推論に関する明示的で制御可能な仮定を符号化する実行可能なメカニズムを提供する。 しかし、ILPの定式化は微分不可能であり、より広範なディープラーニングアーキテクチャに統合することはできない。 近年、Tayaparan et al. (2021a) は、複雑なマルチホップ推論のためのエンドツーエンドの微分性を達成するために、ILPとトランスフォーマーを統合する新しい手法を提案した。 このハイブリッドフレームワークは、トランスフォーマーベースや既存のILP解法よりも優れた解法と説明の選択をもたらすことが実証されているが、ニューロシンボリック統合は依然として、サブ最適解を生み出すことができるILP定式化の凸緩和に依存している。 これらの制限を改善するために、Diff-Comb Explainerを提案する。これは、微分可能なBlackBox Combinatorial solvers(DBCS)に基づく新しいニューロシンボリックアーキテクチャである(Pogan\v{c}i\'c et al., 2019)。 既存の微分可能解法とは異なり、提示されたモデルは明示的な意味的制約の変換と緩和を必要とせず、直接的で効率的なILP定式化の統合を可能にする。 Diff-Comb Explainerは、微分不可能なソルバ、トランスフォーマー、および既存の微分可能制約ベースのマルチホップ推論フレームワークの精度と説明性を改善する。

Integer Linear Programming (ILP) provides a viable mechanism to encode explicit and controllable assumptions about explainable multi-hop inference with natural language. However, an ILP formulation is non-differentiable and cannot be integrated into broader deep learning architectures. Recently, Thayaparan et al. (2021a) proposed a novel methodology to integrate ILP with Transformers to achieve end-to-end differentiability for complex multi-hop inference. While this hybrid framework has been demonstrated to deliver better answer and explanation selection than transformer-based and existing ILP solvers, the neuro-symbolic integration still relies on a convex relaxation of the ILP formulation, which can produce sub-optimal solutions. To improve these limitations, we propose Diff-Comb Explainer, a novel neuro-symbolic architecture based on Differentiable BlackBox Combinatorial solvers (DBCS) (Pogan\v{c}i\'c et al., 2019). Unlike existing differentiable solvers, the presented model does not require the transformation and relaxation of the explicit semantic constraints, allowing for direct and more efficient integration of ILP formulations. Diff-Comb Explainer demonstrates improved accuracy and explainability over non-differentiable solvers, Transformers and existing differentiable constraint-based multi-hop inference frameworks.
翻訳日:2022-08-09 12:23:46 公開日:2022-08-05
# GLASS: シーンテキストスポッティングのためのグローバルからローカルへの注意

GLASS: Global to Local Attention for Scene-Text Spotting ( http://arxiv.org/abs/2208.03364v1 )

ライセンス: Link先を確認
Roi Ronen and Shahar Tsiper and Oron Anschel and Inbal Lavi and Amir Markovitz and R. Manmatha(参考訳) 近年,テキストスポッティングの主要なパラダイムは,テキスト検出と認識のタスクを1つのエンドツーエンドフレームワークに組み合わせることである。 このパラダイムでは、両方のタスクは、入力画像から抽出された共有グローバルフィーチャマップ上で動作することによって達成される。 エンド・ツー・エンドのアプローチが直面する主な課題は、スケールのバリエーション(より小さいか大きいか)にまたがるテキスト認識時の性能劣化と、任意の単語回転角である。 本研究では,GLASSと呼ばれるテキストスポッティングのための新しいグローバル・ローカル・アテンション機構を提案することで,これらの課題に対処する。 グローバルな特徴は、共有バックボーンから抽出され、画像全体からコンテキスト情報を保存し、局所的特徴は、再サイズで高分解能な回転語作物で個別に計算される。 現地の作物から抽出された情報は、スケールや単語の回転に固有の困難の多くを軽減する。 スケールとアングルにまたがるパフォーマンス分析を行い、スケールとアングルの四肢に対する改善を強調する。 さらに,検出タスクを監督する方向認識損失項を導入し,全角度にわたって検出および認識性能に寄与することを示す。 最後に,他の主要なテキストスポッティングアーキテクチャにGLASSを組み込むことで,テキストスポッティング性能を向上することを示す。 提案手法は,新たにリリースされたTextOCRを含む複数のベンチマークにおいて,最先端の結果を得る。

In recent years, the dominant paradigm for text spotting is to combine the tasks of text detection and recognition into a single end-to-end framework. Under this paradigm, both tasks are accomplished by operating over a shared global feature map extracted from the input image. Among the main challenges that end-to-end approaches face is the performance degradation when recognizing text across scale variations (smaller or larger text), and arbitrary word rotation angles. In this work, we address these challenges by proposing a novel global-to-local attention mechanism for text spotting, termed GLASS, that fuses together global and local features. The global features are extracted from the shared backbone, preserving contextual information from the entire image, while the local features are computed individually on resized, high-resolution rotated word crops. The information extracted from the local crops alleviates much of the inherent difficulties with scale and word rotation. We show a performance analysis across scales and angles, highlighting improvement over scale and angle extremities. In addition, we introduce an orientation-aware loss term supervising the detection task, and show its contribution to both detection and recognition performance across all angles. Finally, we show that GLASS is general by incorporating it into other leading text spotting architectures, improving their text spotting performance. Our method achieves state-of-the-art results on multiple benchmarks, including the newly released TextOCR.
翻訳日:2022-08-09 12:21:57 公開日:2022-08-05
# 長期短期記憶ネットワークを用いたマルチ忠実度サロゲートモデリング

Multi-fidelity surrogate modeling using long short-term memory networks ( http://arxiv.org/abs/2208.03115v1 )

ライセンス: Link先を確認
Paolo Conti, Mengwu Guo, Andrea Manzoni, Jan S. Hesthaven(参考訳) 微分方程式の解に依存する関心量を評価するとき、我々は必然的に精度と効率のトレードオフに直面している。 特に、工学計算における時間依存問題において、許容可能な計算予算が高忠実度で正確なシミュレーションデータの可用性を制限する場合が多い。 この困難を克服するための効果的な戦略としてマルチフィデリティ・サロゲート・モデリングが登場している。 鍵となるアイデアは、多くの低忠実度シミュレーションデータを活用することであり、精度は低いが計算がはるかに速く、限られた高忠実度データで近似を改善することである。 本研究では,長期短期記憶(LSTM)ネットワークを用いたパラメータ化・時間依存問題に対する多要素サロゲートモデリングのための新しいデータ駆動型フレームワークを提案する。 提案手法は,細粒度と粗いメッシュ,小段と大段の時間ステップ,有限要素の完全順序と深度学習の低次モデルによって生成される,多種多様な工学的問題に適用可能であることを示す。 数値計算の結果,提案したマルチフィデリティLSTMネットワークはシングルフィデリティ回帰を著しく改善するだけでなく,フィードフォワードニューラルネットワークに基づくマルチフィデリティモデルよりも優れていた。

When evaluating quantities of interest that depend on the solutions to differential equations, we inevitably face the trade-off between accuracy and efficiency. Especially for parametrized, time dependent problems in engineering computations, it is often the case that acceptable computational budgets limit the availability of high-fidelity, accurate simulation data. Multi-fidelity surrogate modeling has emerged as an effective strategy to overcome this difficulty. Its key idea is to leverage many low-fidelity simulation data, less accurate but much faster to compute, to improve the approximations with limited high-fidelity data. In this work, we introduce a novel data-driven framework of multi-fidelity surrogate modeling for parametrized, time-dependent problems using long short-term memory (LSTM) networks, to enhance output predictions both for unseen parameter values and forward in time simultaneously - a task known to be particularly challenging for data-driven models. We demonstrate the wide applicability of the proposed approaches in a variety of engineering problems with high- and low-fidelity data generated through fine versus coarse meshes, small versus large time steps, or finite element full-order versus deep learning reduced-order models. Numerical results show that the proposed multi-fidelity LSTM networks not only improve single-fidelity regression significantly, but also outperform the multi-fidelity models based on feed-forward neural networks.
翻訳日:2022-08-08 13:20:19 公開日:2022-08-05
# 圧縮(多次元)学習ブルームフィルタ

Compressing (Multidimensional) Learned Bloom Filters ( http://arxiv.org/abs/2208.03029v1 )

ライセンス: Link先を確認
Angjela Davitkova, Damjan Gjurovski, Sebastian Michel(参考訳) bloomフィルタは、要素の集合をコンパクトに表現するデータ構造として広く使われている。 bloomフィルタをクエリすると、下位のセットに要素が含まれていないか、特定のエラーレートに含まれているかが分かる。 このメンバシップテストはバイナリ分類問題としてモデル化することができ、ディープラーニングモデルを通じて解決される。 ラーニングブルームフィルタの利点は,膨大なデータ量を考慮する場合にのみ明らかであり,さらにメモリ消費を削減できる可能性が示唆された。 そこで,我々は,学習モデルのメモリ消費を改善しつつ,同等のモデルの精度を保ったロスレス入力圧縮手法を導入する。 提案手法を評価し,学習したブルームフィルタよりもメモリ消費が大幅に向上したことを示す。

Bloom filters are widely used data structures that compactly represent sets of elements. Querying a Bloom filter reveals if an element is not included in the underlying set or is included with a certain error rate. This membership testing can be modeled as a binary classification problem and solved through deep learning models, leading to what is called learned Bloom filters. We have identified that the benefits of learned Bloom filters are apparent only when considering a vast amount of data, and even then, there is a possibility to further reduce their memory consumption. For that reason, we introduce a lossless input compression technique that improves the memory consumption of the learned model while preserving a comparable model accuracy. We evaluate our approach and show significant memory consumption improvements over learned Bloom filters.
翻訳日:2022-08-08 13:18:03 公開日:2022-08-05
# 解集合プログラミングにおけるリフティング対称性のモデル指向アプローチ

A Model-Oriented Approach for Lifting Symmetries in Answer Set Programming ( http://arxiv.org/abs/2208.03095v1 )

ライセンス: Link先を確認
Alice Tarzariol (University of Klagenfurt)(参考訳) 組合せ問題を解くとき、探索空間から対称解候補を刈り取ることが不可欠である。 既存のアプローチのほとんどはインスタンス固有であり、各問題インスタンスに対してSBC(Symmetry Breaking Constraints)の自動計算に重点を置いている。 しかしながら、計算されたsbcは命題的であるため、大規模インスタンスや高度な問題エンコーディングへのそのようなアプローチの適用は問題となりうるため、意味のある解釈も他のインスタンスへの転送もできない。 その結果、SBCの計算に要する時間は、ソルバの呼び出しに先立って行う必要がある。 これらの制約を克服するために、我々は、小さな問題インスタンスのSBCをインダクティブ論理プログラミング(Inductive Logic Programming)という機械学習形式を用いて解釈可能な一階制約のセットに引き上げる、Answer Set Programmingの新しいモデル指向のアプローチを導入する。 提案手法は,単純な組合せ問題を対象として,高度な決定・最適化問題にも適用できるように拡張することを目的としている。

When solving combinatorial problems, pruning symmetric solution candidates from the search space is essential. Most of the existing approaches are instance-specific and focus on the automatic computation of Symmetry Breaking Constraints (SBCs) for each given problem instance. However, the application of such approaches to large-scale instances or advanced problem encodings might be problematic since the computed SBCs are propositional and, therefore, can neither be meaningfully interpreted nor transferred to other instances. As a result, a time-consuming recomputation of SBCs must be done before every invocation of a solver. To overcome these limitations, we introduce a new model-oriented approach for Answer Set Programming that lifts the SBCs of small problem instances into a set of interpretable first-order constraints using a form of machine learning called Inductive Logic Programming. After targeting simple combinatorial problems, we aim to extend our method to be applied also for advanced decision and optimization problems.
翻訳日:2022-08-08 13:17:43 公開日:2022-08-05
# 部分滑らかな関数に対する前方後方分割アルゴリズムの固定点自動微分

Fixed-Point Automatic Differentiation of Forward--Backward Splitting Algorithms for Partly Smooth Functions ( http://arxiv.org/abs/2208.03107v1 )

ライセンス: Link先を確認
Sheheryar Mehmood and Peter Ochs(参考訳) 非滑らかな実用的な最適化問題の大規模なクラスは、滑らかで部分的に滑らかな関数の和の最小化として記述できる。 パラメータベクトルにも依存するそのような構造的問題を考察し,感度解析やパラメータ学習最適化問題において広く応用されてきたパラメータに対して,その解写像を微分する問題を考察する。 部分的滑らかさおよびその他の軽微な仮定の下で、近似分割アルゴリズムによって生成される配列の自動微分(AD)が解写像の微分に収束することを示す。 FPAD(Fixed-Point Automatic Differentiation)と呼ばれる自動微分の変種については、逆モードADのメモリオーバーヘッド問題に対処し、理論上より高速な収束を提供する。 本稿では,ADおよびFPADのLassoおよびGroup Lasso問題への収束率と収束率を数値的に説明し,FPADが正規化項を学習することにより,原典型的実用的な画像復調問題に作用することを示す。

A large class of non-smooth practical optimization problems can be written as minimization of a sum of smooth and partly smooth functions. We consider such structured problems which also depend on a parameter vector and study the problem of differentiating its solution mapping with respect to the parameter which has far reaching applications in sensitivity analysis and parameter learning optmization problems. We show that under partial smoothness and other mild assumptions, Automatic Differentiation (AD) of the sequence generated by proximal splitting algorithms converges to the derivative of the solution mapping. For a variant of automatic differentiation, which we call Fixed-Point Automatic Differentiation (FPAD), we remedy the memory overhead problem of the Reverse Mode AD and moreover provide faster convergence theoretically. We numerically illustrate the convergence and convergence rates of AD and FPAD on Lasso and Group Lasso problems and demonstrate the working of FPAD on prototypical practical image denoising problem by learning the regularization term.
翻訳日:2022-08-08 13:17:24 公開日:2022-08-05
# チャネルリプシッツネスに基づくデータフリーバックドア除去

Data-free Backdoor Removal based on Channel Lipschitzness ( http://arxiv.org/abs/2208.03111v1 )

ライセンス: Link先を確認
Runkai Zheng, Rongjun Tang, Jianze Li, Li Liu(参考訳) 近年の研究では、ディープニューラルネットワーク(DNN)がバックドア攻撃に弱いことが示されており、入力画像に特定のトリガーが付加された場合、DNNの悪意ある振る舞いにつながる。 さらに、感染したDNNが通常のチャネルよりもバックドアトリガーに敏感なチャネルの集合体を持っていることが実証された。 これらのチャネルを切断すると、バックドアの挙動を緩和する効果が示された。 これらのチャネルを見つけるには、入力に対する最悪の摂動に対する感度を測定するリプシッツ性を考えるのが自然である。 本研究では、入力画像から各チャネルの出力へのマッピングのリプシッツ定数として定義されるチャネルリプシッツ定数(clc)という新しい概念を導入する。 次に,clc(uclc)の上限とチャネル活性化のトリガー活性化変化との間に強い相関を示すための実証的な証拠を与える。 UCLCは重量行列から直接計算できるので、潜在的なバックドアチャネルをデータフリーで検出し、感染したDNN上で簡単なプルーニングを行い、モデルを修復することができる。 提案するチャネルリプシッツネスベースプルーニング(CLP)法は,プルーニングしきい値の選択に対して,超高速で,シンプルで,データフリーで頑健である。 clpの効率と有効性を評価するために広範な実験を行い、データなしでも主流の防衛手法の中で最先端の成果を得られるようにした。 ソースコードはhttps://github.com/rkteddy/channel-lipschitzness-based-pruningで入手できる。

Recent studies have shown that Deep Neural Networks (DNNs) are vulnerable to the backdoor attacks, which leads to malicious behaviors of DNNs when specific triggers are attached to the input images. It was further demonstrated that the infected DNNs possess a collection of channels, which are more sensitive to the backdoor triggers compared with normal channels. Pruning these channels was then shown to be effective in mitigating the backdoor behaviors. To locate those channels, it is natural to consider their Lipschitzness, which measures their sensitivity against worst-case perturbations on the inputs. In this work, we introduce a novel concept called Channel Lipschitz Constant (CLC), which is defined as the Lipschitz constant of the mapping from the input images to the output of each channel. Then we provide empirical evidences to show the strong correlation between an Upper bound of the CLC (UCLC) and the trigger-activated change on the channel activation. Since UCLC can be directly calculated from the weight matrices, we can detect the potential backdoor channels in a data-free manner, and do simple pruning on the infected DNN to repair the model. The proposed Channel Lipschitzness based Pruning (CLP) method is super fast, simple, data-free and robust to the choice of the pruning threshold. Extensive experiments are conducted to evaluate the efficiency and effectiveness of CLP, which achieves state-of-the-art results among the mainstream defense methods even without any data. Source codes are available at https://github.com/rkteddy/channel-Lipschitzness-based-pruning.
翻訳日:2022-08-08 13:17:08 公開日:2022-08-05
# BLEUの概要:コード生成モデルの品質を評価するにはどうすればいいのか?

Out of the BLEU: how should we assess quality of the Code Generation models? ( http://arxiv.org/abs/2208.03133v1 )

ライセンス: Link先を確認
Mikhail Evtikhiev, Egor Bogomolov, Yaroslav Sokolov, Timofey Bryksin(参考訳) 近年、研究者は多数のコード生成モデルを作成し、導入している。 新しいモデル版の人間による評価は不可能であるため、コミュニティは人的判断の結果を近似するためにBLEUのような自動評価指標を採用した。 これらのメトリクスは、機械翻訳ドメインに由来するもので、コード生成タスクに適用できるのか、また、このタスクの人間による評価にどの程度よく一致するのかは不明です。 また、CodeBLEUとRUBYという2つのメトリクスがあり、コードの類似性を推定し、コードプロパティを考慮するために開発された。 しかし、これらの指標について、人的評価との合意についての研究はほとんどない。 それにもかかわらず、メトリクススコアのわずかな違いは、他のコード生成モデルよりも優れていると主張するために使われます。 本稿では,コード生成モデルの評価に,BLEU, ROUGE-L, METEOR, ChrF, CodeBLEU, RUBYの6つのメトリクスの適用性について検討する。 2つの異なるコード生成データセットの研究を行い、人間のアノテータを使用して、これらのデータセット上で実行されるすべてのモデルの品質を評価する。 結果は、python one-linerのconalaデータセットでは、モデルスコアの差が5ポイント未満であれば、どのモデルが良いかの判断を、95\%$で正しくエミュレートできないことを示している。 特定の構造のクラスで構成されるHearthStoneデータセットの場合、少なくとも2点のモデルスコアの違いは、一方が他方よりも優れていると主張するのに十分である。 この結果から,メトリクスを用いてコード生成タスクのモデル性能を推定するいくつかの推奨事項を導出する。

In recent years, researchers have created and introduced a significant number of various code generation models. As human evaluation of every new model version is unfeasible, the community adopted automatic evaluation metrics such as BLEU to approximate the results of human judgement. These metrics originate from the machine translation domain and it is unclear whether they are applicable for the code generation tasks and how well do they agree with the human evaluation on this task. There also are two metrics, CodeBLEU and RUBY, that were developed to estimate the similarity of code and take into account the code properties. However, for these metrics there are hardly any studies on their agreement with the human evaluation. Despite all that, minimal differences in the metric scores are used to claim superiority of some code generation models over the others. In this paper, we present a study on applicability of six metrics -- BLEU, ROUGE-L, METEOR, ChrF, CodeBLEU, RUBY -- for evaluation of the code generation models. We conduct a study on two different code generation datasets and use human annotators to assess the quality of all models run on these datasets. The results indicate that for the CoNaLa dataset of Python one-liners none of the metrics can correctly emulate human judgement on which model is better with $>95\%$ certainty if the difference in model scores is less than 5 points. For the HearthStone dataset, which consists of classes of particular structure, the difference in model scores of at least 2 points is enough to claim the superiority of one model over the other. Using our findings, we derive several recommendations on using metrics to estimate the model performance on the code generation task.
翻訳日:2022-08-08 13:16:41 公開日:2022-08-05
# FBI:指紋入力付きフィンガープリントモデル

FBI: Fingerprinting models with Benign Inputs ( http://arxiv.org/abs/2208.03169v1 )

ライセンス: Link先を確認
Thibault Maho, Teddy Furon, Erwan Le Merrer(参考訳) ディープニューラルネットワークのフィンガープリントの最近の進歩は、ブラックボックス相互作用スキームに置かれたモデルのインスタンスを検出する。 フィンガープリントプロトコルで使用される入力は、チェック対象の正確なモデルごとに特別に作成される。 このようなシナリオでは効率的ではあるが、モデルの単なる修正(再トレーニングや量子化など)の後に保証が欠如することになる。 本稿では,提案する課題に取り組む。 一 モデルファミリー及びその変種の概念を一般化することにより、モデルの大幅な変更に対して回復力のある指紋認証方式 二 正確なモデル(以前は検出タスクと呼ばれていた)だけでなく、ブラックボックスにどのモデルファミリーがあるか(識別タスク)を特定しようとするシナリオを含む指紋認証タスクの拡張。 我々は、例えば、修正されていない画像である良性入力が、両方のタスクに十分な材料であることを示すことによって、両方の目標を達成する。 我々は識別タスクに情報理論スキームを利用する。 検出タスクに対して欲深い識別アルゴリズムを考案する。 どちらのアプローチも、前例のない1000以上のネットワークセットで実験的に検証されている。

Recent advances in the fingerprinting of deep neural networks detect instances of models, placed in a black-box interaction scheme. Inputs used by the fingerprinting protocols are specifically crafted for each precise model to be checked for. While efficient in such a scenario, this nevertheless results in a lack of guarantee after a mere modification (like retraining, quantization) of a model. This paper tackles the challenges to propose i) fingerprinting schemes that are resilient to significant modifications of the models, by generalizing to the notion of model families and their variants, ii) an extension of the fingerprinting task encompassing scenarios where one wants to fingerprint not only a precise model (previously referred to as a detection task) but also to identify which model family is in the black-box (identification task). We achieve both goals by demonstrating that benign inputs, that are unmodified images, for instance, are sufficient material for both tasks. We leverage an information-theoretic scheme for the identification task. We devise a greedy discrimination algorithm for the detection task. Both approaches are experimentally validated over an unprecedented set of more than 1,000 networks.
翻訳日:2022-08-08 13:16:13 公開日:2022-08-05
# グラフニューラルネットワークによる離散的転位ダイナミクスシミュレーションの高速化

Accelerating discrete dislocation dynamics simulations with graph neural networks ( http://arxiv.org/abs/2208.03296v1 )

ライセンス: Link先を確認
Nicolas Bertin, Fei Zhou(参考訳) 離散転位力学 (DDD) はメソスケールで塑性を研究するために広く用いられている計算手法であり、転位線の運動と結晶材料のマクロ応答を結びつける。 しかし、DDDシミュレーションの計算コストは、適用範囲を制限するボトルネックのままです。 本稿では、DDDトラジェクトリに基づいてトレーニングされたグラフニューラルネットワーク(GNN)モデルによって、転位運動の高価な時間積分を完全に置き換える、新しいDDD-GNNフレームワークを紹介する。 最初の応用として、障害物の森を滑走する転位線の単純なモデルにおいて、本手法の有効性と可能性を示す。 我々は、DDD-GNNモデルが安定しており、時間積分中の結節力や転位モビリティを明示的に計算することなく、様々なストレッチレートと障害物密度に対して、非常によく見えない基盤的DDDシミュレーション応答を再現することを示した。 このアプローチはDDDシミュレーションを加速し、より複雑な転位動作を取り入れるために、新しい有望な道を開く。

Discrete dislocation dynamics (DDD) is a widely employed computational method to study plasticity at the mesoscale that connects the motion of dislocation lines to the macroscopic response of crystalline materials. However, the computational cost of DDD simulations remains a bottleneck that limits its range of applicability. Here, we introduce a new DDD-GNN framework in which the expensive time-integration of dislocation motion is entirely substituted by a graph neural network (GNN) model trained on DDD trajectories. As a first application, we demonstrate the feasibility and potential of our method on a simple yet relevant model of a dislocation line gliding through a forest of obstacles. We show that the DDD-GNN model is stable and reproduces very well unseen ground-truth DDD simulation responses for a range of straining rates and obstacle densities, without the need to explicitly compute nodal forces or dislocation mobilities during time-integration. Our approach opens new promising avenues to accelerate DDD simulations and to incorporate more complex dislocation motion behaviors.
翻訳日:2022-08-08 13:15:57 公開日:2022-08-05
# アンサンブルカルマン更新の非漸近的解析:有効次元と局在

Non-Asymptotic Analysis of Ensemble Kalman Updates: Effective Dimension and Localization ( http://arxiv.org/abs/2208.03246v1 )

ライセンス: Link先を確認
Omar Al Ghattas, Daniel Sanz-Alonso(参考訳) 逆問題やデータ同化のための現代のアルゴリズムの多くは、先行予測と観測データとをブレンドするために、アンサンブル・カルマンの更新に依存している。 アンサンブルカルマン法は小さなアンサンブルサイズでよく機能するが、これは各粒子の生成に費用がかかるアプリケーションに必須である。 本稿では,先行共分散が高速スペクトル崩壊や近似空間性により適度な有効次元を持つ場合,小さなアンサンブルサイズが十分である理由を,カルマンの更新の漸近的でない解析法を開発した。 本理論は,摂動観測,平方根フィルタリング,ローカライゼーションを用いたアンサンブルカルマン更新のいくつかの実装を比較し,統一的な枠組みで提案する。 解析の一環として,独立性のある約スパース行列に対する次元自由共分散推定境界を新たに開発した。

Many modern algorithms for inverse problems and data assimilation rely on ensemble Kalman updates to blend prior predictions with observed data. Ensemble Kalman methods often perform well with a small ensemble size, which is essential in applications where generating each particle is costly. This paper develops a non-asymptotic analysis of ensemble Kalman updates that rigorously explains why a small ensemble size suffices if the prior covariance has moderate effective dimension due to fast spectrum decay or approximate sparsity. We present our theory in a unified framework, comparing several implementations of ensemble Kalman updates that use perturbed observations, square root filtering, and localization. As part of our analysis, we develop new dimension-free covariance estimation bounds for approximately sparse matrices that may be of independent interest.
翻訳日:2022-08-08 13:15:41 公開日:2022-08-05
# 医療音響の深層的特徴学習

Deep Feature Learning for Medical Acoustics ( http://arxiv.org/abs/2208.03084v1 )

ライセンス: Link先を確認
Alessandro Maria Poir\`e, Federico Simonetta, Stavros Ntalampiras(参考訳) 本研究の目的は,医療音響タスクにおける学習可能なフロントエンドの比較である。 ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。 2つの適切なデータセットを得た後、leafとnnaudioという2つの学習可能な最先端と、学習不能なベースラインフロントエンド、すなわちmel-filterbanksを使って音を分類しました。 計算された機能は、VGG16とEfficientNetという2つの異なるCNNモデルに入力される。 フロントエンドはパラメータの数、計算資源、有効性の点で慎重にベンチマークされる。 本研究は、神経音響分類システムにおける学習可能なフロントエンドの統合が、特に医療音響の分野で、パフォーマンスをいかに改善するかを示す。 しかし、そのようなフレームワークを使用すると、必要なデータ量がさらに大きくなる。 したがって, 特徴学習プロセスを支援するために, トレーニングに利用できるデータ量が十分に大きい場合に有用である。

The purpose of this paper is to compare different learnable frontends in medical acoustics tasks. A framework has been implemented to classify human respiratory sounds and heartbeats in two categories, i.e. healthy or affected by pathologies. After obtaining two suitable datasets, we proceeded to classify the sounds using two learnable state-of-art frontends -- LEAF and nnAudio -- plus a non-learnable baseline frontend, i.e. Mel-filterbanks. The computed features are then fed into two different CNN models, namely VGG16 and EfficientNet. The frontends are carefully benchmarked in terms of the number of parameters, computational resources, and effectiveness. This work demonstrates how the integration of learnable frontends in neural audio classification systems may improve performance, especially in the field of medical acoustics. However, the usage of such frameworks makes the needed amount of data even larger. Consequently, they are useful if the amount of data available for training is adequately large to assist the feature learning process.
翻訳日:2022-08-08 13:15:22 公開日:2022-08-05
# 座標畳み込みを用いた深層学習による超音波胸水分画

Deep Learning-based Segmentation of Pleural Effusion From Ultrasound Using Coordinate Convolutions ( http://arxiv.org/abs/2208.03305v1 )

ライセンス: Link先を確認
Germain Morilhat, Naomi Kifle, Sandra FinesilverSmith, Bram Ruijsink, Vittoria Vergani, Habtamu Tegegne Desita, Zerubabel Tegegne Desita, Esther Puyol-Anton, Aaron Carass, Andrew P. King(参考訳) 多くの低所得国(LMIC)では,胸水の評価に超音波が用いられている。 通常、拡散の程度はソノグラフィーによって手動で測定され、サーバ内/サーバ間の大きな変動をもたらす。 本研究では,深層学習(DL)を用いて,超音波画像からの胸水分離プロセスの自動化について検討する。 LMIC環境で得られた2つのデータセットに対して, nnU-net DLモデルを用いて, それぞれ0.82と0.74のDice similarity Coefficients(DSCs)を中央値とした。 また,dlモデルにおける座標畳み込みの利用について検討し,第1データセットの中央値dscを0.85に統計的に有意な改善を示し,第2データセットでは有意な変化はみられなかった。 本研究は, 経験豊富な放射線科医が不足することが多いlmic環境において, 超音波からの流出評価の自動化におけるdlの可能性を初めて示すものである。

In many low-to-middle income (LMIC) countries, ultrasound is used for assessment of pleural effusion. Typically, the extent of the effusion is manually measured by a sonographer, leading to significant intra-/inter-observer variability. In this work, we investigate the use of deep learning (DL) to automate the process of pleural effusion segmentation from ultrasound images. On two datasets acquired in a LMIC setting, we achieve median Dice Similarity Coefficients (DSCs) of 0.82 and 0.74 respectively using the nnU-net DL model. We also investigate the use of coordinate convolutions in the DL model and find that this results in a statistically significant improvement in the median DSC on the first dataset to 0.85, with no significant change on the second dataset. This work showcases, for the first time, the potential of DL in automating the process of effusion assessment from ultrasound in LMIC settings where there is often a lack of experienced radiologists to perform such tasks.
翻訳日:2022-08-08 13:12:25 公開日:2022-08-05
# 平面被覆タスクにおけるワークステーション型マルチロボットシステムの協調学習

Learning to Coordinate for a Worker-Station Multi-robot System in Planar Coverage Tasks ( http://arxiv.org/abs/2208.02993v1 )

ライセンス: Link先を確認
Jingtao Tang, Yuan Gao, Tin Lun Lam(参考訳) 大規模タスクでは、複数ロボットシステム(MRS)が各ロボットの異なる能力、移動性、機能を利用して効率を効果的に向上することができる。 本稿では,ロボットが限られた資源を持つ環境において,ランダムな動的干渉を伴う大規模平面領域におけるマルチロボットカバレッジパス計画(mCPP)問題に焦点をあてる。 我々は,実作業に必要なリソースが限られている複数の作業員と,資源補給に必要なリソースが足りる1つのステーションからなる作業者ステーションmrsを紹介する。 完全協調型マルチエージェント強化学習問題として定式化することで,作業者用MSSのmCPP問題を解くことを目指している。 次に,作業者のカバレッジ計画と駅のランデブー計画を同時に解決するエンド・ツー・エンドの分散オンライン計画手法を提案する。 提案手法は,ランダムな動的干渉が計画に与える影響を低減し,ロボットは衝突を避けることができる。 シミュレーションと実ロボット実験を行い,本手法が作業終了時間のメートル法において,作業停止時MSSのmCPP問題を解く上での競合性能を示すことを示した。

For massive large-scale tasks, a multi-robot system (MRS) can effectively improve efficiency by utilizing each robot's different capabilities, mobility, and functionality. In this paper, we focus on the multi-robot coverage path planning (mCPP) problem in large-scale planar areas with random dynamic interferers in the environment, where the robots have limited resources. We introduce a worker-station MRS consisting of multiple workers with limited resources for actual work, and one station with enough resources for resource replenishment. We aim to solve the mCPP problem for the worker-station MRS by formulating it as a fully cooperative multi-agent reinforcement learning problem. Then we propose an end-to-end decentralized online planning method, which simultaneously solves coverage planning for workers and rendezvous planning for station. Our method manages to reduce the influence of random dynamic interferers on planning, while the robots can avoid collisions with them. We conduct simulation and real robot experiments, and the comparison results show that our method has competitive performance in solving the mCPP problem for worker-station MRS in metric of task finish time.
翻訳日:2022-08-08 13:11:51 公開日:2022-08-05
# 量子干渉による嗜好満足のためのコンフリクトフリージョイントサンプリング

Conflict-free joint sampling for preference satisfaction through quantum interference ( http://arxiv.org/abs/2208.03082v1 )

ライセンス: Link先を確認
Hiroaki Shinkawa, Nicolas Chauvet, Andr\'e R\"ohm, Takatomo Mihana, Ryoichi Horisaki, Guillaume Bachelier and Makoto Naruse(参考訳) 最近の情報通信技術では集団意思決定が不可欠である。 これまでの研究では,プレイヤーの確率的嗜好プロファイルを最適に満足するコンフリクトフリーな共同意思決定を数学的に導出した。 しかし, 最適共同決定法には2つの問題がある。 まず、選択数が増えるにつれて、最適な結合選択確率行列を計算する計算コストが爆発する。 第二に、最適なジョイント選択確率行列を導出するために、すべてのプレイヤーは確率的選好を開示しなければならない。 現在、共同確率分布の明示的な計算は必ずしも必要ではなく、集団的決定に必要なものはサンプリングである。 本研究では,プレイヤーの嗜好を満たすヒューリスティックな関節選択確率行列に収束するいくつかのサンプリング手法について検討した。 計算コストと機密性に関する上記の問題を大幅に削減できることを示す。 我々は,各サンプリング手法が収束する確率分布と,必要な計算コストと機密性の確保について分析する。 特に,光子の量子干渉による2つのコンフリクトフリージョイントサンプリング手法を導入する。 第1のシステムは、プレイヤーが同じ好みを持つ場合、プレイヤーの好みをほぼ完璧に満たしながら、プレイヤーが選択を隠せるようにする。 光の物理的性質が高価な計算コストに取って代わる第2のシステムは、信頼できる第三者がいるという前提のもと、選択を隠蔽する。

Collective decision-making is vital for recent information and communications technologies. In our previous research, we mathematically derived conflict-free joint decision-making that optimally satisfies players' probabilistic preference profiles. However, two problems exist regarding the optimal joint decision-making method. First, as the number of choices increases, the computational cost of calculating the optimal joint selection probability matrix explodes. Second, to derive the optimal joint selection probability matrix, all players must disclose their probabilistic preferences. Now, it is noteworthy that explicit calculation of the joint probability distribution is not necessarily needed; what is necessary for collective decisions is sampling. This study examines several sampling methods that converge to heuristic joint selection probability matrices that satisfy players' preferences. We show that they can significantly reduce the above problems of computational cost and confidentiality. We analyze the probability distribution each of the sampling methods converges to, as well as the computational cost required and the confidentiality secured. In particular, we introduce two conflict-free joint sampling methods through quantum interference of photons. The first system allows the players to hide their choices while satisfying the players' preferences almost perfectly when they have the same preferences. The second system, where the physical nature of light replaces the expensive computational cost, also conceals their choices under the assumption that they have a trusted third party.
翻訳日:2022-08-08 13:11:31 公開日:2022-08-05
# モデル再構成について:ロボットが人間のモデルを知らないときにどのように和解するか?

On Model Reconciliation: How to Reconcile When Robot Does not Know Human's Model? ( http://arxiv.org/abs/2208.03091v1 )

ライセンス: Link先を確認
Ho Tuan Dung (Department of Computer Science, New Mexico State University, Las Cruces, USA), Tran Cao Son (Department of Computer Science, New Mexico State University, Las Cruces, USA)(参考訳) 説明可能なAI計画の問題を解決するために、モデル和解問題(MRP)が導入された。 MRPの解決策は、人間と計画エージェント(ロボット)のモデルの違いを説明することである。 MRPを解くほとんどのアプローチは、説明を必要とするロボットが人間のモデルを知っていることを前提としている。 この仮定は、いくつかの状況において常に現実的ではない(例えば、人間はモデルを更新することに決め、ロボットは更新に気づいていない)。 本稿では,MPPの計算説明のためのダイアログに基づく手法を提案する。 (i)ロボットは人間のモデルを知らない。 二 人間及びロボットは、計画領域の述語の集合を共有し、その交換は、行動記述及び流血者の価値に関するものである。 (iii)当事者間のコミュニケーションは完璧である。 (iv)当事者は真実である。 MRPの解は、ロボットと人間の間の交換の連続として定義されたダイアログを通じて計算される。 各ラウンドにおいて、ロボットはプロポーザルと呼ばれる潜在的な説明を、提案の評価に応答する人間に送る。 ロボットによる提案と人間による応答を計算するためのアルゴリズムを開発し,このアルゴリズムをclingoのマルチショット機能を用いて命令的手法と解集合プログラミングを組み合わせたシステムで実装する。

The Model Reconciliation Problem (MRP) was introduced to address issues in explainable AI planning. A solution to a MRP is an explanation for the differences between the models of the human and the planning agent (robot). Most approaches to solving MRPs assume that the robot, who needs to provide explanations, knows the human model. This assumption is not always realistic in several situations (e.g., the human might decide to update her model and the robot is unaware of the updates). In this paper, we propose a dialog-based approach for computing explanations of MRPs under the assumptions that (i) the robot does not know the human model; (ii) the human and the robot share the set of predicates of the planning domain and their exchanges are about action descriptions and fluents' values; (iii) communication between the parties is perfect; and (iv) the parties are truthful. A solution of a MRP is computed through a dialog, defined as a sequence of rounds of exchanges, between the robot and the human. In each round, the robot sends a potential explanation, called proposal, to the human who replies with her evaluation of the proposal, called response. We develop algorithms for computing proposals by the robot and responses by the human and implement these algorithms in a system that combines imperative means with answer set programming using the multi-shot feature of clingo.
翻訳日:2022-08-08 13:11:14 公開日:2022-08-05
# グラフニューラルネットワークの内部論理と論理

A Gaze into the Internal Logic of Graph Neural Networks, with Logic ( http://arxiv.org/abs/2208.03093v1 )

ライセンス: Link先を確認
Paul Tarau (University of North Texas)(参考訳) グラフニューラルネットワークは、いくつかの重要な関係推論メカニズムを論理プログラミングと共有する。 トレーニングされ、評価されるデータセットは、基礎用語を含むデータベース事実と見なすことができる。 これにより、推論メカニズムを等価な論理プログラムでモデル化し、機械学習プロセスに関わるエンティティ間でどのように情報を伝達するかだけでなく、与えられたデータセットから何が学べるか、そしてそれがテストデータにどのように一般化できるかを推測することが可能になる。 論理プログラムの助けを借りてモデリング グラフのリンク構造とノードのプロパティの情報内容から推測する学習に関わる情報フローは、おそらく類似した性質を持つノードとの既知の接続を前提にします。 この問題はグラフノード特性予測 (graph node property prediction) と呼ばれ、prologプログラムの助けを借りて、グラフニューラルネットワークのトレーニングと推論段階の重要な情報伝達ステップをエミュレートする。 我々は ogbn-arxiv node property inference benchmark に対するアプローチを検証した。 引用ネットワークにおける論文を表すノードのクラスラベルを推測するために,各ノードに関連付けられたテキストの依存木を,基底Prolog用語としてエンコードする非巡回グラフに抽出する。 他の論文への参照セットとともに、ノード特性を予測するグラフニューラルネットワークにおける情報伝搬を模倣するPrologプログラムの助けを借りて、データベース内の事実となる。 本プロセスでは,学習セット内の類似ノードからノード特性を伝播させることにより,テストセット内のラベルを推測する上で有効な基底項類似性関係を考案し,グラフのリンク構造と比較してそれらの有効性を評価する。 最後に、データセット固有のパフォーマンス上限を明らかにする説明生成器を実装する。 現実的な結果として,機械学習アルゴリズムとして見られる論理プログラムは,ノード特性予測ベンチマーク上で,技術の状態に近い動作を行う。

Graph Neural Networks share with Logic Programming several key relational inference mechanisms. The datasets on which they are trained and evaluated can be seen as database facts containing ground terms. This makes possible modeling their inference mechanisms with equivalent logic programs, to better understand not just how they propagate information between the entities involved in the machine learning process but also to infer limits on what can be learned from a given dataset and how well that might generalize to unseen test data. This leads us to the key idea of this paper: modeling with the help of a logic program the information flows involved in learning to infer from the link structure of a graph and the information content of its nodes properties of new nodes, given their known connections to nodes with possibly similar properties. The problem is known as graph node property prediction and our approach will consist in emulating with help of a Prolog program the key information propagation steps of a Graph Neural Network's training and inference stages. We test our a approach on the ogbn-arxiv node property inference benchmark. To infer class labels for nodes representing papers in a citation network, we distill the dependency trees of the text associated to each node into directed acyclic graphs that we encode as ground Prolog terms. Together with the set of their references to other papers, they become facts in a database on which we reason with help of a Prolog program that mimics the information propagation in graph neural networks predicting node properties. In the process, we invent ground term similarity relations that help infer labels in the test set by propagating node properties from similar nodes in the training set and we evaluate their effectiveness in comparison with that of the graph's link structure. Finally, we implement explanation generators that unveil performance upper bounds inherent to the dataset. As a practical outcome, we obtain a logic program, that, when seen as machine learning algorithm, performs close to the state of the art on the node property prediction benchmark.
翻訳日:2022-08-08 13:10:53 公開日:2022-08-05
# 回答集合プログラムの検証ツールと方法

Tools and Methodologies for Verifying Answer Set Programs ( http://arxiv.org/abs/2208.03096v1 )

ライセンス: Link先を確認
Zach Hansen (University of Nebraska Omaha)(参考訳) Answer Set Programming(ASP)は、探索と最適化の難題を解決するために一般的に使用される強力な宣言型プログラミングパラダイムである。 aspのモデリング言語は、高度な解法アルゴリズム(ソルバ)によってサポートされており、プログラマが高レベルの抽象化で問題をモデル化できると同時に、解探索を効率的にする。 知識表現と推論へのアプローチとして、ASPはその単純さ、簡潔さ、厳密に定義されたセマンティクスから恩恵を受ける。 これらの特徴によりASPは、正式に検証可能なプログラムを簡単に開発できる。 人工知能(AI)の文脈では、ASPプログラムの明確さは、説明可能な信頼できるAIの構築に役立っている。 これらの目標をサポートするために、ASPプロガムの検証を支援する理論とツールを拡張することに取り組んでいます。

Answer Set Programming (ASP) is a powerful declarative programming paradigm commonly used for solving challenging search and optimization problems. The modeling languages of ASP are supported by sophisticated solving algorithms (solvers) that make the solution search efficient while enabling the programmer to model the problem at a high level of abstraction. As an approach to Knowledge Representation and Reasoning, ASP benefits from its simplicity, conciseness and rigorously defined semantics. These characteristics make ASP a straightforward way to develop formally verifiable programs. In the context of artificial intelligence (AI), the clarity of ASP programs lends itself to the construction of explainable, trustworthy AI. In support of these goals, my research is concerned with extending the theory and tools supporting the verification of ASP progams.
翻訳日:2022-08-08 13:10:22 公開日:2022-08-05
# アフリカの言語に対する大語彙音声認識:多言語モデリングと自己教師型学習

Large vocabulary speech recognition for languages of Africa: multilingual modeling and self-supervised learning ( http://arxiv.org/abs/2208.03067v1 )

ライセンス: Link先を確認
Sandy Ritchie, You-Chi Cheng, Mingqing Chen, Rajiv Mathews, Daan van Esch, Bo Li, Khe Chai Sim(参考訳) アフリカで話されている2000以上の言語のうち、ほとんど誰も自動音声認識システムを提供しておらず、必要なデータはいくつかの言語でのみ利用できる。 我々は,アフリカ語に対する大規模な語彙認識の経路を提供する2つの手法,多言語モデリングと自己教師型学習の実験を行った。 利用可能なオープンソースデータを集め、15言語のデータを収集し、これらのテクニックを使って実験モデルを訓練しました。 その結果,多言語エンドツーエンドモデルで利用可能な少数のデータをプールし,教師なしデータに事前学習することで,多くのアフリカの言語における音声認識品質の向上が期待できることがわかった。

Almost none of the 2,000+ languages spoken in Africa have widely available automatic speech recognition systems, and the required data is also only available for a few languages. We have experimented with two techniques which may provide pathways to large vocabulary speech recognition for African languages: multilingual modeling and self-supervised learning. We gathered available open source data and collected data for 15 languages, and trained experimental models using these techniques. Our results show that pooling the small amounts of data available in multilingual end-to-end models, and pre-training on unsupervised data can help improve speech recognition quality for many African languages.
翻訳日:2022-08-08 13:06:57 公開日:2022-08-05
# 診断第一原理によるオブザーバ間セグメンテーションの不確かさの校正

Calibrate the inter-observer segmentation uncertainty via diagnosis-first principle ( http://arxiv.org/abs/2208.03016v1 )

ライセンス: Link先を確認
Junde Wu, Huihui Fang, Hoayi Xiong, Lixin Duan, Mingkui Tan, Weihua Yang, Huiying Liu, Yanwu Xu(参考訳) 医用画像では、多くの組織/結節が曖昧である可能性がある。 そのため、医学的なセグメンテーションは通常、個人バイアスを軽減するために臨床専門家のグループによってアノテートされる。 しかし、この臨床ルーチンは、機械学習アルゴリズムの適用にも新たな課題をもたらす。 一定の基盤構造がなければ,ディープラーニングモデルをトレーニングし,評価することは難しいだろう。 異なるグレーダからアノテーションを収集する場合、共通の選択は多数決である。 しかし、このような戦略は、学級の専門性の違いを無視する。 本稿では,キャリブレーションされたオブザーバ間不確実性を用いてセグメント化を予測するタスクについて検討する。 臨床検査では,診断支援に医用画像セグメンテーションが用いられることが多い。 この観察に触発されて,病状診断を診断基準とし,サーバ間セグメンテーションの不確かさを校正する,診断優先原則を提案する。 この考え方に従い、診断ファーストセグメンテーションフレームワーク(diff)というフレームワークを提案し、生画像から診断ファーストセグメンテーションを推定する。具体的には、diffはまず、マルチレートセグメンテーションラベルを単一のグランドルースに融合させることを学び、病気の診断性能を最大化する。 融解した接地トラスを診断ファースト接地トラス (DF-GT) と命名した。 さらに、生画像からTake and Give Modelto segment DF-GTを提案する。 基礎画像におけるOD/OCセグメンテーション,超音波画像における甲状腺結節セグメンテーション,皮膚病変セグメンテーションの3つの異なる医療セグメンテーションにおけるDiFFの有効性を検証する。 実験結果から,提案したDiFFは,従来のマルチラター学習法よりも優れる疾患診断を著しく促進できることが示された。

On the medical images, many of the tissues/lesions may be ambiguous. That is why the medical segmentation is typically annotated by a group of clinical experts to mitigate the personal bias. However, this clinical routine also brings new challenges to the application of machine learning algorithms. Without a definite ground-truth, it will be difficult to train and evaluate the deep learning models. When the annotations are collected from different graders, a common choice is majority vote. However such a strategy ignores the difference between the grader expertness. In this paper, we consider the task of predicting the segmentation with the calibrated inter-observer uncertainty. We note that in clinical practice, the medical image segmentation is usually used to assist the disease diagnosis. Inspired by this observation, we propose diagnosis-first principle, which is to take disease diagnosis as the criterion to calibrate the inter-observer segmentation uncertainty. Following this idea, a framework named Diagnosis First segmentation Framework (DiFF) is proposed to estimate diagnosis-first segmentation from the raw images.Specifically, DiFF will first learn to fuse the multi-rater segmentation labels to a single ground-truth which could maximize the disease diagnosis performance. We dubbed the fused ground-truth as Diagnosis First Ground-truth (DF-GT).Then, we further propose Take and Give Modelto segment DF-GT from the raw image. We verify the effectiveness of DiFF on three different medical segmentation tasks: OD/OC segmentation on fundus images, thyroid nodule segmentation on ultrasound images, and skin lesion segmentation on dermoscopic images. Experimental results show that the proposed DiFF is able to significantly facilitate the corresponding disease diagnosis, which outperforms previous state-of-the-art multi-rater learning methods.
翻訳日:2022-08-08 13:05:57 公開日:2022-08-05
# BrainFormer:脳MRIデータ分類のためのハイブリッドCNN変換器モデル

BrainFormer: A Hybrid CNN-Transformer Model for Brain fMRI Data Classification ( http://arxiv.org/abs/2208.03028v1 )

ライセンス: Link先を確認
Wei Dai, Ziyao Zhang, Lixia Tian, Shengyuan Yu, Shuhui Wang, Zhao Dong, and Hairong Zheng(参考訳) 神経画像解析において、機能的磁気共鳴画像(fmri)は、明らかな構造的病変のない脳疾患の脳機能変化をよく評価できる。 これまでのディープラーニングに基づくfMRI研究は、疾患分類の基本的な特徴として機能的な接続性に注目している。 しかし、関心領域の時系列に基づいて機能接続を計算し、各ボクセルに含まれる詳細な情報を無視し、診断モデルの性能を劣化させる可能性がある。 もう一つの方法論上の欠点は、深層モデルの訓練のための限られたサンプルサイズである。 本研究では,1つのfMRIボリュームを持つ脳疾患分類のための汎用ハイブリッドトランスフォーマーアーキテクチャであるBrainFormerを提案する。 brainformerは、それぞれのvoxel内の局所的な手がかりを3d畳み込みでモデル化し、2つのグローバルアテンションブロックを持つ遠方の地域間のグローバルリレーションをキャプチャする。 ローカルとグローバルのキューは、シングルストリームモデルによってbrainformerに集約される。 マルチサイトデータを扱うために,データを同一分布に正規化する正規化層を提案する。 最後に,病原性バイオマーカーの探索に勾配に基づく局在マップ可視化法を用いる。 abide, adni, mpilmbb, adhd-200, echo, 自閉症, アルツハイマー病, うつ病, 注意欠陥多動障害, 頭痛障害の5つのデータセットについてbrainformerを評価した。 その結果,多発性脳疾患の診断におけるbrainformerの有効性と汎用性が示された。 BrainFormerは、臨床実践において神経画像に基づく精密診断を促進し、fMRI分析における将来の研究を動機づける。 コードは、https://github.com/ZiyaoZhangforPCL/BrainFormerで入手できる。

In neuroimaging analysis, functional magnetic resonance imaging (fMRI) can well assess brain function changes for brain diseases with no obvious structural lesions. So far, most deep-learning-based fMRI studies take functional connectivity as the basic feature in disease classification. However, functional connectivity is often calculated based on time series of predefined regions of interest and neglects detailed information contained in each voxel, which may accordingly deteriorate the performance of diagnostic models. Another methodological drawback is the limited sample size for the training of deep models. In this study, we propose BrainFormer, a general hybrid Transformer architecture for brain disease classification with single fMRI volume to fully exploit the voxel-wise details with sufficient data dimensions and sizes. BrainFormer is constructed by modeling the local cues within each voxel with 3D convolutions and capturing the global relations among distant regions with two global attention blocks. The local and global cues are aggregated in BrainFormer by a single-stream model. To handle multisite data, we propose a normalization layer to normalize the data into identical distribution. Finally, a Gradient-based Localization-map Visualization method is utilized for locating the possible disease-related biomarker. We evaluate BrainFormer on five independently acquired datasets including ABIDE, ADNI, MPILMBB, ADHD-200 and ECHO, with diseases of autism, Alzheimer's disease, depression, attention deficit hyperactivity disorder, and headache disorders. The results demonstrate the effectiveness and generalizability of BrainFormer for multiple brain diseases diagnosis. BrainFormer may promote neuroimaging-based precision diagnosis in clinical practice and motivate future study in fMRI analysis. Code is available at: https://github.com/ZiyaoZhangforPCL/BrainFormer.
翻訳日:2022-08-08 13:05:29 公開日:2022-08-05
# 低光ハイパースペクトル画像強調

Low-Light Hyperspectral Image Enhancement ( http://arxiv.org/abs/2208.03042v1 )

ライセンス: Link先を確認
Xuelong Li, Guanlin Li, Bin Zhao(参考訳) ハイパースペクトルカメラセンサが低照度で捉えたエネルギーが不十分なため、低照度ハイパースペクトル画像(HSI)は通常、低視認性、スペクトル歪み、様々なノイズに悩まされる。 様々なHSI修復法が開発されているが、低照度HSIの強化効果は制限されている。 本研究は,暗黒領域に隠された空間スペクトル情報を明らかにすることを目的とした低照度HSI強調タスクに焦点を当てた。 低照度HSI処理の開発を容易にするため,室内および屋外の両方の低照度HSI(LHSI)データセットを収集した。 ラプラシアのピラミッドの分解と再構成に基づいて,LHSIデータセットに基づいて学習したエンドツーエンドのデータ駆動型低照度HSIエンハンスメント(HSIE)アプローチを開発した。 HSIの低周波成分に照明が関係していること,高周波成分とテクスチュラル詳細が密接な関係にあることなどから,提案したHSIEは2つの分岐を持つように設計されている。 低周波成分を低分解能で啓蒙するために照明増強分岐を用いる。 高周波精製分岐を用いて、予測マスクを介して高周波成分を精製する。 さらに,情報フローの改善と性能向上のために,照明強調部の基本ブロックとして機能する高密度接続を有する効果的なチャネルアテンションブロック(CAB)を導入する。 定量的評価と視覚効果の両面でのHSIEの有効性と有効性は,LHSIデータセットを用いて実験的に検証した。 リモートセンシングのIndian Pinesデータセットの分類パフォーマンスによると、下流タスクは強化されたHSIの恩恵を受ける。 href{https://github.com/guanguanboy/hsie}{https://github.com/guanguanboy/hsie} データセットとコードは利用可能である。

Due to inadequate energy captured by the hyperspectral camera sensor in poor illumination conditions, low-light hyperspectral images (HSIs) usually suffer from low visibility, spectral distortion, and various noises. A range of HSI restoration methods have been developed, yet their effectiveness in enhancing low-light HSIs is constrained. This work focuses on the low-light HSI enhancement task, which aims to reveal the spatial-spectral information hidden in darkened areas. To facilitate the development of low-light HSI processing, we collect a low-light HSI (LHSI) dataset of both indoor and outdoor scenes. Based on Laplacian pyramid decomposition and reconstruction, we developed an end-to-end data-driven low-light HSI enhancement (HSIE) approach trained on the LHSI dataset. With the observation that illumination is related to the low-frequency component of HSI, while textural details are closely correlated to the high-frequency component, the proposed HSIE is designed to have two branches. The illumination enhancement branch is adopted to enlighten the low-frequency component with reduced resolution. The high-frequency refinement branch is utilized for refining the high-frequency component via a predicted mask. In addition, to improve information flow and boost performance, we introduce an effective channel attention block (CAB) with residual dense connection, which served as the basic block of the illumination enhancement branch. The effectiveness and efficiency of HSIE both in quantitative assessment measures and visual effects are demonstrated by experimental results on the LHSI dataset. According to the classification performance on the remote sensing Indian Pines dataset, downstream tasks benefit from the enhanced HSI. Datasets and codes are available: \href{https://github.com/guanguanboy/HSIE}{https://github.com/guanguanboy/HSIE}.
翻訳日:2022-08-08 13:05:01 公開日:2022-08-05
# 線分ジオメトリの正弦波感度計算

Sinusoidal Sensitivity Calculation for Line Segment Geometries ( http://arxiv.org/abs/2208.03059v1 )

ライセンス: Link先を確認
Luciano Vinas and Atchar Sudyadhom(参考訳) 目的: Kern らにより提案された正弦波コイル感度モデルに対する閉形式解を与える。 このクローズドフォームは、地対地デバイアスデータセットの様々なシミュレーションされたバイアスフィールドの正確な計算を可能にする。 方法: 線分磁場に対するフーリエ変換を計算するために, フーリエ分布理論と標準積分法を用いた。 結果:$L^1_{\rm loc}(\mathbb{R}^3)$関数は任意の線分ジオメトリに対して完全な一般性で導出される。 元の正弦波モデルに対するサンプリング基準と等価性についても論じる。 最後に、CUDAAccelered implementation $\texttt{biasgen}$が著者によって提供されている。 結論: 導出された結果はコイルの位置と幾何学に影響されるため、実践者はより多様なシミュレーションデータセットのエコシステムにアクセスでき、将来のデバイアス法を比較するのに使うことができる。

Purpose: Provide a closed-form solution to the sinusoidal coil sensitivity model proposed by Kern et al. This closed-form allows for precise computations of varied, simulated bias fields for ground-truth debias datasets. Methods: Fourier distribution theory and standard integration techniques were used to calculate the Fourier transform for line segment magnetic fields. Results: A $L^1_{\rm loc}(\mathbb{R}^3)$ function is derived in full generality for arbitrary line segment geometries. Sampling criteria and equivalence to the original sinusoidal model are also discussed. Lastly a CUDA accelerated implementation $\texttt{biasgen}$ is provided by authors. Conclusion: As the derived result is influenced by coil positioning and geometry, practitioners will have access to a more diverse ecosystem of simulated datasets which may be used to compare prospective debiasing methods.
翻訳日:2022-08-08 13:04:33 公開日:2022-08-05
# LiDARシミュレーションのための軽量機械学習パイプライン

A Lightweight Machine Learning Pipeline for LiDAR-simulation ( http://arxiv.org/abs/2208.03130v1 )

ライセンス: Link先を確認
Richard Marcus, Niklas Knoop, Bernhard Egger and Marc Stamminger(参考訳) 仮想テストは自動運転の安全性を確保するための重要なタスクであり、この領域ではセンサシミュレーションが重要なタスクである。 現在のLiDARシミュレーションのほとんどは、非常に単純で、主に初期テストの実行に使用され、多くの洞察が道路に集められている。 本稿では,テスト駆動データから実センサの動作を学習し,これを仮想領域に変換する,より現実的なLiDARシミュレーションのための軽量なアプローチを提案する。 中心となるアイデアは、シミュレーションを画像から画像への変換問題に落とし込むことである。 pix2pixベースのアーキテクチャを,人気のkittiデータセットと,rgbとlidarイメージの両方を提供するaudi自動運転データセットという,2つの実世界のデータセットに基づいてトレーニングします。 このネットワークを合成レンダリングに適用し,実画像からシミュレーション画像に十分に一般化できることを示す。 この戦略により、我々の合成世界ではセンサ特有の、高価で複雑なLiDAR物理シミュレーションを省略することができ、クリーンな合成環境を通じて過度に単純化と大きなドメインギャップを避けることができる。

Virtual testing is a crucial task to ensure safety in autonomous driving, and sensor simulation is an important task in this domain. Most current LiDAR simulations are very simplistic and are mainly used to perform initial tests, while the majority of insights are gathered on the road. In this paper, we propose a lightweight approach for more realistic LiDAR simulation that learns a real sensor's behavior from test drive data and transforms this to the virtual domain. The central idea is to cast the simulation into an image-to-image translation problem. We train our pix2pix based architecture on two real world data sets, namely the popular KITTI data set and the Audi Autonomous Driving Dataset which provide both, RGB and LiDAR images. We apply this network on synthetic renderings and show that it generalizes sufficiently from real images to simulated images. This strategy enables to skip the sensor-specific, expensive and complex LiDAR physics simulation in our synthetic world and avoids oversimplification and a large domain-gap through the clean synthetic environment.
翻訳日:2022-08-08 13:04:22 公開日:2022-08-05
# 現実的摂動下におけるMR画像再構成の対向的ロバスト性

Adversarial Robustness of MR Image Reconstruction under Realistic Perturbations ( http://arxiv.org/abs/2208.03161v1 )

ライセンス: Link先を確認
Jan Nikolas Morshuis and Sergios Gatidis and Matthias Hein and Christian F. Baumgartner(参考訳) 深層学習(DL)法は,アンサンプ付き$k$-spaceデータからMR画像再構成などの不適切な逆問題を解決するための有望な結果を示している。 しかし、これらのアプローチは現在、復元品質の保証がなく、そのようなアルゴリズムの信頼性は不十分にしか理解されていない。 逆攻撃は、dlベースのリコンストラクションアルゴリズムの起こりうる障害モードと最悪の場合のパフォーマンスを理解するための貴重なツールを提供する。 本稿では,マルチコイル$k$-space測定に対する敵攻撃について述べるとともに,最近提案されたE2E-VarNetと,より単純なUNetモデルを用いて評価する。 以前の作業とは対照的に、これらの攻撃は診断に関連する領域を特異的に変更することを目的としている。 2つの現実的な攻撃モデル(対数$k$スペースノイズと対数回転)を用いて、現在最先端のDLベースの再構成アルゴリズムは、関連する診断情報が失われる程度に、実際にそのような摂動に敏感であることを示すことができる。 驚いたことに、我々の実験では、UNetとより洗練されたE2E-VarNetは同様の攻撃に敏感でした。 また,DL法が臨床実践に近づくにつれて,注意が必要であるという証拠も得られた。

Deep Learning (DL) methods have shown promising results for solving ill-posed inverse problems such as MR image reconstruction from undersampled $k$-space data. However, these approaches currently have no guarantees for reconstruction quality and the reliability of such algorithms is only poorly understood. Adversarial attacks offer a valuable tool to understand possible failure modes and worst case performance of DL-based reconstruction algorithms. In this paper we describe adversarial attacks on multi-coil $k$-space measurements and evaluate them on the recently proposed E2E-VarNet and a simpler UNet-based model. In contrast to prior work, the attacks are targeted to specifically alter diagnostically relevant regions. Using two realistic attack models (adversarial $k$-space noise and adversarial rotations) we are able to show that current state-of-the-art DL-based reconstruction algorithms are indeed sensitive to such perturbations to a degree where relevant diagnostic information may be lost. Surprisingly, in our experiments the UNet and the more sophisticated E2E-VarNet were similarly sensitive to such attacks. Our findings add further to the evidence that caution must be exercised as DL-based methods move closer to clinical practice.
翻訳日:2022-08-08 13:04:04 公開日:2022-08-05
# プログレッシブ・逆方向変分オートエンコーダによる脳病変合成

Brain Lesion Synthesis via Progressive Adversarial Variational Auto-Encoder ( http://arxiv.org/abs/2208.03203v1 )

ライセンス: Link先を確認
Jiayu Huo, Vejay Vakharia, Chengyuan Wu, Ashwini Sharan, Andrew Ko, Sebastien Ourselin, Rachel Sparks(参考訳) レーザー間質熱療法(英: Laser interstitial thermal therapy, LITT)は、頭蓋内構造をアブレーションして側頭葉てんかん(MTLE)を治療するために用いられる、新しい侵襲的な治療である。 LITT前後のROIセグメンテーションにより、自動病変定量化により治療効果を客観的に評価できる。 convolutional neural networks(cnns)のようなディープラーニング技術はroiセグメンテーションのための最先端のソリューションだが、トレーニング中に大量の注釈データを必要とする。 しかし、LITTのような新しい治療法から大規模なデータセットを集めることは現実的ではない。 本稿では,トレーニングデータセットの量と多様性を拡張すべく,進行性脳病変合成フレームワーク(pavae)を提案する。 具体的には,マスク合成ネットワークとマスク誘導病変合成ネットワークの2つのシーケンシャルネットワークから構成される。 ネットワークトレーニングにおいて,外部情報を活用してさらなる監視を行うために,マスク固有の条件を特徴空間にエンコードする条件埋め込みブロック (CEB) とマスク埋め込みブロック (MEB) を設計する。 最後に,生画像と合成画像を用いてセグメンテーションネットワークを訓練し,提案手法の有効性を評価する。 実験の結果,本手法は現実的な合成結果を達成でき,従来のデータ拡張手法よりもダウンストリームセグメンテーションタスクの性能を向上できることがわかった。

Laser interstitial thermal therapy (LITT) is a novel minimally invasive treatment that is used to ablate intracranial structures to treat mesial temporal lobe epilepsy (MTLE). Region of interest (ROI) segmentation before and after LITT would enable automated lesion quantification to objectively assess treatment efficacy. Deep learning techniques, such as convolutional neural networks (CNNs) are state-of-the-art solutions for ROI segmentation, but require large amounts of annotated data during the training. However, collecting large datasets from emerging treatments such as LITT is impractical. In this paper, we propose a progressive brain lesion synthesis framework (PAVAE) to expand both the quantity and diversity of the training dataset. Concretely, our framework consists of two sequential networks: a mask synthesis network and a mask-guided lesion synthesis network. To better employ extrinsic information to provide additional supervision during network training, we design a condition embedding block (CEB) and a mask embedding block (MEB) to encode inherent conditions of masks to the feature space. Finally, a segmentation network is trained using raw and synthetic lesion images to evaluate the effectiveness of the proposed framework. Experimental results show that our method can achieve realistic synthetic results and boost the performance of down-stream segmentation tasks above traditional data augmentation techniques.
翻訳日:2022-08-08 13:03:44 公開日:2022-08-05
# オフポリティサンプリングと線形関数近似による政策ベース手法のサンプル複雑性

Sample Complexity of Policy-Based Methods under Off-Policy Sampling and Linear Function Approximation ( http://arxiv.org/abs/2208.03247v1 )

ライセンス: Link先を確認
Zaiwei Chen, and Siva Theja Maguluri(参考訳) 本研究では,政策評価にオフ・ポリシーサンプリングと線形関数近似を用い,政策更新に自然政策勾配(npg)を含む様々な政策更新ルールを検討する,強化学習問題を解決するための政策ベース手法について検討する。 致命的な三重項の存在下での政策評価のサブプロブレムを解決するために,多段階TD-ラーニングの一般的なアルゴリズムフレームワークを提案し,このフレームワークには,2つの特定のアルゴリズム:$\lambda$-averaged $Q$-traceと2つの側面の$Q$-traceが含まれる。 ジェネリックアルゴリズムは単一の時間スケールであり、証明可能な有限サンプル保証を持ち、オフポリシー学習における高い分散問題を克服する。 方針更新については,様々な方針更新規則の下で幾何学収束を確立するために,ベルマン作用素の縮約特性と単調性のみを用いた普遍的な解析を行う。 重要な点は,npgを政策反復を近似的に実施する方法として捉えることで,正規化を導入することなく,また既存の文献のようにミラー降下分析を使わずに,npgの幾何学的収束を確立することである。 政策更新の幾何収束と、政策評価の有限サンプル解析を組み合わせることで、オフポリケーションサンプリングおよび線形関数近似の下でポリシーに基づく手法を用いて最適な政策(関数近似誤差まで)を求めるために、全体の$\mathcal{O}(\epsilon^{-2})$サンプル複雑性を初めて確立する。

In this work, we study policy-based methods for solving the reinforcement learning problem, where off-policy sampling and linear function approximation are employed for policy evaluation, and various policy update rules, including natural policy gradient (NPG), are considered for policy update. To solve the policy evaluation sub-problem in the presence of the deadly triad, we propose a generic algorithm framework of multi-step TD-learning with generalized importance sampling ratios, which includes two specific algorithms: the $\lambda$-averaged $Q$-trace and the two-sided $Q$-trace. The generic algorithm is single time-scale, has provable finite-sample guarantees, and overcomes the high variance issue in off-policy learning. As for the policy update, we provide a universal analysis using only the contraction property and the monotonicity property of the Bellman operator to establish the geometric convergence under various policy update rules. Importantly, by viewing NPG as an approximate way of implementing policy iteration, we establish the geometric convergence of NPG without introducing regularization, and without using mirror descent type of analysis as in existing literature. Combining the geometric convergence of the policy update with the finite-sample analysis of the policy evaluation, we establish for the first time an overall $\mathcal{O}(\epsilon^{-2})$ sample complexity for finding an optimal policy (up to a function approximation error) using policy-based methods under off-policy sampling and linear function approximation.
翻訳日:2022-08-08 13:00:48 公開日:2022-08-05
# 抗対称神経アンサッツ分離に向けて

Towards Antisymmetric Neural Ansatz Separation ( http://arxiv.org/abs/2208.03264v1 )

ライセンス: Link先を確認
Aaron Zweig, Joan Bruna(参考訳) 反対称関数の2つの基本モデル (または \emph{Ans\"atze}) の分離、すなわち $f(x_{\sigma(1)}, \ldots, x_{\sigma(N)}) = \text{sign}(\sigma)f(x_1, \ldots, x_N)$ の形の関数 $f$ について検討する。 これらは量子化学の文脈で発生し、フェルミオン系の波動関数の基本的なモデリングツールである。 具体的には、行列式の交互構造を利用するスレーター表現と、任意の対称関数で積でスレーター行列式を拡大するジャストロウアンザッツという2つの一般的な反対称Ans\atzeを考える。 我々は、ジャストロー形式でより効率的に表現できる反対称関数を構築するが、指数関数的な(N^2$)多くの項がない限り、スレーター行列式で近似することはできない。 これは、これらの2つのAns\atzeの間の最初の明示的な定量的分離を表す。

We study separations between two fundamental models (or \emph{Ans\"atze}) of antisymmetric functions, that is, functions $f$ of the form $f(x_{\sigma(1)}, \ldots, x_{\sigma(N)}) = \text{sign}(\sigma)f(x_1, \ldots, x_N)$, where $\sigma$ is any permutation. These arise in the context of quantum chemistry, and are the basic modeling tool for wavefunctions of Fermionic systems. Specifically, we consider two popular antisymmetric Ans\"atze: the Slater representation, which leverages the alternating structure of determinants, and the Jastrow ansatz, which augments Slater determinants with a product by an arbitrary symmetric function. We construct an antisymmetric function that can be more efficiently expressed in Jastrow form, yet provably cannot be approximated by Slater determinants unless there are exponentially (in $N^2$) many terms. This represents the first explicit quantitative separation between these two Ans\"atze.
翻訳日:2022-08-08 13:00:20 公開日:2022-08-05
# モデルベース計画における一般化ヒューリスティック探索の抽象解釈

Abstract Interpretation for Generalized Heuristic Search in Model-Based Planning ( http://arxiv.org/abs/2208.02938v1 )

ライセンス: Link先を確認
Tan Zhi-Xuan, Joshua B. Tenenbaum, Vikash K. Mansinghka(参考訳) ドメイン一般モデルに基づくプランナーはしばしば、シンボリックワールドモデルの緩和や抽象化を通じて探索ヒューリスティックを構築することによって、その汎用性を引き出す。 抽象的解釈がこれらの抽象的ヒューリスティックスの統一的枠組みとして機能し、より複雑なデータ型や関数(例えば集合、幾何学)、そして不確実性や確率論的効果を持つモデルまでヒューリスティックな探索の範囲を広げる方法について説明する。 これらのヒューリスティックは学習と統合することもでき、エージェントは後に経験によって洗練される抽象的な情報を通じて、新しい世界のモデルで計画を開始することができる。 これは抽象解釈が普遍的推論システムを構築する上で重要な役割を果たすことを示唆している。

Domain-general model-based planners often derive their generality by constructing search heuristics through the relaxation or abstraction of symbolic world models. We illustrate how abstract interpretation can serve as a unifying framework for these abstraction-based heuristics, extending the reach of heuristic search to richer world models that make use of more complex datatypes and functions (e.g. sets, geometry), and even models with uncertainty and probabilistic effects. These heuristics can also be integrated with learning, allowing agents to jumpstart planning in novel world models via abstraction-derived information that is later refined by experience. This suggests that abstract interpretation can play a key role in building universal reasoning systems.
翻訳日:2022-08-08 12:59:33 公開日:2022-08-05
# 3値混合mknf知識ベースにおける固定点特性

A Fixpoint Characterization of Three-Valued Disjunctive Hybrid MKNF Knowledge Bases ( http://arxiv.org/abs/2208.03087v1 )

ライセンス: Link先を確認
Spencer Killen (University of Alberta), Jia-Huai You (University of Alberta)(参考訳) ハイブリッドmknf(minimal knowledge and negation as failure)の論理は、asp(answer set programming)とオントロジーをエレガントに組み合わせた強力な知識表現言語である。 分断規則は、通常の規則に基づく推論の望ましい拡張であり、通常、通常の知識ベース向けに設計されたセマンティックフレームワークは、分断規則をサポートするために実質的な再構成を必要とする。 あるいは、同じ体と頭の中に1つの原子を持つ通常の知識ベースの集合を誘導することにより、分離規則を支持する正規規則の特徴付けを持ち上げることができる。 本研究では,このような正規知識ベースの集合を,連結知識ベースをヘッドカットとして言及する。 この問題は, 分岐型ハイブリッドMKNF知識ベースの意味論を, ヘッドカットを用いた固定点構成を用いて特徴付けることができるかという問題である。 従来我々は,頭部切断を固定点演算子と組み合わせて,2値のMKNFモデルとハイブリッドなMKNF知識ベースを捉えることができた。 3値セマンティクスは2値セマンティクスを拡張し、部分的な情報を表現できる。 本研究では,ハイブリッドMKNF知識ベースを3値のモデルに分割規則で反復的にキャプチャする演算子を用いて,頭部切断を利用した固定点構成を提案する。 この特徴付けはまた、プログラムが空のオントロジーを持つ共役ハイブリッドMKNF知識ベースとして表現できるため、解離論理プログラムの部分安定モデルも取得する。 通常のハイブリッドMKNF知識ベースに対する AFT (approximation fixpoint theory) におけるこの特徴と近似との関係について詳しく述べる。

The logic of hybrid MKNF (minimal knowledge and negation as failure) is a powerful knowledge representation language that elegantly pairs ASP (answer set programming) with ontologies. Disjunctive rules are a desirable extension to normal rule-based reasoning and typically semantic frameworks designed for normal knowledge bases need substantial restructuring to support disjunctive rules. Alternatively, one may lift characterizations of normal rules to support disjunctive rules by inducing a collection of normal knowledge bases, each with the same body and a single atom in its head. In this work, we refer to a set of such normal knowledge bases as a head-cut of a disjunctive knowledge base. The question arises as to whether the semantics of disjunctive hybrid MKNF knowledge bases can be characterized using fixpoint constructions with head-cuts. Earlier, we have shown that head-cuts can be paired with fixpoint operators to capture the two-valued MKNF models of disjunctive hybrid MKNF knowledge bases. Three-valued semantics extends two-valued semantics with the ability to express partial information. In this work, we present a fixpoint construction that leverages head-cuts using an operator that iteratively captures three-valued models of hybrid MKNF knowledge bases with disjunctive rules. This characterization also captures partial stable models of disjunctive logic programs since a program can be expressed as a disjunctive hybrid MKNF knowledge base with an empty ontology. We elaborate on a relationship between this characterization and approximators in AFT (approximation fixpoint theory) for normal hybrid MKNF knowledge bases.
翻訳日:2022-08-08 12:59:19 公開日:2022-08-05
# ツリーライクな正当性システム

Tree-Like Justification Systems are Consistent ( http://arxiv.org/abs/2208.03089v1 )

ライセンス: Link先を確認
Simon Marynissen (KU Leuven, Vrije Universiteit Brussel), Bart Bogaerts (Vrije Universiteit Brussel)(参考訳) 正当化理論は、様々な非単調論理の意味論を捉えた抽象統一形式論である。 興味深い問題の一つは一貫性の問題であり、そこでは条件は事実の正当化であり、否定の正当化は適切に関連している。 正当性理論の2つの変種が存在する: 1つは木であり、もう1つはグラフである。 この研究では、理にかなった木のような正当化システムはすべて一貫性のあるものであることを示すことによって、木のような設定に対して1度と何度でも一貫性の問題を解決します。

Justification theory is an abstract unifying formalism that captures semantics of various non-monotonic logics. One intriguing problem that has received significant attention is the consistency problem: under which conditions are justifications for a fact and justifications for its negation suitably related. Two variants of justification theory exist: one in which justifications are trees and one in which they are graphs. In this work we resolve the consistency problem once and for all for the tree-like setting by showing that all reasonable tree-like justification systems are consistent.
翻訳日:2022-08-08 12:58:53 公開日:2022-08-05
# 解答セットプログラミングによるデジタルヘルスの計画とスケジューリング

Planning and Scheduling in Digital Health with Answer Set Programming ( http://arxiv.org/abs/2208.03099v1 )

ライセンス: Link先を確認
Marco Mochi(参考訳) 病院の世界にはいくつかの複雑な複合的問題があり、患者の満足度やケアの質を高めるためにこれらの問題を解決することが重要である。 医療における問題は、いくつかの制約を解決するために複雑であり、異なる種類のリソースを考慮すべきである。 さらに、実際のシナリオでユーザビリティを保証するために、ソリューションを短時間で評価する必要があります。 我々は、既にテスト済みのソリューションを拡大し、新しい問題に対するモデリングソリューションによって、文献を考慮し、利用可能な時に実際のデータを使用することで、これらの問題の解決策を提案する予定です。 この種の問題の解決は重要であるが、欧州委員会は一般データ保護規則(General Data Protection Regulation)を制定したので、説明可能性の方法論を開発せずに、各人がAIによる決定の説明を求める権利があるので、例えばAnswer Setプログラミングに基づくようなAIベースの解法の使用は制限される。 したがって、研究の別の部分は、得られたソリューションを説明するための新しい方法論の研究と提案に費やされる。

In the hospital world there are several complex combinatory problems, and solving these problems is important to increase the degree of patients' satisfaction and the quality of care offered. The problems in the healthcare are complex since to solve them several constraints and different type of resources should be taken into account. Moreover, the solutions must be evaluated in a small amount of time to ensure the usability in real scenarios. We plan to propose solutions to these kind of problems both expanding already tested solutions and by modelling solutions for new problems, taking into account the literature and by using real data when available. Solving these kind of problems is important but, since the European Commission established with the General Data Protection Regulation that each person has the right to ask for explanation of the decision taken by an AI, without developing Explainability methodologies the usage of AI based solvers e.g. those based on Answer Set programming will be limited. Thus, another part of the research will be devoted to study and propose new methodologies for explaining the solutions obtained.
翻訳日:2022-08-08 12:58:42 公開日:2022-08-05
# オブジェクト中心イベントデータのケースと変種を定義する

Defining Cases and Variants for Object-Centric Event Data ( http://arxiv.org/abs/2208.03235v1 )

ライセンス: Link先を確認
Jan Niklas Adams, Daniel Schuster, Seth Schmitz, G\"unther Schuh, Wil M.P. van der Aalst(参考訳) プロセスの実行は、情報システムにおけるイベントデータの痕跡を残す。 これらのイベントデータはプロセスマイニング技術によって分析できる。 従来のプロセスマイニング技術では、各イベントを単にひとつのオブジェクト、例えば企業の顧客と関連付ける必要があります。 あるオブジェクトに関連するイベントはcaseと呼ばれるイベントシーケンスを形成する。 ケースでは、プロセス内のエンドツーエンドの実行を記述します。 イベントデータに含まれるケースは、プロセスモデルの検出、頻繁なボトルネックの検出、予測モデル学習に使用することができる。 しかし、実生活の情報システム、例えばERPシステムで発生する事象は、しばしば複数のオブジェクトに関連付けられる。 従来のシーケンシャルなケースの概念は、これらのデータがグラフ構造を示すため、オブジェクト中心のイベントデータには及ばない。 オブジェクト中心のイベントデータをフラット化することで、従来のケースコンセプトに強制するかも知れません。 しかし、フラット化はデータを操作し、情報を削除する。 したがって、オブジェクト中心のイベントデータに異なるプロセスマイニングタスクを適用できるようにするためには、従来のイベントログの概念に類似した概念が必要である。 本稿では,オブジェクト指向プロセスマイニングのケースコンセプトであるプロセス実行について紹介する。 これらは、伝統的なプロセスマイニングで考慮されたケースのグラフベースの一般化である。 さらに,プロセス実行を抽出する技術も提供する。 これらの実行に基づいて、グラフ同型を用いた属性に対する等価なプロセス挙動を決定する。 イベントのアクティビティに関する等価なプロセス実行は、オブジェクト中心の変種、すなわち、伝統的なプロセスマイニングにおける変種を一般化するものである。 オブジェクト中心の変形の可視化技術を提供する。 貢献のスケーラビリティと効率は広く評価されている。 さらに,実生活イベントログの最も頻度の高いオブジェクト中心型を示すケーススタディを提供する。

The execution of processes leaves traces of event data in information systems. These event data can be analyzed through process mining techniques. For traditional process mining techniques, one has to associate each event with exactly one object, e.g., the company's customer. Events related to one object form an event sequence called a case. A case describes an end-to-end run through a process. The cases contained in event data can be used to discover a process model, detect frequent bottlenecks, or learn predictive models. However, events encountered in real-life information systems, e.g., ERP systems, can often be associated with multiple objects. The traditional sequential case concept falls short of these object-centric event data as these data exhibit a graph structure. One might force object-centric event data into the traditional case concept by flattening it. However, flattening manipulates the data and removes information. Therefore, a concept analogous to the case concept of traditional event logs is necessary to enable the application of different process mining tasks on object-centric event data. In this paper, we introduce the case concept for object-centric process mining: process executions. These are graph-based generalizations of cases as considered in traditional process mining. Furthermore, we provide techniques to extract process executions. Based on these executions, we determine equivalent process behavior with respect to an attribute using graph isomorphism. Equivalent process executions with respect to the event's activity are object-centric variants, i.e., a generalization of variants in traditional process mining. We provide a visualization technique for object-centric variants. The contribution's scalability and efficiency are extensively evaluated. Furthermore, we provide a case study showing the most frequent object-centric variants of a real-life event log.
翻訳日:2022-08-08 12:58:24 公開日:2022-08-05
# 肥満スペクトラム障害の診断のための機械学習とバイオインフォマティクス

Machine Learning and Bioinformatics for Diagnosis Analysis of Obesity Spectrum Disorders ( http://arxiv.org/abs/2208.03139v1 )

ライセンス: Link先を確認
Amin Gasmi (SOFNNA)(参考訳) 世界の肥満患者数は、摂食生活と不適切な食事が原因で倍増している。 人類の遺伝学や健康も大きく変化した。 世界保健機関(WHO)によると、肥満の人は異なる慢性疾患に苦しむため、平均寿命は80歳から75歳に低下した。 本報告では,肥満の原因を特徴付け,予測し,分析するためにMLデータセットを用いた小児・成人の肥満問題に対処する。 神経mlネットワークに係わることにより,拡散テンソルイメージングを用いた神経制御を探求し,肥満患者の体脂肪,bmi,腰ヒップ比について検討する。 MLにおける肥満の現在および将来の原因を予測するため、決定木、SVM、RF、GBM、LASSO、BN、ANNなどのML技術について議論し、そのアルゴリズムを実装する。 本報告では, ML とバイオインフォマティクス実験の異なる理論的文献を概説するとともに, 肥満やその他の慢性疾患の予測にML をどう進めるかを推奨する。

Globally, the number of obese patients has doubled due to sedentary lifestyles and improper dieting. The tremendous increase altered human genetics, and health. According to the world health organization, Life expectancy dropped from 80 to 75 years, as obese people struggle with different chronic diseases. This report will address the problems of obesity in children and adults using ML datasets to feature, predict, and analyze the causes of obesity. By engaging neural ML networks, we will explore neural control using diffusion tensor imaging to consider body fats, BMI, waist \& hip ratio circumference of obese patients. To predict the present and future causes of obesity with ML, we will discuss ML techniques like decision trees, SVM, RF, GBM, LASSO, BN, and ANN and use datasets implement the stated algorithms. Different theoretical literature from experts ML \& Bioinformatics experiments will be outlined in this report while making recommendations on how to advance ML for predicting obesity and other chronic diseases.
翻訳日:2022-08-08 12:58:03 公開日:2022-08-05
# Covariant-Contravariant Refinement Modal $\mu$-calculus

Covariant-Contravariant Refinement Modal $\mu$-calculus ( http://arxiv.org/abs/2208.02989v1 )

ライセンス: Link先を確認
Huili Xing(参考訳) covariant-contravariantfine(略してcc-refinement)の概念は、バイシミュレーション、シミュレーション、リファインメントの概念の一般化である。 本稿では, CC-refinement modal $\mu$-calculus (CCRML$^{\mu}$) について, CC-refinement Quantifiers を追加して得られたモダル $\mu$-calculus system K$^{\mu}$ を紹介し, CCRML$^{\mu}$ の公理系を確立し, この公理系の健全性, 完全性, 決定性について検討する。 CCRML$^{\mu}$の言語は、反応的および生成的行動を参照するシステムの特性を記述するための仕様言語とみなすことができる。 形式的手法の分野で興味深い問題を定式化するために用いられる。

The notion of covariant-contravariant refinement (CC-refinement, for short) is a generalization of the notions of bisimulation, simulation and refinement. This paper introduces CC-refinement modal $\mu$-calculus (CCRML$^{\mu}$) obtained from the modal $\mu$-calculus system K$^{\mu}$ by adding CC-refinement quantifiers, establishes an axiom system for CCRML$^{\mu}$ and explores the important properties: soundness, completeness and decidability of this axiom system. The language of CCRML$^{\mu}$ may be considered as a specification language for describing the properties of a system referring to reactive and generative actions. It may be used to formalize some interesting problems in the field of formal methods.
翻訳日:2022-08-08 12:57:45 公開日:2022-08-05
# 不均衡分類のための最適トランスポートを用いた再重み付け例の学習

Learning to Re-weight Examples with Optimal Transport for Imbalanced Classification ( http://arxiv.org/abs/2208.02951v1 )

ライセンス: Link先を確認
Dandan Guo, Zhuo Li, Meixi Zheng, He Zhao, Mingyuan Zhou, Hongyuan Zha(参考訳) 不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。 不均衡データに取り組む最も広く使われているアプローチの1つは、トレーニングサンプルが損失関数の異なる重みに関連付けられる再重み付けである。 既存の再重み付けアプローチのほとんどは、サンプルウェイトを学習可能なパラメータとして扱い、メタセット上の重みを最適化し、高価な双レベル最適化を伴います。 本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。 具体的には、トレーニングセットをサンプル上の不均衡分布とみなし、そのメタセットから得られたバランス分布にOTで輸送する。 トレーニングサンプルの重量は、不均衡分布の確率質量であり、2つの分布間のOT距離を最小化することによって学習される。 既存の手法と比較して,提案手法は各反復における重み付け学習が関連する分類器への依存を解き放つ。 画像,テキスト,ポイントクラウドデータセットの実験により,提案手法は優れた性能を示し,多くのケースで最先端の結果が得られ,不均衡な分類問題に対処するための有望なツールを提供する。

Imbalanced data pose challenges for deep learning based classification models. One of the most widely-used approaches for tackling imbalanced data is re-weighting, where training samples are associated with different weights in the loss function. Most of existing re-weighting approaches treat the example weights as the learnable parameter and optimize the weights on the meta set, entailing expensive bilevel optimization. In this paper, we propose a novel re-weighting method based on optimal transport (OT) from a distributional point of view. Specifically, we view the training set as an imbalanced distribution over its samples, which is transported by OT to a balanced distribution obtained from the meta set. The weights of the training samples are the probability mass of the imbalanced distribution and learned by minimizing the OT distance between the two distributions. Compared with existing methods, our proposed one disengages the dependence of the weight learning on the concerned classifier at each iteration. Experiments on image, text and point cloud datasets demonstrate that our proposed re-weighting method has excellent performance, achieving state-of-the-art results in many cases and providing a promising tool for addressing the imbalanced classification issue.
翻訳日:2022-08-08 12:54:51 公開日:2022-08-05
# 交通予測のための動的適応グラフ畳み込みネットワーク

Dynamic Adaptive and Adversarial Graph Convolutional Network for Traffic Forecasting ( http://arxiv.org/abs/2208.03063v1 )

ライセンス: Link先を確認
Juyong Jiang, Binqing Wu, Ling Chen, Sunghun Kim(参考訳) 交通予測は動的で複雑な時空間依存のため困難である。 しかし、既存の方法には2つの限界がある。 第一に、多くのアプローチは、通常、静的に定義または適応的に学習された空間グラフを使用して、交通システムの動的時空間依存性をキャプチャし、柔軟性を制限し、共有パターンを常にキャプチャし、その結果、サブ最適性能をもたらす。 さらに、ほとんどのアプローチは、各段階における基底真理と予測の絶対誤差を個別に独立に考慮し、時系列のグローバルな性質と統計を全体として維持できず、その結果、基底真理と予測の傾向の相違が生じる。 本稿では,グラフ畳み込みネットワーク (gcns) とgans (generative adversarial network) を組み合わせてトラフィック予測を行う動的適応型グラフ畳み込みネットワーク (daagcn) を提案する。 特に、DAAGCNはゲートモジュールによる普遍的パラダイムを利用して、時間変化の埋め込みとノード埋め込みを統合し、各時間ステップで時空間依存を推論するための動的適応グラフを生成する。 次に、2つの判別器は、シーケンスとグラフレベルにおける基底真理を伴う予測時系列のグローバル特性と統計の一貫性を維持するように設計されている。 4つのベンチマークデータセットの大規模な実験では、DAAGCNは平均5.05%、3.80%、および5.27%で最先端であり、MAE、RMSE、MAPEは最大9倍の収束速度を示す。 コードはhttps://github.com/juyongjiang/DAAGCNで入手できる。

Traffic forecasting is challenging due to dynamic and complicated spatial-temporal dependencies. However, existing methods still suffer from two critical limitations. Firstly, many approaches typically utilize static pre-defined or adaptively learned spatial graphs to capture dynamic spatial-temporal dependencies in the traffic system, which limits the flexibility and only captures shared patterns for the whole time, thus leading to sub-optimal performance. In addition, most approaches individually and independently consider the absolute error between ground truth and predictions at each time step, which fails to maintain the global properties and statistics of time series as a whole and results in trend discrepancy between ground truth and predictions. To this end, in this paper, we propose a Dynamic Adaptive and Adversarial Graph Convolutional Network (DAAGCN), which combines Graph Convolution Networks (GCNs) with Generative Adversarial Networks (GANs) for traffic forecasting. Specifically, DAAGCN leverages a universal paradigm with a gate module to integrate time-varying embeddings with node embeddings to generate dynamic adaptive graphs for inferring spatial-temporal dependencies at each time step. Then, two discriminators are designed to maintain the consistency of the global properties and statistics of predicted time series with ground truth at the sequence and graph levels. Extensive experiments on four benchmark datasets manifest that DAAGCN outperforms the state-of-the-art by average 5.05%, 3.80%, and 5.27%, in terms of MAE, RMSE, and MAPE, meanwhile, speeds up convergence up to 9 times. Code is available at https://github.com/juyongjiang/DAAGCN.
翻訳日:2022-08-08 12:54:32 公開日:2022-08-05
# PGX: 異なる知識蒸留プロセスに基づく多レベルGNN記述フレームワーク

PGX: A Multi-level GNN Explanation Framework Based on Separate Knowledge Distillation Processes ( http://arxiv.org/abs/2208.03075v1 )

ライセンス: Link先を確認
Tien-Cuong Bui, Wen-syan Li, Sang-Kyun Cha(参考訳) グラフニューラルネットワーク(GNN)は、グラフデータ上での表現学習能力のため、高度なAIシステムで広く採用されている。 GNNの説明はシステムのユーザ信頼を高めるために重要であるが、GNNの実行が複雑になるため困難である。 近年、GNNの説明のいくつかの問題に対処する多くの研究が提案されている。 しかし、それらは一般化能力に欠け、グラフのサイズが巨大であるときに計算負荷に悩まされる。 これらの課題に対処するために,GNNはグラフデータにおける複数のコンポーネントのマルチモーダル学習プロセスである,という観測に基づくマルチレベルGNN説明フレームワークを提案する。 元の問題の複雑さは階層構造として表される複数の部分に分割することで緩和される。 トップレベルの説明は、各コンポーネントのモデル実行と予測への貢献を特定することを目的としており、きめ細かいレベルでは、知識蒸留に基づく特徴帰属とグラフ構造帰属分析に焦点を当てている。 学生モデルは独立したモードで訓練され、異なる教師の振る舞いを捉え、後に特定の構成要素の解釈に使用される。 また,このフレームワークはユーザの好みに基づいて異なる結果を生成することができるため,パーソナライズされた説明もする。 最後に,提案手法の有効性と信頼性を示す実験を行った。

Graph Neural Networks (GNNs) are widely adopted in advanced AI systems due to their capability of representation learning on graph data. Even though GNN explanation is crucial to increase user trust in the systems, it is challenging due to the complexity of GNN execution. Lately, many works have been proposed to address some of the issues in GNN explanation. However, they lack generalization capability or suffer from computational burden when the size of graphs is enormous. To address these challenges, we propose a multi-level GNN explanation framework based on an observation that GNN is a multimodal learning process of multiple components in graph data. The complexity of the original problem is relaxed by breaking into multiple sub-parts represented as a hierarchical structure. The top-level explanation aims at specifying the contribution of each component to the model execution and predictions, while fine-grained levels focus on feature attribution and graph structure attribution analysis based on knowledge distillation. Student models are trained in standalone modes and are responsible for capturing different teacher behaviors, later used for particular component interpretation. Besides, we also aim for personalized explanations as the framework can generate different results based on user preferences. Finally, extensive experiments demonstrate the effectiveness and fidelity of our proposed approach.
翻訳日:2022-08-08 12:53:47 公開日:2022-08-05
# コホート快適モデル -- 利用者の類似性を利用して、少ないデータで個人の熱的嗜好を予測する

Cohort comfort models -- Using occupants' similarity to predict personal thermal preference with less data ( http://arxiv.org/abs/2208.03078v1 )

ライセンス: Link先を確認
Matias Quintana, Stefano Schiavon, Federico Tartarini, Joyce Kim, Clayton Miller(参考訳) コホート・コンフォート・モデル(Cohort Comfort Models)は、新入生者が熱環境をどのように知覚するかを予測する新しいフレームワークである。 コホート・コンフォート・モデル(cohort comfort model)は、新しい居住者の熱的嗜好反応を予測するために、いくつかの嗜好類似性を持つサンプル集団から収集された履歴データを活用する。 本研究の枠組みは,新しい使用者からの身体特性や1回のオンボーディング調査(ライフスケール,高感度人格尺度,ビッグファイブパーソナリティ特性の満足度)などの利用可能な背景情報や,熱選好反応と組み合わせた生理的・環境的センサ計測を活用できる。 55人の縦データを含む2つの公開データセットで,6,000人以上の温熱快適度調査を行った。 背景情報を用いたコホート快適性モデルでは,熱選好予測性能にはほとんど変化がなかったが,履歴データを使用しなかった。 一方、各データセットの3分の1は、コホート・コンフォート・モデルを用いており、対象者からの歴史的データが少なく、コホート・コンフォート・モデルは平均で8~2%と5~2%、一部の居住者に対して36〜2%と46〜2%という熱選好予測を増加させた。 フレームワークは、データとサイトに依存しない方法で提示され、その異なるコンポーネントは、居住者と建物のデータ可用性に容易に適合する。 コホート・コンフォート・モデル(Cohort Comfort Models)は、新しい居住者ごとにパーソナライズされたモデルを開発することなく、パーソナライズに向けた重要なステップとなる。

We introduce Cohort Comfort Models, a new framework for predicting how new occupants would perceive their thermal environment. Cohort Comfort Models leverage historical data collected from a sample population, who have some underlying preference similarity, to predict thermal preference responses of new occupants. Our framework is capable of exploiting available background information such as physical characteristics and one-time on-boarding surveys (satisfaction with life scale, highly sensitive person scale, the Big Five personality traits) from the new occupant as well as physiological and environmental sensor measurements paired with thermal preference responses. We implemented our framework in two publicly available datasets containing longitudinal data from 55 people, comprising more than 6,000 individual thermal comfort surveys. We observed that, a Cohort Comfort Model that uses background information provided very little change in thermal preference prediction performance but uses none historical data. On the other hand, for half and one third of each dataset occupant population, using Cohort Comfort Models, with less historical data from target occupants, Cohort Comfort Models increased their thermal preference prediction by 8~\% and 5~\% on average, and up to 36~\% and 46~\% for some occupants, when compared to general-purpose models trained on the whole population of occupants. The framework is presented in a data and site agnostic manner, with its different components easily tailored to the data availability of the occupants and the buildings. Cohort Comfort Models can be an important step towards personalization without the need of developing a personalized model for each new occupant.
翻訳日:2022-08-08 12:53:16 公開日:2022-08-05
# 干渉効果を考慮したSHAPを用いた大腸癌機械学習モデルの構築

Explanation of Machine Learning Models of Colon Cancer Using SHAP Considering Interaction Effects ( http://arxiv.org/abs/2208.03112v1 )

ライセンス: Link先を確認
Yasunobu Nohara, Toyoshi Inoguchi, Chinatsu Nojiri, Naoki Nakashima(参考訳) 意思決定プロセスで機械学習技術を使用する場合、モデルの解釈性が重要である。 Shapley additive explanation (SHAP) は機械学習モデルの最も有望な解釈手法の1つである。 相互作用効果は、ある変数の効果が別の変数の値に依存するときに起こる。 各変数が結果にほとんど影響を与えなくても、その組み合わせは結果に予想外の大きな影響を与える可能性がある。 相互作用を理解することは機械学習モデルを理解する上で重要であるが、単純なSHAP分析では主な効果と相互作用効果を区別できない。 本稿では、相互作用効果を考慮したSHAPを用いた機械学習モデルの解釈手法として、Shapley-Taylorインデックスを導入する。 本手法を九州大学病院(N=29,080)のがんコホートデータに適用し,大腸癌のリスクに寄与する因子の組み合わせを分析した。

When using machine learning techniques in decision-making processes, the interpretability of the models is important. Shapley additive explanation (SHAP) is one of the most promising interpretation methods for machine learning models. Interaction effects occur when the effect of one variable depends on the value of another variable. Even if each variable has little effect on the outcome, its combination can have an unexpectedly large impact on the outcome. Understanding interactions is important for understanding machine learning models; however, naive SHAP analysis cannot distinguish between the main effect and interaction effects. In this paper, we introduce the Shapley-Taylor index as an interpretation method for machine learning models using SHAP considering interaction effects. We apply the method to the cancer cohort data of Kyushu University Hospital (N=29,080) to analyze what combination of factors contributes to the risk of colon cancer.
翻訳日:2022-08-08 12:52:41 公開日:2022-08-05
# 深層学習の不均一性--対称性のコストの定量化

On the non-universality of deep learning: quantifying the cost of symmetry ( http://arxiv.org/abs/2208.03113v1 )

ライセンス: Link先を確認
Emmanuel Abbe, Enric Boix-Adsera(参考訳) 雑音勾配降下法(GD)により学習したニューラルネットワークによる学習の計算限界を実証する。 我々の結果は、GDトレーニングが同変である場合(多くの標準アーキテクチャでは真)に適用され、GDが学習するために必要なアーキテクチャとデータ間のアライメントを定量化する。 応用として i) 完全連結ネットワークが二進超キューブと単位球上で弱学習できる機能を特徴付け、深さ2がこのタスクのどの深さよりも強力であることを示す。 (ii) 潜在低次元構造 [abm22] を用いた学習における統合階段の必要性を平均場体制を超えて拡張する。 提案手法は確率的勾配降下(sgd)にまで拡張され,暗号の仮定に基づいて,完全連結ネットワークを用いた学習における非自明なハードネス結果を示す。

We prove computational limitations for learning with neural networks trained by noisy gradient descent (GD). Our result applies whenever GD training is equivariant (true for many standard architectures), and quantifies the alignment needed between architectures and data in order for GD to learn. As applications, (i) we characterize the functions that fully-connected networks can weak-learn on the binary hypercube and unit sphere, demonstrating that depth-2 is as powerful as any other depth for this task; (ii) we extend the merged-staircase necessity result for learning with latent low-dimensional structure [ABM22] to beyond the mean-field regime. Our techniques extend to stochastic gradient descent (SGD), for which we show nontrivial hardness results for learning with fully-connected networks, based on cryptographic assumptions.
翻訳日:2022-08-08 12:52:26 公開日:2022-08-05
# 汎用リプシッツネットワークのためのほぼ直交層

Almost-Orthogonal Layers for Efficient General-Purpose Lipschitz Networks ( http://arxiv.org/abs/2208.03160v1 )

ライセンス: Link先を確認
Bernd Prach and Christoph H. Lampert(参考訳) ディープネットワークが小さな入力変更に対して堅牢であることは、非常に望ましい特性である。 この特性を達成するための一般的な方法は、小さなリプシッツ定数を持つネットワークを設計することである。 本稿では,任意の線形ネットワーク層(完全連結あるいは畳み込み)に適用可能なリプシッツネットワークを構築するための新しい手法を提案する。リプシッツ定数の形式的保証を提供し,容易に実装でき,効率的に実行でき,任意のトレーニング目的や最適化手法と組み合わせることができる。 実際、我々の技術は、これらの特性を同時に達成する文献で最初のものである。 我々の主な貢献は、再スケーリングに基づく重み行列パラメトリゼーションであり、各ネットワーク層が少なくとも1のリプシッツ定数を持ち、学習された重み行列が直交に近いことを保証します。 したがって、このような層を概直交リプシッツ(aol)と呼ぶ。 画像分類の文脈における実験とアブレーション研究により、AOL層が既存のほとんどの手法と同等の結果を得ることを確認した。 しかし、ネットワークアーキテクチャの一部として計算コストのかかる行列の直交化や反転ステップを必要としないため、より実装が簡単で、より広く適用できる。 コードはhttps://github.com/berndprach/aol.com/で提供します。

It is a highly desirable property for deep networks to be robust against small input changes. One popular way to achieve this property is by designing networks with a small Lipschitz constant. In this work, we propose a new technique for constructing such Lipschitz networks that has a number of desirable properties: it can be applied to any linear network layer (fully-connected or convolutional), it provides formal guarantees on the Lipschitz constant, it is easy to implement and efficient to run, and it can be combined with any training objective and optimization method. In fact, our technique is the first one in the literature that achieves all of these properties simultaneously. Our main contribution is a rescaling-based weight matrix parametrization that guarantees each network layer to have a Lipschitz constant of at most 1 and results in the learned weight matrices to be close to orthogonal. Hence we call such layers almost-orthogonal Lipschitz (AOL). Experiments and ablation studies in the context of image classification with certified robust accuracy confirm that AOL layers achieve results that are on par with most existing methods. Yet, they are simpler to implement and more broadly applicable, because they do not require computationally expensive matrix orthogonalization or inversion steps as part of the network architecture. We provide code at https://github.com/berndprach/AOL.
翻訳日:2022-08-08 12:52:11 公開日:2022-08-05
# マジックバリューによる学習プログラム

Learning programs with magic values ( http://arxiv.org/abs/2208.03238v1 )

ライセンス: Link先を確認
C\'eline Hocquette and Andrew Cropper(参考訳) プログラムのマジック値は、プログラムの実行に必須であるが、その選択について明確な説明がない定数シンボルである。 既存のプログラム合成手法では,マジック値の学習は困難である。 この制限を克服するために、マジック値でプログラムを効率よく学習する帰納的論理プログラミング手法を導入する。 プログラム合成、ドラッグデザイン、ゲームプレイなど、さまざまな分野の実験は、我々のアプローチが可能であることを示している。 (i)予測精度や学習時間の点で既存のアプローチを上回る。 (ii)piの値など無限の領域から魔法の値を学び、 (iii) 何百万もの定数記号を持つ領域にスケールする。

A magic value in a program is a constant symbol that is essential for the execution of the program but has no clear explanation for its choice. Learning programs with magic values is difficult for existing program synthesis approaches. To overcome this limitation, we introduce an inductive logic programming approach to efficiently learn programs with magic values. Our experiments on diverse domains, including program synthesis, drug design, and game playing, show that our approach can (i) outperform existing approaches in terms of predictive accuracies and learning times, (ii) learn magic values from infinite domains, such as the value of pi, and (iii) scale to domains with millions of constant symbols.
翻訳日:2022-08-08 12:51:47 公開日:2022-08-05
# 1枚の2d画像から3d属性を分離する:人間のポーズ、形、衣服

Disentangling 3D Attributes from a Single 2D Image: Human Pose, Shape and Garment ( http://arxiv.org/abs/2208.03167v1 )

ライセンス: Link先を確認
Xue Hu, Xinghui Li, Benjamin Busam, Yiren Zhou, Ales Leonardis, Shanxin Yuan(参考訳) 視覚操作タスクでは,画像コンテンツを意味的に意味のある特徴で表現することを目指している。 しかし、画像から暗黙の表現を学ぶことは、特に属性が絡み合っている場合、解釈可能性に欠けることが多い。 2次元画像データのみから不連続な3d属性を抽出するという課題に注目する。 特に,人間の容姿に着目し,rgb画像から服装者の暗黙的なポーズ,形状,服装表現を学習する。 本手法は,これら3つの画像特性の非交互表現による埋め込みを学習し,2D-to-3Dエンコーダ・デコーダ構造による特徴と特性制御の有意義な再構成を可能にする。 3Dモデルは、学習した埋め込み空間の機能マップからのみ推測される。 我々の知る限りでは、この高度に制約の少ない問題に対して、ドメイン間の絡み合いを初めて達成する手法である。 我々は,仮想データを用いた3次元再構築におけるポーズ,形状,衣服の移動能力の質的,定量的な実証を行い,暗黙的な形状損失が,詳細な再構成詳細を復元するモデルの能力にどのように寄与するかを示す。

For visual manipulation tasks, we aim to represent image content with semantically meaningful features. However, learning implicit representations from images often lacks interpretability, especially when attributes are intertwined. We focus on the challenging task of extracting disentangled 3D attributes only from 2D image data. Specifically, we focus on human appearance and learn implicit pose, shape and garment representations of dressed humans from RGB images. Our method learns an embedding with disentangled latent representations of these three image properties and enables meaningful re-assembling of features and property control through a 2D-to-3D encoder-decoder structure. The 3D model is inferred solely from the feature map in the learned embedding space. To the best of our knowledge, our method is the first to achieve cross-domain disentanglement for this highly under-constrained problem. We qualitatively and quantitatively demonstrate our framework's ability to transfer pose, shape, and garments in 3D reconstruction on virtual data and show how an implicit shape loss can benefit the model's ability to recover fine-grained reconstruction details.
翻訳日:2022-08-08 12:48:19 公開日:2022-08-05
# 雑音ラベル識別と補正のための近傍集団推定

Neighborhood Collective Estimation for Noisy Label Identification and Correction ( http://arxiv.org/abs/2208.03207v1 )

ライセンス: Link先を確認
Jichang Li, Guanbin Li, Feng Liu, Yizhou Yu(参考訳) ノイズラベルを用いた学習(LNL)は,ノイズラベルに対するモデルオーバーフィットの効果を軽減し,モデル性能と一般化を改善する戦略を設計することを目的とする。 LNLの主な成功は、大量のノイズデータから可能な限り多くのクリーンサンプルを識別し、不正に割り当てられたノイズラベルを修正することである。 近年の進歩は、個々のサンプルの予測ラベル分布を用いてノイズ検証とノイズラベル補正を行い、容易に確認バイアスを生じさせる。 そこで本研究では,候補試料の予測信頼性を,特徴空間近傍と対比して再評価する近傍集団推定手法を提案する。 具体的には,方法が2つのステップに分けられる。 1)全てのトレーニングサンプルをクリーン又はノイズのサブセットに分離する隣りの集合的騒音検証 2) relabel ノイズサンプルに対する近傍集合ラベル補正を行い,さらにモデル最適化を支援する補助技術を用いる。 CIFAR-10, CIFAR-100, Clothing-1M, Webvision-1.0 という4つの一般的なベンチマークデータセットに対する大規模な実験により,提案手法が最先端の手法よりかなり優れていることが示された。

Learning with noisy labels (LNL) aims at designing strategies to improve model performance and generalization by mitigating the effects of model overfitting to noisy labels. The key success of LNL lies in identifying as many clean samples as possible from massive noisy data, while rectifying the wrongly assigned noisy labels. Recent advances employ the predicted label distributions of individual samples to perform noise verification and noisy label correction, easily giving rise to confirmation bias. To mitigate this issue, we propose Neighborhood Collective Estimation, in which the predictive reliability of a candidate sample is re-estimated by contrasting it against its feature-space nearest neighbors. Specifically, our method is divided into two steps: 1) Neighborhood Collective Noise Verification to separate all training samples into a clean or noisy subset, 2) Neighborhood Collective Label Correction to relabel noisy samples, and then auxiliary techniques are used to assist further model optimization. Extensive experiments on four commonly used benchmark datasets, i.e., CIFAR-10, CIFAR-100, Clothing-1M and Webvision-1.0, demonstrate that our proposed method considerably outperforms state-of-the-art methods.
翻訳日:2022-08-08 12:47:58 公開日:2022-08-05
# 刑事司法システムのコンピュータビジョン応用におけるバイアスと公正性

Bias and Fairness in Computer Vision Applications of the Criminal Justice System ( http://arxiv.org/abs/2208.03209v1 )

ライセンス: Link先を確認
Sophie Noiret, Jennifer Lumetzberger, Martin Kampel(参考訳) aiによる警察活動を含む差別的行為は、ここ数年多くの論争の対象となり、compas、predpol、shotspotterなどのアルゴリズムが少数派グループに不公平な影響を及ぼしたとして非難されている。 同時に、機械学習における公平性の問題、特にコンピュータビジョンは、多くの学術研究の対象となっている。 本稿では,これらの領域がどのように交わるかを考察する。 我々は、これらのプラクティスがいかに存在してきたか、そしてそれらの緩和の難しさに関する情報を提供する。 次に,現在開発中の3つのアプリケーションについて検討し,公平性に対するリスクと,それらのリスクを軽減する方法について検討する。

Discriminatory practices involving AI-driven police work have been the subject of much controversies in the past few years, with algorithms such as COMPAS, PredPol and ShotSpotter being accused of unfairly impacting minority groups. At the same time, the issues of fairness in machine learning, and in particular in computer vision, have been the subject of a growing number of academic works. In this paper, we examine how these area intersect. We provide information on how these practices have come to exist and the difficulties in alleviating them. We then examine three applications currently in development to understand what risks they pose to fairness and how those risks can be mitigated.
翻訳日:2022-08-08 12:47:38 公開日:2022-08-05
# RadTex: テキストレポートから効率的なラジオグラフ表現を学習する

RadTex: Learning Efficient Radiograph Representations from Text Reports ( http://arxiv.org/abs/2208.03218v1 )

ライセンス: Link先を確認
Keegan Quigley, Miriam Cha, Ruizhi Liao, Geeticka Chauhan, Steven Horng, Seth Berkowitz, Polina Golland(参考訳) 深層学習を用いた胸部X線写真の自動解析は, 患者の疾患の診断を増強する大きな可能性を秘めている。 しかし、ディープラーニングモデルは通常、高いパフォーマンスを達成するために大量の注釈付きデータを必要とします。 本稿では,放射線学報告を利用したデータ効率学習フレームワークを構築し,限られたラベル付きデータを用いた医用画像分類性能を向上する(1000例未満)。 具体的には,より少ない例で学習する高品質な医用画像表現を学習するために,画像キャプチャ事前学習を検討する。 畳み込みエンコーダとトランスデコーダの合同プリトレーニングに続いて,学習したエンコーダを様々な分類タスクに転送する。 平均9つの病理組織から,ラベル付きトレーニングデータに制限がある場合,画像ネットの教師付きおよびドメイン内教師付き事前学習よりも高い分類性能が得られることがわかった。

Automated analysis of chest radiography using deep learning has tremendous potential to enhance the clinical diagnosis of diseases in patients. However, deep learning models typically require large amounts of annotated data to achieve high performance -- often an obstacle to medical domain adaptation. In this paper, we build a data-efficient learning framework that utilizes radiology reports to improve medical image classification performance with limited labeled data (fewer than 1000 examples). Specifically, we examine image-captioning pretraining to learn high-quality medical image representations that train on fewer examples. Following joint pretraining of a convolutional encoder and transformer decoder, we transfer the learned encoder to various classification tasks. Averaged over 9 pathologies, we find that our model achieves higher classification performance than ImageNet-supervised and in-domain supervised pretraining when labeled training data is limited.
翻訳日:2022-08-08 12:47:25 公開日:2022-08-05
# 腹部確率登録における駆動点予測

Driving Points Prediction For Abdominal Probabilistic Registration ( http://arxiv.org/abs/2208.03232v1 )

ライセンス: Link先を確認
Samuel Joutard, Reuben Dorent, Sebastien Ourselin, Tom Vercauteren, Marc Modat(参考訳) 患者間腹部登録は、薬物動態研究から解剖学モデリングまで様々な応用がある。 しかし,ヒト腹部の形態的異質性と変動性から,なおも難解な応用である。 この課題のために提案された様々な登録手法のうち,確率的変位登録モデルは,2つの画像の特徴ベクトルを比較して,点のサブセットの変位分布を推定する。 これらの確率モデルは、設計による大きな変位を許容しながら、情報的かつ堅牢である。 移動分布は、典型的には(駆動点と呼ぶ)点のサブセット上で推定されるため、計算の要求により、本研究では駆動点予測子を学習するために提案する。 従来提案手法と比較して、駆動点予測器は、特定の登録パイプラインに適した駆動点を推測するためにエンドツーエンドで最適化されている。 異なるモダリティに対応する2つの異なるデータセットに対する貢献の影響を評価した。 具体的には、駆動点予測器または他の2つの標準駆動点選択法を用いて、6種類の確率的変位登録モデルの性能を比較した。 提案手法は12実験中11実験で性能改善を行った。

Inter-patient abdominal registration has various applications, from pharmakinematic studies to anatomy modeling. Yet, it remains a challenging application due to the morphological heterogeneity and variability of the human abdomen. Among the various registration methods proposed for this task, probabilistic displacement registration models estimate displacement distribution for a subset of points by comparing feature vectors of points from the two images. These probabilistic models are informative and robust while allowing large displacements by design. As the displacement distributions are typically estimated on a subset of points (which we refer to as driving points), due to computational requirements, we propose in this work to learn a driving points predictor. Compared to previously proposed methods, the driving points predictor is optimized in an end-to-end fashion to infer driving points tailored for a specific registration pipeline. We evaluate the impact of our contribution on two different datasets corresponding to different modalities. Specifically, we compared the performances of 6 different probabilistic displacement registration models when using a driving points predictor or one of 2 other standard driving points selection methods. The proposed method improved performances in 11 out of 12 experiments.
翻訳日:2022-08-08 12:47:10 公開日:2022-08-05
# 仮想ヒューマンインタラクションのための音声からのリアルタイムジェスチャーアニメーション生成

Real-time Gesture Animation Generation from Speech for Virtual Human Interaction ( http://arxiv.org/abs/2208.03244v1 )

ライセンス: Link先を確認
Manuel Rebol, Christian G\"utl, Krzysztof Pietroszek(参考訳) 音声から直接ジェスチャーを合成するリアルタイムシステムを提案する。 データ駆動型アプローチは、音声・姿勢関係をモデル化するジェネレーティブ・アドバイサルニューラルネットワークに基づいている。 オンラインで利用可能な大量の話者ビデオデータを利用して3Dジェスチャーモデルを訓練する。 本モデルは,2秒間の連続的な音声入力チャンクを受信することで,話者固有のジェスチャーを生成する。 仮想アバター上で予測されたジェスチャーをアニメーション化する。 音声入力とジェスチャアニメーションの3秒以内の遅延を実現する。 コードとビデオはhttps://github.com/mrebol/gestures-from-speechで入手できる。

We propose a real-time system for synthesizing gestures directly from speech. Our data-driven approach is based on Generative Adversarial Neural Networks to model the speech-gesture relationship. We utilize the large amount of speaker video data available online to train our 3D gesture model. Our model generates speaker-specific gestures by taking consecutive audio input chunks of two seconds in length. We animate the predicted gestures on a virtual avatar. We achieve a delay below three seconds between the time of audio input and gesture animation. Code and videos are available at https://github.com/mrebol/Gestures-From-Speech
翻訳日:2022-08-08 12:46:53 公開日:2022-08-05
# 身体運動のための3次元ポーズフィードバック

3D Pose Based Feedback for Physical Exercises ( http://arxiv.org/abs/2208.03257v1 )

ライセンス: Link先を確認
Ziyi Zhao, Sena Kiciroglu, Hugues Vinzant, Yuan Cheng, Isinsu Katircioglu, Mathieu Salzmann, Pascal Fua(参考訳) 教師なしの自己回復運動や身体訓練は、不正に実施すれば重傷を負うことがある。 ユーザのミスを識別する学習ベースのフレームワークを導入し,個別のトレーニングをより容易かつ安全にするための修正策を提案する。 私たちのフレームワークはハードコードでヒューリスティックなルールに依存していません。 代わりに、特定のユーザニーズへの適応を容易にするデータから学習する。 この目的のために,ユーザのポーズシーケンスに作用するグラフ畳み込みネットワーク(gcn)アーキテクチャを用いて,身体関節軌跡間の関係をモデル化する。 提案手法を評価するために,3種類の物理エクササイズを持つデータセットを導入した。 提案手法は90.9%の誤り識別精度を示し,94.2%の誤り訂正に成功した。

Unsupervised self-rehabilitation exercises and physical training can cause serious injuries if performed incorrectly. We introduce a learning-based framework that identifies the mistakes made by a user and proposes corrective measures for easier and safer individual training. Our framework does not rely on hard-coded, heuristic rules. Instead, it learns them from data, which facilitates its adaptation to specific user needs. To this end, we use a Graph Convolutional Network (GCN) architecture acting on the user's pose sequence to model the relationship between the body joints trajectories. To evaluate our approach, we introduce a dataset with 3 different physical exercises. Our approach yields 90.9% mistake identification accuracy and successfully corrects 94.2% of the mistakes.
翻訳日:2022-08-08 12:46:44 公開日:2022-08-05
# 事実英語による知識のオーサリング

Knowledge Authoring with Factual English ( http://arxiv.org/abs/2208.03094v1 )

ライセンス: Link先を確認
Yuheng Wang (Department of Computer Science, Stony Brook University), Giorgian Borca-Tasciuc (Department of Computer Science, Stony Brook University), Nikhil Goel (Department of Computer Science, Stony Brook University), Paul Fodor (Department of Computer Science, Stony Brook University), Michael Kifer (Department of Computer Science, Stony Brook University)(参考訳) 知識表現と推論(KRR)システムは知識を事実と規則の集合として表現する。 データベースと同様に、KRRシステムは産業、科学、ビジネスといった人間の活動領域に関する情報を含んでいる。 KRRは複雑な概念や関係を表現でき、洗練された方法で情報をクエリして操作することができる。 残念ながら、KRR技術は、必要な知識を特定するには、ほとんどのドメインの専門家が持っていないスキルが必要であり、専門家の知識技術者を見つけるのが難しいという事実によって妨げられている。 一つの解決策は英語のテキストから知識を抽出することであり、多くの研究がそれを試みている(OpenSesame、GoogleのSlingなど)。 残念ながら、現在、制限されていない自然言語からの論理的事実の抽出は、推論に使用するには不正確すぎる一方で、言語(いわゆる制御自然言語、CNL)の文法を制限することは、学習や使用を困難にしている。 しかしながら、最近のCNLベースのアプローチ(例えばKnowledge Authoring Logic Machine (KALM))は、他のものと比べて非常に高い精度を示しており、CNLの制限がどの程度解除できるかという自然な疑問がある。 本稿では,神経自然言語パーサであるmstanzaにkalmフレームワークを移植することでこの問題に対処した。 ここでは、事実とクエリのオーサリングに注意を向けることを制限します。 ルールのような他の種類の知識のオーサリングは、私たちのフォローアップ作業で考慮されます。 結果として、ニューラルネットワークベースのパーサには、自身の問題や、部分的なタグ付けから補間、依存関係のエラーに至るまで、さまざまな誤りがあることが分かった。 本稿では,これらの問題に対処し,新しいシステムであるKALMFL(kaLMFL:事実言語)を多数のベンチマークで検証し,その精度が95%を超えることを示す。

Knowledge representation and reasoning (KRR) systems represent knowledge as collections of facts and rules. Like databases, KRR systems contain information about domains of human activities like industrial enterprises, science, and business. KRRs can represent complex concepts and relations, and they can query and manipulate information in sophisticated ways. Unfortunately, the KRR technology has been hindered by the fact that specifying the requisite knowledge requires skills that most domain experts do not have, and professional knowledge engineers are hard to find. One solution could be to extract knowledge from English text, and a number of works have attempted to do so (OpenSesame, Google's Sling, etc.). Unfortunately, at present, extraction of logical facts from unrestricted natural language is still too inaccurate to be used for reasoning, while restricting the grammar of the language (so-called controlled natural language, or CNL) is hard for the users to learn and use. Nevertheless, some recent CNL-based approaches, such as the Knowledge Authoring Logic Machine (KALM), have shown to have very high accuracy compared to others, and a natural question is to what extent the CNL restrictions can be lifted. In this paper, we address this issue by transplanting the KALM framework to a neural natural language parser, mStanza. Here we limit our attention to authoring facts and queries and therefore our focus is what we call factual English statements. Authoring other types of knowledge, such as rules, will be considered in our followup work. As it turns out, neural network based parsers have problems of their own and the mistakes they make range from part-of-speech tagging to lemmatization to dependency errors. We present a number of techniques for combating these problems and test the new system, KALMFL (i.e., KALM for factual language), on a number of benchmarks, which show KALMFL achieves correctness in excess of 95%.
翻訳日:2022-08-08 12:46:34 公開日:2022-08-05
# ディープネットワークの顔認識性能に及ぼす形状・文脈の影響の分析

Analyzing the Impact of Shape & Context on the Face Recognition Performance of Deep Networks ( http://arxiv.org/abs/2208.02991v1 )

ライセンス: Link先を確認
Sandipan Banerjee, Walter Scheirer, Kevin Bowyer, Patrick Flynn(参考訳) 本稿では,顔画像における基礎的アイデンティティの3次元形状の変化が,その全体的な外観を,特に深い顔認識の観点からゆがめる可能性について分析する。 一般的なトレーニングデータ拡張スキームで行われているように、ランダムに選択されたまたは最も適した3d顔モデルで実顔画像と合成顔画像をグラフィカルにレンダリングし、ベースアイデンティティの新しいビューを生成する。 これらの画像から生成された深い特徴を比較し、これらのレンダリングが元のアイデンティティにもたらす摂動を評価する。 この分析は、性別や民族によって異なる基本的アイデンティティを持つ顔のヨーで行う。 さらに、これらのレンダリング画像に何らかの形態のコンテキストや背景画素を追加する場合、トレーニングデータとして使用する場合、顔認識モデルの下流性能をさらに向上させるかを検討する。 本研究は,顔の正確なマッチングにおける顔形状の重要性を示し,ネットワークトレーニングにおける文脈データの重要性を実証する。

In this article, we analyze how changing the underlying 3D shape of the base identity in face images can distort their overall appearance, especially from the perspective of deep face recognition. As done in popular training data augmentation schemes, we graphically render real and synthetic face images with randomly chosen or best-fitting 3D face models to generate novel views of the base identity. We compare deep features generated from these images to assess the perturbation these renderings introduce into the original identity. We perform this analysis at various degrees of facial yaw with the base identities varying in gender and ethnicity. Additionally, we investigate if adding some form of context and background pixels in these rendered images, when used as training data, further improves the downstream performance of a face recognition model. Our experiments demonstrate the significance of facial shape in accurate face matching and underpin the importance of contextual data for network training.
翻訳日:2022-08-08 12:42:46 公開日:2022-08-05
# オブジェクト検出のためのタスクバランス蒸留

Task-Balanced Distillation for Object Detection ( http://arxiv.org/abs/2208.03006v1 )

ライセンス: Link先を確認
Ruining Tang, Zhenyu Liu, Yangguang Li, Yiguo Song, Hui Liu, Qide Wang, Jing Shao, Guifang Duan, Jianrong Tan(参考訳) メインストリームオブジェクト検出器は、2つの並列ヘッドによって実装された分類と回帰タスクを含む2つのサブタスクで構成される。 この古典的設計パラダイムは必然的に、分類スコアと局所化品質(IOU)の間に不整合な空間分布をもたらす。 そこで本稿では, 知識蒸留という観点からの誤用を緩和する。 まず,教師は軽量な生徒よりも高調波予測の比率が高いことを観察する。 この興味深い観察に基づいて,新しい調和スコア(hs)を考案し,分類と回帰特性のアライメントを推定した。 hsは2つのサブタスク間の関係をモデル化し、学生の調和した予測を促進するための事前知識と見なされる。 第二に、この空間的不一致は蒸留の特徴が不調和な領域選択をもたらす。 この問題を軽減するために, 分類と回帰タスクの寄与を柔軟にバランスさせることにより, 新規なタスク分離機能蒸留法(tfd)を提案する。 最終的に HD と TFD は Task-Balanced Distillation (TBD) と呼ばれる提案手法を構成する。 広範な実験により,提案手法のかなりの可能性と一般化が示された。 具体的には、TBDを装着すると、ResNet-50によるRetinaNetはCOCOベンチマークで41.0 mAPを獲得し、最近のFGDとFRSを上回っている。

Mainstream object detectors are commonly constituted of two sub-tasks, including classification and regression tasks, implemented by two parallel heads. This classic design paradigm inevitably leads to inconsistent spatial distributions between classification score and localization quality (IOU). Therefore, this paper alleviates this misalignment in the view of knowledge distillation. First, we observe that the massive teacher achieves a higher proportion of harmonious predictions than the lightweight student. Based on this intriguing observation, a novel Harmony Score (HS) is devised to estimate the alignment of classification and regression qualities. HS models the relationship between two sub-tasks and is seen as prior knowledge to promote harmonious predictions for the student. Second, this spatial misalignment will result in inharmonious region selection when distilling features. To alleviate this problem, a novel Task-decoupled Feature Distillation (TFD) is proposed by flexibly balancing the contributions of classification and regression tasks. Eventually, HD and TFD constitute the proposed method, named Task-Balanced Distillation (TBD). Extensive experiments demonstrate the considerable potential and generalization of the proposed method. Specifically, when equipped with TBD, RetinaNet with ResNet-50 achieves 41.0 mAP under the COCO benchmark, outperforming the recent FGD and FRS.
翻訳日:2022-08-08 12:42:32 公開日:2022-08-05
# トランスマッティング:トランスフォーマーによる透明なオブジェクトマッティングの強化

TransMatting: Enhancing Transparent Objects Matting with Transformers ( http://arxiv.org/abs/2208.03007v1 )

ライセンス: Link先を確認
Huanqia Cai, Fanglei Xue, Lele Xu, Lili Guo(参考訳) 画像マットリングは、自然画像から未知の前景領域のアルファ値を予測することを指す。 以前の手法では、既知の領域から未知領域へのアルファ値の伝播に重点を置いてきた。 しかし、すべての自然画像が特定の前景を持っているわけではない。 ガラス、煙、ウェブなどの透明な物体の画像は、ほとんど、あるいは全く知られていない。 本稿では,トランスフォーマーをベースとしたトランスマターネットワークを提案し,大きな受容場を持つ透明物体をモデル化する。 具体的には,trimapを学習可能な3つのトライトケンとして再設計し,自己着脱機構に高度な意味的特徴を導入する。 グローバル特徴と非バックグランドマスクを用いて,エンコーダからデコーダへのマルチスケール特徴伝播を誘導し,透明なオブジェクトの文脈を維持するための小型畳み込みネットワークを提案する。 さらに,小さな既知領域を持つ透明なオブジェクトの高解像度なマットングデータセットを作成する。 いくつかのマットングベンチマーク実験では,提案手法が最先端手法よりも優れていることを示す。

Image matting refers to predicting the alpha values of unknown foreground areas from natural images. Prior methods have focused on propagating alpha values from known to unknown regions. However, not all natural images have a specifically known foreground. Images of transparent objects, like glass, smoke, web, etc., have less or no known foreground. In this paper, we propose a Transformer-based network, TransMatting, to model transparent objects with a big receptive field. Specifically, we redesign the trimap as three learnable tri-tokens for introducing advanced semantic features into the self-attention mechanism. A small convolutional network is proposed to utilize the global feature and non-background mask to guide the multi-scale feature propagation from encoder to decoder for maintaining the contexture of transparent objects. In addition, we create a high-resolution matting dataset of transparent objects with small known foreground areas. Experiments on several matting benchmarks demonstrate the superiority of our proposed method over the current state-of-the-art methods.
翻訳日:2022-08-08 12:42:13 公開日:2022-08-05
# 圧縮ビデオ超解像のための時空間周波数変換器の学習

Learning Spatiotemporal Frequency-Transformer for Compressed Video Super-Resolution ( http://arxiv.org/abs/2208.03012v1 )

ライセンス: Link先を確認
Zhongwei Qiu, Huan Yang, Jianlong Fu, Dongmei Fu(参考訳) 圧縮ビデオスーパーレゾリューション(VSR)は、圧縮された低解像度フレームから高解像度フレームを復元することを目的としている。 最近のVSRアプローチは、隣接するビデオフレームから関連するテクスチャを借りることで、入力フレームを強化することが多い。 若干の進展はあるものの、ほとんどのフレームが格段に劣化する圧縮ビデオから高品質なテクスチャを効果的に抽出・転送することは大きな課題である。 本稿では,結合時空間周波数領域上で自己アテンションを行う圧縮ビデオ超解像(ftvsr)のための新しい周波数変換器を提案する。 まず,ビデオフレームをパッチに分割し,各パッチを周波数帯域を表すdctスペクトルマップに変換する。 このような設計により、各周波数帯の細粒度自己着脱が可能となり、実際の視覚的テクスチャとアーティファクトを区別でき、さらにビデオフレームの復元にも利用できる。 第2に、各周波数帯に時間的注意を加える前に、共同で空間周波数の注意を行う分割された注意が、最高の映像強調品質をもたらすことを明らかにする。 広範に使用されている2つのビデオ超解像ベンチマークの実験結果は、ftvsrが未圧縮ビデオと圧縮ビデオの両方で最先端のアプローチを、明確な視野マージンで上回っていることを示している。 コードはhttps://github.com/researchmm/ftvsrで入手できる。

Compressed video super-resolution (VSR) aims to restore high-resolution frames from compressed low-resolution counterparts. Most recent VSR approaches often enhance an input frame by borrowing relevant textures from neighboring video frames. Although some progress has been made, there are grand challenges to effectively extract and transfer high-quality textures from compressed videos where most frames are usually highly degraded. In this paper, we propose a novel Frequency-Transformer for compressed video super-resolution (FTVSR) that conducts self-attention over a joint space-time-frequency domain. First, we divide a video frame into patches, and transform each patch into DCT spectral maps in which each channel represents a frequency band. Such a design enables a fine-grained level self-attention on each frequency band, so that real visual texture can be distinguished from artifacts, and further utilized for video frame restoration. Second, we study different self-attention schemes, and discover that a divided attention which conducts a joint space-frequency attention before applying temporal attention on each frequency band, leads to the best video enhancement quality. Experimental results on two widely-used video super-resolution benchmarks show that FTVSR outperforms state-of-the-art approaches on both uncompressed and compressed videos with clear visual margins. Code is available at https://github.com/researchmm/FTVSR.
翻訳日:2022-08-08 12:41:58 公開日:2022-08-05
# 内視鏡画像データのための深ベイズ能動学習

Deep Bayesian Active-Learning-to-Rank for Endoscopic Image Data ( http://arxiv.org/abs/2208.03020v1 )

ライセンス: Link先を確認
Takeaki Kadota, Hideaki Hayashi, Ryoma Bise, Kiyohito Tanaka, Seiichi Uchida(参考訳) 画像に基づく疾患の重症度の自動推定は、一般に離散(量子化された)重症度ラベルを使用する。 離散ラベルの注釈付けは、曖昧な重度の画像のため、しばしば困難である。 より簡単な方法は、イメージペア間の重大度レベルを比較する相対アノテーションを使用することである。 相対的なアノテーションを持つ学習からランクまでのフレームワークを使用することで、重度レベルに対するランクスコアを推定するニューラルネットワークをトレーニングすることができる。 しかしながら、可能な全てのペアに対する相対的なアノテーションは禁止されており、適切なサンプルペアの選択が必須である。 本稿では,ベイズ的畳み込みニューラルネットワークを訓練し,相対的アノテーションの適切なペアを自動選択する深層ベイズ的アクティブラーニング to ランクを提案する。 潰瘍性大腸炎の内視鏡像を用いて,本法の有効性を確認した。 また,本手法は,マイノリティクラスから自動的にサンプルを選択できるため,厳しいクラス不均衡においても有効であることを確認した。

Automatic image-based disease severity estimation generally uses discrete (i.e., quantized) severity labels. Annotating discrete labels is often difficult due to the images with ambiguous severity. An easier alternative is to use relative annotation, which compares the severity level between image pairs. By using a learning-to-rank framework with relative annotation, we can train a neural network that estimates rank scores that are relative to severity levels. However, the relative annotation for all possible pairs is prohibitive, and therefore, appropriate sample pair selection is mandatory. This paper proposes a deep Bayesian active-learning-to-rank, which trains a Bayesian convolutional neural network while automatically selecting appropriate pairs for relative annotation. We confirmed the efficiency of the proposed method through experiments on endoscopic images of ulcerative colitis. In addition, we confirmed that our method is useful even with the severe class imbalance because of its ability to select samples from minor classes automatically.
翻訳日:2022-08-08 12:41:36 公開日:2022-08-05
# ブロックワイズ時空間経路ネットワーク

Blockwise Temporal-Spatial Pathway Network ( http://arxiv.org/abs/2208.03040v1 )

ライセンス: Link先を確認
SeulGi Hong, Min-Kook Choi(参考訳) 映像行動認識のためのアルゴリズムは,空間情報だけでなく時間的関係も考慮すべきである。 本稿では,btsnet(blockwise temporal-spatial path-way network)と呼ばれる3d-cnnに基づく行動認識モデルを提案する。 画像認識のための空間受容場を適応的に選択する効果的な特徴符号化のためのアーキテクチャである適応的カーネル選択ベースモデルに触発された新しいモデルを設計した。 このアプローチを時間領域に拡張することで,時間的およびチャネル的注意を抽出し,様々な候補操作に関する情報を融合する。 評価のために,UCF-101,HMDB-51,SVW,Epic-Kitchenのデータセットを用いて提案モデルを検証し,事前学習なしに一般化したことを示した。 BTSNetはまた、時空間チャネルの注意に基づく解釈可能な可視化を提供する。 この視覚化に基づいて3次元畳み込みブロックの表現性が向上することが確認された。

Algorithms for video action recognition should consider not only spatial information but also temporal relations, which remains challenging. We propose a 3D-CNN-based action recognition model, called the blockwise temporal-spatial path-way network (BTSNet), which can adjust the temporal and spatial receptive fields by multiple pathways. We designed a novel model inspired by an adaptive kernel selection-based model, which is an architecture for effective feature encoding that adaptively chooses spatial receptive fields for image recognition. Expanding this approach to the temporal domain, our model extracts temporal and channel-wise attention and fuses information on various candidate operations. For evaluation, we tested our proposed model on UCF-101, HMDB-51, SVW, and Epic-Kitchen datasets and showed that it generalized well without pretraining. BTSNet also provides interpretable visualization based on spatiotemporal channel-wise attention. We confirm that the blockwise temporal-spatial pathway supports a better representation for 3D convolutional blocks based on this visualization.
翻訳日:2022-08-08 12:41:22 公開日:2022-08-05
# 低品質物体検出のための自己教師信号としての分解能と劣化曲線の探索

Exploring Resolution and Degradation Clues as Self-supervised Signal for Low Quality Object Detection ( http://arxiv.org/abs/2208.03062v1 )

ライセンス: Link先を確認
Ziteng Cui, Yingying Zhu, Lin Gu, Guo-Jun Qi, Xiaoxiao Li, Renrui Zhang, Zenghui Zhang, Tatsuya Harada(参考訳) 超解像(SR)のような画像復元アルゴリズムは、低画質画像における物体検出に必須の事前処理モジュールである。 これらのアルゴリズムのほとんどは、劣化が固定され、先行が知られていると仮定する。 しかし、実際、実際の劣化率または最適アップサンプリング比率は未知であるか、仮定と異なるため、前処理モジュールとオブジェクト検出のような連続した高レベルタスクの両方で劣化性能が低下する。 本稿では,劣化した低解像度画像中の物体を検出するための,新しい自己教師付きフレームワークを提案する。 我々は,ダウンサンプリング劣化を自己教師信号の変換の一種として活用し,様々な分解条件や劣化条件に対する等価表現を探索する。 Auto Encoding Resolution in Self-supervision (AERIS) フレームワークは、劣化した入力画像から元の対応を再構築するために任意の解像度復元デコーダを持つ高度なSRアーキテクチャの利点をさらに活用することができる。 表現学習とオブジェクト検出の両方を、エンドツーエンドのトレーニング方法で共同で最適化する。 一般的なAERISフレームワークは、様々なバックボーンを持つ様々な主流オブジェクト検出アーキテクチャで実装できる。 提案手法は, 既存手法と比較して, 各種劣化状況に直面する場合に比べて優れた性能を示した。 コードはhttps://github.com/cuiziteng/ECCV_AERISで公開される。

Image restoration algorithms such as super resolution (SR) are indispensable pre-processing modules for object detection in low quality images. Most of these algorithms assume the degradation is fixed and known a priori. However, in practical, either the real degradation or optimal up-sampling ratio rate is unknown or differs from assumption, leading to a deteriorating performance for both the pre-processing module and the consequent high-level task such as object detection. Here, we propose a novel self-supervised framework to detect objects in degraded low resolution images. We utilizes the downsampling degradation as a kind of transformation for self-supervised signals to explore the equivariant representation against various resolutions and other degradation conditions. The Auto Encoding Resolution in Self-supervision (AERIS) framework could further take the advantage of advanced SR architectures with an arbitrary resolution restoring decoder to reconstruct the original correspondence from the degraded input image. Both the representation learning and object detection are optimized jointly in an end-to-end training fashion. The generic AERIS framework could be implemented on various mainstream object detection architectures with different backbones. The extensive experiments show that our methods has achieved superior performance compared with existing methods when facing variant degradation situations. Code would be released at https://github.com/cuiziteng/ECCV_AERIS.
翻訳日:2022-08-08 12:41:05 公開日:2022-08-05
# instance as identity: ビデオインスタンスセグメンテーションのための汎用オンラインパラダイム

Instance As Identity: A Generic Online Paradigm for Video Instance Segmentation ( http://arxiv.org/abs/2208.03079v1 )

ライセンス: Link先を確認
Feng Zhu and Zongxin Yang and Xin Yu and Yi Yang and Yunchao Wei(参考訳) 統合フレームワークにおける検出と追跡の両方のための時間情報のモデリングは、ビデオインスタンスセグメンテーション(VIS)において有望な解決策であることが証明された。 しかし、時間的情報をオンラインモデルに効果的に組み込む方法は未解決の問題である。 本研究では,検出と追跡の両方の時間情報を効率的にモデル化する,インスタンス・アズ・アイデンティティ(IAI)という新しいオンラインVISパラダイムを提案する。 詳しくは、新しい識別モジュールを使用して、トラッキングインスタンスの識別番号を明示的に予測する。 時間情報クロスフレームを渡すために、IAIは現在の特徴と過去の埋め込みを組み合わせたアソシエーションモジュールを利用する。 特に、IAIは異なる画像モデルに統合できる。 3つのVISベンチマークで広範な実験を行う。 IAIは、YouTube-VIS-2019 (ResNet-101 41.9 mAP) とYouTube-VIS-2021 (ResNet-50 37.7 mAP) で、全てのオンラインライバルより優れている。 驚くべきことに、より挑戦的なOVISでは、IAIはSOTA性能(20.3 mAP)を達成する。 コードはhttps://github.com/zfonemore/IAIで入手できる。

Modeling temporal information for both detection and tracking in a unified framework has been proved a promising solution to video instance segmentation (VIS). However, how to effectively incorporate the temporal information into an online model remains an open problem. In this work, we propose a new online VIS paradigm named Instance As Identity (IAI), which models temporal information for both detection and tracking in an efficient way. In detail, IAI employs a novel identification module to predict identification number for tracking instances explicitly. For passing temporal information cross frame, IAI utilizes an association module which combines current features and past embeddings. Notably, IAI can be integrated with different image models. We conduct extensive experiments on three VIS benchmarks. IAI outperforms all the online competitors on YouTube-VIS-2019 (ResNet-101 41.9 mAP) and YouTube-VIS-2021 (ResNet-50 37.7 mAP). Surprisingly, on the more challenging OVIS, IAI achieves SOTA performance (20.3 mAP). Code is available at https://github.com/zfonemore/IAI
翻訳日:2022-08-08 12:40:44 公開日:2022-08-05
# mordeephy:fused分類による顔形態検出

MorDeephy: Face Morphing Detection Via Fused Classification ( http://arxiv.org/abs/2208.03110v1 )

ライセンス: Link先を確認
Iurii Medvedev, Farhad Shadmand, Nuno Gon\c{c}alves(参考訳) 顔形態素攻撃検出(MAD)は、近年の顔認識分野における最も困難な課題の1つである。 本研究では, 複雑な分類方式において, 複雑な顔認識タスクとともに, 顔画像の識別を意図した, 単一の顔形態検出のための新しい深層学習手法を提案する。 深層顔の特徴を学習し、これらの特徴の真正性に関する情報を伝達する。 私たちの研究には、パブリックで使いやすい顔形態検出ベンチマークや、ワイルドデータセットフィルタリング戦略の結果など、いくつかのコントリビューションも導入しています。 提案手法はMorDeephyと呼ばれ,その技術性能を達成し,未知のシナリオに変形検出を行うタスクを一般化する顕著な能力を示した。

Face morphing attack detection (MAD) is one of the most challenging tasks in the field of face recognition nowadays. In this work, we introduce a novel deep learning strategy for a single image face morphing detection, which implies the discrimination of morphed face images along with a sophisticated face recognition task in a complex classification scheme. It is directed onto learning the deep facial features, which carry information about the authenticity of these features. Our work also introduces several additional contributions: the public and easy-to-use face morphing detection benchmark and the results of our wild datasets filtering strategy. Our method, which we call MorDeephy, achieved the state of the art performance and demonstrated a prominent ability for generalising the task of morphing detection to unseen scenarios.
翻訳日:2022-08-08 12:40:27 公開日:2022-08-05
# map-independentence を用いたベイズネットワークの動機付け説明

Motivating explanations in Bayesian networks using MAP-independence ( http://arxiv.org/abs/2208.03121v1 )

ライセンス: Link先を確認
Johan Kwisthout(参考訳) 意思決定支援システムでは、システムの診断や分類の動機付けと正当化が、ユーザによるシステム受容に不可欠である。 ベイズネットワークでは、証明変数(一般的にMAP問題として知られる)の観測値を考えると、診断または分類は通常、仮説変数に対する最も確率の高い結合値の割り当ての計算として定式化される。 MAP問題の解決はエビデンスに関する最も確実な説明を与えるが、計算は人間のユーザに関する限りはブラックボックスであり、ユーザが決定を理解し、受け入れるための追加の洞察を与えない。 例えば、ユーザーは、観測されていない変数が説明に潜在的に影響を及ぼすかどうか(上述)、あるいはこの側面で無関係であるかどうかを知りたいかもしれない。 本稿では,この関連性の概念を捉えようとする新しい概念であるmap- independentを紹介し,その役割を最善の説明への推論の正当化に向けて探究する。 この概念に基づき,いくつかの計算問題を定式化し,その計算複雑性を評価する。

In decision support systems the motivation and justification of the system's diagnosis or classification is crucial for the acceptance of the system by the human user. In Bayesian networks a diagnosis or classification is typically formalized as the computation of the most probable joint value assignment to the hypothesis variables, given the observed values of the evidence variables (generally known as the MAP problem). While solving the MAP problem gives the most probable explanation of the evidence, the computation is a black box as far as the human user is concerned and it does not give additional insights that allow the user to appreciate and accept the decision. For example, a user might want to know to whether an unobserved variable could potentially (upon observation) impact the explanation, or whether it is irrelevant in this aspect. In this paper we introduce a new concept, MAP- independence, which tries to capture this notion of relevance, and explore its role towards a potential justification of an inference to the best explanation. We formalize several computational problems based on this concept and assess their computational complexity.
翻訳日:2022-08-08 12:37:22 公開日:2022-08-05
# ドメイン・エンジニアリングによるパラメトリック顔の応用単分子再構成

Applied monocular reconstruction of parametric faces with domain engineering ( http://arxiv.org/abs/2208.02935v1 )

ライセンス: Link先を確認
Igor Borovikov, Karine Levonyan, Jon Rein, Pawel Wrotek, Nitish Victor(参考訳) 現代のオンライン3Dアプリケーションやビデオゲームの多くは、信じられないアバターを作るために人間の顔のパラメトリックモデルに依存している。 しかし, パラメトリックモデルによる顔の表情の再現は困難であり, 時間がかかる。 そのタスクに対する機械学習ソリューションは非常に望ましいが、困難でもある。 本稿では,1つの画像からパラメトリック顔を再構成することを目的とした,いわゆるF2P問題に対する新しいアプローチを提案する。 提案手法は合成データ,ドメイン分解,ドメイン適応を利用してF2Pの解法における多面的課題に対処する。 オープンソースのコードベースは、重要な観察結果を示し、定量的評価の手段を提供します。 提案したアプローチは、産業アプリケーションにおいて実用的であり、精度を改善し、より効率的なモデルトレーニングを可能にする。 この技術は、他のタイプのパラメトリックモデルにも拡張できる可能性がある。

Many modern online 3D applications and videogames rely on parametric models of human faces for creating believable avatars. However, manual reproduction of someone's facial likeness with a parametric model is difficult and time-consuming. Machine Learning solution for that task is highly desirable but is also challenging. The paper proposes a novel approach to the so-called Face-to-Parameters problem (F2P for short), aiming to reconstruct a parametric face from a single image. The proposed method utilizes synthetic data, domain decomposition, and domain adaptation for addressing multifaceted challenges in solving the F2P. The open-sourced codebase illustrates our key observations and provides means for quantitative evaluation. The presented approach proves practical in an industrial application; it improves accuracy and allows for more efficient models training. The techniques have the potential to extend to other types of parametric models.
翻訳日:2022-08-08 12:35:16 公開日:2022-08-05
# マルチソースドメイン適応のための共同注意駆動型ドメイン融合と耐雑音学習

Joint Attention-Driven Domain Fusion and Noise-Tolerant Learning for Multi-Source Domain Adaptation ( http://arxiv.org/abs/2208.02947v1 )

ライセンス: Link先を確認
Tong Xu, Wu Ning, Chunyan Lyu, and Kejun Wang(参考訳) データの効率的な利用に関する研究として,ラベル付きデータを含む複数のソースドメインからの知識をラベル付きターゲットドメインに転送する。 しかし、異なるドメインとターゲットドメイン内のノイズの多い擬似ラベルの分布の不一致は、マルチソース非教師付きドメイン適応法のパフォーマンスボトルネックにつながる。 そこで本稿では,意識駆動型ドメイン融合と雑音耐性学習(ADNT)を統合し,上記の2つの問題に対処するアプローチを提案する。 まず、特徴間のメッセージパッシングを行い、ドメインの動きを誘導するための反対の注意構造を確立する。 このアプローチにより、ドメインの相違が小さくなる間、特徴の判別性も大幅に改善される。 次に,教師なし領域適応トレーニングの特性に基づいて,擬似ラベル生成に直接制約を課す適応型逆クロスエントロピー損失を設計する。 最後に,これらの2つの手法を組み合わせることで,提案したADNTの有効性をさらに検証し,最先端手法よりも優れた性能を示す。

As a study on the efficient usage of data, Multi-source Unsupervised Domain Adaptation transfers knowledge from multiple source domains with labeled data to an unlabeled target domain. However, the distribution discrepancy between different domains and the noisy pseudo-labels in the target domain both lead to performance bottlenecks of the Multi-source Unsupervised Domain Adaptation methods. In light of this, we propose an approach that integrates Attention-driven Domain fusion and Noise-Tolerant learning (ADNT) to address the two issues mentioned above. Firstly, we establish a contrary attention structure to perform message passing between features and to induce domain movement. Through this approach, the discriminability of the features can also be significantly improved while the domain discrepancy is reduced. Secondly, based on the characteristics of the unsupervised domain adaptation training, we design an Adaptive Reverse Cross Entropy loss, which can directly impose constraints on the generation of pseudo-labels. Finally, combining these two approaches, experimental results on several benchmarks further validate the effectiveness of our proposed ADNT and demonstrate superior performance over the state-of-the-art methods.
翻訳日:2022-08-08 12:35:06 公開日:2022-08-05
# 夜間熱赤外画像色化のための記憶誘導協調注意

Memory-Guided Collaborative Attention for Nighttime Thermal Infrared Image Colorization ( http://arxiv.org/abs/2208.02960v1 )

ライセンス: Link先を確認
Fu-Ya Luo, Yi-Jun Cao, Kai-Fu Yang, and Yong-Jie Li(参考訳) NTIR(Nighttime thermal Infrared)画像のカラー化(NTIR)は、NTIRイメージを昼間のカラー画像(NTIR2DC)に変換することで、不都合な条件下での人間やインテリジェントシステムに対する夜間シーンの認識を容易にする、有望な研究方向である。 しかし, 従来開発された手法では, 小クラスでは色付け性能が低かった。 さらに、擬似ラベルの高信頼ノイズの低減や、翻訳中の画像勾配の消失問題への対処も未検討であり、翻訳中にエッジが歪むことを防ぐことも困難である。 上記の課題に対処するため,記憶誘導型cOllaboRative atteNtion Generative Adversarial Network (MornGAN) と呼ばれる新しい学習フレームワークを提案する。 具体的には、記憶誘導型サンプル選択戦略と適応的協調的注意損失を考案し、小さなサンプルカテゴリのセマンティックな保存を強化する。 さらに,NTIR画像の擬似ラベルをマイニングし,精錬するためのオンラインセマンティック蒸留モジュールを提案する。 さらに、翻訳中のエッジ歪みを低減するために条件勾配補修損失を導入する。 NTIR2DCタスクにおける広範囲な実験により,提案したMornGANは,意味的保存とエッジ整合性の観点から他の画像間翻訳法よりも優れており,オブジェクト検出精度が著しく向上することが示された。

Nighttime thermal infrared (NTIR) image colorization, also known as translation of NTIR images into daytime color images (NTIR2DC), is a promising research direction to facilitate nighttime scene perception for humans and intelligent systems under unfavorable conditions (e.g., complete darkness). However, previously developed methods have poor colorization performance for small sample classes. Moreover, reducing the high confidence noise in pseudo-labels and addressing the problem of image gradient disappearance during translation are still under-explored, and keeping edges from being distorted during translation is also challenging. To address the aforementioned issues, we propose a novel learning framework called Memory-guided cOllaboRative atteNtion Generative Adversarial Network (MornGAN), which is inspired by the analogical reasoning mechanisms of humans. Specifically, a memory-guided sample selection strategy and adaptive collaborative attention loss are devised to enhance the semantic preservation of small sample categories. In addition, we propose an online semantic distillation module to mine and refine the pseudo-labels of NTIR images. Further, conditional gradient repair loss is introduced for reducing edge distortion during translation. Extensive experiments on the NTIR2DC task show that the proposed MornGAN significantly outperforms other image-to-image translation methods in terms of semantic preservation and edge consistency, which helps improve the object detection accuracy remarkably.
翻訳日:2022-08-08 12:34:50 公開日:2022-08-05
# オープンチェックアウトフリー食料品のための効率的な人物クラスタリングアルゴリズム

An Efficient Person Clustering Algorithm for Open Checkout-free Groceries ( http://arxiv.org/abs/2208.02973v1 )

ライセンス: Link先を確認
Junde Wu, Yu Zhang, Rao Fu, Yuanpei Liu, Jing Gao(参考訳) オープンチェックアウトなしの食料品店は、顧客がチェックアウトするために並んで待つ必要がない食料品店です。 このようなシステムの開発は、人々のダイナミックで大規模なフローを認識するという課題に直面しているため、簡単ではない。 特に、システムには、各スナップショットを対応する顧客に効率的に割り当てることができるクラスタリング手法が不可欠である。 オープンチェックアウトフリー食料品におけるユニークな課題に対処するために,効率的かつ効果的な人的クラスタリング手法を提案する。 具体的には,大規模データストリームと連続データストリームの関係をローカライズするために,まずクラウドサブグラフ(CSG)を提案する。 CSGは提案したPick-Link-Weight (PLW) 戦略によって構築され、これは時間空間情報に基づいてノードを \textbf{picks} 、軌跡情報を介してノードを \textbf{links} 、提案されたvon Mises-Fisher (vMF) の類似度メトリックによるリンクを \textbf{weighs} とする。 次に,本手法が動的で見えない人の流れに適応することを保証するため,CSGのインスタンスを正確にクラスタ化するための単純なNearest Neighbor(NN)戦略を用いたグラフ畳み込みネットワーク(GCN)を提案する。 gcnは機能を低次元の分離可能な空間に投影するために採用されており、nnはダイナミックな人フローでこの空間の結果を素早く生成することができる。 実験の結果,提案手法が他のアルゴリズムよりも優れていることがわかった。 実際には、システム全体が実装され、いくつかの現実世界のオープンチェックアウトフリー食料品にデプロイされている。

Open checkout-free grocery is the grocery store where the customers never have to wait in line to check out. Developing a system like this is not trivial since it faces challenges of recognizing the dynamic and massive flow of people. In particular, a clustering method that can efficiently assign each snapshot to the corresponding customer is essential for the system. In order to address the unique challenges in the open checkout-free grocery, we propose an efficient and effective person clustering method. Specifically, we first propose a Crowded Sub-Graph (CSG) to localize the relationship among massive and continuous data streams. CSG is constructed by the proposed Pick-Link-Weight (PLW) strategy, which \textbf{picks} the nodes based on time-space information, \textbf{links} the nodes via trajectory information, and \textbf{weighs} the links by the proposed von Mises-Fisher (vMF) similarity metric. Then, to ensure that the method adapts to the dynamic and unseen person flow, we propose Graph Convolutional Network (GCN) with a simple Nearest Neighbor (NN) strategy to accurately cluster the instances of CSG. GCN is adopted to project the features into low-dimensional separable space, and NN is able to quickly produce a result in this space upon dynamic person flow. The experimental results show that the proposed method outperforms other alternative algorithms in this scenario. In practice, the whole system has been implemented and deployed in several real-world open checkout-free groceries.
翻訳日:2022-08-08 12:34:21 公開日:2022-08-05
# バイリンガル辞書とn-gramデータを用いたフレーズ翻訳:ベトナム語から英語への事例研究

Phrase translation using a bilingual dictionary and n-gram data: A case study from Vietnamese to English ( http://arxiv.org/abs/2208.03018v1 )

ライセンス: Link先を確認
Khang Nhut Lam, Feras Al Tarouti and Jugal Kalita(参考訳) 言語L1のフレーズを辞書ベースのアプローチで言語L2に翻訳するには、初期翻訳を再構築する文法規則が必要である。 本稿では,辞書に存在しないL1句をL2に翻訳するために,文法規則を使わずに新しい手法を提案する。 少なくとも1つのL1-L2バイリンガル辞書とn-gramデータが必要である。 我々の翻訳の平均手動評価スコアは4.29/5.00であり、非常に高品質である。

Past approaches to translate a phrase in a language L1 to a language L2 using a dictionary-based approach require grammar rules to restructure initial translations. This paper introduces a novel method without using any grammar rules to translate a given phrase in L1, which does not exist in the dictionary, to L2. We require at least one L1-L2 bilingual dictionary and n-gram data in L2. The average manual evaluation score of our translations is 4.29/5.00, which implies very high quality.
翻訳日:2022-08-08 12:32:13 公開日:2022-08-05
# オープンドメイン質問応答のための低リソース密度検索:総合調査

Low-Resource Dense Retrieval for Open-Domain Question Answering: A Comprehensive Survey ( http://arxiv.org/abs/2208.03197v1 )

ライセンス: Link先を確認
Xiaoyu Shen, Svitlana Vakulenko, Marco del Tredici, Gianni Barlacchi, Bill Byrne and Adri\`a de Gispert(参考訳) 強力な事前学習言語モデル (PLM) に基づくDense Search (DR) アプローチは大きな進歩を遂げ、現代のオープンドメイン問合せシステムにおいて重要な要素となっている。 しかし、競争的に実行するには大量の手動アノテーションが必要であり、スケールすることは不可能である。 これに対処するため、最近の研究は低リソースのシナリオでdrのパフォーマンスを改善することに注力している。 これらの作業は、トレーニングに必要なリソースが異なるため、さまざまなテクニックが採用されている。 このような違いを理解することは、特定の低リソースシナリオの下で適切なテクニックを選択するために重要です。 この理解を容易にするために、我々は、低リソースDRの主流技術の概要を網羅的に構築し、必要なリソースに基づいて、(1)文書のみが必要であること、(2)文書と質問が必要であること、(3)文書と質問対が必要であること、の3つの主要なカテゴリに分けられる。 いずれの手法にも汎用アルゴリズムを導入し、オープンな問題と長所と短所を強調する。 今後の研究の方向性について概説する。

Dense retrieval (DR) approaches based on powerful pre-trained language models (PLMs) achieved significant advances and have become a key component for modern open-domain question-answering systems. However, they require large amounts of manual annotations to perform competitively, which is infeasible to scale. To address this, a growing body of research works have recently focused on improving DR performance under low-resource scenarios. These works differ in what resources they require for training and employ a diverse set of techniques. Understanding such differences is crucial for choosing the right technique under a specific low-resource scenario. To facilitate this understanding, we provide a thorough structured overview of mainstream techniques for low-resource DR. Based on their required resources, we divide the techniques into three main categories: (1) only documents are needed; (2) documents and questions are needed; and (3) documents and question-answer pairs are needed. For every technique, we introduce its general-form algorithm, highlight the open issues and pros and cons. Promising directions are outlined for future research.
翻訳日:2022-08-08 12:32:05 公開日:2022-08-05
# 英語検索コーパスの構築と事前学習型言語モデルによるテスト

Construction of English Resume Corpus and Test with Pre-trained Language Models ( http://arxiv.org/abs/2208.03219v1 )

ライセンス: Link先を確認
Chengguang Gan, Tatsunori Mori(参考訳) 情報抽出(IE)は常にNLPの重要なタスクの1つです。 さらに、情報抽出の最も重要な応用シナリオの1つは履歴書の情報抽出である。 履歴書の各部分を分類して構成テキストを得る。 これらのテキストを後続の検索と分析のために保存することは便利である。 さらに、構築された履歴データもAI履歴スクリーニングシステムで使用できる。 hrの労働コストを大幅に削減する。 本研究では,履歴書の情報抽出タスクを簡単な文分類タスクに変換することを目的とする。 先行研究によって得られた英語の履歴データセットに基づく。 分類規則は、履歴書のより大きくよりきめ細かい分類データセットを作成するために改善される。 This corpus is also used to test some current mainstream Pre-training language models (PLMs) performance.Furthermore, in order to explore the relationship between the number of training samples and the correctness rate of the resume dataset, we also performed comparison experiments with training sets of different train set sizes.The final multiple experimental results show that the resume dataset with improved annotation rules and increased sample size of the dataset improves the accuracy of the original resume dataset.

Information extraction(IE) has always been one of the essential tasks of NLP. Moreover, one of the most critical application scenarios of information extraction is the information extraction of resumes. Constructed text is obtained by classifying each part of the resume. It is convenient to store these texts for later search and analysis. Furthermore, the constructed resume data can also be used in the AI resume screening system. Significantly reduce the labor cost of HR. This study aims to transform the information extraction task of resumes into a simple sentence classification task. Based on the English resume dataset produced by the prior study. The classification rules are improved to create a larger and more fine-grained classification dataset of resumes. This corpus is also used to test some current mainstream Pre-training language models (PLMs) performance.Furthermore, in order to explore the relationship between the number of training samples and the correctness rate of the resume dataset, we also performed comparison experiments with training sets of different train set sizes.The final multiple experimental results show that the resume dataset with improved annotation rules and increased sample size of the dataset improves the accuracy of the original resume dataset.
翻訳日:2022-08-08 12:31:45 公開日:2022-08-05
# Unified Schema Promptによるタスク一般化の改善

Improving Task Generalization via Unified Schema Prompt ( http://arxiv.org/abs/2208.03229v1 )

ライセンス: Link先を確認
Wanjun Zhong, Yifan Gao, Ning Ding, Zhiyuan Liu, Ming Zhou, Jiahai Wang, Jian Yin, Nan Duan(参考訳) タスクの一般化は自然言語処理(NLP)における長年の課題である。 近年,NLPタスクを人間の読みやすい入力形式にマッピングすることで,事前学習言語モデルのタスク一般化能力の向上が試みられている。 しかし、これらのアプローチには、手間と柔軟性のないプロンプトの手動コレクションが必要であり、同じ下流タスクで異なるプロンプトが不安定なパフォーマンスを受ける可能性がある。 タスク入力スキーマに従って各タスクの学習可能なプロンプトを自動的にカスタマイズする,フレキシブルで拡張可能なプロンプト手法であるunified schema promptを提案する。 異なるタスクスキーマの特性を維持しながら、タスク間の共有知識をモデル化し、タスクの一般化能力を高める。 スキーマプロンプトは各タスクの明示的なデータ構造を使ってプロンプトを定式化し、人間の労力がほとんどかからないようにします。 大規模なスキーマプロンプトのタスク一般化能力をテストするため,多種多様なNLPタスクに対して,スキーマプロンプトに基づくマルチタスク事前学習を行う。 このフレームワークは、8つのタスクタイプ(QA、NLIなど)から16のダウンストリームタスクに対して、強力なゼロショットと数ショットの一般化性能を達成する。 さらに、包括的な分析により、スキーマプロンプトにおける各コンポーネントの有効性、タスク構成性における柔軟性、およびフルデータ微調整環境での性能向上能力を示す。

Task generalization has been a long standing challenge in Natural Language Processing (NLP). Recent research attempts to improve the task generalization ability of pre-trained language models by mapping NLP tasks into human-readable prompted forms. However, these approaches require laborious and inflexible manual collection of prompts, and different prompts on the same downstream task may receive unstable performance. We propose Unified Schema Prompt, a flexible and extensible prompting method, which automatically customizes the learnable prompts for each task according to the task input schema. It models the shared knowledge between tasks, while keeping the characteristics of different task schema, and thus enhances task generalization ability. The schema prompt takes the explicit data structure of each task to formulate prompts so that little human effort is involved. To test the task generalization ability of schema prompt at scale, we conduct schema prompt-based multitask pre-training on a wide variety of general NLP tasks. The framework achieves strong zero-shot and few-shot generalization performance on 16 unseen downstream tasks from 8 task types (e.g., QA, NLI, etc). Furthermore, comprehensive analyses demonstrate the effectiveness of each component in the schema prompt, its flexibility in task compositionality, and its ability to improve performance under a full-data fine-tuning setting.
翻訳日:2022-08-08 12:31:33 公開日:2022-08-05
# 検索拡張言語モデルによるマイナショット学習

Few-shot Learning with Retrieval Augmented Language Model ( http://arxiv.org/abs/2208.03299v1 )

ライセンス: Link先を確認
Gautier Izacard, Patrick Lewis, Maria Lomeli, Lucas Hosseini, Fabio Petroni, Timo Schick, Jane Yu, Armand Joulin, Sebastian Riedel, Edouard Grave(参考訳) 大規模な言語モデルでは、幅広いタスクで印象的な少ない結果が得られている。 しかし、質問応答や事実チェックなどのタスクのように、知識がこのような結果の鍵となる場合、知識を格納するための膨大なパラメータカウントが必要であると考えられる。 検索された拡張モデルは、多くのパラメータを必要とせずに、知識集約的なタスクに精通することが知られているが、数ショット設定で機能するかどうかは不明である。 本研究では,学習例の少ない知識集約型タスクを学習可能な,注意深く設計された事前学習された検索拡張言語モデルであるatlasを提案する。 我々は,MMLU,KILT,NaturalQuestionsなど幅広いタスクについて評価を行い,文書インデックスの内容の影響について検討し,更新が容易であることを示す。 特に、Atlasは64例だけでNatural Questionsの精度が42\%を超え、パラメータが50倍少ないにもかかわらず、540Bパラメータモデルを3%上回った。

Large language models have shown impressive few-shot results on a wide range of tasks. However, when knowledge is key for such results, as is the case for tasks such as question answering and fact checking, massive parameter counts to store knowledge seem to be needed. Retrieval augmented models are known to excel at knowledge intensive tasks without the need for as many parameters, but it is unclear whether they work in few-shot settings. In this work we present Atlas, a carefully designed and pre-trained retrieval augmented language model able to learn knowledge intensive tasks with very few training examples. We perform evaluations on a wide range of tasks, including MMLU, KILT and NaturalQuestions, and study the impact of the content of the document index, showing that it can easily be updated. Notably, Atlas reaches over 42\% accuracy on Natural Questions using only 64 examples, outperforming a 540B parameters model by 3% despite having 50x fewer parameters.
翻訳日:2022-08-08 12:31:12 公開日:2022-08-05
# Branch-Train-Merge: エキスパート言語モデルの恥ずかしい並列トレーニング

Branch-Train-Merge: Embarrassingly Parallel Training of Expert Language Models ( http://arxiv.org/abs/2208.03306v1 )

ライセンス: Link先を確認
Margaret Li, Suchin Gururangan, Tim Dettmers, Mike Lewis, Tim Althoff, Noah A. Smith, Luke Zettlemoyer(参考訳) 本稿では,大規模言語モデル(LLM)の並列学習を恥ずかしく行う通信効率のアルゴリズムであるブランチ・トレイン・マージ(BTM)を提案する。 我々は、データの異なるサブセット上で、新しいクラスのllmのサブパーツを独立にトレーニングすることができ、現在llmのトレーニングに必要な大量のマルチノード同期を排除できることを示す。 BTMは独立した専門家のLM(ELM)の集合を学び、それぞれが科学や法的なテキストなど、異なるテキスト領域に特化している。 これらのelmは、データカバレッジを更新するために追加および削除したり、新しいドメインに一般化したり、効率的な推論のために平均して単一のlmに戻したりできる。 新しいelmは、現在のセットのelm(mixtures of)から分岐し、新しいドメインのデータでさらにパラメータをトレーニングし、その結果のモデルをセットにマージして、将来の使用のために学習される。 実験により、BTMはトレーニングコストの制御において、GPTスタイルのトランスフォーマーLMに比べて、ドメイン内および外部の難易度が向上することが示された。 広範分析により,これらの結果は異なるEMM初期化方式に対して堅牢であるが,専門領域の専門化が必要であり,乱数分割によるLMアンサンブルはうまく動作しないことがわかった。 また、BTMを64個の領域(合計192Bのホワイトスペース分離トークン)に拡張し、その結果のLM(22.4Bの総パラメータ)と2.5倍の計算量でトレーニングされたTransformer LMを実行する。 これらの向上はドメイン数の増加とともに増大し、将来の作業においてより大きなモデルを効率的にトレーニングするために、より積極的な並列処理が使用されることを示唆する。

We present Branch-Train-Merge (BTM), a communication-efficient algorithm for embarrassingly parallel training of large language models (LLMs). We show it is possible to independently train subparts of a new class of LLMs on different subsets of the data, eliminating the massive multi-node synchronization currently required to train LLMs. BTM learns a set of independent expert LMs (ELMs), each specialized to a different textual domain, such as scientific or legal text. These ELMs can be added and removed to update data coverage, ensembled to generalize to new domains, or averaged to collapse back to a single LM for efficient inference. New ELMs are learned by branching from (mixtures of) ELMs in the current set, further training the parameters on data for the new domain, and then merging the resulting model back into the set for future use. Experiments show that BTM improves in- and out-of-domain perplexities as compared to GPT-style Transformer LMs, when controlling for training cost. Through extensive analysis, we show that these results are robust to different ELM initialization schemes, but require expert domain specialization; LM ensembles with random data splits do not perform well. We also present a study of scaling BTM into a new corpus of 64 domains (192B whitespace-separated tokens in total); the resulting LM (22.4B total parameters) performs as well as a Transformer LM trained with 2.5 times more compute. These gains grow with the number of domains, suggesting more aggressive parallelism could be used to efficiently train larger models in future work.
翻訳日:2022-08-08 12:30:55 公開日:2022-08-05
# 効率的な都市交通最適化のためのASPフレームワーク

An ASP Framework for Efficient Urban Traffic Optimization ( http://arxiv.org/abs/2208.03097v1 )

ライセンス: Link先を確認
Matteo Cardellini (Politecnico di Torino)(参考訳) 都市部における渋滞の回避と交通規制は,都市人口や車両の急速な増加により,近年重要になっている。 渋滞を緩和する手段としての都市交通の効果的な制御は、経済的、環境的、健康的な方法で有益である。 本稿では,数百台の車両を有する大道路網における交通の流れを効率的にシミュレーションし最適化する枠組みを提案する。 このフレームワークは、Answer Set Programming (ASP)エンコーディングを利用して、ネットワーク内の車両の動きを正式に記述する。 ASP とオフザシェルフ解決器 Clingo の最適化制約を指定できる機能を利用して、ネットワーク内の車両の経路を最適化して、関連するメトリクス(例えば、旅行時間や排出)を削減できる。 最後に、最先端のUrban Mobility Simulator(SUMO)を用いて、実世界の交通データの解析を行い、ネットワークの状態を追跡し、ソリューションの正しさを確認し、提示されたソリューションの効率性と能力を証明する。

Avoiding congestion and controlling traffic in urban scenarios is becoming nowadays of paramount importance due to the rapid growth of our cities' population and vehicles. The effective control of urban traffic as a means to mitigate congestion can be beneficial in an economic, environmental and health way. In this paper, a framework which allows to efficiently simulate and optimize traffic flow in a large roads' network with hundreds of vehicles is presented. The framework leverages on an Answer Set Programming (ASP) encoding to formally describe the movements of vehicles inside a network. Taking advantage of the ability to specify optimization constraints in ASP and the off-the-shelf solver Clingo, it is then possible to optimize the routes of vehicles inside the network to reduce a range of relevant metrics (e.g., travel times or emissions). Finally, an analysis on real-world traffic data is performed, utilizing the state-of-the-art Urban Mobility Simulator (SUMO) to keep track of the state of the network, test the correctness of the solution and to prove the efficiency and capabilities of the presented solution.
翻訳日:2022-08-08 12:30:05 公開日:2022-08-05
# スパイクモデルにおける近似メッセージパッシングのための非漸近的枠組み

A Non-Asymptotic Framework for Approximate Message Passing in Spiked Models ( http://arxiv.org/abs/2208.03313v1 )

ライセンス: Link先を確認
Gen Li, Yuting Wei(参考訳) 近似メッセージパッシング(AMP)は高次元統計問題を解くための効果的な反復パラダイムとして現れる。 しかし、前者のAMP理論(主に高次元の漸近論に焦点を当てた)は、反復数が$o\big(\frac{\log n}{\log\log n}\big)$(問題の次元は$n$)を超えると、AMP力学を予測できない。 この問題に対処するため,本論文では,スパイク行列推定におけるampを理解するための非漸近的枠組みを開発した。 AMP更新と制御可能な残差項の新たな分解に基づいて、独立初期化の存在下でのAMPの有限サンプル挙動を特徴付ける解析レシピを配置し、スペクトル初期化を可能にするためにさらに一般化した。 提案する分析方法の2つの具体的な結果として i)$\mathbb{Z}_2$同期を解くとき、最大$O\big(\frac{n}{\mathrm{poly}\log n}\big)$反復に対するスペクトル初期化AMPの挙動を予測し、アルゴリズムがその後の改良段階を必要とせずに成功することを示す(最近 \citet{celentano2021local} によって予想されている)。 (II) 広帯域の信号-雑音比に対して, スパースPCA(スパイクドウィグナーモデル)におけるAMPの非漸近挙動を特徴付ける。

Approximate message passing (AMP) emerges as an effective iterative paradigm for solving high-dimensional statistical problems. However, prior AMP theory -- which focused mostly on high-dimensional asymptotics -- fell short of predicting the AMP dynamics when the number of iterations surpasses $o\big(\frac{\log n}{\log\log n}\big)$ (with $n$ the problem dimension). To address this inadequacy, this paper develops a non-asymptotic framework for understanding AMP in spiked matrix estimation. Built upon new decomposition of AMP updates and controllable residual terms, we lay out an analysis recipe to characterize the finite-sample behavior of AMP in the presence of an independent initialization, which is further generalized to allow for spectral initialization. As two concrete consequences of the proposed analysis recipe: (i) when solving $\mathbb{Z}_2$ synchronization, we predict the behavior of spectrally initialized AMP for up to $O\big(\frac{n}{\mathrm{poly}\log n}\big)$ iterations, showing that the algorithm succeeds without the need of a subsequent refinement stage (as conjectured recently by \citet{celentano2021local}); (ii) we characterize the non-asymptotic behavior of AMP in sparse PCA (in the spiked Wigner model) for a broad range of signal-to-noise ratio.
翻訳日:2022-08-08 12:28:28 公開日:2022-08-05
# ヒントセマンティクスマッチングチャレンジのno.1に向けて: 事前学習された言語モデルerlangshen

Towards No.1 in CLUE Semantic Matching Challenge: Pre-trained Language Model Erlangshen with Propensity-Corrected Loss ( http://arxiv.org/abs/2208.02959v1 )

ライセンス: Link先を確認
Junjie Wang, Yuxiang Zhang, Ping Yang, Ruyi Gan(参考訳) 本報告では,再現性を補正した言語モデルErlangshenのCLUEセマンティックマッチングチャレンジのNo.1について述べる。 事前学習段階において,全単語マスキングを用いたマスク言語モデリング(mlm)の知識に基づく動的マスキング戦略を構築する。 さらに、データセットの特定の構造を観察することにより、事前訓練されたErlangshenは、微調整フェーズでPCL(propensity-corrected loss)を適用する。 総合すると、F1スコアで72.54点、テストセットで78.90点となる。 私たちのコードは、https://github.com/IDEA-CCNL/Fengshenbang-LM/tree/hf-ds/fengshen/examples/clue_simで公開されています。

This report describes a pre-trained language model Erlangshen with propensity-corrected loss, the No.1 in CLUE Semantic Matching Challenge. In the pre-training stage, we construct a dynamic masking strategy based on knowledge in Masked Language Modeling (MLM) with whole word masking. Furthermore, by observing the specific structure of the dataset, the pre-trained Erlangshen applies propensity-corrected loss (PCL) in the fine-tuning phase. Overall, we achieve 72.54 points in F1 Score and 78.90 points in Accuracy on the test set. Our code is publicly available at: https://github.com/IDEA-CCNL/Fengshenbang-LM/tree/hf-ds/fengshen/examples/clue_sim.
翻訳日:2022-08-08 12:27:58 公開日:2022-08-05
# マルチエージェントスパース強化学習のための協調グラフアプローチ

A Cooperation Graph Approach for Multiagent Sparse Reward Reinforcement Learning ( http://arxiv.org/abs/2208.03002v1 )

ライセンス: Link先を確認
Qingxu Fu, Tenghai Qiu, Zhiqiang Pu, Jianqiang Yi, Wanmai Yuan(参考訳) マルチエージェント強化学習(MARL)は複雑な協調作業を解決する。 しかしながら、既存のmarlメソッドの効率性は、明確に定義された報酬関数に大きく依存する。 還元報酬フィードバックの少ないマルチエージェントタスクは、信用分布の問題だけでなく、肯定的な報酬フィードバックを得る可能性が低いため、特に困難である。 本稿では,協調グラフ (CG) と呼ばれるグラフネットワークを設計する。 協調グラフは、エージェントクラスタリングサブグラフ(acg)とクラスタ指定サブグラフ(cdg)の2つの単純な二部グラフの組み合わせである。 次に,この新しいグラフ構造に基づき,分散報酬問題に効率的に対処できる協調グラフマルチエージェント強化学習(cg-marl)アルゴリズムを提案する。 CG-MARLでは、エージェントはCooperation Graphによって直接制御される。 そして、ポリシーニューラルネットワークは、この協力グラフを操作するために訓練され、暗黙の方法で協力を達成するためのエージェントを導く。 このCG-MARLの階層的特徴は、基本的な協調知識を導入するための拡張可能なインターフェースであるカスタマイズされたクラスタアクションのための空間を提供する。 実験では、CG-MARLは、反侵入インターセプションタスクやマルチカーゴ配送タスクを含むスパース報酬マルチエージェントベンチマークにおける最先端性能を示す。

Multiagent reinforcement learning (MARL) can solve complex cooperative tasks. However, the efficiency of existing MARL methods relies heavily on well-defined reward functions. Multiagent tasks with sparse reward feedback are especially challenging not only because of the credit distribution problem, but also due to the low probability of obtaining positive reward feedback. In this paper, we design a graph network called Cooperation Graph (CG). The Cooperation Graph is the combination of two simple bipartite graphs, namely, the Agent Clustering subgraph (ACG) and the Cluster Designating subgraph (CDG). Next, based on this novel graph structure, we propose a Cooperation Graph Multiagent Reinforcement Learning (CG-MARL) algorithm, which can efficiently deal with the sparse reward problem in multiagent tasks. In CG-MARL, agents are directly controlled by the Cooperation Graph. And a policy neural network is trained to manipulate this Cooperation Graph, guiding agents to achieve cooperation in an implicit way. This hierarchical feature of CG-MARL provides space for customized cluster-actions, an extensible interface for introducing fundamental cooperation knowledge. In experiments, CG-MARL shows state-of-the-art performance in sparse reward multiagent benchmarks, including the anti-invasion interception task and the multi-cargo delivery task.
翻訳日:2022-08-08 12:24:07 公開日:2022-08-05
# 無限変量下でのカソーニ式信頼系列

Catoni-style Confidence Sequences under Infinite Variance ( http://arxiv.org/abs/2208.03185v1 )

ライセンス: Link先を確認
Sujay Bhatt and Guanhua Fang and Ping Li and Gennady Samorodnitsky(参考訳) 本稿では,データ生成分布のばらつきが存在しない,あるいは無限であるような設定に対する信頼シーケンスの拡張を提案する。 信頼シーケンスは、任意のデータ依存の停止時間に有効な信頼区間を提供し、自然に幅広いアプリケーションを持つ。 まず,既存の結果のゆるさを強調するために,有限分散の場合のカトーニ型信頼度列の幅に対する下限を設定する。 次に、緩和された有界〜$p^{th}-$momentを持つデータ分布に対する、カトーニスタイルの密接な信頼シーケンスを導出し、ここで、$p \in (1,2]$ であり、有限分散の場合、~$p =2$ の結果を強化する。 得られた結果は,Dubins-Savage不等式を用いて得られた信頼シーケンスよりも優れていた。

In this paper, we provide an extension of confidence sequences for settings where the variance of the data-generating distribution does not exist or is infinite. Confidence sequences furnish confidence intervals that are valid at arbitrary data-dependent stopping times, naturally having a wide range of applications. We first establish a lower bound for the width of the Catoni-style confidence sequences for the finite variance case to highlight the looseness of the existing results. Next, we derive tight Catoni-style confidence sequences for data distributions having a relaxed bounded~$p^{th}-$moment, where~$p \in (1,2]$, and strengthen the results for the finite variance case of~$p =2$. The derived results are shown to better than confidence sequences obtained using Dubins-Savage inequality.
翻訳日:2022-08-08 12:23:46 公開日:2022-08-05
# HEPのためのAIにおける解釈不能な不確実性定量化

Interpretable Uncertainty Quantification in AI for HEP ( http://arxiv.org/abs/2208.03284v1 )

ライセンス: Link先を確認
Thomas Y. Chen, Biprateep Dey, Aishik Ghosh, Michael Kagan, Brian Nord, Nesar Ramachandra(参考訳) 不確実性の推定は、hepにおける科学的測定の実行の中核である: 測定はその不確実性の推定なしでは役に立たない。 不確実性定量化(uq)の目標は「物理的・統計的にこれらの不確実性をどう解釈するか? この質問に対する答えは、我々が実行しようとしている計算タスクだけでなく、そのタスクに使用するメソッドにも依存します。 HEPにおける人工知能(AI)応用には、推論、シミュレーション、制御/決定など、UQの解釈可能な手法が不可欠である領域がいくつかある。 これらの領域にはいくつかの方法が存在するが、それらは現在物理学で使われている伝統的なアプローチほど信頼に値するものではない(例えば、非ai頻度主義やベイズ的手法)。 上記の質問に光を当てるには、AIシステムの相互作用と不確実性定量化のさらなる理解が必要である。 我々は,各領域における既存手法を簡潔に議論し,hepを横断するタスクに関連付ける。 次に、今後10年間にAIとUQを確実に利用するために必要な技術を開発するための道の推奨について議論する。

Estimating uncertainty is at the core of performing scientific measurements in HEP: a measurement is not useful without an estimate of its uncertainty. The goal of uncertainty quantification (UQ) is inextricably linked to the question, "how do we physically and statistically interpret these uncertainties?" The answer to this question depends not only on the computational task we aim to undertake, but also on the methods we use for that task. For artificial intelligence (AI) applications in HEP, there are several areas where interpretable methods for UQ are essential, including inference, simulation, and control/decision-making. There exist some methods for each of these areas, but they have not yet been demonstrated to be as trustworthy as more traditional approaches currently employed in physics (e.g., non-AI frequentist and Bayesian methods). Shedding light on the questions above requires additional understanding of the interplay of AI systems and uncertainty quantification. We briefly discuss the existing methods in each area and relate them to tasks across HEP. We then discuss recommendations for avenues to pursue to develop the necessary techniques for reliable widespread usage of AI with UQ over the next decade.
翻訳日:2022-08-08 12:23:30 公開日:2022-08-05
# 劣化を再考する - AID-SRGANによる超解像

Rethinking Degradation: Radiograph Super-Resolution via AID-SRGAN ( http://arxiv.org/abs/2208.03008v1 )

ライセンス: Link先を確認
Yongsong Huang, Qingzhong Wang, Shinichiro Omachi(参考訳) 本稿では,画像超解像のための医療用 AttentIon Denoising Super Resolution Generative Adversarial Network (AID-SRGAN) を提案する。 まず, 種々の劣化要因を考慮した医療的実用的劣化モデルを提案する。 我々の知る限りでは、これは放射線画像に提案された最初の複合劣化モデルである。 さらに,高分解能(HR)ラジオグラフィを同時に生成できるAID-SRGANを提案する。 このモデルでは,複雑な劣化に対するロバスト性を高めるため,デノージングモジュールに注意機構を導入する。 最後に、SRモジュールは「クリーン」低解像度(LR)ラジオグラフを用いてHRラジオグラフを再構成する。 さらに,モデル学習のための個別結合型トレーニング手法を提案し,提案手法が提案手法よりも優れていることを示す広範な実験を行った。 例えば、提案手法はpsnrを$4 \times$で311.90$で達成し、これは最近の研究であるspsr [16]で得られたものよりも$7.05 \%高い値である。 データセットとコードは、https://github.com/yongsongH/AIDSRGAN-MICCAI2022で利用可能になります。

In this paper, we present a medical AttentIon Denoising Super Resolution Generative Adversarial Network (AID-SRGAN) for diographic image super-resolution. First, we present a medical practical degradation model that considers various degradation factors beyond downsampling. To the best of our knowledge, this is the first composite degradation model proposed for radiographic images. Furthermore, we propose AID-SRGAN, which can simultaneously denoise and generate high-resolution (HR) radiographs. In this model, we introduce an attention mechanism into the denoising module to make it more robust to complicated degradation. Finally, the SR module reconstructs the HR radiographs using the "clean" low-resolution (LR) radiographs. In addition, we propose a separate-joint training approach to train the model, and extensive experiments are conducted to show that the proposed method is superior to its counterparts. e.g., our proposed method achieves $31.90$ of PSNR with a scale factor of $4 \times$, which is $7.05 \%$ higher than that obtained by recent work, SPSR [16]. Our dataset and code will be made available at: https://github.com/yongsongH/AIDSRGAN-MICCAI2022.
翻訳日:2022-08-08 12:22:46 公開日:2022-08-05
# Smooth Population Shifts に対するタスク非依存型連続海馬セグメンテーション

Task-agnostic Continual Hippocampus Segmentation for Smooth Population Shifts ( http://arxiv.org/abs/2208.03206v1 )

ライセンス: Link先を確認
Camila Gonzalez, Amin Ranem, Ahmed Othman and Anirban Mukhopadhyay(参考訳) ほとんどの連続的な学習方法は、タスク境界が明確に定義され、トレーニングやテスト中にタスク識別情報が利用できる設定で検証される。 段階的な人口移動を伴う動的臨床環境に類似したタスク非依存的な環境で,そのような手法がどのように機能するかを考察する。 本稿では,分布外検出と連続学習技術を組み合わせた総合解ODExを提案する。 海馬セグメンテーションの2つのシナリオの検証により,提案手法は可塑性を損なうことなく,早期の作業において確実に性能を維持できることを示した。

Most continual learning methods are validated in settings where task boundaries are clearly defined and task identity information is available during training and testing. We explore how such methods perform in a task-agnostic setting that more closely resembles dynamic clinical environments with gradual population shifts. We propose ODEx, a holistic solution that combines out-of-distribution detection with continual learning techniques. Validation on two scenarios of hippocampus segmentation shows that our proposed method reliably maintains performance on earlier tasks without losing plasticity.
翻訳日:2022-08-08 12:22:29 公開日:2022-08-05
# Covid-19肺病変セグメンテーションにおけるアウト・オブ・ディストリビューション・サイレント障害の検出

Distance-based detection of out-of-distribution silent failures for Covid-19 lung lesion segmentation ( http://arxiv.org/abs/2208.03217v1 )

ライセンス: Link先を確認
Camila Gonzalez, Karol Gotkowski, Moritz Fuchs, Andreas Bucher, Armin Dadras, Ricarda Fischbach, Isabel Kaltenborn and Anirban Mukhopadhyay(参考訳) 胸部CTスキャンにおけるグラウンドガラスの不透明度の自動分離と濃縮は,高資源利用時の放射線技師の負担を軽減する可能性がある。 しかし、深層学習モデルは、オフ・オブ・ディストリビューション(OOD)データに静かに失敗するため、臨床ルーチンには信頼できない。 本稿では,特徴空間におけるマハラノビス距離を利用して,最先端のセグメンテーションパイプラインにシームレスに統合する軽量なOOD検出手法を提案する。 この単純なアプローチは、臨床的に関係のある不確実性定量化を伴う事前訓練されたモデルを拡張することもできる。 胸部CT像の分布変化と2つのMRI像,すなわち海馬と前立腺の分節化について検討した。 提案手法は,全シナリオにわたる遠距離及び近距離OODサンプルを効果的に検出する。

Automatic segmentation of ground glass opacities and consolidations in chest computer tomography (CT) scans can potentially ease the burden of radiologists during times of high resource utilisation. However, deep learning models are not trusted in the clinical routine due to failing silently on out-of-distribution (OOD) data. We propose a lightweight OOD detection method that leverages the Mahalanobis distance in the feature space and seamlessly integrates into state-of-the-art segmentation pipelines. The simple approach can even augment pre-trained models with clinically relevant uncertainty quantification. We validate our method across four chest CT distribution shifts and two magnetic resonance imaging applications, namely segmentation of the hippocampus and the prostate. Our results show that the proposed method effectively detects far- and near-OOD samples across all explored scenarios.
翻訳日:2022-08-08 12:22:18 公開日:2022-08-05
# coper: 連続患者状態知覚装置

COPER: Continuous Patient State Perceiver ( http://arxiv.org/abs/2208.03196v1 )

ライセンス: Link先を確認
Vinod Kumar Chauhan, Anshul Thakur, Odhran O'Donoghue and David A. Clifton(参考訳) 電子健康記録(EHR)では、不規則な時間帯(ITS)は、患者の健康動態、不規則な病院訪問、疾患・条件、訪問ごとに異なるバイタルサインを測定する必要性などによって自然に発生する。 本研究の課題は,コヒーレントな固定次元特徴空間を前提とした機械学習アルゴリズムの学習である。 本稿では,心電図におけるITS対応のために,COPERと呼ばれる新規患者状態パーセンシブモデルを提案する。 coperは知覚モデルと神経常微分方程式(英語版)(odes)の概念を用いて患者状態の連続時間ダイナミクス、すなわち入力空間の連続性と出力空間の連続性を学ぶ。 ニューラルODEは、COPERが通常の時系列を生成して、マルチモーダルな大規模入力を処理する能力を持つPerceiverモデルにフィードするのに役立つ。 提案モデルの性能を評価するために,MIMIC-IIIデータセット上での院内死亡予測タスクを使用し,不規則性を研究する実験を慎重に設計する。 その結果,提案モデルの有効性を実証するベースラインと比較した。

In electronic health records (EHRs), irregular time-series (ITS) occur naturally due to patient health dynamics, reflected by irregular hospital visits, diseases/conditions and the necessity to measure different vitals signs at each visit etc. ITS present challenges in training machine learning algorithms which mostly are built on assumption of coherent fixed dimensional feature space. In this paper, we propose a novel COntinuous patient state PERceiver model, called COPER, to cope with ITS in EHRs. COPER uses Perceiver model and the concept of neural ordinary differential equations (ODEs) to learn the continuous time dynamics of patient state, i.e., continuity of input space and continuity of output space. The neural ODEs help COPER to generate regular time-series to feed to Perceiver model which has the capability to handle multi-modality large-scale inputs. To evaluate the performance of the proposed model, we use in-hospital mortality prediction task on MIMIC-III dataset and carefully design experiments to study irregularity. The results are compared with the baselines which prove the efficacy of the proposed model.
翻訳日:2022-08-08 12:18:40 公開日:2022-08-05
# 尾部への調整:細粒度尾部感度のリスク対策

Tailoring to the Tails: Risk Measures for Fine-Grained Tail Sensitivity ( http://arxiv.org/abs/2208.03066v1 )

ライセンス: Link先を確認
Christian Fr\"ohlich, Robert C. Williamson(参考訳) 予測されるリスク最小化(ERM)は、マシンラーニングシステムの中核にある。 つまり、損失分布に内在するリスクは、その平均値である1つの数値で要約される。 本稿では,ERMの予測演算子を代替し,所望のテール感度を示すリスク対策を構築するための一般的な手法を提案する。 提案手法は,コヒーレントな上限確率に対する1対1の対応性を持つ,所望のテール挙動を持つ参照分布の仕様に依存する。 この上限確率と互換性のある任意のリスク尺度は、基準分布に微調整されたテール感度を示す。 具体例として,機械学習システムの分散ロバスト性向上のためのツールとして,f分割曖昧性集合に基づく分散リスク対策に着目する。 例えば、kullback-leiblerの発散に基づく曖昧性集合が、部分指数確率変数のクラスに複雑に結びついていることを示す。 発散リスク測度と再配置不変バナッハノルムとの関係を詳述する。

Expected risk minimization (ERM) is at the core of machine learning systems. This means that the risk inherent in a loss distribution is summarized using a single number - its average. In this paper, we propose a general approach to construct risk measures which exhibit a desired tail sensitivity and may replace the expectation operator in ERM. Our method relies on the specification of a reference distribution with a desired tail behaviour, which is in a one-to-one correspondence to a coherent upper probability. Any risk measure, which is compatible with this upper probability, displays a tail sensitivity which is finely tuned to the reference distribution. As a concrete example, we focus on divergence risk measures based on f-divergence ambiguity sets, which are a widespread tool used to foster distributional robustness of machine learning systems. For instance, we show how ambiguity sets based on the Kullback-Leibler divergence are intricately tied to the class of subexponential random variables. We elaborate the connection of divergence risk measures and rearrangement invariant Banach norms.
翻訳日:2022-08-08 12:18:20 公開日:2022-08-05
# ロバストな説明可能性のためのパラメータ平均化

Parameter Averaging for Robust Explainability ( http://arxiv.org/abs/2208.03249v1 )

ライセンス: Link先を確認
Talip Ucar, Ehsan Hajiramezanali(参考訳) ニューラルネットワークは初期化に敏感であることが知られている。 ニューラルネットワークに依存する説明方法は、モデルが初期化され、異なるランダムシードで訓練されたとき、説明にバリエーションがあるため、堅牢ではない。 モデル初期化に対する感受性は、医療における疾患診断のような多くの安全上重要な応用において望ましくない。 本稿では,XTab と呼ばれる表型データ設定におけるロバストな説明可能性を考慮したパラメータ平均化手法を提案する。 まず、下流タスクのために異なるランダムなシードを用いて、浅いネットワーク(ローカルマスクとして参照)の複数のインスタンスを初期化し、訓練する。 次に,局所マスクのパラメータを「平均化」することでグローバルマスクモデルを得るとともに,グローバルモデルが全局所マスクの相対的重要性に基づいて特徴をランク付けするために多数項規則を用いていることを示す。 本研究では,様々な実データと合成データについて広範囲な実験を行い,提案手法が特徴選択だけでなく,サブ最適モデルの初期化に敏感でないグローバル特徴量も得ることを実証した。

Neural Networks are known to be sensitive to initialisation. The explanation methods that rely on neural networks are not robust since they can have variations in their explanations when the model is initialized and trained with different random seeds. The sensitivity to model initialisation is not desirable in many safety critical applications such as disease diagnosis in healthcare, in which the explainability might have a significant impact in helping decision making. In this work, we introduce a novel method based on parameter averaging for robust explainability in tabular data setting, referred as XTab. We first initialize and train multiple instances of a shallow network (referred as local masks) with different random seeds for a downstream task. We then obtain a global mask model by "averaging the parameters" of local masks and show that the global model uses the majority rule to rank features based on their relative importance across all local models. We conduct extensive experiments on a variety of real and synthetic datasets, demonstrating that the proposed method can be used for feature selection as well as to obtain the global feature importance that are not sensitive to sub-optimal model initialisation.
翻訳日:2022-08-08 12:18:03 公開日:2022-08-05
# boxshrink:バウンディングボックスからセグメンテーションマスクまで

BoxShrink: From Bounding Boxes to Segmentation Masks ( http://arxiv.org/abs/2208.03142v1 )

ライセンス: Link先を確認
Michael Gr\"oger and Vadim Borisov and Gjergji Kasneci(参考訳) 医療画像コンピューティングコミュニティが直面する課題の1つは、高速で効率的なデータサンプルラベリングである。 セグメンテーションのためのきめ細かいラベルを持つことは、特に高価で時間がかかるため、洗練されたツールを必要とする。 逆に、バウンディングボックスの適用は高速で、きめ細かいラベル付けよりもかなり時間がかかるが、詳細な結果は得られない。 そこで本研究では,BoxShrinkという機械学習モデルをトレーニングすることなく,境界ボックスをセグメント化マスクに高速かつ堅牢に変換する,弱教師付きタスクのための新しいフレームワークを提案する。 提案されたフレームワークは、高速なラベル変換のための2つの変種Srapid-BoxShrinkと、より正確なラベル変換のための堅牢なBoxShrinkで構成されている。 大腸内視鏡画像データセットの入力としてバウンディングボックスアノテーションのみを使用するのに対して,boxshrinkを用いたトレーニングでは,いくつかのモデルで平均4%の改善が見られた。 提案されたフレームワークのコードをオープンソースとして公開しました。

One of the core challenges facing the medical image computing community is fast and efficient data sample labeling. Obtaining fine-grained labels for segmentation is particularly demanding since it is expensive, time-consuming, and requires sophisticated tools. On the contrary, applying bounding boxes is fast and takes significantly less time than fine-grained labeling, but does not produce detailed results. In response, we propose a novel framework for weakly-supervised tasks with the rapid and robust transformation of bounding boxes into segmentation masks without training any machine learning model, coined BoxShrink. The proposed framework comes in two variants - rapid-BoxShrink for fast label transformations, and robust-BoxShrink for more precise label transformations. An average of four percent improvement in IoU is found across several models when being trained using BoxShrink in a weakly-supervised setting, compared to using only bounding box annotations as inputs on a colonoscopy image data set. We open-sourced the code for the proposed framework and published it online.
翻訳日:2022-08-08 12:17:21 公開日:2022-08-05
# 一つの例から3d形状を生成するための学習

Learning to Generate 3D Shapes from a Single Example ( http://arxiv.org/abs/2208.02946v1 )

ライセンス: Link先を確認
Rundi Wu, Changxi Zheng(参考訳) 既存の3次元形状の生成モデルは、通常、大きな3次元データセット(しばしば特定の対象カテゴリ)で訓練される。 本稿では,単一の参照3次元形状のみから学習する深部生成モデルについて検討する。 具体的には,入力形状の幾何学的特徴を空間的範囲にわたって捉えたマルチスケールGANモデルを提案する。 3次元ボリュームの操作によって生じる大きなメモリと計算コストを避けるため、我々は2次元畳み込みのみを必要とする三面ハイブリッド表現の上に生成器を構築した。 我々は、外部の監督や手動のアノテーションを必要とせずに、基準形状のボクセルピラミッドで生成モデルを訓練する。 トレーニングを済ませば、サイズやアスペクト比の異なる、多種多様な高品質な3D形状を生成できる。 結果として得られる形状は、異なるスケールにまたがる変化を示し、同時に基準形状の全体構造を保持する。 定性的かつ定量的な評価を通じて、我々のモデルは様々なタイプの3次元形状を生成できることを実証する。

Existing generative models for 3D shapes are typically trained on a large 3D dataset, often of a specific object category. In this paper, we investigate the deep generative model that learns from only a single reference 3D shape. Specifically, we present a multi-scale GAN-based model designed to capture the input shape's geometric features across a range of spatial scales. To avoid large memory and computational cost induced by operating on the 3D volume, we build our generator atop the tri-plane hybrid representation, which requires only 2D convolutions. We train our generative model on a voxel pyramid of the reference shape, without the need of any external supervision or manual annotation. Once trained, our model can generate diverse and high-quality 3D shapes possibly of different sizes and aspect ratios. The resulting shapes present variations across different scales, and at the same time retain the global structure of the reference shape. Through extensive evaluation, both qualitative and quantitative, we demonstrate that our model can generate 3D shapes of various types.
翻訳日:2022-08-08 12:17:02 公開日:2022-08-05
# 残響推論を用いたニューラルネットワークの検証

Neural Network Verification using Residual Reasoning ( http://arxiv.org/abs/2208.03083v1 )

ライセンス: Link先を確認
Yizhak Yisrael Elboher, Elazar Cohen, Guy Katz(参考訳) ミッションクリティカルなシステムのコンポーネントとしてニューラルネットワークが統合されることで、さまざまな安全性と生存性要件を満足させる必要性が高まっている。 近年,多くの音響・完全検証手法が提案されているが,拡張性に厳しい制約があるのが一般的である。 大規模で複雑なネットワークを検証する代わりに、検証器はより小さなネットワークを構成し、その正しさは元のネットワークの正しさを意味する。 このようなスキームの欠点は、より小さなネットワークの検証が失敗した場合、検証者は、検証対象ネットワークのサイズを増大させる改善ステップを実行し、その後、より小さなネットワークの検証に関する初期の作業である「事実上」新しいネットワークのスクラッチから検証を開始する必要があることである。 本稿では,抽象的ネットワークの検証を行う際に取得した情報を活用する手法である \emph{residual reasoning} を用いて,ニューラルネットワークの抽象的検証の強化を行い,改良されたネットワークの検証を迅速化する。 本手法は,改良されたネットワークが正常に動作することを保証した検索空間の一部に関する情報を検証者が格納し,バグが発見される可能性のある領域に集中できるようにする。 提案手法をマラブー検証器の拡張として実装し,有望な結果を得た。

With the increasing integration of neural networks as components in mission-critical systems, there is an increasing need to ensure that they satisfy various safety and liveness requirements. In recent years, numerous sound and complete verification methods have been proposed towards that end, but these typically suffer from severe scalability limitations. Recent work has proposed enhancing such verification techniques with abstraction-refinement capabilities, which have been shown to boost scalability: instead of verifying a large and complex network, the verifier constructs and then verifies a much smaller network, whose correctness implies the correctness of the original network. A shortcoming of such a scheme is that if verifying the smaller network fails, the verifier needs to perform a refinement step that increases the size of the network being verified, and then start verifying the new network from scratch -- effectively ``wasting'' its earlier work on verifying the smaller network. In this paper, we present an enhancement to abstraction-based verification of neural networks, by using \emph{residual reasoning}: the process of utilizing information acquired when verifying an abstract network, in order to expedite the verification of a refined network. In essence, the method allows the verifier to store information about parts of the search space in which the refined network is guaranteed to behave correctly, and allows it to focus on areas where bugs might be discovered. We implemented our approach as an extension to the Marabou verifier, and obtained promising results.
翻訳日:2022-08-08 12:16:47 公開日:2022-08-05
# 感性分析のためのハイブリッドマルチモーダル特徴抽出, マイニング, 融合

Hybrid Multimodal Feature Extraction, Mining and Fusion for Sentiment Analysis ( http://arxiv.org/abs/2208.03051v1 )

ライセンス: Link先を確認
Jia Li, Ziyang Zhang, Junjie Lang, Yueqi Jiang, Liuwei An, Peng Zou, Yangyang Xu, Sheng Gao, Jie Lin, Chunxiao Fan, Xiao Sun, Meng Wang(参考訳) 本稿では、MuSe-Humor, MuSe-Reaction, MuSe-Stress Sub-challengesを含むマルチモーダル感性分析チャレンジ(MuSe)2022のソリューションを提案する。 MuSe 2022はユーモアの検出、感情反応、さまざまなモダリティとデータセットを活用するマルチモーダルな感情ストレスに焦点を当てている。 本研究では,音響,視覚,テキスト,生物学的特徴を含む多様なマルチモーダル特徴を抽出した。 これらの機能はTEMMAとGRUによって自己保持機構フレームワークで融合されている。 この論文では 1) 新しい音声特徴,表情特徴,段落レベルのテキスト埋め込みを抽出し,精度の向上を図る。 2)マルチモーダル特徴をマイニングし混合することにより,マルチモーダル感情予測の精度と信頼性を大幅に向上させる。 3) 効果的なデータ拡張戦略をモデル学習に適用し, サンプル不均衡の問題を軽減し, モデルフォーム学習対象文字の偏りを防止する。 MuSe-Humorサブチャレンジでは、AUCスコアが0.8932である。 MuSe-Reactionサブチャレンジでは、テストセットに対する我々のアプローチの相関係数は0.3879であり、他のすべての参加者より優れている。 muse-stress sub-challengeでは、テストデータセットのベースラインをarousalとvalenceの両方で上回り、0.5151という最終結果に達した。

In this paper, we present our solutions for the Multimodal Sentiment Analysis Challenge (MuSe) 2022, which includes MuSe-Humor, MuSe-Reaction and MuSe-Stress Sub-challenges. The MuSe 2022 focuses on humor detection, emotional reactions and multimodal emotional stress utilising different modalities and data sets. In our work, different kinds of multimodal features are extracted, including acoustic, visual, text and biological features. These features are fused by TEMMA and GRU with self-attention mechanism frameworks. In this paper, 1) several new audio features, facial expression features and paragraph-level text embeddings are extracted for accuracy improvement. 2) we substantially improve the accuracy and reliability for multimodal sentiment prediction by mining and blending the multimodal features. 3) effective data augmentation strategies are applied in model training to alleviate the problem of sample imbalance and prevent the model form learning biased subject characters. For the MuSe-Humor sub-challenge, our model obtains the AUC score of 0.8932. For the MuSe-Reaction sub-challenge, the Pearson's Correlations Coefficient of our approach on the test set is 0.3879, which outperforms all other participants. For the MuSe-Stress sub-challenge, our approach outperforms the baseline in both arousal and valence on the test dataset, reaching a final combined result of 0.5151.
翻訳日:2022-08-08 12:16:25 公開日:2022-08-05
# 大言語モデルにおける参照なしの意味

Meaning without reference in large language models ( http://arxiv.org/abs/2208.02957v1 )

ライセンス: Link先を確認
Steven T. Piantasodi and Felix Hill(参考訳) 大きな言語モデル(LLM)の成功は、それらが人間の概念や意味のようなものを持っていることに懐疑的だ。 LLMには何の意味も持たないという主張とは対照的に、意味の重要な側面を捉えている可能性があり、その上、意味が概念的な役割から生じる人間の認知の説得力のある説明を近似する作業を行っている。 概念的な役割は内部表現状態間の関係によって定義されるため、意味はモデルのアーキテクチャ、トレーニングデータ、客観的関数から決定することはできないが、内部状態が相互にどう関係しているかを調べることによってのみ決定される。 このアプローチは、LCMがなぜ、どのように成功しているかを明確にし、どのようにしてより人間らしくできるかを示唆する。

The widespread success of large language models (LLMs) has been met with skepticism that they possess anything like human concepts or meanings. Contrary to claims that LLMs possess no meaning whatsoever, we argue that they likely capture important aspects of meaning, and moreover work in a way that approximates a compelling account of human cognition in which meaning arises from conceptual role. Because conceptual role is defined by the relationships between internal representational states, meaning cannot be determined from a model's architecture, training data, or objective function, but only by examination of how its internal states relate to each other. This approach may clarify why and how LLMs are so successful and suggest how they can be made more human-like.
翻訳日:2022-08-08 12:13:15 公開日:2022-08-05
# BlenderBot 3: 責任を負うことを継続的に学習する会話エージェント

BlenderBot 3: a deployed conversational agent that continually learns to responsibly engage ( http://arxiv.org/abs/2208.03188v1 )

ライセンス: Link先を確認
Kurt Shuster, Jing Xu, Mojtaba Komeili, Da Ju, Eric Michael Smith, Stephen Roller, Megan Ung, Moya Chen, Kushal Arora, Joshua Lane, Morteza Behrooz, William Ngan, Spencer Poff, Naman Goyal, Arthur Szlam, Y-Lan Boureau, Melanie Kambadur, Jason Weston(参考訳) 本稿では,BlenderBot 3を提案する。BlenderBot 3は175Bのパラメータ対話モデルで,インターネットへのアクセスと長期記憶によるオープンドメイン会話が可能で,多数のユーザ定義タスクでトレーニングされている。 モデルウェイトとコードの両方をリリースし、また、オーガニックユーザと対話するために、モデルを公開Webページにデプロイしました。 この技術レポートでは、モデルがどのように構築されたか(アーキテクチャ、モデル、トレーニングスキーム)と、安全メカニズムを含むその展開の詳細を記述している。 人間による評価は、前任者(Roller et al., 2021; Komeili et al., 2022)を含む既存のオープンドメイン対話エージェントよりも優れていることを示している。 最後に、デプロイから収集したデータを使用した継続的学習の計画について詳述します。 この研究プログラムの目的は、コミュニティが対話を通じて学習する責任あるエージェントを継続的に研究できるようにすることである。

We present BlenderBot 3, a 175B parameter dialogue model capable of open-domain conversation with access to the internet and a long-term memory, and having been trained on a large number of user defined tasks. We release both the model weights and code, and have also deployed the model on a public web page to interact with organic users. This technical report describes how the model was built (architecture, model and training scheme), and details of its deployment, including safety mechanisms. Human evaluations show its superiority to existing open-domain dialogue agents, including its predecessors (Roller et al., 2021; Komeili et al., 2022). Finally, we detail our plan for continual learning using the data collected from deployment, which will also be publicly released. The goal of this research program is thus to enable the community to study ever-improving responsible agents that learn through interaction.
翻訳日:2022-08-08 12:13:02 公開日:2022-08-05
# 展開後の新しいスキルを学ぶ:人間のフィードバックによるオープンドメインのインターネット駆動対話の改善

Learning New Skills after Deployment: Improving open-domain internet-driven dialogue with human feedback ( http://arxiv.org/abs/2208.03270v1 )

ライセンス: Link先を確認
Jing Xu, Megan Ung, Mojtaba Komeili, Kushal Arora, Y-Lan Boureau, Jason Weston(参考訳) 静的データセットを模倣するように訓練された凍結モデルは、パフォーマンスを決して改善しない。 最新の情報にインターネット検索を利用でき、展開中に人間からフィードバックを得るモデルは、新しい情報に適応し、パフォーマンスを向上させるという約束を提供する。 本研究では,このような学習フレームワークにおいて,インターネットによる会話能力を改善する方法について検討する。 私たちは、公開している人間のインタラクションのデプロイメントデータを収集し、バイナリ品質の測定、自由形式のテキストフィードバック、失敗のきめ細かい理由など、さまざまな種類の人間のフィードバックを収集します。 次に, 標準教師あり学習, 拒否サンプリング, モデルガイド, 報酬ベース学習など, フィードバックから改善するための様々なアルゴリズムについて検討し, フィードバックとアルゴリズムのどちらが最適かを推薦する。 最近導入されたディレクターモデル(arora et al., '22)は、他の既存のアプローチを大きく改善している。

Frozen models trained to mimic static datasets can never improve their performance. Models that can employ internet-retrieval for up-to-date information and obtain feedback from humans during deployment provide the promise of both adapting to new information, and improving their performance. In this work we study how to improve internet-driven conversational skills in such a learning framework. We collect deployment data, which we make publicly available, of human interactions, and collect various types of human feedback -- including binary quality measurements, free-form text feedback, and fine-grained reasons for failure. We then study various algorithms for improving from such feedback, including standard supervised learning, rejection sampling, model-guiding and reward-based learning, in order to make recommendations on which type of feedback and algorithms work best. We find the recently introduced Director model (Arora et al., '22) shows significant improvements over other existing approaches.
翻訳日:2022-08-08 12:12:44 公開日:2022-08-05
# 混合敵対的非敵対的事例におけるデータからの学習:ヘルパーの発見とトロルの無視

Learning from data in the mixed adversarial non-adversarial case: Finding the helpers and ignoring the trolls ( http://arxiv.org/abs/2208.03295v1 )

ライセンス: Link先を確認
Da Ju, Jing Xu, Y-Lan Boureau, Jason Weston(参考訳) インテリジェントな会話エージェントと人間との相互作用の約束は、モデルがそのようなフィードバックから学び、改善することです。 残念なことに、このようなやりとりは必ずしも良心的あるいは高品質な人間の発声を伴わないため、エンゲージメント(helpers)と非エンゲージメント(unengaged)あるいは悪意のあるユーザ(trolls)の混在も伴う。 本研究では,このような環境で頑健な学習を行う方法について検討する。 そこで我々は, 安全性と有害な言語について, 様々な条件下で評価し, その堅牢性を検証できるベンチマーク評価, SafetyMixを提案する。 本稿では,実例でもユーザレベルでもトロルを識別する緩和学習アルゴリズムを提案し,分析する。 主な発見は、トロールユーザーが複数の例にまたがって敵対行動を示すことを考慮し、ベンチマーク上の様々な設定で最もうまく機能するユーザベースの手法である。 次にこれらのメソッドを、デプロイ中に収集された会話の、さらに実際の設定でテストします。

The promise of interaction between intelligent conversational agents and humans is that models can learn from such feedback in order to improve. Unfortunately, such exchanges in the wild will not always involve human utterances that are benign or of high quality, and will include a mixture of engaged (helpers) and unengaged or even malicious users (trolls). In this work we study how to perform robust learning in such an environment. We introduce a benchmark evaluation, SafetyMix, which can evaluate methods that learn safe vs. toxic language in a variety of adversarial settings to test their robustness. We propose and analyze several mitigating learning algorithms that identify trolls either at the example or at the user level. Our main finding is that user-based methods, that take into account that troll users will exhibit adversarial behavior across multiple examples, work best in a variety of settings on our benchmark. We then test these methods in a further real-life setting of conversations collected during deployment, with similar results.
翻訳日:2022-08-08 12:12:28 公開日:2022-08-05
# chiqa: マルチモーダル理解のための大規模イメージベース実世界質問応答データセット

ChiQA: A Large Scale Image-based Real-World Question Answering Dataset for Multi-Modal Understanding ( http://arxiv.org/abs/2208.03030v1 )

ライセンス: Link先を確認
Bingning Wang, Feiyang Lv, Ting Yao, Yiming Yuan, Jin Ma, Yu Luo and Haijin Liang(参考訳) 視覚的質問応答は、自然言語と視覚理解の両方において重要なタスクである。 しかしながら、VQAやCLEVRなどの一般の視覚的質問応答データセットでは、「彼女の目は何色か?」など、与えられた画像に特有の人間が生成する。 人間が生成したクラウドソーシングの質問は比較的単純で、特定の実体や属性に対する偏見を持つこともある。 本稿では,Image-ChiQAに基づく質問応答データセットを提案する。 インターネットユーザが発行する現実世界のクエリと、関連するいくつかのオープンドメインイメージが含まれている。 システムは、画像が質問に答えられるかどうかを判断する必要がある。 以前のVQAデータセットとは異なり、質問は現実のイメージに依存しないクエリで、より多様で偏りがない。 以前のイメージリトライバルやイメージキャプチャデータセットと比較すると、chiqaは関連性を測定するだけでなく、より詳細なビジョンと言語推論を要求する応答性を測定する。 ChiQAには40万以上の質問と200万以上の質問イメージが含まれている。 3レベル2/1/0ラベルは、完全回答、部分回答、無関係を示す各ペアに割り当てられる。 データ分析によると、ChiQAは接地、比較、読みなど、言語と視覚の両方を深く理解する必要がある。 ALBEFのような最先端のビジュアル言語モデルを評価し,ChiQAの改善の余地がまだ大きいことを示す。

Visual question answering is an important task in both natural language and vision understanding. However, in most of the public visual question answering datasets such as VQA, CLEVR, the questions are human generated that specific to the given image, such as `What color are her eyes?'. The human generated crowdsourcing questions are relatively simple and sometimes have the bias toward certain entities or attributes. In this paper, we introduce a new question answering dataset based on image-ChiQA. It contains the real-world queries issued by internet users, combined with several related open-domain images. The system should determine whether the image could answer the question or not. Different from previous VQA datasets, the questions are real-world image-independent queries that are more various and unbiased. Compared with previous image-retrieval or image-caption datasets, the ChiQA not only measures the relatedness but also measures the answerability, which demands more fine-grained vision and language reasoning. ChiQA contains more than 40K questions and more than 200K question-images pairs. A three-level 2/1/0 label is assigned to each pair indicating perfect answer, partially answer and irrelevant. Data analysis shows ChiQA requires a deep understanding of both language and vision, including grounding, comparisons, and reading. We evaluate several state-of-the-art visual-language models such as ALBEF, demonstrating that there is still a large room for improvements on ChiQA.
翻訳日:2022-08-08 12:12:03 公開日:2022-08-05
# 局所スパース不完全多視点クラスタリング

Localized Sparse Incomplete Multi-view Clustering ( http://arxiv.org/abs/2208.02998v1 )

ライセンス: Link先を確認
Chengliang Liu, Zhihao Wu, Jie Wen, Chao Huang, Yong Xu(参考訳) 不完全なマルチビュークラスタリングは、部分的なビューを欠いた不完全なマルチビューデータのクラスタリング問題を解決することを目的としており、近年ますます注目を集めている。 多くの手法が開発されているが、ほとんどの手法は不完全なマルチビューデータを任意のビューで柔軟に処理できないか、あるいはビュー間の情報の不均衡の負の要因を考慮しない。 さらに、いくつかの手法はすべての不完全ビューの局所構造を完全には探求していない。 そこで本研究では,LSIMVC(Localized sparse incomplete multi-view clustering)という,単純かつ効果的な手法を提案する。 従来の手法と異なり、LSIMVCは、スパース正規化および新規なグラフ埋め込みマルチビュー行列分解モデルを最適化することにより、不完全なマルチビューデータからスパースおよび構造化されたコンセンサス潜在表現を学習しようとする。 具体的には,このような行列分解に基づく新しいモデルにおいて,l1ノルムに基づくスパース制約を導入し,スパース低次元の個人表現とスパースコンセンサス表現を得る。 さらに、構造化コンセンサス表現を学ぶために、新しい局所グラフ埋め込み用語を導入する。 既存の作業とは異なり、ローカルグラフ埋め込み項はグラフ埋め込みタスクとコンセンサス表現学習タスクを簡潔な用語に集約します。 さらに,不完全多視点学習の不均衡係数を低減するため,LSIMVCに適応重み付き学習方式を導入する。 最後に,提案モデルの最適化問題を解決するための効率的な最適化戦略を提案する。 6つの不完全なマルチビューデータベースで実施した総合的な実験結果から,LSIMVCの性能は最先端のIMC手法よりも優れていることが確認された。 コードはhttps://github.com/justsmart/LSIMVCで入手できる。

Incomplete multi-view clustering, which aims to solve the clustering problem on the incomplete multi-view data with partial view missing, has received more and more attention in recent years. Although numerous methods have been developed, most of the methods either cannot flexibly handle the incomplete multi-view data with arbitrary missing views or do not consider the negative factor of information imbalance among views. Moreover, some methods do not fully explore the local structure of all incomplete views. To tackle these problems, this paper proposes a simple but effective method, named localized sparse incomplete multi-view clustering (LSIMVC). Different from the existing methods, LSIMVC intends to learn a sparse and structured consensus latent representation from the incomplete multi-view data by optimizing a sparse regularized and novel graph embedded multi-view matrix factorization model. Specifically, in such a novel model based on the matrix factorization, a l1 norm based sparse constraint is introduced to obtain the sparse low-dimensional individual representations and the sparse consensus representation. Moreover, a novel local graph embedding term is introduced to learn the structured consensus representation. Different from the existing works, our local graph embedding term aggregates the graph embedding task and consensus representation learning task into a concise term. Furthermore, to reduce the imbalance factor of incomplete multi-view learning, an adaptive weighted learning scheme is introduced to LSIMVC. Finally, an efficient optimization strategy is given to solve the optimization problem of our proposed model. Comprehensive experimental results performed on six incomplete multi-view databases verify that the performance of our LSIMVC is superior to the state-of-the-art IMC approaches. The code is available in https://github.com/justsmart/LSIMVC.
翻訳日:2022-08-08 12:11:44 公開日:2022-08-05
# 畳み込みセンシングに基づく少数ショット欠陥検出手法

Convolutional Ensembling based Few-Shot Defect Detection Technique ( http://arxiv.org/abs/2208.03288v1 )

ライセンス: Link先を確認
Soumyajit Karmakar, Abeer Banerjee, Sanjay Singh(参考訳) 過去数年間で、数発の学習の領域で大幅な改善があった。 この学習パラダイムは,集団不均衡に対処する一般的な課題である異常検出の課題に対して,有望な結果を示した。 本稿では,複数の事前学習された畳み込みモデルの知識ベースを用いて,複数ショットの分類に新たなアプローチを提案する。 本フレームワークでは,パラメータの総数を劇的に削減しつつ,精度を高めるために,新しいアンサンブル手法を用いて,リアルタイム実装を実現する。 電力線欠陥検出データセットを用いて広範にハイパーパラメータ探索を行い、5ウェイ5ショットタスクの精度92.30%を得る。 さらなるチューニングを行なわずに、既存の最先端手法と競合する標準をモデルとして評価し、性能を向上する。

Over the past few years, there has been a significant improvement in the domain of few-shot learning. This learning paradigm has shown promising results for the challenging problem of anomaly detection, where the general task is to deal with heavy class imbalance. Our paper presents a new approach to few-shot classification, where we employ the knowledge-base of multiple pre-trained convolutional models that act as the backbone for our proposed few-shot framework. Our framework uses a novel ensembling technique for boosting the accuracy while drastically decreasing the total parameter count, thus paving the way for real-time implementation. We perform an extensive hyperparameter search using a power-line defect detection dataset and obtain an accuracy of 92.30% for the 5-way 5-shot task. Without further tuning, we evaluate our model on competing standards with the existing state-of-the-art methods and outperform them.
翻訳日:2022-08-08 12:11:13 公開日:2022-08-05
# zlpr:マルチラベル分類のための新しい損失

ZLPR: A Novel Loss for Multi-label Classification ( http://arxiv.org/abs/2208.02955v1 )

ライセンス: Link先を確認
Jianlin Su, Mingren Zhu, Ahmed Murtadha, Shengfeng Pan, Bo Wen, Yunfeng Liu(参考訳) ディープラーニングの時代において、損失関数はモデルやアルゴリズムで利用可能なタスクの範囲を決定する。 マルチラベル分類(MLC)タスクにおけるディープラーニングの適用を支援するため,本稿ではZLPR(ゼロバウンドなlog-sum-exp \&ペアのランクベース)の損失を提案する。 MLCの他のランクベースの損失と比較すると、ZLPRはターゲットラベルの数が不確実であるという問題を補うことができ、この観点では、MLCでよく使われる他の2つの戦略、すなわちバイナリ・レバレンス(BR)とラベル・パワーセット(LP)と同等に機能する。 さらに、ZLPRはラベル間のコラボレーションを考慮しており、BR法よりも包括的である。 計算複雑性の面では、ZLPRはBR法と競合するが、これはその予測がラベルに依存しないためであり、LP法よりも時間とメモリが短いためである。 本実験は、複数のベンチマークデータセットと複数の評価指標に対するZLPRの有効性を示す。 また,ZLPRのソフトバージョンと対応するKL分割計算手法を提案し,ラベルの平滑化などの正規化手法を適用し,モデルの一般化を促進する。

In the era of deep learning, loss functions determine the range of tasks available to models and algorithms. To support the application of deep learning in multi-label classification (MLC) tasks, we propose the ZLPR (zero-bounded log-sum-exp \& pairwise rank-based) loss in this paper. Compared to other rank-based losses for MLC, ZLPR can handel problems that the number of target labels is uncertain, which, in this point of view, makes it equally capable with the other two strategies often used in MLC, namely the binary relevance (BR) and the label powerset (LP). Additionally, ZLPR takes the corelation between labels into consideration, which makes it more comprehensive than the BR methods. In terms of computational complexity, ZLPR can compete with the BR methods because its prediction is also label-independent, which makes it take less time and memory than the LP methods. Our experiments demonstrate the effectiveness of ZLPR on multiple benchmark datasets and multiple evaluation metrics. Moreover, we propose the soft version and the corresponding KL-divergency calculation method of ZLPR, which makes it possible to apply some regularization tricks such as label smoothing to enhance the generalization of models.
翻訳日:2022-08-08 12:10:58 公開日:2022-08-05
# 実世界における望ましくないコンテンツ検出への総合的アプローチ

A Holistic Approach to Undesired Content Detection in the Real World ( http://arxiv.org/abs/2208.03274v1 )

ライセンス: Link先を確認
Todor Markov, Chong Zhang, Sandhini Agarwal, Tyna Eloundou, Teddy Lee, Steven Adler, Angela Jiang, Lilian Weng(参考訳) 実世界のコンテンツモデレーションのための堅牢で有用な自然言語分類システムを構築するための総合的なアプローチを提案する。 このようなシステムの成功は、コンテンツ分類やラベリング命令の設計、データ品質管理、レアイベントをキャプチャするアクティブな学習パイプライン、モデルの堅牢化と過剰フィッティングを回避するためのさまざまな方法など、注意深く設計され実行された一連のステップに依存している。 我々のモデレーションシステムは、性的コンテンツ、憎悪コンテンツ、暴力、自傷行為、ハラスメントなど、望ましくないコンテンツの幅広いカテゴリーを検出するために訓練されている。 このアプローチは、幅広い異なるコンテンツ分類に一般化し、既成モデルを上回る高品質なコンテンツ分類器を作成するのに使用できる。

We present a holistic approach to building a robust and useful natural language classification system for real-world content moderation. The success of such a system relies on a chain of carefully designed and executed steps, including the design of content taxonomies and labeling instructions, data quality control, an active learning pipeline to capture rare events, and a variety of methods to make the model robust and to avoid overfitting. Our moderation system is trained to detect a broad set of categories of undesired content, including sexual content, hateful content, violence, self-harm, and harassment. This approach generalizes to a wide range of different content taxonomies and can be used to create high-quality content classifiers that outperform off-the-shelf models.
翻訳日:2022-08-08 12:10:37 公開日:2022-08-05
# テキスト分類のためのモデルブレンディング

Model Blending for Text Classification ( http://arxiv.org/abs/2208.02819v1 )

ライセンス: Link先を確認
Ramit Pahwa(参考訳) ディープニューラルネットワーク(DNN)は、音声認識や合成、コンピュータビジョン、機械翻訳、ゲームプレイなど、幅広い用途で成功している。 しかし、既存のディープニューラルネットワークモデルは計算コストが高く、メモリ集約的であるため、低メモリリソースのデバイスや厳格なレイテンシ要件のアプリケーションへのデプロイメントを妨げている。 したがって、深層ネットワークにおけるモデル圧縮と加速を、モデル性能を著しく低下させることなく行うことが自然な考え方である。 以下の研究では、テキスト分類などの自然言語タスクにおける art lstm モデルの複雑さを、知識を cnn ベースのモデルに蒸留することで低減し、テスト中の推論時間(または遅延)を削減することを試みる。

Deep neural networks (DNNs) have proven successful in a wide variety of applications such as speech recognition and synthesis, computer vision, machine translation, and game playing, to name but a few. However, existing deep neural network models are computationally expensive and memory intensive, hindering their deployment in devices with low memory resources or in applications with strict latency requirements. Therefore, a natural thought is to perform model compression and acceleration in deep networks without significantly decreasing the model performance, which is what we call reducing the complexity. In the following work, we try reducing the complexity of state of the art LSTM models for natural language tasks such as text classification, by distilling their knowledge to CNN based models, thus reducing the inference time(or latency) during testing.
翻訳日:2022-08-08 12:10:22 公開日:2022-08-05
# データ中毒における致死量推定

Lethal Dose Conjecture on Data Poisoning ( http://arxiv.org/abs/2208.03309v1 )

ライセンス: Link先を確認
Wenxiao Wang, Alexander Levine, Soheil Feizi(参考訳) データ中毒は、悪意のある目的のために機械学習アルゴリズムのトレーニングセットを歪める敵を考える。 本研究では, 致死線量予想 (lethal dose conjecture) と呼ばれるデータ中毒の基礎について, 一つの推測を明らかにした。 正確な予測のために$n$クリーンなトレーニングサンプルが必要な場合、サイズ-$N$トレーニングセットでは、正確性を確保しながら許容できるのは$\Theta(N/n)$有毒なサンプルのみである。 理論的には、この予想を複数のケースで検証する。 また、分布判別を通じてこの予想のより一般的な視点を提供する。 ディープパーティションアグリゲーション(dpa)とその拡張である有限アグリゲーション(fa)は、データ中毒に対する証明可能な防御のための最近のアプローチであり、与えられた学習者を使用してトレーニングセットの異なるサブセットからトレーニングされた多くのベースモデルの多数決を通じて予測する。 この予想は、DPAとFAの両方が(漸近的に)最適であることを意味している。最もデータ効率のよい学習者があれば、データ中毒に対する最も堅牢な防御の1つにすることができる。 これは、データ効率のよい学習者を見つけることによって、中毒に対する防御力を高めるための実践的なアプローチを概説する。 実証実験により, 基本学習者に対して異なるデータ拡張を単純に使用すれば, CIFAR-10 と GTSRB 上での DPA の堅牢性は, 精度を犠牲にすることなく, それぞれ2倍・3倍に向上できることを示す。

Data poisoning considers an adversary that distorts the training set of machine learning algorithms for malicious purposes. In this work, we bring to light one conjecture regarding the fundamentals of data poisoning, which we call the Lethal Dose Conjecture. The conjecture states: If $n$ clean training samples are needed for accurate predictions, then in a size-$N$ training set, only $\Theta(N/n)$ poisoned samples can be tolerated while ensuring accuracy. Theoretically, we verify this conjecture in multiple cases. We also offer a more general perspective of this conjecture through distribution discrimination. Deep Partition Aggregation (DPA) and its extension, Finite Aggregation (FA) are recent approaches for provable defenses against data poisoning, where they predict through the majority vote of many base models trained from different subsets of training set using a given learner. The conjecture implies that both DPA and FA are (asymptotically) optimal -- if we have the most data-efficient learner, they can turn it into one of the most robust defenses against data poisoning. This outlines a practical approach to developing stronger defenses against poisoning via finding data-efficient learners. Empirically, as a proof of concept, we show that by simply using different data augmentations for base learners, we can respectively double and triple the certified robustness of DPA on CIFAR-10 and GTSRB without sacrificing accuracy.
翻訳日:2022-08-08 12:07:25 公開日:2022-08-05
# なぜネットワークは負の重み付けを必要とするのか?

Why Do Networks Need Negative Weights? ( http://arxiv.org/abs/2208.03211v1 )

ライセンス: Link先を確認
Qingyang Wang, Michael A. Powell, Ali Geisa, Eric Bridgeford, Joshua T. Vogelstein(参考訳) なぜネットワークは負の重みを持つのか? その答えは、もっと機能を学ぶことです。 非負の重みを持つディープニューラルネットワークが普遍近似器ではないことを数学的に証明する。 この基本的な結果は、それまでの結果を証明し、その必要性を示すことなく、多くの深層学習文学によって仮定される。

Why do networks have negative weights at all? The answer is: to learn more functions. We mathematically prove that deep neural networks with all non-negative weights are not universal approximators. This fundamental result is assumed by much of the deep learning literature without previously proving the result and demonstrating its necessity.
翻訳日:2022-08-08 12:06:53 公開日:2022-08-05
# エクストリームラーニングマシンを用いた新しい畳み込みニューラルネットワーク:心理学的実践における顔の感情認識

A Novel Enhanced Convolution Neural Network with Extreme Learning Machine: Facial Emotional Recognition in Psychology Practices ( http://arxiv.org/abs/2208.02953v1 )

ライセンス: Link先を確認
Nitesh Banskota, Abeer Alsadoon, P.W.C. Prasad, Ahmed Dawoud, Tarik A. Rashid, Omar Hisham Alsadoon(参考訳) 顔認識は、認知心理学が患者を診断するために使う重要な道具の1つである。 顔と顔の感情認識は、機械学習が優れている分野です。 非拘束環境における顔の感情認識は、照明条件、ポーズ変動、ヨーモーション、オクルージョンなどの異なる環境によるデジタル画像処理においてオープンな課題である。 ディープラーニングアプローチは、画像認識において大幅に改善されている。 しかし、精度と時間は改善する必要がある。 本研究の目的は,CNNEELM(Extreme Learning Machine)で強化された畳み込みニューラルネットワークを用いて,トレーニングセッション中の顔の感情認識精度を改善し,処理時間を短縮することである。 このシステムは、トレーニングセッション中の画像登録の精度を向上させる(CNNEELM)。 さらに,提案したCNNEELMモデルに対して,幸福,悲しみ,嫌悪感,恐怖,驚き,中立感の6つの感情を認識する。 本研究は, 確率的勾配降下法(sgd)を改良することにより, 顔の感情認識の精度が, アートソリューションの状態よりも2%向上することを示す。 Extreme Learning Machine (ELM) 分類器では、処理時間が113msから65msに短縮され、ビデオクリップから20fpsで各フレームをスムーズに分類することができる。 事前トレーニングされたInceptionV3モデルにより、提案されたCNNEELMモデルは、JSFFE、CK+、FER2013式データセットでトレーニングされる。 シミュレーションの結果,精度と処理時間が大幅に向上し,映像解析に適したモデルが得られた。 また,顔画像の処理に要する処理時間が大きいという問題も解決した。

Facial emotional recognition is one of the essential tools used by recognition psychology to diagnose patients. Face and facial emotional recognition are areas where machine learning is excelling. Facial Emotion Recognition in an unconstrained environment is an open challenge for digital image processing due to different environments, such as lighting conditions, pose variation, yaw motion, and occlusions. Deep learning approaches have shown significant improvements in image recognition. However, accuracy and time still need improvements. This research aims to improve facial emotion recognition accuracy during the training session and reduce processing time using a modified Convolution Neural Network Enhanced with Extreme Learning Machine (CNNEELM). The system entails (CNNEELM) improving the accuracy in image registration during the training session. Furthermore, the system recognizes six facial emotions happy, sad, disgust, fear, surprise, and neutral with the proposed CNNEELM model. The study shows that the overall facial emotion recognition accuracy is improved by 2% than the state of art solutions with a modified Stochastic Gradient Descent (SGD) technique. With the Extreme Learning Machine (ELM) classifier, the processing time is brought down to 65ms from 113ms, which can smoothly classify each frame from a video clip at 20fps. With the pre-trained InceptionV3 model, the proposed CNNEELM model is trained with JAFFE, CK+, and FER2013 expression datasets. The simulation results show significant improvements in accuracy and processing time, making the model suitable for the video analysis process. Besides, the study solves the issue of the large processing time required to process the facial images.
翻訳日:2022-08-08 12:06:48 公開日:2022-08-05
# Global Pointer: 名前付きエンティティ認識のための効率的なスパンベースアプローチ

Global Pointer: Novel Efficient Span-based Approach for Named Entity Recognition ( http://arxiv.org/abs/2208.03054v1 )

ライセンス: Link先を確認
Jianlin Su, Ahmed Murtadha, Shengfeng Pan, Jing Hou, Jun Sun, Wanwei Huang, Bo Wen, Yunfeng Liu(参考訳) 名前付きエンティティ認識(ner)タスクは、人、場所、組織など、予め定義された意味タイプに属するテキストからエンティティを識別することを目的としている。 フラットエンティティのための最先端のソリューション NER は、基盤となるテキストの詳細なセマンティック情報を取得するのが一般的である。 既存のスパンベースのアプローチはこの制限を克服しているが、計算時間はまだ問題である。 そこで本研究では,相対的な位置を乗法的注意機構を通じて活用する,新しいスパンベースNERフレームワークであるGlobal Pointer(GP)を提案する。 最終的な目標は、エンティティを予測するための開始と終了位置を考慮したグローバルなビューを可能にすることです。 この目的のために、トレーニングプロセスと推論プロセスの矛盾を可能にするために、与えられたエンティティの頭と尾を識別する2つのモジュールを設計する。 さらに,不均衡ラベル問題に対処するための新しい分類損失関数を提案する。 パラメータの面では、トレーニングパラメータを減らすための単純だが効果的な近似手法を提案する。 我々は様々なベンチマークデータセットでgpを広範囲に評価する。 GPが既存のソリューションより優れていることを示す大規模な実験を行った。 さらに, ソフトマックスおよびエントロピー代替品と比較して, 導入損失関数の有効性を示した。

Named entity recognition (NER) task aims at identifying entities from a piece of text that belong to predefined semantic types such as person, location, organization, etc. The state-of-the-art solutions for flat entities NER commonly suffer from capturing the fine-grained semantic information in underlying texts. The existing span-based approaches overcome this limitation, but the computation time is still a concern. In this work, we propose a novel span-based NER framework, namely Global Pointer (GP), that leverages the relative positions through a multiplicative attention mechanism. The ultimate goal is to enable a global view that considers the beginning and the end positions to predict the entity. To this end, we design two modules to identify the head and the tail of a given entity to enable the inconsistency between the training and inference processes. Moreover, we introduce a novel classification loss function to address the imbalance label problem. In terms of parameters, we introduce a simple but effective approximate method to reduce the training parameters. We extensively evaluate GP on various benchmark datasets. Our extensive experiments demonstrate that GP can outperform the existing solution. Moreover, the experimental results show the efficacy of the introduced loss function compared to softmax and entropy alternatives.
翻訳日:2022-08-08 12:06:22 公開日:2022-08-05
# The Mysteries of the Maya: Selected Contributions from the Machine Learning Challenge & The Discovery Challenge Workshop at ECML PKDD 2021

Discover the Mysteries of the Maya: Selected Contributions from the Machine Learning Challenge & The Discovery Challenge Workshop at ECML PKDD 2021 ( http://arxiv.org/abs/2208.03163v1 )

ライセンス: Link先を確認
Dragi Kocev, Nikola Simidjievski, Ana Kostovska, Ivica Dimitrovski, \v{Z}iga Kokalj(参考訳) この巻には、European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Database (ECML PKDD 2021)で発表された機械学習チャレンジ "Discover the Mysteries of the Maya" から選ばれたコントリビューションが含まれている。 リモートセンシングは、古代マヤの森林地帯における伝統的な考古学的景観調査を大いに促進した。 典型的な探検と発見の試みは、古代都市全体に焦点を当て、個々の建物や建物にも焦点を当てている。 近年,古代マヤ集落の同定に機械学習を活用する試みがいくつか行われている。 これらの試みは、関連するものの、狭い領域に集中し、かつて古代マヤが定住していた地域のほんの一部をカバーする高品質の空中レーザー走査(als)データに依存している。 一方、欧州宇宙機関(ESA)のセンチネルミッションによって生成された衛星画像データは豊富であり、さらに重要なことに一般に公開されている。 古代マヤの建築(建物、アグアダ、プラットフォーム)を同定し、様々な種類の衛星画像(sentinel-1やsentinel-2)データとals(lidar)データの統合イメージセグメンテーションを行うことを目的とした「マヤの神秘の発見」チャレンジ。

The volume contains selected contributions from the Machine Learning Challenge "Discover the Mysteries of the Maya", presented at the Discovery Challenge Track of The European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML PKDD 2021). Remote sensing has greatly accelerated traditional archaeological landscape surveys in the forested regions of the ancient Maya. Typical exploration and discovery attempts, beside focusing on whole ancient cities, focus also on individual buildings and structures. Recently, there have been several successful attempts of utilizing machine learning for identifying ancient Maya settlements. These attempts, while relevant, focus on narrow areas and rely on high-quality aerial laser scanning (ALS) data which covers only a fraction of the region where ancient Maya were once settled. Satellite image data, on the other hand, produced by the European Space Agency's (ESA) Sentinel missions, is abundant and, more importantly, publicly available. The "Discover the Mysteries of the Maya" challenge aimed at locating and identifying ancient Maya architectures (buildings, aguadas, and platforms) by performing integrated image segmentation of different types of satellite imagery (from Sentinel-1 and Sentinel-2) data and ALS (lidar) data.
翻訳日:2022-08-08 12:05:39 公開日:2022-08-05
# 名前付きエンティティ認識におけるラベル付きエンティティ問題に対するノイズロス

A Noise-Robust Loss for Unlabeled Entity Problem in Named Entity Recognition ( http://arxiv.org/abs/2208.02934v1 )

ライセンス: Link先を確認
Wentao Kang, Guijun Zhang, Xiao Fu(参考訳) 名前付きエンティティ認識(NER)は自然言語処理において重要なタスクである。 しかし、従来の教師付きNERは大規模な注釈付きデータセットを必要とする。 データセットの膨大な需要を軽減するために、遠隔監視が提案されているが、このような方法で構築されたデータセットは非常に騒々しく、ラベルなしのエンティティ問題を抱えている。 クロスエントロピー(CE)損失関数はラベルのないデータに非常に敏感であり、性能が著しく低下する。 代替として、この問題に対処するNRCESと呼ばれる新しい損失関数を提案する。 雑音の負の影響を軽減するためにシグモイド項が用いられる。 さらに,モデルの収束性とノイズ耐性をサンプルとトレーニングプロセスに応じてバランスさせる。 合成および実世界のデータセットに関する実験は、重度にラベルのないエンティティ問題に対して強い堅牢性を示し、実世界のデータセットで新たな最先端を達成することを実証する。

Named Entity Recognition (NER) is an important task in natural language processing. However, traditional supervised NER requires large-scale annotated datasets. Distantly supervision is proposed to alleviate the massive demand for datasets, but datasets constructed in this way are extremely noisy and have a serious unlabeled entity problem. The cross entropy (CE) loss function is highly sensitive to unlabeled data, leading to severe performance degradation. As an alternative, we propose a new loss function called NRCES to cope with this problem. A sigmoid term is used to mitigate the negative impact of noise. In addition, we balance the convergence and noise tolerance of the model according to samples and the training process. Experiments on synthetic and real-world datasets demonstrate that our approach shows strong robustness in the case of severe unlabeled entity problem, achieving new state-of-the-art on real-world datasets.
翻訳日:2022-08-08 12:04:35 公開日:2022-08-05
# 超複素空間における知識グラフ埋め込みと事前学習言語モデルの統合

Integrating Knowledge Graph embedding and pretrained Language Models in Hypercomplex Spaces ( http://arxiv.org/abs/2208.02743v2 )

ライセンス: Link先を確認
Mojtaba Nayyeri, Zihao Wang, Mst. Mahfuja Akter, Mirza Mohtashim Alam, Md Rashad Al Hasan Rony, Jens Lehmann, Steffen Staab(参考訳) Wikidataのような知識グラフは、知識を表現するために構造的およびテキスト的知識から構成される。 グラフ埋め込みと言語モデルのための2つのモダリティはそれぞれ、新しい構造的知識を予測するパターンを学習する。 学習と推論を両方のモダリティに統合したアプローチはほとんどなく、既存のアプローチは構造的知識とテキスト的知識の相互作用を部分的に活用するしかなかった。 我々のアプローチでは、単一モダリティの既存の強表現の上に構築し、両方の表現に超複素代数を用いる。 (i)単一モダリティの埋め込み、及び (ii) 異なるモダリティ間の相互作用とその相補的な知識表現手段。 具体的には、構造的知識グラフ埋め込み、単語レベルの表現(例えば、word2vec, fasttext)、文レベルの表現(sentence transformer)、文書レベルの表現(sentence transformer, doc2vec)の4つのモダリティを統合するために、4次元超複素数のディヘドロンおよび四元表現を提案する。 我々の統一ベクトル表現はハミルトン積とディヘドロン積を通じてラベル付きエッジの可算性を評価し、異なるモジュラリティ間のペアワイズ相互作用をモデル化する。 標準ベンチマークデータセットの広範囲な実験評価により,リンク予測タスクの性能向上のための構造的知識の欠如に加えて,豊富なテキスト情報を用いた2つの新モデルの優位性が示された。

Knowledge Graphs, such as Wikidata, comprise structural and textual knowledge in order to represent knowledge. For each of the two modalities dedicated approaches for graph embedding and language models learn patterns that allow for predicting novel structural knowledge. Few approaches have integrated learning and inference with both modalities and these existing ones could only partially exploit the interaction of structural and textual knowledge. In our approach, we build on existing strong representations of single modalities and we use hypercomplex algebra to represent both, (i), single-modality embedding as well as, (ii), the interaction between different modalities and their complementary means of knowledge representation. More specifically, we suggest Dihedron and Quaternion representations of 4D hypercomplex numbers to integrate four modalities namely structural knowledge graph embedding, word-level representations (e.g.\ Word2vec, Fasttext), sentence-level representations (Sentence transformer), and document-level representations (sentence transformer, Doc2vec). Our unified vector representation scores the plausibility of labelled edges via Hamilton and Dihedron products, thus modeling pairwise interactions between different modalities. Extensive experimental evaluation on standard benchmark datasets shows the superiority of our two new models using abundant textual information besides sparse structural knowledge to enhance performance in link prediction tasks.
翻訳日:2022-08-08 10:29:06 公開日:2022-08-05
# LSTMに基づく自己回帰型言語モデルへのFusing文埋め込み

Fusing Sentence Embeddings Into LSTM-based Autoregressive Language Models ( http://arxiv.org/abs/2208.02402v2 )

ライセンス: Link先を確認
Vil\'em Zouhar, Marius Mosbach, Dietrich Klakow(参考訳) マスク付き言語モデルは非常に高性能で、NLP実践者によって広く採用されているが、自動回帰言語モデリング(次の単語予測とシーケンス確率推定)では簡単には利用できない。 LSTMに基づく自己回帰型言語モデルを提案する。このモデルでは,プレフィックス埋め込み(事前訓練されたマスク付き言語モデルから)を融合(例えば結合)して,言語モデリングのためのよりリッチなコンテキスト表現を得る。 融合は、トレーニングデータとは異なるドメインからデータセットに転送した後に保存される難易度(16.74$\rightarrow$ 15.80)を確実に低下させるのに役立つ。 また,次の単語超越推定と人間の読解時間とを関連付けることで,最もパフォーマンスの高い融合モデルを評価する。 予想とは対照的に、全体的な複雑度の改善にもかかわらず、相関関係はベースラインモデルと同じである。 最後に、融合の源泉としてテキストに事前学習した言語モデルにフォーカスしながら、固定サイズのベクトルとして表現された情報を自動回帰言語モデルに融合する手法を拡張できるかもしれない。 例えば、知識ベースやマルチモーダルエンコーダの表現のために検索された文外部情報を含む。

Although masked language models are highly performant and widely adopted by NLP practitioners, they can not be easily used for autoregressive language modelling (next word prediction and sequence probability estimation). We present an LSTM-based autoregressive language model which uses prefix embeddings (from a pretrained masked language model) via fusion (e.g. concatenation) to obtain a richer context representation for language modelling. We find that fusion helps reliably in lowering the perplexity (16.74 $\rightarrow$ 15.80), which is even preserved after a transfer to a dataset from a different domain than the training data. We also evaluate the best-performing fusion model by correlating its next word surprisal estimates with human reading times. Contradicting our expectation, and despite the improvement in perplexity overall, the correlation remains the same as for the baseline model. Lastly, while we focus on language models pre-trained on text as the sources for the fusion, our approach can be possibly extended to fuse any information represented as a fixed-size vector into an auto-regressive language model. These include e.g. sentence external information retrieved for a knowledge base or representations of multi-modal encoders.
翻訳日:2022-08-08 10:28:41 公開日:2022-08-05
# メタラーナとしてのトランスフォーマー

Transformers as Meta-Learners for Implicit Neural Representations ( http://arxiv.org/abs/2208.02801v2 )

ライセンス: Link先を確認
Yinbo Chen, Xiaolong Wang(参考訳) Inlicit Neural Representations (INRs) は近年、離散表現よりもその利点を示してきた。 しかし、INRを与えられた観測に合わせるには、通常、スクラッチからの勾配降下による最適化が必要であるが、これは非効率であり、スパース観測ではうまく一般化しない。 この問題に対処するため、先行研究の多くは、INR重みを変調する単一のベクトルを生成するハイパーネットワークを訓練し、そこでは、単一のベクトルが出力INRの再構成精度を制限する情報ボトルネックとなる。 近年の研究では、勾配に基づくメタラーニングにより、単ベクトルボトルネックなしにINR全体の重みを正確に推定できることが示されている。 勾配に基づくメタラーニングを一般化した定式化により,INRのハイパーネットワークとしてTransformersを利用する定式化を提案し,セット・ツー・セット・マッピングに特化したTransformersを用いて,INR重みの集合を直接構築する。 2次元画像回帰や3次元オブジェクトのビュー合成など,さまざまなタスクやドメインにおけるinrs構築手法の有効性を実証する。 我々はTransformer Hypernetworksと勾配に基づくメタラーニングアルゴリズムの接続を図り、生成したINRを理解するためのさらなる分析を行う。

Implicit Neural Representations (INRs) have emerged and shown their benefits over discrete representations in recent years. However, fitting an INR to the given observations usually requires optimization with gradient descent from scratch, which is inefficient and does not generalize well with sparse observations. To address this problem, most of the prior works train a hypernetwork that generates a single vector to modulate the INR weights, where the single vector becomes an information bottleneck that limits the reconstruction precision of the output INR. Recent work shows that the whole set of weights in INR can be precisely inferred without the single-vector bottleneck by gradient-based meta-learning. Motivated by a generalized formulation of gradient-based meta-learning, we propose a formulation that uses Transformers as hypernetworks for INRs, where it can directly build the whole set of INR weights with Transformers specialized as set-to-set mapping. We demonstrate the effectiveness of our method for building INRs in different tasks and domains, including 2D image regression and view synthesis for 3D objects. Our work draws connections between the Transformer hypernetworks and gradient-based meta-learning algorithms and we provide further analysis for understanding the generated INRs.
翻訳日:2022-08-08 10:28:19 公開日:2022-08-05
# RAZE:地域指導型自己監督型迷路表現学習

RAZE: Region Guided Self-Supervised Gaze Representation Learning ( http://arxiv.org/abs/2208.02485v2 )

ライセンス: Link先を確認
Neeru Dubey, Shreya Ghosh, Abhinav Dhall(参考訳) 視覚に基づくアシスト技術では、拡張現実、仮想現実、人間とコンピュータのインタラクションなど、さまざまな新興トピックのユースケースにおいて、自動視線推定は重要な問題である。 過去数年間、大規模な注釈付きデータの要求を克服するため、教師なし、自己教師なしの学習パラダイムへの関心が高まっている。 本稿では,非注釈顔画像データを利用した地域指導型自己教師型gAZE表現学習フレームワークRAZEを提案する。 razeは補助監督によって視線表現を学ぶ。すなわち、瞳孔中心の相対位置を利用して異なる視線領域(左、右、中央)に視野を分類することを目的としている疑似ガゼゾーン分類である。 そこで我々は154Kのウェブクローリング画像の擬似ガゼゾーンラベルを自動的にアノテートし, 'Ize-Net' フレームワークを介して特徴表現を学習する。 Ize-Netはカプセル層に基づくCNNアーキテクチャであり、リッチアイ表現を効率的に捉えることができる。 特徴表現の識別行動は、CAVE、TabletGaze、MPII、RT-GENEの4つのベンチマークデータセットで評価される。 さらに、学習した視線表現の有効性を示す2つの下流タスク(運転者視線推定と視線注意推定)において、提案したネットワークの一般化可能性を評価する。

Automatic eye gaze estimation is an important problem in vision based assistive technology with use cases in different emerging topics such as augmented reality, virtual reality and human-computer interaction. Over the past few years, there has been an increasing interest in unsupervised and self-supervised learning paradigms as it overcomes the requirement of large scale annotated data. In this paper, we propose RAZE, a Region guided self-supervised gAZE representation learning framework which leverage from non-annotated facial image data. RAZE learns gaze representation via auxiliary supervision i.e. pseudo-gaze zone classification where the objective is to classify visual field into different gaze zones (i.e. left, right and center) by leveraging the relative position of pupil-centers. Thus, we automatically annotate pseudo gaze zone labels of 154K web-crawled images and learn feature representations via `Ize-Net' framework. `Ize-Net' is a capsule layer based CNN architecture which can efficiently capture rich eye representation. The discriminative behaviour of the feature representation is evaluated on four benchmark datasets: CAVE, TabletGaze, MPII and RT-GENE. Additionally, we evaluate the generalizability of the proposed network on two other downstream task (i.e. driver gaze estimation and visual attention estimation) which demonstrate the effectiveness of the learnt eye gaze representation.
翻訳日:2022-08-08 10:27:58 公開日:2022-08-05
# マルチビヘイビア・レコメンデーションのための多目的学習フレームワーク

Coarse-to-Fine Knowledge-Enhanced Multi-Interest Learning Framework for Multi-Behavior Recommendation ( http://arxiv.org/abs/2208.01849v2 )

ライセンス: Link先を確認
Chang Meng, Ziqi Zhao, Wei Guo, Yingxue Zhang, Haolun Wu, Chen Gao, Dong Li, Xiu Li and Ruiming Tang(参考訳) マルチタイプの行動(例えば、クリック、カートの追加、購入など)は、多くの現実世界のレコメンデーションシナリオに広く存在し、ユーザの多面的な好みを学ぶのに有用である。 複数のタイプの振舞いによって依存関係が明示的に表現されるので、複雑な振舞いの依存性を効果的にモデリングすることは、マルチビヘイビア予測に不可欠である。 最先端のマルチ振る舞いモデルは、すべての歴史的相互作用を入力として区別しない振る舞い依存を学習する。 しかし、異なる振る舞いは、ユーザの好みの異なる側面を反映する可能性があるため、いくつかの無関係な相互作用が、予測されるターゲットの振る舞いに対するノイズとして機能する可能性がある。 上記の制約に対処するため,マルチ行動レコメンデーションに多目的学習を導入する。 より具体的には、異なる行動に対する共有および行動固有の関心を学習するための新しい粗雑な知識強化多利学習(ckml)フレームワークを提案する。 CKMLは、粗粒度関心抽出(CIE)と細粒度行動相関(FBC)という2つの高度なモジュールを導入している。 cieは知識認識情報を使用して、それぞれの関心の初期表現を抽出する。 FBCには動的ルーティングスキームが組み込まれており、関心事のそれぞれの振る舞いをさらに割り当てる。 さらに,関心レベルでの行動情報の相関には,自己認識機構を用いる。 実世界の3つのデータセットに対する実験結果から,マルチビヘイビアデータを利用したモデルの有効性と有効性が確認された。 さらに、各モジュールの有効性と、マルチビヘイビアデータに対する共有および特定モデリングパラダイムの堅牢性と優位性を示す。

Multi-types of behaviors (e.g., clicking, adding to cart, purchasing, etc.) widely exist in most real-world recommendation scenarios, which are beneficial to learn users' multi-faceted preferences. As dependencies are explicitly exhibited by the multiple types of behaviors, effectively modeling complex behavior dependencies is crucial for multi-behavior prediction. The state-of-the-art multi-behavior models learn behavior dependencies indistinguishably with all historical interactions as input. However, different behaviors may reflect different aspects of user preference, which means that some irrelevant interactions may play as noises to the target behavior to be predicted. To address the aforementioned limitations, we introduce multi-interest learning to the multi-behavior recommendation. More specifically, we propose a novel Coarse-to-fine Knowledge-enhanced Multi-interest Learning (CKML) framework to learn shared and behavior-specific interests for different behaviors. CKML introduces two advanced modules, namely Coarse-grained Interest Extracting (CIE) and Fine-grained Behavioral Correlation (FBC), which work jointly to capture fine-grained behavioral dependencies. CIE uses knowledge-aware information to extract initial representations of each interest. FBC incorporates a dynamic routing scheme to further assign each behavior among interests. Additionally, we use the self-attention mechanism to correlate different behavioral information at the interest level. Empirical results on three real-world datasets verify the effectiveness and efficiency of our model in exploiting multi-behavior data. Further experiments demonstrate the effectiveness of each module and the robustness and superiority of the shared and specific modelling paradigm for multi-behavior data.
翻訳日:2022-08-08 10:27:36 公開日:2022-08-05