このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220902となっている論文です。

PDF登録状況(公開日: 20220902)

TitleAuthorsAbstract論文公表日・翻訳日
# 持続的ホモロジーを用いたダークソリトン検出

Dark soliton detection using persistent homology ( http://arxiv.org/abs/2107.14594v2 )

ライセンス: Link先を確認
Daniel Leykam, Irving Rondon, Dimitris G Angelakis(参考訳) 画像の分類には、しばしば質的特徴の手動による識別が必要である。 畳み込みニューラルネットワークを含む機械学習アプローチは、人間の分類器に匹敵する精度を達成することができるが、トレーニングには広範なデータと計算リソースを必要とする。 実験画像データの質的特徴を迅速かつ確実に識別するために, トポロジ的データ解析手法, 永続的ホモロジーを用いる方法を示す。 識別された機能は、トレーニングが容易なロジスティック回帰モデルのような単純な教師付き機械学習モデルの入力として使用できる。 例えば、6257個のラベル付き原子ボース・アインシュタイン凝縮密度画像のデータセットを用いてダークソリトンを同定する。

Classifying images often requires manual identification of qualitative features. Machine learning approaches including convolutional neural networks can achieve accuracy comparable to human classifiers, but require extensive data and computational resources to train. We show how a topological data analysis technique, persistent homology, can be used to rapidly and reliably identify qualitative features in experimental image data. The identified features can be used as inputs to simple supervised machine learning models such as logistic regression models, which are easier to train. As an example we consider the identification of dark solitons using a dataset of 6257 labelled atomic Bose-Einstein condensate density images.
翻訳日:2023-03-21 07:19:57 公開日:2022-09-02
# フォトニックキャット状態量子ビットを用いたフォールトトレラント多ビット幾何エンタングリングゲート

Fault-tolerant multiqubit geometric entangling gates using photonic cat-state qubits ( http://arxiv.org/abs/2109.04643v5 )

ライセンス: Link先を確認
Ye-Hong Chen, Roberto Stassi, Wei Qin, Adam Miranowicz, Franco Nori(参考訳) フォトニックキャット状態量子ビットを用いたマルチキュービット幾何ゲート(M{\o}lmer-S{\o}rensenゲート)の理論的プロトコルを提案する。 これらの猫状態量子ビットは、ハードウェア効率のよいユニバーサル量子コンピューティングに有望である。 具体的には、強い2光子駆動の限界において、猫状態量子ビットの位相フリップ誤差を効果的に抑制し、ビットフリップ誤差のみを補正する。 この支配的なエラーは進化演算子と通勤するため、このプロトコルはエラーバイアスを保ち、エラー訂正のためのコード容量閾値を下げることができる。 幾何学的進化は、進化経路に沿った確率的ノイズに対するプロトコルの堅牢性を保証する。 さらに、キャビティ・キャビティ結合の変形を適切なタイミングで変化させることで、システムに余分なノイズを導入することなく、パラメータの不完全性(例えば、全進化時間)に対して堅牢となる。 その結果、ゲートは、高いフィディティを持つ短時間でマルチモードの絡み合った猫状態を生成することができる。

We propose a theoretical protocol to implement multiqubit geometric gates (i.e., the M{\o}lmer-S{\o}rensen gate) using photonic cat-state qubits. These cat-state qubits stored in high-$Q$ resonators are promising for hardware-efficient universal quantum computing. Specifically, in the limit of strong two-photon drivings, phase-flip errors of the cat-state qubits are effectively suppressed, leaving only a bit-flip error to be corrected. Because this dominant error commutes with the evolution operator, our protocol preserves the error bias, and, thus, can lower the code-capacity threshold for error correction. A geometric evolution guarantees the robustness of the protocol against stochastic noise along the evolution path. Moreover, by changing detunings of the cavity-cavity couplings at a proper time, the protocol can be robust against parameter imperfections (e.g., the total evolution time) without introducing extra noises into the system. As a result, the gate can produce multi-mode entangled cat states in a short time with high fidelities.
翻訳日:2023-03-15 11:54:36 公開日:2022-09-02
# 交通ネットワークと領域の共進化の特徴とモデル化

Characterising and modeling the co-evolution of transportation networks and territories ( http://arxiv.org/abs/2110.15950v2 )

ライセンス: Link先を確認
Juste Raimbault(参考訳) 交通インフラの地域動態に対する構造的影響の同定は、いまだに未解決な研究課題である。 この問題は、領土とネットワークが共進化する領域のダイナミクスの複雑さに関するアプローチの側面の1つである。 本論の目的は、ネットワークと領域間の相互作用を概念的・実証的なレベルで、領域システムのシミュレーションモデルに統合することで、この視点に挑戦することである。

The identification of structuring effects of transportation infrastructure on territorial dynamics remains an open research problem. This issue is one of the aspects of approaches on complexity of territorial dynamics, within which territories and networks would be co-evolving. The aim of this thesis is to challenge this view on interactions between networks and territories, both at the conceptual and empirical level, by integrating them in simulation models of territorial systems.
翻訳日:2023-03-09 22:39:06 公開日:2022-09-02
# 部分グラフ同型問題に対する量子アルゴリズム

A Quantum Algorithm for the Sub-Graph Isomorphism Problem ( http://arxiv.org/abs/2111.09732v2 )

ライセンス: Link先を確認
Nicola Mariella and Andrea Simonetto(参考訳) ゲート型量子コンピュータ上でのサブグラフ同型問題を解くための新しい変分法を提案する。 この方法は、(1)グラフの頂点数と対数的にスケールする多数の量子ビットを必要とする、基礎となるグラフの隣接行列の新しい表現に依存し、(2)置換空間を効率的に探索できる新しいアンサッツに依存する。 グラフ上の16頂点までのアプローチを示すためにシミュレーションが提示され、対数スケーリングを考えると、このアプローチは中項における現実的な部分グラフ同型問題に適用することができる。

We propose a novel variational method for solving the sub-graph isomorphism problem on a gate-based quantum computer. The method relies (1) on a new representation of the adjacency matrices of the underlying graphs, which requires a number of qubits that scales logarithmically with the number of vertices of the graphs; and (2) on a new Ansatz that can efficiently probe the permutation space. Simulations are then presented to showcase the approach on graphs up to 16 vertices, whereas, given the logarithmic scaling, the approach could be applied to realistic sub-graph isomorphism problem instances in the medium term.
翻訳日:2023-03-07 12:37:17 公開日:2022-09-02
# 量子電磁力学における絡み合いと散乱:絡み合った観測粒子からのS行列情報

Entanglement and scattering in quantum electrodynamics: S-matrix information from an entangled spectator particle ( http://arxiv.org/abs/2112.01300v2 )

ライセンス: Link先を確認
Juan D. Fonseca, B. Hiller, J. B. Araujo, I. G. da Paz and Marcos Sampaio(参考訳) 我々は、2つの半スピンフェルミオンである$A$と$B$を含む一般量子場相対論的散乱を、散乱力学に関与しない別のフェルミオン$C$と最初に絡み合っていると考えている。 一般三成分スピンエンタングル状態を考慮した外部状態の還元スピン行列の一般表現を構築する。 In particular we study an inelastic QED process at tree-level, namely $e^-e^+\rightarrow \mu^- \mu^+$ and a half spin fermion $C$ as an spectator particle which can be entangled to the $AB$ system in the following ways: W state, GHZ state, $|\text{A}^\alpha \rangle \otimes |\Psi^{\pm} \rangle_{\text{BC}}$ and $|\text{A}^\alpha \rangle \otimes |\Phi^{\pm} \rangle_{\text{BC}}$, where $\{|\Psi^{\pm} \rangle,|\Phi^{\pm} \rangle\}$ are the Bell basis states and $|\text{A}^\alpha \rangle$ is a spin superposition state of system $A$. 粒子$C$の散乱前後のvon-Neumannエントロピー変動を計算し、C$におけるスピン測定がプロセスの全断面に関する数値情報を含んでいることを示す。 初期状態 W と GHZ を比較し,パラメータ $\alpha$ がエントロピー変動と可視光粒子に符号化された断面の評価において果たす役割について検討した。

We consider a general quantum field relativistic scattering involving two half spin fermions, $A$ and $B$, which are initially entangled with another fermion $C$ that does not participate in the scattering dynamics. We construct general expressions for the reduced spin matrices for the out-state considering a general tripartite spin-entangled state. In particular we study an inelastic QED process at tree-level, namely $e^-e^+\rightarrow \mu^- \mu^+$ and a half spin fermion $C$ as an spectator particle which can be entangled to the $AB$ system in the following ways: W state, GHZ state, $|\text{A}^\alpha \rangle \otimes |\Psi^{\pm} \rangle_{\text{BC}}$ and $|\text{A}^\alpha \rangle \otimes |\Phi^{\pm} \rangle_{\text{BC}}$, where $\{|\Psi^{\pm} \rangle,|\Phi^{\pm} \rangle\}$ are the Bell basis states and $|\text{A}^\alpha \rangle$ is a spin superposition state of system $A$. We calculate the von-Neumann entropy variation before and after the scattering for the particle $C$ and show that spin measurements in $C$ contain numerical information about the total cross section of the process. We compare the initial states W and GHZ as well as study the role played by the parameter $\alpha$ in the evaluation of the entropy variations and the cross section encoded in the spectator particle.
翻訳日:2023-03-06 02:20:54 公開日:2022-09-02
# ICARUS-Q:スケーラブル量子プロセッサの制御・読み出しユニット

ICARUS-Q: Integrated Control and Readout Unit for Scalable Quantum Processors ( http://arxiv.org/abs/2112.02933v3 )

ライセンス: Link先を確認
Kun Hee Park, Yung Szen Yap, Yuanzheng Paul Tan, Christoph Hufnagel, Long Hoang Nguyen, Karn Hwa Lau, Patrick Bore, Stavros Efthymiou, Stefano Carrazza, Rangga P. Budoyo, Rainer Dumke(参考訳) Xilinx 16- channel radio- frequency system-on-chip (RFSoC) を用いた超伝導量子ビットの制御と測定を行う。 提案手法は,複数のrfsoc基板,dac (digital to analog converter) を同期するセットアップ,複数基板にまたがるディジタルコンバータ (adc) チャネルのアナログ,量子ビット周波数をチューニングするための低ノイズ直流 (dc) 供給,遠隔実行実験のためのクラウドアクセスの4つの部分からなる。 また、物理的なミキサーのない設定も設計しています。 RFSoC基板は、第3のナイキストゾーンまでの16のDACチャネルを使用して直接マイクロ波パルスを生成し、第5と第9のゾーン間の8つのADCチャネルによって直接サンプリングされる。

We present a control and measurement setup for superconducting qubits based on Xilinx 16-channel radio-frequency system-on-chip (RFSoC) device. The proposed setup consists of four parts: multiple RFSoC boards, a setup to synchronise every digital to analog converter (DAC), and analog to digital converter (ADC) channel across multiple boards, a low-noise direct current (DC) supply for tuning the qubit frequency and cloud access for remotely performing experiments. We also design the setup to be free of physical mixers. The RFSoC boards directly generate microwave pulses using sixteen DAC channels up to the third Nyquist zone which are directly sampled by its eight ADC channels between the fifth and the ninth zones.
翻訳日:2023-03-05 10:05:08 公開日:2022-09-02
# スピン1/2鎖に沿った0次コヒーレンス行列の移動

Transfer of 0-order coherence matrix along spin-1/2 chain ( http://arxiv.org/abs/2201.01360v2 )

ライセンス: Link先を確認
G.A.Bochkin, E.B.Fel'dman, I.D.Lazarev, A.N.Pechen and A.I. Zenchuk(参考訳) 本研究では,様々な長さのスピン1/2鎖に沿ったコヒーレンス行列の移動について検討する。 高次コヒーレンス行列とは異なり、0階コヒーレンス行列は、その要素が適切に固定されたときに完全に移動することができる。 ある場合には、完全な転送を提供するために、拡張受信機と最適化されたユニタリ変換をプロトコルに含まなければならない。 本研究では、無限長鎖に対する漸近完全移動可能な0次コヒーレンス行列を考察し、この漸近状態からの完全移動状態の偏差を拡張受信機の様々なサイズに対する鎖長の関数として研究する。 また,0次コヒーレンス行列の非対角要素による任意のパラメータ移動の問題も検討し,拡張受信機のユニタリ変換を用いて最適化した。

In this work, we study transfer of coherence matrices along spin-1/2 chains of various length. Unlike higher order coherence matrices, 0-order coherence matrix can be perfectly transferred if its elements are properly fixed. In certain cases, to provide the perfect transfer, an extended receiver together with optimized its unitary transformation has to be included into the protocol. In this work, the asymptotic perfectly transferable 0-order coherence matrix for an infinitely long chain is considered and deviation of a perfectly transferred state from this asymptotic state is studied as a function of the chain length for various sizes of the extended receiver. The problem of arbitrary parameter transfer via the nondiagonal elements of the 0-order coherence matrix is also considered and optimized using the unitary transformation of the extended receiver.
翻訳日:2023-03-02 07:32:49 公開日:2022-09-02
# 分数量子ホール効果の2粒子時間領域干渉法

Two-particle time-domain interferometry in the Fractional Quantum Hall Effect regime ( http://arxiv.org/abs/2201.09553v2 )

ライセンス: Link先を確認
I. Taktak, M. Kapfer, J. Nath, P. Roulleau, M. Acciai, J. Splettstoesser, I. Farrer, D. A. Ritchie, and D. C. Glattli(参考訳) 準粒子は凝縮物量子位相の初等励起である。 伝播しながら量子コヒーレンスを維持することは、量子情報タスクを操作する上で根本的な問題である。 ここでは、高磁場中の2次元電子伝導体で発生する分数電荷の量子ホール効果の準粒子20について考察する。 彼らはフェルミオンとボソニックの中間である任意の統計に従う。 驚いたことに、電子ファブリ・ペロト干渉計の局在状態を通して伝達される場合、大きな量子コヒーレンスを示すが、マッハ・ツェンダー干渉計の伝播状態を介して伝達されるときの量子干渉はほとんどない。 ここでは、新しいインターフェロメトリ25アプローチを用いて、伝播しながら量子コヒーレンスを維持することを実証する。 ハンベリー・ブラウン・ツイッス相に敏感な2粒子時間領域干渉測定を行い, 電荷e/5, e/3の任意の粒子に対して53%, 60%の振動率を示した。 以上の結果から,エノンの量子コヒーレントブレイディング制御の課題に対する肯定的なメッセージが得られる。

Quasi-particles are elementary excitations of condensed matter quantum phases. Demonstrating that they keep quantum coherence while propagating is a fundamental issue for their manipulation for quantum information tasks. Here, we consider anyons, the fractionally charged quasi-particles 20 of the Fractional Quantum Hall Effect occurring in two-dimensional electronic conductors in high magnetic fields. They obey anyonic statistics, intermediate between fermionic and bosonic. Surprisingly, anyons show large quantum coherence when transmitted through the localized states of electronic Fabry-P\'erot interferometers, but almost no quantum interference when transmitted via the propagating states of Mach-Zehnder interferometers. Here, using a novel interferometric 25 approach, we demonstrate that anyons do keep quantum coherence while propagating. Performing two-particle time-domain interference measurements sensitive to the two-particle Hanbury Brown Twiss phase, we find 53% and 60% visibilities for anyons with charges e/5 and e/3. Our results give a positive message for the challenge of performing controlled quantum coherent braiding of anyons.
翻訳日:2023-02-28 00:47:37 公開日:2022-09-02
# 超電導量子ビット系の量子最適パルス制御法と結果

Methods and Results for Quantum Optimal Pulse Control on Superconducting Qubit Systems ( http://arxiv.org/abs/2202.03260v2 )

ライセンス: Link先を確認
Elisha Siddiqui Matekole, Yao-Lung L. Fang, Meifeng Lin(参考訳) 現在のノイズ中間スケール量子デバイス(NISQ)の有効利用は、環境との相互作用によって生じるノイズによって制限され、量子ゲートの忠実性に影響を与えることが多い。 トランスモン量子ビットシステムでは、環境ノイズの影響を最小限に抑える制御パルスを適用することで、量子ゲート忠実度を向上させることができる。 本研究では,超伝導量子ビット系上で量子ゲートを駆動する最適パルスを設計するために,物理誘導型最適制御法を用いる。 我々は,OpenPulse APIを用いたIBM Qハードウェアの実験を行い,実験を行った。 我々は、パルス最適化量子ゲートの性能をデフォルトの量子ゲートと比較し、最適化パルスが量子ゲート、特に単一量子ゲートの忠実性を向上させることを示す。 私たちは仕事で遭遇した課題について議論し、将来的な改善の可能性を示します。

The effective use of current Noisy Intermediate-Scale Quantum (NISQ) devices is often limited by the noise which is caused by interaction with the environment and affects the fidelity of quantum gates. In transmon qubit systems, the quantum gate fidelity can be improved by applying control pulses that can minimize the effects of the environmental noise. In this work, we employ physics-guided quantum optimal control strategies to design optimal pulses driving quantum gates on superconducting qubit systems. We test our results by conducting experiments on the IBM Q hardware using their OpenPulse API. We compare the performance of our pulse-optimized quantum gates against the default quantum gates and show that the optimized pulses improve the fidelity of the quantum gates, in particular the single-qubit gates. We discuss the challenges we encountered in our work and point to possible future improvements.
翻訳日:2023-02-26 15:21:47 公開日:2022-09-02
# レーザー場と結合した光キャビティの量子多臨界挙動

Quantum Multicritical Behavior for Coupled Optical Cavities with Driven Laser Fields ( http://arxiv.org/abs/2202.04389v2 )

ライセンス: Link先を確認
Yutao Hu, Yu Zhou, Wenchen Luo, Andrea Trombettoni, and Guoxiang Huang(参考訳) 多臨界点を持つ量子相転移は相互作用する量子多体系で起こる驚くべき現象である。 しかし、理論によって予測される複数の臨界点が実験的に検証されることはほとんどなく、特定の振る舞いを持つ多臨界点を発見し、その制御を実現することは難しい課題である。 本稿では、量子化された光場が光キャビティ内のマイクロ波で結合された2レベル原子アンサンブルと相互作用するシステムを提案する。 超ラジアント量子相転移の多臨界点が現れることが示されている。 これらの臨界点の数と位置を決定し、システムパラメータのチューニングによって効果的に操作できることを実証する。 特に、光場のラビ周波数が周期的に時間的に変調された場合、量子臨界点がリフシッツ点へと進化できることがわかった。 驚くべきことに、原子準スピンのテクスチャはシステムの量子臨界挙動を特徴付けるのに使うことができる。 原子準スピンで表されるリフシッツ点周辺の3つの相の磁気秩序は、軸方向の次ネアレスト-neighboring isingモデルと類似している。 ここで報告された結果は、量子相転移の興味深い物理学を明らかにするのに役立ち、一般化されたディッケモデルに基づく新しい量子多臨界現象を見つける道を開く。

Quantum phase transitions with multicritical points are fascinating phenomena occurring in interacting quantum many-body systems. However, multicritical points predicted by theory have been rarely verified experimentally; finding multicritical points with specific behaviors and realizing their control remains a challenging topic. Here, we propose a system that a quantized light field interacts with a two-level atomic ensemble coupled by microwave fields in optical cavities, which is described by a generalized Dicke model. Multicritical points for the superradiant quantum phase transition are shown to occur. We determine the number and position of these critical points and demonstrate that they can be effectively manipulated through the tuning of system parameters. Particularly, we find that the quantum critical points can evolve into a Lifshitz point if the Rabi frequency of the light field is modulated periodically in time. Remarkably, the texture of atomic pseudo-spins can be used to characterize the quantum critical behaviors of the system. The magnetic orders of the three phases around the Lifshitz point, represented by the atomic pseudo-spins, are similar to those of an axial next-nearest-neighboring Ising model. The results reported here are beneficial for unveiling intriguing physics of quantum phase transitions and pave the way towards to find novel quantum multicritical phenomena based on the generalized Dicke model.
翻訳日:2023-02-26 07:05:44 公開日:2022-09-02
# 局所的衝撃と量子回路の衝突

Collisions of localized shocks and quantum circuits ( http://arxiv.org/abs/2202.04661v2 )

ライセンス: Link先を確認
Felix M. Haehl and Ying Zhao(参考訳) ブラックホール内部における局所衝撃波の衝突について検討した。 我々は、共有量子回路における2つの増大する摂動の重なりの観点から、この過程のホログラフィック境界記述を与える。 摂動は指数関数的にも弾道的にも成長する。 異なる物理効果の競合により、回路解析は横方向の位置に依存することを示し、質的に異なる振る舞いの4つのレジームを示す。 重力面では、単純なセットアップにおける正確な計算とより一般的な状況における推定を用いて、ポストコリジョン幾何学の特性を研究する。 回路解析は一般相対性理論の非線形特徴を含む重力計算を直感的かつ驚くほど正確に予測することを示した。

We study collisions between localized shockwaves inside a black hole interior. We give a holographic boundary description of this process in terms of the overlap of two growing perturbations in a shared quantum circuit. The perturbations grow both exponentially as well as ballistically. Due to a competition between different physical effects, the circuit analysis shows dependence on the transverse locations and exhibits four regimes of qualitatively different behaviors. On the gravity side we study properties of the post-collision geometry, using exact calculations in simple setups and estimations in more general circumstances. We show that the circuit analysis offers intuitive and surprisingly accurate predictions about gravity computations involving non-linear features of general relativity.
翻訳日:2023-02-26 06:57:26 公開日:2022-09-02
# d\times d$システムにおける一般化公理対称量子状態の特徴付け

Characterizing generalized axisymmetric quantum states in $d\times d$ systems ( http://arxiv.org/abs/2202.11033v2 )

ライセンス: Link先を確認
Marcel Seelbach Benkner, Jens Siewert, Otfried G\"uhne, Gael Sent\'is(参考訳) 任意の次元で高度に対称な二部量子状態の族を導入する。 これは、局所位相回転と基底の局所巡回置換の下で不変である全ての状態からなる。 これらの状態の部分空間に対する分離可能性の問題を解き、家族のかなりの部分が絡み合っていることを示す。 また、族に対するシュミット数の一部を$d = 3$で計算し、エンタングルメントの次元性を特徴付ける。 この結果から、任意の状態の絡み合い特性を推定することができ、一般状態は局所的な操作によって考慮されたファミリーに対称性を持たせることができる。

We introduce a family of highly symmetric bipartite quantum states in arbitrary dimensions. It consists of all states that are invariant under local phase rotations and local cyclic permutations of the basis. We solve the separability problem for a subspace of these states and show that a sizable part of the family is bound entangled. We also calculate some of the Schmidt numbers for the family in $d = 3$, thereby characterizing the dimensionality of entanglement. Our results allow us to estimate entanglement properties of arbitrary states, as general states can be symmetrized to the considered family by local operations.
翻訳日:2023-02-24 05:51:37 公開日:2022-09-02
# 量子力学における自己拘束ノイズ

Self-restricting Noise in Quantum Dynamics ( http://arxiv.org/abs/2203.03745v2 )

ライセンス: Link先を確認
Nicholas LaRacuente(参考訳) 開量子系の状態は通常、環境相互作用下で連続的に崩壊する。 量子マルコフ半群は散逸環境でそのような過程をモデル化する。 詳細なバランスを持つ有限次元量子マルコフ半群は、修正対数ソボレフ不等式(modified logarithmic sobolev inequality)と呼ばれる、不変または完全崩壊状態の部分空間への指数的減衰を引き起こすことが知られている。 我々は,コヒーレントなプロセスと確率的なプロセスを組み合わせた連続的なプロセスを分析し,詳細なバランスを破る。 これらの過程に対する類似の崩壊境界に対する反例を見つける。 量子ゼノ効果のアナログを通して、ノイズはそれを拡散する相互作用を抑制することができる。 サブシステムのより速い崩壊は、全体的な崩壊を遅くする。 したがって、ある部分における雑音の強さとシステム全体の誘起減衰の関係は、しばしば非単調である。 我々は、IBM Qシステム上で、この相互作用とその離散アナログを実験的に観察する。 我々の主な結果は、理論上この現象を説明し、一般化する。 対照的に、私たちはまた、より単純で効果的なプロセスに対する見積もりを組み合わせることで、任意の時間スケールよりも境界減衰率を下げます。

States of open quantum systems usually decay continuously under environmental interactions. Quantum Markov semigroups model such processes in dissipative environments. It is known that a finite-dimensional quantum Markov semigroup with detailed balance induces exponential decay toward a subspace of invariant or fully decayed states, under what are called modified logarithmic Sobolev inequalities. We analyze continuous processes that combine coherent and stochastic processes, breaking detailed balance. We find counterexamples to analogous decay bounds for these processes. Through analogs of the quantum Zeno effect, noise can suppress interactions that would spread it. Faster decay of a subsystem may thereby slow overall decay. Hence the relationship between the strength of noise on a part and induced decay on the whole system is often non-monotonic. We observe this interplay numerically and its discrete analog experimentally on IBM Q systems. Our main results then explain and generalize the phenomenon theoretically. In contrast, we also lower bound decay rates above any given timescale by combining estimates for simpler, effective processes across times.
翻訳日:2023-02-22 21:54:35 公開日:2022-09-02
# 量子井戸における電子波スピン

Electron Wave Spin in a Quantum Well ( http://arxiv.org/abs/2203.09437v2 )

ライセンス: Link先を確認
Ju Gao(参考訳) 電子の粒子-波の双対性は、スピンが粒子の性質か波動かという原理的な問題である。 本稿では、スピンの波動の性質を二次元量子井戸内の電子について研究する。 ディラック方程式の正確な4ドルの固有解を解くことにより、ドーナツ形状の地形を持つ井戸内部に安定に循環する全電流密度が存在することを示す。 スピン値は井戸の凝縮幾何学によって修正される。 また, 自由電子ガウス波束は不安定であり, 高速デコヒーレンスを経験することを示した。

The particle-wave duality of the electron poses a principle question of whether the spin is a property of the particle or the wave. In this paper, the wave nature of the spin is studied for an electron inside a two-dimensional quantum well. By solving the exact $4-$spinor eigen solution to the Dirac equation, we show that a stable circulating total current density exists inside the well with a donut shaped topography. A spin value is modified by the confining geometry of the well. Our analysis also shows that a free electron Gaussian wavepacket is unstable and experiences quick decoherence.
翻訳日:2023-02-21 20:42:56 公開日:2022-09-02
# 投票地区と不確実データ展開分析の比較

Comparing Voting Districts with Uncertain Data Envelopment Analysis ( http://arxiv.org/abs/2212.07779v1 )

ライセンス: Link先を確認
Casey Garner, Allen Holder(参考訳) ジェリーマンダーリングの投票地区は、現代のアメリカ社会の最も顕著な関心事の一つであり、新しい投票地図の作成は、その後の法的課題と共に、現代の政治談話の多くを語る。 サービス可能な選挙区に関する法的、社会的、政治的議論は公正の概念を要求しており、これは緩やかに特徴付けられるが、正確な定義を避けたアモルファスな概念である。 我々は、地図を均一に評価するために使用される事前基準に関連する落とし穴を避けるために、投票マップを比較するための新しいパラダイムを推進している。 評価手法は,各地域を別々に最適に評価する手法として,不確実なデータ包絡分析を用いて様々な指標の地図を評価する方法を示す。 提案手法を,提案および公開地図の集合上で検証し,評価戦略を概説する。

Gerrymandering voting districts is one of the most salient concerns of contemporary American society, and the creation of new voting maps, along with their subsequent legal challenges, speaks for much of our modern political discourse. The legal, societal, and political debate over serviceable voting districts demands a concept of fairness, which is a loosely characterized, but amorphous, concept that has evaded precise definition. We advance a new paradigm to compare voting maps that avoids the pitfalls associated with an a priori metric being used to uniformly assess maps. Our evaluative method instead shows how to use uncertain data envelopment analysis to assess maps on a variety of metrics, a tactic that permits each district to be assessed separately and optimally. We test our methodology on a collection of proposed and publicly available maps to illustrate our assessment strategy.
翻訳日:2023-02-19 13:02:45 公開日:2022-09-02
# IBM量子コンピュータにおける動的デカップリングとパルスレベル最適化の効果

Effects of Dynamical Decoupling and Pulse-level Optimizations on IBM Quantum Computers ( http://arxiv.org/abs/2204.01471v2 )

ライセンス: Link先を確認
Siyuan Niu and Aida Todri-Sanial(参考訳) 現在利用可能な量子コンピュータはエラーを起こしやすい。 NISQハードウェア上で実行される場合、より忠実な量子回路を設計するには、回路最適化と誤差軽減法が必要である。 動的デカップリング(DD)は一般にデコヒーレンスエラーを抑制するために使われ、様々なDD戦略が提案されている。 さらに、ハードウェアネイティブなパルス効率のゲートを作成するなど、パルスレベルの最適化によって回路の忠実性が向上する。 本稿では、一般的なDDシーケンスをすべて実装し、様々な量子アプリケーションの特徴を持つIBM量子チップの性能評価を行う。 また、DDとパルスレベル最適化法を組み合わせてQAOAに適用し、Max-Cut問題を解く。 実験結果から,DDは特定の種類の量子アルゴリズムに対してのみ有効であり,DDとパルスレベルの最適化手法の組み合わせは正の影響を常に与えていることがわかった。 最後に,IBMの量子コンピュータ上で高忠実度な量子アプリケーションのための回路を構築するために,これらのノイズ緩和手法の使い方を学ぶためのガイドラインを提示する。

Currently available quantum computers are prone to errors. Circuit optimization and error mitigation methods are needed to design quantum circuits to achieve better fidelity when executed on NISQ hardware. Dynamical decoupling (DD) is generally used to suppress the decoherence error and different DD strategies have been proposed. Moreover, the circuit fidelity can be improved by pulse-level optimization, such as creating hardware-native pulse-efficient gates. This paper implements all the popular DD sequences and evaluates their performances on IBM quantum chips with different characteristics for various well-known quantum applications. Also, we investigate combining DD with pulse-level optimization method and apply them to QAOA to solve Max-Cut problem. Based on the experimental results, we found that DD can be a benefit for only certain types of quantum algorithms, while the combination of DD and pulse-level optimization methods always has a positive impact. Finally, we provide several guidelines for users to learn how to use these noise mitigation methods to build circuits for quantum applications with high fidelity on IBM quantum computers.
翻訳日:2023-02-18 08:03:28 公開日:2022-09-02
# 次元量子鍵分布のための互いに偏りのない$(d+1)$のスケーラブルな実装

Scalable implementation of $(d+1)$ mutually unbiased bases for $d$-dimensional quantum key distribution ( http://arxiv.org/abs/2204.02691v2 )

ライセンス: Link先を確認
Takuya Ikuta, Seiseki Akibue, Yuya Yonezu, Toshimori Honjo, Hiroki Takesue, Kyo Inoue(参考訳) 高次元量子鍵分布(QKD)は、エラーレート耐性と秘密鍵レートを改善することができる。 多くの$d$次元QKDは2つの非バイアスベース(MUB)を使用し、$(d+1)$ MUBsは特に相関誤差に対してより堅牢なQKDを可能にする。 しかし、スケーラブルな実装は、2つのmubや特定の光学モードのフレキシブルコンバータでも$d$デバイスを必要とするため実現されていない。 本稿では,最大電力次元$d=p^N$における$\log_p d$干渉計を用いた$(d+1)$ MUBのスケーラブルで汎用的な実装を提案する。 時間-ビン状態の設定を実装し、位相ベースの平均誤差率は3.8%であり、これは$d=4$のコヒーレント攻撃に対するセキュアなqkdに必要な23.17%よりも低い。

A high-dimensional quantum key distribution (QKD) can improve error rate tolerance and the secret key rate. Many $d$-dimensional QKDs have used two mutually unbiased bases (MUBs), while $(d+1)$ MUBs enable a more robust QKD, especially against correlated errors. However, a scalable implementation has not been achieved because the setups have required $d$ devices even for two MUBs or a flexible convertor for a specific optical mode. Here, we propose a scalable and general implementation of $(d+1)$ MUBs using $\log_p d$ interferometers in prime power dimensions $d=p^N$. We implemented the setup for time-bin states and observed an average error rate of 3.8% for phase bases, which is lower than the 23.17% required for a secure QKD against coherent attack in $d=4$.
翻訳日:2023-02-18 03:01:36 公開日:2022-09-02
# 原子Fermi-Hubbardモデルにおけるレーザーカップリングによる1軸および2軸スクイーズ

One- and two-axis squeezing via laser coupling in an atomic Fermi-Hubbard model ( http://arxiv.org/abs/2204.06065v3 )

ライセンス: Link先を確認
T. Hern\'andez Yanes, M. P{\l}odzie\'n, M. Mackoit Sinkevi\v{c}ien\.e, G. \v{Z}labys, G. Juzeli\=unas, E. Witkowska(参考訳) フェルミ・ハバード模型によるmott絶縁相における超低温原子フェルミオンによるスピン配列状態の生成について検討した。 原子の内部自由度間の位置依存レーザ結合による2つのねじれ機構の活性化を示す。 単一レーザカップリングは、結合相によって決定されるねじれ軸の向きで1軸ねじれモデルをシミュレートする。 適切に選択された位相を持つ第2のレーザービームを加えることで、2軸対向運動モデルをシミュレートし、ハイゼンベルク制限レベルのスクイージングに近づくことができる。

We study a production of spin-squeezed states with ultra-cold atomic fermions described by the Fermi-Hubbard model in the Mott insulating phase. We show activation of two twisting mechanisms by a position-dependent laser coupling between internal degrees of freedom of atoms. A single laser coupling simulates the one-axis twisting model with the orientation of the twisting axis determined by the coupling phase. Adding a second laser beam with a properly chosen phase paves the way to simulate the two-axis counter-twisting model, enabling to approach the Heisenberg-limited level of squeezing.
翻訳日:2023-02-17 05:16:05 公開日:2022-09-02
# ハイブリッド光力学系における量子相関の探索

Exploring quantum correlations in a hybrid optomechanical system ( http://arxiv.org/abs/2204.07753v2 )

ライセンス: Link先を確認
Smail Bougouffa, Mohannad Al-Hmoud, and Jabir Wali Hakami(参考訳) 量子シミュレーションや光力学的キャビティの実験では、コヒーレンス制御は難しい問題である。 キャビティ内エンタングルメントを高めるために,2つの結合したオプティメカニカルキャビティを提案する。 光ホッピングは光モード間の結合を確立するために使用され、フォノントンネルは機械共振器間の結合を確立するために用いられる。 両方の空洞は古典的な光によって駆動される。 対数ネガティビティと量子ステアリングの2種類の量子測度を用いて、各空洞内で発生した量子相関のカップリング強度の影響について検討する。 この分析は、これらの量子メトリクスの重要性とドップラー系における様々な側面を明らかにする。 また,結合強度に基づく安定性条件についても検討した。 したがって、空洞内絡み合いの程度を定量化することができる。 適切なフォトン及びフォノンホッピング強度を選択することにより、生成した絡み合いを高めることができる。 現在利用可能な実験データに基づくパラメータのセットが計算に使用された。

In quantum simulations and experiments on optomechanical cavities, coherence control is a challenging issue. We propose a scheme of two coupled optomechanical cavities to enhance the intracavity entanglement. Photon hopping is employed to establish couplings between optical modes, while phonon tunneling is utilized to establish couplings between mechanical resonators. Both cavities are driven by classical light. We explore the influences of coupling strengths of the quantum correlations generated inside each cavity using two types of quantum measures: logarithmic negativity and quantum steering. This analysis will reveal the significance of these quantum metrics as well as their various aspects in the Doppler regime. We also investigate stability conditions based on coupling strengths. Therefore, it is possible to quantify the degree of intracavity entanglement. The generated entanglement can be enhanced by choosing the appropriate photon and phonon hopping strengths. A set of parameters based on the currently available experimental data was used in the calculations.
翻訳日:2023-02-16 19:09:32 公開日:2022-09-02
# 一般化 Aubry-Andr\'{e}-Harper モデルの永続的ホモロジー解析

Persistent homology analysis of a generalized Aubry-Andr\'{e}-Harper model ( http://arxiv.org/abs/2204.13276v2 )

ライセンス: Link先を確認
Yu He, Shiqi Xia, Dimitris G. Angelakis, Daohong Song, Zhigang Chen, Daniel Leykam(参考訳) 格子モデルにおける臨界位相の観測は、観測可能な有限時間や大きさのスケーリングを解析する必要があるため困難である。 永続ホモロジーの計算トポロジー手法を用いて一般化されたオーブリー・アンド・r\'{e}-ハーパーモデルの位相を特徴づける方法について検討する。 持続的ホモロジーを用いて得られる特徴の持続的エントロピーと平均2乗寿命は、従来の測度(シャノンエントロピーと逆参加比)と同様に振る舞い、局所的、拡張的、クリティック位相を区別することができる。 しかし、持続的なエントロピーはモデルの無秩序な構造と明確に区別できることがわかった。 永続ホモロジーアプローチは、エネルギー固有状態とウェーブパケット伝播ダイナミクスの両方に適用することができる。

Observing critical phases in lattice models is challenging due to the need to analyze the finite time or size scaling of observables. We study how the computational topology technique of persistent homology can be used to characterize phases of a generalized Aubry-Andr\'{e}-Harper model. The persistent entropy and mean squared lifetime of features obtained using persistent homology behave similarly to conventional measures (Shannon entropy and inverse participation ratio) and can distinguish localized, extended, and crticial phases. However, we find that the persistent entropy also clearly distinguishes ordered from disordered regimes of the model. The persistent homology approach can be applied to both the energy eigenstates and the wavepacket propagation dynamics.
翻訳日:2023-02-15 06:45:13 公開日:2022-09-02
# ハイブリッドモデルと学習に基づく適応ナビゲーションフィルタ

A Hybrid Model and Learning-Based Adaptive Navigation Filter ( http://arxiv.org/abs/2207.12082v3 )

ライセンス: Link先を確認
Barak Or and Itzik Klein(参考訳) 慣性航法システムとグローバル航法衛星システムとの融合は、ドローン、陸上車両、海洋船などの多くのプラットフォームで定期的に使用されている。 この融合はモデルベースの拡張カルマンフィルタフレームワークで一般的に実行される。 フィルタの重要なパラメータの1つはプロセスノイズ共分散である。 車両のダイナミックスの不確実性と慣性センサーの品質の両方を考慮するため、リアルタイムソリューションの正確性に責任がある。 ほとんどの状況において、プロセスノイズは共変性であると仮定される。 しかし、車両の動力学や軌道全体のセンサ計測の変動により、プロセスノイズの共分散は変化の対象となる。 このような状況に対処するため,いくつかの適応モデルに基づくカルマンフィルタが文献に提案されている。 本稿では,ハイブリッドモデルと学習に基づく適応ナビゲーションフィルタを提案する。 我々は,モデルに基づくカルマンフィルタを用いて,慣性センサの読み出しのみに基づいて,瞬時系のノイズ共分散行列をチューニングするディープニューラルネットワークモデルを設計する。 プロセスノイズ共分散が学習されると、確立されたモデルベースのカルマンフィルタに接続される。 提案するハイブリッドフレームワークを導出した後,二次子を用いたフィールド実験結果を示し,モデルに基づく適応アプローチとの比較を行った。 提案手法は位置誤差が25%向上したことを示す。 さらに,提案手法は任意のナビゲーションフィルタや関連する推定問題においても利用できる。

The fusion between an inertial navigation system and global navigation satellite systems is regularly used in many platforms such as drones, land vehicles, and marine vessels. The fusion is commonly carried out in a model-based extended Kalman filter framework. One of the critical parameters of the filter is the process noise covariance. It is responsible for the real-time solution accuracy, as it considers both vehicle dynamics uncertainty and the inertial sensors quality. In most situations, the process noise is covariance assumed to be constant. Yet, due to vehicle dynamics and sensor measurement variations throughout the trajectory, the process noise covariance is subject to change. To cope with such situations, several adaptive model-based Kalman filters were suggested in the literature. In this paper, we propose a hybrid model and learning-based adaptive navigation filter. We rely on the model-based Kalman filter and design a deep neural network model to tune the momentary system noise covariance matrix, based only on the inertial sensor readings. Once the process noise covariance is learned, it is plugged into the well-established, model-based Kalman filter. After deriving the proposed hybrid framework, field experiment results using a quadrotor are presented and a comparison to model-based adaptive approaches is given. We show that the proposed method obtained an improvement of 25% in the position error. Furthermore, the proposed hybrid learning method can be used in any navigation filter and also in any relevant estimation problem.
翻訳日:2023-02-09 09:37:17 公開日:2022-09-02
# 可換性と古典的客観性の出現

Commutativity and the emergence of classical objectivity ( http://arxiv.org/abs/2206.08249v2 )

ライセンス: Link先を確認
Eoghan Ryan, Eoin Carolan, Steve Campbell and Mauro Paternostro(参考訳) 本研究では,複数の浴槽に結合した場合に,ポインター状態に関する関連情報を冗長に増殖させるシステムがどう影響するかを検討する。 この目的のために、システムと2つの浴槽の接点を考える。1つは「アクセス可能な」環境であり、それ自身でシステムの状態を純粋に強調するメカニズムを生じさせ、古典的客観性が確立される条件を満たす。 第2の環境は、私たちが {\it inaccessible} と呼ぶもので、2つの物理的関係のある方法でシステムに影響を与える。 まず,システムとアクセス可能な浴槽の相互作用を記述するハミルトニアンとの相互作用を考える。 したがって、異なる時間スケールではあるものの、システムを軽視する原因となる。 第2に,ハミルトニアンのシステム利用環境と通勤しない熱的相互作用について考察する。 前者はシステムの状態をアクセス可能な環境に冗長にエンコードすることをまだ許しているが、後者は相関関係を劣化させ、最終的には長期の制限でそれらを破壊し、古典的な客観性を確立するために必要な条件が失われる。 このことは、古典的客観性をサポートする条件を確立する際に、様々なシステム-バス相互作用項間の可換性が果たす役割に光を当てる。

We examine how the ability of a system to redundantly proliferate relevant information about its pointer states is affected when it is coupled to multiple baths. To this end, we consider a system in contact with two baths: one -- termed the {\it accessible} environment -- which, on its own, induces a pure dephasing mechanism on the state of the system and satisfies the conditions for classical objectivity to be established. The second environment, which we dub as {\it inaccessible}, affects the system in two physically relevant ways. Firstly, we consider an interaction that commutes with the Hamiltonian describing the interaction between system and accessible bath. It thus also gives rise to dephasing of the system, albeit on different time scales. Secondly, we consider a thermalising interaction, which does not commute with the system-accessible environment Hamiltonian. While the former still allows the system to redundantly encode its state into the accessible environment, the latter degrades the correlations, eventually destroying them in the long-time limit, and thus leads to a loss of the conditions necessary for classical objectivity to be established. This sheds light on the role that commutativity between the various system-bath interaction terms plays when establishing the conditions for classical objectivity to be supported.
翻訳日:2023-02-09 04:33:34 公開日:2022-09-02
# 超伝導カーパラメトリック発振器における光子数の推定

Spectroscopic estimation of the photon number for superconducting Kerr parametric oscillators ( http://arxiv.org/abs/2209.00909v1 )

ライセンス: Link先を確認
Keisuke Matsumoto, Aiko Yamaguchi, Tsuyoshi Yamamoto, Shiro Kawabata, and Yuichiro Matsuzaki(参考訳) 量子アニール (QA) は組合せ最適化問題の解法である。 カー非線形パラメトリック発振器(KPO)はQAを実装するための有望な装置である。 KPOを用いた組合せ最適化問題を解くには、KPOの光子数を正確に制御する必要がある。 そこで本研究では,KPOの光子数を推定する方法を提案する。 我々は,KPOの光子数に関する情報を提供するために,KPOの光子数と,KPOの光子数とを結合することを検討する。

Quantum annealing (QA) is a way to solve combinational optimization problems. Kerr nonlinear parametric oscillators (KPOs) are promising devices for implementing QA. When we solve the combinational optimization problems using KPOs, it is necessary to precisely control the photon number of the KPOs. Here, we propose a feasible method to estimate the photon number of the KPO. We consider coupling an ancillary qubit to the KPO and show that spectroscopic measurements on the ancillary qubit provide information on the photon number of the KPO.
翻訳日:2023-01-28 04:10:11 公開日:2022-09-02
# フォトニックキャビティにおけるクーパー対スプリッタ:アンドレフ散乱の検出

Cooper pair splitter in a photonic cavity: Detection of Andreev scatterings ( http://arxiv.org/abs/2209.00866v1 )

ライセンス: Link先を確認
Bogdan R. Bu{\l}ka(参考訳) 二重量子ドットクーパー対スプリッタと結合したキャビティ量子電気力学(qed)の放射応答をシミュレーションし,そのスペクトル依存性を分析し,クーパー対移動のダイナミクスについて考察した。 このモデルは、2つの絡み合った電子が2つの近位量子ドット上のドット間一重項状態を通して2つの正常電極に移されるエネルギー部分空間に制限される。 我々の研究は、局所電荷感受性$\Pi(\omega_p)$をケルディシュグリーン関数を用いて、全バイアス電圧範囲で導出するサブギャップ系におけるアンドレーフ散乱に着目している。 特に、大電圧限界において、$\pi(\omega_p)$のスペクトルは、アンドレフ結合状態間の光子誘起遷移に関連する様々な散逸過程を示す単純な解析式によって表される。

We simulated the radiative response of the cavity quantum electrodynamics (QED) coupled to the double quantum dot Cooper pair splitter and analyzed its spectral dependence to get insight into dynamics of the Cooper pair transfers. The model is confined to the energy subspace where two entangled electrons are transferred to two normal electrodes through the inter-dot singlet state on two proximitized quantum dots. Our research is focused on the Andreev scatterings in the subgap regime, for which the local charge susceptibility $\Pi(\omega_p)$ is derived, by means of Keldysh Green functions, in a whole bias voltage range. In particular, in the large voltage limit the spectrum of $\Pi(\omega_p)$ is expressed by a simple analytical formula, which shows various dissipation processes related with photon-induced transitions between the Andreev bound states.
翻訳日:2023-01-28 04:09:47 公開日:2022-09-02
# 光子衝突を伴うボソニックサンプリング器の古典的モデリング

Classical modelling of a bosonic sampler with photon collisions ( http://arxiv.org/abs/2209.00855v1 )

ライセンス: Link先を確認
M. Umanskii, A.N. Rubtsov(参考訳) ボソンサンプリングが最初に提案されたとき、光子衝突はほとんど、あるいは全く起こらないと仮定された。 しかし、現代の実験的な実現は衝突が非常に一般的である設定に依存するため、回路に注入された光子数$M$は検出器数$N$に近い。 本稿では,ボソニック・サンプラーをシミュレートする古典的なアルゴリズムを提案する。入力における所定の分布に対する干渉計出力における与えられた光子分布の確率を計算する。 このアルゴリズムは複数の光子衝突の場合に最も効果的であり、それらの場合には既知のアルゴリズムよりも優れている。

When the problem of boson sampling was first proposed, it was assumed that little or no photon collisions occur. However, modern experimental realizations rely on setups where collisions are quite common, i.e. the number of photons $M$ injected into the circuit is close to the number of detectors $N$. Here we present a classical algorithm that simulates a bosonic sampler: it calculates the probability of a given photon distribution at the interferometer outputs for a given distribution at the inputs. This algorithm is most effective in cases with multiple photon collisions, and in those cases it outperforms known algorithms.
翻訳日:2023-01-28 04:09:31 公開日:2022-09-02
# 局所漸近正規量子統計モデルに対する推定器の効率

Efficiency of estimators for locally asymptotically normal quantum statistical models ( http://arxiv.org/abs/2209.00832v1 )

ライセンス: Link先を確認
Akio Fujiwara and Koichi Yamagata(参考訳) ここで、局所的漸近正規量子統計モデルに対する漸近表現定理を確立する。 この定理により、量子正則推定器や量子ミニマックス推定器のような量子推定器の漸近効率を研究でき、i.d.仮定を超えた普遍的な強い下界が得られる。 この定式化は、以前の論文(藤原と山形, Bernoulli 26 (2020) 2105-2141)で展開された量子同相性の理論を補完し、弱量子局所漸近正規性の理論の確固たる基礎を提供する。

We herein establish an asymptotic representation theorem for locally asymptotically normal quantum statistical models. This theorem enables us to study the asymptotic efficiency of quantum estimators such as quantum regular estimators and quantum minimax estimators, leading to a universal tight lower bound beyond the i.i.d. assumption. This formulation complements the theory of quantum contiguity developed in the previous paper [Fujiwara and Yamagata, Bernoulli 26 (2020) 2105-2141], providing a solid foundation of the theory of weak quantum local asymptotic normality.
翻訳日:2023-01-28 04:08:58 公開日:2022-09-02
# 量子ネットリストコンパイラ(QNC)

Quantum Netlist Compiler (QNC) ( http://arxiv.org/abs/2209.00819v1 )

ライセンス: Link先を確認
Shamminuj Aktar, Abdel-Hameed A. Badawy, Nandakishore Santhi(参考訳) 過去10年間、量子コンピューティングハードウェアは急速に発展し、世界中の科学者の間で非常に興味深く、有望で、活発な研究分野となった。 所望の量子機能を達成するために、量子アルゴリズムは高レベルな記述から機械固有の物理演算シーケンスへの変換を必要とする。 古典的なコンパイラとは対照的に、最先端の量子コンパイラは初期段階にある。 我々は、汎用ユニタリ演算子に対処し、量子機械の様々な基礎技術や特性に基づいて基本ユニタリ演算を生成する量子コンパイラの研究の必要性を信じている。 本研究では、任意のユニタリ演算子や所望の初期状態の量子アルゴリズムをOpenQASM-2.0回路に変換する量子ネットリストコンパイラ(QNC)を導入し、実際の量子ハードウェア上で動作できるようにする。 大規模なシミュレーションはIBM量子システム上で実行された。 その結果、qncは量子回路最適化に適しており、実際に競争成功率の高い回路を生成することがわかった。

Over the last decade, Quantum Computing hardware has rapidly developed and become a very intriguing, promising, and active research field among scientists worldwide. To achieve the desired quantum functionalities, quantum algorithms require translation from a high-level description to a machine-specific physical operation sequence. In contrast to classical compilers, state-of-the-art quantum compilers are in their infancy. We believe there is a research need for a quantum compiler that can deal with generic unitary operators and generate basic unitary operations according to quantum machines' diverse underlying technologies and characteristics. In this work, we introduce the Quantum Netlist Compiler (QNC) that converts arbitrary unitary operators or desired initial states of quantum algorithms to OpenQASM-2.0 circuits enabling them to run on actual quantum hardware. Extensive simulations were run on the IBM quantum systems. The results show that QNC is well suited for quantum circuit optimization and produces circuits with competitive success rates in practice.
翻訳日:2023-01-28 04:08:44 公開日:2022-09-02
# テレコム波長における1650モードの単一光子の貯蔵

Storage of 1650 modes of single photons at telecom wavelength ( http://arxiv.org/abs/2209.00802v1 )

ライセンス: Link先を確認
Shi-Hai Wei, Bo Jing, Xue-Ying Zhang, Jin-Yu Liao, Hao Li, Li-Xing You, Zhen Wang, You Wang, Guang-Wei Deng, Hai-Zhi Song, Daniel Oblak, Guang-Can Guo, Qiang Zhou(参考訳) 量子ネットワークの完全なポテンシャルを推し進めるためには、量子資源を適切な速度で長距離に分散することができる必要がある。 その結果、ネットワーク内の全てのコンポーネントは、フォトニック量子状態を操作するために大きなマルチモード容量を持つ必要がある。 この目的に向けて、マルチモードフォトニック量子メモリ、特に通信波長での動作は依然として重要な課題である。 ここでは1532nmの時間的多重化量子メモリを示す。 10mの極低温冷却エルビウムドープシリカファイバーに原子周波数コムプロトコルを用いることにより、通信帯域ヘラルド単一光子のマルチモード量子ストレージを実現する。 多重化は5つのスペクトルチャネル – それぞれ10GHz幅 – を含み、それぞれが330時間モードまでの時間モードを持ち、単一の光子の1650モードを同時に保存する。 我々のデモは、将来の量子インターネットに不可欠な高速量子ネットワークの扉を開く。

To advance the full potential of quantum networks one should be able to distribute quantum resources over long distances at appreciable rates. As a consequence, all components in the networks need to have large multimode capacity to manipulate photonic quantum states. Towards this end, a multimode photonic quantum memory, especially one operating at telecom wavelength, remains a key challenge. Here we demonstrate a spectro-temporally multiplexed quantum memory at 1532 nm. Multimode quantum storage of telecom-band heralded single photons is realized by employing the atomic frequency comb protocol in a 10-m-long cryogenically cooled erbium doped silica fibre. The multiplexing encompasses five spectral channels - each 10 GHz wide - and in each of these up to 330 temporal modes, resulting in the simultaneous storage of 1650 modes of single photons. Our demonstrations open doors for high-rate quantum networks, which are essential for future quantum internet.
翻訳日:2023-01-28 04:08:28 公開日:2022-09-02
# SDPによる量子回路パラメータの最適化

Optimizing quantum circuit parameters via SDP ( http://arxiv.org/abs/2209.00789v1 )

ライセンス: Link先を確認
Eunou Lee(参考訳) 近年、パラメータ化量子回路は最適化問題のための量子アルゴリズムを設計するための主要なツールとなっている。 パラメータ化された回路の族を完全に活用することの難しさは、パラメータの数が指数関数的に増加するような非凸ランドスケープにおいて良いパラメータの集合を見つけることである。 本稿では,パラメータ化量子回路を最適化するための新しいフレームワークについて紹介する。 この枠組みでは,量子最大カットと呼ばれる量子最適化問題に対して近似解を生成するアルゴリズムを提案する。 丸めアルゴリズムは、基礎となる相互作用グラフに関係なく、パラメータの数に多項式時間で実行される。 その結果、量子最大カットの一般的な例に対する0.562近似アルゴリズムは、既知の最良アルゴリズムに改善され、近似比は 0.54 未満となる。

In recent years, parameterized quantum circuits have become a major tool to design quantum algorithms for optimization problems. The challenge in fully taking advantage of a given family of parameterized circuits lies in finding a good set of parameters in a non-convex landscape that can grow exponentially to the number of parameters. We introduce a new framework for optimizing parameterized quantum circuits: round SDP solutions to circuit parameters. Within this framework, we propose an algorithm that produces approximate solutions for a quantum optimization problem called Quantum Max Cut. The rounding algorithm runs in polynomial time to the number of parameters regardless of the underlying interaction graph. The resulting 0.562-approximation algorithm for generic instances of Quantum Max Cut improves on the previously known best algorithms, which give approximation ratios of less than 0.54.
翻訳日:2023-01-28 04:08:14 公開日:2022-09-02
# 非平衡定常状態における量子速度

Quantum Kinetic Rates within the Nonequilibrium Steady State ( http://arxiv.org/abs/2209.01154v1 )

ライセンス: Link先を確認
Lo\"ic Joubert-Doriol, Kenneth A. Jung, Artur F. Izmaylov, and Paul Brumer(参考訳) 量子ネットワークの非平衡定常状態(ness)は、物理的および生物学的シナリオのホストの中心である。 例えば、視覚や光合成などの自然なプロセスや、光セルのような技術装置は、光の不整合(例えば日光)によって活性化され、量子輸送につながる。 ここでは、NESSにおける量子ネットワークのコンポーネントを定義し、これらのコンポーネント間のプロセスの速度を得るための、完全に一般的なアプローチを提供する。 量子効果は 両方に 明示的に含まれています (a)プロジェクション演算子によるネットワークコンポーネントの定義、 (b)レートプロセスにおけるコヒーレンスの役割を決定すること。 例として、この手法をモデルケース、Vレベルシステムの2つのバージョン、スピンボソンモデルに適用し、速度決定における環境と内部システムの特性の役割について検討する。 さらに、マルコフ対非マルコフ寄与の役割を定量化し、非平衡定常状態の摂動によってNESSレートが得られる条件を明らかにする。

The nonequilibrium steady state (NESS) of a quantum network is central to a host of physical and biological scenarios. Examples include natural processes such as vision and photosynthesis, as well as technical devices such as photocells, both activated by incoherent light (e.g. sunlight) and leading to quantum transport. Here, a completely general approach to defining components of a quantum network in the NESS, and obtaining rates of processes between these components is provided. Quantum effects are explicitly included throughout, both in (a) defining network components via projection operators, and (b) in determining the role of coherences in rate processes. As examples, the methodology is applied to model cases, two versions of the V-level system, and to the spin-boson model, wherein the role of the environment and of internal system properties in determining the rates is examined. In addition, the role of Markovian vs. non-Markovian contributions is quantified, exposing conditions under which NESS rates can be obtained by perturbing the nonequilibrium steady state.
翻訳日:2023-01-28 04:03:03 公開日:2022-09-02
# 装飾AKLTモデルにおけるスペクトルギャップと基底状態の不明瞭性の安定性

Stability of the spectral gap and ground state indistinguishability for a decorated AKLT model ( http://arxiv.org/abs/2209.01141v1 )

ライセンス: Link先を確認
Angelo Lucia, Alvin Moon and Amanda Young(参考訳) AKLTモデルに対する有限体積基底状態の局所的不明瞭性を確立するためにクラスター展開を用いる。 我々の推定では、モデルは局所的位相量子秩序(LTQO)を満たすため、基底状態上のスペクトルギャップは局所的摂動に対して安定である。

We use cluster expansions to establish local indistiguishability of the finite-volume ground states for the AKLT model on decorated hexagonal lattices with decoration parameter at least 5. Our estimates imply that the model satisfies local topological quantum order (LTQO), and so the spectral gap above the ground state is stable against local perturbations.
翻訳日:2023-01-28 04:02:48 公開日:2022-09-02
# 四つの直交四乗四乗四乗極大絡み状態は局所的にマークできる

Any four orthogonal ququad-ququad maximally entangled states are locally markable ( http://arxiv.org/abs/2209.01135v1 )

ライセンス: Link先を確認
Li-Yi Hsu(参考訳) 量子状態判別では、観測者は量子システムを与えられ、2つ以上の可能なターゲット状態からその状態を検証することを目的としている。 量子状態判別の拡張としての局所量子状態マーキングでは、N個の合成量子系とN個の直交標的量子状態が存在する。 遠方のアリスとボブは、局所演算と古典的通信によって与えられた量子システムの状態を正しくマークするよう求められている。 ここでは,N4${\otimes}$4,N=4,5,6,7の局所状態マーキングについて検討する。 そこでaliceとbobは、局所観測可能な${\sigma}_{z}$と${\sigma}_{x}$のどちらかを同時に測定し、絡み合いを交換する3つのローカル操作を許可している。 4${\otimes}=4の任意の4つの系を考えると、アリスとボブは完全局所量子状態マーキングを行うことができる。 N=5、6のケースでは、特定のターゲット状態で完全局所状態マーキングを行うことができる。 アリスとボブは最も単純な場合ではそのタスクを達成できないので、7つの目標状態が与えられたとき、局所量子状態マーキングの不確かさを予想する。

In quantum state discrimination, the observers are given a quantum system and aim to verify its state from the two or more possible target states. In the local quantum state marking as an extension of quantum state discrimination, there are N composite quantum systems and N possible orthogonal target quantum states. Distant Alice and Bob are asked to correctly mark the states of the given quantum systems via local operations and classical communication. Here we investigate the local state marking with N 4 ${\otimes}$ 4 systems, N=4, 5, 6, and 7. Therein, Alice and Bob allow for three local operations: measuring the local observable either ${\sigma}_{z}$ or ${\sigma}_{x}$ simultaneously, and entanglement swapping. It shows that, given arbitrary four 4 ${\otimes}$ 4 systems, Alice and Bob can perform the perfect local quantum state marking. In the N=5, 6 cases, they can perform perfect local state marking with specific target states. We conjecture the impossibility of the local quantum state marking given any seven target states since Alice and Bob cannot fulfill the task in the simplest case.
翻訳日:2023-01-28 04:02:42 公開日:2022-09-02
# 超高速ユニバーサル量子情報処理のための光パラメトリック増幅器による量子非退化測定

Quantum nondemolition measurements with optical parametric amplifiers for ultrafast universal quantum information processing ( http://arxiv.org/abs/2209.01114v1 )

ライセンス: Link先を確認
Ryotatsu Yanagimoto, Rajveer Nehra, Ryan Hamerly, Edwin Ng, Alireza Marandi, Hideo Mabuchi(参考訳) 室温超高速光子数分解(pnr)量子非退化(qnd)測定の実現は、フォトニック量子情報処理(qip)に重要な意味を持ち、例えば離散変数アーキテクチャにおける決定論的量子計算を可能にするが、強結合の必要性はスケーラブルな実装の開発を妨げている。 本研究では,2次的(すなわち$\chi^{(2)}$)非線形相互作用を用いたPNR QNDへの非線形光学経路の提案と解析を行う。 位相整合型光パラメトリック増幅器(OPA)を駆動するコヒーレントポンプ場は,Bogoliubov励起数に応じて変位を経験することを示す。 これにより、ポンプ変位の測定は、信号Bogoliubov励起のQND測定を提供し、信号モードを励起光子数状態に投影する。 次に, 非線形オパダイナミクスを, ガウス的資源のみを用いて決定論的にgottesman-kitaev-preskill状態を生成する方法を示し, 連続変数系におけるフォールトトレラントqipに対する全最適経路を提供する。 最後に、位相ミスマッチ光パラメトリック発振器と多レベル原子キャビティqedシステムの類似性を強調することにより、これらのqndスキームをより伝統的な文脈に配置し、出力ポンプ二次の連続的な監視が、圧縮された光子数状態へのキャビティ内信号モードの条件的局在を誘導することを示す。 本研究は,超高速非ガウス量子状態工学と量子計算のための普遍的ツールとしてのopaの豊富なポテンシャルを浮き彫りにして,短期的$\chi^{(2)}$非線形ナノフォトニクスで実現可能であることを示唆する。

Realization of a room-temperature ultra-fast photon-number-resolving (PNR) quantum nondemolition (QND) measurement would have significant implications for photonic quantum information processing (QIP), enabling, e.g., deterministic quantum computation in discrete-variable architectures, but the requirement for strong coupling has hampered the development of scalable implementations. In this work, we propose and analyze a nonlinear-optical route to PNR QND using quadratic (i.e., $\chi^{(2)}$) nonlinear interactions. We show that the coherent pump field driving a phase-mismatched optical parametric amplifier (OPA) experiences displacements conditioned on the number of signal Bogoliubov excitations. A measurement of the pump displacement thus provides a QND measurement of the signal Bogoliubov excitations, projecting the signal mode to a squeezed photon-number state. We then show how our nonlinear OPA dynamics can be utilized for deterministically generating Gottesman-Kitaev-Preskill states only with additional Gaussian resources, offering an all-optical route for fault-tolerant QIP in continuous-variable systems. Finally, we place these QND schemes into a more traditional context by highlighting analogies between the phase-mismatched optical parametric oscillator and multilevel atom-cavity QED systems, by showing how continuous monitoring of the outcoupled pump quadrature induces conditional localization of the intracavity signal mode onto squeezed photon-number states. Our analysis suggests that our proposal may be viable in near-term $\chi^{(2)}$ nonlinear nanophotonics, highlighting the rich potential of OPA as a universal tool for ultrafast non-Gaussian quantum state engineering and quantum computation.
翻訳日:2023-01-28 04:02:15 公開日:2022-09-02
# 可変でロバストな室温マグノン・マグノン絡み合い

Tunable and robust room-temperature magnon-magnon entanglement ( http://arxiv.org/abs/2209.01032v1 )

ライセンス: Link先を確認
Yuefei Liu, Andrey Bagrov, Anders Bergman, Anna Delin, Olle Eriksson, Manuel Pereiro, Simon Streib, Danny Thonig, Erik Sj\"oqvist, and Vahid Azimi-Mousolou(参考訳) しかし、制御可能な高温の絡み合いを実現することは、実用化や量子技術の基礎研究において非常に重要である。 ここでは, 2成分量子マグノニック系における高温下での絡み合った定常状態の存在を報告する。 二元系反強磁性体またはフェリ磁性体における2つのマグノンの散逸ダイナミクスを振動フォノンモードと外部回転磁場により検討する。 両部マグノン-マグノンの絡み合いを定量化するために, 絡み合いの負性を利用して温度および磁場依存性を計算する。 任意のフォノン周波数とマグノン-フォノン結合速度に対して,マグノン-マグノンの絡み合いが室温以上で持続する磁場振幅と周波数の幅が常に存在することを示す。 結果の一般性は、様々な結晶および合成二分体反強磁性および強磁性体における実験的観察を可能にする。

Although challenging, realizing controllable high-temperature entanglement is of immense importance for practical applications as well as for fundamental research in quantum technologies. Here, we report the existence of entangled steady states in bipartite quantum magnonic systems at high temperatures. We consider dissipative dynamics of two magnons in a bipartite antiferromagnet or ferrimagnet subjected to a vibrational phonon mode and an external rotating magnetic field. To quantify the bipartite magnon-magnon entanglement, we use the entanglement negativity and compute its dependence on the temperature and magnetic field. We show that, for any given phonon frequency and magnon-phonon coupling rates, there are always ranges of the magnetic field amplitudes and frequencies, for which bipartite magnon-magnon entanglement persists up to and above the room temperature. The generality of the result allows for experimental observation in a variety of crystals and synthetic bipartite antiferromagnetic and ferrimagnetic materials.
翻訳日:2023-01-28 04:01:21 公開日:2022-09-02
# FMO錯体における輸送力学の非マルコフ挙動の離散時間量子シミュレーション

Discrete-time quantum simulation of non-Markovian behaviour of transport dynamics in FMO complex ( http://arxiv.org/abs/2209.00994v1 )

ライセンス: Link先を確認
Mousumi Kundu and C. M. Chandrashekar(参考訳) 緑色サルファー細菌に存在するフェンナ・モーゼス・オルソン複合体は、光ハーベスト化クロロソームと膜埋め込み細菌反応中心の間の励起エネルギーの移動を仲介することが知られている。 このような輸送プロセスの効率が高いため、他のシステムで同様の力学をモデル化・工学的にモデル化し、リアルタイムに利用することを目的とした色素タンパク質複合体システムである。 いくつかの研究は、波状行動と非マルコフ量子ジャンプにより輸送効率が向上し、量子コヒーレンスが長生きし復活したとしている。 これらの系の力学は量子古典的な状態にあるため、そのような力学の量子シミュレーションは、未解決の輸送効率を高めるための量子的特徴の微妙な役割を探求するのに役立つ。 FMO錯体力学の離散量子シミュレーションは、熱浴の効率的なエンジニアリングとシステムによる環境制御に役立つ。 本研究では, 離散量子シミュレーションフレームワークを用いて, 非マルコフ記憶効果が, 内部構造や環境効果がより高速な輸送に有利な場合に, 特定のサイトパイアに存在することを定量化し, 示す。 その結果、輸送効率の向上とともに量子ジャンプにおける非マルコビアン性の間の関係性に傾いている。

The Fenna-Mathews-Olson (FMO) complex present in green sulphur bacteria are known to mediate the transfer of excitation energy between light-harvesting chlorosomes and membrane-embedded bacterial reaction centres. Due to high efficiency of such transport process, it is an extensively studied pigment-protein complex system with the eventual aim of modelling and engineering similar dynamics in other systems and use it for real time application. Some studies have attributed the enhancement of transport efficiency to wave-like behaviour and non-Markovian quantum jumps resulting in long lived and revival of quantum coherence, respectively. Since dynamics in these systems resides in quantum-classical regime, quantum simulation of such dynamics will help in exploring the subtle role of quantum features in enhancing the transport efficiency which has remained unsettled. Discrete quantum simulation of the FMO complex dynamics can help in efficient engineering of the heat bath and controlling the environment with the system. In this work, using the discrete quantum simulation framework we quantify and show that the non-Markovian memory effects are present in specific site-pairs when internal structures and environmental effects are in favour of faster transport. As a consequence, our study lean towards the connection between non-Markovianity in the quantum jumps with the enhancement of transport efficiency.
翻訳日:2023-01-28 04:01:04 公開日:2022-09-02
# コヒーレント状態によって記述される同一減衰調和振動子

Identical damped harmonic oscillators described by coherent states ( http://arxiv.org/abs/2209.00914v1 )

ライセンス: Link先を確認
S. V. Mousavi(参考訳) マルコフのマスター方程式に従う量子減衰型高調波発振器(DHO)のいくつかの側面は、熱ノイズがないと考えられる。 連続性方程式が導出され、ボヘミア軌道が構築される。 マスター方程式の解として、1つのコヒーレント状態をとり、エネルギー、位置、運動量基底におけるコヒーレンス相対エントロピーである$C_r$を解析的に計算する。 C_r$ は位置と運動量基底の両方において一定であるが、エネルギー基底における時間の減少関数は、長い時間でゼロとなり、その役割が好ましい基底であることを明らかにする。 次に、2つのコヒーレント状態、猫状態、および2つの重畳状態の間の複素平面における分離の関数としてエネルギー基底における2つの猫状態の重畳についてコヒーレンスを計算する。 この分離によってコヒーレンスが増大すると考えられる。 さらに、重ね合わせのコヒーレンスを重ね合わせの分解状態のコヒーレンスと比較する。 最後に, 2つの非相互作用型dhoの系を考えることで, 減少単粒子状態のコヒーレンス, 結合検出確率, 粒子の平均二乗分離に対する量子統計の影響を考察した。 我々の計算は、反対称状態に対する単一粒子コヒーレンスは常に対称状態よりも小さいことを示している。 さらに、この相互作用するオープンシステムには、ボソンのアンチバンチとフェルミオンの束縛が見られる。

Some aspects of quantum damped harmonic oscillator (DHO) obeying a Markovian master equation are considered in absence of thermal noise. The continuity equation is derived and Bohmian trajectories are constructed. As a solution of the master equation, we take a single coherent state and compute analytically the relative entropy of coherence, $C_r$, in the energy, position and momentum bases. Although $C_r$ is constant in both the position and the momentum bases, it is a decreasing function of time in the energy basis becoming zero at long times, revealing its role as the preferred basis. Then, coherence is computed for a superposition of two coherent states, a cat state, and also a superposition of two cat states in the energy basis as a function of separation, in complex plane, between the two superposed states. It is seen that the coherence increases with this separation. Furthermore, coherence of superposition is compared to that of decomposed states in the superposition. Finally, considering a system of two non-interacting DHOs, the effect of quantum statistics is studied on the coherence of reduced single-particle states, the joint detection probability and the mean square separation of particles. Our computations show that the single-particle coherence for antisymmetric states is always less than that of symmetric ones. Furthermore, boson anti-bunching and fermion bunching is seen in this interacting open system.
翻訳日:2023-01-28 04:00:09 公開日:2022-09-02
# 複雑な非凸制約最適化問題の解法のための社会物理学に基づくハイブリッドメタヒューリスティック

A socio-physics based hybrid metaheuristic for solving complex non-convex constrained optimization problems ( http://arxiv.org/abs/2212.03711v1 )

ライセンス: Link先を確認
Ishaan R Kale, Anand J Kulkarni, Efren Mezura-Montes(参考訳) 人工知能に基づくヒューリスティックおよびメタヒューリスティックアルゴリズムがこれまでにいくつか開発されている。 これらのアルゴリズムは、異なる領域から複雑な問題を解くための優位性を示している。 しかし、現実の制約付き最適化問題を解決するためには、これらのアルゴリズムを批判的に検証する必要がある。 これらの問題の探索行動は、多くの線形、非線形、非凸型等式および不等式制約を伴うため、異なる。 本研究では,社会ベースのコホート・インテリジェンス(CI)アルゴリズムから得られた2つの制約付きメタヒューリスティックアルゴリズムを用いて,57個の実世界の制約付き最適化問題を解く。 最初のCIベースのアルゴリズムでは、自己適応型ペナルティ関数アプローチ、すなわちCI-SAPFが組み込まれている。 第2のアルゴリズムはCI-SAPFと、CI-SAPF-CBOと呼ばれる物理学に基づく衝突体最適化(CBO)の固有の性質を組み合わせたものである。 CI-SAPFとCI-SAPF-CBOの結果は、他の制約付き最適化アルゴリズムと比較される。 提案アルゴリズムの優位性を詳細に論じ,その後に制約処理技術の発展に向けた今後の方向性について述べる。

Several Artificial Intelligence based heuristic and metaheuristic algorithms have been developed so far. These algorithms have shown their superiority towards solving complex problems from different domains. However, it is necessary to critically validate these algorithms for solving real-world constrained optimization problems. The search behavior in those problems is different as it involves large number of linear, nonlinear and non-convex type equality and inequality constraints. In this work a 57 real-world constrained optimization problems test suite is solved using two constrained metaheuristic algorithms originated from a socio-based Cohort Intelligence (CI) algorithm. The first CI-based algorithm incorporates a self-adaptive penalty function approach i.e., CI-SAPF. The second algorithm combines CI-SAPF with the intrinsic properties of the physics-based Colliding Bodies Optimization (CBO) referred to CI-SAPF-CBO. The results obtained from CI-SAPF and CI-SAPF-CBO are compared with other constrained optimization algorithms. The superiority of the proposed algorithms is discussed in details followed by future directions to evolve the constrained handling techniques.
翻訳日:2023-01-28 03:52:44 公開日:2022-09-02
# ブロックチェーンのための効率的な量子非Fungibleトークン

Efficient quantum non-fungible tokens for blockchain ( http://arxiv.org/abs/2209.02449v1 )

ライセンス: Link先を確認
Subhash Shankar Pandey, Tadasha Dash, Prasanta K. Panigrahi, and Ahmed Farouk(参考訳) Blockchainは、ConsensusアルゴリズムとSmart Contractの役割に応じてトランザクションの送信とストレージを可能にする分散システムである。 NFT(Non-fungible tokens)は、ブロックチェーン技術の最も優れた特性を統合して、ユニークかつボナファイドトークンを提供する。 残念ながら、現在の古典的NFTは鉱業の消費力とセキュリティの欠如に高いコストを被っている。 そこで,本論文では,NFTを表す量子状態がブロックチェーン上に実装され,物理的に所有者に渡されるのではなく,量子不可能なトークンを作成するための新しいプロトコルを提案する。 提案手法は,様々な攻撃に対してシミュレーションおよび解析を行い,その攻撃に対する安全性を実証する。 さらに,提案プロトコルは従来のプロトコルよりも信頼性が高く安価なNFTを提供する。

Blockchain is a decentralized system that allows transaction transmission and storage according to the roles of the Consensus algorithm and Smart contracts. Non-fungible tokens (NFTs) consolidate the best characteristics of blockchain technology to deliver unique and bona fide tokens, each with distinctive attributes with non-fungible resources. Unfortunately, current classical NFTs are suffering from high costs regarding the consumed power of mining and lack of security. Therefore, this paper presents a new protocol for preparing quantum non-fungible tokens where a quantum state representing NFT is mounted on a blockchain instead of physically giving it to the owner. The proposed scheme is simulated and analyzed against various attacks and proves its ability to secure against them. Furthermore, the presented protocol provides reliable and cheaper NFTs than the classical one.
翻訳日:2023-01-28 03:52:28 公開日:2022-09-02
# 静電場の隠れ超対称性

Hidden Supersymmetry of Electrostatic Fields ( http://arxiv.org/abs/2209.01248v1 )

ライセンス: Link先を確認
Juan D. Garc\'ia-Mu\~noz and A Raya(参考訳) 静電場の隠れた超対称性が証明されている。 静電ポテンシャルのアンザッツをノードレス関数の自然対数として示し、静電場が二階収束超対称変換に関連するベルヌーイ方程式を満たすことを示した。 いわゆるconfluentアルゴリズムを用いることで、電荷密度の適切な選択を通じて、対応する超対称初期ポテンシャルの基底状態を見つけることができる。 さらに、Schr{\"o}ディンガー様可溶性電位の関連する静電場プロファイルを決定することができる。

A hidden supersymmetry of electrostatic fields is evidenced. Proposing an ansatz for the electrostatic potential as the natural logarithm of a nodeless function, it is demonstrated that the electrostatic fields fulfil the Bernoulli equation associated to a second-order confluent supersymmetric transformation. By using the so-called confluent algorithm, it is possible, through the appropriate choice of a charge density, to find the ground state of the corresponding supersymmetric initial potential. Furthermore, the associated electrostatic field profile of a Schr{\"o}dinger-like solvable potentials can be determined
翻訳日:2023-01-28 03:52:16 公開日:2022-09-02
# (それ以上) 関係性量子力学の擁護:「関係性事実」についての注意は存在しない。 関係量子力学は量子力学と相容れない」

(Once more) In defense of Relational Quantum Mechanics: A note on `Relative facts do not exist. Relational quantum mechanics is incompatible with quantum mechanics' ( http://arxiv.org/abs/2209.01237v1 )

ライセンス: Link先を確認
Aur\'elien Drezet(参考訳) これはlawrence, markiewicz and \'{z}ukowski対ロヴェリの理論と非文脈性に関するarxiv:2108.11793を参照。

This is a short note to answer Lawrence, Markiewicz and \'{Z}ukowski objection [see arXiv:2108.11793] to Rovelli's theory and concerning non-contextuality.
翻訳日:2023-01-28 03:52:06 公開日:2022-09-02
# テンソルネットワーク状態の効率的な断熱処理

Efficient Adiabatic Preparation of Tensor Network States ( http://arxiv.org/abs/2209.01230v1 )

ライセンス: Link先を確認
Zhi-Yuan Wei, Daniel Malz, J. Ignacio Cirac(参考訳) 正規テンソルネットワーク状態を含む有限格子内の有限体親ハミルトニアンの特異な基底状態であるテンソルネットワーク状態と、他の関連する非正規状態の族を作成するための特定の断熱経路を提案し、研究する。 この経路はギャップを保証し、効率的な数値シミュレーションを可能にする。 1Dでは, 相関長の異なる状態群と1D AKLT状態群を数値的に検討し, 逐次的調製法により, 断熱処理が標準法よりもはるかに高速であることを示す。 また, 逐次合成法が知られていない六角格子上の2次元aklt状態に適用し, 比較的大きな格子に対して非常に効率的に調製できることを示す。

We propose and study a specific adiabatic path to prepare a family of tensor network states that are unique ground states of few-body parent Hamiltonians in finite lattices, which include normal tensor network states, as well as other relevant non-normal states. This path guarantees a gap and allows for efficient numerical simulation. In 1D we numerically investigate the preparation of a family of states with varying correlation lengths and the 1D AKLT state and show that adiabatic preparation can be much faster than standard methods based on sequential preparation. We also apply the method to the 2D AKLT state on the hexagonal lattice for which no method based on sequential preparation is known, and show that it can be prepared very efficiently for relatively large lattices.
翻訳日:2023-01-28 03:52:00 公開日:2022-09-02
# テンソルネットワーク量子機械学習モデルのデシャリング

Decohering Tensor Network Quantum Machine Learning Models ( http://arxiv.org/abs/2209.01195v1 )

ライセンス: Link先を確認
Haoran Liao, Ian Convy, Zhibo Yang, K. Birgitta Whaley(参考訳) テンソルネットワーク量子機械学習(QML)モデルは、短期量子ハードウェアにおける有望な応用である。 量子ビットのデコヒーレンスはqmlモデルの性能を低下させることが期待されているが、モデルにアンシラスを追加してモデルの仮想結合次元を増加させることで、どの程度性能を低下させるかは明らかではない。 ここでは2つのモデルの分類性能に対するデコヒーレンスとアンシラの競合について検討し、回帰の観点からデコヒーレンス効果の分析を行った。 2つのアンシラを持つ完全デコヒーレント・ユニタリ・ツリー・テンソル・ネットワーク(TTN)が少なくとも非デコヒーレント・ユニタリ・TTNと同様に機能することを示す数値的な証拠を提示し、結果として、デコヒーレンス量に関係なく少なくとも2つのアンシラをユニタリ・TTNに追加することは有益であることを示す。

Tensor network quantum machine learning (QML) models are promising applications on near-term quantum hardware. While decoherence of qubits is expected to decrease the performance of QML models, it is unclear to what extent the diminished performance can be compensated for by adding ancillas to the models and accordingly increasing the virtual bond dimension of the models. We investigate here the competition between decoherence and adding ancillas on the classification performance of two models, with an analysis of the decoherence effect from the perspective of regression. We present numerical evidence that the fully-decohered unitary tree tensor network (TTN) with two ancillas performs at least as well as the non-decohered unitary TTN, suggesting that it is beneficial to add at least two ancillas to the unitary TTN regardless of the amount of decoherence may be consequently introduced.
翻訳日:2023-01-28 03:51:47 公開日:2022-09-02
# 長距離量子スピンはしごにおける連続変化臨界指数

Continuously varying critical exponents in long-range quantum spin ladders ( http://arxiv.org/abs/2209.01182v1 )

ライセンス: Link先を確認
P. Adelhardt and K.P. Schmidt(参考訳) 本研究では,非破壊的長距離ハイゼンベルク相互作用を持つ量子スピンラダー上で,隠れ弦秩序を持つrung-singlet相と破断した$su(2)$-symmetryを持つn\'eel相の間の量子臨界挙動について検討する。 摂動的連続ユニタリ変換 (pCUT) とホワイトグラフ展開とモンテカルロシミュレーションを組み合わせることで、孤立ラング・ダイマー極限に関する熱力学極限におけるエネルギーと可観測物の高次級数展開が得られる。 rung-singlet相の崩壊は、長距離相互作用の崩壊指数の関数として臨界線と臨界指数全体の決定を可能にする。 連続的に変化する臨界指数の非自明な状態と長距離平均場挙動は、長距離横場イジングモデルに似ています。

We investigate the quantum-critical behavior between the rung-singlet phase with hidden string order and the N\'eel phase with broken $SU(2)$-symmetry on quantum spin ladders with algebraically decaying unfrustrated long-range Heisenberg interactions. Combining perturbative continuous unitary transformations (pCUT) with a white-graph expansion and Monte Carlo simulations yields high-order series expansions of energies and observables in the thermodynamic limit about the isolated rung-dimer limit. The breakdown of the rung-singlet phase allows to determine the critical line and the entire set of critical exponents as a function of the decay exponent of the long-range interaction. A non-trivial regime of continuously varying critical exponents as well as long-range mean-field behavior is demonstrated reminiscent of the long-range transverse-field Ising model.
翻訳日:2023-01-28 03:51:25 公開日:2022-09-02
# 量子低密度パリティチェックコードをデコードするためのソフトウェアツール

Software Tools for Decoding Quantum Low-Density Parity Check Codes ( http://arxiv.org/abs/2209.01180v1 )

ライセンス: Link先を確認
Lucas Berent, Lukas Burgholzer, Robert Wille(参考訳) qec(quantum error correction)は、大規模量子コンピュータの実現に向けた研究の必須分野である。 理論的には、量子ハードウェアと量子ビット(量子ビット)のノイズの性質のために必然的に発生するエラーから量子データを保護するエラー訂正符号の設計に多くの努力が払われている。 エラー訂正コードによるデータ保護は、復号と呼ばれる可能性のあるデータセットを前提として、元のデータを復元する手段である。 復号アルゴリズムがエラーのない状態を効率的に復元することは不可欠である。 最近のqec法の理論的性質は広く研究されているが、実際より適切な設定でその性能を分析する良い技術はまだ広く研究されていない領域である。 本研究では,いわゆる量子低密度パリティチェック符号(QLDPC符号)を数値的に実験できるソフトウェアツールのセットを提案する。 そこで本研究では,QLDPC符号の汎用デコーダの実装について述べる。 さらに,一般的なQLDPCデコーダのランタイムボトルネックに対処しつつ,同等なデコード性能を維持しつつ,効率的なヒューリスティックデコーダを提案する。 これらのツールは最終的にQLDPCコードに関する理論的結果をより実践的な環境で確認し、実用的なアプリケーションのためのコードを調べるための(理論的考察に加えて)ソフトウェアツールの価値を示す。 このツールはmitライセンスのもと、https://github.com/lucasberent/qeccで公開されているが、これは「実践上良い」量子コードを検索するための場を提供することを目的としている。

Quantum Error Correction (QEC) is an essential field of research towards the realization of large-scale quantum computers. On the theoretical side, a lot of effort is put into designing error-correcting codes that protect quantum data from errors, which inevitably happen due to the noisy nature of quantum hardware and quantum bits (qubits). Protecting data with an error-correcting code necessitates means to recover the original data, given a potentially corrupted data set-a task referred to as decoding. It is vital that decoding algorithms can recover error-free states in an efficient manner. While theoretical properties of recent QEC methods have been extensively studied, good techniques to analyze their performance in practically more relevant settings is still a widely unexplored area. In this work, we propose a set of software tools that allows to numerically experiment with so-called Quantum Low-Density Parity Check codes (QLDPC codes)-a broad class of codes, some of which have recently been shown to be asymptotically good. Based on that, we provide an implementation of a general decoder for QLDPC codes. On top of that, we propose an efficient heuristic decoder that tackles the runtime bottlenecks of the general QLDPC decoder while still maintaining comparable decoding performance. These tools eventually allow to confirm theoretical results around QLDPC codes in a more practical setting and showcase the value of software tools (in addition to theoretical considerations) for investigating codes for practical applications. The resulting tool, which is publicly available at https://github.com/lucasberent/qecc under the MIT license, is meant to provide a playground for the search for "practically good" quantum codes.
翻訳日:2023-01-28 03:51:10 公開日:2022-09-02
# tqix.pis: 大規模量子シミュレーションプラットフォームのためのツールボックス

tqix.pis: A toolbox for large-scale quantum simulation platforms ( http://arxiv.org/abs/2209.01168v1 )

ライセンス: Link先を確認
Nguyen Tan Viet, Nguyen Thi Chuong, Vu Thi Ngoc Huyen, Le Bin Ho(参考訳) 大規模量子シミュレーションプラットフォームで様々なアルゴリズムを実行するためのtqix.pisライブラリを紹介する。 このプログラムは、初期化量子ビット、量子ゲート、測定を含む量子回路の基本機能をエミュレートする。 2レベルシステムのアンサンブルにおける集合プロセスを利用して次元を小さくし、マルチコアプロセッサやグラフィクス処理ユニットによるシミュレーション時間を短縮する。 このライブラリは、閉じ込められたイオン、光学格子の超低温原子、光学トワイザーのライドバーグ原子配列、窒素空洞中心など、様々な大規模量子シミュレーションプラットフォーム向けにプログラム可能である。 スピンスクイージング、変分量子スクイージング、量子相転移、多体量子ダイナミクス、その他の量子アルゴリズムを調べるのに応用できる。

We introduce tqix.pis, a library of tqix for executing various algorithms in large-scale quantum simulation platforms. The program emulates basic functions of a quantum circuit, including initialization qubits, quantum gates, and measurements. It utilizes the collective processes in ensembles of two-level systems to reduce the dimension, and facilitates the simulation time with multi-core processors and Graphics Processing Units. The library is thus programmable for different large-scale quantum simulation platforms, such as trapped ions, ultracold atoms in optical lattices, Rydberg atom arrays in optical tweezers, and nitrogen-vacancy centers. It is applicable for examining spin squeezing, variational quantum squeezing, quantum phase transition, many-body quantum dynamics, and other quantum algorithms.
翻訳日:2023-01-28 03:50:43 公開日:2022-09-02
# QAOA最適化景観の遷移状態と強欲探査

Transition states and greedy exploration of the QAOA optimization landscape ( http://arxiv.org/abs/2209.01159v1 )

ライセンス: Link先を確認
Stefan H. Sack, Raimel A. Medina, Richard Kueng and Maksym Serbyn(参考訳) QAOAは変分量子アルゴリズムであり、量子コンピュータは、交互ユニタリ演算子のp層からなる変分アンサッツを実装し、古典的なコンピュータを用いて変分パラメータを最適化する。 ランダム初期化の場合、最適化は通常、性能の悪い局所最小化につながり、QAOA変動パラメータの初期化戦略の探索を動機付ける。 多くのヒューリスティックな慣性化は優れた数値的性能を示したが、解析的な理解は避けられないままである。 エネルギーランドスケープの研究から着想を得たこの研究では、局所ミニマに接続する独自の負の曲率方向を持つサドル点であるいわゆる遷移状態(TS)に焦点を当てる。 p 層を持つ QAOA の局所最小値から、p + 1 層を持つ QAOA に対して 2p + 1 TS を解析的に構築する。 これらのtは、新しい局所的ミニマと接続し、p層で発見された最小のエネルギーよりも低いエネルギーを保証される。 本稿では,指数関数的に増加するTS数と対応する局所最小値を効果的に操作するためのグレディ法を提案する。 提案手法の性能は,最も有効な初期化戦略と一致し,また,層数の増加とともに最小限のエネルギーが減少することが保証される。 解析 ts の一般化と他の ans\"atze への欲張りなアプローチは、変分量子アルゴリズムの初期化のための普遍的な枠組みを提供するかもしれない。

The QAOA is a variational quantum algorithm, where a quantum computer implements a variational ansatz consisting of p layers of alternating unitary operators and a classical computer is used to optimize the variational parameters. For a random initialization the optimization typically leads to local minima with poor performance, motivating the search for initialization strategies of QAOA variational parameters. Although numerous heuristic intializations were shown to have a good numerical performance, an analytical understanding remains evasive. Inspired by the study of energy landscapes, in this work we focus on so-called transition states (TS) that are saddle points with a unique negative curvature direction that connects to local minima. Starting from a local minimum of QAOA with p layers, we analytically construct 2p + 1 TS for QAOA with p + 1 layers. These TS connect to new local minima, all of which are guaranteed to lower the energy compared to the minimum found for p layers. We introduce a Greedy procedure to effectively maneuver the exponentially increasing number of TS and corresponding local minima. The performance of our procedure matches the best available initialization strategy, and in addition provides a guarantee for the minimal energy to decrease with an increasing number of layers p. Generalization of analytic TS and the Greedy approach to other ans\"atze may provide a universal framework for initialization of variational quantum algorithms.
翻訳日:2023-01-28 03:50:29 公開日:2022-09-02
# 集中型相関平衡の非回帰学習ダイナミクス

No-Regret Learning Dynamics for Extensive-Form Correlated Equilibrium ( http://arxiv.org/abs/2004.00603v5 )

ライセンス: Link先を確認
Andrea Celli, Alberto Marchesi, Gabriele Farina, Nicola Gatti(参考訳) 正規形ゲームにおける相関平衡に収束する単純で非結合な非回帰力学の存在は、マルチエージェント系の理論における有名な結果である。 特に20年以上にわたって、全てのプレイヤーが通常のゲームで内的後悔を最小化しようとすると、経験的なプレイ頻度が正規形相関均衡に収束することが知られている。 拡張形式のゲーム(すなわち木型ゲーム)は、シーケンシャルと同時の動作とプライベート情報の両方をモデル化することで、正規形式のゲームを一般化する。 ゲーム内での逐次的な性質と部分的な情報の存在のため、広角形相関は通常の形式とは大きく異なる性質を持ち、その多くはまだオープンな研究方向である。 正規形相関平衡とは自然に拡張型相関平衡 (efce) が提唱されている。 しかし、EFCEが未結合のエージェントダイナミクスの結果現れるかどうかは現在不明である。 本稿では,$n$$-player general-sum extensive-form game with perfect recallにおいて,EFCEの集合に収束する最初の未結合な非線形ダイナミクスについて述べる。 まず、広義のゲームにおいてトリガー後悔の概念を導入し、通常のゲームにおける内部後悔の概念を拡張した。 各プレイヤーのトリガー残差が低い場合、経験的なプレイ頻度はEFCEに近い。 次に,効率的なノトリガー・レグレットアルゴリズムを提案する。 提案アルゴリズムは,各決定点における局所的なサブプロブレムにトリガを分解し,各決定点における局所的な解からプレイヤーのグローバルな戦略を構築する。

The existence of simple, uncoupled no-regret dynamics that converge to correlated equilibria in normal-form games is a celebrated result in the theory of multi-agent systems. Specifically, it has been known for more than 20 years that when all players seek to minimize their internal regret in a repeated normal-form game, the empirical frequency of play converges to a normal-form correlated equilibrium. Extensive-form (that is, tree-form) games generalize normal-form games by modeling both sequential and simultaneous moves, as well as private information. Because of the sequential nature and presence of partial information in the game, extensive-form correlation has significantly different properties than the normal-form counterpart, many of which are still open research directions. Extensive-form correlated equilibrium (EFCE) has been proposed as the natural extensive-form counterpart to normal-form correlated equilibrium. However, it was currently unknown whether EFCE emerges as the result of uncoupled agent dynamics. In this paper, we give the first uncoupled no-regret dynamics that converge to the set of EFCEs in $n$-player general-sum extensive-form games with perfect recall. First, we introduce a notion of trigger regret in extensive-form games, which extends that of internal regret in normal-form games. When each player has low trigger regret, the empirical frequency of play is close to an EFCE. Then, we give an efficient no-trigger-regret algorithm. Our algorithm decomposes trigger regret into local subproblems at each decision point for the player, and constructs a global strategy of the player from the local solutions at each decision point.
翻訳日:2022-12-17 18:20:24 公開日:2022-09-02
# 視覚的質問難度評価のためのエントロピークラスタリング手法

An Entropy Clustering Approach for Assessing Visual Question Difficulty ( http://arxiv.org/abs/2004.05595v3 )

ライセンス: Link先を確認
Kento Terao, Toru Tamaki, Bisser Raytchev, Kazufumi Kaneda, Shun'ichi Satoh(参考訳) 本稿では,視覚的質問応答(VQA)における視覚的質問の難易度を,その難易度に対する直接的な監督や注釈なしで識別する手法を提案する。 先行研究は、人間のアノテーターの真正解の多様性を考察してきた。 対照的に、複数の異なるVQAモデルの振る舞いに基づいて視覚的質問の難しさを分析する。 本稿では,3つのモデルから得られた予測解のエントロピー値をクラスタリングし,入力画像と質問を対象とするベースライン法と,入力画像のみと質問のみを対象とする2つの変種を提案する。 VQA v2検証セットの視覚的質問をクラスタリングするために、簡単なk-meansを使用します。 次に,各クラスタに対する回答分布の精度とエントロピーを決定するために,最先端手法を用いる。 提案手法の利点は,各クラスタの精度がそれに属する視覚的質問の難易度を反映しているため,難易度への注釈は不要である。 このアプローチは,最先端の手法で正しく答えられていない難解な視覚的質問のクラスタを識別できる。 vqa v2データセットの詳細な分析によって 1) 最も難しいクラスタ(約10\%の精度)では,すべてのメソッドのパフォーマンスが低い。 2) クラスタの難易度が高まるにつれて, 異なる手法で予測される回答が相違し始める。 3) クラスタエントロピーの値は, クラスタの精度と強く相関している。 提案手法は,VQA v2のテストセットであるVQA v2をクラスタの1つに割り当てることなく,視覚的質問の難易度を評価することができるという利点がある。 これは、新しい研究方向と新しいアルゴリズムの開発を促進できると期待している。

We propose a novel approach to identify the difficulty of visual questions for Visual Question Answering (VQA) without direct supervision or annotations to the difficulty. Prior works have considered the diversity of ground-truth answers of human annotators. In contrast, we analyze the difficulty of visual questions based on the behavior of multiple different VQA models. We propose to cluster the entropy values of the predicted answer distributions obtained by three different models: a baseline method that takes as input images and questions, and two variants that take as input images only and questions only. We use a simple k-means to cluster the visual questions of the VQA v2 validation set. Then we use state-of-the-art methods to determine the accuracy and the entropy of the answer distributions for each cluster. A benefit of the proposed method is that no annotation of the difficulty is required, because the accuracy of each cluster reflects the difficulty of visual questions that belong to it. Our approach can identify clusters of difficult visual questions that are not answered correctly by state-of-the-art methods. Detailed analysis on the VQA v2 dataset reveals that 1) all methods show poor performances on the most difficult cluster (about 10\% accuracy), 2) as the cluster difficulty increases, the answers predicted by the different methods begin to differ, and 3) the values of cluster entropy are highly correlated with the cluster accuracy. We show that our approach has the advantage of being able to assess the difficulty of visual questions without ground-truth (\ie, the test set of VQA v2) by assigning them to one of the clusters. We expect that this can stimulate the development of novel directions of research and new algorithms.
翻訳日:2022-12-14 05:32:56 公開日:2022-09-02
# 密集した都市ネットワークは信号設定に敏感である:学習制御における意味

Congested Urban Networks Tend to Be Insensitive to Signal Settings: Implications for Learning-Based Control ( http://arxiv.org/abs/2008.10989v2 )

ライセンス: Link先を確認
Jorge Laval and Hao Zhou(参考訳) 本稿では,交通信号制御に応用した機械学習手法に影響を及ぼす大都市ネットワークの特性について述べる。 特に、密度が増加するにつれて、平均的なネットワークフローは信号制御ポリシーから独立する傾向にあることを示す。 この特性は、これまでレーダーの下に留まっていたが、密集した条件下での訓練において、深層強化学習(DRL)手法が効果を低下させ、DRLが信号制御において限られた成功を収めたことを説明できる。 この結果は、2つのネットワークパラメータに基づくパラメトリゼーションにより、連続する信号機とグリーン時間との所望距離の比率と交差点での旋回確率の比により、すべてのグリッドネットワークに適用できる。 異なるパラメータを持つネットワークは、トラフィック信号制御に対して非常に異なる応答を示す。 特に、驚くほど大きなネットワーク群に対して、制御(すなわちランダムポリシー)が効果的な制御戦略になり得ないことが分かりました。 旋回確率の影響は、ベースラインとDRLポリシーの両方において非常に重要であることが判明した。 また、これらの政策で観察される対称性の喪失についても説明しており、これは回転のない廊下近似に依存する既存の理論では捉えられていない。 また, 教師あり学習手法は, 優れた政策作成に極めて少ない実例を必要とするため, 極めて有意な可能性を示唆した。

This paper highlights several properties of large urban networks that can have an impact on machine learning methods applied to traffic signal control. In particular, we show that the average network flow tends to be independent of the signal control policy as density increases. This property, which so far has remained under the radar, implies that deep reinforcement learning (DRL) methods becomes ineffective when trained under congested conditions, and might explain DRL's limited success for traffic signal control. Our results apply to all possible grid networks thanks to a parametrization based on two network parameters: the ratio of the expected distance between consecutive traffic lights to the expected green time, and the turning probability at intersections. Networks with different parameters exhibit very different responses to traffic signal control. Notably, we found that no control (i.e. random policy) can be an effective control strategy for a surprisingly large family of networks. The impact of the turning probability turned out to be very significant both for baseline and for DRL policies. It also explains the loss of symmetry observed for these policies, which is not captured by existing theories that rely on corridor approximations without turns. Our findings also suggest that supervised learning methods have enormous potential as they require very little examples to produce excellent policies.
翻訳日:2022-10-26 22:03:55 公開日:2022-09-02
# poincare: 治療効果推定による出版場所の推薦

Poincare: Recommending Publication Venues via Treatment Effect Estimation ( http://arxiv.org/abs/2010.09157v2 )

ライセンス: Link先を確認
Ryoma Sato, Makoto Yamada, Hisashi Kashima(参考訳) 学術論文の出版場所を選択することは研究プロセスにおける重要なステップである。 しかし、多くの場合、決定は研究者の経験のみに基づいており、しばしば最適以下の結果をもたらす。 学術論文の会場推薦システムが存在するが、出版予定の会場を推薦している。 本研究では,異なる視点から出版会場を推薦することを目的とする。 論文が各会場で発行された場合、論文が受ける引用回数を推定し、最も潜在的に影響を及ぼす場所を推奨する。 しかし、この課題には2つの課題がある。 まず,1つの会場でのみ論文が発行されるので,他の会場で論文が公開された場合,論文が受ける引用数を見ることはできない。 第二に、論文の内容と出版会場は統計的に独立したものではなく、出版会場の選択には選択バイアスが存在する。 本稿では,治療効果推定問題として,会場推薦問題を定式化する。 バイアス補正手法を用いて,出版場所選択の潜在的影響を効果的に推定し,各会場における論文の潜在的影響に基づいて,会場を推薦する。 我々は,コンピュータサイエンスカンファレンスの論文データを用いた手法の有効性を強調した。

Choosing a publication venue for an academic paper is a crucial step in the research process. However, in many cases, decisions are based solely on the experience of researchers, which often leads to suboptimal results. Although there exist venue recommender systems for academic papers, they recommend venues where the paper is expected to be published. In this study, we aim to recommend publication venues from a different perspective. We estimate the number of citations a paper will receive if the paper is published in each venue and recommend the venue where the paper has the most potential impact. However, there are two challenges to this task. First, a paper is published in only one venue, and thus, we cannot observe the number of citations the paper would receive if the paper were published in another venue. Secondly, the contents of a paper and the publication venue are not statistically independent; that is, there exist selection biases in choosing publication venues. In this paper, we formulate the venue recommendation problem as a treatment effect estimation problem. We use a bias correction method to estimate the potential impact of choosing a publication venue effectively and to recommend venues based on the potential impact of papers in each venue. We highlight the effectiveness of our method using paper data from computer science conferences.
翻訳日:2022-10-05 21:23:26 公開日:2022-09-02
# 垂直分割データによるプライバシー保護データ共有

Privacy-preserving Data Sharing on Vertically Partitioned Data ( http://arxiv.org/abs/2010.09293v2 )

ライセンス: Link先を確認
Razane Tajeddine, Joonas J\"alk\"o, Samuel Kaski, and Antti Honkela(参考訳) 本研究では,同一個体のデータを複数のデータホルダやパーティに分散する,垂直分割されたデータから合成データを生成する差分プライベート手法である \emph{i,e} を導入する。 本稿では,差分プライバシー確率勾配降下法(dp-sgd)アルゴリズムを用いて,分断データ上の混合モデルを変分推論を用いて学習する。 我々は,MPCと差分プライバシ(DP)を組み合わせたセキュアなマルチパーティ計算(MPC)フレームワークを改良し,差分プライベートなMPCを効果的に利用し,これらの垂直分割データに基づいてDPの下で確率的生成モデルを学習する。 混合成分が異なる当事者間の依存関係を含まないと仮定すると、目的関数は、当事者が計算した貢献の積の和に分解することができる。 最後に、mpcは異なるコントリビューション間の集約を計算するために使われます。 さらに,システム内の異なるプレーヤに対して,プライバシの保証を厳格に定義する。 本手法の精度を示すために,本アルゴリズムをuci機械学習リポジトリから成人データセット上で実行し,非参加事例に匹敵する結果を得た。

In this work, we introduce a differentially private method for generating synthetic data from vertically partitioned data, \emph{i.e.}, where data of the same individuals is distributed across multiple data holders or parties. We present a differentially privacy stochastic gradient descent (DP-SGD) algorithm to train a mixture model over such partitioned data using variational inference. We modify a secure multiparty computation (MPC) framework to combine MPC with differential privacy (DP), in order to use differentially private MPC effectively to learn a probabilistic generative model under DP on such vertically partitioned data. Assuming the mixture components contain no dependencies across different parties, the objective function can be factorized into a sum of products of the contributions calculated by the parties. Finally, MPC is used to compute the aggregate between the different contributions. Moreover, we rigorously define the privacy guarantees with respect to the different players in the system. To demonstrate the accuracy of our method, we run our algorithm on the Adult dataset from the UCI machine learning repository, where we obtain comparable results to the non-partitioned case.
翻訳日:2022-10-05 21:23:07 公開日:2022-09-02
# ソーシャルメディアプラットフォームにおける新しい異種グラフ表現:ステミット

A New Heterogeneous Graph Representation in a Social Media Platform: Steemit ( http://arxiv.org/abs/2209.03144v1 )

ライセンス: Link先を確認
Negar Maleki, Balaji Padamanabhan, Kaushik Dutta(参考訳) 近年、多くの実世界の問題が離散時間ではなく連続時間で進化するにつれて、時間グラフは動的グラフの代わりになり、時間以外のほとんどの問題は均質グラフではなく異質な形式で設計されている。 しかし、既存のグラフ表現のほとんどは、コンポーネントの時間を考慮していない。 そこで本稿では,グラフの各成分,すなわちノードとエッジの時間を含む新しい不均質なグラフ表現を提案する。 また、機械学習やディープラーニングの問題に対処するために、4つの時間依存クエリを導入する。 その結果,巨大なグラフのサイズを考慮すると,時間依存クエリが効率的に実行されることがわかった。 グラフ表現における時間の表現力を示すために,新たなソーシャルメディアプラットフォーム(Steemit)用のグラフを構築し,グラフニューラルネットワーク(GNN)を用いたDL予測タスクに対処する。 新たに公開された記事の支払い予測は,ステイミット設定における最も興味深い分類問題の1つであり,gnnモデルに続く2つのアプローチでこの問題に対処する。

Recently, temporal graphs have substituted dynamic graphs as many real-world problems evolve in continuous time rather than in discrete time, and besides time almost all problems are designed in a heterogeneous format rather than a homogeneous one. However, most existing graph representations do not consider time in their components. To this end, in this paper, we present a new heterogeneous graph representation including time in every single component of the graph, i.e., nodes and edges. We also introduce four time-dependent queries to address machine learning or deep learning problems. Our findings reveal that considering the size of the enormous graphs, our time-dependent queries execute efficiently. In order to show the expressive power of time in graph representation, we construct a graph for a new social media platform (Steemit), and address a DL prediction task using graph neural networks (GNNs). Predicting the payout for a newly published post is one of the most fascinating classification problems in the Steemit setting, and we address this problem with two approaches followed by GNN models.
翻訳日:2022-09-11 13:09:57 公開日:2022-09-02
# グラフニューラルネットワークの高次クラスタリングとプール化

Higher-order Clustering and Pooling for Graph Neural Networks ( http://arxiv.org/abs/2209.03473v1 )

ライセンス: Link先を確認
Alexandre Duval, Fragkiskos Malliaros(参考訳) グラフニューラルネットワークは、多くのグラフ分類タスク、特に学習ノードの埋め込みを階層的に最終グラフ表現に集約するプーリング演算子によって、最先端のパフォーマンスを達成する。 しかしながら、ランダムプーリングと同等のパフォーマンスを示す最近の研究によって疑問視されるだけでなく、完全に高次接続パターンを無視している。 本稿では,高次情報を階層的にキャプチャし,よりリッチなグラフ表現を実現するクラスタリングベースのグラフプーリング演算子hoscpoolを提案する。 実際、目的関数におけるモチーフスペクトルクラスタリングの緩和された定式化を最小化し、確率的クラスタ割り当て行列をエンドツーエンドに学習し、それをプール演算子に拡張する。 グラフ分類タスクのHoscPoolと,そのクラスタリングコンポーネントを,基盤構造を持つグラフ上で評価し,高い性能を実現した。 最後に,プール操作者の内部機能に関する深い経験的分析を行う。

Graph Neural Networks achieve state-of-the-art performance on a plethora of graph classification tasks, especially due to pooling operators, which aggregate learned node embeddings hierarchically into a final graph representation. However, they are not only questioned by recent work showing on par performance with random pooling, but also ignore completely higher-order connectivity patterns. To tackle this issue, we propose HoscPool, a clustering-based graph pooling operator that captures higher-order information hierarchically, leading to richer graph representations. In fact, we learn a probabilistic cluster assignment matrix end-to-end by minimising relaxed formulations of motif spectral clustering in our objective function, and we then extend it to a pooling operator. We evaluate HoscPool on graph classification tasks and its clustering component on graphs with ground-truth community structure, achieving best performance. Lastly, we provide a deep empirical analysis of pooling operators' inner functioning.
翻訳日:2022-09-11 13:03:50 公開日:2022-09-02
# 深部ニューラルネットワークのロバスト性に及ぼす色変化の影響

Impact of Colour Variation on Robustness of Deep Neural Networks ( http://arxiv.org/abs/2209.02832v1 )

ライセンス: Link先を確認
Chengyin Hu, Weiwen Shi(参考訳) ディープニューラルネットワーク(DNN)は、画像分類、セグメンテーション、オブジェクト検出といったコンピュータビジョンアプリケーションの最先端のパフォーマンスを示している。 近年の進歩は、入力データの手動のデジタル摂動、すなわち敵の攻撃に対する脆弱性を示している。 ネットワークの精度は、トレーニングデータセットのデータ分布に大きく影響を受ける。 入力画像の色空間上の歪みや摂動は分布外データを生成するため、ネットワークはそれらを誤分類しがちである。 本研究では,イメージネットのサブセットにRGB色を27種類の組み合わせで変形させることにより,色差データセットを提案する。 本研究の目的は,色変化がDNNの性能に与える影響を検討することである。 提案したデータセット上でいくつかの最先端DNNアーキテクチャの実験を行い,色変化と精度の損失との間に有意な相関関係を示す。 さらに,resnet50アーキテクチャに基づき,提案するデータセット上で,最近提案されている強固なトレーニング手法と戦略,例えば augmix,revisit,free normalizer の性能実験を行った。 実験結果から,これらのロバストトレーニング手法により,深層ネットワークのロバスト性の向上が期待できる。

Deep neural networks (DNNs) have have shown state-of-the-art performance for computer vision applications like image classification, segmentation and object detection. Whereas recent advances have shown their vulnerability to manual digital perturbations in the input data, namely adversarial attacks. The accuracy of the networks is significantly affected by the data distribution of their training dataset. Distortions or perturbations on color space of input images generates out-of-distribution data, which make networks more likely to misclassify them. In this work, we propose a color-variation dataset by distorting their RGB color on a subset of the ImageNet with 27 different combinations. The aim of our work is to study the impact of color variation on the performance of DNNs. We perform experiments on several state-of-the-art DNN architectures on the proposed dataset, and the result shows a significant correlation between color variation and loss of accuracy. Furthermore, based on the ResNet50 architecture, we demonstrate some experiments of the performance of recently proposed robust training techniques and strategies, such as Augmix, revisit, and free normalizer, on our proposed dataset. Experimental results indicate that these robust training techniques can improve the robustness of deep networks to color variation.
翻訳日:2022-09-11 13:03:08 公開日:2022-09-02
# 分類器のアンサンブルを用いた自閉症スペクトラム障害の効果的予測について

On Effectively Predicting Autism Spectrum Disorder Using an Ensemble of Classifiers ( http://arxiv.org/abs/2209.02395v1 )

ライセンス: Link先を確認
Bhekisipho Twala and Eamon Molloy(参考訳) 分類器のアンサンブルは複数の単一分類器を組み合わせて最終予測または分類決定を行う。 ますます挑発的な問題は、そのようなシステムが単一の最良の分類器より優れているかどうかである。 もしそうなら、分類器のアンサンブル(複数の分類器学習システムまたは複数の分類器とも呼ばれる)は、アンサンブル自体のサイズや多様性において最も重要な利点をもたらすだろうか? 自閉症の特徴を検出するために使用されるテストは時間と費用がかかるので、自閉症スペクトラム障害(ASD)の最良の結果と測定を提供するシステムを開発することは、決して重要ではない。 本稿では,早期スクリーニングのためにASDに影響を及ぼし寄与する要因を予測し,特定する能力の観点から,複数の単一・複数分類器学習システムの評価を行った。 61人の子どもから記録された行動データと、3000セッションと300時間のロボットによる治療のデータセットをこのタスクに活用する。 シミュレーションの結果,複数の分類器学習システム(特にアンサンブル毎に3つの分類器を持つシステム)は,個々の分類器よりも優れた予測性能を示した。 また, ソーシャルコミュニケーションのジェスチャーは, 子どもの ASD 問題に重要な要因であり続けている。

An ensemble of classifiers combines several single classifiers to deliver a final prediction or classification decision. An increasingly provoking question is whether such systems can outperform the single best classifier. If so, what form of an ensemble of classifiers (also known as multiple classifier learning systems or multiple classifiers) yields the most significant benefits in the size or diversity of the ensemble itself? Given that the tests used to detect autism traits are time-consuming and costly, developing a system that will provide the best outcome and measurement of autism spectrum disorder (ASD) has never been critical. In this paper, several single and later multiple classifiers learning systems are evaluated in terms of their ability to predict and identify factors that influence or contribute to ASD for early screening purposes. A dataset of behavioural data and robot-enhanced therapy of 3,000 sessions and 300 hours, recorded from 61 children are utilised for this task. Simulation results show the superior predictive performance of multiple classifier learning systems (especially those with three classifiers per ensemble) compared to individual classifiers, with bagging and boosting achieving excellent results. It also appears that social communication gestures remain the critical contributing factor to the ASD problem among children.
翻訳日:2022-09-07 15:43:56 公開日:2022-09-02
# ハイブリッドフェデレーションスプリット学習のための予測的GANによる多目的最適化

Predictive GAN-powered Multi-Objective Optimization for Hybrid Federated Split Learning ( http://arxiv.org/abs/2209.02428v1 )

ライセンス: Link先を確認
Benshun Yin, Zhiyong Chen and Meixia Tao(参考訳) 多デバイス協調訓練のためのエッジインテリジェンスアルゴリズムとして、フェデレートラーニング(FL)は通信負担を軽減するが、無線デバイスの計算負荷は増大する。 対照的に、スプリットラーニング(sl)は、モデル分割と割り当てを用いてデバイスの計算負荷を削減できるが、中間結果を送信するための通信負荷を増加させる。 本稿では、FLとSLの利点を活用するために、FLのマルチワーカー並列更新とSLのフレキシブルスプリットを組み合わせた、無線ネットワークにおけるハイブリッド・フェデレーション・スプリット・ラーニング(HFSL)フレームワークを提案する。 モデル分割における計算のアイドルさを低減すべく,ラベル共有を伴わずにモデル分割を行う並列計算方式を考案し,この手法による遅延勾配が収束速度に与える影響を理論的に解析した。 トレーニング時間とエネルギー消費のトレードオフを得るため,分割決定,帯域幅,計算資源割り当てを最適化する。 最適化問題は多目的であり,予測生成対向ネットワーク(GAN)を用いた多目的最適化アルゴリズムを提案する。 実験の結果,提案アルゴリズムはパレート最適解の探索において他の解よりも優れており,提案するhfslの解がflの解を支配できることがわかった。

As an edge intelligence algorithm for multi-device collaborative training, federated learning (FL) can reduce the communication burden but increase the computing load of wireless devices. In contrast, split learning (SL) can reduce the computing load of devices by using model splitting and assignment, but increase the communication burden to transmit intermediate results. In this paper, to exploit the advantages of FL and SL, we propose a hybrid federated split learning (HFSL) framework in wireless networks, which combines the multi-worker parallel update of FL and flexible splitting of SL. To reduce the computational idleness in model splitting, we design a parallel computing scheme for model splitting without label sharing, and theoretically analyze the influence of the delayed gradient caused by the scheme on the convergence speed. Aiming to obtain the trade-off between the training time and energy consumption, we optimize the splitting decision, the bandwidth and computing resource allocation. The optimization problem is multi-objective, and we thus propose a predictive generative adversarial network (GAN)-powered multi-objective optimization algorithm to obtain the Pareto front of the problem. Experimental results show that the proposed algorithm outperforms others in finding Pareto optimal solutions, and the solutions of the proposed HFSL dominate the solution of FL.
翻訳日:2022-09-07 15:43:17 公開日:2022-09-02
# 過去の経験とパイロットの少なさから新しい環境に適応することを学ぶ

Learn to Adapt to New Environment from Past Experience and Few Pilot ( http://arxiv.org/abs/2209.02649v1 )

ライセンス: Link先を確認
Ouya Wang, Jiabao Gao, and Geoffrey Ye Li(参考訳) 近年、深層学習はコミュニケーションに広く応用され、優れた性能向上を遂げている。 既存の作業の大部分はデータ駆動ディープラーニングに基づいており、通信モデルが新しい環境に適応するためには、かなりの量のトレーニングデータが必要であり、データ収集とモデルの再トレーニングのための膨大な計算リソースが得られます。 本稿では,学習経験を既知の環境から活用することで,新しい環境に必要なトレーニングデータの量を大幅に削減する。 そこで本研究では,注意に基づく手法によって実現される新しい環境へのコミュニケーションモデルを一般化するために,少人数学習を導入する。 ディープラーニングベースのコミュニケーションモデルに注目ネットワークを組み込むことで、学習体験と呼ばれるトレーニングプロセスにおいて、異なる遅延プロファイルを持つ環境を同時に学習することができる。 学習体験を活用することで、コミュニケーションモデルは、新しい環境でうまく機能するパイロットブロックをわずかしか必要としない。 深層学習に基づくチャネル推定の例を通じて,この新しい設計手法が,マイナショット学習用に設計された既存のデータ駆動アプローチよりも優れた性能を実現することを実証する。

In recent years, deep learning has been widely applied in communications and achieved remarkable performance improvement. Most of the existing works are based on data-driven deep learning, which requires a significant amount of training data for the communication model to adapt to new environments and results in huge computing resources for collecting data and retraining the model. In this paper, we will significantly reduce the required amount of training data for new environments by leveraging the learning experience from the known environments. Therefore, we introduce few-shot learning to enable the communication model to generalize to new environments, which is realized by an attention-based method. With the attention network embedded into the deep learning-based communication model, environments with different power delay profiles can be learnt together in the training process, which is called the learning experience. By exploiting the learning experience, the communication model only requires few pilot blocks to perform well in the new environment. Through an example of deep-learning-based channel estimation, we demonstrate that this novel design method achieves better performance than the existing data-driven approach designed for few-shot learning.
翻訳日:2022-09-07 15:42:29 公開日:2022-09-02
# 部分モニタリングによる後悔境界に対するPDE法

A PDE approach for regret bounds under partial monitoring ( http://arxiv.org/abs/2209.01256v1 )

ライセンス: Link先を確認
Erhan Bayraktar, Ibrahim Ekren, Xin Zhang(参考訳) 本稿では,予測者が部分的情報のみを観測する学習問題について検討する。 問題を適切に再スケーリングすることにより、予測者の後悔の漸近的振る舞いを特徴づけるワーッサーシュタイン空間上の極限 PDE をヒューリスティックに導出する。 検証型引数を用いて,このパラボリックPDEのスムーズな部分/超解を求めることで,残差と効率的なアルゴリズムの獲得の問題に取り組むことができることを示す。

In this paper, we study a learning problem in which a forecaster only observes partial information. By properly rescaling the problem, we heuristically derive a limiting PDE on Wasserstein space which characterizes the asymptotic behavior of the regret of the forecaster. Using a verification type argument, we show that the problem of obtaining regret bounds and efficient algorithms can be tackled by finding appropriate smooth sub/supersolutions of this parabolic PDE.
翻訳日:2022-09-07 15:30:04 公開日:2022-09-02
# 属性推論攻撃は単なるインプテーションか?

Are Attribute Inference Attacks Just Imputation? ( http://arxiv.org/abs/2209.01292v1 )

ライセンス: Link先を確認
Bargav Jayaraman and David Evans(参考訳) モデルはトレーニングデータに関する機密情報を公開することができる。 属性推論攻撃では、敵はいくつかのトレーニングレコードに関する部分的な知識と、それらのレコードでトレーニングされたモデルへのアクセスを持ち、それらのレコードの繊細な特徴の未知の値を推測する。 我々は、我々が \emph{sensitive value inference}と呼ぶ属性推論の細かな変種を調査し、敵の目標は、未知の属性が特定の敏感な値を持つ候補集合から、いくつかのレコードを高い信頼度で識別することである。 属性推論とトレーニング分布統計をキャプチャするデータインプテーションを,敵が利用可能なトレーニングデータに関する様々な仮定の下で明示的に比較する。 Our main conclusions are: (1) previous attribute inference methods do not reveal more about the training data from the model than can be inferred by an adversary without access to the trained model, but with the same knowledge of the underlying distribution as needed to train the attribute inference attack; (2) black-box attribute inference attacks rarely learn anything that cannot be learned without the model; but (3) white-box attacks, which we introduce and evaluate in the paper, can reliably identify some records with the sensitive value attribute that would not be predicted without having access to the model. さらに,差分プライベートトレーニングや脆弱な記録をトレーニングから削除するといった防衛策は,このプライバシーリスクを軽減するものではないことを示す。 実験のコードは \url{https://github.com/bargavj/evaluatingdpml} で利用可能です。

Models can expose sensitive information about their training data. In an attribute inference attack, an adversary has partial knowledge of some training records and access to a model trained on those records, and infers the unknown values of a sensitive feature of those records. We study a fine-grained variant of attribute inference we call \emph{sensitive value inference}, where the adversary's goal is to identify with high confidence some records from a candidate set where the unknown attribute has a particular sensitive value. We explicitly compare attribute inference with data imputation that captures the training distribution statistics, under various assumptions about the training data available to the adversary. Our main conclusions are: (1) previous attribute inference methods do not reveal more about the training data from the model than can be inferred by an adversary without access to the trained model, but with the same knowledge of the underlying distribution as needed to train the attribute inference attack; (2) black-box attribute inference attacks rarely learn anything that cannot be learned without the model; but (3) white-box attacks, which we introduce and evaluate in the paper, can reliably identify some records with the sensitive value attribute that would not be predicted without having access to the model. Furthermore, we show that proposed defenses such as differentially private training and removing vulnerable records from training do not mitigate this privacy risk. The code for our experiments is available at \url{https://github.com/bargavj/EvaluatingDPML}.
翻訳日:2022-09-07 15:21:25 公開日:2022-09-02
# ベイズ経験的近似計算のための2段階メトロポリスヘイスティング法とベイズモデル選択への応用

A Two-step Metropolis Hastings Method for Bayesian Empirical Likelihood Computation with Application to Bayesian Model Selection ( http://arxiv.org/abs/2209.01269v1 )

ライセンス: Link先を確認
Sanjay Chaudhuri and Teng Yin(参考訳) 近年、経験的可能性がベイズ的枠組みの下で広く適用されている。 マルコフ連鎖モンテカルロ法(mcmc)は、興味のあるパラメータの後方分布からサンプルを採取するために頻繁に用いられる。 しかし、確率支援の複雑な、特に非凸の性質は、適切なMCMCアルゴリズムを選択する際に大きな障害を生じさせる。 このような困難はベイズ経験的可能性 (BayesEL) に基づく手法を多くの応用で使用することを制限している。 本稿では,ベイゼル後方からサンプルを得るための2段階のメトロポリス・ヘイスティングスアルゴリズムを提案する。 提案手法は階層的に特定され,実験的可能性を決定する推定方程式を用いて,残りのパラメータの値に依存するパラメータセットの値を提案する。 さらに, 経験的確率を用いてベイズモデルの選択を議論し, 2段階のメトロポリス・ヘイスティングスアルゴリズムを可逆ジャンプマルコフ連鎖モンテカルロ法に拡張し, 結果の後方からサンプルを得る。 最後に,提案手法のいくつかの応用について述べる。

In recent times empirical likelihood has been widely applied under Bayesian framework. Markov chain Monte Carlo (MCMC) methods are frequently employed to sample from the posterior distribution of the parameters of interest. However, complex, especially non-convex nature of the likelihood support erects enormous hindrances in choosing an appropriate MCMC algorithm. Such difficulties have restricted the use of Bayesian empirical likelihood (BayesEL) based methods in many applications. In this article, we propose a two-step Metropolis Hastings algorithm to sample from the BayesEL posteriors. Our proposal is specified hierarchically, where the estimating equations determining the empirical likelihood are used to propose values of a set of parameters depending on the proposed values of the remaining parameters. Furthermore, we discuss Bayesian model selection using empirical likelihood and extend our two-step Metropolis Hastings algorithm to a reversible jump Markov chain Monte Carlo procedure to sample from the resulting posterior. Finally, several applications of our proposed methods are presented.
翻訳日:2022-09-07 15:14:26 公開日:2022-09-02
# elhmc:ベイズ経験的確率によるハミルトンモンテカルロサンプリングのためのrパッケージ

elhmc: An R Package for Hamiltonian Monte Carlo Sampling in Bayesian Empirical Likelihood ( http://arxiv.org/abs/2209.01289v1 )

ライセンス: Link先を確認
Dang Trung Kien and Neo Han Wei and Sanjay Chaudhuri(参考訳) 本稿では,ハミルトニアンモンテカルロ法を用いて,経験的確率に基づく後方からのサンプリングのための {\tt r} パッケージについて述べる。 経験的可能性に基づく方法論は、近年の多くの関心のある問題のベイズ的モデリングに用いられている。 この半パラメトリック手法は、非パラメトリック分布推定器の柔軟性とパラメトリックモデルの解釈可能性を簡単に組み合わせることができる。 モデルは方程式に基づく制約を推定することによって特定される。 ベイズ経験的可能性 (BayesEL) から推論するのは難しい。 確率は数値的に計算されるので、後部の閉じた表現は存在しない。 さらに、有限サイズの任意のサンプルに対して、可能性の支持は非凸であり、多くのマルコフ・チェイン・モンテカルロ(MCMC)手順の高速な混合を妨げる。 最近、対数経験的確率の勾配の特性を用いて、ベイズエルの後部からサンプリングするために効率的なハミルトニアンモンテカルロ(HMC)アルゴリズムを考案できることが示されている。 パッケージには、推定方程式、前者、およびそれぞれの勾配のみを指定する必要がある。 パラメータのBayesEL後部から引き出されたMCMCサンプルを、使用者が必要とする様々な詳細を得る。

In this article, we describe a {\tt R} package for sampling from an empirical likelihood-based posterior using a Hamiltonian Monte Carlo method. Empirical likelihood-based methodologies have been used in Bayesian modeling of many problems of interest in recent times. This semiparametric procedure can easily combine the flexibility of a non-parametric distribution estimator together with the interpretability of a parametric model. The model is specified by estimating equations-based constraints. Drawing an inference from a Bayesian empirical likelihood (BayesEL) posterior is challenging. The likelihood is computed numerically, so no closed expression of the posterior exists. Moreover, for any sample of finite size, the support of the likelihood is non-convex, which hinders the fast mixing of many Markov Chain Monte Carlo (MCMC) procedures. It has been recently shown that using the properties of the gradient of log empirical likelihood, one can devise an efficient Hamiltonian Monte Carlo (HMC) algorithm to sample from a BayesEL posterior. The package requires the user to specify only the estimating equations, the prior, and their respective gradients. An MCMC sample drawn from the BayesEL posterior of the parameters, with various details required by the user is obtained.
翻訳日:2022-09-07 15:14:08 公開日:2022-09-02
# スペクトル制約行列最適化のための立方体正規化ニュートンとそのフェアネスへの応用

Cubic-Regularized Newton for Spectral Constrained Matrix Optimization and its Application to Fairness ( http://arxiv.org/abs/2209.01229v1 )

ライセンス: Link先を確認
Casey Garner, Gilad Lerman, Shuzhong Zhang(参考訳) 行列関数は、滑らかなスペクトル制約行列最適化問題を対称行列の集合上の滑らかな無拘束問題として書き直し、立方体正規化ニュートン法によって解く。 行列関数に対する二階鎖則の恒等式を証明し、高階微分を計算して立方正則ニュートンを実装し、行列ベクトル空間に対する立方正則ニュートンに対して新しい収束解析を行う。 合成データと実データの両方で数値実験を行うことにより,本手法の適用性を示す。 実験では,TylerのM-estimator(TME)モデルの精神において,公正かつロバストな共分散行列を推定するための新しいモデルを定式化し,その利点を実証する。

Matrix functions are utilized to rewrite smooth spectral constrained matrix optimization problems as smooth unconstrained problems over the set of symmetric matrices which are then solved via the cubic-regularized Newton method. A second-order chain rule identity for matrix functions is proven to compute the higher-order derivatives to implement cubic-regularized Newton, and a new convergence analysis is provided for cubic-regularized Newton for matrix vector spaces. We demonstrate the applicability of our approach by conducting numerical experiments on both synthetic and real datasets. In our experiments, we formulate a new model for estimating fair and robust covariance matrices in the spirit of the Tyler's M-estimator (TME) model and demonstrate its advantage.
翻訳日:2022-09-07 15:12:26 公開日:2022-09-02
# 交互スペル予測モデルによる希少単語の文脈認識の改善

Improving Contextual Recognition of Rare Words with an Alternate Spelling Prediction Model ( http://arxiv.org/abs/2209.01250v1 )

ライセンス: Link先を確認
Jennifer Drexler Fox, Natalie Delworth(参考訳) 音声と共に入力としてバイアス項のリストを取るContextual ASRは、ASRの使用がより広まるにつれて、近年の関心を集めている。 Earnings21データセットに付随するコンテキストバイアスリストをリリースし、このタスクの公開ベンチマークを作成しています。 WeNetツールキットから事前学習したエンドツーエンドのASRモデルを用いて,本ベンチマークのベースライン結果を示す。 2つの異なる復号アルゴリズムに適用した浅層融合コンテキストバイアスの結果を示す。 本研究のベースラインは,特に訓練中に稀に,あるいは一度も見られない単語に終末モデルが苦しむこと,そして既存の浅層融合技術がこの問題に適切に対処していないことを確認する。 代用スペルのない文脈バイアスと比較して,稀な単語のリコールを34.7%,語彙外単語のリコールを97.2%改善する代用スペル予測モデルを提案する。 このモデルは概念的には以前の作業で使われたものと似ているが、発音辞書や既存のテキストから音声へのシステムに依存しないため、実装が容易である。

Contextual ASR, which takes a list of bias terms as input along with audio, has drawn recent interest as ASR use becomes more widespread. We are releasing contextual biasing lists to accompany the Earnings21 dataset, creating a public benchmark for this task. We present baseline results on this benchmark using a pretrained end-to-end ASR model from the WeNet toolkit. We show results for shallow fusion contextual biasing applied to two different decoding algorithms. Our baseline results confirm observations that end-to-end models struggle in particular with words that are rarely or never seen during training, and that existing shallow fusion techniques do not adequately address this problem. We propose an alternate spelling prediction model that improves recall of rare words by 34.7% relative and of out-of-vocabulary words by 97.2% relative, compared to contextual biasing without alternate spellings. This model is conceptually similar to ones used in prior work, but is simpler to implement as it does not rely on either a pronunciation dictionary or an existing text-to-speech system.
翻訳日:2022-09-07 14:48:16 公開日:2022-09-02
# ベイズ推論によるピアグレーディングの改善

Better Peer Grading through Bayesian Inference ( http://arxiv.org/abs/2209.01242v1 )

ライセンス: Link先を確認
Hedayat Zarkoob and Greg d'Eon and Lena Podina and Kevin Leyton-Brown(参考訳) ピアグレーティングシステムは、複数の学生からのノイズの多いレポートを集約し、可能な限り真のグレードを近似する。 現在のシステムのほとんどは、報告された成績の平均または中央値を取り、他のシステムは確率モデルの下で生徒の成績の正確さを推定することを目的としている。 後者のアプローチでは,(1) 学生が戦略的に行動できることを認識すること(例えば,作業を行わずにクラス平均に近い成績を報告すること),(2) 離散的に評価されたグレーディング・ルーリックから生じる検閲されたデータを適切に扱うこと,(3) 混合整数プログラミングを用いて学生に割り当てられた学級の解釈性を向上させること,の3つの主要な手法で技術の現状を拡大する。 このモデルでベイズ推定を実践的にする方法を示し、我々の実装システムを用いて4つの大規模クラスで得られた合成データと実世界のデータの両方に対するアプローチを評価する。 これらの広範囲な実験により,本モデルを用いたグレードアグリゲーションは,真のグレード,非定型的なグレードを提出する確率,固有のグレーディングエラーの変動を正確に推定できることが示された。

Peer grading systems aggregate noisy reports from multiple students to approximate a true grade as closely as possible. Most current systems either take the mean or median of reported grades; others aim to estimate students' grading accuracy under a probabilistic model. This paper extends the state of the art in the latter approach in three key ways: (1) recognizing that students can behave strategically (e.g., reporting grades close to the class average without doing the work); (2) appropriately handling censored data that arises from discrete-valued grading rubrics; and (3) using mixed integer programming to improve the interpretability of the grades assigned to students. We show how to make Bayesian inference practical in this model and evaluate our approach on both synthetic and real-world data obtained by using our implemented system in four large classes. These extensive experiments show that grade aggregation using our model accurately estimates true grades, students' likelihood of submitting uninformative grades, and the variation in their inherent grading error; we also characterize our models' robustness.
翻訳日:2022-09-07 14:44:09 公開日:2022-09-02
# オブジェクトベースアクティブ推論

Object-based active inference ( http://arxiv.org/abs/2209.01258v1 )

ライセンス: Link先を確認
Ruben S. van Bergen and Pablo L. Lanillos(参考訳) 世界は対象から成り、独立した性質とダイナミクスを持つ別個の実体である。 エージェントが世界とインテリジェントに対話するためには、各オブジェクトを記述する有界な特徴に感覚入力を変換する必要がある。 これらのオブジェクトベースの表現は、計画行動の自然な基盤を形成する。 アクティブ推論(AIF)は、知覚と行動の統一に影響を及ぼすが、既存のAIFモデルは、この重要な帰納バイアスを生かしていない。 これを解決するために、最近のディープオブジェクトベースニューラルネットワークとAIFを結合する「オブジェクトベースアクティブ推論」(OBAI)を導入する。 OBAIは、異なる変分信念を持つ異なるオブジェクトを表し、対応するオブジェクトスロットに入力をルーティングするために選択的注意を使用する。 オブジェクト表現には独立したアクションベースのダイナミクスが与えられている。 ダイナミクスと生成モデルは、単純な環境(アクティブなマルチdSprites)の経験から学習される。 OBAIは、映像入力からアクション摂動オブジェクトを正しく分割し、これらのオブジェクトを任意の目標に向けて操作することを学ぶ。

The world consists of objects: distinct entities possessing independent properties and dynamics. For agents to interact with the world intelligently, they must translate sensory inputs into the bound-together features that describe each object. These object-based representations form a natural basis for planning behavior. Active inference (AIF) is an influential unifying account of perception and action, but existing AIF models have not leveraged this important inductive bias. To remedy this, we introduce 'object-based active inference' (OBAI), marrying AIF with recent deep object-based neural networks. OBAI represents distinct objects with separate variational beliefs, and uses selective attention to route inputs to their corresponding object slots. Object representations are endowed with independent action-based dynamics. The dynamics and generative model are learned from experience with a simple environment (active multi-dSprites). We show that OBAI learns to correctly segment the action-perturbed objects from video input, and to manipulate these objects towards arbitrary goals.
翻訳日:2022-09-07 14:43:45 公開日:2022-09-02
# 語彙データにおける新しい授業の発見方法

A Method for Discovering Novel Classes in Tabular Data ( http://arxiv.org/abs/2209.01217v1 )

ライセンス: Link先を確認
Colin Troisemaine and Joachim Flocon-Cholet and St\'ephane Gosselin and Sandrine Vaton and Alexandre Reiffers-Masson and Vincent Lemaire(参考訳) novel class discovery (ncd) では、既知のが異なるクラスのラベル付き集合が与えられたラベルなしのセットで新しいクラスを見つけることが目的である。 NCDは最近、コミュニティから注目を集めているが、非常に一般的なデータ表現であるにもかかわらず、不均一な表形式データのためのフレームワークはまだ提案されていない。 本稿では,表データの新しいクラスを発見するための新しい手法であるTabularNCDを提案する。 異種変数を含む表データのコンテキストにおいて,すでに知られているクラスから知識を抽出し,新しいクラスの発見プロセスを導く方法を示す。 このプロセスの一部は、擬似ラベルを定義する新しい方法によって行われ、マルチタスク学習における最近の知見に従い、共同目的関数を最適化する。 本手法は,NCDが画像だけでなく,不均一な表データにも適用可能であることを示す。 本手法の評価と, 各種公開分類データセットの3つの競合相手に対する有効性を示すため, 大規模な実験を行った。

In Novel Class Discovery (NCD), the goal is to find new classes in an unlabeled set given a labeled set of known but different classes. While NCD has recently gained attention from the community, no framework has yet been proposed for heterogeneous tabular data, despite being a very common representation of data. In this paper, we propose TabularNCD, a new method for discovering novel classes in tabular data. We show a way to extract knowledge from already known classes to guide the discovery process of novel classes in the context of tabular data which contains heterogeneous variables. A part of this process is done by a new method for defining pseudo labels, and we follow recent findings in Multi-Task Learning to optimize a joint objective function. Our method demonstrates that NCD is not only applicable to images but also to heterogeneous tabular data. Extensive experiments are conducted to evaluate our method and demonstrate its effectiveness against 3 competitors on 7 diverse public classification datasets.
翻訳日:2022-09-07 14:33:01 公開日:2022-09-02
# 逆色フィルム:DNNに対する効果的な物理世界攻撃

Adversarial Color Film: Effective Physical-World Attack to DNNs ( http://arxiv.org/abs/2209.02430v1 )

ライセンス: Link先を確認
Chengyin Hu, Weiwen Shi(参考訳) ディープニューラルネットワーク(DNN)の性能が微妙な干渉の影響を受けやすいことはよく知られている。 今のところ、カメラベースの物理的敵攻撃はあまり注目されていませんが、物理的な攻撃の欠如です。 本稿では,カラーフィルムの物理パラメータを操作して攻撃を行うadvcf(adversarial color film)と呼ばれる簡易かつ効率的なカメラベース物理攻撃を提案する。 デジタル環境と物理環境の両方において提案手法の有効性を示す。 さらに,実験結果から,AdvCFが生成した対向検体は攻撃伝達性に優れた性能を示し,有効ブラックボックス攻撃を可能にした。 同時に、敵の訓練によってAdvCFに対する防衛の指導を行う。 最後に、将来のビジョンベースのシステムに対するAdvCFの脅威を考察し、カメラベースの物理的攻撃に対する有望な精神性を提案する。

It is well known that the performance of deep neural networks (DNNs) is susceptible to subtle interference. So far, camera-based physical adversarial attacks haven't gotten much attention, but it is the vacancy of physical attack. In this paper, we propose a simple and efficient camera-based physical attack called Adversarial Color Film (AdvCF), which manipulates the physical parameters of color film to perform attacks. Carefully designed experiments show the effectiveness of the proposed method in both digital and physical environments. In addition, experimental results show that the adversarial samples generated by AdvCF have excellent performance in attack transferability, which enables AdvCF effective black-box attacks. At the same time, we give the guidance of defense against AdvCF by means of adversarial training. Finally, we look into AdvCF's threat to future vision-based systems and propose some promising mentality for camera-based physical attacks.
翻訳日:2022-09-07 14:21:55 公開日:2022-09-02
# dpit:人間のポーズ推定のためのデュアルパイプライン統合トランス

DPIT: Dual-Pipeline Integrated Transformer for Human Pose Estimation ( http://arxiv.org/abs/2209.02431v1 )

ライセンス: Link先を確認
Shuaitao Zhao, Kun Liu, Yuhang Huang, Qian Bao, Dan Zeng, and Wu Liu(参考訳) 人間のポーズ推定は、異なるシーンにいるすべての人々のキーポイントを見つけることを目的としています。 現在のアプローチは、有望な結果にもかかわらず、いくつかの課題に直面している。 既存のトップダウンメソッドは、異なる人とその場所にあるシーンの間のインタラクションなしで、個別に1人を扱う。 その結果、重篤な閉塞が発生した場合、人間の検出性能は低下する。 一方、既存のボトムアップ手法では、すべての人を同時に考慮し、画像全体のグローバルな知識を捉えている。 しかし、それらはスケールのばらつきのため、トップダウン方式よりも正確ではない。 これらの問題に対処するために, トップダウンとボトムアップのパイプラインを統合し, 異なる受容野の視覚的な手がかりを探索し, 相補性を達成する新しいデュアルパイプライン統合トランス(dpit)を提案する。 具体的には、dpitは2つのブランチから成り、ボトムアップブランチは全画像を処理してグローバルな視覚情報をキャプチャし、トップダウンブランチは1つの人間のバウンディングボックスからローカルビジョンの特徴表現を抽出する。 そして、ボトムアップとトップダウンの分岐から抽出した特徴表現をトランスフォーマーエンコーダに入力し、グローバルとローカルの知識をインタラクティブに融合させる。 さらに,2つのパイプラインの相互相補性を実現するために,キーポイントクエリを定義し,フルシーンと1人姿勢の視覚的手がかりを探索する。 私たちの知る限りでは、ボトムアップとトップダウンのパイプラインを人間のポーズ推定のためのトランスフォーマーに統合する最初の作業のひとつです。 COCOとMPIIデータセットの大規模な実験により、私たちのDPITは最先端の手法と同等のパフォーマンスを達成しています。

Human pose estimation aims to figure out the keypoints of all people in different scenes. Current approaches still face some challenges despite promising results. Existing top-down methods deal with a single person individually, without the interaction between different people and the scene they are situated in. Consequently, the performance of human detection degrades when serious occlusion happens. On the other hand, existing bottom-up methods consider all people at the same time and capture the global knowledge of the entire image. However, they are less accurate than the top-down methods due to the scale variation. To address these problems, we propose a novel Dual-Pipeline Integrated Transformer (DPIT) by integrating top-down and bottom-up pipelines to explore the visual clues of different receptive fields and achieve their complementarity. Specifically, DPIT consists of two branches, the bottom-up branch deals with the whole image to capture the global visual information, while the top-down branch extracts the feature representation of local vision from the single-human bounding box. Then, the extracted feature representations from bottom-up and top-down branches are fed into the transformer encoder to fuse the global and local knowledge interactively. Moreover, we define the keypoint queries to explore both full-scene and single-human posture visual clues to realize the mutual complementarity of the two pipelines. To the best of our knowledge, this is one of the first works to integrate the bottom-up and top-down pipelines with transformers for human pose estimation. Extensive experiments on COCO and MPII datasets demonstrate that our DPIT achieves comparable performance to the state-of-the-art methods.
翻訳日:2022-09-07 14:21:39 公開日:2022-09-02
# 深部指紋表現のアンサンブルの学習

Learning an Ensemble of Deep Fingerprint Representations ( http://arxiv.org/abs/2209.02425v1 )

ライセンス: Link先を確認
Akash Godbole and Karthik Nandakumar and Anil K. Jain(参考訳) ディープニューラルネットワーク(dnn)は、指紋から固定長表現を学ぶことに非常に有望である。 表現学習は、しばしば特定の事前知識(例えば、minutiae)を捉えることに焦点を当てているため、指紋で利用可能なすべての識別情報を包括的にカプセル化する普遍表現は存在しない。 表現のアンサンブルを学ぶことでこの問題を緩和できる一方で、2つの重要な課題に対処する必要がある。 (i)同じ指紋画像から複数の多様な表現を抽出する方法 そして (ii)マッチングプロセス中にこれらの表現を最適に活用する方法? 本研究では、入力画像の異なる変換に対してDeepPrint(最先端のDNNベースの指紋エンコーダ)の複数のインスタンスをトレーニングし、指紋埋め込みのアンサンブルを生成する。 また,これらの複数表現を単一の埋め込みに蒸留し,計算複雑性を増大させることなくアンサンブルに存在する多様性を忠実に捉える特徴融合手法を提案する。 提案手法は, 転がり指紋(NIST SD4, NIST SD14, NIST SD27, NIST SD302, FVC 2004 DB2A)を含む5つのデータベース上で総合的に評価され, 統計的に有意な精度向上は, 検証範囲やクローズドおよびオープンセットの識別設定とともに一貫して実証されている。 提案手法は、DNNベースの認識システムの精度を向上させるラッパーとして機能する。

Deep neural networks (DNNs) have shown incredible promise in learning fixed-length representations from fingerprints. Since the representation learning is often focused on capturing specific prior knowledge (e.g., minutiae), there is no universal representation that comprehensively encapsulates all the discriminatory information available in a fingerprint. While learning an ensemble of representations can mitigate this problem, two critical challenges need to be addressed: (i) How to extract multiple diverse representations from the same fingerprint image? and (ii) How to optimally exploit these representations during the matching process? In this work, we train multiple instances of DeepPrint (a state-of-the-art DNN-based fingerprint encoder) on different transformations of the input image to generate an ensemble of fingerprint embeddings. We also propose a feature fusion technique that distills these multiple representations into a single embedding, which faithfully captures the diversity present in the ensemble without increasing the computational complexity. The proposed approach has been comprehensively evaluated on five databases containing rolled, plain, and latent fingerprints (NIST SD4, NIST SD14, NIST SD27, NIST SD302, and FVC2004 DB2A) and statistically significant improvements in accuracy have been consistently demonstrated across a range of verification as well as closed- and open-set identification settings. The proposed approach serves as a wrapper capable of improving the accuracy of any DNN-based recognition system.
翻訳日:2022-09-07 14:12:44 公開日:2022-09-02
# 深部ニューラルネットワークのロバスト性に及ぼすスケール画像の影響

Impact of Scaled Image on Robustness of Deep Neural Networks ( http://arxiv.org/abs/2209.02132v1 )

ライセンス: Link先を確認
Chengyin Hu, Weiwen Shi(参考訳) ディープニューラルネットワーク(DNN)は、画像分類、オブジェクト検出、セグメンテーションといったコンピュータビジョンタスクで広く使用されている。 近年の研究では、入力画像のデジタル摂動や歪みに対する脆弱性が示されている。 ネットワークの精度は、トレーニングデータセットのデータ分布によって著しく影響を受ける。 生画像のスケーリングは分散データを生成するため、ネットワークを騙すための敵対的な攻撃になる可能性がある。 本研究では,ImageNet Challengeデータセットのサブセットを複数でスケーリングすることで,Scaling-DistortionデータセットのImageNet-CSを提案する。 本研究の目的は,拡張DNNの性能に及ぼすスケール画像の影響を検討することである。 提案するimagenet-cs上で,最先端深層ニューラルネットワークアーキテクチャの実験を行い,スケーリングサイズと精度低下との間に有意な正の相関を示した。 さらに,resnet50アーキテクチャに基づき,最近提案するロバストなトレーニング手法と augmix, revisiting, normalizer などの戦略の性能に関するいくつかのテストを行った。 実験の結果、これらの堅牢なトレーニング技術は、ネットワークのスケール変換に対する堅牢性を改善することが示されている。

Deep neural networks (DNNs) have been widely used in computer vision tasks like image classification, object detection and segmentation. Whereas recent studies have shown their vulnerability to manual digital perturbations or distortion in the input images. The accuracy of the networks is remarkably influenced by the data distribution of their training dataset. Scaling the raw images creates out-of-distribution data, which makes it a possible adversarial attack to fool the networks. In this work, we propose a Scaling-distortion dataset ImageNet-CS by Scaling a subset of the ImageNet Challenge dataset by different multiples. The aim of our work is to study the impact of scaled images on the performance of advanced DNNs. We perform experiments on several state-of-the-art deep neural network architectures on the proposed ImageNet-CS, and the results show a significant positive correlation between scaling size and accuracy decline. Moreover, based on ResNet50 architecture, we demonstrate some tests on the performance of recent proposed robust training techniques and strategies like Augmix, Revisiting and Normalizer Free on our proposed ImageNet-CS. Experiment results have shown that these robust training techniques can improve networks' robustness to scaling transformation.
翻訳日:2022-09-07 14:07:44 公開日:2022-09-02
# マルチモーダル体験によるAI創造

Multi-Modal Experience Inspired AI Creation ( http://arxiv.org/abs/2209.02427v1 )

ライセンス: Link先を確認
Qian Cao, Xu Chen, Ruihua Song, Hao Jiang, Guang Yang, Zhao Cao(参考訳) 詩や歌詞生成などのAI創造は、産業コミュニティと学術コミュニティの両方から注目を集めており、ここ数年で多くの有望なモデルが提案されている。 既存の手法は通常、単独および独立した視覚またはテキストの情報に基づいて出力を推定する。 しかし実際には、人間は経験に応じて創造し、異なるモダリティを伴い、逐次的に相関する可能性がある。 このような人間の能力をモデル化するために,本稿では,人間の経験に基づく新しいAI創造問題を定義,解決する。 具体的には,逐次的マルチモーダル情報に基づくテキスト生成法について検討する。 設計されたモデルは、異なるモダリティ間のセマンティクスをよく理解し、適応させ、それらを逐次的に出力に変換する必要があるため、以前の作品と比較すると、このタスクはずっと難しい。 これらの課題を解消するため,我々はまずマルチモーダルアテンションネットワークを備えたマルチチャネルシーケンスツーシーケンスアーキテクチャを設計した。 より効果的に最適化するために、逐次入力に適したカリキュラム陰性サンプリング戦略を提案する。 この問題をベンチマークし、モデルの有効性を示すために、我々は新しいマルチモーダル体験データセットを手動でラベル付けした。 このデータセットでは、モデルと一連の代表的ベースラインを比較して広範な実験を行い、自動と人中心の両方のメトリクスに基づいて、モデルの大幅な改善を実証することができる。 コードとデータは \url{https://github.com/aman-4-real/mmtg} で入手できる。

AI creation, such as poem or lyrics generation, has attracted increasing attention from both industry and academic communities, with many promising models proposed in the past few years. Existing methods usually estimate the outputs based on single and independent visual or textual information. However, in reality, humans usually make creations according to their experiences, which may involve different modalities and be sequentially correlated. To model such human capabilities, in this paper, we define and solve a novel AI creation problem based on human experiences. More specifically, we study how to generate texts based on sequential multi-modal information. Compared with the previous works, this task is much more difficult because the designed model has to well understand and adapt the semantics among different modalities and effectively convert them into the output in a sequential manner. To alleviate these difficulties, we firstly design a multi-channel sequence-to-sequence architecture equipped with a multi-modal attention network. For more effective optimization, we then propose a curriculum negative sampling strategy tailored for the sequential inputs. To benchmark this problem and demonstrate the effectiveness of our model, we manually labeled a new multi-modal experience dataset. With this dataset, we conduct extensive experiments by comparing our model with a series of representative baselines, where we can demonstrate significant improvements in our model based on both automatic and human-centered metrics. The code and data are available at: \url{https://github.com/Aman-4-Real/MMTG}.
翻訳日:2022-09-07 13:51:17 公開日:2022-09-02
# 一様群集環境における全体追跡による人体モニタリング

Person Monitoring by Full Body Tracking in Uniform Crowd Environment ( http://arxiv.org/abs/2209.01274v1 )

ライセンス: Link先を確認
Zhibo Zhang, Omar Alremeithi, Maryam Almheiri, Marwa Albeshr, Xiaoxiong Zhang, Sajid Javed, Naoufel Werghi(参考訳) フルボディトラッカーは、人追跡ロボットなどの監視やセキュリティ目的で使用される。 中東では、均一な群衆環境が最先端のトラッカーに挑戦する規範である。 過去の文献に記録されたトラッカー技術の大幅な改善にもかかわらず、これらのトラッカーはこれらの環境をキャプチャするデータセットを使用して訓練されていない。 本研究では,一様群集環境において,動画毎に1つのターゲットを指定できるアノテートデータセットを開発した。 データセットは4つの異なるシナリオで生成され、主にターゲットが群衆と一緒に動き、時にはそれと混ざり合うことがあり、その他、カメラのカメラによるターゲットの視点は短い期間群衆によってブロックされる。 アノテーションの後、最先端のトラッカーの評価と微調整に使用された。 この結果より,2つの定量的評価指標に基づく評価データセットにおいて,初期学習トラッカーと比較して,微調整トラッカーが良好な性能を示した。

Full body trackers are utilized for surveillance and security purposes, such as person-tracking robots. In the Middle East, uniform crowd environments are the norm which challenges state-of-the-art trackers. Despite tremendous improvements in tracker technology documented in the past literature, these trackers have not been trained using a dataset that captures these environments. In this work, we develop an annotated dataset with one specific target per video in a uniform crowd environment. The dataset was generated in four different scenarios where mainly the target was moving alongside the crowd, sometimes occluding with them, and other times the camera's view of the target is blocked by the crowd for a short period. After the annotations, it was used in evaluating and fine-tuning a state-of-the-art tracker. Our results have shown that the fine-tuned tracker performed better on the evaluation dataset based on two quantitative evaluation metrics, compared to the initial pre-trained tracker.
翻訳日:2022-09-07 13:50:26 公開日:2022-09-02
# 規模でのコモンセンス質問応答の試作

Elaboration-Generating Commonsense Question Answering at Scale ( http://arxiv.org/abs/2209.01232v1 )

ライセンス: Link先を確認
Wenya Wang, Vivek Srikumar, Hanna Hajishirzi, Noah A. Smith(参考訳) 一般的な感覚を必要とする問題に対して、言語モデル(例えばGPT-3)は、パフォーマンス向上に役立つバックグラウンド知識を表わすテキストを生成するために使われてきた。 しかし、そのようなモデルで作業するコストは非常に高く、この作業では、より小さな言語モデルを微調整して有用な中間的コンテキストを生成します。 フレームワークは2つの言語モデルの更新 – 開発中のジェネレータと応答予測器 – を交互に行うことで,それぞれが相互に影響を与えます。 GPT-3のパラメータの0.5%未満を用いて、我々のモデルは同様のサイズで代替品よりも優れており、4つの常識的質問応答ベンチマークでGPT-3のギャップを埋めている。 人的評価は, 生成したエレーボレーションの質が高いことを示している。

In question answering requiring common sense, language models (e.g., GPT-3) have been used to generate text expressing background knowledge that helps improve performance. Yet the cost of working with such models is very high; in this work, we finetune smaller language models to generate useful intermediate context, referred to here as elaborations. Our framework alternates between updating two language models -- an elaboration generator and an answer predictor -- allowing each to influence the other. Using less than 0.5% of the parameters of GPT-3, our model outperforms alternatives with similar sizes and closes the gap on GPT-3 on four commonsense question answering benchmarks. Human evaluations show that the quality of the generated elaborations is high.
翻訳日:2022-09-07 13:25:07 公開日:2022-09-02
# 感性属性の再構成を促進するためのフェアネスの爆発

Exploiting Fairness to Enhance Sensitive Attributes Reconstruction ( http://arxiv.org/abs/2209.01215v1 )

ライセンス: Link先を確認
Julien Ferry (LAAS-ROC), Ulrich A\"ivodji (ETS), S\'ebastien Gambs (UQAM), Marie-Jos\'e Huguet (LAAS-ROC), Mohamed Siala (LAAS-ROC)(参考訳) 近年、公正な制約の下で機械学習モデルを学習する方法に関する研究が増えている。 本研究では,対象モデルへのブラックボックスアクセスを敵が有する設定について検討し,このモデルの公平性に関する情報を敵が活用し,トレーニングデータの繊細な属性の再構築を促進することができることを示す。 より正確には、敵が行った最初の推測を入力として、敵の推測の変更を最小限に抑えつつ、一部のユーザー定義の制約(フェアネス情報など)に従うように修正する、総称再構成補正法を提案する。 提案手法は,対象モデルの種類,公平性を意識した学習法,および敵の補助的知識に依存しない。 提案手法の適用性を評価するため,我々は4つの異なる公平度指標と多種多様なサイズと繊細な属性のデータセットを用いて,2つの公正な学習手法を徹底的に実験的に評価した。 実験の結果,訓練セットの敏感な属性の再構築を改善するための提案手法の有効性が示された。

In recent years, a growing body of work has emerged on how to learn machine learning models under fairness constraints, often expressed with respect to some sensitive attributes. In this work, we consider the setting in which an adversary has black-box access to a target model and show that information about this model's fairness can be exploited by the adversary to enhance his reconstruction of the sensitive attributes of the training data. More precisely, we propose a generic reconstruction correction method, which takes as input an initial guess made by the adversary and corrects it to comply with some user-defined constraints (such as the fairness information) while minimizing the changes in the adversary's guess. The proposed method is agnostic to the type of target model, the fairness-aware learning method as well as the auxiliary knowledge of the adversary. To assess the applicability of our approach, we have conducted a thorough experimental evaluation on two state-of-the-art fair learning methods, using four different fairness metrics with a wide range of tolerances and with three datasets of diverse sizes and sensitive attributes. The experimental results demonstrate the effectiveness of the proposed approach to improve the reconstruction of the sensitive attributes of the training set.
翻訳日:2022-09-07 13:10:09 公開日:2022-09-02
# オブジェクト中心イベントデータから特徴抽出と符号化を行うフレームワーク

A Framework for Extracting and Encoding Features from Object-Centric Event Data ( http://arxiv.org/abs/2209.01219v1 )

ライセンス: Link先を確認
Jan Niklas Adams, Gyunam Park, Sergej Levich, Daniel Schuster, Wil M.P. van der Aalst(参考訳) 従来のプロセスマイニング技術では、イベントデータを入力として取り、各イベントがちょうど1つのオブジェクトに関連付けられています。 オブジェクトはプロセスのインスタンス化を表します。 オブジェクト中心のイベントデータは、複数のプロセスの相互作用を表現する複数のオブジェクトに関連するイベントを含む。 従来のプロセスマイニング技術は、正確に1つのオブジェクトに関連するイベントを前提としています。 従来のプロセスマイニング技術を使用するには、オブジェクト中心のイベントデータは、すべてのオブジェクト参照を1つだけ取り除くことでフラット化される。 フラット化プロセスは失われ、フラット化データから抽出された不正確な特徴が生じる。 さらに、フラット化時には、オブジェクト中心イベントデータのグラフ状構造が失われる。 本稿では,オブジェクト中心のイベントデータから特徴抽出とエンコーディングを行う汎用フレームワークを提案する。 オブジェクト中心のイベントデータに基づいて特徴をネイティブに計算し、正確な測定結果を得る。 さらに,これらの機能に対して,表型,シーケンシャル,グラフベースの3つのエンコーディングを提供する。 グラフおよびシーケンシャルエンコーディングはプロセスマイニングにおいて多用されているが、グラフベースのエンコーディングは、オブジェクト中心のイベントデータの構造を保存する新しい手法である。 これら3つのエンコーディングの可視化と予測ユースケースの6つのユースケースを提供する。 我々は,予測モデルにおいて,オブジェクト中心の特徴と逐次およびグラフに基づくエンコーディングの構造の両方の有用性を示すために,説明可能なaiを用いる。

Traditional process mining techniques take event data as input where each event is associated with exactly one object. An object represents the instantiation of a process. Object-centric event data contain events associated with multiple objects expressing the interaction of multiple processes. As traditional process mining techniques assume events associated with exactly one object, these techniques cannot be applied to object-centric event data. To use traditional process mining techniques, the object-centric event data are flattened by removing all object references but one. The flattening process is lossy, leading to inaccurate features extracted from flattened data. Furthermore, the graph-like structure of object-centric event data is lost when flattening. In this paper, we introduce a general framework for extracting and encoding features from object-centric event data. We calculate features natively on the object-centric event data, leading to accurate measures. Furthermore, we provide three encodings for these features: tabular, sequential, and graph-based. While tabular and sequential encodings have been heavily used in process mining, the graph-based encoding is a new technique preserving the structure of the object-centric event data. We provide six use cases: a visualization and a prediction use case for each of the three encodings. We use explainable AI in the prediction use cases to show the utility of both the object-centric features and the structure of the sequential and graph-based encoding for a predictive model.
翻訳日:2022-09-07 13:09:49 公開日:2022-09-02
# 協調型マルチエージェント強化学習における実践的コミュニケーション戦略の学習

Learning Practical Communication Strategies in Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2209.01288v1 )

ライセンス: Link先を確認
Diyi Hu, Chi Zhang, Viktor Prasanna, Bhaskar, Krishnamachari(参考訳) マルチエージェント強化学習では,エージェント間の協調を促進するためにコミュニケーションが不可欠である。 現実の無線ネットワークにおける通信は、エージェントの移動性や伝送過程の確率性によって異なるネットワーク条件により、非常に信頼できない。 我々は,(1)エージェントがメッセージの重要性だけでなく,無線回線条件にも基いてコミュニケーションのタイミングを学習する場合に,実用的コミュニケーション戦略を学ぶための枠組みを提案する。 2) エージェントは,無線ネットワーク計測によるメッセージ内容の強化を行い,ゲームやコミュニケーション行動のより良い選択を行う。 (3) エージェントは、受信メッセージの数や順序に関わらず、受信メッセージからすべての情報を保存するために、新しいニューラルメッセージエンコーダを使用する。 リアルな無線ネットワーク設定下での標準ベンチマークのシミュレーションでは,最先端技術と比較してゲーム性能,収束速度,通信効率が大幅に向上した。

In Multi-Agent Reinforcement Learning, communication is critical to encourage cooperation among agents. Communication in realistic wireless networks can be highly unreliable due to network conditions varying with agents' mobility, and stochasticity in the transmission process. We propose a framework to learn practical communication strategies by addressing three fundamental questions: (1) When: Agents learn the timing of communication based on not only message importance but also wireless channel conditions. (2) What: Agents augment message contents with wireless network measurements to better select the game and communication actions. (3) How: Agents use a novel neural message encoder to preserve all information from received messages, regardless of the number and order of messages. Simulating standard benchmarks under realistic wireless network settings, we show significant improvements in game performance, convergence speed and communication efficiency compared with state-of-the-art.
翻訳日:2022-09-07 13:09:29 公開日:2022-09-02
# SIAN:多臓器病理画像合成のためのスタイルガイド型インスタンス適応正規化

SIAN: Style-Guided Instance-Adaptive Normalization for Multi-Organ Histopathology Image Synthesis ( http://arxiv.org/abs/2209.02412v1 )

ライセンス: Link先を確認
Haotian Wang, Min Xian, Aleksandar Vakanski, Bryar Shareef(参考訳) 組織病理学のための既存の深層ネットワーク画像合成は、クラスター核の正確な境界を生成しず、異なる臓器に合わせた画像スタイルを出力することができない。 これらの問題に対処するため、異なる臓器のリアルな色分布とテクスチャを合成するためのsian(style-guided instance-adaptive normalization)を提案する。 SIANは4つのフェーズ、セマント化、スタイラス化、インスタンス化、変調を含む。 4つのフェーズは協調して動作し、生成ネットワークに統合され、イメージセマンティクス、スタイル、インスタンスレベルの境界を埋め込む。 実験の結果,SIANのすべての成分の有効性を実証し,Frechet Inception Distance (FID), 構造類似度指数 (SSIM), 検出品質 (DQ), セグメンテーション品質 (SQ), 汎光学品質 (PQ), を用いた病理画像合成における最先端条件のGANよりも優れた結果を得た。 さらに,SIANを用いた合成画像の導入により,セグメンテーションネットワークの性能を大幅に向上させることができる。

Existing deep networks for histopathology image synthesis cannot generate accurate boundaries for clustered nuclei and cannot output image styles that align with different organs. To address these issues, we propose a style-guided instance-adaptive normalization (SIAN) to synthesize realistic color distributions and textures for different organs. SIAN contains four phases, semantization, stylization, instantiation, and modulation. The four phases work together and are integrated into a generative network to embed image semantics, style, and instance-level boundaries. Experimental results demonstrate the effectiveness of all components in SIAN, and show that the proposed method outperforms the state-of-the-art conditional GANs for histopathology image synthesis using the Frechet Inception Distance (FID), structural similarity Index (SSIM), detection quality(DQ), segmentation quality(SQ), and panoptic quality(PQ). Furthermore, the performance of a segmentation network could be significantly improved by incorporating synthetic images generated using SIAN.
翻訳日:2022-09-07 13:02:44 公開日:2022-09-02
# 自己教師型学習における特徴多様性

Feature diversity in self-supervised learning ( http://arxiv.org/abs/2209.01275v1 )

ライセンス: Link先を確認
Pranshu Malviya, Arjun Vaithilingam Sudhakar(参考訳) スケーリング法則に関する多くの研究は、モデルサイズ、モデル形状、データセットサイズ、計算能力などの基本的な要素を考察している。 これらの要素は簡単に調整でき、あらゆる機械学習セットアップの基本要素を表す。 しかし、研究者はより複雑な因子を用いて、高い予測可能性でテストエラーと一般化性能を推定している。 これらの要素は一般的にドメインやアプリケーションに特化します。 例えば、ChenらによるSyn-to-real Transfer(2021)の促進に特徴多様性が主に用いられた。 これらの要因がCNNモデルを用いた自己教師型学習の文脈における全体的な一般化性能にどのように影響するかは、これまでの研究で定義された多くのスケーリング要因で興味深い。 異なる深さ、幅、早期停止を伴う訓練エポックの数など、個々の要因が一般化を促進するにはどうすればよいか? 例えば、機能多様性が高ければ、syn-to-real転送以外の複雑な設定で高い精度が得られるのでしょうか? これらの要因は相互にどのように依存するのか? トレーニング中,最終層が最も多様化していることが分かりました。 しかしながら、モデルのテストエラーはエポックの増加とともに減少するが、その多様性は低下する。 また,多様性はモデル幅に直接関係していることが判明した。

Many studies on scaling laws consider basic factors such as model size, model shape, dataset size, and compute power. These factors are easily tunable and represent the fundamental elements of any machine learning setup. But researchers have also employed more complex factors to estimate the test error and generalization performance with high predictability. These factors are generally specific to the domain or application. For example, feature diversity was primarily used for promoting syn-to-real transfer by Chen et al. (2021). With numerous scaling factors defined in previous works, it would be interesting to investigate how these factors may affect overall generalization performance in the context of self-supervised learning with CNN models. How do individual factors promote generalization, which includes varying depth, width, or the number of training epochs with early stopping? For example, does higher feature diversity result in higher accuracy held in complex settings other than a syn-to-real transfer? How do these factors depend on each other? We found that the last layer is the most diversified throughout the training. However, while the model's test error decreases with increasing epochs, its diversity drops. We also discovered that diversity is directly related to model width.
翻訳日:2022-09-07 12:38:24 公開日:2022-09-02
# この写真はどの国からですか。 DNNに基づく国認識のための新しいデータと方法

Which country is this picture from? New data and methods for DNN-based country recognition ( http://arxiv.org/abs/2209.02429v1 )

ライセンス: Link先を確認
Omran Alamayreh, Giovanna Maria Dimitri, Jun Wang, Benedetta Tondi, Mauro Barni(参考訳) 写真が撮られた国を予測するには、虚偽のクレームの検出、インポスタの識別、偽情報キャンペーンの防止、偽ニュースの識別など、多くの潜在的な応用がある。 これまでの研究は、写真が撮られた場所の座標の推定に重点を置いてきた。 しかし、画像が撮影された国を認識することは、その空間座標を識別するよりも、意味的かつ法医学的な観点からより重要である可能性がある。 これまでのところ、この課題に対処した作品はごくわずかであり、ほとんどが象徴的な記念碑のような特徴的なランドマークを含む画像に依存している。 上記のフレームワークでは,2つの大きな貢献がある。 まず、国別分類のためのdlモデルのトレーニングに使用できる、約400万の画像を含む新しいデータセットであるvippgeoデータセットを紹介します。 このデータセットには、この種の画像が国認識に関連づけられている都市画像のみが含まれており、航空機や船舶のような、顔や特定の無関係な物体を描写する画像のような、重要でない画像を削除することに注意を払っている。 次に,本データセットを用いて,国別認識問題を分類問題とするディープラーニングアーキテクチャを訓練した。 実験の結果、我々のネットワークは現在の技術よりもはるかに優れた結果をもたらすことがわかった。 特に,まずジオコーディネートを推定し,その後に写真が撮られた国まで遡るよりも,ネットワークに国を直接識別するよう求めれば,よりよい結果が得られることがわかった。

Predicting the country where a picture has been taken from has many potential applications, like detection of false claims, impostors identification, prevention of disinformation campaigns, identification of fake news and so on. Previous works have focused mostly on the estimation of the geo-coordinates where a picture has been taken. Yet, recognizing the country where an image has been taken could potentially be more important, from a semantic and forensic point of view, than identifying its spatial coordinates. So far only a few works have addressed this task, mostly by relying on images containing characteristic landmarks, like iconic monuments. In the above framework, this paper provides two main contributions. First, we introduce a new dataset, the VIPPGeo dataset, containing almost 4 million images, that can be used to train DL models for country classification. The dataset contains only urban images given the relevance of this kind of image for country recognition, and it has been built by paying attention to removing non-significant images, like images portraying faces or specific, non-relevant objects, like airplanes or ships. Secondly, we used the dataset to train a deep learning architecture casting the country recognition problem as a classification problem. The experiments, we performed, show that our network provides significantly better results than current state of the art. In particular, we found that asking the network to directly identify the country provides better results than estimating the geo-coordinates first and then using them to trace back to the country where the picture was taken.
翻訳日:2022-09-07 12:28:25 公開日:2022-09-02
# TBかTBか? 結核分類における音響cough解析

TB or not TB? Acoustic cough analysis for tuberculosis classification ( http://arxiv.org/abs/2209.00934v1 )

ライセンス: Link先を確認
Geoffrey Frost, Grant Theron, Thomas Niesler(参考訳) 本研究では,結核 (tb) cough分類のための再帰的ニューラルネットワークアーキテクチャについて検討する。 この領域でディープアーキテクチャを実装する試みが失敗に終わったのとは対照的に、bidirectional long short-term memory network (bilstm) はパフォーマンスを向上させることができることを示した。 また,患者不変特徴を学習する新たに提案する注意ベースのアーキテクチャと連動して欲深い特徴選択を行うことで,ベースラインや他の考慮されたアーキテクチャと比較して,実質的に優れた一般化を実現することができることを示す。 また、この注意機構により、分類に重要であると考えられる音声信号の時間領域の検査が可能となる。 最後に,次に解析可能な理想入力を推論するニューラルスタイルのトランスファー手法を開発した。 我々は,TBと非TBコークスの理想的なパワースペクトルの相違を見いだし,音声信号の特徴の出自について手がかりを与える。

In this work, we explore recurrent neural network architectures for tuberculosis (TB) cough classification. In contrast to previous unsuccessful attempts to implement deep architectures in this domain, we show that a basic bidirectional long short-term memory network (BiLSTM) can achieve improved performance. In addition, we show that by performing greedy feature selection in conjunction with a newly-proposed attention-based architecture that learns patient invariant features, substantially better generalisation can be achieved compared to a baseline and other considered architectures. Furthermore, this attention mechanism allows an inspection of the temporal regions of the audio signal considered to be important for classification to be performed. Finally, we develop a neural style transfer technique to infer idealised inputs which can subsequently be analysed. We find distinct differences between the idealised power spectra of TB and non-TB coughs, which provide clues about the origin of the features in the audio signal.
翻訳日:2022-09-05 13:06:44 公開日:2022-09-02
# 暗号化されたC2トラフィック検出に侵入するMetasploit

Tweaking Metasploit to Evade Encrypted C2 Traffic Detection ( http://arxiv.org/abs/2209.00943v1 )

ライセンス: Link先を確認
Gon\c{c}alo Xavier, Carlos Novo, Ricardo Morla(参考訳) コマンド・アンド・コントロール(c2)通信は、いかなる構造化サイバー攻撃においても重要なコンポーネントである。 そのため、セキュリティ操作はネットワーク内のこの種の通信を積極的に検出しようとする。 一般的に使われているMetasploitのようなペンテスティングツールは、通常のWebトラフィックと容易に区別できる一定のトラフィックパターンを生成するため、これは検出されないままでいようとする正規のペンテスタにとって問題となる。 本稿では,metasploitのc2トラヒックにおける識別可能なパターンから始めて,暗号化された場合でも,機械学習に基づく検出によってそのようなトラヒックの存在を高精度に検出できることを示す。 次に,これらの分類器の検出率を下げるために,メタsploitフレームワークの一連の変更を概説し,実装する。 これらの修正の有効性を評価するために,これらの修正を意識した2つの脅威モデルを用いる。 我々は、検出回避性能と変更のバイト数と実行時のオーバーヘッドについて検討する。 その結果,第2にフレームワーク側のトラフィック修正は,ペイロード側のみの変更 (50%) よりも検出回避率 (90%) が向上することが分かった。 また、修正版では元の3倍のTLSペイロードバイトが使用されるが、ランタイムは大幅に変化せず、TLSペイロードを含む総バイト数が減少することを示した。

Command and Control (C2) communication is a key component of any structured cyber-attack. As such, security operations actively try to detect this type of communication in their networks. This poses a problem for legitimate pentesters that try to remain undetected, since commonly used pentesting tools, such as Metasploit, generate constant traffic patterns that are easily distinguishable from regular web traffic. In this paper we start with these identifiable patterns in Metasploit's C2 traffic and show that a machine learning-based detector is able to detect the presence of such traffic with high accuracy, even when encrypted. We then outline and implement a set of modifications to the Metasploit framework in order to decrease the detection rates of such classifier. To evaluate the performance of these modifications, we use two threat models with increasing awareness of these modifications. We look at the detection evasion performance and at the byte count and runtime overhead of the modifications. Our results show that for the second, increased-awareness threat model the framework-side traffic modifications yield a better detection avoidance rate (90%) than payload-side only modifications (50%). We also show that although the modifications use up to 3 times more TLS payload bytes than the original, the runtime does not significantly change and the total number of bytes (including TLS payload) reduces.
翻訳日:2022-09-05 13:06:30 公開日:2022-09-02
# 不確実データ包絡分析による分類

Classifying with Uncertain Data Envelopment Analysis ( http://arxiv.org/abs/2209.01052v1 )

ライセンス: Link先を確認
Casey Garner and Allen Holder(参考訳) 分類は、エンティティをカテゴリ内の類似性を識別し、カテゴリ間の相違を識別するカテゴリに分類し、分析の支援により情報を強力に分類する。 我々は,不完全なデータの実現を前提とした新しい分類手法を提案する。 我々の計算モデルは、不確実なデータ包絡分析を用いて、分類のカテゴリ内の相似性の集合測度である等式効率に近い分類を定義する。 私たちの分類プロセスには、凸性の喪失と複合的に爆発的な探索空間という2つの計算上の課題があります。 近接値の下位と上位の境界を定め, 1次アルゴリズムを用いてこの範囲を探索することにより, 第一項を克服する。 p-median問題に適応して探索を開始し、反復的な近傍探索を用いて分類を確定することで、第2の課題を克服する。 本研究は, ダウジョーンズ工業平均の30株をパフォーマンスレベルに分類し, 前立腺治療を臨床効果カテゴリーに分類することで結論付けた。

Classifications organize entities into categories that identify similarities within a category and discern dissimilarities among categories, and they powerfully classify information in support of analysis. We propose a new classification scheme premised on the reality of imperfect data. Our computational model uses uncertain data envelopment analysis to define a classification's proximity to equitable efficiency, which is an aggregate measure of intra-similarity within a classification's categories. Our classification process has two overriding computational challenges, those being a loss of convexity and a combinatorially explosive search space. We overcome the first by establishing lower and upper bounds on the proximity value, and then by searching this range with a first-order algorithm. We overcome the second by adapting the p-median problem to initiate our exploration, and by then employing an iterative neighborhood search to finalize a classification. We conclude by classifying the thirty stocks in the Dow Jones Industrial average into performant tiers and by classifying prostate treatments into clinically effectual categories.
翻訳日:2022-09-05 13:06:09 公開日:2022-09-02
# MLモデルはプレーンなレイアウトを学習できますか?

Can an ML model plainly learn planar layouts? ( http://arxiv.org/abs/2209.01075v1 )

ライセンス: Link先を確認
Smon van Wageningen and Tamara Mchedlidze(参考訳) 平面グラフの描画は審美的に喜ばしい傾向にある。 このポスターでは、様々な平面グラフクラスを学習するニューラルネットワークの能力について検討する。 さらに, 平面性を超えた一般化におけるモデルの有効性についても検討した。 このモデルは、あるグラフクラスに対する従来のテクニックよりも優れています。 しかし、このモデルはデータのランダム性に影響を受けやすいようで、予想よりもロバスト性は低いようだ。

Planar graph drawings tend to be aesthetically pleasing. In this poster we explore a Neural Network's capability of learning various planar graph classes. Additionally, we also investigate the effectiveness of the model in generalizing beyond planarity. We find that the model can outperform conventional techniques for certain graph classes. The model, however, appears to be more susceptible to randomness in the data, and seems to be less robust than expected.
翻訳日:2022-09-05 13:05:53 公開日:2022-09-02
# 表現学習に動的制約を導入する

Introducing dynamical constraints into representation learning ( http://arxiv.org/abs/2209.00905v1 )

ライセンス: Link先を確認
Dedi Wang, Yihang Wang, Luke Evans and Pratyush Tiwary(参考訳) 表現学習は機械学習と人工知能の台頭の中心であるが、学習した表現を意味のあるものにすることが重要な問題である。 このため、典型的なアプローチは、事前確率分布を通じて学習表現を正則化することである。 しかし、そのような事前処理は通常使用できないかアドホックである。 これに対応するために,動的制約付き表現学習フレームワークを提案する。 事前定義された確率を用いる代わりに、動的システムにおける表現学習のより自然な制約である特定のダイナミクスに従うために潜在表現を制限します。 我々の信念は、異なる系は異なる限界化された確率分布を持つことができるが、ニュートン方程式やシュロディンガー方程式のような同じ力学に従うという物理学の基本的な観察に由来する。 我々は,現実の蛍光DNA映画データセットを含む様々なシステムに対する枠組みを検証する。 本アルゴリズムは,非相関,等尺,有意な潜在表現を一意に識別できることを示す。

While representation learning has been central to the rise of machine learning and artificial intelligence, a key problem remains in making the learnt representations meaningful. For this the typical approach is to regularize the learned representation through prior probability distributions. However such priors are usually unavailable or ad hoc. To deal with this, we propose a dynamics-constrained representation learning framework. Instead of using predefined probabilities, we restrict the latent representation to follow specific dynamics, which is a more natural constraint for representation learning in dynamical systems. Our belief stems from a fundamental observation in physics that though different systems can have different marginalized probability distributions, they typically obey the same dynamics, such as Newton's and Schrodinger's equations. We validate our framework for different systems including a real-world fluorescent DNA movie dataset. We show that our algorithm can uniquely identify an uncorrelated, isometric and meaningful latent representation.
翻訳日:2022-09-05 13:05:47 公開日:2022-09-02
# ポリシー組込みトレーニングによる半集中型マルチエージェント強化学習

Semi-Centralised Multi-Agent Reinforcement Learning with Policy-Embedded Training ( http://arxiv.org/abs/2209.01054v1 )

ライセンス: Link先を確認
Taher Jafferjee, Juliusz Ziomek, Tianpei Yang, Zipeng Dai, Jianhong Wang, Matthew Taylor, Kun Shao, Jun Wang, David Mguni(参考訳) 中央訓練(CT)は、エージェントが高速に高性能なポリシーを学習できるようにするため、多くの一般的なマルチエージェント強化学習(MARL)手法の基礎となっている。 しかし、CTは特定の状態における他のエージェントの行動の観察から学ぶエージェントに依存している。 MARLエージェントはトレーニング中にポリシーを探索し、更新するため、これらの観察は、しばしば他のエージェントの振る舞いや、与えられたアクションに対する期待されたリターンについての予測が不十分である。 したがって、CT法は、高いばらつきとエラーを起こしやすい推定に悩まされ、学習を害する。 CT法は、強い分解制限(例えばQMIXの単調報酬関数)を課さない限り、地球規模の観測に依存するため、複雑さが爆発的に増大する。 我々は、ポリシー組込みトレーニングと分散実行を実行する、新しい半集中型marlフレームワークでこれらの課題に対処する。 提案手法であるポリシー埋め込み強化学習アルゴリズムは,新しいパラメータ共有プロトコルとポリシー埋め込み手法を利用して,他のエージェントの行動を考慮した推定値を維持する,アクタ・クリティカル・MARLアルゴリズムの拡張ツールである。 我々の理論はPERLAが推定値のばらつきを劇的に減らすことを証明している。 様々なCT法とは異なり、MARLアルゴリズムをシームレスに採用するPERLAは、制限的分解仮定を必要とせずに、エージェント数で容易にスケールできる。 StarCraft Micromanagement II や Multi-agent Mujoco などベンチマーク環境におけるPERLA の優れた経験的性能と効率的なスケーリングを実証する。

Centralised training (CT) is the basis for many popular multi-agent reinforcement learning (MARL) methods because it allows agents to quickly learn high-performing policies. However, CT relies on agents learning from one-off observations of other agents' actions at a given state. Because MARL agents explore and update their policies during training, these observations often provide poor predictions about other agents' behaviour and the expected return for a given action. CT methods therefore suffer from high variance and error-prone estimates, harming learning. CT methods also suffer from explosive growth in complexity due to the reliance on global observations, unless strong factorisation restrictions are imposed (e.g., monotonic reward functions for QMIX). We address these challenges with a new semi-centralised MARL framework that performs policy-embedded training and decentralised execution. Our method, policy embedded reinforcement learning algorithm (PERLA), is an enhancement tool for Actor-Critic MARL algorithms that leverages a novel parameter sharing protocol and policy embedding method to maintain estimates that account for other agents' behaviour. Our theory proves PERLA dramatically reduces the variance in value estimates. Unlike various CT methods, PERLA, which seamlessly adopts MARL algorithms, scales easily with the number of agents without the need for restrictive factorisation assumptions. We demonstrate PERLA's superior empirical performance and efficient scaling in benchmark environments including StarCraft Micromanagement II and Multi-agent Mujoco
翻訳日:2022-09-05 13:03:32 公開日:2022-09-02
# プロパティ推論攻撃; グラフニューラルネットワーク; プライバシ攻撃と防御; 信頼できる機械学習

Property inference attack; Graph neural networks; Privacy attacks and defense; Trustworthy machine learning ( http://arxiv.org/abs/2209.01100v1 )

ライセンス: Link先を確認
Xiuling Wang and Wendy Hui Wang(参考訳) 機械学習(ML)技術の採用が急速に進み、MLモデルの共有が人気を集めている。 しかし、MLモデルは、トレーニングデータに関する情報を漏洩するプライバシー攻撃に弱い。 本稿では,対象のmlモデルへのアクセスを通じて,トレーニングデータの機密特性を推測するプロパティ推論攻撃(pia)と呼ばれる,特定のタイプのプライバシ攻撃に注目する。 特に,グラフニューラルネットワーク(GNN)を対象モデルとし,学習グラフ内の特定のノード群とリンクの分布を対象特性とする。 既存の研究はグラフレベルの特性を対象とするPIAを調査しているが,グループレベルでのノードおよびリンク特性の推測についてはまだ研究されていない。 本研究では,GNNに対するグループプロパティ推論攻撃 (GPIA) に関する最初の系統的研究を行う。 まず、ブラックボックスとホワイトボックスの双方で様々な種類の敵の知識を持つ脅威モデルの分類を検討し、これらの設定に対して6つの異なる攻撃を設計する。 3つの代表的GNNモデルと3つの実世界グラフの広範な実験により,これらの攻撃の有効性を評価する。 本研究は,精度がベースラインアプローチに勝る攻撃の有効性を示す。 第2に、gpiaの成功に寄与する要因を分析し、対象プロパティの有無に関わらずグラフ上でトレーニングされた対象モデルが、モデルパラメータと/またはモデル出力の相似性を示すことを示し、敵がその特性の存在を推測することを可能にする。 さらに,GPIA攻撃に対する防御機構のセットを設計し,GNNモデルの精度を損なうことなく,攻撃精度を効果的に低減できることを示した。

With the fast adoption of machine learning (ML) techniques, sharing of ML models is becoming popular. However, ML models are vulnerable to privacy attacks that leak information about the training data. In this work, we focus on a particular type of privacy attacks named property inference attack (PIA) which infers the sensitive properties of the training data through the access to the target ML model. In particular, we consider Graph Neural Networks (GNNs) as the target model, and distribution of particular groups of nodes and links in the training graph as the target property. While the existing work has investigated PIAs that target at graph-level properties, no prior works have studied the inference of node and link properties at group level yet. In this work, we perform the first systematic study of group property inference attacks (GPIA) against GNNs. First, we consider a taxonomy of threat models under both black-box and white-box settings with various types of adversary knowledge, and design six different attacks for these settings. We evaluate the effectiveness of these attacks through extensive experiments on three representative GNN models and three real-world graphs. Our results demonstrate the effectiveness of these attacks whose accuracy outperforms the baseline approaches. Second, we analyze the underlying factors that contribute to GPIA's success, and show that the target model trained on the graphs with or without the target property represents some dissimilarity in model parameters and/or model outputs, which enables the adversary to infer the existence of the property. Further, we design a set of defense mechanisms against the GPIA attacks, and demonstrate that these mechanisms can reduce attack accuracy effectively with small loss on GNN model accuracy.
翻訳日:2022-09-05 13:03:09 公開日:2022-09-02
# MaxWeight with Discounted UCB: 未知統計を持つ非定常マルチサーバシステムのための安定的なスケジューリングポリシー

MaxWeight With Discounted UCB: A Provably Stable Scheduling Policy for Nonstationary Multi-Server Systems With Unknown Statistics ( http://arxiv.org/abs/2209.01126v1 )

ライセンス: Link先を確認
Zixian Yang, R. Srikant, Lei Ying(参考訳) マルチサーバキューシステムは、機械学習、無線ネットワーク、クラウドソーシングにおけるジョブスケジューリングのモデルとして広く使われている。 本稿では,複数のサーバと複数のジョブを持つマルチサーバシステムについて考察する。 システムは、ジョブの種類ごとに別々のキューを保持する。 各タイムスロットでは、利用可能な各サーバがキューからジョブを選択し、それが完了するまでジョブを提供する。 待ち行列の到着率と平均サービス時間は未知であり、静止していない。 そこで我々は,サーバにジョブをスケジュールする統計処理を同時に学習する,割引高信頼境界(UCB)アルゴリズムのMaxWeightを提案する。 提案アルゴリズムは,到着率が厳密にサービス容量領域内にある場合の待ち行列を安定化できることを示す。 具体的には、平均サービス時間が時間とともに相対的に変化し、割引されたUCBで使用される割引係数に依存する定数で到着率がキャパシティ領域から切り離されるという仮定のもと、待ち行列の長さが平均で境界づけられていることを証明する。 シミュレーションの結果,提案アルゴリズムはキューを安定化し,MaxWeightを実証平均で上回り,MaxWeightを実証平均で上回ることを確認した。 提案アルゴリズムは,非定常条件下での UCB による MaxWeight よりも優れている。

Multi-server queueing systems are widely used models for job scheduling in machine learning, wireless networks, and crowdsourcing. This paper considers a multi-server system with multiple servers and multiple types of jobs. The system maintains a separate queue for each type of jobs. For each time slot, each available server picks a job from a queue and then serves the job until it is complete. The arrival rates of the queues and the mean service times are unknown and even nonstationary. We propose the MaxWeight with discounted upper confidence bound (UCB) algorithm, which simultaneously learns the statistics and schedules jobs to servers. We prove that the proposed algorithm can stabilize the queues when the arrival rates are strictly within the service capacity region. Specifically, we prove that the queue lengths are bounded in the mean under the assumption that the mean service times change relatively slowly over time and the arrival rates are bounded away from the capacity region by a constant whose value depends on the discount factor used in the discounted UCB. Simulation results confirm that the proposed algorithm can stabilize the queues and that it outperforms MaxWeight with empirical mean and MaxWeight with discounted empirical mean. The proposed algorithm is also better than MaxWeight with UCB in the nonstationary setting.
翻訳日:2022-09-05 13:02:42 公開日:2022-09-02
# Petals: 大規模モデルの協調推論と微調整

Petals: Collaborative Inference and Fine-tuning of Large Models ( http://arxiv.org/abs/2209.01188v1 )

ライセンス: Link先を確認
Alexander Borzunov, Dmitry Baranchuk, Tim Dettmers, Max Ryabinin, Younes Belkada, Artem Chumachenko, Pavel Samygin, Colin Raffel(参考訳) 多くのNLPタスクは、1000億以上のパラメータを持つ大きな言語モデル(LLM)を使用することで恩恵を受ける。 bloom-176b と opt-175b のリリースにより、このスケールのトレーニング済みモデルを誰でもダウンロードできる。 しかし、これらのモデルを使用するには、多くの研究者が利用できないハイエンドなハードウェアが必要である。 場合によっては、RAMオフロードやホストAPIを通じて、LCMをより安価に使用することができる。 オフロードはインタラクティブな推論には遅すぎるが、APIは研究に十分な柔軟性を持っていない。 本研究では,クライアントのデータ処理に信頼されている複数のパーティのリソースを連携させることにより,大規模モデルの推論と微調整を協調的に行うシステムであるpetals $-$を提案する。 この戦略は,コンシューマGPU上でBLOOM-176Bを1秒あたり$\approx$1ステップで実行することにより,非常に大きなモデルのオフロードを著しく上回ることを示す。 多くの推論APIとは異なり、Petalsはサービスモデルの隠された状態をネイティブに公開し、ユーザは効率的な微調整メソッドに基づいてカスタムモデル拡張をトレーニングおよび共有することができる。

Many NLP tasks benefit from using large language models (LLMs) that often have more than 100 billion parameters. With the release of BLOOM-176B and OPT-175B, everyone can download pretrained models of this scale. Still, using these models requires high-end hardware unavailable to many researchers. In some cases, LLMs can be used more affordably via RAM offloading or hosted APIs. However, these techniques have innate limitations: offloading is too slow for interactive inference, while APIs are not flexible enough for research. In this work, we propose Petals $-$ a system for inference and fine-tuning of large models collaboratively by joining the resources of multiple parties trusted to process client's data. We demonstrate that this strategy significantly outperforms offloading for very large models, running inference of BLOOM-176B on consumer GPUs with $\approx$ 1 step per second. Unlike most inference APIs, Petals also natively exposes the hidden states of served models, allowing its users to train and share custom model extensions based on efficient fine-tuning methods.
翻訳日:2022-09-05 13:02:22 公開日:2022-09-02
# 多視点点雲におけるfiducial marker detection

Fiducial Marker Detection in Multi-Viewpoint Point Cloud ( http://arxiv.org/abs/2209.01072v1 )

ライセンス: Link先を確認
Yibo Liu, Hunter Schofield, Jinjun Shan(参考訳) 既存のlidarfiducial markerシステムには使用制限がある。 特に、LiDARTagは特定のマーカー配置とインテンシティイメージベースのLiDAR Fiducial Markerを必要とする。 その結果、複数の視点から点雲がサンプリングされた場合、fiducial marker detectionは未解決の問題である。 本報告では,多視点点群内のfiducial markersを検出する新しいアルゴリズムを開発した。 提案アルゴリズムは2段階を含む。 まず、関心の領域(ROI)検出は、フィデューシャルマーカーを含む可能性のあるポイントクラスタを見つける。 具体的には、空間的な視点から、紙や薄板のシートであるマーカーが取り付けられた平面と区別できないという事実から、強度の観点からROIを抽出する手法を導入する。 第2に、マーカー検出は、候補roisがfiducial markersを含むかどうかを検証し、有効rois内のマーカーのid番号と頂点を出力する。 特に、球面投影を採用して強度画像を生成するために予め定義された中間面にROIを送信し、その強度画像を介してマーカー検出を完了させる。 提案アルゴリズムの有効性を検証するために,定性的かつ定量的な実験結果を提供する。 コードと結果は、https://github.com/York-SDCNLab/Marker? 検出一般

The existing LiDAR fiducial marker systems have usage restrictions. Especially, LiDARTag requires a specific marker placement and Intensity Image-based LiDAR Fiducial Marker demands that the point cloud is sampled from one viewpoint. As a result, with point clouds sampled from multiple viewpoints, fiducial marker detection remains an unsolved problem. In this letter, we develop a novel algorithm to detect the fiducial markers in the multi-viewpoint point cloud. The proposed algorithm includes two stages. First, Regions of Interest (ROIs) detection finds point clusters that could contain fiducial markers. Specifically, a method extracting the ROIs from the intensity perspective is introduced on account of the fact that from the spatial perspective, the markers, which are sheets of paper or thin boards, are non-distinguishable from the planes to which they are attached. Second, marker detection verifies if the candidate ROIs contain fiducial markers and outputs the ID numbers and vertices locations of the markers in the valid ROIs. In particular, the ROIs are transmitted to a predefined intermediate plane for the purpose of adopting a spherical projection to generate the intensity image, and then, marker detection is completed through the intensity image. Qualitative and quantitative experimental results are provided to validate the proposed algorithm. The codes and results are available at: https://github.com/York-SDCNLab/Marker?Detection-General
翻訳日:2022-09-05 13:01:45 公開日:2022-09-02
# 制限ボルツマンマシンの3つの学習段階と精度-効率トレードオフ

Three Learning Stages and Accuracy-Efficiency Tradeoff of Restricted Boltzmann Machines ( http://arxiv.org/abs/2209.00873v1 )

ライセンス: Link先を確認
Lennart Dabelow and Masahito Ueda(参考訳) Restricted Boltzmann Machines (RBMs) は、任意の精度で任意の確率分布を原理的に近似できる、教師なし機械学習のための汎用アーキテクチャを提供する。 しかし、RBMモデルは計算複雑性のため直接アクセスできないことが多く、マルコフ連鎖サンプリングは学習した確率分布を分析するために呼び出される。 したがって、トレーニングや最終的な応用には、正確かつ効率的なサンプル装置を持つことが望ましい。 これら2つの目標が一般的に互いに競合し、同時に達成できない点を強調します。 具体的には,効率を損なうことなく精度が向上する独立学習,高い精度で効率が低下する相関学習,精度と効率の両方が改善または悪化しない劣化という,RBM学習の3つの状態を特定し,定量的に特徴づける。 これらの結果は数値実験とヒューリスティックな議論に基づいている。

Restricted Boltzmann Machines (RBMs) offer a versatile architecture for unsupervised machine learning that can in principle approximate any target probability distribution with arbitrary accuracy. However, the RBM model is usually not directly accessible due to its computational complexity, and Markov-chain sampling is invoked to analyze the learned probability distribution. For training and eventual applications, it is thus desirable to have a sampler that is both accurate and efficient. We highlight that these two goals generally compete with each other and cannot be achieved simultaneously. More specifically, we identify and quantitatively characterize three regimes of RBM learning: independent learning, where the accuracy improves without losing efficiency; correlation learning, where higher accuracy entails lower efficiency; and degradation, where both accuracy and efficiency no longer improve or even deteriorate. These findings are based on numerical experiments and heuristic arguments.
翻訳日:2022-09-05 13:01:28 公開日:2022-09-02
# pulsedl-ii:核検出器信号のタイミングとエネルギー抽出のためのシステムオンチップニューラルネットワークアクセラレータ

PulseDL-II: A System-on-Chip Neural Network Accelerator for Timing and Energy Extraction of Nuclear Detector Signals ( http://arxiv.org/abs/2209.00884v1 )

ライセンス: Link先を確認
Pengcheng Ai, Zhi Deng, Yi Wang, Hui Gong, Xinchi Ran, Zijian Lang(参考訳) 高速デジタイザを備えたフロントエンド電子は、将来の核検出器として使われ提案されている。 近年の文献では、深層学習モデル、特に1次元畳み込みニューラルネットワークが核検出器からのデジタル信号を扱う際に有望であることが示されている。 シミュレーションと実験は、この分野におけるニューラルネットワークの十分な精度と追加の利点を示す。 しかし、そのようなモデルをオンライン操作に加速する特定のハードウェアは、まだ研究が必要である。 本稿では,パルスからのイベント特徴(時間,エネルギーなど)抽出を深層学習に応用するために特別に設計されたシステムオンチップ(soc)である pulsedl-ii を紹介する。 以前のバージョンに基づいて、PulseDL-IIはRISC CPUをシステム構造に組み込んで、機能的柔軟性と整合性を向上させる。 SoCのニューラルネットワークアクセラレータは、階層アーキテクチャの3レベル(パラメータ単位、処理要素、ニューラルネットワーク)を採用し、デジタル設計のパラメータ最適化を容易にする。 さらに,階層型の選択されたサブセット内でのディープラーニングフレームワーク(TensorFlowなど)との完全な互換性を実現するために,量子化スキームと関連する実装方法(再スケールとビットシフト)を考案する。 現在のスキームでは、ニューラルネットワークの量子化対応トレーニングがサポートされ、ネットワークモデルは、ほぼ精度を失うことなく、専用のスクリプトによってRISC CPUのソフトウェアに自動的に変換される。 我々はフィールドプログラマブルゲートアレイ(FPGA)上でPulseDL-IIを検証する。 最後に、直接デジタル合成(dds)信号発生器とアナログ-デジタル変換器(adc)を備えたfpga開発基板からなる実験的な構成でシステム検証を行う。 提案システムは,信号対雑音比(SNR)47.4dBのオンラインニューラルネットワークを用いた60psの時間分解能と0.40%のエネルギー分解能を得た。

Front-end electronics equipped with high-speed digitizers are being used and proposed for future nuclear detectors. Recent literature reveals that deep learning models, especially one-dimensional convolutional neural networks, are promising when dealing with digital signals from nuclear detectors. Simulations and experiments demonstrate the satisfactory accuracy and additional benefits of neural networks in this area. However, specific hardware accelerating such models for online operations still needs to be studied. In this work, we introduce PulseDL-II, a system-on-chip (SoC) specially designed for applications of event feature (time, energy, etc.) extraction from pulses with deep learning. Based on the previous version, PulseDL-II incorporates a RISC CPU into the system structure for better functional flexibility and integrity. The neural network accelerator in the SoC adopts a three-level (arithmetic unit, processing element, neural network) hierarchical architecture and facilitates parameter optimization of the digital design. Furthermore, we devise a quantization scheme and associated implementation methods (rescale & bit-shift) for full compatibility with deep learning frameworks (e.g., TensorFlow) within a selected subset of layer types. With the current scheme, the quantization-aware training of neural networks is supported, and network models are automatically transformed into software of RISC CPU by dedicated scripts, with nearly no loss of accuracy. We validate PulseDL-II on field programmable gate arrays (FPGA). Finally, system validation is done with an experimental setup made up of a direct digital synthesis (DDS) signal generator and an FPGA development board with analog-to-digital converters (ADC). The proposed system achieved 60 ps time resolution and 0.40% energy resolution with online neural network inference at signal to noise ratio (SNR) of 47.4 dB.
翻訳日:2022-09-05 13:01:12 公開日:2022-09-02
# スコアモデルを用いたmri再構成のための自己教師付き学習

Self-Score: Self-Supervised Learning on Score-Based Models for MRI Reconstruction ( http://arxiv.org/abs/2209.00835v1 )

ライセンス: Link先を確認
Zhuo-Xu Cui, Chentao Cao, Shaonan Liu, Qingyong Zhu, Jing Cheng, Haifeng Wang, Yanjie Zhu, Dong Liang(参考訳) 近年,MRI再建におけるスコアベース拡散モデルの性能は良好である。 これらの手法の多くは、トレーニングセットとして大量の完全なMRIデータを必要とするが、実際には取得が難しい場合もある。 本稿では,MRI再構成のための完全サンプルデータフリーなスコアベース拡散モデルを提案する。 具体的には,ベイジアン深層学習によるアンダーサンプルデータから完全なMR画像分布を推定し,そのデータを摂動し,その確率密度勾配をスコア関数のトレーニングにより近似する。 学習スコア関数を先行として活用することにより,条件付きランゲヴィンマルコフ連鎖モンテカルロ(MCMC)サンプリングによりMR画像を再構成することができる。 実験の結果,提案手法は既存の自己教師型MRI再構成法より優れており,従来のスコアベース拡散法と同等の性能を示した。

Recently, score-based diffusion models have shown satisfactory performance in MRI reconstruction. Most of these methods require a large amount of fully sampled MRI data as a training set, which, sometimes, is difficult to acquire in practice. This paper proposes a fully-sampled-data-free score-based diffusion model for MRI reconstruction, which learns the fully sampled MR image prior in a self-supervised manner on undersampled data. Specifically, we first infer the fully sampled MR image distribution from the undersampled data by Bayesian deep learning, then perturb the data distribution and approximate their probability density gradient by training a score function. Leveraging the learned score function as a prior, we can reconstruct the MR image by performing conditioned Langevin Markov chain Monte Carlo (MCMC) sampling. Experiments on the public dataset show that the proposed method outperforms existing self-supervised MRI reconstruction methods and achieves comparable performances with the conventional (fully sampled data trained) score-based diffusion methods.
翻訳日:2022-09-05 12:57:41 公開日:2022-09-02
# 画像条件付きレイアウト生成のための幾何配向変分変換器

Geometry Aligned Variational Transformer for Image-conditioned Layout Generation ( http://arxiv.org/abs/2209.00852v1 )

ライセンス: Link先を確認
Yunning Cao, Ye Ma, Min Zhou, Chuanbin Liu, Hongtao Xie, Tiezheng Ge, Yuning Jiang(参考訳) レイアウト生成はコンピュータビジョンにおける新しいタスクであり、オブジェクトのローカライゼーションと美的評価の両方の課題を組み合わせるもので、広告、ポスター、スライドデザインで広く使われている。 正確なレイアウトは、レイアウト要素内のドメイン内関係と、レイアウト要素と画像の間のドメイン間関係の両方を考慮する必要がある。 しかし、従来のほとんどの手法は画像からの複雑な視覚情報を活用することなく、画像内容に依存しないレイアウト生成にのみフォーカスする。 この目的のために,画像にテキストオーバーレイを意味的にコヒーレントに付加することを目的とした,イメージコンディショニングレイアウト生成という新しいパラダイムを探求する。 具体的には,画像中の様々なレイアウトを自動回帰的に生成するICVTを提案する。 まず、レイアウト要素内のコンテキスト関係をモデル化するために自己認識機構を採用し、条件付き画像の視覚情報を融合するためにクロスアテンション機構を用いる。 次に,条件付き変分オートエンコーダ(cvae)の構成要素として,多様性を示す。 第2に,レイアウト要素領域と視覚領域のギャップを軽減するため,画像の幾何学的情報がレイアウト表現に一致した幾何学的アライメントモジュールを設計する。 さらに,デリケートなレイアウトとサリエンシーマップアノテーションを備えたデータセットをデザインする大規模広告ポスターレイアウトを構築した。 実験結果から,画像の非侵入領域におけるレイアウトを適応的に生成できることがわかった。

Layout generation is a novel task in computer vision, which combines the challenges in both object localization and aesthetic appraisal, widely used in advertisements, posters, and slides design. An accurate and pleasant layout should consider both the intra-domain relationship within layout elements and the inter-domain relationship between layout elements and the image. However, most previous methods simply focus on image-content-agnostic layout generation, without leveraging the complex visual information from the image. To this end, we explore a novel paradigm entitled image-conditioned layout generation, which aims to add text overlays to an image in a semantically coherent manner. Specifically, we propose an Image-Conditioned Variational Transformer (ICVT) that autoregressively generates various layouts in an image. First, self-attention mechanism is adopted to model the contextual relationship within layout elements, while cross-attention mechanism is used to fuse the visual information of conditional images. Subsequently, we take them as building blocks of conditional variational autoencoder (CVAE), which demonstrates appealing diversity. Second, in order to alleviate the gap between layout elements domain and visual domain, we design a Geometry Alignment module, in which the geometric information of the image is aligned with the layout representation. In addition, we construct a large-scale advertisement poster layout designing dataset with delicate layout and saliency map annotations. Experimental results show that our model can adaptively generate layouts in the non-intrusive area of the image, resulting in a harmonious layout design.
翻訳日:2022-09-05 12:57:26 公開日:2022-09-02
# AutoPET チャレンジ:最大強度投影分類器による nn-Unet と Swin UNETR の併用

AutoPET Challenge: Combining nn-Unet with Swin UNETR Augmented by Maximum Intensity Projection Classifier ( http://arxiv.org/abs/2209.01112v1 )

ライセンス: Link先を確認
Lars Heiliger, Zdravko Marinov, Andr\'e Ferreira, Jana Fragemann, Jacob Murray, David Kersting, Rainer Stiefelhagen, Jens Kleesiek(参考訳) 腫瘍量と腫瘍特性の経時的変化は癌治療の重要なバイオマーカーである。 この文脈では、FDG-PET/CTスキャンは、高代謝領域において、ラジオラベルのフルオロデオキシグルコースを取り込み、がんのステージングと再ステージングに日常的に使用される。 残念なことに、高代謝のこれらの領域は腫瘍に特異的ではなく、正常な機能する臓器、炎症、感染症による生理的取り込みを表わし、これらのスキャンで詳細で信頼性の高い腫瘍の分節が要求されるタスクとなる。 この研究のギャップはAutoPETチャレンジによって解決され、900人の患者からのFDG-PET/CTスキャンによる公開データセットを提供し、この分野のさらなる改善を促進する。 この課題への我々の貢献は、2つの最先端セグメンテーションモデルであるnn-UnetとSwin UNETRのアンサンブルであり、ゲーティング機構のように作用する最大強度投影分類器によって強化されている。 病変の存在を予測すれば、両方のセグメンテーションは後期融合アプローチによって結合される。 肺癌, 悪性黒色腫, リンパ腫と診断された患者に対し, diceスコアは72.12\%であった。 コード: https://github.com/heiligerl/autopet_submission

Tumor volume and changes in tumor characteristics over time are important biomarkers for cancer therapy. In this context, FDG-PET/CT scans are routinely used for staging and re-staging of cancer, as the radiolabeled fluorodeoxyglucose is taken up in regions of high metabolism. Unfortunately, these regions with high metabolism are not specific to tumors and can also represent physiological uptake by normal functioning organs, inflammation, or infection, making detailed and reliable tumor segmentation in these scans a demanding task. This gap in research is addressed by the AutoPET challenge, which provides a public data set with FDG-PET/CT scans from 900 patients to encourage further improvement in this field. Our contribution to this challenge is an ensemble of two state-of-the-art segmentation models, the nn-Unet and the Swin UNETR, augmented by a maximum intensity projection classifier that acts like a gating mechanism. If it predicts the existence of lesions, both segmentations are combined by a late fusion approach. Our solution achieves a Dice score of 72.12\% on patients diagnosed with lung cancer, melanoma, and lymphoma in our cross-validation. Code: https://github.com/heiligerl/autopet_submission
翻訳日:2022-09-05 12:57:00 公開日:2022-09-02
# AI支援TAS実験のためのログガウス過程

Log-Gaussian processes for AI-assisted TAS experiments ( http://arxiv.org/abs/2209.00980v1 )

ライセンス: Link先を確認
Mario Teixeira Parente, Georg Brandl, Christian Franz, Uwe Stuhr, Marina Ganeva, Astrid Schneidewind(参考訳) 物質特性の起源を理解するため、3軸分光器(TAS)での中性子散乱実験は、その運動量(Q)とエネルギー(E)空間の強度分布を測定して試料中の磁気および格子励起を調べた。 しかし、TAS実験における高需要とビームタイムの限られた利用は、その効率を改善するか、実験者の時間をうまく活用できるかという自然問題を引き起こす。 実際、TASを使用すると、Q-E空間の特定の領域における興味ある信号の探索を必要とする科学的な疑問が多数存在するが、手作業で行うと、測定ポイントが背景のような非形式的な領域に置かれるため、時間がかかり非効率である。 アクティブ・ラーニング(英: Active Learning)は、人間の干渉なしに信号の情報領域を反復的に検出し、不必要な測定を回避し、実験を高速化する、有望な汎用機械学習手法である。 さらに、自律モードにより、実験者は他の関連するタスクに集中することができる。 本論文で記述するアプローチは、ログ変換により信号領域における最大の近似不確実性を持つログガウシアン過程を利用する。 取得関数としての不確実性を最大化すると、情報測定のための位置が直接得られる。 熱TAS EIGER(PSI)における実中性子実験の結果に対するアプローチの利点と,多数の異なる励起を含む合成環境でのベンチマークの結果について述べる。

To understand the origins of materials properties, neutron scattering experiments at three-axes spectrometers (TAS) investigate magnetic and lattice excitations in a sample by measuring intensity distributions in its momentum (Q) and energy (E) space. The high demand and limited availability of beam time for TAS experiments however raise the natural question whether we can improve their efficiency or make better use of the experimenter's time. In fact, using TAS, there are a number of scientific questions that require searching for signals of interest in a particular region of Q-E space, but when done manually, it is time consuming and inefficient since the measurement points may be placed in uninformative regions such as the background. Active learning is a promising general machine learning approach that allows to iteratively detect informative regions of signal autonomously, i.e., without human interference, thus avoiding unnecessary measurements and speeding up the experiment. In addition, the autonomous mode allows experimenters to focus on other relevant tasks in the meantime. The approach that we describe in this article exploits log-Gaussian processes which, due to the log transformation, have the largest approximation uncertainties in regions of signal. Maximizing uncertainty as an acquisition function hence directly yields locations for informative measurements. We demonstrate the benefits of our approach on outcomes of a real neutron experiment at the thermal TAS EIGER (PSI) as well as on results of a benchmark in a synthetic setting including numerous different excitations.
翻訳日:2022-09-05 12:56:20 公開日:2022-09-02
# TypoSwype: タイポスクワット検出のためのイメージングアプローチ

TypoSwype: An Imaging Approach to Detect Typo-Squatting ( http://arxiv.org/abs/2209.00783v1 )

ライセンス: Link先を確認
Joon Sern Lee, Yam Gui Peng David(参考訳) タイポスクワットドメインは一般的なサイバー攻撃手法である。 フィッシングやマルウェアのインストールなどの悪意のある活動を実行するために、一般的に訪問されるドメインのタイプミスを悪用するドメイン名を利用する。 現在のアプローチは通常、Demaru-Levenschtein Distance (DLD)アルゴリズムのような文字列比較アルゴリズムを中心に展開している。 このような手法はキーボード距離を考慮せず、研究者は典型的なタイポグラフィーの誤りと強い相関関係を持ち、考慮しようとしている。 本稿では,キーボードの位置を考慮に入れた文字列を画像に変換するTypoSwypeフレームワークを提案する。 また,Triplet Loss あるいは NT-Xent Loss によって訓練された畳み込みニューラルネットワークによる画像認識技術の現状を,距離が画像に対応する低次元空間へのマッピング,および同等のテキスト類似性を学ぶために応用できることを示す。 最後に,本手法が広く用いられているdldアルゴリズムよりもタイプポスキャッティング検出を改善する能力を示すとともに,入力領域がタイプポスキャットしようとしている領域について分類精度を維持した。

Typo-squatting domains are a common cyber-attack technique. It involves utilising domain names, that exploit possible typographical errors of commonly visited domains, to carry out malicious activities such as phishing, malware installation, etc. Current approaches typically revolve around string comparison algorithms like the Demaru-Levenschtein Distance (DLD) algorithm. Such techniques do not take into account keyboard distance, which researchers find to have a strong correlation with typical typographical errors and are trying to take account of. In this paper, we present the TypoSwype framework which converts strings to images that take into account keyboard location innately. We also show how modern state of the art image recognition techniques involving Convolutional Neural Networks, trained via either Triplet Loss or NT-Xent Loss, can be applied to learn a mapping to a lower dimensional space where distances correspond to image, and equivalently, textual similarity. Finally, we also demonstrate our method's ability to improve typo-squatting detection over the widely used DLD algorithm, while maintaining the classification accuracy as to which domain the input domain was attempting to typo-squat.
翻訳日:2022-09-05 12:55:27 公開日:2022-09-02
# dyadic searchの後悔分析

Regret Analysis of Dyadic Search ( http://arxiv.org/abs/2209.00885v1 )

ライセンス: Link先を確認
Fran\c{c}ois Bachoc, Tommaso Cesari, Roberto Colomboni, Andrea Paudice(参考訳) BachocらによるDyadic Searchアルゴリズムの累積的後悔を分析した。 [2022].

We analyze the cumulative regret of the Dyadic Search algorithm of Bachoc et al. [2022].
翻訳日:2022-09-05 12:55:07 公開日:2022-09-02
# 分布と知識情報の拡散による語彙分析メタデータの推測

Inferring Tabular Analysis Metadata by Infusing Distribution and Knowledge Information ( http://arxiv.org/abs/2209.00946v1 )

ライセンス: Link先を確認
Xinyi He, Mengyu Zhou, Jialiang Xu, Xiao Lv, Tianle Li, Yijia Shao, Shi Han, Zejian Yuan, Dongmei Zhang(参考訳) 多くのデータ分析タスクはテーブル(多次元データ)の深い理解に大きく依存している。 タスク全体では、テーブルフィールド/列のメタデータ属性にのみ使用される。 本稿では,4つの分析メタデータを識別する:測定/次元二分法,共通フィールドの役割,意味的フィールドタイプ,デフォルトアグリゲーション関数。 これらのメタデータは、監視信号が不十分な問題に直面している一方で、既存の知識と理解分布を活用している。 これらのメタデータを生の表で推論するために,フィールド分布と知識グラフ情報を予め学習した表型モデルに融合したマルチタスクメタデータモデルを提案する。 モデルトレーニングと評価のために、下流タスクからの多様なスマート監視を用いて、分析メタデータの大規模なコーパス(プライベートスプレッドシートと公開表データセットから約582kのテーブル)を収集する。 私たちの最良のモデルは、精度 = 98%、ヒット率トップ-1 > 67%、精度 > 80%、そして4つの分析メタデータ推論タスクの精度 = 88%です。 ルールや従来の機械学習手法、事前学習された表モデルに基づく一連のベースラインよりも優れています。 分析メタデータモデルは一般的なデータ分析製品にデプロイされ、インサイトマイニング、チャート/ピボットテーブルレコメンデーション、自然言語qaといった下流のインテリジェントな機能を支援する。

Many data analysis tasks heavily rely on a deep understanding of tables (multi-dimensional data). Across the tasks, there exist comonly used metadata attributes of table fields / columns. In this paper, we identify four such analysis metadata: Measure/dimension dichotomy, common field roles, semantic field type, and default aggregation function. While those metadata face challenges of insufficient supervision signals, utilizing existing knowledge and understanding distribution. To inference these metadata for a raw table, we propose our multi-tasking Metadata model which fuses field distribution and knowledge graph information into pre-trained tabular models. For model training and evaluation, we collect a large corpus (~582k tables from private spreadsheet and public tabular datasets) of analysis metadata by using diverse smart supervisions from downstream tasks. Our best model has accuracy = 98%, hit rate at top-1 > 67%, accuracy > 80%, and accuracy = 88% for the four analysis metadata inference tasks, respectively. It outperforms a series of baselines that are based on rules, traditional machine learning methods, and pre-trained tabular models. Analysis metadata models are deployed in a popular data analysis product, helping downstream intelligent features such as insights mining, chart / pivot table recommendation, and natural language QA...
翻訳日:2022-09-05 12:55:05 公開日:2022-09-02
# 拡張性および時間変化性ネットワークのための時空間攻撃学習(COA)探索

Spatio-Temporal Attack Course-of-Action (COA) Search Learning for Scalable and Time-Varying Networks ( http://arxiv.org/abs/2209.00862v1 )

ライセンス: Link先を確認
Haemin Lee, Seok Bin Son, Won Joon Yun, Joongheon Kim, Soyi Jung, and Dong Hwa Kim(参考訳) ネットワークセキュリティ研究における重要なトピックの1つは、自律的なCOA(Couse-of-Action)攻撃探索法である。 攻撃を受動的に検索する従来のCOA攻撃探索手法は、特にネットワークが大きくなるにつれて困難である。 これらの問題に対処するために,新しい自律型coa手法が開発され,その中から,スケーラブルネットワークにおける効率的な運用のための知的空間アルゴリズムを考案した。 空間探索に加えて,モンテカルロ(MC)をベースとした時間的アプローチも,時間変動ネットワークの挙動を考慮に入れている。 そこで本研究では,スケーラブルかつ時変ネットワークのための時空間攻撃coa探索アルゴリズムを提案する。

One of the key topics in network security research is the autonomous COA (Couse-of-Action) attack search method. Traditional COA attack search methods that passively search for attacks can be difficult, especially as the network gets bigger. To address these issues, new autonomous COA techniques are being developed, and among them, an intelligent spatial algorithm is designed in this paper for efficient operations in scalable networks. On top of the spatial search, a Monte-Carlo (MC)- based temporal approach is additionally considered for taking care of time-varying network behaviors. Therefore, we propose a spatio-temporal attack COA search algorithm for scalable and time-varying networks.
翻訳日:2022-09-05 12:51:53 公開日:2022-09-02
# GReS:サプライチェーンプラットフォームのためのグラフィッククロスドメイン勧告

GReS: Graphical Cross-domain Recommendation for Supply Chain Platform ( http://arxiv.org/abs/2209.01031v1 )

ライセンス: Link先を確認
Zhiwen Jing, Ziliang Zhao, Yang Feng, Xiaochen Ma, Nan Wu, Shengqiao Kang, Cheng Yang, Yujia Zhang, Hao Guo(参考訳) サプライチェーンプラットフォーム(scps)は下流産業に多数の原料を提供している。 従来のeコマースプラットフォームと比較して、SCPのデータはユーザーの興味が限られているため、より疎い。 データ空間の問題に対処するために、ソースドメイン情報を用いてターゲットドメインの推奨性能を改善するクロスドメイン勧告(CDR)を適用することができる。 しかし、CDRをSCPに適用することは、SCPの商品の階層構造を直接無視し、レコメンデーション性能を低下させる。 本稿では,この機能を活用するために,キャタリングプラットフォームを例として,グラフィカルなクロスドメインレコメンデーションモデルであるgresを提案する。 本モデルではまず,食器や食材の各ノードの階層構造を表す木形グラフを構築し,GCNモデルとBERTモデルを組み合わせたTree2vec法を適用してレコメンデーションにグラフを埋め込む。 商用データセットでの実験的結果は、サプライチェーンプラットフォームのクロスドメイン推奨においてgresが最先端のメソッドを著しく上回っていることを示している。

Supply Chain Platforms (SCPs) provide downstream industries with numerous raw materials. Compared with traditional e-commerce platforms, data in SCPs is more sparse due to limited user interests. To tackle the data sparsity problem, one can apply Cross-Domain Recommendation (CDR) which improves the recommendation performance of the target domain with the source domain information. However, applying CDR to SCPs directly ignores the hierarchical structure of commodities in SCPs, which reduce the recommendation performance. To leverage this feature, in this paper, we take the catering platform as an example and propose GReS, a graphical cross-domain recommendation model. The model first constructs a tree-shaped graph to represent the hierarchy of different nodes of dishes and ingredients, and then applies our proposed Tree2vec method combining GCN and BERT models to embed the graph for recommendations. Experimental results on a commercial dataset show that GReS significantly outperforms state-of-the-art methods in Cross-Domain Recommendation for Supply Chain Platforms.
翻訳日:2022-09-05 12:51:44 公開日:2022-09-02
# 群れのビデオ観測から理解可能な制御器抽出

Understandable Controller Extraction from Video Observations of Swarms ( http://arxiv.org/abs/2209.01118v1 )

ライセンス: Link先を確認
Khulud Alharthi, Zahraa S Abdallah, Sabine Hauert(参考訳) エージェントとそれらの環境の局所的な相互作用は、しばしば単純な規則として符号化される。 swarmの振る舞いをビデオで見ることによって、ルールを抽出することは、自然界のswarmの振る舞いや、外部のアクターが設計した人工的なswarmの研究と制御に役立つでしょう。 また、Swarm Roboticsの新たなインスピレーション源にもなるかもしれない。 しかし、これらの規則を抽出することは、スウォームの創発的性質とそれらの局所的な相互作用の間には、しばしば目に見えるリンクがないため、難しい。 そこで我々は,ビデオデモから理解可能なSwarmコントローラを自動的に抽出する手法を開発した。 この方法は8つのハイレベルなSwarmメトリクスを比較するフィットネス関数によって駆動される進化的アルゴリズムを使用する。 この方法は、単純な集団移動タスクで多くのコントローラ(行動木)を抽出することができる。 次に、異なる木を産み出す行動の質的分析を行うが、類似した行動は認めない。 これにより、観測に基づくswarmコントローラの自動抽出に向けた最初のステップが提供される。

Swarm behavior emerges from the local interaction of agents and their environment often encoded as simple rules. Extracting the rules by watching a video of the overall swarm behavior could help us study and control swarm behavior in nature, or artificial swarms that have been designed by external actors. It could also serve as a new source of inspiration for swarm robotics. Yet extracting such rules is challenging as there is often no visible link between the emergent properties of the swarm and their local interactions. To this end, we develop a method to automatically extract understandable swarm controllers from video demonstrations. The method uses evolutionary algorithms driven by a fitness function that compares eight high-level swarm metrics. The method is able to extract many controllers (behavior trees) in a simple collective movement task. We then provide a qualitative analysis of behaviors that resulted in different trees, but similar behaviors. This provides the first steps toward automatic extraction of swarm controllers based on observations.
翻訳日:2022-09-05 12:51:26 公開日:2022-09-02
# 驚きの定義の分類法

A taxonomy of surprise definitions ( http://arxiv.org/abs/2209.01034v1 )

ライセンス: Link先を確認
Alireza Modirshanechi, Johanni Brea, Wulfram Gerstner(参考訳) 驚くべき出来事は計測可能な脳活動を引き起こし、学習、記憶、意思決定に影響を与えることによって人間の行動に影響を与える。 しかし、現時点ではサプライズの定義に関するコンセンサスはない。 ここでは、18の数学的定義を統一的な枠組みで定義する。 まず,これらの定義を,エージェントの信念に依存した3つのグループに分類し,相互にどう関連しているかを示し,どのような条件下で識別できないかを証明する。 この技術的分析を越えて,サプライズ定義の分類法を提案し,その測定値に基づいて4つの概念カテゴリーに分類する。 (i)「予測サプライズ」とは、予測と観測とのミスマッチを計測する。 (二)「変化点検出驚き」は、環境の変化の確率を測定する。 (三)「信任訂正驚き」は、信任効果を明記し、 (四)「情報獲得驚き」は、新しい観察の信条の更新を測る。 分類学は、脳における機能的役割と驚きの生理学的特徴の原則研究の基礎となる。

Surprising events trigger measurable brain activity and influence human behavior by affecting learning, memory, and decision-making. Currently there is, however, no consensus on the definition of surprise. Here we identify 18 mathematical definitions of surprise in a unifying framework. We first propose a technical classification of these definitions into three groups based on their dependence on an agent's belief, show how they relate to each other, and prove under what conditions they are indistinguishable. Going beyond this technical analysis, we propose a taxonomy of surprise definitions and classify them into four conceptual categories based on the quantity they measure: (i) 'prediction surprise' measures a mismatch between a prediction and an observation; (ii) 'change-point detection surprise' measures the probability of a change in the environment; (iii) 'confidence-corrected surprise' explicitly accounts for the effect of confidence; and (iv) 'information gain surprise' measures the belief-update upon a new observation. The taxonomy poses the foundation for principled studies of the functional roles and physiological signatures of surprise in the brain.
翻訳日:2022-09-05 12:51:11 公開日:2022-09-02
# 高次元時系列に対する解釈可能かつ効率的な無限次ベクトル自己回帰モデル

An Interpretable and Efficient Infinite-Order Vector Autoregressive Model for High-Dimensional Time Series ( http://arxiv.org/abs/2209.01172v1 )

ライセンス: Link先を確認
Yao Zheng and Shibo Li(参考訳) 特殊無限次ベクトル自己回帰(VAR)モデルとして、ベクトル自己回帰移動平均(VARMA)モデルは広く用いられる有限次VARモデルよりもはるかに豊かな時間パターンを捉えることができる。 しかし、その実用性は、その非識別性、計算の難しさ、相対的な解釈の難しさによって長い間妨げられてきた。 本稿では、VARMAモデルの欠点を回避するだけでなく、その好ましい時間パターンを継承する新しい無限次VARモデルを提案する。 別の魅力的な特徴として、このモデルの時間的および断面的依存構造は、異なるパラメータの集合によって特徴づけられるため、別々に解釈することができる。 高次元時系列の場合、この分離は断面依存性を決定するパラメータに間隔を課す動機となる。 結果として、時間的情報を犠牲にすることなく、より大きな統計効率と解釈性を達成することができる。 提案モデルに対する$\ell_1$-regularized estimatorを導入し、対応する非漸近誤差境界を導出する。 効率的なブロック座標降下アルゴリズムと一貫したモデル順序選択法を開発した。 提案手法の利点はシミュレーション研究と実世界のマクロ経済データ分析に支えられている。

As a special infinite-order vector autoregressive (VAR) model, the vector autoregressive moving average (VARMA) model can capture much richer temporal patterns than the widely used finite-order VAR model. However, its practicality has long been hindered by its non-identifiability, computational intractability, and relative difficulty of interpretation. This paper introduces a novel infinite-order VAR model that not only avoids the drawbacks of the VARMA model but inherits its favorable temporal patterns. As another attractive feature, the temporal and cross-sectional dependence structures of this model can be interpreted separately, since they are characterized by different sets of parameters. For high-dimensional time series, this separation motivates us to impose sparsity on the parameters determining the cross-sectional dependence. As a result, greater statistical efficiency and interpretability can be achieved without sacrificing any temporal information. We introduce an $\ell_1$-regularized estimator for the proposed model and derive the corresponding non-asymptotic error bounds. An efficient block coordinate descent algorithm and a consistent model order selection method are developed. The merit of the proposed approach is supported by simulation studies and a real-world macroeconomic data analysis.
翻訳日:2022-09-05 12:50:58 公開日:2022-09-02
# 法的行為からのエンティティグラフ抽出 --ポリシー設計分析におけるユースケースのプロトタイプ-

Entity Graph Extraction from Legal Acts -- a Prototype for a Use Case in Policy Design Analysis ( http://arxiv.org/abs/2209.00944v1 )

ライセンス: Link先を確認
Anna Wr\'oblewska, Bartosz Pieli\'nski, Karolina Seweryn, Karol Saputa, Aleksandra Wichrowska, Sylwia Sysko-Roma\'nczuk, Hanna Schreiber(参考訳) 本稿では,公共政策設計を定量的に研究するために開発されたプロトタイプについて述べる。 この政治学のサブ分野は、健康、環境、経済、その他の政策において、アクター、それらの関係、道具の特定に焦点を当てている。 本システムの目的は,法律文書の収集プロセスの自動化,機関文法の注釈付け,ハイパーグラフによる重要機関間の相互関係の分析である。 2003年、ユネスコの無形文化財保護条約(UNESCO)に対抗して、文化財保護の国際関係の本質を規定する法的文書を提出した。

This paper presents research on a prototype developed to serve the quantitative study of public policy design. This sub-discipline of political science focuses on identifying actors, relations between them, and tools at their disposal in health, environmental, economic, and other policies. Our system aims to automate the process of gathering legal documents, annotating them with Institutional Grammar, and using hypergraphs to analyse inter-relations between crucial entities. Our system is tested against the UNESCO Convention for the Safeguarding of the Intangible Cultural Heritage from 2003, a legal document regulating essential aspects of international relations securing cultural heritage.
翻訳日:2022-09-05 12:50:38 公開日:2022-09-02
# WOC:ウェブカメラベースの3Dオンラインチャットルーム

WOC: A Handy Webcam-based 3D Online Chatroom ( http://arxiv.org/abs/2209.00776v1 )

ライセンス: Link先を確認
Chuanhang Yan, Yu Sun, Qian Bao, Jinhui Pang, Wu Liu, Tao Mei(参考訳) WOCはウェブカメラによるマルチパーソンインタラクションのための仮想3Dチャットルームであり、ユーザの3D動作をリアルタイムで捉え、個々の仮想アバターを駆動する。 既存のウェアラブル機器ベースのソリューションと比較して、WACは1台のカメラで便利で低コストな3Dモーションキャプチャを提供する。 没入型チャット体験を促進するため、WACはユーザ定義文字をサポートする高忠実度仮想アバター操作を提供する。 分散データフローサービスでは、システムは全ユーザに高度に同期された動作と音声を提供する。 Webサイトにデプロイされ、インストール不要で、ユーザはhttps://yanch.cloud.comで仮想オンラインチャットを自由に体験できる。

We develop WOC, a webcam-based 3D virtual online chatroom for multi-person interaction, which captures the 3D motion of users and drives their individual 3D virtual avatars in real-time. Compared to the existing wearable equipment-based solution, WOC offers convenient and low-cost 3D motion capture with a single camera. To promote the immersive chat experience, WOC provides high-fidelity virtual avatar manipulation, which also supports the user-defined characters. With the distributed data flow service, the system delivers highly synchronized motion and voice for all users. Deployed on the website and no installation required, users can freely experience the virtual online chat at https://yanch.cloud.
翻訳日:2022-09-05 12:49:36 公開日:2022-09-02
# PCDNF: 連成正規フィルタリングによる学習ベースポイントクラウドデノイングの再検討

PCDNF: Revisiting Learning-based Point Cloud Denoising via Joint Normal Filtering ( http://arxiv.org/abs/2209.00798v1 )

ライセンス: Link先を確認
Zheng Liu, Sijing Zhan, Yaowu Zhao, Yuanyuan Liu, Renjie Chen, Ying He(参考訳) ノイズの多い点雲から高品質な表面を復元する点雲(point cloud denoising)は、幾何処理の根本的な問題である。 既存の手法のほとんどはノイズの入力を直接無視するか、生の正規化をフィルタリングし、ポイント位置を更新する。 マルチタスクの観点から点群を復調する点群を復調し,PCDNFと名づけられたエンドツーエンドのネットワークを提案し,接続正規フィルタリングにより点群を復調する。 特に,幾何的特徴をより正確に保存しながら,ネットワーク全体のノイズ除去を支援するための補助的正規フィルタリングタスクを導入する。 アーキテクチャ全体に加えて、ネットワークには2つの新しいモジュールがあります。 一方,ノイズ除去性能を向上させるため,学習点や正規特徴,形状を包括的に考慮し,特定の点の潜在接空間表現を構成する形状認識セレクタの設計を行った。 一方、点特徴は幾何学的詳細を記述するのに適しており、通常の特徴は幾何学的構造(例えば鋭い辺や角)を表現するのにより導出的である。 点と通常の特徴を組み合わせることで、弱点を克服できます。 そこで我々は,幾何情報をよりよく回復するために,点と通常の特徴を融合させる機能改良モジュールを設計する。 大規模な評価, 比較, アブレーション研究により, 提案手法は, 点群と正常なフィルタリングの両方において, 最先端の手法より優れていることを示した。

Recovering high quality surfaces from noisy point clouds, known as point cloud denoising, is a fundamental yet challenging problem in geometry processing. Most of the existing methods either directly denoise the noisy input or filter raw normals followed by updating point positions. Motivated by the essential interplay between point cloud denoising and normal filtering, we revisit point cloud denoising from a multitask perspective, and propose an end-to-end network, named PCDNF, to denoise point clouds via joint normal filtering. In particular, we introduce an auxiliary normal filtering task to help the overall network remove noise more effectively while preserving geometric features more accurately. In addition to the overall architecture, our network has two novel modules. On one hand, to improve noise removal performance, we design a shape-aware selector to construct the latent tangent space representation of the specific point by comprehensively considering the learned point and normal features and geometry priors. On the other hand, point features are more suitable for describing geometric details, and normal features are more conducive for representing geometric structures (e.g., sharp edges and corners). Combining point and normal features allows us to overcome their weaknesses. Thus, we design a feature refinement module to fuse point and normal features for better recovering geometric information. Extensive evaluations, comparisons, and ablation studies demonstrate that the proposed method outperforms state-of-the-arts for both point cloud denoising and normal filtering.
翻訳日:2022-09-05 12:49:25 公開日:2022-09-02
# 機械学習入門

An Introduction to Machine Unlearning ( http://arxiv.org/abs/2209.00939v1 )

ライセンス: Link先を確認
Salvatore Mercuri, Raad Khraishi, Ramin Okhrati, Devesh Batra, Conor Hamill, Taha Ghasempour, Andrew Nowlan(参考訳) プライバシ、公正性、データ品質といった問題に対処するためには、機械学習モデルから特定のトレーニングデータのサブセットの影響を取り除く必要がある。 サブセットの削除後、残りのデータでモデルをスクラッチから再トレーニングすることは、計算コストのため、効果的だがしばしば実現不可能な選択肢である。 そのため、ここ数年で「機械の非学習」の分野を形成する、効率的な除去への新しいアプローチがいくつか見られたが、これまでに出版された文学の多くの側面は異なっており、コンセンサスを欠いている。 本稿では,7つの最先端マシンアンラーニングアルゴリズムを要約・比較し,現場で使用されるコア概念の定義の統合,アルゴリズム評価のための異なるアプローチの調整,実際にマシンアンラーニングを適用することに関する問題について議論する。

Removing the influence of a specified subset of training data from a machine learning model may be required to address issues such as privacy, fairness, and data quality. Retraining the model from scratch on the remaining data after removal of the subset is an effective but often infeasible option, due to its computational expense. The past few years have therefore seen several novel approaches towards efficient removal, forming the field of "machine unlearning", however, many aspects of the literature published thus far are disparate and lack consensus. In this paper, we summarise and compare seven state-of-the-art machine unlearning algorithms, consolidate definitions of core concepts used in the field, reconcile different approaches for evaluating algorithms, and discuss issues related to applying machine unlearning in practice.
翻訳日:2022-09-05 12:45:29 公開日:2022-09-02
# IMG2IMU:コントラスト学習による大規模画像からの知識をIMUアプリケーションに適用する

IMG2IMU: Applying Knowledge from Large-Scale Images to IMU Applications via Contrastive Learning ( http://arxiv.org/abs/2209.00945v1 )

ライセンス: Link先を確認
Hyungjun Yoon, Hyeongheon Cha, Canh Hoang Nguyen, Taesik Gong, Sung-Ju Lee(参考訳) 最近の機械学習の進歩により、自己教師付き学習によって得られる事前学習表現は、少ないトレーニングデータを持つタスクにおいて高い精度を達成することができる。 ビジョンや自然言語処理の領域とは異なり、imuベースのアプリケーションの事前トレーニングは困難であり、汎用的な表現を学ぶのに十分な大きさと多様性を持つ公開データセットはごくわずかである。 この問題を解決するために,大規模な画像から多種多様なショットIMUセンシングタスクへの事前訓練表現を適応させる新しいアプローチであるIGG2IMUを提案する。 センサデータを視覚的に解釈可能なスペクトログラムに変換し,視覚から得られる知識を活用する。 さらに,センサデータの解釈に適した表現を学習するための拡張集合に対して,コントラスト学習を適用した。 5つのIMUセンシングタスクに対する広範囲な評価は、IMG2IMUがベースラインを一貫して上回り、視覚知識をIMUセンシングタスクのための数発の学習環境に組み込むことができることを示している。

Recent advances in machine learning showed that pre-training representations acquired via self-supervised learning could achieve high accuracy on tasks with small training data. Unlike in vision and natural language processing domains, such pre-training for IMU-based applications is challenging, as there are only a few publicly available datasets with sufficient size and diversity to learn generalizable representations. To overcome this problem, we propose IMG2IMU, a novel approach that adapts pre-train representation from large-scale images to diverse few-shot IMU sensing tasks. We convert the sensor data into visually interpretable spectrograms for the model to utilize the knowledge gained from vision. Further, we apply contrastive learning on an augmentation set we designed to learn representations that are tailored to interpreting sensor data. Our extensive evaluations on five different IMU sensing tasks show that IMG2IMU consistently outperforms the baselines, illustrating that vision knowledge can be incorporated into a few-shot learning environment for IMU sensing tasks.
翻訳日:2022-09-05 12:45:14 公開日:2022-09-02
# バイオプロセスエンジニアリングが機械学習に出会うとき:自動バイオプロセス開発の観点から

When Bioprocess Engineering Meets Machine Learning: A Survey from the Perspective of Automated Bioprocess Development ( http://arxiv.org/abs/2209.01083v1 )

ライセンス: Link先を確認
Nghia Duong-Trung, Stefan Born, Jong Woo Kim, Marie-Therese Schermeyer, Katharina Paulick, Maxim Borisyak, Ernesto Martinez, Mariano Nicolas Cruz-Bournazou, Thorben Werner, Randolf Scholz, Lars Schmidt-Thieme, Peter Neubauer(参考訳) 機械学習(ML)は、バイオプロセス工学の発展に大きく貢献しているが、その応用はまだ限られており、バイオプロセス自動化の巨大な可能性を妨げている。 モデル構築自動化のためのmlは、生物プロセス開発の最も認知的なタスクに専門家の人間を集中させるために、別のレベルの抽象化を導入する方法と見なすことができる。 まず、確率的プログラミングは予測モデルの自律的構築に使用される。 第二に、機械学習は仮説をテストする実験を計画し、モデル予測の不確実性に基づいてモデル選択に焦点を当てた情報収集を行うことによって、代替決定を自動的に評価する。 本稿では、バイオプロセス開発におけるMLベースの自動化の概要を紹介する。 一方、バイオテクノロジーとバイオエンジニアリングのコミュニティは、バイオテクノロジーとバイオファーマに応用するための既存のMLソリューションの可能性と限界を認識すべきである。 一方,バイオコミュニティのための有用なソリューションとして,MLと人工知能(AI)ソリューションの実装が容易になるためには,欠落したリンクを特定することが不可欠である。 バイオプロセスシステムの重要なサブフィールドにまたがる最近のml実装を要約し、バイオプロセス自動化のボトルネックとバイオテクノロジー開発の不確実性の低減の2つの重要な課題を提起する。 しかし、このレビューはバイオテクノロジーとMLドメインを組み合わせた自動化の可能性を特定するのに役立つだろう。

Machine learning (ML) has significantly contributed to the development of bioprocess engineering, but its application is still limited, hampering the enormous potential for bioprocess automation. ML for model building automation can be seen as a way of introducing another level of abstraction to focus expert humans in the most cognitive tasks of bioprocess development. First, probabilistic programming is used for the autonomous building of predictive models. Second, machine learning automatically assesses alternative decisions by planning experiments to test hypotheses and conducting investigations to gather informative data that focus on model selection based on the uncertainty of model predictions. This review provides a comprehensive overview of ML-based automation in bioprocess development. On the one hand, the biotech and bioengineering community should be aware of the potential and, most importantly, the limitation of existing ML solutions for their application in biotechnology and biopharma. On the other hand, it is essential to identify the missing links to enable the easy implementation of ML and Artificial Intelligence (AI) solutions in valuable solutions for the bio-community. We summarize recent ML implementation across several important subfields of bioprocess systems and raise two crucial challenges remaining the bottleneck of bioprocess automation and reducing uncertainty in biotechnology development. There is no one-fits-all procedure; however, this review should help identify the potential automation combining biotechnology and ML domains.
翻訳日:2022-09-05 12:44:40 公開日:2022-09-02
# 隣り合わせのスケーラブルな時間ネットワーク表現学習

Neighborhood-aware Scalable Temporal Network Representation Learning ( http://arxiv.org/abs/2209.01084v1 )

ライセンス: Link先を確認
Yuhong Luo and Pan Li(参考訳) 時間的ネットワークは金融システムやeコマースシステムのような現実世界の複雑なシステムをモデル化するために広く使われている。 時間的ネットワークでは、ノードの集合の結合近傍はしばしば、ある時間に相互作用するかどうかを予測する重要な構造情報を提供する。 しかし、近年の時間的ネットワーク表現学習手法では、そのような情報を抽出できない場合や、非常に時間を要する特徴構築手法に依存する場合が多い。 この問題に対処するため,本研究では,Norborhood-Aware Temporal Network Model (NAT)を提案する。 ネットワーク内の各ノードに対して、NATは、新しい辞書型近傍表現を採用しながら、一般的に使用されるワンシングルベクターベースの表現を捨てる。 このような辞書表現は、隣接ノードのダウンサンプリングされた集合をキーとして記録し、複数のノードのジョイント近傍の構造的特徴を高速に構築することができる。 また、GPU上でのこれらの辞書表現の並列アクセスと更新をサポートするために、N-cacheと呼ばれる専用データ構造を設計する。 NATは7つの現実世界の大規模時間ネットワークで評価される。 NATは、平均5.9%と6.0%という最先端のベースラインをそれぞれトランスダクティブリンク予測精度で上回るだけでなく、関節構造の特徴を取り入れたベースラインに対して4.1-76.7のスピードアップを達成し、これらの特徴を採用できないベースラインに対して1.6-4.0のスピードアップを達成してスケーラビリティを維持している。 コードへのリンク:https://github.com/Graph-COM/Neighborhood-Aware-Temporal-Network。

Temporal networks have been widely used to model real-world complex systems such as financial systems and e-commerce systems. In a temporal network, the joint neighborhood of a set of nodes often provides crucial structural information on predicting whether they may interact at a certain time. However, recent representation learning methods for temporal networks often fail to extract such information or depend on extremely time-consuming feature construction approaches. To address the issue, this work proposes Neighborhood-Aware Temporal network model (NAT). For each node in the network, NAT abandons the commonly-used one-single-vector-based representation while adopting a novel dictionary-type neighborhood representation. Such a dictionary representation records a down-sampled set of the neighboring nodes as keys, and allows fast construction of structural features for a joint neighborhood of multiple nodes. We also design dedicated data structure termed N-cache to support parallel access and update of those dictionary representations on GPUs. NAT gets evaluated over seven real-world large-scale temporal networks. NAT not only outperforms all cutting-edge baselines by averaged 5.9% and 6.0% in transductive and inductive link prediction accuracy, respectively, but also keeps scalable by achieving a speed-up of 4.1-76.7 against the baselines that adopts joint structural features and achieves a speed-up of 1.6-4.0 against the baselines that cannot adopt those features. The link to the code: https://github.com/Graph-COM/Neighborhood-Aware-Temporal-Network.
翻訳日:2022-09-05 12:44:18 公開日:2022-09-02
# 機械学習を用いた時系列データからの相関行列の推定

Estimation of Correlation Matrices from Limited time series Data using Machine Learning ( http://arxiv.org/abs/2209.01198v1 )

ライセンス: Link先を確認
Nikhil Easaw, Woo Soek, Prashant Singh Lohiya, Sarika Jalan, and Priodyuti Pradhan(参考訳) 時系列データからの相関行列の予測は、スパイクデータからの神経接続の推測、遺伝子発現データからの遺伝子間の因果依存性の推論、気候変動における長期空間範囲の影響の発見など、様々な問題に適用できる。 相関行列の従来の予測方法は、基礎となるネットワークの全てのノードの時系列データを利用する。 本稿では,教師付き機械学習手法を用いて,ランダムに選択されたノードの有限時系列情報からシステム全体の相関行列を予測する。 モデルからの予測の精度は、システム全体のサブセットの限られた時系列だけが適切な相関行列予測をするのに十分であることを示す。 さらに,教師なし学習アルゴリズムを用いて,モデルからの予測の成功に関する洞察を与える。 最後に,ここで開発された機械学習モデルを実世界のデータセットに適用する。

Prediction of correlation matrices from given time series data has several applications for a range of problems, such as inferring neuronal connections from spiking data, deducing causal dependencies between genes from expression data, and discovering long spatial range influences in climate variations. Traditional methods of predicting correlation matrices utilize time series data of all the nodes of the underlying networks. Here, we use a supervised machine learning technique to predict the correlation matrix of entire systems from finite time series information of a few randomly selected nodes. The accuracy of the prediction from the model confirms that only a limited time series of a subset of the entire system is enough to make good correlation matrix predictions. Furthermore, using an unsupervised learning algorithm, we provide insights into the success of the predictions from our model. Finally, we apply the machine learning model developed here to real-world data sets.
翻訳日:2022-09-05 12:43:50 公開日:2022-09-02
# 対向訓練における外的最適化の再検討

Revisiting Outer Optimization in Adversarial Training ( http://arxiv.org/abs/2209.01199v1 )

ライセンス: Link先を確認
Ali Dabouei, Fariborz Taherkhani, Sobhan Soleymani, Nasser M. Nasrabadi(参考訳) 対角法と自然訓練法(ATとNT)の根本的な違いにもかかわらず、AT法は一般に外部最適化に運動量SGD(MSGD)を採用する。 本稿は,ATにおける外部最適化の役割を概観して,この選択を解析することを目的とする。 調査の結果,ATはNTに比べて高勾配ノルムと分散を誘導することがわかった。 この現象は、MSGDの収束速度が勾配の分散に大きく依存するため、ATの外部最適化を妨げる。 そこで本研究では,各入力例から平均ミニバッチ勾配への寄与を正規化する ENGM という最適化手法を提案する。 我々は,engmの収束率は勾配の分散とは独立であり,したがってatに適していることを証明した。 本稿では,ネットワークパラメータの勾配のノルムと入力例との相関に関する経験的観測を用いて,ENGMの計算コストを削減する手法を提案する。 CIFAR-10, CIFAR-100, TinyImageNetの広範囲な評価とアブレーション研究により, ENGMとその変種は広範囲のAT法の性能を一貫して改善することを示した。 さらに、ENGMは、頑丈なオーバーフィッティングとハイパーパラメータ設定に対する高い感度を含むATの大きな欠点を軽減する。

Despite the fundamental distinction between adversarial and natural training (AT and NT), AT methods generally adopt momentum SGD (MSGD) for the outer optimization. This paper aims to analyze this choice by investigating the overlooked role of outer optimization in AT. Our exploratory evaluations reveal that AT induces higher gradient norm and variance compared to NT. This phenomenon hinders the outer optimization in AT since the convergence rate of MSGD is highly dependent on the variance of the gradients. To this end, we propose an optimization method called ENGM which regularizes the contribution of each input example to the average mini-batch gradients. We prove that the convergence rate of ENGM is independent of the variance of the gradients, and thus, it is suitable for AT. We introduce a trick to reduce the computational cost of ENGM using empirical observations on the correlation between the norm of gradients w.r.t. the network parameters and input examples. Our extensive evaluations and ablation studies on CIFAR-10, CIFAR-100, and TinyImageNet demonstrate that ENGM and its variants consistently improve the performance of a wide range of AT methods. Furthermore, ENGM alleviates major shortcomings of AT including robust overfitting and high sensitivity to hyperparameter settings.
翻訳日:2022-09-05 12:43:37 公開日:2022-09-02
# 時系列の普遍的フーリエ攻撃

Universal Fourier Attack for Time Series ( http://arxiv.org/abs/2209.00757v1 )

ライセンス: Link先を確認
Elizabeth Coda, Brad Clymer, Chance DeSmet, Yijing Watkins, Michael Girard(参考訳) 画像および音声データを用いて、様々な敵攻撃が提案され、検討されている。 これらの攻撃は、攻撃者がモデルへの入力を直接操作できるときに、デジタル的に生成することが知られているが、現実世界での実装はずっと難しい。 本稿では、一般的な時系列データに対する普遍的時間不変攻撃について、攻撃が元データに存在する周波数から主に構成される周波数スペクトルを有することを示す。 攻撃の普遍性は、入力に追加する計算が不要であるのに対して、時間不変性は実際のデプロイに有用であるため、高速で実装が容易である。 さらに、周波数制約により、攻撃がフィルタリングに耐えられることが保証される。 本研究では,音声認識と意図しない放射放出の2つの異なる領域における攻撃の有効性を実証し,一般的なトランスフォーメーション・アンド・コンプリート・ディフェンス・パイプラインに対する攻撃の頑健性を示す。

A wide variety of adversarial attacks have been proposed and explored using image and audio data. These attacks are notoriously easy to generate digitally when the attacker can directly manipulate the input to a model, but are much more difficult to implement in the real-world. In this paper we present a universal, time invariant attack for general time series data such that the attack has a frequency spectrum primarily composed of the frequencies present in the original data. The universality of the attack makes it fast and easy to implement as no computation is required to add it to an input, while time invariance is useful for real-world deployment. Additionally, the frequency constraint ensures the attack can withstand filtering. We demonstrate the effectiveness of the attack in two different domains, speech recognition and unintended radiated emission, and show that the attack is robust against common transform-and-compare defense pipelines.
翻訳日:2022-09-05 12:42:52 公開日:2022-09-02
# リモートセンシングにおけるトランスフォーマー:調査

Transformers in Remote Sensing: A Survey ( http://arxiv.org/abs/2209.01206v1 )

ライセンス: Link先を確認
Abdulaziz Amer Aleissaee, Amandeep Kumar, Rao Muhammad Anwer, Salman Khan, Hisham Cholakkal, Gui-Song Xia and Fahad Shahbaz khan(参考訳) 深層学習に基づくアルゴリズムは、過去10年間にリモートセンシング画像分析の様々な分野で大きな人気を集めてきた。 近年、自然言語処理で導入されたトランスフォーマーベースのアーキテクチャは、長距離依存を捉えるための一般的な畳み込み演算子の代替としてセルフアテンション機構が使用されているコンピュータビジョン分野に浸透している。 近年のコンピュータビジョンの進歩に触発されて、リモートセンシングコミュニティは様々なタスクのための視覚トランスフォーマーの探索も増えている。 コンピュータビジョン全般におけるトランスフォーマーに焦点を当てた調査は数多く行われているが、私たちの知る限り、リモートセンシングにおけるトランスフォーマーに基づく最近の進歩の体系的なレビューを最初に行った。 超高分解能(VHR)、ハイパースペクトル(HSI)、合成開口レーダ(SAR)画像など、リモートセンシングのサブ領域における異なるリモートセンシング問題に対する60以上のトランスフォーマーベースの手法について調査した。 リモートセンシングにおけるトランスフォーマーの様々な課題とオープンな課題を議論し、調査を締めくくった。 さらに、私たちはリモートセンシング論文の最新のトランスフォーマーを、それぞれのコードで頻繁に更新し、維持するつもりです。

Deep learning-based algorithms have seen a massive popularity in different areas of remote sensing image analysis over the past decade. Recently, transformers-based architectures, originally introduced in natural language processing, have pervaded computer vision field where the self-attention mechanism has been utilized as a replacement to the popular convolution operator for capturing long-range dependencies. Inspired by recent advances in computer vision, remote sensing community has also witnessed an increased exploration of vision transformers for a diverse set of tasks. Although a number of surveys have focused on transformers in computer vision in general, to the best of our knowledge we are the first to present a systematic review of recent advances based on transformers in remote sensing. Our survey covers more than 60 recent transformers-based methods for different remote sensing problems in sub-areas of remote sensing: very high-resolution (VHR), hyperspectral (HSI) and synthetic aperture radar (SAR) imagery. We conclude the survey by discussing different challenges and open issues of transformers in remote sensing. Additionally, we intend to frequently update and maintain the latest transformers in remote sensing papers with their respective code at: https://github.com/VIROBO-15/Transformer-in-Remote-Sensing
翻訳日:2022-09-05 12:40:20 公開日:2022-09-02
# 拡散モデル:方法と応用に関する総合的な調査

Diffusion Models: A Comprehensive Survey of Methods and Applications ( http://arxiv.org/abs/2209.00796v1 )

ライセンス: Link先を確認
Ling Yang, Zhilong Zhang, Shenda Hong(参考訳) 拡散モデルは、密集した理論的基礎を持つ様々なタスクで印象的な結果を示す、深い生成モデルのクラスである。 拡散モデルは、他の最先端モデルよりも優れた品質と多彩なサンプル合成を達成したが、それでもコストのかかるサンプリング手順と最適度推定に苦しむ。 近年の研究では拡散モデルの性能向上に大きな関心が寄せられている。 本稿では, 拡散モデルの既存変種について, 初めて包括的レビューを行う。 具体的には,拡散モデルの最初の分類法を提供し,サンプリング・アクセラレーション・エンハンスメント,可能性最大化・データ一般化エンハンスメントという3つのタイプに分類する。 また、他の5つの生成モデル(変分オートエンコーダ、生成逆ネットワーク、正規化フロー、自己回帰モデル、エネルギーベースモデル)を詳細に紹介し、拡散モデルとそれらの生成モデルとの関係を明らかにする。 次に,コンピュータビジョン,自然言語処理,波形信号処理,マルチモーダルモデリング,分子グラフ生成,時系列モデリング,対向的浄化などの拡散モデルの適用について,徹底的に検討する。 さらに,この生成モデルの開発に関する新たな視点を提案する。

Diffusion models are a class of deep generative models that have shown impressive results on various tasks with dense theoretical founding. Although diffusion models have achieved impressive quality and diversity of sample synthesis than other state-of-the-art models, they still suffer from costly sampling procedure and sub-optimal likelihood estimation. Recent studies have shown great enthusiasm on improving the performance of diffusion model. In this article, we present a first comprehensive review of existing variants of the diffusion models. Specifically, we provide a first taxonomy of diffusion models and categorize them variants to three types, namely sampling-acceleration enhancement, likelihood-maximization enhancement and data-generalization enhancement. We also introduce in detail other five generative models (i.e., variational autoencoders, generative adversarial networks, normalizing flow, autoregressive models, and energy-based models), and clarify the connections between diffusion models and these generative models. Then we make a thorough investigation into the applications of diffusion models, including computer vision, natural language processing, waveform signal processing, multi-modal modeling, molecular graph generation, time series modeling, and adversarial purification. Furthermore, we propose new perspectives pertaining to the development of this generative model.
翻訳日:2022-09-05 12:38:35 公開日:2022-09-02
# 時間グラフニューラルネットワークのための説明器

An Explainer for Temporal Graph Neural Networks ( http://arxiv.org/abs/2209.00807v1 )

ライセンス: Link先を確認
Wenchong He, Minh N. Vu, Zhe Jiang, My T. Thai(参考訳) 時間的グラフニューラルネットワーク(TGNN)は、グラフトポロジ依存と非線形時間的ダイナミクスの両方をキャプチャできるため、時間発展的なグラフ関連タスクのモデル化に広く利用されている。 TGNNの説明は透明で信頼できるモデルにとって極めて重要である。 しかし、複雑なトポロジ構造と時間依存性により、TGNNモデルの説明は非常に困難である。 本稿では,TGNNモデルのための新しい説明フレームワークを提案する。 説明すべきグラフの時系列が与えられると、フレームワークは時間内に確率的グラフィカルモデルという形で支配的な説明を識別することができる。 交通分野のケーススタディでは, 提案手法が道路網内の動的依存構造を一定期間発見できることが示されている。

Temporal graph neural networks (TGNNs) have been widely used for modeling time-evolving graph-related tasks due to their ability to capture both graph topology dependency and non-linear temporal dynamic. The explanation of TGNNs is of vital importance for a transparent and trustworthy model. However, the complex topology structure and temporal dependency make explaining TGNN models very challenging. In this paper, we propose a novel explainer framework for TGNN models. Given a time series on a graph to be explained, the framework can identify dominant explanations in the form of a probabilistic graphical model in a time period. Case studies on the transportation domain demonstrate that the proposed approach can discover dynamic dependency structures in a road network for a time period.
翻訳日:2022-09-05 12:38:14 公開日:2022-09-02
# 量子化・適応型ディープニューラルネットワークを用いたマイクロコントローラによるヒューマンアクティビティ認識

Human Activity Recognition on Microcontrollers with Quantized and Adaptive Deep Neural Networks ( http://arxiv.org/abs/2209.00839v1 )

ライセンス: Link先を確認
Francesco Daghero, Alessio Burrello, Chen Xie, Marco Castellano, Luca Gandolfi, Andrea Calimera, Enrico Macii, Massimo Poncino, Daniele Jahier Pagliari(参考訳) 慣性データに基づくヒューマンアクティビティ認識(HAR)は,スマートフォンから超低消費電力センサに至るまで,組み込みデバイス上でますます普及しつつある課題である。 ディープラーニングモデルの計算複雑性が高いため、ほとんどの組み込みHARシステムは、単純で精度の低い古典的機械学習アルゴリズムに基づいている。 この研究は、デバイス上のHARとディープラーニングのギャップを埋め、汎用マイクロコントローラ(MCU)上にデプロイ可能な効率的な1次元畳み込みニューラルネットワーク(CNN)セットを提案する。 cnnは,ハイパーパラメータ最適化とサブバイトおよび混合精度量子化を組み合わせることで,分類結果とメモリ占有の間の良好なトレードオフを求める。 さらに,適応推論を直交最適化として活用し,処理された入力に基づいて実行時の推論複雑性を調整し,より柔軟なharシステムを生成する。 4つのデータセットを実験し、超低消費電力のrisc-v mcuをターゲットとした。 (i)harのpareto-optimal cnnの豊富なセットを得ることができ、メモリ、待ち時間、エネルギー消費量の点で1桁以上に及ぶ。 (ii)適応的推論により、1つのcnnから20以上の実行時動作モードを導出することができ、分類スコアは最大10%、推論複雑性は3倍以上、メモリオーバーヘッドは限られている。 (iii)4つのベンチマークのうち3つにおいて,従来のすべてのディープラーニング手法を上回り,メモリ占有率を100倍以上に削減した。 より優れたパフォーマンス(浅度と深度の両方)を得るメソッドは、MCUデプロイメントと互換性がない。 (iv)すべてのcnnは,推論遅延が16msであるリアルタイムデバイスharと互換性があります。 メモリ消費は0.05-23.17 kBで、エネルギー消費は0.005と61.59 uJで変化し、小さな電池で長時間の連続運転が可能である。

Human Activity Recognition (HAR) based on inertial data is an increasingly diffused task on embedded devices, from smartphones to ultra low-power sensors. Due to the high computational complexity of deep learning models, most embedded HAR systems are based on simple and not-so-accurate classic machine learning algorithms. This work bridges the gap between on-device HAR and deep learning, proposing a set of efficient one-dimensional Convolutional Neural Networks (CNNs) deployable on general purpose microcontrollers (MCUs). Our CNNs are obtained combining hyper-parameters optimization with sub-byte and mixed-precision quantization, to find good trade-offs between classification results and memory occupation. Moreover, we also leverage adaptive inference as an orthogonal optimization to tune the inference complexity at runtime based on the processed input, hence producing a more flexible HAR system. With experiments on four datasets, and targeting an ultra-low-power RISC-V MCU, we show that (i) We are able to obtain a rich set of Pareto-optimal CNNs for HAR, spanning more than 1 order of magnitude in terms of memory, latency and energy consumption; (ii) Thanks to adaptive inference, we can derive >20 runtime operating modes starting from a single CNN, differing by up to 10% in classification scores and by more than 3x in inference complexity, with a limited memory overhead; (iii) on three of the four benchmarks, we outperform all previous deep learning methods, reducing the memory occupation by more than 100x. The few methods that obtain better performance (both shallow and deep) are not compatible with MCU deployment. (iv) All our CNNs are compatible with real-time on-device HAR with an inference latency <16ms. Their memory occupation varies in 0.05-23.17 kB, and their energy consumption in 0.005 and 61.59 uJ, allowing years of continuous operation on a small battery supply.
翻訳日:2022-09-05 12:38:03 公開日:2022-09-02
# インフォメーションプリアーブリッジを用いた拡散に基づく分子生成

Diffusion-based Molecule Generation with Informative Prior Bridges ( http://arxiv.org/abs/2209.00865v1 )

ライセンス: Link先を確認
Lemeng Wu, Chengyue Gong, Xingchao Liu, Mao Ye, Qiang Liu(参考訳) AIベースの分子生成は、抗体設計、ヒドロラーゼ工学、ワクチン開発など、バイオメディカル科学と工学の幅広い分野への有望なアプローチを提供する。 分子は物理法則によって支配されるため、事前情報を訓練手順に組み込んで高品質で現実的な分子を生成することが重要な課題である。 本稿では,物理および統計情報を用いた拡散型生成モデルの学習を支援するための,シンプルで新しい手法を提案する。 これは、物理的に情報を得た拡散ブリッジ、固定終端時刻に所定の観測値が得られることを保証する確率過程を構築することで達成される。 Lyapunov関数を用いた橋梁の構築と決定手法を開発し,高品質な分子生成と均一な3次元点雲生成のための情報的先行橋の提案を行った。 包括的実験により,本手法は,高品質で安定な分子構造と,高品質で均一に分布する点雲の3次元生成に強力なアプローチを提供することを示す。

AI-based molecule generation provides a promising approach to a large area of biomedical sciences and engineering, such as antibody design, hydrolase engineering, or vaccine development. Because the molecules are governed by physical laws, a key challenge is to incorporate prior information into the training procedure to generate high-quality and realistic molecules. We propose a simple and novel approach to steer the training of diffusion-based generative models with physical and statistics prior information. This is achieved by constructing physically informed diffusion bridges, stochastic processes that guarantee to yield a given observation at the fixed terminal time. We develop a Lyapunov function based method to construct and determine bridges, and propose a number of proposals of informative prior bridges for both high-quality molecule generation and uniformity-promoted 3D point cloud generation. With comprehensive experiments, we show that our method provides a powerful approach to the 3D generation task, yielding molecule structures with better quality and stability scores and more uniformly distributed point clouds of high qualities.
翻訳日:2022-09-05 12:37:30 公開日:2022-09-02
# ガウス過程サンプルの最適最適化

Optimistic Optimization of Gaussian Process Samples ( http://arxiv.org/abs/2209.00895v1 )

ライセンス: Link先を確認
Julia Grosse, Cheng Zhang, Philipp Hennig(参考訳) ベイズ最適化はグローバル最適化の一般的な形式主義であるが、計算コストは高価な関数に制限される。 競合的で計算効率の良いグローバル最適化フレームワークは楽観的最適化であり、検索空間の幾何に関する事前知識を異質性関数として活用する。 ベイズ最適化の概念的利点と楽観的最適化の計算効率を組み合わせることができるかを検討する。 カーネルを異性度にマッピングすることにより、最大で$\mathcal{O}(N \log N)$のランタイムを持つベイズ最適化設定に対する楽観的な最適化アルゴリズムを得る。 評価コストが比較的低い目的に定常カーネルを使用する場合、ベイズ最適化よりも楽観的な最適化が強く望ましいが、強く結合されたパラメトリックモデルでは、評価コストが低い場合でもベイズ最適化の優れた実装がはるかに優れている。 幾何的探索と確率的探索の間には新たな研究領域があり、ベイズ最適化の重要な機能を保ちながら、従来のベイズ最適化よりも大幅に高速に実行される方法がある。

Bayesian optimization is a popular formalism for global optimization, but its computational costs limit it to expensive-to-evaluate functions. A competing, computationally more efficient, global optimization framework is optimistic optimization, which exploits prior knowledge about the geometry of the search space in form of a dissimilarity function. We investigate to which degree the conceptual advantages of Bayesian Optimization can be combined with the computational efficiency of optimistic optimization. By mapping the kernel to a dissimilarity, we obtain an optimistic optimization algorithm for the Bayesian Optimization setting with a run-time of up to $\mathcal{O}(N \log N)$. As a high-level take-away we find that, when using stationary kernels on objectives of relatively low evaluation cost, optimistic optimization can be strongly preferable over Bayesian optimization, while for strongly coupled and parametric models, good implementations of Bayesian optimization can perform much better, even at low evaluation cost. We argue that there is a new research domain between geometric and probabilistic search, i.e. methods that run drastically faster than traditional Bayesian optimization, while retaining some of the crucial functionality of Bayesian optimization.
翻訳日:2022-09-05 12:37:12 公開日:2022-09-02
# OOV-STR用視覚言語適応型相互デコーダ

Vision-Language Adaptive Mutual Decoder for OOV-STR ( http://arxiv.org/abs/2209.00859v1 )

ライセンス: Link先を確認
Jinshui Hu, Chenyu Liu, Qiandong Yan, Xuyang Zhu, Fengli yu, Jiajia Wu, Bing Yin(参考訳) 近年の研究では、語彙(IV)シーンのテキスト認識に共通する深層学習モデルが大きな成功を収めている。 しかし、現実のシナリオでは、語彙外(oov)の単語は非常に重要であり、sota認識モデルは通常、oovの設定で性能が悪い。 学習言語がOOVプリフォームを制限していたという直感に触発されて、視覚言語適応型相互デコーダ(VLAMD)というフレームワークを設計し、OOVの問題に部分的に対処する。 VLAMDは3つの主要なコンポンジェントから構成される。 まず,2つの視覚のみのモジュールを適応的に結合したアテンションベースLSTMデコーダを構築し,視覚言語によるバランスの取れたメインブランチを生成する。 次に,共通視覚および言語先行表現学習のための補助的クエリベース自己回帰トランスフォーマ復号ヘッドを追加する。 最後に、これらの2つの設計を、より多様な言語モデリングのための双方向トレーニングと組み合わせ、より堅牢な結果を得るために相互に逐次復号を行う。 提案手法は,ECCV 2022 TiE Workshop の OOV-ST Challenge において,IV+OOV と OOV の設定に対して,70.31\% と59.61\% の単語精度を達成した。

Recent works have shown huge success of deep learning models for common in vocabulary (IV) scene text recognition. However, in real-world scenarios, out-of-vocabulary (OOV) words are of great importance and SOTA recognition models usually perform poorly on OOV settings. Inspired by the intuition that the learned language prior have limited OOV preformence, we design a framework named Vision Language Adaptive Mutual Decoder (VLAMD) to tackle OOV problems partly. VLAMD consists of three main conponents. Firstly, we build an attention based LSTM decoder with two adaptively merged visual-only modules, yields a vision-language balanced main branch. Secondly, we add an auxiliary query based autoregressive transformer decoding head for common visual and language prior representation learning. Finally, we couple these two designs with bidirectional training for more diverse language modeling, and do mutual sequential decoding to get robuster results. Our approach achieved 70.31\% and 59.61\% word accuracy on IV+OOV and OOV settings respectively on Cropped Word Recognition Task of OOV-ST Challenge at ECCV 2022 TiE Workshop, where we got 1st place on both settings.
翻訳日:2022-09-05 12:34:41 公開日:2022-09-02
# トランスを用いたリアルタイム3次元物体追跡

Real-time 3D Single Object Tracking with Transformer ( http://arxiv.org/abs/2209.00860v1 )

ライセンス: Link先を確認
Jiayao Shan, Sifan Zhou, Yubo Cui, Zheng Fang(参考訳) LiDARベースの3Dオブジェクトトラッキングは、ロボティクスと自動運転において難しい問題である。 現在、既存のアプローチは、遠方の物体がしばしば非常に疎いあるいは部分的に隠された点雲を持つという問題に悩まされており、モデルによって抽出された特徴は曖昧である。 あいまいな機能はターゲットオブジェクトを見つけるのを難しくし、最終的に追跡結果が悪くなる。 この問題を解決するために,強力なトランスフォーマーアーキテクチャを用い,ポイントクラウドベースの3次元オブジェクト追跡タスクのためのポイント・トラック・トランスフォーマー(PTT)モジュールを提案する。 具体的には、pttモジュールは注意重みを計算して微調整された注意機能を生成し、ターゲットの重要な特徴に焦点を当て、複雑なシナリオにおけるトラッキング能力を向上させる。 PTTモジュールを評価するために,本手法にPTTを組み込み,PTT-Netという新しい3次元SOTトラッカーを構築する。 PTT-Net では,それぞれ投票段階に PTT を組込み,提案生成段階に組み込む。 投票段階のpttモジュールは、コンテキスト依存の機能を学ぶポイントパッチ間のインタラクションをモデル化することができる。 一方、提案生成段階のTTモジュールは、オブジェクトとバックグラウンドの間のコンテキスト情報をキャプチャすることができる。 我々は,KITTIおよびNuScenesデータセット上でPTT-Netを評価する。 実験の結果、pttモジュールの有効性とptt-netの優位性が示され、これは車種で約10%のマージンでベースラインを上回っている。 一方,本手法はスパースシナリオにおいて性能が大幅に向上する。 一般的に、トランスフォーマーとトラッキングパイプラインの組み合わせにより、PTT-Netは両方のデータセットで最先端のパフォーマンスを達成できます。 さらに、PTT-NetはNVIDIA 1080Ti GPU上で40FPSでリアルタイムに実行できる。 私たちのコードは、https://github.com/shanjiayao/PTT.comで研究コミュニティのためにオープンソース化されています。

LiDAR-based 3D single object tracking is a challenging issue in robotics and autonomous driving. Currently, existing approaches usually suffer from the problem that objects at long distance often have very sparse or partially-occluded point clouds, which makes the features extracted by the model ambiguous. Ambiguous features will make it hard to locate the target object and finally lead to bad tracking results. To solve this problem, we utilize the powerful Transformer architecture and propose a Point-Track-Transformer (PTT) module for point cloud-based 3D single object tracking task. Specifically, PTT module generates fine-tuned attention features by computing attention weights, which guides the tracker focusing on the important features of the target and improves the tracking ability in complex scenarios. To evaluate our PTT module, we embed PTT into the dominant method and construct a novel 3D SOT tracker named PTT-Net. In PTT-Net, we embed PTT into the voting stage and proposal generation stage, respectively. PTT module in the voting stage could model the interactions among point patches, which learns context-dependent features. Meanwhile, PTT module in the proposal generation stage could capture the contextual information between object and background. We evaluate our PTT-Net on KITTI and NuScenes datasets. Experimental results demonstrate the effectiveness of PTT module and the superiority of PTT-Net, which surpasses the baseline by a noticeable margin, ~10% in the Car category. Meanwhile, our method also has a significant performance improvement in sparse scenarios. In general, the combination of transformer and tracking pipeline enables our PTT-Net to achieve state-of-the-art performance on both two datasets. Additionally, PTT-Net could run in real-time at 40FPS on NVIDIA 1080Ti GPU. Our code is open-sourced for the research community at https://github.com/shanjiayao/PTT.
翻訳日:2022-09-05 12:34:15 公開日:2022-09-02
# 3次元pointcloudグラフ作成のためのタスク特色学習

Learning task-specific features for 3D pointcloud graph creation ( http://arxiv.org/abs/2209.00949v1 )

ライセンス: Link先を確認
El\'ias Abad-Rocamora, Javier Ruiz-Hidalgo(参考訳) Deep Learningメソッドで3Dポイントクラウドを処理するのは簡単ではありません。 グラフニューラルネットワークでこれを行うのが一般的な選択だが、このフレームワークにはポイント間のエッジの生成が含まれている。 歴史的に、k near neighbors (k-nn) や query ball point over xyz といった手作りの手法が提案されており、グラフの改善よりもネットワークの改善に重点を置いている。 本研究では、3Dポイントクラウドからグラフを作成するためのより原則的な方法を提案する。 本手法は,入力された3Dポイントクラウドの変換上でk-NNを実行することに基づく。 この変換はMLP(Multi-Later Perceptron)によって行われ、学習可能なパラメータはネットワークの他の部分とのバックプロパゲーションによって最適化される。 また, ストレス最小化に基づく正規化手法を導入し, ベースラインから学習グラフまでの距離を制御できるようにした: k-NN over xyz 空間。 このフレームワークはModelNet40でテストされ、ネットワークによって生成されたグラフは全体の精度で0.3ポイント向上した。

Processing 3D pointclouds with Deep Learning methods is not an easy task. A common choice is to do so with Graph Neural Networks, but this framework involves the creation of edges between points, which are explicitly not related between them. Historically, naive and handcrafted methods like k Nearest Neighbors (k-NN) or query ball point over xyz features have been proposed, focusing more attention on improving the network than improving the graph. In this work, we propose a more principled way of creating a graph from a 3D pointcloud. Our method is based on performing k-NN over a transformation of the input 3D pointcloud. This transformation is done by an Multi-Later Perceptron (MLP) with learnable parameters that is optimized through backpropagation jointly with the rest of the network. We also introduce a regularization method based on stress minimization, which allows to control how distant is the learnt graph from our baseline: k-NN over xyz space. This framework is tested on ModelNet40, where graphs generated by our network outperformed the baseline by 0.3 points in overall accuracy.
翻訳日:2022-09-05 12:33:48 公開日:2022-09-02
# LiteDepth: モバイルデバイスの高速かつ正確な深さ推定に活用

LiteDepth: Digging into Fast and Accurate Depth Estimation on Mobile Devices ( http://arxiv.org/abs/2209.00961v1 )

ライセンス: Link先を確認
Zhenyu Li, Zehui Chen, Jialei Xu, Xianming Liu, Junjun Jiang(参考訳) 単眼深度推定はコンピュータビジョンコミュニティにおいて必須の課題である。 驚くほど成功した手法は優れた結果を得たが、そのほとんどは計算コストが高く、リアルタイムのオンデバイス推論には適用できない。 本稿では,単眼深度推定のより実践的な応用を目指しており,モバイルデバイス上での精度だけでなく,推測時間も考慮すべきである。 そこで我々はまず,小重量(1.4MB)と短い推論時間(Raspberry Pi 4では27FPS)のエンドツーエンド学習モデルを開発した。 そこで本研究では,R2 cropと呼ばれる簡易かつ効果的なデータ拡張戦略を提案し,モデル性能を向上する。 さらに,単一損失項のみをトレーニングした単純な軽量モデルは,性能ボトルネックに悩まされることが観察された。 この問題を軽減するため、トレーニング段階で十分な制約を与えるために、複数の損失項を採用する。 さらに、単純な動的再重み付け戦略により、損失項の時間的消費超パラメータの選択を回避できる。 最後に, 構造対応蒸留を採用し, モデル性能をさらに向上させる。 特に、LiteDepthという名前のソリューションは、MAI&AIM2022 Monocular Depth Estimation Challengeの2位にランクされ、Ssi-RMSEは0.311、RMSEは3.79、推論時間はRaspberry Pi 4で37$ms$テストされている。 特に、この課題に対する最速のソリューションを提供しています。 コードとモデルは \url{https://github.com/zhyever/LiteDepth} でリリースされる。

Monocular depth estimation is an essential task in the computer vision community. While tremendous successful methods have obtained excellent results, most of them are computationally expensive and not applicable for real-time on-device inference. In this paper, we aim to address more practical applications of monocular depth estimation, where the solution should consider not only the precision but also the inference time on mobile devices. To this end, we first develop an end-to-end learning-based model with a tiny weight size (1.4MB) and a short inference time (27FPS on Raspberry Pi 4). Then, we propose a simple yet effective data augmentation strategy, called R2 crop, to boost the model performance. Moreover, we observe that the simple lightweight model trained with only one single loss term will suffer from performance bottleneck. To alleviate this issue, we adopt multiple loss terms to provide sufficient constraints during the training stage. Furthermore, with a simple dynamic re-weight strategy, we can avoid the time-consuming hyper-parameter choice of loss terms. Finally, we adopt the structure-aware distillation to further improve the model performance. Notably, our solution named LiteDepth ranks 2nd in the MAI&AIM2022 Monocular Depth Estimation Challenge}, with a si-RMSE of 0.311, an RMSE of 3.79, and the inference time is 37$ms$ tested on the Raspberry Pi 4. Notably, we provide the fastest solution to the challenge. Codes and models will be released at \url{https://github.com/zhyever/LiteDepth}.
翻訳日:2022-09-05 12:33:29 公開日:2022-09-02
# コントラスト意味誘導画像平滑化ネットワーク

Contrastive Semantic-Guided Image Smoothing Network ( http://arxiv.org/abs/2209.00977v1 )

ライセンス: Link先を確認
Jie Wang, Yongzhen Wang, Yidan Feng, Lina Gong, Xuefeng Yan, Haoran Xie, Fu Lee Wang, Mingqiang Wei(参考訳) 画像スムーシングは、画像の健全な構造を保存しつつ、重要な詳細を除去することを目的とした、基本的な低レベルの視覚タスクである。 深層学習は、意味構造と自明な詳細の複雑な絡み合いに対処するために、画像の平滑化において研究されてきた。 しかし、現在の方法は平滑化において2つの重要な事実を無視している。 1) 高品質な平滑化グランドルースを限定したナイーブな画素レベル回帰は,領域シフトを引き起こし,実世界画像に対する一般化問題を引き起こす可能性がある。 2)テクスチャの出現はオブジェクトのセマンティクスと密接に関連しているため,画像の平滑化には適応的な平滑化強度を適用するために意味的差異の認識が必要である。 これらの課題に対処するために,コントラスト先行とセマンティックを併用し,より堅牢な画像平滑化を実現するContrastive Semantic-Guided Image Smoothing Network (CSGIS-Net)を提案する。 監督信号は、望ましくない平滑化効果を負の教師として活用し、セグメンテーションタスクを取り入れて意味的特徴性を促進することで強化される。 提案するネットワークを実現するために,画像の平滑化とセマンティックセグメンテーションを最初に橋渡しするVOCスムース(VOC-smooth)という,テクスチャ強化とスムースメントラベルを備えたVOCデータセットも強化した。 大規模な実験により、CSGIS-Netは最先端のアルゴリズムよりも大きなマージンで優れていることが示された。 コードとデータセットはhttps://github.com/wangjie6866/CSGIS-Netで公開されている。

Image smoothing is a fundamental low-level vision task that aims to preserve salient structures of an image while removing insignificant details. Deep learning has been explored in image smoothing to deal with the complex entanglement of semantic structures and trivial details. However, current methods neglect two important facts in smoothing: 1) naive pixel-level regression supervised by the limited number of high-quality smoothing ground-truth could lead to domain shift and cause generalization problems towards real-world images; 2) texture appearance is closely related to object semantics, so that image smoothing requires awareness of semantic difference to apply adaptive smoothing strengths. To address these issues, we propose a novel Contrastive Semantic-Guided Image Smoothing Network (CSGIS-Net) that combines both contrastive prior and semantic prior to facilitate robust image smoothing. The supervision signal is augmented by leveraging undesired smoothing effects as negative teachers, and by incorporating segmentation tasks to encourage semantic distinctiveness. To realize the proposed network, we also enrich the original VOC dataset with texture enhancement and smoothing labels, namely VOC-smooth, which first bridges image smoothing and semantic segmentation. Extensive experiments demonstrate that the proposed CSGIS-Net outperforms state-of-the-art algorithms by a large margin. Code and dataset are available at https://github.com/wangjie6866/CSGIS-Net.
翻訳日:2022-09-05 12:33:03 公開日:2022-09-02
# 教師のタスクで顔の知識を蒸留する:セマンティックセグメンテーション--ポーズ不変な顔認識のための特徴

Distilling Facial Knowledge With Teacher-Tasks: Semantic-Segmentation-Features For Pose-Invariant Face-Recognition ( http://arxiv.org/abs/2209.01115v1 )

ライセンス: Link先を確認
Ali Hassani, Zaid El Shair, Rafi Ud Duala Refat, Hafiz Malik(参考訳) 本稿では,セマンティクスセグメンテーション機能を用いた顔認識のポーズ非分散を改善するための新しいアプローチを提案する。 提案するSeg-Distilled-IDネットワークは,識別タスクとセグメンテーションタスクを共同で学習し,セグメンテーションタスクを "Distilled" (MobileNet encoder) する。 パフォーマンスは、3つの最先端エンコーダに対してベンチマークされる。 seg-distilled-idネットワークは、resnet-101の81.6%、vgg-19の96.1%、inceptionv3の96.3%と比較して、99.9%のテスト精度を達成している。 これはトップエンコーダの推論パラメータの約10分の1を使って達成される。 以上の結果から, 対面認識のポーズ不分散を効率的に解決できる, 蒸留用セマンティックセグメンテーション機能を示す。

This paper demonstrates a novel approach to improve face-recognition pose-invariance using semantic-segmentation features. The proposed Seg-Distilled-ID network jointly learns identification and semantic-segmentation tasks, where the segmentation task is then "distilled" (MobileNet encoder). Performance is benchmarked against three state-of-the-art encoders on a publicly available data-set emphasizing head-pose variations. Experimental evaluations show the Seg-Distilled-ID network shows notable robustness benefits, achieving 99.9% test-accuracy in comparison to 81.6% on ResNet-101, 96.1% on VGG-19 and 96.3% on InceptionV3. This is achieved using approximately one-tenth of the top encoder's inference parameters. These results demonstrate distilling semantic-segmentation features can efficiently address face-recognition pose-invariance.
翻訳日:2022-09-05 12:32:19 公開日:2022-09-02
# nnOOD: 自己管理型異常局所化手法のベンチマークのためのフレームワーク

nnOOD: A Framework for Benchmarking Self-supervised Anomaly Localisation Methods ( http://arxiv.org/abs/2209.01124v1 )

ライセンス: Link先を確認
Matthew Baugh, Jeremy Tan, Athanasios Vlontzos, Johanna P. M\"uller, Bernhard Kainz(参考訳) 医用画像における分布内および分布外データの多様さは、普遍的異常検出を困難な課題にしている。 近年,合成異常を付加した健康データに基づくエンドツーエンドモデルを訓練する自己指導手法が数多く開発されている。 しかしながら、パフォーマンスの向上がタスク自体からなのか、あるいはそれを取り巻くトレーニングパイプラインからなのかは定かではないため、これらの方法を比較することは困難である。 タスクが普遍的な異常検出のためにうまく一般化するかどうかを評価することも困難であり、それらは限られた範囲の異常でのみテストされることが多い。 そこで我々は,自己教師付き異常局所化手法の比較を可能にするため,nnU-Netに適応するフレームワークであるnnOODを開発した。 合成された自己教師付きタスクを他のトレーニングプロセスから分離することで、タスクをより忠実に比較すると同時に、所定のデータセット上で評価するためのワークフローを迅速かつ容易にします。 これを用いて、現在の最先端タスクを実装し、挑戦的なX線データセットで評価した。

The wide variety of in-distribution and out-of-distribution data in medical imaging makes universal anomaly detection a challenging task. Recently a number of self-supervised methods have been developed that train end-to-end models on healthy data augmented with synthetic anomalies. However, it is difficult to compare these methods as it is not clear whether gains in performance are from the task itself or the training pipeline around it. It is also difficult to assess whether a task generalises well for universal anomaly detection, as they are often only tested on a limited range of anomalies. To assist with this we have developed nnOOD, a framework that adapts nnU-Net to allow for comparison of self-supervised anomaly localisation methods. By isolating the synthetic, self-supervised task from the rest of the training process we perform a more faithful comparison of the tasks, whilst also making the workflow for evaluating over a given dataset quick and easy. Using this we have implemented the current state-of-the-art tasks and evaluated them on a challenging X-ray dataset.
翻訳日:2022-09-05 12:32:02 公開日:2022-09-02
# GNN支援とコントラスト学習によるPill-Prescription Matchingの新しい手法

A Novel Approach for Pill-Prescription Matching with GNN Assistance and Contrastive Learning ( http://arxiv.org/abs/2209.01152v1 )

ライセンス: Link先を確認
Trung Thanh Nguyen, Hoang Dang Nguyen, Thanh Hung Nguyen, Huy Hieu Pham, Ichiro Ide, Phi Le Nguyen(参考訳) 医薬品の誤用は、患者にとって予測不能な結果をもたらすリスクの1つだ。 このリスクを軽減するために,モバイル画像から薬の処方を正しく識別する自動システムを開発した。 具体的には,錠剤と処方薬の名前の一致を図示する「錠剤規範マッチングタスク」を定義した。 次に,グラフニューラルネットワーク(GNN)とコントラスト学習を用いた新しいアプローチであるPIMAを提案する。 特に、GNNは処方薬中のテキストボックス間の空間的相関を学習し、薬名を持つテキストボックスをハイライトするために使用される。 さらに、ピル名のテキスト表現とピル画像の視覚表現の相互類似性のモデル化を容易にするために、コントラスト学習を用いる。 PIMAが構築したピルと処方薬の画像の実際のデータセット上で,ベースラインモデルより優れていることを示した。 具体的には、PIMAは他のベースラインに比べて19.09%から46.95%に精度を向上する。 我々の研究は、新しい臨床応用を構築し、医薬品の安全性と患者医療を改善する新しい機会を開くことができると信じている。

Medication mistaking is one of the risks that can result in unpredictable consequences for patients. To mitigate this risk, we develop an automatic system that correctly identifies pill-prescription from mobile images. Specifically, we define a so-called pill-prescription matching task, which attempts to match the images of the pills taken with the pills' names in the prescription. We then propose PIMA, a novel approach using Graph Neural Network (GNN) and contrastive learning to address the targeted problem. In particular, GNN is used to learn the spatial correlation between the text boxes in the prescription and thereby highlight the text boxes carrying the pill names. In addition, contrastive learning is employed to facilitate the modeling of cross-modal similarity between textual representations of pill names and visual representations of pill images. We conducted extensive experiments and demonstrated that PIMA outperforms baseline models on a real-world dataset of pill and prescription images that we constructed. Specifically, PIMA improves the accuracy from 19.09% to 46.95% compared to other baselines. We believe our work can open up new opportunities to build new clinical applications and improve medication safety and patient care.
翻訳日:2022-09-05 12:31:45 公開日:2022-09-02
# CLONeR:Occupancy Grid-Aided Neural Representationのためのカメラライダーフュージョン

CLONeR: Camera-Lidar Fusion for Occupancy Grid-aided Neural Representations ( http://arxiv.org/abs/2209.01194v1 )

ライセンス: Link先を確認
Alexandra Carlson, Manikandasriram Srinivasan Ramanagopal, Nathan Tseng, Matthew Johnson-Roberson, Ram Vasudevan, Katherine A. Skinner(参考訳) ニューラルラジアンス場(NeRF)の最近の進歩は、最先端の斬新なビュー合成を実現し、シーン特性の高密度な推定を容易にする。 しかし、NeRFは、フィールドロボティクスの応用に典型的なように、カメラから遠ざかるシーンコンテンツで、非常に狭い視野で撮影される、大きくて無界なシーンでは失敗することが多い。 特に、nerf方式のアルゴリズムは、(1)ポーズの多様性が乏しいビューが不足している場合、(2)シーンが飽和と影を含んでいる場合、(3)微細な構造を持つ大きなアンバウンドシーンを微細にサンプリングする場合には計算集約的になる。 本稿では,スパーク入力センサビューから観測される大規模な屋外走行シーンをモデル化することで,NeRFを大幅に改善するCLONeRを提案する。 これは、NeRFフレームワーク内の占有と色学習を、それぞれLiDARとカメラデータを用いてトレーニングされた個別のMulti-Layer Perceptron(MLP)に分離することで実現される。 さらに,NeRFモデルと平行に3D Occupancy Grid Maps (OGM) を構築するための新しい手法を提案し,この占有網を利用して距離空間におけるボリュームレンダリングのための線に沿った点のサンプリングを改善する。 提案手法は,KITTIデータセットから得られたシーンの定量的および定性的な実験を通じて,スパース入力データを用いたトレーニングにおいて,新しいビュー合成および深度予測タスクにおいて,最先端のNeRFモデルよりも優れた性能を示すことを示す。

Recent advances in neural radiance fields (NeRFs) achieve state-of-the-art novel view synthesis and facilitate dense estimation of scene properties. However, NeRFs often fail for large, unbounded scenes that are captured under very sparse views with the scene content concentrated far away from the camera, as is typical for field robotics applications. In particular, NeRF-style algorithms perform poorly: (1) when there are insufficient views with little pose diversity, (2) when scenes contain saturation and shadows, and (3) when finely sampling large unbounded scenes with fine structures becomes computationally intensive. This paper proposes CLONeR, which significantly improves upon NeRF by allowing it to model large outdoor driving scenes that are observed from sparse input sensor views. This is achieved by decoupling occupancy and color learning within the NeRF framework into separate Multi-Layer Perceptrons (MLPs) trained using LiDAR and camera data, respectively. In addition, this paper proposes a novel method to build differentiable 3D Occupancy Grid Maps (OGM) alongside the NeRF model, and leverage this occupancy grid for improved sampling of points along a ray for volumetric rendering in metric space. Through extensive quantitative and qualitative experiments on scenes from the KITTI dataset, this paper demonstrates that the proposed method outperforms state-of-the-art NeRF models on both novel view synthesis and dense depth prediction tasks when trained on sparse input data.
翻訳日:2022-09-05 12:31:29 公開日:2022-09-02
# 知識グラフを問うマルチホップ質問に対する関係経路のハイブリッドセマンティクスの探索

Exploiting Hybrid Semantics of Relation Paths for Multi-hop Question Answering Over Knowledge Graphs ( http://arxiv.org/abs/2209.00870v1 )

ライセンス: Link先を確認
Zile Qiao, Wei Ye, Tong Zhang, Tong Mo, Weiping Li, Shikun Zhang(参考訳) 知識グラフ(KGQA)に関する自然言語質問への回答は、マルチホップ推論による複雑な質問の理解において大きな課題である。 これまでの取り組みは通常、大規模エンティティ関連のテキストコーパスや知識グラフ(KG)の埋め込みを補助情報として活用し、回答の選択を容易にする。 しかしながら、エンティティ間の既成関係パスに暗示されるリッチなセマンティクスは、十分に研究されていない。 本稿では,関係経路のハイブリッドセマンティクスを利用したマルチホップKGQAを提案する。 具体的には、新しい回転・スケールのエンティティリンク予測フレームワークに基づいて、明示的なテキスト情報と関係パスの暗黙的なKG構造特徴を統合する。 既存の3つのKGQAデータセットに対する大規模な実験は、特にマルチホップシナリオにおいて、我々の手法の優位性を示している。 さらに,質問と関係経路間の体系的協調を検証し,回答を同定した。

Answering natural language questions on knowledge graphs (KGQA) remains a great challenge in terms of understanding complex questions via multi-hop reasoning. Previous efforts usually exploit large-scale entity-related text corpora or knowledge graph (KG) embeddings as auxiliary information to facilitate answer selection. However, the rich semantics implied in off-the-shelf relation paths between entities is far from well explored. This paper proposes improving multi-hop KGQA by exploiting relation paths' hybrid semantics. Specifically, we integrate explicit textual information and implicit KG structural features of relation paths based on a novel rotate-and-scale entity link prediction framework. Extensive experiments on three existing KGQA datasets demonstrate the superiority of our method, especially in multi-hop scenarios. Further investigation confirms our method's systematical coordination between questions and relation paths to identify answer entities.
翻訳日:2022-09-05 12:28:30 公開日:2022-09-02
# オフライン強化学習による対話評価

Dialogue Evaluation with Offline Reinforcement Learning ( http://arxiv.org/abs/2209.00876v1 )

ライセンス: Link先を確認
Nurul Lubis, Christian Geishauser, Hsien-Chin Lin, Carel van Niekerk, Michael Heck, Shutong Feng, Milica Ga\v{s}i\'c(参考訳) タスク指向対話システムは,自然言語対話によるユーザ目標達成を目的としている。 理想的には、人間ユーザによって評価されるが、開発フェーズの各イテレーションで実施することは不可能である。 シミュレートされたユーザーも選択肢になり得るが、その開発は自明ではない。 そのため、研究者は、より実用的で容易に再現可能な既存のヒトコーパスのオフラインメトリクスを利用する。 残念ながら、それらは対話システムの実際のパフォーマンスを反映して制限されている。 例えばBLEUは人間の判断と相関が低く、成功率などの既存のコーパスベースのメトリクスは、会話コンテキストのミスマッチを無視する。 優れた一般化と人的判断との強い相関を持つタスク指向システムには信頼性のある計量が必要である。 本稿では,静的コーパスに基づく対話評価におけるオフライン強化学習の利用を提案する。 このような評価は一般に批評家と呼ばれ、政策最適化に利用される。 さらに、オフラインのRL評論家が外部評価器として任意の対話システムに対して静的コーパスでトレーニングできることを示し、様々な種類のシステム間での対話性能の比較を可能にする。 このアプローチは、コーパスとモデル非依存であると同時に、人間判断との強い相関を、インタラクティブなユーザトライアルで確認することができる。

Task-oriented dialogue systems aim to fulfill user goals through natural language interactions. They are ideally evaluated with human users, which however is unattainable to do at every iteration of the development phase. Simulated users could be an alternative, however their development is nontrivial. Therefore, researchers resort to offline metrics on existing human-human corpora, which are more practical and easily reproducible. They are unfortunately limited in reflecting real performance of dialogue systems. BLEU for instance is poorly correlated with human judgment, and existing corpus-based metrics such as success rate overlook dialogue context mismatches. There is still a need for a reliable metric for task-oriented systems with good generalization and strong correlation with human judgements. In this paper, we propose the use of offline reinforcement learning for dialogue evaluation based on a static corpus. Such an evaluator is typically called a critic and utilized for policy optimization. We go one step further and show that offline RL critics can be trained on a static corpus for any dialogue system as external evaluators, allowing dialogue performance comparisons across various types of systems. This approach has the benefit of being corpus- and model-independent, while attaining strong correlation with human judgements, which we confirm via an interactive user trial.
翻訳日:2022-09-05 12:28:14 公開日:2022-09-02
# 新しい配列の単純なドイツ語コーパス

A New Aligned Simple German Corpus ( http://arxiv.org/abs/2209.01106v1 )

ライセンス: Link先を確認
Vanessa Toborek and Moritz Busch and Malte Bo{\ss}ert and Pascal Welke and Christian Bauckhage(参考訳) ドイツ語で「leichte sprache」を意味する「leichte sprache」は、異なる集団に通じない複雑な文字言語を促進することを目的とした規制された言語である。 単純ドイツ語のための文列単言語コーパスを新たに提案する。 自動文アライメント手法を用いてアライメントした複数の文書アライメントソースを含んでいる。 文書を手動でラベル付けしたサブセットに基づいてアライメントを評価する。 文のアライメントの質は、F1スコアで測定されたように、以前の作業を上回る。 データセットはCC BY-SAで公開し、対応するコードはMITライセンスで公開します。

"Leichte Sprache", the German counterpart to Simple English, is a regulated language aiming to facilitate complex written language that would otherwise stay inaccessible to different groups of people. We present a new sentence-aligned monolingual corpus for Simple German -- German. It contains multiple document-aligned sources which we have aligned using automatic sentence-alignment methods. We evaluate our alignments based on a manually labelled subset of aligned documents. The quality of our sentence alignments, as measured by F1-score, surpasses previous work. We publish the dataset under CC BY-SA and the accompanying code under MIT license.
翻訳日:2022-09-05 12:27:58 公開日:2022-09-02
# 拡張と説明:非常に長い言語モデルの解釈

Extend and Explain: Interpreting Very Long Language Models ( http://arxiv.org/abs/2209.01174v1 )

ライセンス: Link先を確認
Joel Stremmel, Brian L. Hill, Jeffrey Hertzberg, Jaime Murillo, Llewelyn Allotey, Eran Halperin(参考訳) トランスフォーマー言語モデル(LM)は情報抽出の最先端技術であるが、ロングテキストは最適化前処理ステップや代替モデルアーキテクチャを必要とする計算課題を導入する。 スパースアテンションLMはより長いシーケンスを表現でき、パフォーマンスハードルを克服できる。 しかし、これらのモデルから予測を説明する方法はまだ不明であり、全てのトークンが自己照準層で互いに交わされるわけではなく、長いシーケンスは、ランタイムが文書の長さに依存する場合、説明可能性アルゴリズムに計算上の課題をもたらす。 これらの課題は、ドキュメントが非常に長く、マシンラーニング(ml)モデルは監査可能で信頼できるものでなければなりません。 予測に寄与するテキストブロックを同定し,医療用テキストからの診断予測の文脈にmspを適用し,2人の臨床医による盲検によるアプローチを検証するための,新しいマスキングサンプリング手順(msp)を提案する。 提案手法は, 従来の最先端のテキストブロックの約1.7倍, 最大100倍高速に動作し, 重要な句対を生成することができる。 MSPは特に長いLMに適しているが、どんなテキスト分類にも適用できる。 MSPの一般的な実装を提供する。

While Transformer language models (LMs) are state-of-the-art for information extraction, long text introduces computational challenges requiring suboptimal preprocessing steps or alternative model architectures. Sparse-attention LMs can represent longer sequences, overcoming performance hurdles. However, it remains unclear how to explain predictions from these models, as not all tokens attend to each other in the self-attention layers, and long sequences pose computational challenges for explainability algorithms when runtime depends on document length. These challenges are severe in the medical context where documents can be very long, and machine learning (ML) models must be auditable and trustworthy. We introduce a novel Masked Sampling Procedure (MSP) to identify the text blocks that contribute to a prediction, apply MSP in the context of predicting diagnoses from medical text, and validate our approach with a blind review by two clinicians. Our method identifies about 1.7x more clinically informative text blocks than the previous state-of-the-art, runs up to 100x faster, and is tractable for generating important phrase pairs. MSP is particularly well-suited to long LMs but can be applied to any text classifier. We provide a general implementation of MSP.
翻訳日:2022-09-05 12:27:50 公開日:2022-09-02
# 2022年XCSP3コンペティションの成果

Proceedings of the 2022 XCSP3 Competition ( http://arxiv.org/abs/2209.00917v1 )

ライセンス: Link先を確認
Gilles Audemard, Christophe Lecoutre, Emmanuel Lonca(参考訳) この文書は2022年のXCSP3コンペティションの手続きを表している。 この制約ソルバの競争の結果は、2022年7月31日から8月7日までイスラエルのハイファで開催されたfloc(federated logic conference) 2022オリンピックで発表された。

This document represents the proceedings of the 2022 XCSP3 Competition. The results of this competition of constraint solvers were presented at FLOC (Federated Logic Conference) 2022 Olympic Games, held in Haifa, Israel from 31th July 2022 to 7th August, 2022.
翻訳日:2022-09-05 12:27:11 公開日:2022-09-02
# カリキュラムによる時間的コントラスト学習

Temporal Contrastive Learning with Curriculum ( http://arxiv.org/abs/2209.00760v1 )

ライセンス: Link先を確認
Shuvendu Roy, Ali Etemad(参考訳) 本稿では,コントラスト学習における動的サンプリング戦略を課すためにカリキュラム学習を用いたコントラスト映像表現学習手法であるconcurを提案する。 より具体的には、ConCurは簡単な正のサンプル(時間的に近づき、意味的に類似したクリップ)で対照的なトレーニングを開始し、トレーニングが進むにつれて、時間的スパンを効果的にサンプリングする(時間的に離れて、意味的に異なる)。 さらに, 文脈認識表現をよりよく学習するために, 正のクリップ間の時間距離を予測する補助タスクを提案する。 提案手法は,ビデオアクション認識とビデオ検索の2つのベンチマークタスクにおいて最先端のパフォーマンスを実現するため,2つの一般的なアクション認識データセットであるutf101とhmdb51について広範囲に実験を行った。 我々は,R(2+1)DおよびC3Dエンコーダを用いて,エンコーダのバックボーンと事前学習戦略の影響を調査し,Kinetics-400およびKinetics-200データセットの事前学習を行う。 さらに,提案手法の各成分の有効性について詳細なアブレーション研究を行った。

We present ConCur, a contrastive video representation learning method that uses curriculum learning to impose a dynamic sampling strategy in contrastive training. More specifically, ConCur starts the contrastive training with easy positive samples (temporally close and semantically similar clips), and as the training progresses, it increases the temporal span effectively sampling hard positives (temporally away and semantically dissimilar). To learn better context-aware representations, we also propose an auxiliary task of predicting the temporal distance between a positive pair of clips. We conduct extensive experiments on two popular action recognition datasets, UCF101 and HMDB51, on which our proposed method achieves state-of-the-art performance on two benchmark tasks of video action recognition and video retrieval. We explore the impact of encoder backbones and pre-training strategies by using R(2+1)D and C3D encoders and pre-training on Kinetics-400 and Kinetics-200 datasets. Moreover, a detailed ablation study shows the effectiveness of each of the components of our proposed method.
翻訳日:2022-09-05 12:25:53 公開日:2022-09-02
# 幾何学的および学習に基づくメッシュ分類:包括的調査

Geometric and Learning-based Mesh Denoising: A Comprehensive Survey ( http://arxiv.org/abs/2209.00841v1 )

ライセンス: Link先を確認
Honghua Chen, Mingqiang Wei, Jun Wang(参考訳) メッシュデノイングはデジタル幾何学処理の基本的な問題である。 表面のノイズを除去し、表面固有の信号を可能な限り正確に保存する。 従来の知恵は、スムーズな表面への特別な先行の上に構築されてきたが、学習ベースのアプローチは、一般化と自動化において大きな成功を収めている。 本研究では,従来の幾何学的アプローチと最近の学習手法の両方を含むメッシュ認知の進歩を包括的にレビューする。 まず、読者にデノージングタスクを知ってもらうために、メッシュデノージングの一般的な4つの問題をまとめます。 次に、既存のdenoisingメソッドの2つの分類を提供する。 さらに、最適化、フィルタ、データ駆動ベースの技術を含む3つの重要なカテゴリを紹介し、詳細に分析する。 定性的および定量的な比較を行い,最先端の分別手法の有効性を示す。 最後に、これらのアプローチの共通問題を解くために、今後の研究の潜在的方向性が指摘される。 メッシュデノケーションベンチマークもこの作業で構築されており、将来の研究者は、最先端のアプローチでメソッドを簡単かつ便利に評価する。

Mesh denoising is a fundamental problem in digital geometry processing. It seeks to remove surface noise, while preserving surface intrinsic signals as accurately as possible. While the traditional wisdom has been built upon specialized priors to smooth surfaces, learning-based approaches are making their debut with great success in generalization and automation. In this work, we provide a comprehensive review of the advances in mesh denoising, containing both traditional geometric approaches and recent learning-based methods. First, to familiarize readers with the denoising tasks, we summarize four common issues in mesh denoising. We then provide two categorizations of the existing denoising methods. Furthermore, three important categories, including optimization-, filter-, and data-driven-based techniques, are introduced and analyzed in detail, respectively. Both qualitative and quantitative comparisons are illustrated, to demonstrate the effectiveness of the state-of-the-art denoising methods. Finally, potential directions of future work are pointed out to solve the common problems of these approaches. A mesh denoising benchmark is also built in this work, and future researchers will easily and conveniently evaluate their methods with the state-of-the-art approaches.
翻訳日:2022-09-05 12:25:25 公開日:2022-09-02
# ディープニューラルネットワークにおける正規化効果

Normalization effects on deep neural networks ( http://arxiv.org/abs/2209.01018v1 )

ライセンス: Link先を確認
Jiahui Yu, Konstantinos Spiliopoulos(参考訳) フィードフォワード型のディープニューラルネットワーク層に対する正規化の効果について検討した。 与えられた層$i$と$N_{i}$の隠れ単位は、$/N_{i}^{\gamma_{i}}$と$\gamma_{i}\in[1/2,1]$で正規化することができ、ここでは、$\gamma_{i}$の選択がニューラルネットワークの出力(分散など)の統計的挙動およびMNISTデータセットにおけるテスト精度に与える影響を研究する。 ニューラルネットワークの出力とテスト精度のばらつきに関して、最も良い選択は$\gamma_{i}$'s を 1 に等しいものを選ぶことである。 これは特に外部層に対して当てはまり、内部層のスケーリングとは対照的に、ニューラルネットワークの動作は外側層のスケーリングにおいてより敏感である。 数学的解析のメカニズムは、ニューラルネットワークの出力に対する漸近的な拡張である。 解析の重要な実用的成果は、学習率ハイパーパラメータを選択するための体系的かつ数学的にインフォームドされた方法を提供することである。 このような選択は、N_i$が無限に大きくなるにつれて、ニューラルネットワークが統計的に堅牢な振る舞いを保証します。

We study the effect of normalization on the layers of deep neural networks of feed-forward type. A given layer $i$ with $N_{i}$ hidden units is allowed to be normalized by $1/N_{i}^{\gamma_{i}}$ with $\gamma_{i}\in[1/2,1]$ and we study the effect of the choice of the $\gamma_{i}$ on the statistical behavior of the neural network's output (such as variance) as well as on the test accuracy on the MNIST data set. We find that in terms of variance of the neural network's output and test accuracy the best choice is to choose the $\gamma_{i}$'s to be equal to one, which is the mean-field scaling. We also find that this is particularly true for the outer layer, in that the neural network's behavior is more sensitive in the scaling of the outer layer as opposed to the scaling of the inner layers. The mechanism for the mathematical analysis is an asymptotic expansion for the neural network's output. An important practical consequence of the analysis is that it provides a systematic and mathematically informed way to choose the learning rate hyperparameters. Such a choice guarantees that the neural network behaves in a statistically robust way as the $N_i$ grow to infinity.
翻訳日:2022-09-05 12:23:15 公開日:2022-09-02
# 離散性、マッチング、近似のためのアルゴリズム:高速、シンプル、実用的

Algorithms for Discrepancy, Matchings, and Approximations: Fast, Simple, and Practical ( http://arxiv.org/abs/2209.01147v1 )

ライセンス: Link先を確認
M\'onika Csik\'os and Nabil H. Mustafa(参考訳) データ近似と最適化における重要なツールの1つについて研究した。 形式的には、有限集合系 $(x,\mathcal s)$ が与えられると、2色付き$\chi:x\to\{-1,1\}$ の \emph{discrepancy} は $\max_{s \in \mathcal s}|{\chi(s)}|$ と定義され、ここで $\chi(s)=\sum\limits_{x \in s}\chi(x)$ となる。 任意の$d>0$と$(X,\mathcal S)$に対して、2重シャッター関数を持つ$\pi^*(k)=O(k^d)$に対して、期待された離散性を持つ色付けを$O\left({\sqrt{|X|^{1-1/d}\log|\mathcal S|}}\right)$(この境界はきつい)$$\tilde O\left({|\mathcal S|\cdot|X|^{1/d}+|X|^{2+1/d}}\right)$$O\left(|\mathcal S|\cdot|X|3\right)$で返します。 このセットアップには、多くの幾何学クラス、有界双対VC次元の族などが含まれる。 即ち、我々は$\varepsilon$-approximations of sub-quadratic sizeを構築するための改良されたアルゴリズムを得る。 提案手法では,ランダムに更新された重みの解析を改良し,低交叉数との整合性(計算幾何学の基本構造)を生かして,集合系の構造特性を利用する。 特に、交差数 $o\left({|x|^{1-1/d}}\right)$ とのマッチングの構成時間において、同じ $|x|^{2-1/d}$ factor speed-up が得られる。 提案したアルゴリズムは非常に単純で、初めて2ドル以上の次元の抽象的および幾何学的集合系に対して、ほぼ最適の相違と近似に近い大きさの彩色を計算することができる。

We study one of the key tools in data approximation and optimization: low-discrepancy colorings. Formally, given a finite set system $(X,\mathcal S)$, the \emph{discrepancy} of a two-coloring $\chi:X\to\{-1,1\}$ is defined as $\max_{S \in \mathcal S}|{\chi(S)}|$, where $\chi(S)=\sum\limits_{x \in S}\chi(x)$. We propose a randomized algorithm which, for any $d>0$ and $(X,\mathcal S)$ with dual shatter function $\pi^*(k)=O(k^d)$, returns a coloring with expected discrepancy $O\left({\sqrt{|X|^{1-1/d}\log|\mathcal S|}}\right)$ (this bound is tight) in time $\tilde O\left({|\mathcal S|\cdot|X|^{1/d}+|X|^{2+1/d}}\right)$, improving upon the previous-best time of $O\left(|\mathcal S|\cdot|X|^3\right)$ by at least a factor of $|X|^{2-1/d}$ when $|\mathcal S|\geq|X|$. This setup includes many geometric classes, families of bounded dual VC-dimension, and others. As an immediate consequence, we obtain an improved algorithm to construct $\varepsilon$-approximations of sub-quadratic size. Our method uses primal-dual reweighing with an improved analysis of randomly updated weights and exploits the structural properties of the set system via matchings with low crossing number -- a fundamental structure in computational geometry. In particular, we get the same $|X|^{2-1/d}$ factor speed-up on the construction time of matchings with crossing number $O\left({|X|^{1-1/d}}\right)$, which is the first improvement since the 1980s. The proposed algorithms are very simple, which makes it possible, for the first time, to compute colorings with near-optimal discrepancies and near-optimal sized approximations for abstract and geometric set systems in dimensions higher than $2$.
翻訳日:2022-09-05 12:22:52 公開日:2022-09-02
# BinImg2Vec: Data2Vecによるマルウェアバイナリイメージの分類を強化

BinImg2Vec: Augmenting Malware Binary Image Classification with Data2Vec ( http://arxiv.org/abs/2209.00782v1 )

ライセンス: Link先を確認
Joon Sern Lee, Kai Keng Tay, Zong Fu Chua(参考訳) 新型コロナウイルスのパンデミックによって急激なデジタル化が加速し、サイバー犯罪が増えている。 マルウェア・アズ・ア・サービスは現在、サイバー犯罪者のブームとなっている。 マルウェアの活動が急増する中で、サイバーディフェンダーが手元にあるマルウェアのサンプルについてもっと理解することが不可欠である。 最近、研究者はマルウェアの分類が、まずマルウェアのバイナリをグレースケールの画像に変換し、次にそれらをニューラルネットワークに渡して分類する方法を示した。 しかし、ほとんどの作業は、異なるニューラルネットワークアーキテクチャが分類性能に与える影響を研究することに焦点を当てている。 昨年、教師付き学習を自己教師付き学習で強化することで、パフォーマンスが向上することが示された。 さらに最近では、ニューラルネットワークをトレーニングするためのモダリティ非依存な自己教師付きフレームワークとして、data2vecが提案された。 本稿では、自己教師付き学習と教師付き学習の両方を取り入れたマルウェアバイナリイメージ分類器を訓練するフレームワークであるBinImg2Vecについて、教師付き学習によってのみ訓練されたモデルより一貫して優れるモデルを作成する。 分類性能が4%向上し、複数の実行に対するパフォーマンスのばらつきが0.5%低減できた。 また、当社のフレームワークがうまくクラスタ化できる組込みをどのように生成し、モデルの可読性を促進するかを示します。

Rapid digitalisation spurred by the Covid-19 pandemic has resulted in more cyber crime. Malware-as-a-service is now a booming business for cyber criminals. With the surge in malware activities, it is vital for cyber defenders to understand more about the malware samples they have at hand as such information can greatly influence their next course of actions during a breach. Recently, researchers have shown how malware family classification can be done by first converting malware binaries into grayscale images and then passing them through neural networks for classification. However, most work focus on studying the impact of different neural network architectures on classification performance. In the last year, researchers have shown that augmenting supervised learning with self-supervised learning can improve performance. Even more recently, Data2Vec was proposed as a modality agnostic self-supervised framework to train neural networks. In this paper, we present BinImg2Vec, a framework of training malware binary image classifiers that incorporates both self-supervised learning and supervised learning to produce a model that consistently outperforms one trained only via supervised learning. We were able to achieve a 4% improvement in classification performance and a 0.5% reduction in performance variance over multiple runs. We also show how our framework produces embeddings that can be well clustered, facilitating model explanability.
翻訳日:2022-09-05 12:21:40 公開日:2022-09-02
# ディープニューラルネットワークを用いた心エコー画像品質評価

Echocardiographic Image Quality Assessment Using Deep Neural Networks ( http://arxiv.org/abs/2209.00959v1 )

ライセンス: Link先を確認
Robert B. Labs, Massoud Zolgharni, Jonathan P. Loo(参考訳) 心エコー像の画質評価は経胸腔的検査ではささいな問題ではない。 心臓の診断において心構造をin vivoで調べたところ,左心機能の正確な診断はエコー画像の品質に大きく依存していることが確認された。 これまで、エコー画像の視覚的評価は非常に主観的であり、臨床病理学的には特定の定義が必要である。 品質の悪い画像は定量化と診断を損なうが、心エコー画像品質基準の固有の変化は、異なる観察者の間で直面する複雑さを示し、特に経験の浅い心臓科医の非一貫性評価の明確な証拠を提供する。 本研究の目的は、専門家が主に論じる特定の品質特性を分析し、定義することであり、そのような品質特性を客観的に評価するための完全に訓練された畳み込みニューラルネットワークモデルを提案することである。

Echocardiography image quality assessment is not a trivial issue in transthoracic examination. As the in vivo examination of heart structures gained prominence in cardiac diagnosis, it has been affirmed that accurate diagnosis of the left ventricle functions is hugely dependent on the quality of echo images. Up till now, visual assessment of echo images is highly subjective and requires specific definition under clinical pathologies. While poor-quality images impair quantifications and diagnosis, the inherent variations in echocardiographic image quality standards indicates the complexity faced among different observers and provides apparent evidence for incoherent assessment under clinical trials, especially with less experienced cardiologists. In this research, our aim was to analyse and define specific quality attributes mostly discussed by experts and present a fully trained convolutional neural network model for assessing such quality features objectively.
翻訳日:2022-09-05 12:21:17 公開日:2022-09-02
# エンド・ツー・エンド画像圧縮におけるエントロピーボトルネックのアモルティゼーションギャップ低減

Reducing The Amortization Gap of Entropy Bottleneck In End-to-End Image Compression ( http://arxiv.org/abs/2209.00964v1 )

ライセンス: Link先を確認
Muhammet Balcilar, Bharath Damodaran, Pierre Hellier(参考訳) エンドツーエンドのディープラーニングモデルでは、ビデオや画像の従来の手作り圧縮技術のパフォーマンスを上回ろうとしている。 中心となる考え方は、ディープニューラルネットワークとしてモデル化された非線形変換を学習し、入力画像を潜時空間にマッピングし、潜時分布のエントロピーモデルと組み合わせることである。 デコーダは深い訓練可能なネットワークとしても学習され、再構成された画像は歪みを測定する。 これらの方法は、潜伏者がいくつかの先行分布に従うことを強制する。 これらの事前はトレーニングセット全体の最適化によって学習されるため、平均的なパフォーマンスは最適である。 しかし、新しいインスタンスごとに正確には適合しないため、ビットストリームを拡大することで圧縮性能を損なうことになる。 本稿では,この償却ギャップを小さく抑えるための,シンプルだが効率的なインスタンスベースのパラメータ化手法を提案する。 提案手法はいずれのエンドツーエンド圧縮にも適用可能であり, 圧縮ビットレートを1%向上する。

End-to-end deep trainable models are about to exceed the performance of the traditional handcrafted compression techniques on videos and images. The core idea is to learn a non-linear transformation, modeled as a deep neural network, mapping input image into latent space, jointly with an entropy model of the latent distribution. The decoder is also learned as a deep trainable network, and the reconstructed image measures the distortion. These methods enforce the latent to follow some prior distributions. Since these priors are learned by optimization over the entire training set, the performance is optimal in average. However, it cannot fit exactly on every single new instance, hence damaging the compression performance by enlarging the bit-stream. In this paper, we propose a simple yet efficient instance-based parameterization method to reduce this amortization gap at a minor cost. The proposed method is applicable to any end-to-end compressing methods, improving the compression bitrate by 1% without any impact on the reconstruction quality.
翻訳日:2022-09-05 12:21:02 公開日:2022-09-02
# 緑内障のマルチモーダル情報融合とDR分類

Multimodal Information Fusion for Glaucoma and DR Classification ( http://arxiv.org/abs/2209.00979v1 )

ライセンス: Link先を確認
Yihao Li, Mostafa El Habib Daho, Pierre-Henri Conze, Hassan Al Hajj, Sophie Bonnin, Hugang Ren, Niranchana Manivannan, Stephanie Magazzeni, Ramin Tadayoni, B\'eatrice Cochener, Mathieu Lamard, Gwenol\'e Quellec(参考訳) マルチモーダル情報はしばしば医療業務で利用できる。 複数の情報源からの情報を組み合わせることで、臨床医はより正確な判断をすることができる。 近年,2次元眼底写真,3D光コヒーレンス断層撮影(OCT),3D OCTアンギオグラフィなど,網膜分析のための複数の画像技術が臨床応用されている。 本稿では,早期融合,中間融合,階層融合という網膜解析課題を解決するために,ディープラーニングに基づく3つのマルチモーダル情報融合戦略を検討する。 一般的に用いられるアーリー融合と中間融合は単純であるが、モダリティ間の相補的な情報を完全に活用していない。 我々は,ネットワークの多次元的特徴とモダリティ間の相関性を検討することに焦点を当てた階層的融合手法を開発した。 これらのアプローチを緑内障および糖尿病網膜症分類に応用し,公共GAMMAデータセットとPlexElite 9000 (Carl Zeis Meditec Inc.) OCTアンギオグラフィーの個人データセットを用いて検討した。 両症例とも階層的融合法が良好に機能し, 良好な臨床診断への道を開いた。

Multimodal information is frequently available in medical tasks. By combining information from multiple sources, clinicians are able to make more accurate judgments. In recent years, multiple imaging techniques have been used in clinical practice for retinal analysis: 2D fundus photographs, 3D optical coherence tomography (OCT) and 3D OCT angiography, etc. Our paper investigates three multimodal information fusion strategies based on deep learning to solve retinal analysis tasks: early fusion, intermediate fusion, and hierarchical fusion. The commonly used early and intermediate fusions are simple but do not fully exploit the complementary information between modalities. We developed a hierarchical fusion approach that focuses on combining features across multiple dimensions of the network, as well as exploring the correlation between modalities. These approaches were applied to glaucoma and diabetic retinopathy classification, using the public GAMMA dataset (fundus photographs and OCT) and a private dataset of PlexElite 9000 (Carl Zeis Meditec Inc.) OCT angiography acquisitions, respectively. Our hierarchical fusion method performed the best in both cases and paved the way for better clinical diagnosis.
翻訳日:2022-09-05 12:20:45 公開日:2022-09-02
# ランダムテキストの摂動は機能するが、常に機能しない

Random Text Perturbations Work, but not Always ( http://arxiv.org/abs/2209.00797v1 )

ライセンス: Link先を確認
Zhengxiang Wang(参考訳) 本研究では,中国語と英語の2進テキストマッチング分類タスクにおける3つの大規模実験を行い,nlpのデータ拡張手法としてランダムテキスト摂動の有効性と一般化性を評価する。 モデルが十分なオリジナルトレーニングの例でトレーニングするかどうかによって,3つのニューラル分類モデルのテストセット性能に負と正の両方の効果をもたらすことが判明した。 テキストの増補に使われる5つのランダムテキスト編集操作が併用されるか別々に適用されるかに関わらず、これは事実である。 本研究は,ランダムテキスト摂動の有効性がタスク特有であり,一般には肯定的ではないことを示す。

We present three large-scale experiments on binary text matching classification task both in Chinese and English to evaluate the effectiveness and generalizability of random text perturbations as a data augmentation approach for NLP. It is found that the augmentation can bring both negative and positive effects to the test set performance of three neural classification models, depending on whether the models train on enough original training examples. This remains true no matter whether five random text editing operations, used to augment text, are applied together or separately. Our study demonstrates with strong implication that the effectiveness of random text perturbations is task specific and not generally positive.
翻訳日:2022-09-05 12:20:07 公開日:2022-09-02
# アスペクト感情三重項抽出のための構造バイアス

Structural Bias for Aspect Sentiment Triplet Extraction ( http://arxiv.org/abs/2209.00820v1 )

ライセンス: Link先を確認
Chen Zhang, Lei Ren, Fang Ma, Jingang Wang, Wei Wu, Dawei Song(参考訳) 最近、構造バイアスがアスペクト感情三重項抽出(ASTE)に利用され、性能が向上した。 一方、構造バイアスを明示的に組み込むことは効率に悪影響を及ぼすが、事前訓練された言語モデル(PLM)は暗黙的な構造を捉えることができる。 構造バイアスは依然としてplmのコンテキストにおいて必要か? そこで本研究では,plmの構造バイアスをアダプタを用いて統合し,構文依存構造に代えて,安価に計算可能な相対位置構造を用いることにより,効率問題に対処することを提案する。 SemEvalデータセット上でベンチマーク評価を行う。 その結果,提案する構造アダプタはPLMに有益であり,強力なベースラインにまたがる最先端性能を実現するが,軽量なパラメータ要求と低レイテンシで実現可能であることがわかった。 一方で、小規模のデータによる現在の評価基準が信頼できないという懸念も浮き彫りにしている。 その結果,ASTEの大規模データセットが得られた。 新しいデータセットの結果は、構造的アダプタは自信深く有効で、大規模に効率的であることを示唆している。 全体として、構造バイアスはplmでも依然として必要である、という結論を導きます。

Structural bias has recently been exploited for aspect sentiment triplet extraction (ASTE) and led to improved performance. On the other hand, it is recognized that explicitly incorporating structural bias would have a negative impact on efficiency, whereas pretrained language models (PLMs) can already capture implicit structures. Thus, a natural question arises: Is structural bias still a necessity in the context of PLMs? To answer the question, we propose to address the efficiency issues by using an adapter to integrate structural bias in the PLM and using a cheap-to-compute relative position structure in place of the syntactic dependency structure. Benchmarking evaluation is conducted on the SemEval datasets. The results show that our proposed structural adapter is beneficial to PLMs and achieves state-of-the-art performance over a range of strong baselines, yet with a light parameter demand and low latency. Meanwhile, we give rise to the concern that the current evaluation default with data of small scale is under-confident. Consequently, we release a large-scale dataset for ASTE. The results on the new dataset hint that the structural adapter is confidently effective and efficient to a large scale. Overall, we draw the conclusion that structural bias shall still be a necessity even with PLMs.
翻訳日:2022-09-05 12:19:55 公開日:2022-09-02
# FOLIO: 一階論理による自然言語推論

FOLIO: Natural Language Reasoning with First-Order Logic ( http://arxiv.org/abs/2209.00840v1 )

ライセンス: Link先を確認
Simeng Han, Hailey Schoelkopf, Yilun Zhao, Zhenting Qi, Martin Riddell, Luke Benson, Lucy Sun, Ekaterina Zubova, Yujie Qiao, Matthew Burtell, David Peng, Jonathan Fan, Yixin Liu, Brian Wong, Malcolm Sailor, Ansong Ni, Linyong Nan, Jungo Kasai, Tao Yu, Rui Zhang, Shafiq Joty, Alexander R. Fabbri, Wojciech Kryscinski, Xi Victoria Lin, Caiming Xiong, Dragomir Radev(参考訳) 我々は、自然言語(NL)における推論のための、人間による注釈付き、オープンドメインで、論理的に複雑で多様なデータセットであるFOLIOについて述べる。 FOLIOは1,435の例(一意の結論)で構成され、それぞれが487の前提のうちの1つと組み合わせられ、それぞれの結論の妥当性を故意に推論するために使用される規則として機能する。 前提と結論の論理的正当性は、並列FOLアノテーションによって保証され、FOL推論エンジンによって自動的に検証される。 主要なNL推論タスクに加えて、FOLIOのNL-FOLペアは、FOLを論理形式とする新しいNL-FOL翻訳データセットを自動生成する。 本研究では,中規模言語モデル (BERT, RoBERTa) と大規模言語モデル (GPT-NeoX, OPT, GPT-3, Codex) で微調整を指導するFOL推論能力を体系的に評価した。 NL-FOL翻訳では GPT-3 と Codex を用いて実験を行った。 以上の結果から,最も有能な大規模言語モデル(LLM)の1つである GPT-3 davinci は,FOLIO のサブセットに数発のプロンプトを施したランダムな結果よりもわずかに優れており,False と Unknown の結論に対する正しい真理値の予測には特に不適当であることが示唆された。 データセットとコードはhttps://github.com/Yale-LILY/FOLIO.comで公開されています。

We present FOLIO, a human-annotated, open-domain, and logically complex and diverse dataset for reasoning in natural language (NL), equipped with first order logic (FOL) annotations. FOLIO consists of 1,435 examples (unique conclusions), each paired with one of 487 sets of premises which serve as rules to be used to deductively reason for the validity of each conclusion. The logical correctness of premises and conclusions is ensured by their parallel FOL annotations, which are automatically verified by our FOL inference engine. In addition to the main NL reasoning task, NL-FOL pairs in FOLIO automatically constitute a new NL-FOL translation dataset using FOL as the logical form. Our experiments on FOLIO systematically evaluate the FOL reasoning ability of supervised fine-tuning on medium-sized language models (BERT, RoBERTa) and few-shot prompting on large language models (GPT-NeoX, OPT, GPT-3, Codex). For NL-FOL translation, we experiment with GPT-3 and Codex. Our results show that one of the most capable Large Language Model (LLM) publicly available, GPT-3 davinci, achieves only slightly better than random results with few-shot prompting on a subset of FOLIO, and the model is especially bad at predicting the correct truth values for False and Unknown conclusions. Our dataset and code are available at https://github.com/Yale-LILY/FOLIO.
翻訳日:2022-09-05 12:19:36 公開日:2022-09-02
# 自動ランダムグルーピングによる大規模最適化問題の遠隔選択による協調共進化型微分進化

Cooperative coevolutionary Modified Differential Evolution with Distance-based Selection for Large-Scale Optimization Problems through an automatic Random Grouping ( http://arxiv.org/abs/2209.00777v1 )

ライセンス: Link先を確認
Rui Zhong and Masaharu Munetomo(参考訳) 多くの最適化問題はノイズに悩まされており、非線形性チェックに基づく分解法(例えば微分グルーピング)は乗法的雑音環境における変数間の相互作用を完全に検出できないため、雑音環境における大規模最適化問題(LSOP)を分解することは困難である。 本稿では,ユーザが指定した明示的なハイパーパラメータを必要としない自動ランダムグループ(aRG)を提案する。 シミュレーション実験と数学的解析により、aRGはフィットネスランドスケープの知識を使わずに変数間の相互作用を検出でき、aRGによって分解されたサブプロブレムはより小さく、EAの最適化が容易であることが示された。 協調的共進化 (CC) の枠組みに基づき, ノイズの多い環境下での探索能力を高めるために, 距離を用いた改良微分進化 (MDE-DS) という高度な最適化手法を導入する。 パラメータ自己適応, 多様化と拡大のバランス, 距離ベース確率選択は, MDE-DSを探索と利用の能力に優れていた。 提案手法の性能を評価するため,CEC2013 LSGO Suite に基づく雑音環境下での様々な分離性を有する500ドルと1,000ドルを設計した。 数値実験により,ノイズの多い環境下でLSOPを解き,高次元問題に容易に拡張できる可能性が示唆された。

Many optimization problems suffer from noise, and nonlinearity check-based decomposition methods (e.g. Differential Grouping) will completely fail to detect the interactions between variables in multiplicative noisy environments, thus, it is difficult to decompose the large-scale optimization problems (LSOPs) in noisy environments. In this paper, we propose an automatic Random Grouping (aRG), which does not need any explicit hyperparameter specified by users. Simulation experiments and mathematical analysis show that aRG can detect the interactions between variables without the fitness landscape knowledge, and the sub-problems decomposed by aRG have smaller scales, which is easier for EAs to optimize. Based on the cooperative coevolution (CC) framework, we introduce an advanced optimizer named Modified Differential Evolution with Distance-based Selection (MDE-DS) to enhance the search ability in noisy environments. Compared with canonical DE, the parameter self-adaptation, the balance between diversification and intensification, and the distance-based probability selection endow MDE-DS with stronger ability in exploration and exploitation. To evaluate the performance of our proposal, we design $500$-D and $1000$-D problems with various separability in noisy environments based on the CEC2013 LSGO Suite. Numerical experiments show that our proposal has broad prospects to solve LSOPs in noisy environments and can be easily extended to higher-dimensional problems.
翻訳日:2022-09-05 12:16:27 公開日:2022-09-02
# シンボリック回帰のための遺伝的プログラミングにおける局所最適化

Local Optimization Often is Ill-conditioned in Genetic Programming for Symbolic Regression ( http://arxiv.org/abs/2209.00942v1 )

ライセンス: Link先を確認
Gabriel Kronberger(参考訳) 勾配に基づく局所最適化は、シンボル回帰のための遺伝的プログラミング(GP)の結果を改善することが示されている。 いくつかの最先端GP実装では、局所最適化にレバンス・マルカルトアルゴリズムのような反復非線形最小二乗アルゴリズムを用いる。 NLSアルゴリズムの有効性は最適化問題の適切なスケーリングと条件付けに依存する。 これはこれまでのところ、記号回帰やGP文学では無視されている。 本研究では, nlsヤコビ行列の特異値分解を用いて数値階数と条件数を決定する。 GP実装と6つの異なるベンチマークデータセットを用いて実験を行う。 以上の結果から,ランク不足および不条件ヤコビ行列は全データセットに対して頻繁に発生することが明らかとなった。 gp木のサイズを制限したり、関数集合で多くの非線形関数を使用する場合、この問題は極端ではない。

Gradient-based local optimization has been shown to improve results of genetic programming (GP) for symbolic regression. Several state-of-the-art GP implementations use iterative nonlinear least squares (NLS) algorithms such as the Levenberg-Marquardt algorithm for local optimization. The effectiveness of NLS algorithms depends on appropriate scaling and conditioning of the optimization problem. This has so far been ignored in symbolic regression and GP literature. In this study we use a singular value decomposition of NLS Jacobian matrices to determine the numeric rank and the condition number. We perform experiments with a GP implementation and six different benchmark datasets. Our results show that rank-deficient and ill-conditioned Jacobian matrices occur frequently and for all datasets. The issue is less extreme when restricting GP tree size and when using many non-linear functions in the function set.
翻訳日:2022-09-05 12:16:00 公開日:2022-09-02
# 学習による指標追跡による市場感性予測

Index Tracking via Learning to Predict Market Sensitivities ( http://arxiv.org/abs/2209.00780v1 )

ライセンス: Link先を確認
Yoonsik Hong, Yanghoon Kim, Jeonghun Kim, Yongmin Choi(参考訳) 現在、インデックスファンドによってかなりの数のエクイティファンドが好まれており、市場感性がそれらの管理に役立っている。 インデックスファンドは、同じインデックスを複製するかもしれないが、コスト非効率で非現実的だ。 さらに、市場感性を利用してインデックスを部分的に複製するには、予測または正確に見積もる必要がある。 そこで、まず、市場感性を予測するためにディープラーニングモデルを検討する。 また,予測対象データの生成と学習を支援するためのデータ処理手法の実用的応用を提案する。 そこで本研究では,ポートフォリオとインデックスの市場感度の予測値を制御する部分インデックス追跡最適化モデルを提案する。 これらのプロセスの有効性は、韓国株価指数200で裏付けられている。 実験では,過去の推定値と比較して予測誤差が有意に減少し,成分全体の半分以下でインデックスを再現する競合追尾誤差がみられた。 したがって,市場感性予測にディープラーニングを適用することは有望であり,ポートフォリオ構築手法が実際に有効であることを示す。 さらに、私たちの知る限りでは、深層学習に焦点をあてた市場感に対処する最初の研究である。

A significant number of equity funds are preferred by index funds nowadays, and market sensitivities are instrumental in managing them. Index funds might replicate the index identically, which is, however, cost-ineffective and impractical. Moreover, to utilize market sensitivities to replicate the index partially, they must be predicted or estimated accurately. Accordingly, first, we examine deep learning models to predict market sensitivities. Also, we present pragmatic applications of data processing methods to aid training and generate target data for the prediction. Then, we propose a partial-index-tracking optimization model controlling the net predicted market sensitivities of the portfolios and index to be the same. These processes' efficacy is corroborated by the Korea Stock Price Index 200. Our experiments show a significant reduction of the prediction errors compared with historical estimations, and competitive tracking errors of replicating the index using fewer than half of the entire constituents. Therefore, we show that applying deep learning to predict market sensitivities is promising and that our portfolio construction methods are practically effective. Additionally, to our knowledge, this is the first study that addresses market sensitivities focused on deep learning.
翻訳日:2022-09-05 12:15:28 公開日:2022-09-02
# SATformer:SATソルビング用トランスフォーマー

SATformer: Transformers for SAT Solving ( http://arxiv.org/abs/2209.00953v1 )

ライセンス: Link先を確認
Zhengyuan Shi, Min Li, Sadaf Khan, Hui-Ling Zhen, Mingxuan Yuan, Qiang Xu(参考訳) 本稿では,ブール充足性(SAT)解決のためのトランスフォーマーベースの新しいソリューションSATformerを提案する。 SATformerは、既存の学習ベースのSATソルバと異なり、不満足な問題インスタンスの最小不満足コア(MUC)を学習し、そのような問題の因果関係について豊富な情報を提供する。 具体的には、グラフニューラルネットワーク(GNN)を用いて、接続正規形式(CNF)における節の埋め込みを求める。 節間の関係を捉えるために、節の埋め込みに階層的トランスフォーマーアーキテクチャを適用し、UNSATコアを形成する節を一緒に参加させたときに自己注意重みを高くし、それ以外は低く設定する。 これによりSATformerはSAT予測のための節間の相関を効果的に学習する。 実験の結果,SATformerは既存のエンドツーエンド学習型SATソルバよりも強力であることがわかった。

In this paper, we propose SATformer, a novel Transformer-based solution for Boolean satisfiability (SAT) solving. Different from existing learning-based SAT solvers that learn at the problem instance level, SATformer learns the minimum unsatisfiable cores (MUC) of unsatisfiable problem instances, which provide rich information for the causality of such problems. Specifically, we apply a graph neural network (GNN) to obtain the embeddings of the clauses in the conjunctive normal format (CNF). A hierarchical Transformer architecture is applied on the clause embeddings to capture the relationships among clauses, and the self-attention weight is learned to be high when those clauses forming UNSAT cores are attended together, and set to be low otherwise. By doing so, SATformer effectively learns the correlations among clauses for SAT prediction. Experimental results show that SATformer is more powerful than existing end-to-end learning-based SAT solvers.
翻訳日:2022-09-05 12:15:11 公開日:2022-09-02
# Co-Imitation: 模倣によるデザインと行動の学習

Co-Imitation: Learning Design and Behaviour by Imitation ( http://arxiv.org/abs/2209.01207v1 )

ライセンス: Link先を確認
Chang Rajani, Karol Arndt, David Blanco-Mulero, Kevin Sebastian Luck, Ville Kyrki(参考訳) ロボットの共同適応は、動物の自然進化にインスパイアされた、特定のタスクのためにシステムの身体と行動の両方を適応させることを目標とする長年の研究努力であった。 協調適応は、コストのかかる手作業によるハードウェアエンジニアリングを排除し、システムの性能を向上させる可能性がある。 共適応の標準的なアプローチは、行動と形態を最適化するために報酬関数を使用することである。 しかし、そのような報酬関数の定義と構築は困難であり、しばしば重要なエンジニアリングの努力である。 本稿では,共適応問題に対する新たな視点について紹介する。コ・イミテーション(co-imitation)とは,模擬者が実証者の行動に密接に適合する形態や方針を見つけることである。 そこで本研究では,実証者の状態分布を一致させることにより,行動と形態を適応させるコミュニテーション手法を提案する。 具体的には、両方のエージェント間の状態空間とアクション空間のミスマッチによる、困難なシナリオに注目します。 その結果,コイミテーションは様々なタスクや設定において行動類似性を高め,人間の歩行,ジョギング,蹴りのスキルをシミュレートしたヒューマノイドに移動させることでコイミテーションを示す。

The co-adaptation of robots has been a long-standing research endeavour with the goal of adapting both body and behaviour of a system for a given task, inspired by the natural evolution of animals. Co-adaptation has the potential to eliminate costly manual hardware engineering as well as improve the performance of systems. The standard approach to co-adaptation is to use a reward function for optimizing behaviour and morphology. However, defining and constructing such reward functions is notoriously difficult and often a significant engineering effort. This paper introduces a new viewpoint on the co-adaptation problem, which we call co-imitation: finding a morphology and a policy that allow an imitator to closely match the behaviour of a demonstrator. To this end we propose a co-imitation methodology for adapting behaviour and morphology by matching state distributions of the demonstrator. Specifically, we focus on the challenging scenario with mismatched state- and action-spaces between both agents. We find that co-imitation increases behaviour similarity across a variety of tasks and settings, and demonstrate co-imitation by transferring human walking, jogging and kicking skills onto a simulated humanoid.
翻訳日:2022-09-05 12:14:55 公開日:2022-09-02
# 非iid量子フェデレート学習における量子チャネルの完全分解

Exact Decomposition of Quantum Channels for Non-IID Quantum Federated Learning ( http://arxiv.org/abs/2209.00768v1 )

ライセンス: Link先を確認
Haimeng Zhao(参考訳) フェデレーション・ラーニング(Federated Learning)とは、データセキュリティとプライバシを保護しながら、複数のクライアントからの分散データで機械学習を実行するタスクである。 このようなシナリオに量子アドバンテージを組み込む作業が実施されている。 しかし、クライアントのデータが独立で同一分散されていない場合(IID)、従来のフェデレーションアルゴリズムの性能は低下する。 本研究では,この現象を理論と数値解析の両方を用いて量子構造で探究する。 さらに、局所密度推定器の助けを借りて、グローバルな量子チャネルを各クライアントが訓練したチャネルに正確に分解できることを示す。 これは、ワンショット通信複雑性を持つ非IIDデータの量子フェデレーション学習のための一般的なフレームワークにつながります。 数値シミュレーションによる分類タスクでこれを実証する。

Federated learning refers to the task of performing machine learning with decentralized data from multiple clients while protecting data security and privacy. Works have been done to incorporate quantum advantage in such scenarios. However, when the clients' data are not independent and identically distributed (IID), the performance of conventional federated algorithms deteriorates. In this work, we explore this phenomenon in the quantum regime with both theoretical and numerical analysis. We further prove that a global quantum channel can be exactly decomposed into channels trained by each client with the help of local density estimators. It leads to a general framework for quantum federated learning on non-IID data with one-shot communication complexity. We demonstrate it on classification tasks with numerical simulations.
翻訳日:2022-09-05 12:14:31 公開日:2022-09-02
# 最適対角プレコンディショニング:理論と実践

Optimal Diagonal Preconditioning: Theory and Practice ( http://arxiv.org/abs/2209.00809v1 )

ライセンス: Link先を確認
Zhaonan Qu, Wenzhi Gao, Oliver Hinder, Yinyu Ye, Zhengyuan Zhou(参考訳) プレコンディショニングは最適化と機械学習において重要なテクニックである。 これはしばしば適用される行列の条件数を減らし、最適化アルゴリズムの収束を高速化する。 実際には多くのプリコンディショニング技術があるが、ほとんどが条件数の減少に関する理論的保証を欠いている。 本稿では,任意のフルランク行列の条件数に対して,行や列を個別に,あるいは同時にスケーリングすることで最大化を実現するために,最適対角前処理の問題を検討する。 まず,この問題を準凸問題として再検討し,各イテレーションがsdp実現可能性問題からなるような,実装が容易なベースライン二分割アルゴリズムを提供する。 次に、各イテレーションがネステロフ-トッド方向に基づくニュートン更新からなる、$o(\log(\frac{1}{\epsilon}))$イテレーション複雑性を持つ多項式時間ポテンシャル低減アルゴリズムを提案する。 我々のアルゴリズムは、フォン・ノイマン最適成長問題の一般化版である問題の定式化に基づいている。 次に, 片側最適対角前条件問題に特化し, 標準双対SDP問題として定式化できることを示し, 効率的なカスタマイズ解法を適用し, 最適対角前条件器の実証性能について検討する。 大規模行列に関する広範な実験は, ヒューリスティックス型プリコンディショナーと比較して, 最適対角型プリコンディショナーの条件数低減の実用性を示す。

Preconditioning has been a staple technique in optimization and machine learning. It often reduces the condition number of the matrix it is applied to, thereby speeding up convergence of optimization algorithms. Although there are many popular preconditioning techniques in practice, most lack theoretical guarantees for reductions in condition number. In this paper, we study the problem of optimal diagonal preconditioning to achieve maximal reduction in the condition number of any full-rank matrix by scaling its rows or columns separately or simultaneously. We first reformulate the problem as a quasi-convex problem and provide a baseline bisection algorithm that is easy to implement in practice, where each iteration consists of an SDP feasibility problem. Then we propose a polynomial time potential reduction algorithm with $O(\log(\frac{1}{\epsilon}))$ iteration complexity, where each iteration consists of a Newton update based on the Nesterov-Todd direction. Our algorithm is based on a formulation of the problem which is a generalized version of the Von Neumann optimal growth problem. Next, we specialize to one-sided optimal diagonal preconditioning problems, and demonstrate that they can be formulated as standard dual SDP problems, to which we apply efficient customized solvers and study the empirical performance of our optimal diagonal preconditioners. Our extensive experiments on large matrices demonstrate the practical appeal of optimal diagonal preconditioners at reducing condition numbers compared to heuristics-based preconditioners.
翻訳日:2022-09-05 12:14:20 公開日:2022-09-02
# 保険価格の差別と公平性に関する一考察

A Discussion of Discrimination and Fairness in Insurance Pricing ( http://arxiv.org/abs/2209.00858v1 )

ライセンス: Link先を確認
Mathias Lindholm, Ronald Richman, Andreas Tsanakas, Mario V. W\"uthrich(参考訳) 間接的差別はアルゴリズムモデルにおける主要な関心事である。 これは特に保険価格において、保護されたポリシー所有者の特徴が保険価格に使用できない場合である。 これは、保護されていないものから保護された特徴を推測することができるため、単に保護されたポリシー保持者情報を無視することは適切な解決策ではない。 これはプロキシや間接的な差別につながる。 プロキシ識別は機械学習におけるグループフェアネスの概念と質的に異なるが、これらのグループフェアネス概念は、保険価格の計算における保護された特性の影響を「スムース」するために提案されている。 本研究の目的は,グループフェアネスの概念を保険価格の観点から共有し,その意義を議論することである。 本稿では,保険価格の観点からは,代理的差別を含まない統計モデルを提案する。 しかし、この統計モデルの標準価格は、最も人気のある3つの群フェアネス公理のいずれかを満たすものではない。 当社の例と,非差別的保険価格に対するグループフェアネス公理の有用性に対するフィードバックを歓迎しています。

Indirect discrimination is an issue of major concern in algorithmic models. This is particularly the case in insurance pricing where protected policyholder characteristics are not allowed to be used for insurance pricing. Simply disregarding protected policyholder information is not an appropriate solution because this still allows for the possibility of inferring the protected characteristics from the non-protected ones. This leads to so-called proxy or indirect discrimination. Though proxy discrimination is qualitatively different from the group fairness concepts in machine learning, these group fairness concepts are proposed to 'smooth out' the impact of protected characteristics in the calculation of insurance prices. The purpose of this note is to share some thoughts about group fairness concepts in the light of insurance pricing and to discuss their implications. We present a statistical model that is free of proxy discrimination, thus, unproblematic from an insurance pricing point of view. However, we find that the canonical price in this statistical model does not satisfy any of the three most popular group fairness axioms. This seems puzzling and we welcome feedback on our example and on the usefulness of these group fairness axioms for non-discriminatory insurance pricing.
翻訳日:2022-09-05 12:13:57 公開日:2022-09-02
# 支払いデータと機械学習を用いたマクロ経済予測

Macroeconomic Predictions using Payments Data and Machine Learning ( http://arxiv.org/abs/2209.00948v1 )

ライセンス: Link先を確認
James T.E. Chapman and Ajit Desai(参考訳) 経済の短期的ダイナミクス(経済エージェントの意思決定プロセスへの重要なインプット)を予測するには、しばしばリニアモデルでラッジ指標を使用する。 これは通常では十分だが、危機期には不十分である。 本稿では,非伝統的かつタイムリーな小売や問屋支払いなどのデータに対して,非線形機械学習手法を用いて,政策立案者に対して,重要マクロ経済指標をほぼリアルタイムに高精度に推定する高度なモデルを提供することを目的とする。 さらに,機械学習モデルにおける過剰フィッティングと解釈可能性の課題を軽減し,ポリシー利用の有効性を向上させるための計量的ツールのセットを提供する。 支払いデータ、非線形手法、および調整済みのクロスバリデーションアプローチを用いたモデルによって、マクロ経済の現在のキャスティング精度が最大40%向上し、新型コロナウイルス(covid-19)期間に高まった。 経済予測に対する支払いデータの寄与は,低成長期および正常成長期において小さく直線的である。 しかし、支払いデータの寄与は、強い負または正の成長期間において大きく非対称で非線形である。

Predicting the economy's short-term dynamics -- a vital input to economic agents' decision-making process -- often uses lagged indicators in linear models. This is typically sufficient during normal times but could prove inadequate during crisis periods. This paper aims to demonstrate that non-traditional and timely data such as retail and wholesale payments, with the aid of nonlinear machine learning approaches, can provide policymakers with sophisticated models to accurately estimate key macroeconomic indicators in near real-time. Moreover, we provide a set of econometric tools to mitigate overfitting and interpretability challenges in machine learning models to improve their effectiveness for policy use. Our models with payments data, nonlinear methods, and tailored cross-validation approaches help improve macroeconomic nowcasting accuracy up to 40\% -- with higher gains during the COVID-19 period. We observe that the contribution of payments data for economic predictions is small and linear during low and normal growth periods. However, the payments data contribution is large, asymmetrical, and nonlinear during strong negative or positive growth periods.
翻訳日:2022-09-05 12:13:38 公開日:2022-09-02
# 弱凸量推定によるパフォーマンスリスクの最適化

Optimizing the Performative Risk under Weak Convexity Assumptions ( http://arxiv.org/abs/2209.00771v1 )

ライセンス: Link先を確認
Yulai Zhao(参考訳) 予測モデルは、古典的な教師付き学習において無視される現象である将来のデータを生成する分布に影響を与える。 このクローズドループ設定では、パフォーマンスの自然な尺度(パフォーマンスリスク)は、デプロイ後の予測モデルによって生じる期待損失をキャプチャする。 パフォーマンスリスクを最小化することの難しさは、データ分散自体がモデルパラメータに依存することだ。 この依存は環境によって制御され、学習者の管理下ではない。 その結果、凸損失関数の選択でさえも、非常に非凸効率なリスク最小化問題を引き起こす可能性がある。 これまでの研究では、損失に関する一般的な条件と、モデルパラメータから分布へのマッピングは、パフォーマンスリスクの凸性を意味する。 本稿では,これらの仮定を緩和し,反復最適化法における性能的リスク最小化問題の回避性を犠牲にすることなく,凸性の弱い概念の獲得に注力する。

In performative prediction, a predictive model impacts the distribution that generates future data, a phenomenon that is being ignored in classical supervised learning. In this closed-loop setting, the natural measure of performance, denoted the performative risk, captures the expected loss incurred by a predictive model after deployment. The core difficulty of minimizing the performative risk is that the data distribution itself depends on the model parameters. This dependence is governed by the environment and not under the control of the learner. As a consequence, even the choice of a convex loss function can result in a highly non-convex performative risk minimization problem. Prior work has identified a pair of general conditions on the loss and the mapping from model parameters to distributions that implies convexity of the performative risk. In this paper, we relax these assumptions and focus on obtaining weaker notions of convexity, without sacrificing the amenability of the performative risk minimization problem for iterative optimization methods.
翻訳日:2022-09-05 12:10:00 公開日:2022-09-02
# 浅reluネットワークの最適バンプ関数:重みの減衰、深さの分離、次元の呪い

Optimal bump functions for shallow ReLU networks: Weight decay, depth separation and the curse of dimensionality ( http://arxiv.org/abs/2209.01173v1 )

ライセンス: Link先を確認
Stephan Wojtowytsch(参考訳) 本稿では,単一隠れ層とreluアクティベーションを持つニューラルネットワークが,単位球の内部にラベルが知られていなければ,原点のターゲットラベル1と単位球の外側の0との半径対称分布から引き出されたデータを補間する方法について検討する。 重み減衰正規化と無限のニューロン、無限データ極限において、一意な放射対称最小化器が存在し、その重み減衰正規化器とリプシッツ定数はそれぞれ$d$と$\sqrt{d}$となる。 さらに、ラベルが原点ではなく半径$\varepsilon$の球に1ドルを課すと、重量減衰正規化器は指数関数的に$d$で成長することを示した。 対照的に、2つの隠れ層を持つニューラルネットワークは、次元の呪いに遭遇することなく、対象関数を近似することができる。

In this note, we study how neural networks with a single hidden layer and ReLU activation interpolate data drawn from a radially symmetric distribution with target labels 1 at the origin and 0 outside the unit ball, if no labels are known inside the unit ball. With weight decay regularization and in the infinite neuron, infinite data limit, we prove that a unique radially symmetric minimizer exists, whose weight decay regularizer and Lipschitz constant grow as $d$ and $\sqrt{d}$ respectively. We furthermore show that the weight decay regularizer grows exponentially in $d$ if the label $1$ is imposed on a ball of radius $\varepsilon$ rather than just at the origin. By comparison, a neural networks with two hidden layers can approximate the target function without encountering the curse of dimensionality.
翻訳日:2022-09-05 12:09:45 公開日:2022-09-02
# 図形モデリングによるインスタンス依存雑音ラベル学習

Instance-Dependent Noisy Label Learning via Graphical Modelling ( http://arxiv.org/abs/2209.00906v1 )

ライセンス: Link先を確認
Arpit Garg, Cuong Nguyen, Rafael Felix, Thanh-Toan Do, Gustavo Carneiro(参考訳) ノイズの多いラベルは、ディープラーニングのエコシステムでは避けられないが厄介だ。 ラベルノイズには、対称、非対称、インスタンス依存ノイズ(IDN)など多くの種類があり、IDNは画像情報に依存する唯一のタイプである。 このような画像情報への依存は、画像に存在する視覚クラスに関する不十分あるいはあいまいな情報によって、ラベルミスが大部分で引き起こされるため、idnを研究すべきラベルノイズの重要なタイプにする。 IDNに対処する効果的な手法を提供することを目的として,識別モデルと生成モデルを組み合わせた InstanceGM と呼ばれる新しいグラフィカルモデリング手法を提案する。 InstanceGMの主な貢献は次のとおりである。 一 生成モデルの訓練に連続的ベルヌーイ分布を用いることで、重要な訓練上の利点を享受すること。 二 インスタンス依存ノイズラベルサンプルからクリーンラベルを生成するための最先端のノイズ分類器の探索 インスタンスGMは、特に合成および実世界のデータセットを用いたIDNベンチマークにおいて、現在のノイズの多いラベル学習アプローチと競合する。

Noisy labels are unavoidable yet troublesome in the ecosystem of deep learning because models can easily overfit them. There are many types of label noise, such as symmetric, asymmetric and instance-dependent noise (IDN), with IDN being the only type that depends on image information. Such dependence on image information makes IDN a critical type of label noise to study, given that labelling mistakes are caused in large part by insufficient or ambiguous information about the visual classes present in images. Aiming to provide an effective technique to address IDN, we present a new graphical modelling approach called InstanceGM, that combines discriminative and generative models. The main contributions of InstanceGM are: i) the use of the continuous Bernoulli distribution to train the generative model, offering significant training advantages, and ii) the exploration of a state-of-the-art noisy-label discriminative classifier to generate clean labels from instance-dependent noisy-label samples. InstanceGM is competitive with current noisy-label learning approaches, particularly in IDN benchmarks using synthetic and real-world datasets, where our method shows better accuracy than the competitors in most experiments.
翻訳日:2022-09-05 12:09:17 公開日:2022-09-02
# Back-to-Bones: ドメインの一般化におけるバックボーンの役割の再発見

Back-to-Bones: Rediscovering the Role of Backbones in Domain Generalization ( http://arxiv.org/abs/2209.01121v1 )

ライセンス: Link先を確認
Simone Angarano, Mauro Martini, Francesco Salvetti, Vittorio Mazzia, Marcello Chiaberge(参考訳) ドメイン一般化(DG)は、学習外分布に一般化するディープラーニングモデルの能力を研究する。 過去10年間、文学はドメインシフトに取り組むためにより抽象的でロバストなデータ表現を得ると主張するトレーニング方法論のコレクションで溢れています。 近年の研究では、DGの再現可能なベンチマークが提供され、既存のアルゴリズムに対する経験的リスク最小化(ERM)の有効性が指摘されている。 それにもかかわらず、研究者は古い特徴抽出器の使用を継続し、異なるバックボーンの効果にはまだ注意が払われていない。 本稿では,本研究コミュニティがこれまで無視していた本質的一般化能力の包括的分析を提案するバックボーンに回帰する。 標準残差解からトランスフォーマーベースのアーキテクチャまで,多種多様な特徴抽出器を評価し,大規模単一ドメイン分類精度とdg能力との間に明らかな線形相関を見いだした。 広範な実験により,効率的なデータ拡張と競合するバックボーンの採用により,平易なermが最近のdgソリューションを上回り,最先端の精度を実現していることが示された。 さらに、追加の質的研究により、新しいバックボーンが同一クラスサンプルに類似した表現を与え、特徴空間内の異なるドメインを分離できることが判明した。 この一般化能力の向上は、DGアルゴリズムの限界余地を残し、問題を調査するための新しいパラダイムを提案し、バックボーンをスポットライトに配置し、その上に一貫したアルゴリズムの開発を促進する。

Domain Generalization (DG) studies the capability of a deep learning model to generalize to out-of-training distributions. In the last decade, literature has been massively filled with a collection of training methodologies that claim to obtain more abstract and robust data representations to tackle domain shifts. Recent research has provided a reproducible benchmark for DG, pointing out the effectiveness of naive empirical risk minimization (ERM) over existing algorithms. Nevertheless, researchers persist in using the same outdated feature extractors, and no attention has been given to the effects of different backbones yet. In this paper, we start back to backbones proposing a comprehensive analysis of their intrinsic generalization capabilities, so far ignored by the research community. We evaluate a wide variety of feature extractors, from standard residual solutions to transformer-based architectures, finding an evident linear correlation between large-scale single-domain classification accuracy and DG capability. Our extensive experimentation shows that by adopting competitive backbones in conjunction with effective data augmentation, plain ERM outperforms recent DG solutions and achieves state-of-the-art accuracy. Moreover, our additional qualitative studies reveal that novel backbones give more similar representations to same-class samples, separating different domains in the feature space. This boost in generalization capabilities leaves marginal room for DG algorithms and suggests a new paradigm for investigating the problem, placing backbones in the spotlight and encouraging the development of consistent algorithms on top of them.
翻訳日:2022-09-05 12:08:59 公開日:2022-09-02
# 丸めボクセルモデルによる編集可能なプリスマティックCADの再構成

Reconstructing editable prismatic CAD from rounded voxel models ( http://arxiv.org/abs/2209.01161v1 )

ライセンス: Link先を確認
Joseph G. Lambourne, Karl D.D. Willis, Pradeep Kumar Jayaraman, Longfei Zhang, Aditya Sanghi, Kamal Rahimi Malekshan(参考訳) 逆エンジニアリング 他の表現からのCAD形状は、多くの下流アプリケーションにとって重要な幾何学的処理ステップである。 本研究では,この課題を解決するニューラルネットワークアーキテクチャを導入し,スムーズな符号付き距離関数を編集可能,制約付き,プリズマティックCADモデルで近似する。 トレーニング中,本手法は形状を2次元プロファイル画像と1次元エンベロープ関数に分解することで,ボクセル空間の入力幾何を再構成する。 これらを微分可能な方法で再結合することで、幾何損失関数を定義することができる。 推定中、まず2次元制約付きスケッチのデータベースを検索して、プロファイル画像に近似する曲線を探し、それを押出し、ブール演算を用いて最終的なcadモデルを構築してcadデータを得る。 本手法は他の手法よりもターゲット形状を近似し,既存のCADソフトウェアと互換性のある高度に編集可能な制約付きパラメトリックスケッチを出力する。

Reverse Engineering a CAD shape from other representations is an important geometric processing step for many downstream applications. In this work, we introduce a novel neural network architecture to solve this challenging task and approximate a smoothed signed distance function with an editable, constrained, prismatic CAD model. During training, our method reconstructs the input geometry in the voxel space by decomposing the shape into a series of 2D profile images and 1D envelope functions. These can then be recombined in a differentiable way allowing a geometric loss function to be defined. During inference, we obtain the CAD data by first searching a database of 2D constrained sketches to find curves which approximate the profile images, then extrude them and use Boolean operations to build the final CAD model. Our method approximates the target shape more closely than other methods and outputs highly editable constrained parametric sketches which are compatible with existing CAD software.
翻訳日:2022-09-05 12:08:33 公開日:2022-09-02
# 最初の衝突拡散モデル

First Hitting Diffusion Models ( http://arxiv.org/abs/2209.01170v1 )

ライセンス: Link先を確認
Mao Ye, Lemeng Wu, Qiang Liu(参考訳) 本稿では,ランダムな第1打上げ時間で終了する拡散過程を持つデータを生成する深部生成モデルである,第1打上げ拡散モデル(fhdm)のファミリーを提案する。 これにより、所定の決定論的時間で終了する標準固定時間拡散モデルの拡張が得られる。 標準拡散モデルは連続的無拘束データのために設計されているが、fhdmは自然に、連続的および離散的および構造的領域の分布を学ぶように設計されている。 さらに、FHDMはインスタンス依存の終了時間を可能にし、拡散過程を加速し、より少ない拡散ステップで高品質なデータをサンプリングする。 技術的には、一般的に使用される時間反転機構から逸脱したDoobの$h$-transformに基づいて、FHDMを条件付き第1打法(ブリッジ)を用いて観測データから拡張した拡散軌跡の最大推定により訓練する。 fhdmを用いて、点雲(一般的な連続分布)、地球上の気候・地理事象(球面上の連続分布)、非重み付けグラフ(二元行列の分布)、および2次元画像のセグメンテーションマップ(高次元圏分布)などの様々な領域のデータを生成する。 品質と速度の両面で最先端のアプローチと比べてかなりの改善が見られた。

We propose a family of First Hitting Diffusion Models (FHDM), deep generative models that generate data with a diffusion process that terminates at a random first hitting time. This yields an extension of the standard fixed-time diffusion models that terminate at a pre-specified deterministic time. Although standard diffusion models are designed for continuous unconstrained data, FHDM is naturally designed to learn distributions on continuous as well as a range of discrete and structure domains. Moreover, FHDM enables instance-dependent terminate time and accelerates the diffusion process to sample higher quality data with fewer diffusion steps. Technically, we train FHDM by maximum likelihood estimation on diffusion trajectories augmented from observed data with conditional first hitting processes (i.e., bridge) derived based on Doob's $h$-transform, deviating from the commonly used time-reversal mechanism. We apply FHDM to generate data in various domains such as point cloud (general continuous distribution), climate and geographical events on earth (continuous distribution on the sphere), unweighted graphs (distribution of binary matrices), and segmentation maps of 2D images (high-dimensional categorical distribution). We observe considerable improvement compared with the state-of-the-art approaches in both quality and speed.
翻訳日:2022-09-05 12:08:18 公開日:2022-09-02
# 知識グラフ補完のための階層的関係学習

Hierarchical Relational Learning for Few-Shot Knowledge Graph Completion ( http://arxiv.org/abs/2209.01205v1 )

ライセンス: Link先を確認
Han Wu, Jianyuan Guo, Bala Rajaratnam, Jie Yin(参考訳) 知識グラフ(KG)は、その大規模かつ知識推論能力で知られているが、それらに関連する不完全性でも知られている。 KGsの長期分布のため、KGsの不完全性を緩和し、KGsの範囲を広げるための解決策として、数発のKG完全化が提案されている。 トレーニング用三つ子を数本だけ参照した場合に、新しい関係を含む三つ子を予測することを目的とする。 これまでは主に、エンティティレベルの情報を学ぶために近隣のアグリゲータを設計したり、メタ関係情報を学ぶために三重項レベルでシーケンシャルな依存性の仮定を課すことに重点を置いてきた。 しかしながら、価値あるペアワイズ三重項レベルの相互作用と文脈レベルの関係情報は、ほとんど見過ごされていない。 本稿では,数ショットKG補完のための階層型関係学習法(HiRe)を提案する。 3つのレベルの関係情報(中心レベル、三重レベル、文脈レベル)を共同で取得することで、HiReは、少数の関係のメタ表現を効果的に学習し、洗練し、その結果、新しい未知の関係に非常によく一般化することができる。 2つのベンチマークデータセットに対する大規模な実験は、HiReの他の最先端手法に対する優位性を検証する。

Knowledge graphs (KGs) are known for their large scale and knowledge inference ability, but are also notorious for the incompleteness associated with them. Due to the long-tail distribution of the relations in KGs, few-shot KG completion has been proposed as a solution to alleviate incompleteness and expand the coverage of KGs. It aims to make predictions for triplets involving novel relations when only a few training triplets are provided as reference. Previous methods have mostly focused on designing local neighbor aggregators to learn entity-level information and/or imposing sequential dependency assumption at the triplet level to learn meta relation information. However, valuable pairwise triplet-level interactions and context-level relational information have been largely overlooked for learning meta representations of few-shot relations. In this paper, we propose a hierarchical relational learning method (HiRe) for few-shot KG completion. By jointly capturing three levels of relational information (entity-level, triplet-level and context-level), HiRe can effectively learn and refine the meta representation of few-shot relations, and consequently generalize very well to new unseen relations. Extensive experiments on two benchmark datasets validate the superiority of HiRe against other state-of-the-art methods.
翻訳日:2022-09-05 12:07:56 公開日:2022-09-02
# 『More Than Words』:歌詞による音楽の選好と道徳的価値のリンク

"More Than Words": Linking Music Preferences and Moral Values Through Lyrics ( http://arxiv.org/abs/2209.01169v1 )

ライセンス: Link先を確認
Vjosa Preniqi, Kyriaki Kalimeri, Charalampos Saitis(参考訳) 本研究は,歌詞にテキスト分析手法を適用し,音楽選好とモラル価値の関係を検討したものである。 Facebookがホストするアプリケーションからのデータを元に、1,386人のユーザーの心理測定スコアを、Facebook Page Likesから登場した好みの音楽アーティストのトップ5の歌詞に合わせる。 我々は、各曲の概観的物語、道徳的価値、感情、感情に関連する一連の叙情的な特徴を抽出する。 機械学習フレームワークは、回帰アプローチを利用して、道徳的価値を推定するための叙述的特徴の予測力を評価するように設計された。 その結果、人気アーティストのトップソングからの歌詞がモラルに影響を与えていることが示唆された。 階層性と伝統の徳は共感と平等の値よりも高い予測スコア(.20 \leq r \leq .30$)を達成するが、基本的な人口統計学的変数はモデルの説明可能性のごく一部を占めるだけである。 これは、道徳的価値観の獲得において、歌詞的嗜好によって評価される音楽聴取行動の重要性を示している。 技術的・音楽学的意味と今後の改善の可能性について論じる。

This study explores the association between music preferences and moral values by applying text analysis techniques to lyrics. Harvesting data from a Facebook-hosted application, we align psychometric scores of 1,386 users to lyrics from the top 5 songs of their preferred music artists as emerged from Facebook Page Likes. We extract a set of lyrical features related to each song's overarching narrative, moral valence, sentiment, and emotion. A machine learning framework was designed to exploit regression approaches and evaluate the predictive power of lyrical features for inferring moral values. Results suggest that lyrics from top songs of artists people like inform their morality. Virtues of hierarchy and tradition achieve higher prediction scores ($.20 \leq r \leq .30$) than values of empathy and equality ($.08 \leq r \leq .11$), while basic demographic variables only account for a small part in the models' explainability. This shows the importance of music listening behaviours, as assessed via lyrical preferences, alone in capturing moral values. We discuss the technological and musicological implications and possible future improvements.
翻訳日:2022-09-05 12:07:34 公開日:2022-09-02
# InterACTION: 自然言語推論記述のための生成型XAIフレームワーク

INTERACTION: A Generative XAI Framework for Natural Language Inference Explanations ( http://arxiv.org/abs/2209.01061v1 )

ライセンス: Link先を確認
Jialin Yu, Alexandra I. Cristea, Anoushka Harit, Zhongtian Sun, Olanrewaju Tahir Aduragba, Lei Shi, Noura Al Moubayed(参考訳) 自然言語処理を備えたXAIは、説明可能性と透明性に対処するAI意思決定の証拠として、人間が読める説明を生成することを目的としている。 しかし、hciの観点からは、現在のアプローチは単一の説明を提供することにのみ焦点を合わせており、言語における人間の思考と経験の多様性を考慮できていない。 そこで本研究では,このギャップに対処するため,生成型XAIフレームワークであるInterinterACTION(explaIn aNd predicT thEn queRy with contextuAl CondiTional varIational autO-eNcoder)を提案する。 提案するフレームワークは,説明とラベル予測の2つのステップ,および(ステップ2)異種証拠生成の2つのステップで説明を行う。 ベンチマークデータセット e-SNLI 上でTransformer アーキテクチャによる集中的な実験を行う。 提案手法は,ステップ1における説明生成(BLEUでは最大4.7%,精度では最大4.4%)と予測(最大4.4%)に基づいて,最先端のベースラインモデルに対する競合的あるいはより良い性能を実現する。

XAI with natural language processing aims to produce human-readable explanations as evidence for AI decision-making, which addresses explainability and transparency. However, from an HCI perspective, the current approaches only focus on delivering a single explanation, which fails to account for the diversity of human thoughts and experiences in language. This paper thus addresses this gap, by proposing a generative XAI framework, INTERACTION (explaIn aNd predicT thEn queRy with contextuAl CondiTional varIational autO-eNcoder). Our novel framework presents explanation in two steps: (step one) Explanation and Label Prediction; and (step two) Diverse Evidence Generation. We conduct intensive experiments with the Transformer architecture on a benchmark dataset, e-SNLI. Our method achieves competitive or better performance against state-of-the-art baseline models on explanation generation (up to 4.7% gain in BLEU) and prediction (up to 4.4% gain in accuracy) in step one; it can also generate multiple diverse explanations in step two.
翻訳日:2022-09-05 12:04:55 公開日:2022-09-02
# 耐火物クラスタリングによる眼科画像のコントラスト埋め込み学習

Artifact-Tolerant Clustering-Guided Contrastive Embedding Learning for Ophthalmic Images ( http://arxiv.org/abs/2209.00773v1 )

ライセンス: Link先を確認
Min Shi, Anagha Lokhande, Mojtaba S. Fazli, Vishal Sharma, Yu Tian, Yan Luo, Louis R. Pasquale, Tobias Elze, Michael V. Boland, Nazlee Zebardast, David S. Friedman, Lucy Q. Shen, Mengyu Wang(参考訳) 網膜神経線維層(RNFL)の厚みマップのような眼科画像や誘導体は眼科疾患(例えば緑内障)の検出および監視に不可欠である。 眼疾患のコンピュータ診断のための重要な手法は、機能的視力喪失に結びついたバイオマーカー(例えばrnfl薄型化パターン)を明らかにする眼科画像から有意義な特徴を自動的に抽出することである。 しかし, 網膜損傷と人間の視力喪失を関連づけた眼科画像からの表現学習は, 主に患者間の解剖学的変化が大きいため, 容易ではない。 この課題は、画像取得と自動セグメンテーションの問題のために一般的である画像アーティファクトの存在においてさらに困難になる。 本稿では,眼科画像の表現を学習するためにeyelearnと呼ばれる人工的寛容な教師なし学習フレームワークを提案する。 EyeLearnには、アーティファクトのない眼科画像の最良の予測が可能な表現を学ぶためのアーティファクト修正モジュールがある。 さらに、EyeLearnはクラスタリング誘導型コントラスト学習戦略を採用し、画像内および画像間親和性を明示的にキャプチャする。 トレーニング中、画像はクラスタに動的に整理され、同じまたは異なるクラスタ内の画像がそれぞれ類似または異種表現を学習するよう奨励されるコントラスト的なサンプルを形成する。 EyeLearnを評価するために,緑内障患者の実眼画像データセットを用いて,視覚野の予測と緑内障検出に学習表現を用いた。 眼科画像から最適な特徴表現を学習するための眼内レンズの有効性を検証し,最新の手法との比較を行った。

Ophthalmic images and derivatives such as the retinal nerve fiber layer (RNFL) thickness map are crucial for detecting and monitoring ophthalmic diseases (e.g., glaucoma). For computer-aided diagnosis of eye diseases, the key technique is to automatically extract meaningful features from ophthalmic images that can reveal the biomarkers (e.g., RNFL thinning patterns) linked to functional vision loss. However, representation learning from ophthalmic images that links structural retinal damage with human vision loss is non-trivial mostly due to large anatomical variations between patients. The task becomes even more challenging in the presence of image artifacts, which are common due to issues with image acquisition and automated segmentation. In this paper, we propose an artifact-tolerant unsupervised learning framework termed EyeLearn for learning representations of ophthalmic images. EyeLearn has an artifact correction module to learn representations that can best predict artifact-free ophthalmic images. In addition, EyeLearn adopts a clustering-guided contrastive learning strategy to explicitly capture the intra- and inter-image affinities. During training, images are dynamically organized in clusters to form contrastive samples in which images in the same or different clusters are encouraged to learn similar or dissimilar representations, respectively. To evaluate EyeLearn, we use the learned representations for visual field prediction and glaucoma detection using a real-world ophthalmic image dataset of glaucoma patients. Extensive experiments and comparisons with state-of-the-art methods verified the effectiveness of EyeLearn for learning optimal feature representations from ophthalmic images.
翻訳日:2022-09-05 12:04:28 公開日:2022-09-02
# 単眼ビデオからの眼表面のマッピングとドライアイ病評価への応用

Mapping the ocular surface from monocular videos with an application to dry eye disease grading ( http://arxiv.org/abs/2209.00886v1 )

ライセンス: Link先を確認
Ikram Brahim, Mathieu Lamard, Anas-Alexis Benyoussef, Pierre-Henri Conze, B\'eatrice Cochener, Divi Cornec, Gwenol\'e Quellec(参考訳) 5~50%の有病率で、ドライアイ病(ded)は眼科医の診察の主要な理由の1つである。 DEDの診断と定量化は通常、スリットランプ検査による眼表面分析に依存している。 しかし、評価は主観的で再現不可能である。 診断を改善するために,我々は提案する 1)検査中に取得した映像記録を用いた3次元眼表面の追跡 2) 登録フレームを用いて重症度を格付けする。 我々の登録方法は教師なしの深層学習を用いる。 これらの手法は、光と影から深度を学習し、深度マップに基づいてポーズを推定する。 しかし、ded検査では、移動光源や透明な眼組織など、未解決の課題がある。 これらを克服し, ego運動を推定するために, セマンティクスセグメンテーションと球面フィッティングにより, 先行した情報,すなわち眼の形状を含む複数の損失を含む合同cnnアーキテクチャを実装した。 達成された追跡誤差は最先端を上回り、平均ユークリッド距離はテストセットにおける画像幅の0.48%である。 この登録は、DED重度分類を0.20AUC差で改善する。 提案手法は単眼映像からの監視によりded診断に取り組む最初の方法である

With a prevalence of 5 to 50%, Dry Eye Disease (DED) is one of the leading reasons for ophthalmologist consultations. The diagnosis and quantification of DED usually rely on ocular surface analysis through slit-lamp examinations. However, evaluations are subjective and non-reproducible. To improve the diagnosis, we propose to 1) track the ocular surface in 3-D using video recordings acquired during examinations, and 2) grade the severity using registered frames. Our registration method uses unsupervised image-to-depth learning. These methods learn depth from lights and shadows and estimate pose based on depth maps. However, DED examinations undergo unresolved challenges including a moving light source, transparent ocular tissues, etc. To overcome these and estimate the ego-motion, we implement joint CNN architectures with multiple losses incorporating prior known information, namely the shape of the eye, through semantic segmentation as well as sphere fitting. The achieved tracking errors outperform the state-of-the-art, with a mean Euclidean distance as low as 0.48% of the image width on our test set. This registration improves the DED severity classification by a 0.20 AUC difference. The proposed approach is the first to address DED diagnosis with supervision from monocular videos
翻訳日:2022-09-05 12:04:02 公開日:2022-09-02
# ARST:腹腔鏡画像からの位相認識のための自己回帰型外科用トランス

ARST: Auto-Regressive Surgical Transformer for Phase Recognition from Laparoscopic Videos ( http://arxiv.org/abs/2209.01148v1 )

ライセンス: Link先を確認
Xiaoyang Zou, Wenyong Liu, Junchen Wang, Rong Tao and Guoyan Zheng(参考訳) コンピュータ支援介入における手術ワークフロー解析には位相認識が不可欠である。 自然言語処理における逐次データモデリングのために提案されたTransformerは,外科的位相認識に成功している。 トランスフォーマーに基づく既存の作業は、自動回帰を導入することなく、主に注意依存のモデリングに焦点を当てている。 本研究では, 腹腔鏡画像からのオンライン手術位相認識のためにARSTと呼ばれる自動回帰手術変換器を提案し, 条件付き確率分布による位相相関を暗黙的にモデル化した。 推論バイアスを低減し、位相整合性を高めるため、自動回帰に基づく一貫性制約推論戦略をさらに発展させる。 よく知られている公開データセットであるCholec80上で、包括的な検証を行います。 実験の結果,本手法は定量的および定性的に最先端手法を上回っており,1秒あたり66フレーム(fps)の推論が可能であった。

Phase recognition plays an essential role for surgical workflow analysis in computer assisted intervention. Transformer, originally proposed for sequential data modeling in natural language processing, has been successfully applied to surgical phase recognition. Existing works based on transformer mainly focus on modeling attention dependency, without introducing auto-regression. In this work, an Auto-Regressive Surgical Transformer, referred as ARST, is first proposed for on-line surgical phase recognition from laparoscopic videos, modeling the inter-phase correlation implicitly by conditional probability distribution. To reduce inference bias and to enhance phase consistency, we further develop a consistency constraint inference strategy based on auto-regression. We conduct comprehensive validations on a well-known public dataset Cholec80. Experimental results show that our method outperforms the state-of-the-art methods both quantitatively and qualitatively, and achieves an inference rate of 66 frames per second (fps).
翻訳日:2022-09-05 12:03:44 公開日:2022-09-02
# 大規模グラフの学習における効率性と冗長性の再考

Rethinking Efficiency and Redundancy in Training Large-scale Graphs ( http://arxiv.org/abs/2209.00800v1 )

ライセンス: Link先を確認
Xin Liu, Xunbin Xiong, Mingyu Yan, Runzhen Xue, Shirui Pan, Xiaochun Ye, Dongrui Fan(参考訳) 大規模グラフは現実世界のシナリオではユビキタスであり、グラフニューラルネットワーク(GNN)によってトレーニングされ、下流タスクの表現を生成する。 大規模グラフの豊富な情報と複雑なトポロジーを考えると、冗長性はそのようなグラフに存在し、トレーニング効率を低下させる。 残念ながら、モデルのスケーラビリティは、バニラGNNによる大規模グラフのトレーニングの効率を著しく制限します。 近年のサンプリングベースのトレーニング手法の進歩にもかかわらず、サンプリングベースのGNNは一般的に冗長性の問題を見落としている。 これらのモデルを大規模グラフ上でトレーニングするには、依然として耐え難い時間がかかります。 そこで本研究では,gnnを用いた大規模グラフの学習における冗長性を低下させ,効率を向上させることを提案する。 本稿では,大規模グラフの冗長性を下げるためにdropreefと呼ばれる1回限りの手法を提案する。 具体的には,まず,大規模グラフにおける潜在的冗長性を調べる予備実験を行う。 次に、グラフ内のすべてのノードの近傍のヘテロフィリを定量化するメトリックを示す。 実験的および理論的解析の両方に基づいて、大規模グラフにおける冗長性、すなわち、高い隣り合うヘテロフィリーと多数の隣人を持つノードを明らかにする。 次に,DropReefを提案することで,大規模グラフの冗長性を検出およびドロップし,モデルの精度を犠牲にすることなくトレーニング時間を短縮する。 そこで,DropReef の有効性を実証するために,大規模グラフのトレーニングに最先端のサンプリングベース GNN に適用した。 DropReefを利用すると、モデルのトレーニング効率が大幅に向上する。 DropReefは互換性が高く、オフラインで実行されており、現在と将来において最先端のサンプリングベースのGNNの恩恵を受けている。

Large-scale graphs are ubiquitous in real-world scenarios and can be trained by Graph Neural Networks (GNNs) to generate representation for downstream tasks. Given the abundant information and complex topology of a large-scale graph, we argue that redundancy exists in such graphs and will degrade the training efficiency. Unfortunately, the model scalability severely restricts the efficiency of training large-scale graphs via vanilla GNNs. Despite recent advances in sampling-based training methods, sampling-based GNNs generally overlook the redundancy issue. It still takes intolerable time to train these models on large-scale graphs. Thereby, we propose to drop redundancy and improve efficiency of training large-scale graphs with GNNs, by rethinking the inherent characteristics in a graph. In this paper, we pioneer to propose a once-for-all method, termed DropReef, to drop the redundancy in large-scale graphs. Specifically, we first conduct preliminary experiments to explore potential redundancy in large-scale graphs. Next, we present a metric to quantify the neighbor heterophily of all nodes in a graph. Based on both experimental and theoretical analysis, we reveal the redundancy in a large-scale graph, i.e., nodes with high neighbor heterophily and a great number of neighbors. Then, we propose DropReef to detect and drop the redundancy in large-scale graphs once and for all, helping reduce the training time while ensuring no sacrifice in the model accuracy. To demonstrate the effectiveness of DropReef, we apply it to recent state-of-the-art sampling-based GNNs for training large-scale graphs, owing to the high precision of such models. With DropReef leveraged, the training efficiency of models can be greatly promoted. DropReef is highly compatible and is offline performed, benefiting the state-of-the-art sampling-based GNNs in the present and future to a significant extent.
翻訳日:2022-09-05 12:02:58 公開日:2022-09-02
# TarGF: オブジェクト再配置のための学習対象のグラディエントフィールド

TarGF: Learning Target Gradient Field for Object Rearrangement ( http://arxiv.org/abs/2209.00853v1 )

ライセンス: Link先を確認
Mingdong Wu, Fangwei Zhong, Yulong Xia, Hao Dong(参考訳) オブジェクトの再配置は、オブジェクトを初期状態からゴール状態に移行することである。 ここでは、オブジェクト配置のより実用的な設定、すなわち、シャッフルされたレイアウトから、明示的な目標仕様のない規範的目標分布へのオブジェクト配置に焦点を当てる。 しかし、AIエージェントにとっては、報酬工学の目標分布(目標仕様)を記述したり、専門家の軌跡をデモとして収集することは難しいため、依然として難しい。 したがって、タスクに対処するために強化学習や模倣学習アルゴリズムを直接採用することは不可能である。 本研究の目的は,手作り報酬関数の代わりに,対象分布からのサンプルのみを用いてポリシーを探索することである。 我々は、目標勾配場(TarGF)の学習にスコアマッチングの目的を用い、目標分布の可能性を高めるために各対象の方向を示す。 オブジェクトの再配置では、TarGFは2つの方法で使用することができる。 1) モデルに基づく計画では, 目標勾配を参照制御にキャストし, 分散経路プランナーを用いて出力動作を行うことができる。 2) モデルフリー強化学習では, targfは報酬としての可能性変化を推定するだけでなく, 残留政策学習における提案行動も提供する。 ボール配置と室内配置の実験結果から,本手法は終端状態の品質,制御プロセスの効率,拡張性において,最先端の手法を著しく上回ることを示した。 コードとデモビデオはプロジェクトのWebサイトにある。

Object Rearrangement is to move objects from an initial state to a goal state. Here, we focus on a more practical setting in object rearrangement, i.e., rearranging objects from shuffled layouts to a normative target distribution without explicit goal specification. However, it remains challenging for AI agents, as it is hard to describe the target distribution (goal specification) for reward engineering or collect expert trajectories as demonstrations. Hence, it is infeasible to directly employ reinforcement learning or imitation learning algorithms to address the task. This paper aims to search for a policy only with a set of examples from a target distribution instead of a handcrafted reward function. We employ the score-matching objective to train a Target Gradient Field (TarGF), indicating a direction on each object to increase the likelihood of the target distribution. For object rearrangement, the TarGF can be used in two ways: 1) For model-based planning, we can cast the target gradient into a reference control and output actions with a distributed path planner; 2) For model-free reinforcement learning, the TarGF is not only used for estimating the likelihood-change as a reward but also provides suggested actions in residual policy learning. Experimental results in ball rearrangement and room rearrangement demonstrate that our method significantly outperforms the state-of-the-art methods in the quality of the terminal state, the efficiency of the control process, and scalability. The code and demo videos are on our project website.
翻訳日:2022-09-05 12:02:32 公開日:2022-09-02
# グラフ分類のためのクラス認識表現洗練フレームワーク

A Class-Aware Representation Refinement Framework for Graph Classification ( http://arxiv.org/abs/2209.00936v1 )

ライセンス: Link先を確認
Jiaxing Xu, Jinjie Ni, Sophi Shilpa Gururajapathy, Yiping Ke(参考訳) グラフニューラルネットワーク(GNN)はグラフ表現学習に広く用いられている。 その頻度にもかかわらず、GNNはグラフ分類タスクの2つの欠点、グラフレベルの関係の無視、一般化問題に悩まされている。 各グラフはgnnメッセージのパッシング/グラフプーリングで別々に処理され、各グラフのオーバーフィッティングに対処する既存のメソッドが動作する。 これにより、下流分類においてグラフ表現の学習がより効果的になる。 本稿では,グラフ分類作業のためのクラス認識表現rEfinement(CARE)フレームワークを提案する。 CAREは単純だが強力なクラス表現を計算し、グラフ表現の学習をより良いクラス分離性へと導くためにそれらを注入する。 CAREは、非常に柔軟で、計算コストを大幅に増大させることなく任意のGNNバックボーンを組み込むことができるプラグアンドプレイフレームワークである。 また,CAREはVapnik-Chervonenkis (VC)次元解析により,GNNバックボーンよりも上界の一般化が優れていることを理論的に証明する。 9つのベンチマークデータセット上の10のよく知られたGNNバックボーンによる広範な実験は、GNNのベンチマークよりもCAREの優位性と有効性を検証する。

Graph Neural Networks (GNNs) are widely used for graph representation learning. Despite its prevalence, GNN suffers from two drawbacks in the graph classification task, the neglect of graph-level relationships, and the generalization issue. Each graph is treated separately in GNN message passing/graph pooling, and existing methods to address overfitting operate on each individual graph. This makes the graph representations learnt less effective in the downstream classification. In this paper, we propose a Class-Aware Representation rEfinement (CARE) framework for the task of graph classification. CARE computes simple yet powerful class representations and injects them to steer the learning of graph representations towards better class separability. CARE is a plug-and-play framework that is highly flexible and able to incorporate arbitrary GNN backbones without significantly increasing the computational cost. We also theoretically prove that CARE has a better generalization upper bound than its GNN backbone through Vapnik-Chervonenkis (VC) dimension analysis. Our extensive experiments with 10 well-known GNN backbones on 9 benchmark datasets validate the superiority and effectiveness of CARE over its GNN counterparts.
翻訳日:2022-09-05 12:02:07 公開日:2022-09-02
# 表現学習のための線形潜在状態空間のマルチステップ予測

Multi-Step Prediction in Linearized Latent State Spaces for Representation Learning ( http://arxiv.org/abs/2209.01127v1 )

ライセンス: Link先を確認
A. Tytarenko(参考訳) 本稿では,E2C などの LCE に対する一般化として,新しい手法を導出する。 本手法は,多段階予測を付加することで局所線形状態空間を学習し,曲率をより明示的に制御する手法である。 提案手法はPCCやP3Cといった他の研究にともなう劇的なモデル変化を伴わずにE2Cより優れていることを示す。 本稿では,E2Cと提案手法の関係と得られた更新方程式について述べる。 我々は,マルチステップ予測を考えることで,曲率と次の状態予測可能性の観点から,より優れた潜在状態空間を学習できることを示唆する実証的証拠を提供する。 最後に,マルチステップ予測に遭遇する安定性の課題と対策について考察する。

In this paper, we derive a novel method as a generalization over LCEs such as E2C. The method develops the idea of learning a locally linear state space, by adding a multi-step prediction, thus allowing for more explicit control over the curvature. We show, that the method outperforms E2C without drastic model changes which come with other works, such as PCC and P3C. We discuss the relation between E2C and the presented method and derived update equations. We provide empirical evidence, which suggests that by considering the multi-step prediction our method - ms-E2C - allows to learn much better latent state spaces in terms of curvature and next state predictability. Finally, we also discuss certain stability challenges we encounter with multi-step predictions and the ways to mitigate them.
翻訳日:2022-09-05 12:01:50 公開日:2022-09-02
# オンラインレコメンデーションシステムにおける時間シフトデータ分布適応のための将来の勾配降下

Future Gradient Descent for Adapting the Temporal Shifting Data Distribution in Online Recommendation Systems ( http://arxiv.org/abs/2209.01143v1 )

ライセンス: Link先を確認
Mao Ye, Ruichen Jiang, Haoxiang Wang, Dhruv Choudhary, Xiaocong Du, Bhargav Bhushanam, Aryan Mokhtari, Arun Kejariwal, Qiang Liu(参考訳) オンラインレコメンデーションモデルを学ぶ際の重要な課題の1つは、トレーニングとテストデータの分散とドメインの一般化エラーのミスマッチを引き起こす時間的領域シフトである。 そこで本研究では,将来のデータ分布の勾配情報を予測するメタ未来勾配生成器を学習し,レコメンデーションモデルがデプロイメントの将来を見据えられるようにトレーニングすることを提案する。 提案手法は,広く用いられているパラダイムであるバッチ更新と比較して,局所的後悔における勾配変動項で測定した時間領域一般化誤差が小さいことを示唆する。 様々な代表的ベースラインと比較することにより,経験的優位性を示す。

One of the key challenges of learning an online recommendation model is the temporal domain shift, which causes the mismatch between the training and testing data distribution and hence domain generalization error. To overcome, we propose to learn a meta future gradient generator that forecasts the gradient information of the future data distribution for training so that the recommendation model can be trained as if we were able to look ahead at the future of its deployment. Compared with Batch Update, a widely used paradigm, our theory suggests that the proposed algorithm achieves smaller temporal domain generalization error measured by a gradient variation term in a local regret. We demonstrate the empirical advantage by comparing with various representative baselines.
翻訳日:2022-09-05 12:01:37 公開日:2022-09-02
# スクラッチからのドメイン適応

Domain Adaptation from Scratch ( http://arxiv.org/abs/2209.00830v1 )

ライセンス: Link先を確認
Eyal Ben-David, Yftah Ziser, Roi Reichart(参考訳) 自然言語処理(nlp)アルゴリズムは急速に改善されているが、分散の例に適用するとしばしば苦労する。 ドメインギャップを軽減するための顕著なアプローチはドメイン適応であり、ソースドメインでトレーニングされたモデルを新しいターゲットドメインに適応させる。 我々は,NLPの機密ドメインへのリーチをプライバシ保護の方法で拡張する上で重要な,新たな学習セットである‘ドメインアダプティブ・オブ・スクラッチ’を提示する。 この設定では、トレーニングされたモデルがアノテーションとして使用できないセンシティブなターゲットドメイン上でうまく機能するように、ソースドメインの集合からのデータを効率的にアノテートすることを目的としている。 本研究は、データ選択やドメイン適応アルゴリズムからアクティブな学習パラダイムに至るまで、感情分析と名前付きエンティティ認識という2つのNLPタスクにおいて、この課題に対応するいくつかのアプローチを比較した。 この結果から,上述のアプローチを用いることでドメイン間ギャップが緩和され,それらを組み合わせることで結果がさらに向上することが示唆された。

Natural language processing (NLP) algorithms are rapidly improving but often struggle when applied to out-of-distribution examples. A prominent approach to mitigate the domain gap is domain adaptation, where a model trained on a source domain is adapted to a new target domain. We present a new learning setup, ``domain adaptation from scratch'', which we believe to be crucial for extending the reach of NLP to sensitive domains in a privacy-preserving manner. In this setup, we aim to efficiently annotate data from a set of source domains such that the trained model performs well on a sensitive target domain from which data is unavailable for annotation. Our study compares several approaches for this challenging setup, ranging from data selection and domain adaptation algorithms to active learning paradigms, on two NLP tasks: sentiment analysis and Named Entity Recognition. Our results suggest that using the abovementioned approaches eases the domain gap, and combining them further improves the results.
翻訳日:2022-09-05 11:58:39 公開日:2022-09-02
# エンティティアライメントのためのマルチモーダルコントラスト表現学習

Multi-modal Contrastive Representation Learning for Entity Alignment ( http://arxiv.org/abs/2209.00891v1 )

ライセンス: Link先を確認
Zhenxi Lin, Ziheng Zhang, Meng Wang, Yinghui Shi, Xian Wu, Yefeng Zheng(参考訳) マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフの間の等価なエンティティを識別することを目的としている。 これまでのほとんどの研究は、異なるモダリティからの情報の活用とエンコードに重点を置いていたが、モダリティの不均一性のため、エンティティアライメントにおけるマルチモーダル知識の活用は容易ではない。 本稿では,マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるmcleaを提案し,マルチモーダルエンティティアライメントのための効果的なジョイント表現を得る。 以前の研究と異なり、MCLEAはタスク指向のモダリティを考慮し、各エンティティ表現のモーダル間関係をモデル化する。 特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。 大規模な実験結果から、MCLEAは、教師なしと教師なしの両方の設定下で、公開データセットの最先端のベースラインを上回っている。

Multi-modal entity alignment aims to identify equivalent entities between two different multi-modal knowledge graphs, which consist of structural triples and images associated with entities. Most previous works focus on how to utilize and encode information from different modalities, while it is not trivial to leverage multi-modal knowledge in entity alignment because of the modality heterogeneity. In this paper, we propose MCLEA, a Multi-modal Contrastive Learning based Entity Alignment model, to obtain effective joint representations for multi-modal entity alignment. Different from previous works, MCLEA considers task-oriented modality and models the inter-modal relationships for each entity representation. In particular, MCLEA firstly learns multiple individual representations from multiple modalities, and then performs contrastive learning to jointly model intra-modal and inter-modal interactions. Extensive experimental results show that MCLEA outperforms state-of-the-art baselines on public datasets under both supervised and unsupervised settings.
翻訳日:2022-09-05 11:58:21 公開日:2022-09-02
# ギャップに気をつけろ! 抽象対話要約のための常識知識の注入

Mind the Gap! Injecting Commonsense Knowledge for Abstractive Dialogue Summarization ( http://arxiv.org/abs/2209.00930v1 )

ライセンス: Link先を確認
Seungone Kim, Se June Joo, Hyungjoo Chae, Chaehyeong Kim, Seung-won Hwang, Jinyoung Yeo(参考訳) 本稿では,参加者間で常識知識を共有する対話の特徴を活用し,要約の難しさを解決することを提案する。 SICKは、Commonsense推論を追加のコンテキストとして使用するフレームワークである。 入力対話のみに依存する以前の作業と比較すると、シックは外部の知識モデルを使用して豊富なコモンセンス推論を生成し、類似性に基づく選択手法で最も可能性の高いものを選択する。 sick++は、consenseを監督として使用し、マルチタスク学習設定で対話を要約することで、commonsense推論を生成するタスクを追加する。 実験の結果,本フレームワークは既存の手法よりも情報的かつ一貫した要約を生成することがわかった。

In this paper, we propose to leverage the unique characteristics of dialogues sharing commonsense knowledge across participants, to resolve the difficulties in summarizing them. We present SICK, a framework that uses commonsense inferences as additional context. Compared to previous work that solely relies on the input dialogue, SICK uses an external knowledge model to generate a rich set of commonsense inferences and selects the most probable one with a similarity-based selection method. Built upon SICK, SICK++ utilizes commonsense as supervision, where the task of generating commonsense inferences is added upon summarizing the dialogue in a multi-task learning setting. Experimental results show that with injected commonsense knowledge, our framework generates more informative and consistent summaries than existing methods.
翻訳日:2022-09-05 11:57:59 公開日:2022-09-02
# 構造保存グラフ表現学習

Structure-Preserving Graph Representation Learning ( http://arxiv.org/abs/2209.00793v1 )

ライセンス: Link先を確認
Ruiyi Fang, Liangjian Wen, Zhao Kang, Jianzhuang Liu(参考訳) グラフ表現学習(GRL)は大きな進歩を遂げているが、リッチなトポロジ構造と特徴情報を適切な方法で抽出し埋め込むことは依然として困難である。 既存の手法のほとんどは局所構造に焦点をあて、グローバルな位相構造を完全に組み込むことができない。 そこで本研究では,グラフの構造情報を完全に把握する新しい構造保存グラフ表現学習法を提案する。 具体的には、元のグラフの不確実性と誤情報を減らすために、k-nearest neighborメソッドによる補完的ビューとして特徴グラフを構築する。 特徴グラフは、ノードレベルでのコントラストを使ってローカルな関係を捉えることができる。 また、全グラフの相互情報(mi)を最大化し、特徴埋め込みを最大化することにより、大域的な位相構造情報を保持し、理論的には特徴埋め込みと元のグラフの特徴埋め込みを交換して自己を再構築する。 提案手法は,半教師付きノード分類タスクにおいて非常に優れた性能を示し,グラフ構造やノード特徴のノイズ摂動下でのロバスト性も良好であることを示す。

Though graph representation learning (GRL) has made significant progress, it is still a challenge to extract and embed the rich topological structure and feature information in an adequate way. Most existing methods focus on local structure and fail to fully incorporate the global topological structure. To this end, we propose a novel Structure-Preserving Graph Representation Learning (SPGRL) method, to fully capture the structure information of graphs. Specifically, to reduce the uncertainty and misinformation of the original graph, we construct a feature graph as a complementary view via k-Nearest Neighbor method. The feature graph can be used to contrast at node-level to capture the local relation. Besides, we retain the global topological structure information by maximizing the mutual information (MI) of the whole graph and feature embeddings, which is theoretically reduced to exchanging the feature embeddings of the feature and the original graphs to reconstruct themselves. Extensive experiments show that our method has quite superior performance on semi-supervised node classification task and excellent robustness under noise perturbation on graph structure or node features.
翻訳日:2022-09-05 11:57:32 公開日:2022-09-02
# 縦断的自己監督学習による糖尿病網膜症の検出

Detection of diabetic retinopathy using longitudinal self-supervised learning ( http://arxiv.org/abs/2209.00915v1 )

ライセンス: Link先を確認
Rachid Zeghlache, Pierre-Henri Conze, Mostafa El Habib Daho, Ramin Tadayoni, Pascal Massin, B\'eatrice Cochener, Gwenol\'e Quellec, Mathieu Lamard(参考訳) 縦断イメージングは、静的解剖学的構造と疾患の進行のダイナミックな変化の両方を、より早くより優れた患者固有の病理管理に向けて捉えることができる。 しかし,従来の糖尿病網膜症(DR)検出手法では,経時的情報を利用してDR解析を改善することは稀である。 本研究は,DR診断目的の縦断的特徴を持つ自己教師型学習の利点について検討する。 縦型自己教師付き学習 (lssl) 法と縦型網膜色眼底写真 (cfp) の疾患進展をモデル化し, 2回の連続試験で早期のdr重症度変化を検出する方法を比較した。 実験は、長手DRスクリーニングデータセットを用いて、訓練されたエンコーダ(LSSL)が長手プレテキストタスクとして機能するか否かを判定した。 その結果、ベースライン(スクラッチから訓練されたモデル)に対して0.875のAUCと、p値<2.2e-16でp値の0.96(95% CI: 0.9593-0.9655 DeLong test)を達成した。

Longitudinal imaging is able to capture both static anatomical structures and dynamic changes in disease progression towards earlier and better patient-specific pathology management. However, conventional approaches for detecting diabetic retinopathy (DR) rarely take advantage of longitudinal information to improve DR analysis. In this work, we investigate the benefit of exploiting self-supervised learning with a longitudinal nature for DR diagnosis purposes. We compare different longitudinal self-supervised learning (LSSL) methods to model the disease progression from longitudinal retinal color fundus photographs (CFP) to detect early DR severity changes using a pair of consecutive exams. The experiments were conducted on a longitudinal DR screening dataset with or without those trained encoders (LSSL) acting as a longitudinal pretext task. Results achieve an AUC of 0.875 for the baseline (model trained from scratch) and an AUC of 0.96 (95% CI: 0.9593-0.9655 DeLong test) with a p-value < 2.2e-16 on early fusion using a simple ResNet alike architecture with frozen LSSL weights, suggesting that the LSSL latent space enables to encode the dynamic of DR progression.
翻訳日:2022-09-05 11:57:13 公開日:2022-09-02
# 薬物設計のための事前訓練済み生化学言語モデルの利用

Exploiting Pretrained Biochemical Language Models for Targeted Drug Design ( http://arxiv.org/abs/2209.00981v1 )

ライセンス: Link先を確認
G\"ok\c{c}e Uludo\u{g}an, Elif Ozkirimli, Kutlu O. Ulgen, Nilg\"un Karal{\i}, Arzucan \"Ozg\"ur(参考訳) モチベーション:興味のあるタンパク質を標的とした新規化合物の開発は、製薬業界で最も重要な課題の1つである。 深層生成モデルは標的分子設計に応用され、有望な結果を示している。 近年、標的特異的分子生成は、タンパク質言語と化学言語の間の翻訳と見なされている。 しかし、そのようなモデルは相互作用するタンパク質-リガンド対の可用性によって制限される。 一方で、大量のラベルのないタンパク質配列と化学物質が利用可能であり、有用な表現を学ぶ言語モデルの訓練に使用されている。 本研究では, 未学習の生化学言語モデルを用いて, 標的分子生成モデルを初期化することを提案する。 2つのウォームスタート戦略を調査します (i)初期化モデルが標的分子生成で訓練される一段階戦略 (ii)分子発生の事前調整と標的特定訓練を含む二段階戦略。 また,ビーム探索とサンプリングという2つのデコーディング戦略を比較した。 結果: ウォームスタートモデルの性能は,スクラッチからトレーニングしたベースラインモデルよりも優れていた。 提案した2つのウォームスタート戦略は、ベンチマークから広く使用されているメトリクスに関して、互いに同様の結果を得る。 しかし, 生成した化合物のドッキング評価は, 1段階戦略が2段階戦略よりも一般化したことを示唆している。 また,ドッキング評価とベンチマーク指標の両方において,ビームサーチがサンプリングを上回り,複合品質を評価する。 可用性と実装:ソースコードはhttps://github.com/boun-tabi/biochemical-lms-for-drug-designで入手できる。

Motivation: The development of novel compounds targeting proteins of interest is one of the most important tasks in the pharmaceutical industry. Deep generative models have been applied to targeted molecular design and have shown promising results. Recently, target-specific molecule generation has been viewed as a translation between the protein language and the chemical language. However, such a model is limited by the availability of interacting protein-ligand pairs. On the other hand, large amounts of unlabeled protein sequences and chemical compounds are available and have been used to train language models that learn useful representations. In this study, we propose exploiting pretrained biochemical language models to initialize (i.e. warm start) targeted molecule generation models. We investigate two warm start strategies: (i) a one-stage strategy where the initialized model is trained on targeted molecule generation (ii) a two-stage strategy containing a pre-finetuning on molecular generation followed by target specific training. We also compare two decoding strategies to generate compounds: beam search and sampling. Results: The results show that the warm-started models perform better than a baseline model trained from scratch. The two proposed warm-start strategies achieve similar results to each other with respect to widely used metrics from benchmarks. However, docking evaluation of the generated compounds for a number of novel proteins suggests that the one-stage strategy generalizes better than the two-stage strategy. Additionally, we observe that beam search outperforms sampling in both docking evaluation and benchmark metrics for assessing compound quality. Availability and implementation: The source code is available at https://github.com/boun-tabi/biochemical-lms-for-drug-design and the materials are archived in Zenodo at https://doi.org/10.5281/zenodo.6832145
翻訳日:2022-09-05 11:56:48 公開日:2022-09-02
# 深層ニューラルネットワークを用いた経胸部心エコー画像の画質自動評価

Automated Assessment of Transthoracic Echocardiogram Image Quality Using Deep Neural Networks ( http://arxiv.org/abs/2209.00976v1 )

ライセンス: Link先を確認
Robert B. Labs, Apostolos Vrettos, Jonathan Loo, Massoud Zolgharni(参考訳) 2次元心エコー図の標準的な考え方は確立されているが、取得した画像の品質はオペレーターのスキルに大きく依存しており、主観的に評価される。 本研究の目的は,新しい領域特異的品質指標を定義することにより,心エコー図画像品質の客観的評価パイプラインを提供することである。 これにより、画像品質評価が自動化され、臨床測定、解釈、リアルタイム最適化が向上する。 11,262人の成人患者からランダムに採取した心エコー図自動評価のためのディープニューラルネットワークを開発した。 プライベート心エコー図データセットは、2010年から2020年にかけて取得された33,784フレームで構成されている。 深層学習手法を用いて時空間的特徴を抽出し,画像品質指標を平均絶対誤差に対して評価した。 品質指標は解剖学的要素と病理的要素の両方をカプセル化し,解剖学的視認性,明瞭度,深達度,前短縮度に多変量評価スコアを与える。

Standard views in two-dimensional echocardiography are well established but the quality of acquired images are highly dependent on operator skills and are assessed subjectively. This study is aimed at providing an objective assessment pipeline for echocardiogram image quality by defining a new set of domain-specific quality indicators. Consequently, image quality assessment can thus be automated to enhance clinical measurements, interpretation, and real-time optimization. We have developed deep neural networks for the automated assessment of echocardiographic frame which were randomly sampled from 11,262 adult patients. The private echocardiography dataset consists of 33,784 frames, previously acquired between 2010 and 2020. Deep learning approaches were used to extract the spatiotemporal features and the image quality indicators were evaluated against the mean absolute error. Our quality indicators encapsulate both anatomical and pathological elements to provide multivariate assessment scores for anatomical visibility, clarity, depth-gain and foreshortedness, respectively.
翻訳日:2022-09-05 11:56:19 公開日:2022-09-02
# ベイジアンネットワークと深層強化学習による確率的依存を持つ劣化系の推論と動的決定

Inference and dynamic decision-making for deteriorating systems with probabilistic dependencies through Bayesian networks and deep reinforcement learning ( http://arxiv.org/abs/2209.01092v1 )

ライセンス: Link先を確認
Pablo G. Morato, Charalampos P. Andriotis, Konstantinos G. Papakonstantinou, Philippe Rigo(参考訳) 現代の環境・社会問題においては、検査・保守(I&M)プロセスを最適に計画しながら構造的故障リスクを最小限に抑えつつ、土木システムの管理戦略を特定できる手法の需要が高まっている。 利用可能なほとんどの方法は、共同システムレベルの状態記述の下でのグローバル最適化手法に関連する計算複雑性のため、I&M決定問題をコンポーネントレベルまで単純化する。 本稿では,システムレベルでの最適管理戦略を提供するため,環境劣化に晒されたエンジニアリングシステムの不確実性下での推論と意思決定のための効率的なアルゴリズムフレームワークを提案する。 本手法では,決定問題は,ベイズネットワーク条件構造に動的にエンコードされる部分可観測マルコフ決定過程として定式化される。 この手法は、ガウス階層構造と動的ベイズネットワークを通して、成分間の等しく不等な劣化相関の環境を扱うことができる。 政策最適化の観点からは,批判ネットワークによって誘導されるアクタニューラルネットワークによって近似される,分散型マルチエージェントアクタ-クリティック(ddmac)強化学習手法を採用する。 シミュレーション環境での劣化依存性を含め、システムレベルでのコストモデルを定式化することにより、DDMACポリシーは本質的にシステム効果を考察する。 疲労劣化下で9-out-of-10系と鋼枠の両方で数値実験を行った。 その結果、DDMACポリシーは最先端のヒューリスティックアプローチと比較して大きな利点をもたらすことが示された。 DDMAC戦略によるシステム効果の本質的な考察も、学習方針に基づいて解釈される。

In the context of modern environmental and societal concerns, there is an increasing demand for methods able to identify management strategies for civil engineering systems, minimizing structural failure risks while optimally planning inspection and maintenance (I&M) processes. Most available methods simplify the I&M decision problem to the component level due to the computational complexity associated with global optimization methodologies under joint system-level state descriptions. In this paper, we propose an efficient algorithmic framework for inference and decision-making under uncertainty for engineering systems exposed to deteriorating environments, providing optimal management strategies directly at the system level. In our approach, the decision problem is formulated as a factored partially observable Markov decision process, whose dynamics are encoded in Bayesian network conditional structures. The methodology can handle environments under equal or general, unequal deterioration correlations among components, through Gaussian hierarchical structures and dynamic Bayesian networks. In terms of policy optimization, we adopt a deep decentralized multi-agent actor-critic (DDMAC) reinforcement learning approach, in which the policies are approximated by actor neural networks guided by a critic network. By including deterioration dependence in the simulated environment, and by formulating the cost model at the system level, DDMAC policies intrinsically consider the underlying system-effects. This is demonstrated through numerical experiments conducted for both a 9-out-of-10 system and a steel frame under fatigue deterioration. Results demonstrate that DDMAC policies offer substantial benefits when compared to state-of-the-art heuristic approaches. The inherent consideration of system-effects by DDMAC strategies is also interpreted based on the learned policies.
翻訳日:2022-09-05 11:56:04 公開日:2022-09-02
# コチェット(KoCHET):朝鮮文化遺産法人、エンティティ関連事業

KoCHET: a Korean Cultural Heritage corpus for Entity-related Tasks ( http://arxiv.org/abs/2209.00367v2 )

ライセンス: Link先を確認
Gyeongmin Kim, Jinsung Kim, Junyoung Son, Heuiseok Lim(参考訳) デジタル化された伝統文化遺産文書が急速に増加し、保存・管理の必要性が増し、実体の実践的認識と類型化が不可欠となった。 そこで我々は,韓国の文化遺産コーパスであるKoCHETを提案する。これは,エンティティ認識(NER)や関係抽出(RE),エンティティタイピング(ET)といった,典型的なエンティティ関連タスクのためのものだ。 政府系団体のデータ構築ガイドラインに基づく文化遺産専門家の助言により、韓国文化遺産に関連するすべての実体を網羅した112,362, 38,765, 113,198件のNER, RE, ETの事例からなる。 さらに、既存の公的なコーパスとは異なり、修正された再分配は国内外の研究者にも許される。 実験の結果,KoCHETの実用性は文化遺産の面でより有益であることがわかった。 また,統計的および言語学的分析の観点から,KoCHETの実践的洞察を提供する。 当社のコーパスはhttps://github.com/Gyeongmin47/KoCHET.comから無償で入手可能です。

As digitized traditional cultural heritage documents have rapidly increased, resulting in an increased need for preservation and management, practical recognition of entities and typification of their classes has become essential. To achieve this, we propose KoCHET - a Korean cultural heritage corpus for the typical entity-related tasks, i.e., named entity recognition (NER), relation extraction (RE), and entity typing (ET). Advised by cultural heritage experts based on the data construction guidelines of government-affiliated organizations, KoCHET consists of respectively 112,362, 38,765, 113,198 examples for NER, RE, and ET tasks, covering all entity types related to Korean cultural heritage. Moreover, unlike the existing public corpora, modified redistribution can be allowed both domestic and foreign researchers. Our experimental results make the practical usability of KoCHET more valuable in terms of cultural heritage. We also provide practical insights of KoCHET in terms of statistical and linguistic analysis. Our corpus is freely available at https://github.com/Gyeongmin47/KoCHET.
翻訳日:2022-09-05 10:18:58 公開日:2022-09-02
# 心臓に耳を傾ける:心臓の鼓動を検出する自己教師的アプローチ

Listen to your heart: A self-supervised approach for detecting murmur in heart-beat sounds ( http://arxiv.org/abs/2208.14845v2 )

ライセンス: Link先を確認
Aristotelis Ballas, Vasileios Papapanagiotou, Anastasios Delopoulos and Christos Diou(参考訳) 心臓の大腿骨は心臓の鼓動に異常な音であり、心臓の乱流によって引き起こされる。 PhysioNet 2022の課題は、心臓のオーディオ記録から大腿骨の自動検出と、正常と異常な臨床結果の自動検出である。 録音は心臓周辺の複数の場所から撮影される。 本研究は,大腿骨検出における自己教師付き学習の有効性について検討する。 我々は,今年と2016年の両課題のデータを用いて,レイヤを自己教師型の方法でトレーニングしたバックボーンCNNの使用を評価した。 トレーニングサンプル毎に異なる2つの拡張と,温度スケールのクロスエントロピー損失の正規化を行った。 有効な心電図表現を学習するために異なる拡張法を用いて実験を行った。 最後の検出器を構築するために、2つの分類ヘッドを訓練します。 利用可能な拡張のすべての組み合わせに対する評価結果と、多重拡張アプローチに関する評価結果を示す。

Heart murmurs are abnormal sounds present in heartbeats, caused by turbulent blood flow through the heart. The PhysioNet 2022 challenge targets automatic detection of murmur from audio recordings of the heart and automatic detection of normal vs. abnormal clinical outcome. The recordings are captured from multiple locations around the heart. Our participation investigates the effectiveness of self-supervised learning for murmur detection. We evaluate the use of a backbone CNN, whose layers are trained in a self-supervised way with data from both this year's and the 2016 challenge. We use two different augmentations on each training sample, and normalized temperature-scaled cross-entropy loss. We experiment with different augmentations to learn effective phonocardiogram representations. To build the final detectors we train two classification heads, one for each challenge task. We present evaluation results for all combinations of the available augmentations, and for our multiple-augmentation approach.
翻訳日:2022-09-05 10:18:38 公開日:2022-09-02