このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220802となっている論文です。

PDF登録状況(公開日: 20220802)

TitleAuthorsAbstract論文公表日・翻訳日
# 高速ブラックボックス量子状態調製

Fast Black-Box Quantum State Preparation ( http://arxiv.org/abs/2009.10709v4 )

ライセンス: Link先を確認
Johannes Bausch(参考訳) 量子状態準備は、ハミルトンシミュレーションのような他の高レベル量子アルゴリズムや、例えば機械学習のような最適化タスクの文脈で使用される量子デバイスへの分布をロードするための重要な要素である。 2000年にGroverによって考案された一般的な「ブラックボックス」法から始まり、オラクルによって計算された係数の振幅増幅を用いて、ロードされる振幅に様々な追加条件が加えられ、準備段階のほとんど全ての算術を避けるサンダースらの研究が頂点に達した。 本研究では,様々な重要な係数の組を,最大$o(1)$ manyまでの振幅増幅のラウンドよりも大幅に高速にロードできる最適化されたブラックボックス状態ローディングスキームを構築する。 アルゴリズムの2つの変種でこれを達成します。 ひとつはsandersらによるoracleの修正で,アルゴリズムのコンテキスト内では,アンシラ (\log_2 g$ 対 $g+2$ in the bit precision $g$) の削減と,振幅増幅ラウンド毎の非clifford操作の削減を実現しています。 2つめは同じオラクルを利用しているが、増幅ラウンドごとにアンシラス(g+\log_2g$)と非クリフォード操作のコストがわずかに上昇している。 振幅増幅ラウンドの数が乗算因子として入ってくると、我々のブラックボックス状態負荷方式は、従来の方法と比較して最大で指数的なスピードアップをもたらす。 このスピードアップはブラックボックスケースを超えて翻訳される。

Quantum state preparation is an important ingredient for other higher-level quantum algorithms, such as Hamiltonian simulation, or for loading distributions into a quantum device to be used e.g. in the context of optimization tasks such as machine learning. Starting with a generic "black box" method devised by Grover in 2000, which employs amplitude amplification to load coefficients calculated by an oracle, there has been a long series of results and improvements with various additional conditions on the amplitudes to be loaded, culminating in Sanders et al.'s work which avoids almost all arithmetic during the preparation stage. In this work, we construct an optimized black box state loading scheme with which various important sets of coefficients can be loaded significantly faster than in $O(\sqrt N)$ rounds of amplitude amplification, up to only $O(1)$ many. We achieve this with two variants of our algorithm. The first employs a modification of the oracle from Sanders et al., which requires fewer ancillas ($\log_2 g$ vs $g+2$ in the bit precision $g$), and fewer non-Clifford operations per amplitude amplification round within the context of our algorithm. The second utilizes the same oracle, but at slightly increased cost in terms of ancillas ($g+\log_2g$) and non-Clifford operations per amplification round. As the number of amplitude amplification rounds enters as multiplicative factor, our black box state loading scheme yields an up to exponential speedup as compared to prior methods. This speedup translates beyond the black box case.
翻訳日:2023-05-01 06:58:26 公開日:2022-08-02
# 熱力学蒸留過程におけるゆらぎ散逸関係

Fluctuation-dissipation relations for thermodynamic distillation processes ( http://arxiv.org/abs/2105.11759v3 )

ライセンス: Link先を確認
Tanmoy Biswas, A. de Oliveira Junior, Micha{\l} Horodecki, Kamil Korzekwa(参考訳) ゆらぎ散逸定理(ゆらぎ散逸定理、英: fluctuation-dissipation theorem)は、摂動対象の系の応答と平衡の可観測性に関連するゆらぎとの間の関係を確立する統計物理学の基本的な結果である。 ここでは,熱力学的制約下での最適量子状態遷移を考察する資源理論の枠組みからそのバージョンを導出する。 より正確には、最適熱力学蒸留プロセスの特徴付けを行い、その後、そのようなプロセスで放出される自由エネルギー量とシステムの初期状態の自由エネルギー変動との関係を証明した。 この結果は、漸近的に多くの同一の純粋系または任意の数の独立エネルギー非整合系によって与えられる初期状態に適用され、状態変換だけでなくハミルトン変換にも適用できる。 本研究では, 作業抽出, 情報消去, 熱力学的自由通信などの熱力学的プロトコルの最適性能を, 処理数$N$の2次漸近量で求めることができる。 したがって、この量子状態に対する熱力学的プロトコルの第一の厳密な解析を行い、異なるエネルギー固有状態間のコヒーレンスを、大きいが有限のn$の中間配座に有する。

The fluctuation-dissipation theorem is a fundamental result in statistical physics that establishes a connection between the response of a system subject to a perturbation and the fluctuations associated with observables in equilibrium. Here we derive its version within a resource-theoretic framework, where one investigates optimal quantum state transitions under thermodynamic constraints. More precisely, we first characterise optimal thermodynamic distillation processes, and then prove a relation between the amount of free energy dissipated in such processes and the free energy fluctuations of the initial state of the system. Our results apply to initial states given by either asymptotically many identical pure systems or arbitrary number of independent energy-incoherent systems, and allow not only for a state transformation, but also for the change of Hamiltonian. The fluctuation-dissipation relations we derive enable us to find the optimal performance of thermodynamic protocols such as work extraction, information erasure and thermodynamically-free communication, up to second-order asymptotics in the number $N$ of processed systems. We thus provide a first rigorous analysis of these thermodynamic protocols for quantum states with coherence between different energy eigenstates in the intermediate regime of large but finite $N$.
翻訳日:2023-03-29 20:58:16 公開日:2022-08-02
# 部分空間コセット状態に対するモノガミー・オブ・エンタングルメントゲーム

A monogamy-of-entanglement game for subspace coset states ( http://arxiv.org/abs/2107.13324v5 )

ライセンス: Link先を確認
Eric Culf and Thomas Vidick(参考訳) 我々は、量子ワンタイムパッドを適用した$\mathbb{F}_2^n$の線型部分空間におけるベクトルの均一な重ね合わせである部分空間コセット状態に対する強いモノガミー・オブ・エンタングルメント特性を確立する。 この性質は、最近 [Coladangelo, Liu, Liu, and Zhandry, Crypto'21] によって予想され、疑似ランダム関数の非閉復号化と複写保護に応用できることを示した。 BB'84状態に基づく単純なモノガミーゲームに解析を還元するために,本論文の手法を直接追従する2つの証明と,[Vidick and Zhang, Eurocrypt'20]からの観察を用いた証明を提案する。 どちらの証明も最終的に同じ証明手法に依存しており、[Tomamichel, Fehr, Kaniewski and Wehner, New Journal of Physics '13]で紹介されている。

We establish a strong monogamy-of-entanglement property for subspace coset states, which are uniform superpositions of vectors in a linear subspace of $\mathbb{F}_2^n$ to which has been applied a quantum one-time pad. This property was conjectured recently by [Coladangelo, Liu, Liu, and Zhandry, Crypto'21] and shown to have applications to unclonable decryption and copy-protection of pseudorandom functions. We present two proofs, one which directly follows the method of the original paper and the other which uses an observation from [Vidick and Zhang, Eurocrypt'20] to reduce the analysis to a simpler monogamy game based on BB'84 states. Both proofs ultimately rely on the same proof technique, introduced in [Tomamichel, Fehr, Kaniewski and Wehner, New Journal of Physics '13].
翻訳日:2023-03-20 17:11:50 公開日:2022-08-02
# テンソルネットワーク状態集合の閉性と幾何について

On the closedness and geometry of tensor network state sets ( http://arxiv.org/abs/2108.00031v2 )

ライセンス: Link先を確認
Thomas Barthel, Jianfeng Lu, Gero Friesecke(参考訳) テンソルネットワーク状態(TNS)は強い相関量子物質の研究において強力なアプローチである。 次元性の呪いは、部分収縮テンソルのネットワークの観点から多体状態のパラメータ化によって対処される。 これらのテンソルは、有効自由度を著しく減少させる。 現実的なアルゴリズムでは、エネルギー期待値やオーバーラップのような関数は、特定の TNS の集合に対して最適化される。 アルゴリズムの安定性については、tns集合の外側の境界点に近づくとテンソル要素が発散するため、考慮された集合が閉じているかどうかが重要である。 我々は, TNS集合の閉度とジオメトリについて議論し, 非閉集合における最適化問題に対する正規化を提案する。 開境界条件を持つ行列積状態 (MPS) の集合, ツリーテンソルネットワーク状態 (TTNS) およびマルチスケールエンタングルメント再正規化アンサッツ (MERA) は常に閉じているのに対し, 周期境界条件 (PBC) を持つ翻訳不変MPS, PBCを持つ異質MPS, 射影エンタングルドペア状態 (PEPS) は一般に閉じていないことを示す。 後者は、W状態のような明示的な例を使って行われ、2つのドメイン状態、そのきめ細かいバージョンを呼び出します。

Tensor network states (TNS) are a powerful approach for the study of strongly correlated quantum matter. The curse of dimensionality is addressed by parametrizing the many-body state in terms of a network of partially contracted tensors. These tensors form a substantially reduced set of effective degrees of freedom. In practical algorithms, functionals like energy expectation values or overlaps are optimized over certain sets of TNS. Concerning algorithmic stability, it is important whether the considered sets are closed because, otherwise, the algorithms may approach a boundary point that is outside the TNS set and tensor elements diverge. We discuss the closedness and geometries of TNS sets, and we propose regularizations for optimization problems on non-closed TNS sets. We show that sets of matrix product states (MPS) with open boundary conditions, tree tensor network states (TTNS), and the multiscale entanglement renormalization ansatz (MERA) are always closed, whereas sets of translation-invariant MPS with periodic boundary conditions (PBC), heterogeneous MPS with PBC, and projected entangled-pair states (PEPS) are generally not closed. The latter is done using explicit examples like the W state, states that we call two-domain states, and fine-grained versions thereof.
翻訳日:2023-03-20 08:49:39 公開日:2022-08-02
# 分極モード展開に基づく分散誘電体物体の量子電磁力学の操作的アプローチ

Operative Approach to Quantum Electrodynamics in Dispersive Dielectric Objects Based on a Polarization Modal Expansion ( http://arxiv.org/abs/2108.03668v5 )

ライセンス: Link先を確認
Carlo Forestiere and Giovanni Miano(参考訳) 本稿では、ハイゼンベルク像を用いた量子電気力学の枠組みにおいて、非有界空間における有限サイズの分散誘電体物体のマクロ電磁応答を扱う。 我々は,物質の分散と散逸を考慮したホップフィールド型スキームを適用した。 電場演算子と電磁場演算子の初期条件の関数として偏光密度場演算子の一般表現を提供する。 核が古典的電磁力学の枠組みの中で得られる誘電体のインパルス応答の線形表現である線形汎関数である。 電場演算子は、自由空間に対するdyadic green関数を用いて分極密度場演算子の関数として表現される。 これらの作用素の統計関数は、物質場作用素の初期条件と電磁場作用素の統計の古典的な汎関数であり、その核は誘電体オブジェクトのインパルス応答の線形あるいは多重線型表現である。 我々は、偏光と電磁界を区別し、均等な足場上での偏光と電磁ゆらぎの処理を可能にする。 我々は、物体の静的長手モードおよび横モードの観点から偏極密度場演算子を拡張し、クーロンゲージにおけるハミルトニアンの相互作用エネルギー項とアンペア相互作用エネルギー項を対角化する。 我々は自由空間の横面波モードを用いて放射場を拡大する。 誘電体オブジェクトのインパルス応答行列の各要素を、最大$\min\limits_{\omega}\{c_0/[\omega \sqrt{|{\chi}(\omega)|}]\}$ ここで${\chi}(\omega)$は誘電体の感受性である。

In this paper we deal with the macroscopic electromagnetic response of a finite size dispersive dielectric object, in unbounded space, in the framework of quantum electrodynamics using the Heisenberg picture. We apply a Hopfield type scheme to account for the dispersion and dissipation of the matter. We provide a general expression of the polarization density field operator as functions of the initial conditions of the matter field operators and of the electromagnetic field operators. It is a linear functional whose kernel is a linear expression of the impulse response of the dielectric object that we obtain within the framework of classical electrodynamics. The electric field operator is expressed as a function of the polarization density field operator by means of the dyadic Green's function for the free space. The statistical functions of these operators are classical functionals of the statistics of the initial conditions of the matter field operators and of the electromagnetic field operators, whose kernels are linear or multilinear expressions of the impulse response of the dielectric object. We keep the polarization and the electromagnetic field distinct to enable the treatment of the polarization and electromagnetic fluctuations on equal footing. We expand the polarization density field operator in terms of the static longitudinal and transverse modes of the object to diagonalize the Coulomb and Ampere interaction energy terms of the Hamiltonian in the Coulomb gauge. We expand the radiation fields in terms of the transverse plane wave modes of free space. Few static longitudinal and transverse modes are needed to calculate each element of the impulse response matrix for dielectric objects with sizes of the order up to $\min\limits_{\omega}\{c_0/[\omega \sqrt{|{\chi}(\omega)|}]\}$ where ${\chi}(\omega)$ is the susceptibility of the dielectric.
翻訳日:2023-03-19 01:24:15 公開日:2022-08-02
# 長距離XYモデルのための変分量子固有解法の探索

Exploring variational quantum eigensolver ansatzes for the long-range XY model ( http://arxiv.org/abs/2109.00288v5 )

ライセンス: Link先を確認
Jia-Bin You, Dax Enshan Koh, Jian Feng Kong, Wen-Jun Ding, Ching Eng Png, Lin Wu(参考訳) 量子多体系の基底状態エネルギーと波動関数を見つけることは、量子物理学と化学の重要な問題である。 本稿では,変分量子固有解法(VQE)アルゴリズムを用いて,長距離XYモデルに対するこの問題について検討する。 我々は,CNOTゲート,制御回転(CRX)ゲート,2ビット回転(TQR)ゲートという,異なるビルディングゲートからなるフル・リニアエンタングルメント構造を持つVQEアンサーゼについて検討する。 フルエンタングルメント crx と tqr ansatzes は長距離 xy モデルの基底状態エネルギーを十分に記述できることがわかった。 対照的に、フルエンタングルメントTQRアンサッツのみが1に近い忠実度を持つ基底状態波動関数を表現できる。 さらに, 係留ゲートが互いに固定距離であるキュービット間でのみ適用されるような, 完全係止アンサーゼの代わりに, 許容可能な解を与えるのに十分であることがわかった。 エンタングルメントエントロピーを用いて, VQEアンサーゼの表現力を特徴付けることにより, フルエンタングルメントTQRアンザッツの表現力が最も高いことを示す。

Finding the ground state energy and wavefunction of a quantum many-body system is a key problem in quantum physics and chemistry. We study this problem for the long-range XY model by using the variational quantum eigensolver (VQE) algorithm. We consider VQE ansatzes with full and linear entanglement structures consisting of different building gates: the CNOT gate, the controlled-rotation (CRX) gate, and the two-qubit rotation (TQR) gate. We find that the full-entanglement CRX and TQR ansatzes can sufficiently describe the ground state energy of the long-range XY model. In contrast, only the full-entanglement TQR ansatz can represent the ground state wavefunction with a fidelity close to one. In addition, we find that instead of using full-entanglement ansatzes, restricted-entanglement ansatzes where entangling gates are applied only between qubits that are a fixed distance from each other already suffice to give acceptable solutions. Using the entanglement entropy to characterize the expressive powers of the VQE ansatzes, we show that the full-entanglement TQR ansatz has the highest expressive power among them.
翻訳日:2023-03-16 11:02:22 公開日:2022-08-02
# 量子ロック: 証明可能な量子通信の利点

Quantum Lock: A Provable Quantum Communication Advantage ( http://arxiv.org/abs/2110.09469v3 )

ライセンス: Link先を確認
Kaushik Chakraborty, Mina Doosti, Yao Ma, Chirag Wadhwa, Myrto Arapinis and Elham Kashefi(参考訳) 物理的非拘束機能(PUF)は、固有の物理的ランダム性を利用して、物理的な実体にユニークな指紋を提供する。 Gao氏らは、マシンラーニングベースの高度な攻撃に対する現在のPUFの脆弱性について論じた。 従来のPUFと既存の量子通信技術を統合することでこの問題に対処する。 具体的には、従来のPUFの安全性を確保するための実用的なソリューションとして、Hybrid lock PUFs(HLPUFs)と呼ばれる、証明可能なセキュアなPUFの汎用設計を提案する。 HLPUFは古典的なPUF(CPUF)を使用し、出力を非直交量子状態に符号化し、基盤となるCPUFの結果を敵から隠蔽する。 ここでは、HLPUFを一般の敵から守るための量子ロックを導入する。 非直交量子状態の識別不可能性は、量子ロックダウン技術とともに、敵がCPUFの結果にアクセスするのを防ぐ。 さらに, 量子状態の非古典的性質を利用することで, hlpufはサーバがさらなるクライアント認証のためにチャレンジ応答ペアを再利用できることを示す。 これにより、PUFベースのクライアント認証を長期にわたって実行し、サーバ側で小規模のチャレンジレスポンスペアデータベースを維持しながら、効率的なソリューションを提供する。 その後、実世界のCPUFを用いてHLPUFの設計をインスタンス化することで、理論的貢献を支援する。 最適な古典的機械学習攻撃を用いてcpufsとhlpufsの両方を鍛造し,実装可能な構築のための数値シミュレーションにおけるセキュリティギャップを検証した。

Physical unclonable functions(PUFs) provide a unique fingerprint to a physical entity by exploiting the inherent physical randomness. Gao et al. discussed the vulnerability of most current-day PUFs to sophisticated machine learning-based attacks. We address this problem by integrating classical PUFs and existing quantum communication technology. Specifically, this paper proposes a generic design of provably secure PUFs, called hybrid locked PUFs(HLPUFs), providing a practical solution for securing classical PUFs. An HLPUF uses a classical PUF(CPUF), and encodes the output into non-orthogonal quantum states to hide the outcomes of the underlying CPUF from any adversary. Here we introduce a quantum lock to protect the HLPUFs from any general adversaries. The indistinguishability property of the non-orthogonal quantum states, together with the quantum lockdown technique prevents the adversary from accessing the outcome of the CPUFs. Moreover, we show that by exploiting non-classical properties of quantum states, the HLPUF allows the server to reuse the challenge-response pairs for further client authentication. This result provides an efficient solution for running PUF-based client authentication for an extended period while maintaining a small-sized challenge-response pairs database on the server side. Later, we support our theoretical contributions by instantiating the HLPUFs design using accessible real-world CPUFs. We use the optimal classical machine-learning attacks to forge both the CPUFs and HLPUFs, and we certify the security gap in our numerical simulation for construction which is ready for implementation.
翻訳日:2023-03-11 04:08:25 公開日:2022-08-02
# レーザー制御リドバーグ原子トリマーにおけるキラルなw$およびグリーンバーガー・ホーン・サイレンジャー状態の動的生成

Dynamical generation of chiral $W$ and Greenberger-Horne-Zeilinger states in laser-controlled Rydberg-atom trimers ( http://arxiv.org/abs/2111.09718v4 )

ライセンス: Link先を確認
Thorsten Haase, Gernot Alber, Vladimir M. Stojanovic(参考訳) 光学的にトラッピングされた中性原子系のスケーラビリティが大幅に向上したことから、近年はリドベルク原子アンサンブルの量子状態工学に多大な努力が注がれている。 ここでは、中性原子系の強相互作用状態において、エンジニアリングの問題を一般化した(``twisted'')$W$状態とグリーンベルガー・ホルン・ザイリンガー状態(GHZ)状態について検討する。 想定された系内の各原子は、当初は基底状態にあり、同じ内部原子遷移と共鳴するいくつかの外部レーザーパルスを受けると仮定する。 特に、3つの原子系(Rydberg-atom Trimer)の特別な場合において、ノイズレスサブシステムの量子ビット符号化を実装するための特別なタイプのツイスト3量子状態であるキラル$W$状態の実現を可能にするフィールドアライメントと原子位置の設定を決定する。 キラルなw状態を例にとると、同じ3原子系でツイストされたw$状態がghzに対応する状態に決定論的に変換する問題にも対処し、通常のw$状態のみを含む最近の作品を著しく一般化する。 通常のものよりもツイストから始めると、$W$状態は関連するRabi周波数を下方へ下方へ再正規化するのと同値である。 これはやや長い状態変換時間をもたらすが、これらの時間は関連するリュードベルク状態の通常の寿命よりも少なくとも2桁短いことが示される。

Motivated by the significantly improved scalability of optically-trapped neutral-atom systems, extensive efforts have been devoted in recent years to quantum-state engineering in Rydberg-atom ensembles. Here we investigate the problem of engineering generalized (``twisted'') $W$ states, as well as Greenberger-Horne-Zeilinger (GHZ) states, in the strongly-interacting regime of a neutral-atom system. We assume that each atom in the envisioned system initially resides in its ground state and is subject to several external laser pulses that are close to being resonant with the same internal atomic transition. In particular, in the special case of a three-atom system (Rydberg-atom trimer) we determine configurations of field alignments and atomic positions that enable the realization of chiral $W$ states -- a special type of twisted three-qubit $W$ states of interest for implementing noiseless-subsystem qubit encoding. Using chiral W states as an example we also address the problem of deterministically converting twisted $W$ states into their GHZ counterparts in the same three-atom system, thus significantly generalizing recent works that involve only ordinary $W$ states. We show that starting from twisted -- rather than ordinary -- $W$ states is equivalent to renormalizing downwards the relevant Rabi frequencies. While this leads to somewhat longer state-conversion times, we also demonstrate that those times are at least two orders of magnitude shorter than typical lifetimes of relevant Rydberg states.
翻訳日:2023-03-07 12:36:52 公開日:2022-08-02
# $\mathbb{C}^3 \otimes \mathbb{C}^3$における絡み合い状態の新しい例

New examples of entangled states on $\mathbb{C}^3 \otimes \mathbb{C}^3$ ( http://arxiv.org/abs/2112.12643v2 )

ライセンス: Link先を確認
Anita Buckley(参考訳) 我々は、以前の研究であるBuckley-\vSivic 法を用いて、複素零点の集合を関連形式に規定することにより、3 = 3$自己随伴行列上の正写像の族を同時に構成する。 完全正でない正の写像は、ある混合状態が絡み合っていることを証明するために用いられる。 正の写像の円錐の極端な光線に属する、分解不可能な絡み合った証人を得る。 その結果、半定値プログラムは、転置写像または他のよく知られた正の写像でエンタングルメントを認証できないエンタングル状態の新しい例を返す。 構築された状態とそれらの構成の方法は、量子情報理論、特に正錐の幾何学に対するいくつかの貴重な洞察を提供する。

We build apon our previous work, the Buckley-\vSivic method for simultaneous construction of families of positive maps on $3 \times 3$ self-adjoint matrices by prescribing a set of complex zeros to the associated forms. Positive maps that are not completely positive can be used to prove (witness) that certain mixed states are entangled. We obtain entanglement witnesses that are indecomposable and belong to extreme rays of the cone of positive maps. Consequently our semidefinite program returns new examples of entangled states whose entanglement cannot be certified by the transposition map nor by other well-known positive maps. The constructed states as well as the method of their construction offer some valuable insights for quantum information theory, in particular into the geometry of positive cones.
翻訳日:2023-03-03 17:49:50 公開日:2022-08-02
# 2チャンネルファノ・アンダーソンモデルにおける連続体における境界状態

Bound states in the continuum in a two-channel Fano-Anderson model ( http://arxiv.org/abs/2201.04210v3 )

ライセンス: Link先を確認
Basti\'an Grez, Juan Pablo Ramos-Andrade, Vladimir Juri\v{c}i\'c and Pedro A. Orellana(参考訳) 本稿では,連続体(BIC)における境界状態の形成について,Fano-Andersonモデルを用いて検討する。 本研究では,グリーン関数形式と運動方程式を用いて,伝達係数や状態密度といった関連する可観測性を分析する。 以上の結果から,不純物レベルが縮退した対称構成の場合,本システムは真のBICをホストし,完全な伝送チャネルを抑圧することを示す。 最後に,提案機構は電子・フォトニック系におけるBICの実現に関係していると考えられる。

In this article, we study the formation of the bound states in the continuum (BICs) in a two-channel Fano-Anderson model. We employ the Green's function formalism, together with the equation of motion method, to analyze the relevant observables, such as the transmission coefficient and the density of states. Most importantly, our results show that the system hosts true BICs for the case of a symmetric configuration with the degenerate impurity levels, and a complete transmission channel is then suppressed. Finally, we argue that the proposed mechanism could be relevant for the realization of BICs in the electronic and photonic systems.
翻訳日:2023-03-01 12:45:46 公開日:2022-08-02
# Code-routing: 位置検証に対する新たな攻撃

Code-routing: a new attack on position verification ( http://arxiv.org/abs/2202.07812v4 )

ライセンス: Link先を確認
Sam Cree, Alex May(参考訳) 位置検証の暗号タスクは、量子情報と相対論的因果関係の制約を利用して、時空の相手の位置を検証しようとするものである。 f$-routingとして知られる一般的な検証方式では、証明者がブール関数 $f$ の値に基づいて量子系をリダイレクトする必要がある。 $f$-routingスキームのチーティング戦略は、証明者が事前に共有された絡み合いを使う必要があり、そのスキームのセキュリティは、証明者が操作できる絡み合いの量に関する仮定にかかっている。 本稿では,量子システムを秘密共有スキームに符号化し,秘密共有スキームの認証構造を利用して適切にシステムを誘導する,新たな不正行為戦略を提案する。 この戦略は$O(SP_p(f))$ EPRペアを使って$f$-routingタスクを完了し、$SP_p(f)$はフィールド上のスパンプログラムの最小サイズである$\mathbb{Z}_p$ computing $f$である。 これは、$f$が複雑性クラス$\text{Mod}_p\text{L}$にあるとき、ローカル前処理を許可した後、$f$-routingスキームを効率的に攻撃できることを示している。 最初期の構成はクラス l で、これは厳密に$\text{mod}_p\text{l}$ の内部にあると考えられている。 また、インジケータ関数 $f_I$ の量子秘密共有方式のサイズは、関数 $f_I$ の上限エンタングルメントコスト $f$-routing であることを示す。

The cryptographic task of position verification attempts to verify one party's location in spacetime by exploiting constraints on quantum information and relativistic causality. A popular verification scheme known as $f$-routing involves requiring the prover to redirect a quantum system based on the value of a Boolean function $f$. Cheating strategies for the $f$-routing scheme require the prover use pre-shared entanglement, and security of the scheme rests on assumptions about how much entanglement a prover can manipulate. Here, we give a new cheating strategy in which the quantum system is encoded into a secret-sharing scheme, and the authorization structure of the secret-sharing scheme is exploited to direct the system appropriately. This strategy completes the $f$-routing task using $O(SP_p(f))$ EPR pairs, where $SP_p(f)$ is the minimal size of a span program over the field $\mathbb{Z}_p$ computing $f$. This shows we can efficiently attack $f$-routing schemes whenever $f$ is in the complexity class $\text{Mod}_p\text{L}$, after allowing for local pre-processing. The best earlier construction achieved the class L, which is believed to be strictly inside of $\text{Mod}_p\text{L}$. We also show that the size of a quantum secret sharing scheme with indicator function $f_I$ upper bounds entanglement cost of $f$-routing on the function $f_I$.
翻訳日:2023-02-25 16:43:17 公開日:2022-08-02
# 単純遺伝的作用素は確率分布の普遍近似である(表現エンコーディングの他の利点)

Simple Genetic Operators are Universal Approximators of Probability Distributions (and other Advantages of Expressive Encodings) ( http://arxiv.org/abs/2202.09679v4 )

ライセンス: Link先を確認
Elliot Meyerson, Xin Qiu and Risto Miikkulainen(参考訳) 本稿では,進化的アルゴリズムの固有パワーを特徴付ける。 この力は遺伝子エンコーディングの計算的性質に依存する。 いくつかのエンコーディングでは、単純なクロスオーバー演算子と組み合わされた2人の親は、子表現型の任意の分布からサンプリングすることができる。 このようなエンコーディングを \emph{expressive encodings} と呼ぶ。 遺伝的プログラミングやニューラルネットワークの一般的な進化基質を含む普遍関数近似器は、表現的エンコーディングを構築するために使用できる。 興味深いことに、このアプローチは表現型が関数である領域にのみ適用する必要はない: 表現性はバイナリベクトルのような静的構造を最適化しても達成できる。 このような単純な設定により、表現的エンコーディングを理論的に特徴づけることができる: 様々なテスト問題において、表現的エンコーディングは標準直接エンコーディングよりも超指数収束速度で達成される。 結論として、遺伝的プログラミング、神経進化、遺伝的アルゴリズム、理論のように多様な進化計算領域において、表現的エンコーディングは進化の完全なパワーを理解し、実現するための鍵となる。

This paper characterizes the inherent power of evolutionary algorithms. This power depends on the computational properties of the genetic encoding. With some encodings, two parents recombined with a simple crossover operator can sample from an arbitrary distribution of child phenotypes. Such encodings are termed \emph{expressive encodings} in this paper. Universal function approximators, including popular evolutionary substrates of genetic programming and neural networks, can be used to construct expressive encodings. Remarkably, this approach need not be applied only to domains where the phenotype is a function: Expressivity can be achieved even when optimizing static structures, such as binary vectors. Such simpler settings make it possible to characterize expressive encodings theoretically: Across a variety of test problems, expressive encodings are shown to achieve up to super-exponential convergence speed-ups over the standard direct encoding. The conclusion is that, across evolutionary computation areas as diverse as genetic programming, neuroevolution, genetic algorithms, and theory, expressive encodings can be a key to understanding and realizing the full power of evolution.
翻訳日:2023-02-24 11:57:06 公開日:2022-08-02
# 古典的相関プローブと測定による位置・運動量共役シフトの最適推定

Optimal estimation of conjugate shifts in position and momentum by classically correlated probes and measurements ( http://arxiv.org/abs/2203.03348v2 )

ライセンス: Link先を確認
Kimin Park, Changhun Oh, Radim Filip, Petr Marek(参考訳) 位置と運動量の同時的および非自明な変化による力センシングには,マルチパラメータ推定が必要である。 したがって、すべてのパラメータの同時推定を可能にする量子プローブの設計は重要なタスクである。 量子調和振動子の位置と運動量の共役変化を推定する最適な方法は、絡み合ったあるいは量子非ガウス状態のプローブを用いる。 古典的に位置や運動量測定と相関した異なる圧縮されたガウス状態の独立した集合を用いて、同様の結果が得られることを示す。 この結果は、プローブ状態と力センシングに直接適用できる測定値との古典的相関の未探索のパワーを示す。

Multi-parameter estimation is necessary for force sensing due to simultaneous and nontrivial small changes of position and momentum. Designing quantum probes that allow simultaneous estimation of all parameters is therefore an important task. The optimal methods for estimation of the conjugate changes of position and momentum of quantum harmonic oscillator employ probes in entangled or quantum non-Gaussian states. We show that the same results can be obtained in a significantly more feasible fashion by employing independent sets of differently squeezed Gaussian states classically correlated to position or momentum measurements. This result demonstrates an unexplored power of a classical correlation between the probe states and measurements directly applicable to force sensing
翻訳日:2023-02-22 22:02:53 公開日:2022-08-02
# 電荷密度波の光誘起融解後のトポロジカル欠陥のダイナミクス

Dynamics of topological defects after a photo-induced melting of a charge-density wave ( http://arxiv.org/abs/2203.05001v2 )

ライセンス: Link先を確認
Andrei E. Tarkhov, A. V. Rozhkov, Alfred Zong, Anshul Kogar, Nuh Gedik, Boris V. Fine(参考訳) 固体中の電荷密度波秩序は、強いレーザーパルスによって一時的に「溶融」することができる。 ここでは、離散Gross-Pitaevskii方程式を立方体格子上に使用し、そのようなパルスに続くCDW長距離位相コヒーレンスの回復をシミュレートする。 シミュレーションの結果, システムの非平衡加熱と冷却により生成した3次元位相欠陥(cdw転位)により, 回復過程が劇的に遅くなることが示唆された。 全体として, 模擬CDW回収はLaTe$_3$の最近のポンププローブ実験を顕著に再現した。

Charge-density-wave order in a solid can be temporarily "melted" by a strong laser pulse. Here we use the discrete Gross-Pitaevskii equation on a cubic lattice to simulate the recovery of the CDW long-range phase coherence following such a pulse. Our simulations indicate that the recovery process is dramatically slowed down by the three-dimensional topological defects - CDW dislocations - created as a result of strongly nonequilibrium heating and cooling of the system. Overall, the simulated CDW recovery was found to be remarkably reminiscent of a recent pump-probe experiment in LaTe$_3$.
翻訳日:2023-02-22 19:16:31 公開日:2022-08-02
# スペクトル定理のないフォン・ノイマンの情報エンジン

Von Neumann's information engine without the spectral theorem ( http://arxiv.org/abs/2203.05258v2 )

ライセンス: Link先を確認
Shintaro Minagawa, Hayato Arai, Francesco Buscemi(参考訳) フォン・ノイマンは、半透過性膜と量子ラベル粒子の理想気体を含む思考実験において熱力学の第2法則の妥当性を仮定して量子状態のエントロピーの式を得た。 フォン・ノイマンの主張は、ほとんどが操作的であったにもかかわらず、スペクトル定理を用いた操作的物語から決定的に逸脱している。 この研究において、フォン・ノイマンの議論におけるスペクトル定理の役割は、反復性と可逆性の操作的仮定によって引き継がれることを証明し、これらを用いて、一意的なスペクトル分解を持たない理論においても第二法則の結果を探究することができる。 副産物として、Groenewold-Ozawa情報ゲインを、適切な楽器の順序付けのための自然なモノトンとして取得し、量子理論以上で有効な操作的解釈を与える。

Von Neumann obtained the formula for the entropy of a quantum state by assuming the validity of the second law of thermodynamics in a thought experiment involving semipermeable membranes and an ideal gas of quantum-labeled particles. Despite being operational in the most part, von Neumann's argument crucially departs from an operational narrative in its use of the spectral theorem. In this work we show that the role of the spectral theorem in von Neumann's argument can be taken over by the operational assumptions of repeatability and reversibility, and using these we are able to explore the consequences of the second law also in theories that do not possess a unique spectral decomposition. As a byproduct, we obtain the Groenewold--Ozawa information gain as a natural monotone for a suitable ordering of instruments, providing it with an operational interpretation valid in quantum theory and beyond.
翻訳日:2023-02-22 12:16:27 公開日:2022-08-02
# 文化コンテンツ推薦における共通性の測定:文化市民権強化のためのレコメンダシステム

Measuring Commonality in Recommendation of Cultural Content: Recommender Systems to Enhance Cultural Citizenship ( http://arxiv.org/abs/2208.01696v1 )

ライセンス: Link先を確認
Andres Ferraro, Gustavo Ferreira, Fernando Diaz, Georgina Born(参考訳) レコメンダシステムは文化コンテンツをキュレートするための主要な手段となり、個々の文化体験の性質に大きな影響を与えている。 推薦システムに関するほとんどの研究はパーソナライズされたユーザーエクスペリエンスのために最適化されているが、このパラダイムは、推薦システムが総人口全体にわたる文化体験に影響を与える方法を捉えていない。 既存の新奇性、多様性、公正性の研究は、システムが文化的コンテンツのより広い社会的役割とどのように関係しているかを調査するが、それらは文化を中核的な概念と挑戦として適切に中心にしていない。 本研究は,特定の文化内容のカテゴリで,特定のユーザ集団に親しみやすいレコメンデーションの度合いを反映した新しい尺度として,共通性を導入する。 提案する共通性指標は,コンピュータ科学研究者と社会科学と人文科学の学際的な対話を通じて開発された一連の議論に応答する。 民主主義社会における非営利・公共サービスメディアシステムを支える原則に言及し、文化市民権強化サービスにおけるアドレスとコンテンツの多様性の普遍性を、特に文化コンテンツ配信レコメンダシステムに関連する目標として特定する。 映画レコメンデーションの多様性を多元的文化的体験の向上のケーススタディとして捉え,共通性と既存実用性,多様性,公正性の指標を用いて,システムのパフォーマンスを実証的に比較した。 以上の結果から,共通性は既存の指標と相補的なシステム行動の特性を捉え,利用者の文化的市民性を高めることを目的としたレコメンデーターシステムにおける代替的非個人化介入の必要性が示唆された。 このようにして、共通性は、デジタルメディアとmlシステムのための「公益」な根拠を開発する奨学金の増大に寄与する。

Recommender systems have become the dominant means of curating cultural content, significantly influencing the nature of individual cultural experience. While the majority of research on recommender systems optimizes for personalized user experience, this paradigm does not capture the ways that recommender systems impact cultural experience in the aggregate, across populations of users. Although existing novelty, diversity, and fairness studies probe how systems relate to the broader social role of cultural content, they do not adequately center culture as a core concept and challenge. In this work, we introduce commonality as a new measure that reflects the degree to which recommendations familiarize a given user population with specified categories of cultural content. Our proposed commonality metric responds to a set of arguments developed through an interdisciplinary dialogue between researchers in computer science and the social sciences and humanities. With reference to principles underpinning non-profit, public service media systems in democratic societies, we identify universality of address and content diversity in the service of strengthening cultural citizenship as particularly relevant goals for recommender systems delivering cultural content. Taking diversity in movie recommendation as a case study in enhancing pluralistic cultural experience, we empirically compare systems' performance using commonality and existing utility, diversity, and fairness metrics. Our results demonstrate that commonality captures a property of system behavior complementary to existing metrics and suggest the need for alternative, non-personalized interventions in recommender systems oriented to strengthening cultural citizenship across populations of users. In this way, commonality contributes to a growing body of scholarship developing 'public good' rationales for digital media and ML systems.
翻訳日:2023-02-19 10:17:12 公開日:2022-08-02
# Eコマースと政府におけるブロックチェーンスマートコントラクトの適用

Application of Blockchain Smart Contracts in E-Commerce and Government ( http://arxiv.org/abs/2208.01350v1 )

ライセンス: Link先を確認
Kamal Kishor Singh(参考訳) 技術進歩とeコマースモデルの確立により、ビジネス上の課題はオンラインプラットフォームに移行した。 セルフエグゼクティブと自律プログラムをブロックチェーン技術に組み込むという約束は、ニッチなソリューションへの関心と利用が高まっている。 質的なインタビューを用いて、スマートコントラクトに関する業界リーダー11人の意見を求めた。 eコマース、特に金融取引、記録保管、不動産、不動産管理、保険、住宅ローン、サプライチェーン管理、データストレージ、信用の認可、不自然化情報、航空部門、商品の出荷、請求ファイナンスなどの分野において、この技術は勢いを増している。 スマートコントラクトの普及と展開の大きなメリットには、分散化、有効性、コスト効率性、透明性、スピード、自律性、透明性、プライバシ、セキュリティの提供能力が含まれ、新たなビジネスモデルの出現を促進する。 オンライン取引に革命をもたらすこれらの利点にもかかわらず、テクノロジーは多面的な課題に直面した。 スマートテクノロジは10年経ったばかりで、セキュリティ、透明性、費用対効果、規制のフレームワークは進歩していない。 さらに、組織的、技術的課題は、レガシーシステムとの非互換性、スケーラビリティ、バグ、スピード、才能の欠如、スマートコントラクトに関する理解など、デプロイメントを制限します。 そのため、政策立案者、開発者、研究者、実践者、その他の利害関係者は、中小企業によるスマートコントラクトのグローバル導入を可能にするために、テクノロジーを育成し、関連する問題に対処するための努力と時間を投資する必要がある。

With technological advances and the establishment of e-commerce models, business challenges have shifted to online platforms. The promise of embedding self-executing and autonomous programs into blockchain technologies has attracted increased interest and its use in niche solutions. Using qualitative interviews, this paper sought the opinions of the eleven industry leaders regarding smart contracts. Findings reveal that the technology is gaining momentum in e-commerce, particularly in financial transfer, record-keeping, real estate, and property management, insurance, mortgage, supply chain management, data storage, authorization of credit, denaturalized intelligence, aviation sector, shipping of products, invoice financing and other domains. The significant benefits of widespread adoption and deployment of smart contracts include their capability to deliver decentralization, efficacy, cost-effectiveness, transparency, speed, autonomy, transparency, privacy, and security, encouraging the emergence of novel business models. Albeit these benefits that revolutionize online transactions, the technology faced multifaceted challenges. Smart technologies are only a decade old and are not advanced in security, transparency, cost-effectiveness, and regulatory framework. Furthermore, organizational, and technical challenges limit their deployment: incompatibility with legacy systems, scalability, bugs, speed, and lack of talent and understanding regarding smart contracts. Consequently, policymakers, developers, researchers, practitioners, and other stakeholders need to invest effort and time to foster the technologies and address pertinent issues to enable the global adoption of smart contracts by small and big businesses.
翻訳日:2023-02-19 10:16:42 公開日:2022-08-02
# 謙虚な機械:不信不信の過小評価の費用に出席する

Humble Machines: Attending to the Underappreciated Costs of Misplaced Distrust ( http://arxiv.org/abs/2208.01305v1 )

ライセンス: Link先を確認
Bran Knowles, Jason D'Cruz, John T. Richards, Kush R. Varshney(参考訳) AIがますます人間の意思決定者より優れているのは不思議だが、一般大衆はAIが彼らの生活に影響を及ぼす決定を下すことに不信感を抱いている。 本稿では,その一つの理由を説明する新しい理論について考察する。 我々は、AIに対する公的な不信は、偽陰性の少ないコストよりも偽陽性のコストの削減を優先するシステムを設計する道徳的な結果であると提案する。 私たちが「不信」と特徴づけるこのようなシステムは、信頼に値する個人を誤分類する傾向があり、それら個人と人間とAIの信頼関係全体に因果関係が生じる。 究極的には、AIに対する公的な不信は、誤分類の可能性を十分に根底から懸念しているからである。 本稿では,aiに対する公的な信頼の回復には,システムが「ハンブル・トラスト」のスタンスを具現化するように設計され,偽陰性に関連する不適切な不信の道徳的コストが,開発と使用の間に適切に重み付けられるようにすることを提案する。

It is curious that AI increasingly outperforms human decision makers, yet much of the public distrusts AI to make decisions affecting their lives. In this paper we explore a novel theory that may explain one reason for this. We propose that public distrust of AI is a moral consequence of designing systems that prioritize reduction of costs of false positives over less tangible costs of false negatives. We show that such systems, which we characterize as 'distrustful', are more likely to miscategorize trustworthy individuals, with cascading consequences to both those individuals and the overall human-AI trust relationship. Ultimately, we argue that public distrust of AI stems from well-founded concern about the potential of being miscategorized. We propose that restoring public trust in AI will require that systems are designed to embody a stance of 'humble trust', whereby the moral costs of the misplaced distrust associated with false negatives is weighted appropriately during development and use.
翻訳日:2023-02-19 10:15:56 公開日:2022-08-02
# 動く人間を表す運動方程式はいくつあるか?

How Many Equations of Motion Describe a Moving Human? ( http://arxiv.org/abs/2207.14331v2 )

ライセンス: Link先を確認
Gabriele De Luca, Thomas J. Lampoltshammer, Johannes Scholz(参考訳) 人間は宇宙で動くものなのです。 宇宙で動くすべてのものと同様に、微分方程式を使ってそれらの運動を時間と位置(速度、加速度など)をマッピングする関数の集合として記述することができる。 不斉対象を用いて、解析力学でよく見られるように、その位置の2階時間微分を考慮に入れた微分方程式を用いて、それらの軌道を確実に予測することができる。 しかし、アニメート対象では特に人間では、その軌道を定義する方程式の集合の濃度が分かっていない。 例えば、岩に比べて認知や行動の複雑さが複雑であるために、人間の動きは、物理的システムの動作を記述するのに一般的に使われるものよりも、より複雑な記述を必要としていると考えるのは誘惑的かもしれない。 本稿では,人間の移動に関する現実世界のデータセットについて検討し,各(計算されるが,分別化されている)付加時間微分によって付加される情報を検討し,その特定のデータセットに対して,前者の線形変換として表現できない位置微分の最大次数を求める。 この方法では、観測された軌跡を正確に記述する最小モデルの次元を同定する。 加速後の高次微分はすべて、以前の時間微分の1つに線形依存していることが分かる。 この尺度は雑音に対して頑健であり、測定位置の関数として数値的に時間-導出関数を計算するために使用する微分手法の選択である。 この結果は、運動する人間の運動論を記述するのに使用できる微分方程式の集合に経験的な制約を課す。

A human is a thing that moves in space. Like all things that move in space, we can in principle use differential equations to describe their motion as a set of functions that maps time to position (and velocity, acceleration, and so on). With inanimate objects, we can reliably predict their trajectories by using differential equations that account for up to the second-order time derivative of their position, as is commonly done in analytical mechanics. With animate objects, though, and with humans, in particular, we do not know the cardinality of the set of equations that define their trajectory. We may be tempted to think, for example, that by reason of their complexity in cognition or behaviour as compared to, say, a rock, then the motion of humans requires a more complex description than the one generally used to describe the motion of physical systems. In this paper, we examine a real-world dataset on human mobility and consider the information that is added by each (computed, but denoised) additional time derivative, and find the maximum order of derivatives of the position that, for that particular dataset, cannot be expressed as a linear transformation of the previous. In this manner, we identify the dimensionality of a minimal model that correctly describes the observed trajectories. We find that every higher-order derivative after the acceleration is linearly dependent upon one of the previous time-derivatives. This measure is robust against noise and the choice for differentiation techniques that we use to compute the time-derivatives numerically as a function of the measured position. This result imposes empirical constraints on the possible sets of differential equations that can be used to describe the kinematics of a moving human.
翻訳日:2023-02-19 10:13:05 公開日:2022-08-02
# 2次元量子イジングモデルのリー・ヤン理論

Lee-Yang theory of the two-dimensional quantum Ising model ( http://arxiv.org/abs/2204.08223v2 )

ライセンス: Link先を確認
Pascal M. Vecsei, Jose L. Lado, and Christian Flindt(参考訳) 相互作用する量子多体系の位相図を決定することは、量子材料の理解や設計といった幅広い問題において重要な課題である。 古典平衡系では、リー=ヤン形式主義は位相遷移の厳密な基礎を提供し、これらのアイデアは量子領域にも拡張されている。 ここでは、有限温度による熱揺らぎを含む量子相転移のlee-yang理論を開発し、古典的lee-yang形式論と最近のゼロ温度における相転移の理論との関係を提供する。 本手法は,有限サイズの系における順序パラメータのモーメント生成関数の解析特性を利用し,テンソルネットワーク計算と組み合わせて実装することができる。 具体的には、対称性を破った位相の開始は、順序パラメータに結合する計数場の複素平面の原点に近づくモーメント生成関数の零点によって信号される。 さらに、オーダーパラメータの高累積を測定または算出することにより、ゼロを得ることができる。 本研究では,2次元量子イジングモデルの位相図を決定し,有限温度における2次元量子系の臨界挙動を予測する手法の可能性を示す。

Determining the phase diagram of interacting quantum many-body systems is an important task for a wide range of problems such as the understanding and design of quantum materials. For classical equilibrium systems, the Lee-Yang formalism provides a rigorous foundation of phase transitions, and these ideas have also been extended to the quantum realm. Here, we develop a Lee-Yang theory of quantum phase transitions that can include thermal fluctuations caused by a finite temperature, and it thereby provides a link between the classical Lee-Yang formalism and recent theories of phase transitions at zero temperature. Our methodology exploits analytic properties of the moment generating function of the order parameter in systems of finite size, and it can be implemented in combination with tensor-network calculations. Specifically, the onset of a symmetry-broken phase is signaled by the zeros of the moment generating function approaching the origin in the complex plane of a counting field that couples to the order parameter. Moreover, the zeros can be obtained by measuring or calculating the high cumulants of the order parameter. We determine the phase diagram of the two-dimensional quantum Ising model and thereby demonstrate the potential of our method to predict the critical behavior of two-dimensional quantum systems at finite temperatures.
翻訳日:2023-02-16 11:51:55 公開日:2022-08-02
# 漸近平坦時空におけるモデストホログラフィーとバルク再構成

Modest holography and bulk reconstruction in asymptotically flat spacetimes ( http://arxiv.org/abs/2204.13133v3 )

ライセンス: Link先を確認
Erickson Tjoa and Finnian Gray(参考訳) 本研究では、漸近的に平坦な時空における境界量子場理論(QFT)の2点相関子を用いて、漸近的に平坦な時空におけるバルク幾何学の「モデスト」ホログラフィック再構成を示す。 境界 QFT は時空の零境界、すなわち null infinity および/またはキリング地平線上に存在する。 バルク復元は2つの無関係な結果に依存している。 (i)バルク多様体内に存在する自由量子場とそのヌル境界上に存在する自由量子場との間には、バルク対境界型対応が存在する。 (ii) バルクに居住する場のアダマール拡大を利用してメートル法を構築することができる。 このホログラフィック再構成は、AdS/CFTの意味では非相互作用的であり、強弱なホログラフィック双対性ではないという点において「最も良い」が、ある程度穏やかな条件下での一般的な漸近的に平坦な時空に対して作用する。

In this work we present a "modest" holographic reconstruction of the bulk geometry in asymptotically flat spacetime using the two-point correlators of boundary quantum field theory (QFT) in asymptotically flat spacetime. The boundary QFT lives on the null boundary of the spacetime, namely null infinity and/or the Killing horizons. The bulk reconstruction relies on two unrelated results: (i) there is a bulk-to-boundary type correspondence between free quantum fields living in the bulk manifold and free quantum fields living on its null boundary, and (ii) one can construct the metric by making use of the Hadamard expansion of the field living in the bulk. This holographic reconstruction is "modest" in that the fields used are non-interacting and not strong-weak holographic duality in the sense of AdS/CFT, but it works for generic asymptotically flat spacetime subject to some reasonably mild conditions.
翻訳日:2023-02-15 08:59:08 公開日:2022-08-02
# ボソニック量子計算のアドバンテージのための資源

Resources for bosonic quantum computational advantage ( http://arxiv.org/abs/2207.11781v2 )

ライセンス: Link先を確認
Ulysse Chabaud and Mattia Walschaers(参考訳) 量子コンピュータは、古典的コンピュータを劇的に上回ることを約束している。 しかし、そのような計算上の利点を可能にする非古典的資源は、単一の資源ではなく、これらの潜在的な利点に責任を負うことができる多くの微妙な相互作用であるため、特定することが困難である。 本研究では,すべての計算資源が入力状態に含まれる連続変数サンプリング計算にボソニック量子計算が再キャスト可能であることを示す。 この還元を用いて,入力状態と測定設定の両方の非ガウシアン星ランクに複雑性がスケールするボソニック計算の強シミュレーションのための一般的な古典的アルゴリズムを導出する。 さらに,関連する連続変数サンプリング計算の効率的な古典シミュレーションの条件について検討し,パッシブ分離性の欠如に基づく非ガウシアン絡みの操作概念を特定し,スクイージング,非ガウシアン性,絡み合いといったボソニック量子計算資源の相互作用を明らかにする。

Quantum computers promise to dramatically outperform their classical counterparts. However, the non-classical resources enabling such computational advantages are challenging to pinpoint, as it is not a single resource but the subtle interplay of many that can be held responsible for these potential advantages. In this work, we show that every bosonic quantum computation can be recast into a continuous-variable sampling computation where all computational resources are contained in the input state. Using this reduction, we derive a general classical algorithm for the strong simulation of bosonic computations, whose complexity scales with the non-Gaussian stellar rank of both the input state and the measurement setup. We further study the conditions for an efficient classical simulation of the associated continuous-variable sampling computations and identify an operational notion of non-Gaussian entanglement based on the lack of passive separability, thus clarifying the interplay of bosonic quantum computational resources such as squeezing, non-Gaussianity and entanglement.
翻訳日:2023-02-03 22:06:00 公開日:2022-08-02
# 中性原子量子プロセッサにおける組合せグラフ問題の効率的な解法

Efficient protocol for solving combinatorial graph problems on neutral-atom quantum processors ( http://arxiv.org/abs/2207.13030v2 )

ライセンス: Link先を確認
Wesley da Silva Coelho, Mauro D'Arcangelo and Louis-Paul Henry(参考訳) 中性原子プラットフォームでは、特定の量子状態の調製は通常、パルスシェーピング(すなわち、系に関連するハミルトニアンの時間依存性を最適化することによって達成される。 このプロセスは、量子プロセッサの最終状態を何度もサンプリングする必要があるため、非常にコストがかかる可能性がある。 したがって、特定の組合せグラフ問題を解決するための良いパルスと良い埋め込みを決定することは、アナログアプローチの最も重要なボトルネックの1つである。 そこで本研究では,変動型アナログ量子コンピューティングと機械学習を組み合わせた,厳密な組合せグラフ問題の解法を提案する。 数値シミュレーションにより,提案プロトコルは量子デバイス上で実行するイテレーション数を劇的に削減できることを示した。 最後に,最近提案されたQPUのベンチマーク指標であるQスコアを推定することにより,提案手法の品質を評価する。

On neutral atom platforms, preparing specific quantum states is usually achieved by pulse shaping, i.e., by optimizing the time-dependence of the Hamiltonian related to the system. This process can be extremely costly, as it requires sampling of the final state in the quantum processor many times. Hence, determining a good pulse, as well as a good embedding, to solve specific combinatorial graph problems is one of the most important bottlenecks of the analog approach. In this work, we propose a novel protocol for solving hard combinatorial graph problems that combines variational analog quantum computing and machine learning. Our numerical simulations show that the proposed protocol can reduce dramatically the number of iterations to be run on the quantum device. Finally, we assess the quality of the proposed approach by estimating the related Q-score, a recently proposed metric aimed at benchmarking QPUs.
翻訳日:2023-02-03 16:53:05 公開日:2022-08-02
# UV-Vis分光法によるダイヤモンド中の一置換窒素N$_s^0$の迅速定量

Rapid determination of single substitutional nitrogen N$_s^0$ concentration in diamond from UV-Vis spectroscopy ( http://arxiv.org/abs/2207.14278v2 )

ライセンス: Link先を確認
T. Luo, L. Lindner, R. Blinder, M. Capelli, J. Langer, V. Cimalla, F. A. Hahl, X. Vidal, and J. Jeske(参考訳) 単一置換窒素原子N$_s^0$は、ダイヤモンド中の窒素空孔(NV)中心を作るための前提条件である。 電子供与体として、所望のNV$^-$中心を作り、光イオン化に対する電荷安定性を提供するが、デコヒーレンスの主源でもある。 したがって、N$_s^0$濃度の精密かつ迅速な決定は、材料改良と応用の観点から、多くのNV関連研究にとって重要な利点である。 本稿では,紫外線可視範囲の吸収スペクトルと270nm吸収帯の適合性に基づいて,n$_s^0$濃度を求める方法を提案する。 UV可視分光法は、確立された方法よりも有利な実験的な単純さと広範な可用性を有する。 大量のサンプルであっても、N$_s^0$密度を迅速に決定することができる。 本手法は, 単結晶中のn$_s^0$濃度の変動が大きいダイヤモンドに対して, 局所的な測定能力だけでなく, 低濃度を決定する上でのさらなる利点を示す。 電子常磁性共鳴(EPR)を用いたクロスチェックでは、この手法の信頼性が高く、270~nm吸収帯の吸収断面積が$\sigma=1.96\pm0.15$cm$^{-1}\cdot$ppm$^{-1}$(共通対数)または$\sigma_e=4.51\pm0.35$cm$^{-1}\cdot$ppm$^{-1}$(自然対数)が示される。 使用する機械とは無関係で、n$_s^0$濃度を判定するための標準キャラクタリゼーションとして広く実装できる迅速かつ実用的でレプリカブルな経路を提供する。

Single substitutional nitrogen atoms N$_s^0$ are the prerequisite to create nitrogen-vacancy (NV) centers in diamonds. They serve as the electron donors to create the desired NV$^-$ center, provide charge stability against photo-ionisation, but also are the main source of decoherence. Therefore, precise and quick determination of N$_s^0$ concentration is a key advantage to a multitude of NV-related research in terms of material improvement as well as applications. Here we present a method to determine the N$_s^0$ concentration based on absorption spectroscopy in the UV-Visible range and fitting the 270 nm absorption band. UV-Visible spectroscopy has experimental simplicity and widespread availability that bear advantages over established methods. It allows a rapid determination of N$_s^0$ densities, even for large numbers of samples. Our method shows further advantages in determining low concentrations as well as the ability to measure locally, which is highly relevant for diamonds with largely varying N$_s^0$ concentrations in a single crystal. A cross-check with electron paramagnetic resonance (EPR) shows high reliability of our method and yields the absorption cross section of the 270~nm absorption band, $\sigma=1.96\pm0.15$ cm$^{-1}\cdot$ppm$^{-1}$ (in common logarithm) or $\sigma_e=4.51\pm0.35$ cm$^{-1}\cdot$ppm$^{-1}$ (in natural logarithm), which serves as a reference to determine N$_s^0$ concentrations, and makes our method applicable for others without the need for a known N$_s^0$-reference sample and calibration. We provide a rapid, practical and replicable pathway that is independent of the machine used and can be widely implemented as a standard characterization method for the determination of N$_s^0$ concentrations.
翻訳日:2023-02-03 04:52:17 公開日:2022-08-02
# 実フィールド光ファイバー50km以上における操作絡み合いに基づく量子鍵分布

Operational entanglement-based quantum key distribution over 50 km of real-field optical fibres ( http://arxiv.org/abs/2207.14707v2 )

ライセンス: Link先を確認
Yoann Pelet, Gr\'egory Sauder, Mathis Cohen, Laurent Labont\'e, Olivier Alibart, Anthony Martin, and S\'ebastien Tanzilli(参考訳) エネルギー時間エンタングルメントに基づく実フィールド量子鍵分布リンクを提案する。 3つのノードは、総距離50\,kmの光ファイバーによってニース市に接続されている。 我々は、高品質なエネルギー時間交絡光子対の光源を実装し、専用のチャネルを必要としない終局のクロックの革新的な遠隔同期法と関連する量子状態の投射を積極的に安定化させた。 このシステムは、ITU 100\,GHz標準の通信グリッドと互換性があり、1対のチャネルあたりの生のキーレート40\,kbpsが得られる。 処理後ソフトウェアは、秘密鍵をリアルタイムに確立するための必要な処理手順をすべて実行する。 これらの組込みシステムと性能の達成により、このネットワークは、実フィールドで実装された最初の完全に運用されたエンタングルメントベースの大都市圏量子ネットワークとなる。

We present a real field quantum key distribution link based on energy-time entanglement. Three nodes are connected over the city of Nice by means of optical fibers with a total distance of 50\,km. We have implemented a high-quality source of energy-time entangled photon pairs and actively stabilized analysers to project the quantum states, associated with an innovative remote synchronization method of the end stations' clocks which does not require any dedicated channel. The system is compatible with the ITU 100\,GHz standard telecom-grid, through which a raw key rate of 40\,kbps per pair of channels is obtained. A post-treatment software performs all the necessary post-processing procedures enabling to establish secret keys in real time. All of those embedded systems and achieved performance make this network the first fully operational entanglement based metropolitan quantum network to be implemented in real field.
翻訳日:2023-02-03 02:15:38 公開日:2022-08-02
# マクロ的および文脈的リアリズムに基づく量子力学の不完全性の議論--猫状態のEPRとGHZパラドックス

Argument for the incompleteness of quantum mechanics based on macroscopic and contextual realism: EPR and GHZ paradoxes with cat states ( http://arxiv.org/abs/2208.01225v1 )

ライセンス: Link先を確認
Jesse Fulton, Run Yan Teh and M. D. Reid(参考訳) EPRパラドックス(Einstein-Rosen-Podolsky paradox)は、局所現実主義の前提に基づく量子力学の不完全性に関する議論である。 一般論として、局所現実主義はベルやグリーンベルガー・ホーネ・ザイリンガー (GHZ) の実験によって実現不可能であるからである。 本稿では,GHZ と Bell の予測では実現できない前提に基づいて,EPR パラドックスの代替版を提示することで,この結論に挑戦する。 まず、bohm-epr と ghz のパラドックスが、2つの巨視的に異なる状態として実現された qubits から形成されるマクロスピン $s_\theta$ を用いてどのように証明できるかを説明する。 これにより、量子力学とマクロリアリズム(MR)の「すべてまたは何も」の非互換性が確立される。 しかし、s_\theta$ という2つの巨視的に異なる固有状態の重ね合わせにおいて、mr は $s_\theta$ の結果に対して一定の値を仮定する。 決定論的マクロスコープリアリズム(dMR)は、相互作用$U_\theta$が測定設定$\theta$を決定するか否かにかかわらずMRを肯定する。 対照的に、より弱い仮定である弱マクロ的リアリズム(wMR)は、$U_\theta$の後に用意されたシステムに対してMRを仮定する。 GHZパラドックスはdMRを否定するが、wMRと一致しないことを示す。 しかし、量子力学の不完全性に対するボーム-EPRパラドックスは、どちらの形態のMRにもとづいて生じることが示され、wMRはファルシフィケートされていないため、このことがEPRパラドックスの解釈方法の疑問を提起する。 我々は、元のeprパラドックスを再検討し、同様の結果を得る: epr引数は、ベル実験やghz実験で偽造できない局所現実主義(英語版)(wlr)の文脈バージョンに基づいている。 前提となる wLR と wMR のポジトリアリズムと、ポインタベース($U_\theta$ 以降)で準備されたシステムに対する非揺らぎは、量子力学との整合性を与えるさらなる予測をもたらす。

The Einstein-Rosen-Podolsky (EPR) paradox gives an argument for the incompleteness of quantum mechanics based on the premise of local realism. The general viewpoint is that the argument is compromised, because local realism is falsifiable by Bell or Greenberger-Horne-Zeilinger (GHZ) experiments. In this paper, we challenge this conclusion, by presenting alternative versions of the EPR paradox based on premises not falsifiable by the GHZ and Bell predictions. First, we explain how the Bohm-EPR and GHZ paradoxes can be demonstrated using macroscopic spins $S_\theta$ formed from qubits realized as two macroscopically distinct states. This establishes an 'all or nothing' incompatibility between quantum mechanics and macroscopic realism (MR). However, we note different definitions of MR. For a system in a superposition of two macroscopically distinct eigenstates of $S_\theta$, MR posits a definite value for the outcome of $S_\theta$. Deterministic macroscopic realism (dMR) posits MR regardless of whether the interaction $U_\theta$ determining the measurement setting $\theta$ has occurred. In contrast, the weaker assumption, weak macroscopic realism (wMR), posits MR for the system prepared after $U_\theta$. We show that the GHZ paradox negates dMR but is consistent with wMR. Yet, we show that a Bohm-EPR paradox for the incompleteness of quantum mechanics arises based on either form of MR. Since wMR is not falsified, this raises the question of how to interpret the EPR paradox. We revisit the original EPR paradox and find a similar result: The EPR argument can be based on a contextual version of local realism (wLR) not falsifiable by Bell or GHZ experiments. The premises wLR and wMR posit realism and no-disturbance for systems prepared with respect to a pointer basis (after $U_\theta$), leading to further predictions giving consistency with quantum mechanics.
翻訳日:2023-02-02 14:37:01 公開日:2022-08-02
# ノイズプラトン量子ネットワークのエネルギー輸送と最適設計

Energy transport and optimal design of noisy Platonic quantum networks ( http://arxiv.org/abs/2208.01212v1 )

ライセンス: Link先を確認
Clara Javaherian, Chris Ferrie(参考訳) 最適輸送は効率的な量子ネットワークを設計するための主要な目標の1つである。 本研究では, 減音と散逸マルコフ雑音に影響を受けるプラトニックジオメトリを持つ3次元量子ネットワークについて, 最大移動量について検討した。 最適設計に対応するネットワークと環境特性を,4,6,8,12の5つのプラトンネットワークと,その1つのサイトがシンクサイトに接続されている20のサイトについて,散逸過程を通じて検討した。 このような最適設計は、量子回路のスイッチングや多重化のような様々な応用が期待できる。

Optimal transport is one of the primary goals for designing efficient quantum networks. In this work, the maximum transport is investigated for three-dimensional quantum networks with Platonic geometries affected by dephasing and dissipative Markovian noise. The network and the environmental characteristics corresponding the optimal design are obtained and investigated for five Platonic networks with 4, 6, 8, 12, and 20 number of sites that one of the sites is connected to a sink site through a dissipative process. Such optimal designs could have various applications like switching and multiplexing in quantum circuits.
翻訳日:2023-02-02 14:36:02 公開日:2022-08-02
# 不正検出のための教師なし量子機械学習

Unsupervised quantum machine learning for fraud detection ( http://arxiv.org/abs/2208.01203v1 )

ライセンス: Link先を確認
Oleksandr Kyriienko, Einar B. Magnusson(参考訳) 我々は、異常検出のための量子プロトコルを開発し、クレジットカード不正検出(FD)のタスクに適用する。 まず,教師なしおよび教師なしの機械学習手法に基づく古典的ベンチマークを構築し,平均精度を異常データ検出のためのロバストな指標として選択する。 直接比較が容易なカーネルベースのアプローチに注目し、教師なしモデリングを1クラスサポートベクトルマシン(OC-SVM)に基礎を置いている。 次に、異なるタイプの量子カーネルを用いて異常検出を行い、量子FDが同等の古典的プロトコルに挑戦することができることを観測する(データ埋め込みにおける量子ビットの数に等しい)。 レジスタを最大20量子ビットでシミュレーションすると、再アップロードした量子カーネルは平均精度が向上し、システムサイズが大きくなるという利点がある。 具体的には、20量子ビットで平均精度の量子古典的分離が15%に達する。 短期的および中期的な量子ハードウェアによる不正検出の可能性について検討し,今後の改善の可能性について述べる。

We develop quantum protocols for anomaly detection and apply them to the task of credit card fraud detection (FD). First, we establish classical benchmarks based on supervised and unsupervised machine learning methods, where average precision is chosen as a robust metric for detecting anomalous data. We focus on kernel-based approaches for ease of direct comparison, basing our unsupervised modelling on one-class support vector machines (OC-SVM). Next, we employ quantum kernels of different type for performing anomaly detection, and observe that quantum FD can challenge equivalent classical protocols at increasing number of features (equal to the number of qubits for data embedding). Performing simulations with registers up to 20 qubits, we find that quantum kernels with re-uploading demonstrate better average precision, with the advantage increasing with system size. Specifically, at 20 qubits we reach the quantum-classical separation of average precision being equal to 15%. We discuss the prospects of fraud detection with near- and mid-term quantum hardware, and describe possible future improvements.
翻訳日:2023-02-02 14:35:53 公開日:2022-08-02
# フォック空間におけるマイスナー効果

Meissner effect in Fock space ( http://arxiv.org/abs/2208.01539v1 )

ライセンス: Link先を確認
J. Mumford(参考訳) 不純物で1つのボソニックジョセフソン接合(BJJ)を周期的に駆動することにより、系のフォック空間に合成ゲージ場が生成される。 臨界合成ゲージフラックスにおいて、基底状態は、磁場が印加されたタイプII超伝導体に見られるマイスナー-アブリコソフ-渦遷移に類似した量子相転移を受ける。 BJJのボソン間の魅力的な相互作用を含む第2の量子相転移は、マイスナー-アブリコソフ-渦転移に対する系の感度を高めることが示されている。

By periodically driving a single bosonic Josephson junction (BJJ) with an impurity, a synthetic gauge field is generated in the Fock space of the system. At a critical synthetic gauge flux the ground state undergoes a quantum phase transition which is analogous to the Meissner-Abrikosov-vortex transition found in type-II superconductors with an applied magnetic field. A second quantum phase transition involving attractive interactions between the bosons of the BJJ is shown to enhance the sensitivity of the system to the Meissner-Abrikosov-vortex transition.
翻訳日:2023-02-02 14:30:14 公開日:2022-08-02
# エルミートおよび非エルミート量子電磁力学の比較

Comparing Hermitian and Non-Hermitian Quantum Electrodynamics ( http://arxiv.org/abs/2208.01532v1 )

ライセンス: Link先を確認
Jake Southall, Daniel Hodgson, Robert Purdy and Almut Beige(参考訳) 近年、非エルミート量子物理学は、様々な対称性を持つ量子系をモデル化するために、量子光学や凝縮物質コミュニティで人気が高まっている。 本稿では, 局所電場と磁場の共振器関係を示す非標準内積を同定し, 量子化された電磁界の自然な局所的生物直交的記述を導出する。 この記述と、局所光子粒子の状態、すなわち位置(ブラップ)に局在したいわゆるボソンの状態が、従来のエルミート内積の下で直交する別の局所エルミート記述を比較すると、この2つのアプローチの間に等価性があることが分かる。 異なる記述の物理的解釈には慎重に考慮する必要がある。 エルミート的あるいは非エルミート的アプローチがより適切であるかどうかは、我々がモデル化したい状況に依存する。

In recent years, non-Hermitian quantum physics has gained a lot in popularity in the quantum optics and condensed matter communities in order to model quantum systems with varying symmetries. In this paper, we identify a non-standard inner product that implies bosonic commutator relations for local electric and magnetic field observables and leads to a natural local biorthogonal description of the quantised electromagnetic field. When comparing this description with an alternative local Hermitian description, in which the states of local photonic particles - i.e. of so-called bosons localised in position (blips) - are orthogonal under the conventional Hermitian inner product, we find that there is an equivalence between the two approaches. Careful consideration needs to be given to the physical interpretation of the different descriptions. Whether a Hermitian or a non-Hermitian approach is more suitable depends on the circumstances that we want to model.
翻訳日:2023-02-02 14:30:03 公開日:2022-08-02
# 部分指数上界をもつ効率的なテンソルネットワーク収縮アルゴリズムを用いた量子回路のシミュレーション

Simulating quantum circuits using efficient tensor network contraction algorithms with subexponential upper bound ( http://arxiv.org/abs/2208.01498v1 )

ライセンス: Link先を確認
Thorsten B. Wahl and Sergii Strelchuk(参考訳) 我々は、$d \geq 2$次元の有限レンジテンソルネットワーク収縮の古典計算時間に厳密な上限を導出する。 球面分離子の定理を用いて、量子回路の構造を利用して収縮をスピードアップし、単一量子ビットおよび有限範囲の2量子ビットゲートの量子回路を古典的にゲート数で副指数時間でシミュレーションできることを示すことができる。 実際には多くのケースにおいて、これは標準的なシミュレーションスキームを打ち負かす。 さらに,本アルゴリズムは,2次元量子回路に対する数桁のネーブ収縮スキームを8×8$格子で高速化する。 googleのsycamore型量子回路、瞬時量子多項式時間回路、および不均一(2+1)次元ランダム量子回路も同様に効率的な縮約スキームを得る。

We derive a rigorous upper bound on the classical computation time of finite-ranged tensor network contractions in $d \geq 2$ dimensions. By means of the Sphere Separator Theorem, we are able to take advantage of the structure of quantum circuits to speed up contractions to show that quantum circuits of single-qubit and finite-ranged two-qubit gates can be classically simulated in subexponential time in the number of gates. In many practically relevant cases this beats standard simulation schemes. Moreover, our algorithm leads to speedups of several orders of magnitude over naive contraction schemes for two-dimensional quantum circuits on as little as an $8 \times 8$ lattice. We obtain similarly efficient contraction schemes for Google's Sycamore-type quantum circuits, instantaneous quantum polynomial-time circuits and non-homogeneous (2+1)-dimensional random quantum circuits.
翻訳日:2023-02-02 14:29:48 公開日:2022-08-02
# 動的補正によるロバスト非断熱幾何量子計算

Robust nonadiabatic geometric quantum computation by dynamical correction ( http://arxiv.org/abs/2208.01472v1 )

ライセンス: Link先を確認
Ming-Jie Liang, Zheng-Yuan Xue(参考訳) 固有ノイズレジリエンス特性に加えて、非断熱幾何位相は進化の速い性質であるため、自然に優れた性能を持つ量子ゲート(いわゆる非断熱幾何量子計算(ngqc))を構築するのに使うことができる。 しかしながら、以前のシングルループngqcスキームは、実装の制限のため、運用上の制御エラー、すなわち$x$エラーに敏感である。 そこで本研究では, 簡易パルスのみを用いた動的補正手法と組み合わせたNGQCのロバストなスキームを提案する。 我々は,従来のプロトコルのゲートロバスト性を大幅に向上させ,幾何学的位相の本質的なメリットを維持できることを示す。 さらに、デファスノイズと戦うために、$z$エラーのため、デコヒーレンスフリーな部分空間符号化戦略を組み込むことができる。 このように、我々のスキームは両方のタイプのエラーに対して堅牢である。 最後に,実験により実証された技術を用いて,超伝導量子回路を符号化する手法を提案する。 そこで本提案手法は,本質的なロバスト性のため,将来のスケーラブルなフォールトトレラント量子計算の代替として期待できる。

Besides the intrinsic noise resilience property, nonadiabatic geometric phases are of the fast evolution nature, and thus can naturally be used in constructing quantum gates with excellent performance, i.e., the so-called nonadiabatic geometric quantum computation (NGQC). However, previous single-loop NGQC schemes are sensitive to the operational control error, i.e., the $X$ error, due to the limitations of the implementation. Here, we propose a robust scheme for NGQC combining with the dynamical correction technique, which still uses only simplified pulses, and thus being experimental friendly. We numerically show that our scheme can greatly improve the gate robustness in previous protocols, retaining the intrinsic merit of geometric phases. Furthermore, to fight against the dephasing noise, due to the $Z$ error, we can incorporate the decoherence-free subspace encoding strategy. In this way, our scheme can be robust against both types of errors. Finally, we also propose how to implement the scheme with encoding on superconducting quantum circuits with experimentally demonstrated technology. Therefore, due to the intrinsic robustness, our scheme provides a promising alternation for the future scalable fault-tolerant quantum computation.
翻訳日:2023-02-02 14:29:36 公開日:2022-08-02
# 集積量子フォトニック回路用窒化アルミニウム導波路ビームスプリッタ

Aluminum nitride waveguide beam splitters for integrated quantum photonic circuits ( http://arxiv.org/abs/2208.01377v1 )

ライセンス: Link先を確認
Hyeong-Soon Jang, Donghwa Lee, Hyungjun Heo, Yong-Su Kim, Hyang-Tag Lim, Seung-Woo Jeon, Sung Moon, Sangin Kim, Sang-Wook Han, Hojoong Jung(参考訳) 絶縁体上の多結晶窒化アルミニウム(aln)スパッタを用いた量子デバイス用集積フォトニック回路の実証を行った。 量子フォトニクスにおいて最も重要な成分の1つであるオンチップAlN導波路配向結合体を作製し,50:50から99:1までの出力パワー分割比を示す。 また、AlN配向カプラから10dB以上の消長比の偏光ビームスプリッタも実現した。 作製したAlN導波路ビームスプリッタを用いて、91.7 +(-) 5.66 %の可視性で香港・ウー・マンデル干渉を観測した。

We demonstrate integrated photonic circuits for quantum devices using sputtered polycrystalline aluminum nitride (AlN) on insulator. The on-chip AlN waveguide directional couplers, which are one of the most important components in quantum photonics, are fabricated and show the output power splitting ratios from 50:50 to 99:1. The polarization beam splitters with an extinction ratio of more than 10 dB are also realized from the AlN directional couplers. Using the fabricated AlN waveguide beam splitters, we observe the Hong-Ou-Mandel interference with a visibility of 91.7 +(-) 5.66 %.
翻訳日:2023-02-02 14:29:15 公開日:2022-08-02
# 熱力学平衡における振動強い結合下における実ポラリトニック系の厳密解:零温度と光-物質絡み合いの欠如

Exact Solution for A Real Polaritonic System Under Vibrational Strong Coupling in Thermodynamic Equilibrium: Absence of Zero Temperature and Loss of Light-Matter Entanglement ( http://arxiv.org/abs/2208.01326v1 )

ライセンス: Link先を確認
Dominik Sidler, Michael Ruggenthaler and Angel Rubio(参考訳) 熱平衡における量子化光学キャビティモードと強いロ-振動結合の下での実分子系の第1の正確な量子シミュレーション(HD$^+$)を示す。 混合量子統計学(ボーソンとフェルミオン)の強結合系を記述する理論的課題は、我々の分子系の特定の選択によって議論され回避される。 正確なシミュレーションにより, キャビティ誘起非平衡条件により, 強結合性物質と光サブシステムにはゼロ温度がないことが判明した。 さらに, 基底状態から生じる光マッター量子エンタングルメントの温度依存性について検討するが, 現象論的モデル(jaynes-cummings)からの予測とは反対に, 深低温下では急速に失われている。 ロ-振動状態の蒸留可能な分子の光-物質絡み合いは、量子技術応用の興味深い視点を開くかもしれない。 さらに, 物体の力学(変動)は, 熱場および真空場の変動の量子的性質によって, 環境条件など, かなりの温度で変化し続けていることがわかった。 これらの観測(量子揺らぎへの絡み合いと結合の喪失)は、光・物質相互作用の半古典的な理論記述が実現可能となるため、ポーラロン化学と物質科学の理解と制御に大いに影響するが、核動力学の典型的な標準平衡仮定は破られていない。 これにより、振動強い結合の下での量子揺らぎ誘起確率共鳴現象の扉が開く。 周期運転のない実験で観測された共鳴現象を説明するための理論的メカニズムはまだ解明されていない。

The first exact quantum simulation of a real molecular system (HD$^+$) under strong ro-vibrational coupling to a quantized optical cavity mode in thermal equilibrium is presented. Theoretical challenges in describing strongly coupled systems of mixed quantum statistics (Bosons and Fermions) are discussed and circumvented by the specific choice of our molecular system. Our exact simulations reveal the absence of a zero temperature for the strongly coupled matter and light subsystems, due to cavity induced non-equilibrium conditions. Furthermore, we explore the temperature dependency of light-matter quantum entanglement, which emerges for the groundstate, but is quickly lost already in the deep cryogenic regime, opposing predictions from phenomenological models (Jaynes-Cummings). Distillable molecular light-matter entanglement of ro-vibrational states may open interesting perspectives for quantum technological applications. Moreover, we find that the dynamics (fluctuations) of matter remains modified by the quantum nature of the thermal and vacuum field fluctuations for significant temperatures, e.g. at ambient conditions. These observations (loss of entanglement and coupling to quantum fluctuations) has far reaching consequences for the understanding and control of polaritonic chemistry and materials science, since a semi-classical theoretical description of light-matter interaction becomes feasible, but the typical canonical equilibrium assumption for the nuclear dynamics remains broken. This opens the door for quantum fluctuations induced stochastic resonance phenomena under vibrational strong coupling. A plausible theoretical mechanism to explain the experimentally observed resonance phenomena in absence of periodic driving, which have not yet been understood.
翻訳日:2023-02-02 14:28:51 公開日:2022-08-02
# ダブルダブルスリット実験における検出統計について

On detection statistics in double-double-slit experiment ( http://arxiv.org/abs/2208.01325v1 )

ライセンス: Link先を確認
MohammadJavad Kazemi and Vahid Hosseinzadeh(参考訳) 本稿では,一般二重スリット実験における検出データの統計解析を行う。 2つの粒子は一般に同じではないランダムな時間で検出され、スリットから左右のスクリーンの距離や比率に制約がないため、全く異なる時間スケールで検出することができる。 第一粒子の検出は波動関数の崩壊につながるため、これらのランダム事象の明確な予測を欠いた正統派形式論においてこの問題を研究するための単純かつ合意された方法はない。 本論文で実装したbohmianフレームワークでは,このようなケースではなく,実験終了までシステムを予測することが可能である。 主な結果は、粒子の到着時間と位置を含む検出データの左画面および右画面上の共同分布である。 主な結果の1つとして,ジョイント空間分布は画面の相対的な位置の変化によって影響を受ける可能性があるが,両サイドの限界は信号の局所性と相容れないままである。 最後に、この結果が量子平衡条件に非常に敏感であることを示す。

In this paper, we analyze the statistics of detection data in a general double-double-slit experiment. The two particles are detected at random times which are not equal in general and because we do not have any constraint on the distances of left and right screens from their slits and the ratio as well, they can be detected in completely different timescales. As the detection of first particle leads to collapse of the wave function, there is no a straightforward and agreed method to study this problem in the orthodox formalism which lacks a clear prediction of these random events and therefore the quantum state afterwards. This is not the case in Bohmian framework which we implement in this paper and we can predict the system up to the end of experiment. The main result is the joint distribution of detection data including the arrival time and position of the particles on left and right screens. As one of the main consequences, we see, although the joint spatial distribution can be affected by a change to the relative location of screens, the marginals on each side remain intact compatible with signal-locality. At the end, we see how this result is very sensitive to quantum equilibrium condition.
翻訳日:2023-02-02 14:28:20 公開日:2022-08-02
# 重畳多モード光機械システムにおける動的囲む例外点

Dynamical encircling exceptional point in largely detuned multimode optomechanical system ( http://arxiv.org/abs/2208.01228v1 )

ライセンス: Link先を確認
Dan Long, Xuan Mao, Guo-Qing Qin, Hao Zhang, Min Wang, Gui-Qin Li, and Gui-Lu Long(参考訳) 動的囲む例外点(EP)は多くの興味深い物理現象とその潜在的な応用を示している。 実験における光学系の操作を豊かにするため,多モード光メカニカルシステムにおいて,動的に回転するep,すなわち状態伝達過程について検討する。 状態伝達の過程は, パラメータ空間におけるEP周りの軌道の開始点の位置, 向き, 初期状態について, 異なる因子で研究されている。 その結果、2つの光学モード間の非相互およびカイラルなトポロジカルエネルギー移動は、大きなデチューニングを伴うマルチモードシステムにおいて、効果的なオプティメカカルカップリングをチューニングすることにより、うまく実行されることがわかった。 さらに,システムパラメータに関する進化速度の要因についても考察した。 本研究は,多モード光機械システムの大きなデチューン領域におけるep周辺の基本物理を実証し,非エルミト系における光モードを操作するための代替手段を提供する。

Dynamical encircling exceptional point(EP) shows a number of intriguing physical phenomena and its potential applications. To enrich the manipulations of optical systems in experiment, here, we study the dynamical encircling EP, i.e. state transfer process, in largely detuned multimode optomechanical system. The process of state transfer has been investigated with different factors about the location of start point, the orientation and the initial state of the trajectories around the EP in parameter space. Results show that the nonreciprocal and the chiral topological energy transfer between two optical modes are performed successfully by tuning the effective optomechanical coupling in the multimode system with large detuning. Moreover, the factor of evolution speed about system parameters is also discussed. Our work demonstrates the fundamental physics around EP in large detuning domain of multimode optomechanical system and provides an alternative for manipulating of optical modes in non-hermitian system.
翻訳日:2023-02-02 14:27:36 公開日:2022-08-02
# フロッケクラスタースピン鎖の絡み合いダイナミクスと相転移

Entanglement dynamics and phase transitions of the Floquet cluster spin chain ( http://arxiv.org/abs/2208.01706v1 )

ライセンス: Link先を確認
Alberto D. Verga(参考訳) クラスター状態は測定に基づく量子コンピューティングの文脈で導入された。 一次元において、クラスターハミルトニアンは位相的に保護された状態を持つ。 粒子と相互作用する外部場におけるクラスタースピン鎖のフロッケダイナミクスについて検討した。 まず、積分可能なスピン格子の場合、次に相互作用する量子ウォークの場合において、トポロジカル相と磁気相の絡み合い特性について検討する。 熱化に加えて,低および高絡み合った非熱的状態の動的相転移は,積分可能な場合に存在するものの,磁気特性が異なることが判明した。

Cluster states were introduced in the context of measurement based quantum computing. In one dimension, the cluster Hamiltonian possesses topologically protected states. We investigate the Floquet dynamics of the cluster spin chain in an external field, interacting with a particle. We explore the entanglement properties of the topological and magnetic phases, first in the integrable spin lattice case, and then in the interacting quantum walk case. We find, in addition to thermalization, dynamical phase transitions separating low and high entangled nonthermal states, reminiscent of the ones present in the integrable case, but differing in their magnetic properties.
翻訳日:2023-02-02 14:21:03 公開日:2022-08-02
# 文脈性と量子距離

Contextuality and Quantum Discord ( http://arxiv.org/abs/2208.01698v1 )

ライセンス: Link先を確認
Asma Al-Qasimi(参考訳) 古典システムと量子システムの間で決定的な違いの1つは、測定がそれらにどのように影響するかである。 ここでは、2量子状態の特殊クラスにおける量子相関を捉える際の文脈性と量子不協和のアプローチを比較し、非不協和状態は非文脈的であるが、不協和状態は常に文脈的とは限らないことを示す。

One of the defining differences between classical and quantum systems is how measurements affect them. Here, we compare the approaches of contextuality and quantum discord in capturing quantum correlations in special classes of two-qubit states, demonstrating that although non-discordant states are non-contextual, discordant states are not always contextual.
翻訳日:2023-02-02 14:20:52 公開日:2022-08-02
# クリフォードテンソルパワーの双対性理論

Duality theory for Clifford tensor powers ( http://arxiv.org/abs/2208.01688v1 )

ライセンス: Link先を確認
Felipe Montealegre-Mora, David Gross(参考訳) クリフォード群の表現論は量子情報理論において、量子システム認証、量子シミュレーション、量子暗号のためのプロトコル構築のような多様なユースケースを含む、ますます顕著な役割を担っている。 これらの応用において、定義表現のテンソルパワーは特に重要であるように見える。 これらのテンソルパワーの表現論は2つのレジームで理解されている。 ここで、クリフォード群とある離散直交群の間の双対性理論は、発生した非repについてかなり明示的な言明をするために使うことができる(この理論はハウ双対性とeta-対応性に関連している)。 2. 量子ビット: 最大 t=4 までのテンソルパワーをケースバイケースで解析した。 本稿では,量子ビットシステムも対象とする双対性アプローチのための統一フレームワークを提案する。 この目的のために、シンプレクティック表現の階数の概念をクビットクリフォード群の表現に変換し、シンプレクティック群と直交群の間のeta対応をクリフォード群とある種の直交確率群の間の対応に一般化する。 サンプルアプリケーションとして,ブラックボックスクリフォードユニタリ進化の複雑な共役を効率的に実装するためのプロトコルを提供する。

The representation theory of the Clifford group is playing an increasingly prominent role in quantum information theory, including in such diverse use cases as the construction of protocols for quantum system certification, quantum simulation, and quantum cryptography. In these applications, the tensor powers of the defining representation seem particularly important. The representation theory of these tensor powers is understood in two regimes. 1. For odd qudits in the case where the power t is not larger than the number of systems n: Here, a duality theory between the Clifford group and certain discrete orthogonal groups can be used to make fairly explicit statements about the occurring irreps (this theory is related to Howe duality and the eta-correspondence). 2. For qubits: Tensor powers up to t=4 have been analyzed on a case-by-case basis. In this paper, we provide a unified framework for the duality approach that also covers qubit systems. To this end, we translate the notion of rank of symplectic representations to representations of the qubit Clifford group, and generalize the eta correspondence between symplectic and orthogonal groups to a correspondence between the Clifford and certain orthogonal-stochastic groups. As a sample application, we provide a protocol to efficiently implement the complex conjugate of a black-box Clifford unitary evolution.
翻訳日:2023-02-02 14:20:45 公開日:2022-08-02
# ランダム行列理論からの動的量子相転移

Dynamical quantum phase transitions from random matrix theory ( http://arxiv.org/abs/2208.01659v1 )

ライセンス: Link先を確認
David P\'erez-Garc\'ia, Leonardo Santilli and Miguel Tierz(参考訳) ランダム行列理論とそれに伴う平面極限の概念を用いて、新しい動的量子相転移を明らかにする。 等方性xyハイゼンベルクスピン鎖について研究する。 このため、ロスヒミットエコーを用いてリアルタイムのダイナミクスを探索する。 これは、我々が開発する新しい技術的考察を必要とする複素重みを持つランダム行列アンサンブルの研究に繋がる。 主な結果は3つある。 1) 再スケールされた臨界時に第3次相転移が存在すると判断する。 2) 3次相転移は熱力学的限界から遠ざかっている。 3) 臨界値以下の場合, 熱力学的限界と有限鎖との差はシステムサイズとともに指数関数的に減少する。 これらの結果はすべて、忠実性に適合する量子状態の反転スピンの数のパリティに依存する。

We uncover a novel dynamical quantum phase transition, using random matrix theory and its associated notion of planar limit. We study it for the isotropic XY Heisenberg spin chain. For this, we probe its real-time dynamics through the Loschmidt echo. This leads to the study of a random matrix ensemble with a complex weight, whose analysis requires novel technical considerations, that we develop. We obtain three main results: 1) There is a third order phase transition at a rescaled critical time, that we determine. 2) The third order phase transitions persists away from the thermodynamic limit. 3) For times below the critical value, the difference between the thermodynamic limit and a finite chain decreases exponentially with the system size. All these results depend in a rich manner on the parity of the number of flipped spins of the quantum state conforming the fidelity.
翻訳日:2023-02-02 14:20:22 公開日:2022-08-02
# カオス長距離相互作用系におけるスクランブルの流体力学理論

Hydrodynamic theory of scrambling in chaotic long-range interacting systems ( http://arxiv.org/abs/2208.01649v1 )

ライセンス: Link先を確認
Tianci Zhou, Andrew Y. Guo, Shenglong Xu, Xiao Chen, Brian Swingle(参考訳) フィッシャー-コルモゴロフ-ペトロフスキー-ピスクーノフ方程式(英語版)(fkpp)は、高エネルギー密度で局所的に相互作用する量子カオス系における時間外整列交換子の平均場理論を提供する。 しかし、分数的なFKPP記述は強い量子ゆらぎ効果を伴う可能性があるため、それがパワー-ロー相互作用を持つ一般的なカオスシステムに対して適切な効果的な記述を提供するかどうかの事前性は明らかではない。 ここでは、相互作用が$\frac{1}{r^{\alpha}}$として崩壊する結合量子ドットのモデルを用いてこの問題を研究する。 大きな$N$制限は平均場記述に対応し、OTOCに寄与する量子揺らぎは、カットオフ関数とノイズからなる$\frac{1}{N}$補正によってモデル化できる。 この枠組み内では、実効理論のパラメーターが、以前に見いだした$n=1$とジェネリック有限$n$のバタフライライトコーンスケーリングを再現するために選択できることが示されている。 これらのスケーリングを再現するには、fkpp方程式における分数指数 $\mu$ を$\mu = 2\alpha - 1$ のna\"ive値から再正規化値 $\mu = 2\alpha - 2$ にシフトする必要がある。 カットオフモデルの解析的エビデンスと、カットオフとノイズを伴うフル分数FKPP方程式の数値的検証を提供する。

The Fisher-Kolmogorov-Petrovsky-Piskunov (FKPP) equation provides a mean-field theory of out-of-time-ordered commutators in locally interacting quantum chaotic systems at high energy density; in the systems with power-law interactions, the corresponding fractional-derivative FKPP equation provides an analogous mean-field theory. However, the fractional FKPP description is potentially subject to strong quantum fluctuation effects, so it is not clear a priori if it provides a suitable effective description for generic chaotic systems with power-law interactions. Here we study this problem using a model of coupled quantum dots with interactions decaying as $\frac{1}{r^{\alpha}}$, where each dot hosts $N$ degrees of freedom. The large $N$ limit corresponds to the mean-field description, while quantum fluctuations contributing to the OTOC can be modeled by $\frac{1}{N}$ corrections consisting of a cutoff function and noise. Within this framework, we show that the parameters of the effective theory can be chosen to reproduce the butterfly light cone scalings that we previously found for $N=1$ and generic finite $N$. In order to reproduce these scalings, the fractional index $\mu$ in the FKPP equation needs to be shifted from the na\"ive value of $\mu = 2\alpha - 1$ to a renormalized value $\mu = 2\alpha - 2$. We provide supporting analytic evidence for the cutoff model and numerical confirmation for the full fractional FKPP equation with cutoff and noise.
翻訳日:2023-02-02 14:20:12 公開日:2022-08-02
# マジック角のカイラルモデルにおける平面バンドの微細構造

Fine structure of flat bands in a chiral model of magic angles ( http://arxiv.org/abs/2208.01628v1 )

ライセンス: Link先を確認
Simon Becker, Tristan Humbert, Maciej Zworski(参考訳) 我々は,Becker--Embree--Wittsten--Zworskiによって導入されたフレームワークに従って,Tarnopolsky--Kruchkov--Vishwanath型二層グラフェン(TBG)の魔法角におけるブロッホ固有関数の対称性を解析した。 特に、ディラック点から最初のブロッホ固有値が消えることが、平らなバンドの存在であるすべての瞬間において消滅することを示します。 次に、平坦なバンドの多重度がブロッホ固有関数の結節集合とどのように関係するかを研究する。 また、すべての翻訳対称性と回転対称性に従うようなトンネルポテンシャルの一般的な選択に対して、ハミルトニアンは最小の多重度を持つ平面バンドしか示さないことを示した。 フラットバンドの構造に関する2つの数値的観測を終える。

We analyze symmetries of Bloch eigenfunctions at magic angles for the Tarnopolsky--Kruchkov--Vishwanath chiral model of the twisted bilayer graphene (TBG) following the framework introduced by Becker--Embree--Wittsten--Zworski. In particular, we show that vanishing of the first Bloch eigenvalue away from the Dirac points implies its vanishing at all momenta, that is the existence of a flat band. We then study how the multiplicity of the flat band is related to the nodal set of the Bloch eigenfunctions. We also demonstrate that for a generic choice of tunneling potentials, obeying all translational and rotational symmetries, the Hamiltonian only exhibits flat bands of minimal multiplicity. We conclude with two numerical observations about the structure of flat bands.
翻訳日:2023-02-02 14:19:40 公開日:2022-08-02
# マジック角のカイラルモデルにおける積分可能性

Integrability in the chiral model of magic angles ( http://arxiv.org/abs/2208.01620v1 )

ライセンス: Link先を確認
Simon Becker, Tristan Humbert, Maciej Zworski(参考訳) ツイスト二層グラフェンのキラルモデルにおけるマジック角は、ビストリッツァー=マクドナルド・ハミルトニアンのキラルバージョンがエネルギーゼロで平坦なバンドを示すパラメータである。 我々は(複素)マジック角の和を計算し、それを用いてマジック角の集合が無限であることを示す。 また、第1次マジックアングルの存在を証明し、対応するフラットバンドがすべての対称性を満たすポテンシャルの最も単純な選択に対して最小の乗算性を持つことを示す。 これらの結果は、キラルモデルの隠れた可積分性を示している(証明されていない)。

Magic angles in the chiral model of twisted bilayer graphene are parameters for which the chiral version of the Bistritzer--MacDonald Hamiltonian exhibits a flat band at energy zero. We compute the sums over powers of (complex) magic angles and use that to show that the set of magic angles is infinite. We also provide a new proof of the existence of the first real magic angle, showing also that the corresponding flat band has minimal multiplicity for the simplest possible choice of potentials satisfying all symmetries. These results indicate (though not prove) a hidden integrability of the chiral model.
翻訳日:2023-02-02 14:19:24 公開日:2022-08-02
# 超伝導量子ビットの電場によるコヒーレンス向上

Enhancing the Coherence of Superconducting Quantum Bits with Electric Fields ( http://arxiv.org/abs/2208.01570v1 )

ライセンス: Link先を確認
J\"urgen Lisenfeld, Alexander Bilmes, and Alexey V. Ustinov(参考訳) 量子コンピュータを現実にするために、集積超伝導回路は有望なアーキテクチャとなっている。 このアプローチの大きな課題は、クビット電極の界面における急激な原子トンネル欠陥から生じるデコヒーレンスであり、これはクォービットの振動電場からのエネルギーを共鳴的に吸収し、クォービットのエネルギー緩和時間を$T_1$に減少させる。 そこで,直流電界を応用することにより,量子共鳴から支配欠陥をチューニングすることにより,量子コヒーレンスを改善できることを示す。 応用場バイアスを最適化し,平均キュービットのT_1$時間を23%向上する手法を実証する。 また,局所ゲート電極を超伝導量子プロセッサに実装することで,個々の量子ビットのコヒーレンス最適化を実現する方法について検討する。

In the endeavour to make quantum computers a reality, integrated superconducting circuits have become a promising architecture. A major challenge of this approach is decoherence originating from spurious atomic tunneling defects at the interfaces of qubit electrodes, which may resonantly absorb energy from the qubit's oscillating electric field and reduce the qubit's energy relaxation time $T_1$. Here, we show that qubit coherence can be improved by tuning dominating defects away from the qubit resonance using an applied DC-electric field. We demonstrate a method that optimizes the applied field bias and enhances the average qubit $T_1$ time by 23%. We also discuss how local gate electrodes can be implemented in superconducting quantum processors to enable simultaneous in-situ coherence optimization of individual qubits.
翻訳日:2023-02-02 14:18:30 公開日:2022-08-02
# 深部強化学習によるウニ精子細胞の遊走性

Chemotaxis of sea urchin sperm cells through deep reinforcement learning ( http://arxiv.org/abs/2209.07407v1 )

ライセンス: Link先を確認
Chaojie Mo and Xin Bian(参考訳) 生体マイクロスウィマーを模倣することにより、マイクロロボットはマイクロスケールでの貨物の輸送や生物医学的な操作を目標とするように設計されている。 しかし、マイクロロボットを複雑な環境で動作させることは依然として大きな課題である。 機械学習アルゴリズムは、合成マイクロスウィマーのモビリティと柔軟性を高めるツールを提供するので、本当にスマートなマイクロロボットを設計するのに役立ちます。 本研究では, ウニ精子のモデルが, ケモアトレラント濃度場において, 自己学習型遊走運動をいかに行うかを検討する。 我々は人工ニューラルネットワークを用いて意思決定エージェントとして機能し、精子細胞に深層強化学習(DRL)アルゴリズムによる効率的な操作戦略の発見を促す。 本研究は, 環境情報のみを利用して, DRLにより, 現実的な行動と非常によく似た行動が実現できることを示す。 ほとんどの場合、DRLアルゴリズムは人間よりも効率的な戦略を発見する。 さらに、DRLは、人工ニューラルネットワークによって余分なフロー情報も考慮すれば、外乱を利用して遊走運動を促進することもできる。 本研究はウニ精子細胞の遊走過程に関する知見を提供し,マイクロロボットのインテリジェントな操作のためのガイダンスも提供する。

By imitating biological microswimmers, microrobots can be designed to accomplish targeted delivery of cargos and biomedical manipulations at microscale. However, it is still a great challenge to enable microrobots to maneuver in a complex environment. Machine learning algorithms offer a tool to boost mobility and flexibility of a synthetic microswimmer, hence could help us design truly smart microrobots. In this work, we investigate how a model of sea urchin sperm cell can self-learn chemotactic motion in a chemoattractant concentration field. We employ an artificial neural network to act as a decision-making agent and facilitate the sperm cell to discover efficient maneuver strategies through a deep reinforcement learning (DRL) algorithm. Our results show that chemotactic behaviours, very similar to the realistic ones, can be achieved by the DRL utilizing only limited environmental information. In most cases, the DRL algorithm discovers more efficient strategies than the human-devised one. Furthermore, the DRL can even utilize an external disturbance to facilitate the chemotactic motion if the extra flow information is also taken into account by the artificial neural network. Our results provide insights to the chemotactic process of sea urchin sperm cells and also prepare guidance for the intelligent maneuver of microrobots.
翻訳日:2023-02-02 14:12:20 公開日:2022-08-02
# qubit-qutrit系におけるtgx状態の絡み合い普遍性

Entanglement Universality of TGX States in Qubit-Qutrit Systems ( http://arxiv.org/abs/2208.04745v1 )

ライセンス: Link先を確認
Samuel R. Hedemann(参考訳) 我々は、qubit-qutrit$2\times 3$ 系のすべての状態(混合あるいは純)が、EPU-minimal TGX 状態と呼ばれる真一般化 X (TGX) 状態のコンパクト部分集合への絡み合い保存ユニタリ(EPU)同値性を持つことを証明する。 したがって、一般的な状態によって達成可能なスペクトル-絡み合わせの組み合わせに対して、同じスペクトルと絡み合わせの EPU-最小のTGX 状態が存在する。 I-コンカレンス(I-concurrence)を用いて絡み合いを測り、3$最小のTGX状態(EPU最小のTGX状態よりもより一般的な集合)に対して、すべての分解に対して最小平均値を与える。 また、最小超一般化X(SGX)状態と呼ばれるより一般的な族に対して計算可能なI-コンカレンス公式を与え、最小のSGX状態とそのすべての部分集合に対して最適な分解を与える。

We prove that all states (mixed or pure) of qubit-qutrit ($2\times 3$) systems have entanglement-preserving unitary (EPU) equivalence to a compact subset of true-generalized X (TGX) states called EPU-minimal TGX states which we give explicitly. Thus, for any spectrum-entanglement combination achievable by general states, there exists an EPU-minimal TGX state of the same spectrum and entanglement. We use I-concurrence to measure entanglement and give an explicit formula for it for all $2\times 3$ minimal TGX states (a more general set than EPU-minimal TGX states) whether mixed or pure, yielding its minimum average value over all decompositions. We also give a computable I-concurrence formula for a more general family called minimal super-generalized X (SGX) states, and give optimal decompositions for minimal SGX states and all of their subsets.
翻訳日:2023-02-02 14:11:59 公開日:2022-08-02
# エントロピー生成における初期量子コヒーレンスの実験的署名

Experimental signature of initial quantum coherence on entropy production ( http://arxiv.org/abs/2208.01782v1 )

ライセンス: Link先を確認
S. Hern\'andez-G\'omez, S. Gherardini, A. Belenchia, A. Trombettoni, M. Paternostro, and N. Fabbri(参考訳) 我々は、コヒーレント駆動と消散の両方に曝露された量子ビットの初期状態における量子コヒーレンス含量から生じる非平衡エントロピー生成への寄与の実験的定量化を報告する。 本実験は, ダイヤモンド中の窒素空孔欠陥のスピン状態の厳密な制御を基礎として, 量子コヒーレンスの影響を追究する一般化揺らぎ定理の定式化により, 理論的に基礎を成すものである。 以上より,非平衡量子過程の熱力学に対する真の量子力学的貢献を特定できる可能性が示唆された。

We report the experimental quantification of the contribution to non-equilibrium entropy production that stems from the quantum coherence content in the initial state of a qubit exposed to both coherent driving and dissipation. Our experimental demonstration builds on the exquisite experimental control of the spin state of a nitrogen-vacancy defect in diamond and is underpinned, theoretically, by the formulation of a generalized fluctuation theorem designed to track the effects of quantum coherence. Our results provide significant evidence of the possibility to pinpoint the genuinely quantum mechanical contributions to the thermodynamics of non-equilibrium quantum processes.
翻訳日:2023-02-02 14:10:17 公開日:2022-08-02
# 連続レート適応による非対称ゲイン深部画像圧縮

Asymmetric Gained Deep Image Compression With Continuous Rate Adaptation ( http://arxiv.org/abs/2003.02012v3 )

ライセンス: Link先を確認
Ze Cui, Jing Wang, Shangyin Gao, Bo Bai, Tiansheng Guo and Yihui Feng(参考訳) 深層学習技術の発展に伴い,深層学習と画像圧縮の組み合わせが注目されている。 近年, 学習画像圧縮手法は, レートゆらぎ性能の点で, 従来の手法を上回っている。 しかし、継続レートの適応は未解決の問題である。 学習された画像圧縮法は複数のネットワークを複数のレートで使用するが、計算複雑性の増加と性能の低下を犠牲にして1つのモデルを使用するものもある。 本稿では,非対称ゲイン変分オートエンコーダ(AG-VAE)の連続レート調整可能な画像圧縮フレームワークを提案する。 AG-VAEは1組の利得単位を用いて1つのモデルの離散レート適応を無視可能な追加計算で達成する。 そして指数補間を用いることで、性能を損なうことなく連続速度適応を実現する。 さらに,より正確なエントロピー推定のための非対称ガウスエントロピーモデルを提案する。 実験の結果,従来の画像コーデックに比べて,soma学習画像圧縮法と同等の量的性能と質的性能が得られることがわかった。 アブレーション研究において,利得単位と非対称ガウスエントロピーモデルの有用性と優位性を確認した。

With the development of deep learning techniques, the combination of deep learning with image compression has drawn lots of attention. Recently, learned image compression methods had exceeded their classical counterparts in terms of rate-distortion performance. However, continuous rate adaptation remains an open question. Some learned image compression methods use multiple networks for multiple rates, while others use one single model at the expense of computational complexity increase and performance degradation. In this paper, we propose a continuously rate adjustable learned image compression framework, Asymmetric Gained Variational Autoencoder (AG-VAE). AG-VAE utilizes a pair of gain units to achieve discrete rate adaptation in one single model with a negligible additional computation. Then, by using exponential interpolation, continuous rate adaptation is achieved without compromising performance. Besides, we propose the asymmetric Gaussian entropy model for more accurate entropy estimation. Exhaustive experiments show that our method achieves comparable quantitative performance with SOTA learned image compression methods and better qualitative performance than classical image codecs. In the ablation study, we confirm the usefulness and superiority of gain units and the asymmetric Gaussian entropy model.
翻訳日:2022-12-26 13:34:39 公開日:2022-08-02
# マルチタスク表現学習理論による少数ショット学習の改善

Improving Few-Shot Learning through Multi-task Representation Learning Theory ( http://arxiv.org/abs/2010.01992v3 )

ライセンス: Link先を確認
Quentin Bouniot, Ievgen Redko, Romaric Audigier, Ang\'elique Loesch, Amaury Habrard(参考訳) 本稿では,マルチタスク表現(mtr,multi-task representation)学習の枠組みについて考察する。 MTR理論の最近の進歩を概観し、このフレームワーク内で解析すると、人気のあるメタ学習アルゴリズムに新たな洞察を与えることができることを示す。 特に,グラデーションに基づくアルゴリズムとメートル法に基づくアルゴリズムの基本的な違いを強調し,それを説明するために理論的分析を行った。 最後に,得られた知見を用いて,新しいスペクトルベース正規化項を用いてメタラーニング手法の性能を向上し,その効率性を確認する。 我々の知る限りでは、これはMTR理論の最新の学習境界を、数発の分類のタスクに応用する最初の貢献である。

In this paper, we consider the framework of multi-task representation (MTR) learning where the goal is to use source tasks to learn a representation that reduces the sample complexity of solving a target task. We start by reviewing recent advances in MTR theory and show that they can provide novel insights for popular meta-learning algorithms when analyzed within this framework. In particular, we highlight a fundamental difference between gradient-based and metric-based algorithms in practice and put forward a theoretical analysis to explain it. Finally, we use the derived insights to improve the performance of meta-learning methods via a new spectral-based regularization term and confirm its efficiency through experimental studies on few-shot classification benchmarks. To the best of our knowledge, this is the first contribution that puts the most recent learning bounds of MTR theory into practice for the task of few-shot classification.
翻訳日:2022-10-10 19:43:39 公開日:2022-08-02
# 高エネルギー物理解析のためのデータレイクにおけるスマートキャッシング

Smart caching in a Data Lake for High Energy Physics analysis ( http://arxiv.org/abs/2208.06437v1 )

ライセンス: Link先を確認
Tommaso Tedeschi, Diego Ciangottini, Marco Baioletti, Valentina Poggioni, Daniele Spiga, Loriano Storchi, Mirco Tracolli(参考訳) ほぼすべての科学分野におけるデータ生産の継続的な成長は、特にエンドユーザと彼らがアクセス可能なリソースが世界中に分散しているシナリオにおいて、データアクセスと管理の新たな問題を引き起こす。 本研究は,高エネルギー物理分野におけるデータレイクインフラストラクチャにおけるデータキャッシング管理に焦点を当てている。 我々は,強化学習技術に基づく自律的手法を提案し,ユーザエクスペリエンスの向上とインフラストラクチャのメンテナンスコストの削減を図る。

The continuous growth of data production in almost all scientific areas raises new problems in data access and management, especially in a scenario where the end-users, as well as the resources that they can access, are worldwide distributed. This work is focused on the data caching management in a Data Lake infrastructure in the context of the High Energy Physics field. We are proposing an autonomous method, based on Reinforcement Learning techniques, to improve the user experience and to contain the maintenance costs of the infrastructure.
翻訳日:2022-08-28 22:27:56 公開日:2022-08-02
# 意味コミュニケーションシステムの経済学 : オークションアプローチ

Economics of Semantic Communication System: An Auction Approach ( http://arxiv.org/abs/2208.05040v1 )

ライセンス: Link先を確認
Zi Qin Liew, Hongyang Du, Wei Yang Bryan Lim, Zehui Xiong, Dusit Niyato, Chunyan Miao, Dong In Kim(参考訳) セマンティック通信技術により、無線エッジデバイスはデータのセマンティックな意味を伝達することで効果的に通信できる。 次世代インテリジェントトランスポートシステムにおける車両のようなエッジコンポーネントは、十分に訓練されたセマンティックモデルを使用して、生データとセンサーデータから抽出されたセマンティック情報をエンコードし、デコードする。 しかしながら、計算資源の制限により、エッジデバイス上の正確な意味モデルのトレーニングプロセスのサポートが困難になる。 そのため、エッジデバイスは「セマンティックモデルトレーディング」と呼ばれるセマンティックモデルプロバイダから事前訓練されたセマンティックモデルを購入することができる。 セマンティクスモデルを用いてセマンティクス情報を収集すると、エッジデバイスは、抽出されたセマンティクス情報(例えば、都市道路状況や交通標識に関する情報)を利益のために興味のある買い手に売却することができる。 両者の取引を容易にするため、効果的なインセンティブ機構を設計すべきである。 そこで本稿では,セマンティックモデル取引とセマンティック情報取引を協調的に支援する階層的取引システムを提案する。 提案するインセンティブ機構は,意味モデル取引における意味モデル提供者の収益を最大化し,意味コミュニケーションシステム開発に参加するモデル提供者に効果的にインセンティブを与える。 セマンティクス情報取引については,複数のセマンティクス情報販売者と購入者との取引を支援するとともに,個別の合理性,インセンティブ互換性,予算バランスを確保し,さらに,ベースライン方式よりも高いユーティリティを実現する。

Semantic communication technologies enable wireless edge devices to communicate effectively by transmitting semantic meaning of data. Edge components, such as vehicles in next-generation intelligent transport systems, use well-trained semantic models to encode and decode semantic information extracted from raw and sensor data. However, the limitation in computing resources makes it difficult to support the training process of accurate semantic models on edge devices. As such, edge devices can buy the pretrained semantic models from semantic model providers, which is called "semantic model trading". Upon collecting semantic information with the semantic models, the edge devices can then sell the extracted semantic information, e.g., information about urban road conditions or traffic signs, to the interested buyers for profit, which is called "semantic information trading". To facilitate both types of the trades, effective incentive mechanisms should be designed. Thus, in this paper, we propose a hierarchical trading system to support both semantic model trading and semantic information trading jointly. The proposed incentive mechanism helps to maximize the revenue of semantic model providers in the semantic model trading, and effectively incentivizes model providers to participate in the development of semantic communication systems. For semantic information trading, our designed auction approach can support the trading between multiple semantic information sellers and buyers, while ensuring individual rationality, incentive compatibility, and budget balance, and moreover, allowing them achieve higher utilities than the baseline method.
翻訳日:2022-08-14 18:12:42 公開日:2022-08-02
# 信頼構築 - 医療データソンイベントにおけるテクニオンランバム機械学習からの教訓

Building Trust: Lessons from the Technion-Rambam Machine Learning in Healthcare Datathon Event ( http://arxiv.org/abs/2207.14638v2 )

ライセンス: Link先を確認
Jonathan A. Sobel, Ronit Almog, Leo Anthony Celi, Michal Gaziel-Yablowitz, Danny Eytan, Joachim A. Behar(参考訳) データトン(datathon)は、特定の問題に適用されるデータサイエンスに関する時間制限のある競技である。 過去10年間、datathonは分野と専門知識の間に価値ある橋渡しとなることが示されてきた。 バイオメディカルデータ分析は、患者の生理学や診断、予後、治療介入のガイド決定プロセスの理解を深めるために、技術者、生物学者、医師の協力を必要とする困難な領域である。 ここでは、2022年3月末にイスラエルで、MITCritical Dataグループ、Rambam Health Care Campus (Rambam) とハイファのTechnion Israel Institute of Technology (Technion) が主催したイベントの結果を振り返る。 参加者は、彼らのスキルと関心に関する調査を完了するよう求められ、医療問題アプリケーションに対する機械学習トレーニングの現在のニーズを特定することができた。 この研究はイスラエルの文脈における医療データ科学の機会と限界を説明する。

A datathon is a time-constrained competition involving data science applied to a specific problem. In the past decade, datathons have been shown to be a valuable bridge between fields and expertise . Biomedical data analysis represents a challenging area requiring collaboration between engineers, biologists and physicians to gain a better understanding of patient physiology and of guide decision processes for diagnosis, prognosis and therapeutic interventions to improve care practice. Here, we reflect on the outcomes of an event that we organized in Israel at the end of March 2022 between the MIT Critical Data group, Rambam Health Care Campus (Rambam) and the Technion Israel Institute of Technology (Technion) in Haifa. Participants were asked to complete a survey about their skills and interests, which enabled us to identify current needs in machine learning training for medical problem applications. This work describes opportunities and limitations in medical data science in the Israeli context.
翻訳日:2022-08-07 14:39:50 公開日:2022-08-02
# 脳波に基づく感情認識のための自己教師付きグループメシアスコントラスト学習

Self-supervised Group Meiosis Contrastive Learning for EEG-Based Emotion Recognition ( http://arxiv.org/abs/2208.00877v2 )

ライセンス: Link先を確認
Haoning Kan, Jiale Yu, Jiajin Huang, Zihe Liu, Haiyan Zhou(参考訳) 近年、脳波に基づく感情認識の進歩は、人間と機械の相互作用と認知科学の分野から広く注目を集めている。 しかし、ラベルを限定した感情を認識する方法は、新しい研究と応用のボトルネックとなっている。 そこで本研究では,人間の脳波の刺激的一貫した信号に基づいて,自己指導型グループ・マイオーシス・コントラスト学習フレームワーク(SGMC)を提案する。 SGMCでは、Meiosisという遺伝子にインスパイアされた新しいデータ拡張法が開発されている。 グループ内の脳波サンプル間の刺激のアライメントを利用して、ペアリング、交差交換、分離によって強化されたグループを生成する。 モデルではグループプロジェクターを用いて、同じ感情ビデオ刺激によって誘発されるグループ脳波サンプルからグループレベルの特徴表現を抽出する。 次に、同じ刺激を持つ拡張群の群レベル表現の類似性を最大化するために、対比学習を用いる。 SGMCは94.72%と95.68%の精度で公開されているDEAPデータセット上で最先端の感情認識結果を達成し、94.04%の精度で公開SEEDデータセット上での競争性能に達する。 なお、SGMCはラベルが限られている場合でも大きな性能を示す。 さらに,特徴視覚化の結果から,映像レベルの感情関連特徴表現を学習し,感情認識を改善した可能性が示唆された。 また,超パラメトリック分析ではグループサイズの影響がさらに評価された。 最後に,建築の合理性を調べるため,制御実験とアブレーション研究を行った。 コードはオンラインで公開されている。

The progress of EEG-based emotion recognition has received widespread attention from the fields of human-machine interactions and cognitive science in recent years. However, how to recognize emotions with limited labels has become a new research and application bottleneck. To address the issue, this paper proposes a Self-supervised Group Meiosis Contrastive learning framework (SGMC) based on the stimuli consistent EEG signals in human being. In the SGMC, a novel genetics-inspired data augmentation method, named Meiosis, is developed. It takes advantage of the alignment of stimuli among the EEG samples in a group for generating augmented groups by pairing, cross exchanging, and separating. And the model adopts a group projector to extract group-level feature representations from group EEG samples triggered by the same emotion video stimuli. Then contrastive learning is employed to maximize the similarity of group-level representations of augmented groups with the same stimuli. The SGMC achieves the state-of-the-art emotion recognition results on the publicly available DEAP dataset with an accuracy of 94.72% and 95.68% in valence and arousal dimensions, and also reaches competitive performance on the public SEED dataset with an accuracy of 94.04%. It is worthy of noting that the SGMC shows significant performance even when using limited labels. Moreover, the results of feature visualization suggest that the model might have learned video-level emotion-related feature representations to improve emotion recognition. And the effects of group size are further evaluated in the hyper parametric analysis. Finally, a control experiment and ablation study are carried out to examine the rationality of architecture. The code is provided publicly online.
翻訳日:2022-08-07 14:39:30 公開日:2022-08-02
# LDAトピックモデリングを用いた自動テキスト要約のためのデータ駆動潜在意味解析

A Data-driven Latent Semantic Analysis for Automatic Text Summarization using LDA Topic Modelling ( http://arxiv.org/abs/2207.14687v3 )

ライセンス: Link先を確認
Daniel F. O. Onah, Elaine L. L. Pang, Mahmoud El-Haj(参考訳) 現代におけるビッグデータマイニングと巨大なテキスト分析の出現と普及により、文書から重要な情報を抽出・検索する自動化されたテキスト要約が顕著になった。 本研究では,単一文書と複数文書の観点から自動要約の側面について検討する。 要約は、巨大なテキスト記事を短く要約したバージョンにまとめる作業である。 テキストは要約目的のためにサイズを縮小するが、重要な重要情報を保存し、原文書の意味を保持する。 本研究は,遺伝子および疾患に関連する話題を要約した医学雑誌記事からトピックモデリングを行うために,潜在ディリクレ割当(LDA)アプローチを提案する。 本研究では,pyldavis webベースのインタラクティブ・ビジュアライゼーション・ツールを用いてトピックの可視化を行った。 可視化は主要なトピックを概観し、個々のトピックに対する深い意味を許容し、帰結させる。 本研究では,単一の文書と複数の文書を要約する新しい手法を提案する。 その結果, 抽出要約手法を用いて, 文書中の話題の出現確率を考慮し, 純粋にランク付けした。 PyLDAvisビジュアライゼーションは、LDAモデルに適合したトピックの関連を探索する柔軟性を記述している。 トピックモデリングの結果は、トピック1とトピック2に有病率を示す。 本研究は,本研究の話題1と2に類似点があることを明らかにする。 モデルの信頼性と妥当性を評価するために,ldaと抽出要約法の有効性を潜在意味分析 (lsa) とリコール指向下評価 (rouge) 指標を用いて測定した。

With the advent and popularity of big data mining and huge text analysis in modern times, automated text summarization became prominent for extracting and retrieving important information from documents. This research investigates aspects of automatic text summarization from the perspectives of single and multiple documents. Summarization is a task of condensing huge text articles into short, summarized versions. The text is reduced in size for summarization purpose but preserving key vital information and retaining the meaning of the original document. This study presents the Latent Dirichlet Allocation (LDA) approach used to perform topic modelling from summarised medical science journal articles with topics related to genes and diseases. In this study, PyLDAvis web-based interactive visualization tool was used to visualise the selected topics. The visualisation provides an overarching view of the main topics while allowing and attributing deep meaning to the prevalence individual topic. This study presents a novel approach to summarization of single and multiple documents. The results suggest the terms ranked purely by considering their probability of the topic prevalence within the processed document using extractive summarization technique. PyLDAvis visualization describes the flexibility of exploring the terms of the topics' association to the fitted LDA model. The topic modelling result shows prevalence within topics 1 and 2. This association reveals that there is similarity between the terms in topic 1 and 2 in this study. The efficacy of the LDA and the extractive summarization methods were measured using Latent Semantic Analysis (LSA) and Recall-Oriented Understudy for Gisting Evaluation (ROUGE) metrics to evaluate the reliability and validity of the model.
翻訳日:2022-08-07 14:34:34 公開日:2022-08-02
# 視覚対応に基づく説明はAIの堅牢性と人間-AIチームの正確性を改善する

Visual correspondence-based explanations improve AI robustness and human-AI team accuracy ( http://arxiv.org/abs/2208.00780v2 )

ライセンス: Link先を確認
Giang Nguyen, Mohammad Reza Taesiri, Anh Nguyen(参考訳) ai(artificial intelligence, 人工知能)の予測を説明することは、人間が究極の意思決定者である多くの高リスクアプリケーションにおいて、ますます重要であり、さらに必須です。 そこで本研究では,まず自己解釈可能な画像分類器の2つの新しいアーキテクチャを提案し,クエリ画像とexemplars間の視覚的対応を利用して(ポストホックな説明とは対照的に)予測する。 当社のモデルでは, アウト・オブ・ディストリビューション(OOD)データセットにおいて, ResNet-50 や $k$-nearest 隣の分類器 (kNN) よりも分布内テストにおいて, 極端に悪い (1 から 2 ポイント) 性能を示した。 ImageNetとCUBの大規模な人間による研究により、我々の対応に基づく説明は、kNNの説明よりもユーザにとって有用であることが判明した。 私たちの説明は、AIの間違った判断を他のテスト方法よりも正確に拒否するのに役立つ。 興味深いことに、ImageNet と CUB の画像分類タスクにおいて、初めて補完的な人間-AI チームの精度(つまり、AI-alone か人間-alone どちらよりも高い)を達成することができることを示す。

Explaining artificial intelligence (AI) predictions is increasingly important and even imperative in many high-stakes applications where humans are the ultimate decision-makers. In this work, we propose two novel architectures of self-interpretable image classifiers that first explain, and then predict (as opposed to post-hoc explanations) by harnessing the visual correspondences between a query image and exemplars. Our models consistently improve (by 1 to 4 points) on out-of-distribution (OOD) datasets while performing marginally worse (by 1 to 2 points) on in-distribution tests than ResNet-50 and a $k$-nearest neighbor classifier (kNN). Via a large-scale, human study on ImageNet and CUB, our correspondence-based explanations are found to be more useful to users than kNN explanations. Our explanations help users more accurately reject AI's wrong decisions than all other tested methods. Interestingly, for the first time, we show that it is possible to achieve complementary human-AI team accuracy (i.e., that is higher than either AI-alone or human-alone), in ImageNet and CUB image classification tasks.
翻訳日:2022-08-07 14:17:46 公開日:2022-08-02
# ドメイン一般化における距離メトリック学習のための暗黙のセマンティック拡張

Implicit Semantic Augmentation for Distance Metric Learning in Domain Generalization ( http://arxiv.org/abs/2208.02803v1 )

ライセンス: Link先を確認
Meng Wang, Jianlong Yuna, Qi Qian, Zhibin Wang, Hao Li(参考訳) ドメイン一般化(dg:domain generalization)は、1つ以上の異なるが関連するソースドメインでモデルを学習することを目的としている。 既存のDG手法は、モデルの一般化能力のためにソースドメインの多様性を促進させようとするが、補助的なネットワークの導入や計算コストの大幅な削減が必要になる。 逆に、この研究は、特徴空間における暗黙のセマンティック拡張を適用して、ソースドメインの多様性を捉える。 具体的には、データ分布の局所的幾何を最適化するために、距離距離距離学習(DML)のさらなる損失関数を含める。 また, 深部特徴の代わりにDML損失の入力特徴として, 無限拡張によるクロスエントロピー損失のロジットが採用されている。 また、ロジットが元の特徴に定義された距離をうまく近似できることを示す理論的解析も提供する。 さらに、我々のアプローチの背後にあるメカニズムと根拠を詳細に分析し、機能の代わりにlogitsを活用することがドメインの一般化に役立つ理由をよりよく理解できるようにします。 暗黙的な拡張によるDMLの損失は、最近のDG手法、すなわちFourier Augmented Co-Teacher framework(FACT)に組み込まれている。 一方,本手法は様々なDG手法に簡単に接続できる。 3つのベンチマーク(Digits-DG, PACS, Office-Home)の大規模な実験により, 提案手法は最先端の性能を実現することができることを示した。

Domain generalization (DG) aims to learn a model on one or more different but related source domains that could be generalized into an unseen target domain. Existing DG methods try to prompt the diversity of source domains for the model's generalization ability, while they may have to introduce auxiliary networks or striking computational costs. On the contrary, this work applies the implicit semantic augmentation in feature space to capture the diversity of source domains. Concretely, an additional loss function of distance metric learning (DML) is included to optimize the local geometry of data distribution. Besides, the logits from cross entropy loss with infinite augmentations is adopted as input features for the DML loss in lieu of the deep features. We also provide a theoretical analysis to show that the logits can approximate the distances defined on original features well. Further, we provide an in-depth analysis of the mechanism and rational behind our approach, which gives us a better understanding of why leverage logits in lieu of features can help domain generalization. The proposed DML loss with the implicit augmentation is incorporated into a recent DG method, that is, Fourier Augmented Co-Teacher framework (FACT). Meanwhile, our method also can be easily plugged into various DG methods. Extensive experiments on three benchmarks (Digits-DG, PACS and Office-Home) have demonstrated that the proposed method is able to achieve the state-of-the-art performance.
翻訳日:2022-08-05 13:10:28 公開日:2022-08-02
# 知識支援型動的ニューラルネットワークを用いた6G無線ネットワークのオンデスマンド資源管理

On-Demand Resource Management for 6G Wireless Networks Using Knowledge-Assisted Dynamic Neural Networks ( http://arxiv.org/abs/2208.01785v1 )

ライセンス: Link先を確認
Longfei Ma, Nan Cheng, Xiucheng Wang, Ruijin Sun, and Ning Lu(参考訳) 6G無線通信ネットワークにおいて、オンデマンドサービスのプロビジョニングは重要な課題であるが、新興サービスの要求は様々であり、ネットワークリソースはますます異質化され、動的化する。 本稿では,オーケストレーション意思決定プロセスにおける計算遅延に着目し,オンデマンドの無線リソースオーケストレーション問題について検討する。 具体的には,決定の遅れを最適化問題に適用する。 次に、動的ニューラルネットワーク(DyNN)に基づく手法を提案し、サービス要求に応じてモデルの複雑さを調整する。 さらに、サービス要件、利用可能なコンピューティングリソース、リソース割り当て性能の関係を表す知識ベースを構築します。 知識を活用することで、DyNNの幅をタイムリーに選択でき、さらにオーケストレーションの性能を向上させることができる。 シミュレーションの結果,提案手法は従来の静的ニューラルネットワークを著しく上回っており,オンデマンドサービスプロビジョニングの柔軟性も示している。

On-demand service provisioning is a critical yet challenging issue in 6G wireless communication networks, since emerging services have significantly diverse requirements and the network resources become increasingly heterogeneous and dynamic. In this paper, we study the on-demand wireless resource orchestration problem with the focus on the computing delay in orchestration decision-making process. Specifically, we take the decision-making delay into the optimization problem. Then, a dynamic neural network (DyNN)-based method is proposed, where the model complexity can be adjusted according to the service requirements. We further build a knowledge base representing the relationship among the service requirements, available computing resources, and the resource allocation performance. By exploiting the knowledge, the width of DyNN can be selected in a timely manner, further improving the performance of orchestration. Simulation results show that the proposed scheme significantly outperforms the traditional static neural network, and also shows sufficient flexibility in on-demand service provisioning.
翻訳日:2022-08-05 13:09:05 公開日:2022-08-02
# アクティブコーナーカメラによる非視線追跡とマッピング

Non-Line-of-Sight Tracking and Mapping with an Active Corner Camera ( http://arxiv.org/abs/2208.01702v1 )

ライセンス: Link先を確認
Sheila Seidel, Hoover Rueda-Chacon, Iris Cusini, Federica Villa, Franco Zappa, Christopher Yu, and Vivek K Goyal(参考訳) nlos(non-line-of-sight)イメージを形成する能力は、捜索や救助、自動運転車のナビゲーション、偵察など、さまざまな分野で変革をもたらす可能性がある。 既存のアクティブNLOS法は、リレー面に向いたパルスレーザーを用いて隠れたシーンを照らし、返射光の時間分解測定を行う。 一般的なアプローチとしては、利子の体積の反対の垂直な壁に矩形格子をラスター走査し、共焦点測定のコレクションを生成する方法がある。 これらは本質的にレーザー走査の必要性によって制限される。 レーザースキャンを避ける方法は、隠れたシーンの可動部分を1つか2つの目標として追跡する。 本研究では,複数の照明位置を持たない,より完全な光応答モデルに基づいて,動作中の物体の正確な再構成と,その背後にある静止風景の「地図」を示す。 動きの中の隠れた物体のサイズを数え、局所化し、特徴付ける能力は、静止した隠れたシーンのマッピングと組み合わせることで、様々な応用において屋内の状況認識を大幅に改善することができる。

The ability to form non-line-of-sight (NLOS) images of changing scenes could be transformative in a variety of fields, including search and rescue, autonomous vehicle navigation, and reconnaissance. Most existing active NLOS methods illuminate the hidden scene using a pulsed laser directed at a relay surface and collect time-resolved measurements of returning light. The prevailing approaches include raster scanning of a rectangular grid on a vertical wall opposite the volume of interest to generate a collection of confocal measurements. These are inherently limited by the need for laser scanning. Methods that avoid laser scanning track the moving parts of the hidden scene as one or two point targets. In this work, based on more complete optical response modeling yet still without multiple illumination positions, we demonstrate accurate reconstructions of objects in motion and a 'map' of the stationary scenery behind them. The ability to count, localize, and characterize the sizes of hidden objects in motion, combined with mapping of the stationary hidden scene, could greatly improve indoor situational awareness in a variety of applications.
翻訳日:2022-08-04 14:24:06 公開日:2022-08-02
# 高マッハオイラー方程式への加速解に対するニューラル基底関数

Neural Basis Functions for Accelerating Solutions to High Mach Euler Equations ( http://arxiv.org/abs/2208.01687v1 )

ライセンス: Link先を確認
David Witman, Alexander New, Hicham Alkendry, Honest Mrema(参考訳) 本稿では,神経基底関数(neural basis function, nbf)と呼ばれるニューラルネットワークを用いた偏微分方程式(pdes)の解法を提案する。 このNBFフレームワークはPOD DeepONet演算子学習アプローチの新たなバリエーションであり、ニューラルネットワークの集合を縮小順序 Proper Orthogonal Decomposition (POD) に基づいて再生成する。 これらのネットワークは、所定のPDEのパラメータを取り込み、PDEに還元順序近似を計算する分岐ネットワークと組み合わせて使用される。 この手法は高速流れ条件(マッハ10-30)に対する安定状態オイラー方程式に適用され, 衝撃条件を呈するシリンダーまわりの2次元流れを考察する。 nbf予測を初期条件として高忠実度計算流体力学(cfd)ソルバ(cfd++)を用いてより高速な収束を示す。 このアルゴリズムのトレーニングと実装で学んだ教訓も提示される。

We propose an approach to solving partial differential equations (PDEs) using a set of neural networks which we call Neural Basis Functions (NBF). This NBF framework is a novel variation of the POD DeepONet operator learning approach where we regress a set of neural networks onto a reduced order Proper Orthogonal Decomposition (POD) basis. These networks are then used in combination with a branch network that ingests the parameters of the prescribed PDE to compute a reduced order approximation to the PDE. This approach is applied to the steady state Euler equations for high speed flow conditions (mach 10-30) where we consider the 2D flow around a cylinder which develops a shock condition. We then use the NBF predictions as initial conditions to a high fidelity Computational Fluid Dynamics (CFD) solver (CFD++) to show faster convergence. Lessons learned for training and implementing this algorithm will be presented as well.
翻訳日:2022-08-04 14:22:36 公開日:2022-08-02
# OLLIE: 派生型テンソルプログラム最適化

OLLIE: Derivation-based Tensor Program Optimizer ( http://arxiv.org/abs/2208.02025v1 )

ライセンス: Link先を確認
Liyan Zheng, Haojie Wang, Jidong Zhai, Muyan Hu, Zixuan Ma, Tuowei Wang, Shizhi Tang, Lei Xie, Kezhao Huang and Zhihao Jia(参考訳) deep neural network(dnn)のランタイムパフォーマンスの向上は、現実世界のタスクに広く採用されているため、非常に重要である。 DNNのテンソル代数式を最適化するための既存のアプローチは、固定された定義された演算子の集合で表現できる表現のみを考慮し、一般表現間の最適化機会を欠いている。 最初の派生型テンソルプログラムであるOLLIEを提案する。 OLLIEは、一般的なテンソル代数式間の変換を活用することでテンソルプログラムを最適化し、前処理が特別なケースとしてサポートするものを含む、はるかに大きな表現検索空間を実現する。 OLLIEは、爆発的導出と誘導的導出を効果的に組み合わせ、高度に最適化された式を素早く発見するハイブリッド導出に基づく最適化器を使用している。 7つのDNNの評価によると、OLLIEは、A100 GPUで最大2.73$\times$(平均1.46$\times$)、V100 GPUで最大2.68$\times$(1.51$\times$)を上回ることができる。

Boosting the runtime performance of deep neural networks (DNNs) is critical due to their wide adoption in real-world tasks. Existing approaches to optimizing the tensor algebra expression of a DNN only consider expressions representable by a fixed set of predefined operators, missing possible optimization opportunities between general expressions. We propose OLLIE, the first derivation-based tensor program optimizer. OLLIE optimizes tensor programs by leveraging transformations between general tensor algebra expressions, enabling a significantly larger expression search space that includes those supported by prior work as special cases. OLLIE uses a hybrid derivation-based optimizer that effectively combines explorative and guided derivations to quickly discover highly optimized expressions. Evaluation on seven DNNs shows that OLLIE can outperform existing optimizers by up to 2.73$\times$ (1.46$\times$ on average) on an A100 GPU and up to 2.68$\times$ (1.51$\times$) on a V100 GPU, respectively.
翻訳日:2022-08-04 14:17:24 公開日:2022-08-02
# BPMN4sML: サーバレス機械学習のためのBPMN拡張。 機械学習ワークフローのテクノロジに依存しない相互運用可能なモデリングとサーバレスデプロイメントオーケストレーション

BPMN4sML: A BPMN Extension for Serverless Machine Learning. Technology Independent and Interoperable Modeling of Machine Learning Workflows and their Serverless Deployment Orchestration ( http://arxiv.org/abs/2208.02030v1 )

ライセンス: Link先を確認
Laurens Martin Tetzlaff(参考訳) 機械学習(ML)は学術、産業、社会のあらゆる層に浸透し続けている。 その成功にもかかわらず、一貫性のある一貫性のある方法で機械学習ワークフローをキャプチャし、表現するメンタルフレームワークは欠如している。 例えば、オブジェクト管理グループによって管理される事実上のプロセスモデリング標準であるBusiness Process Model and Notation(BPMN)が広く受け入れられ、適用されています。 しかし、機械学習ワークフローを表現するための特定のサポートには不足している。 さらに、機械学習ソリューションをデプロイするための異種ツールの数は、実践者を圧倒することができる。 モデリングからMLワークフローのデプロイまでのプロセスを調整するには、研究が必要である。 機械学習ワークフローの標準ベース概念モデリングの要件とそのサーバレスデプロイメントを分析します。 BPMNのメタオブジェクトファシリティ(MOF)メタモデルとそれに対応する表記法を拡張し、BPMN4sML(サーバレス機械学習のためのBPMN)を導入します。 私たちの拡張BPMN4sMLは、BPMNのオブジェクト管理グループ(OMG)が参照したのと同じ概要に従っています。 BPMN4sMLモデルをTOSCAを使用して対応するデプロイメントモデルに変換する概念マッピングを提案することで、デプロイメントの不均一性をさらに解決する。 BPMN4sMLは、機械学習ライフサイクル全体にわたるさまざまな粒度と複雑さの機械学習ワークフローの、テクノロジに依存しない相互運用可能なモデリングを可能にする。 MLソリューションを伝えるために、共有および標準化された言語に到達するのに役立つ。 さらに、MLワークフローモデルダイアグラムを、TOSCAを介してサーバレスデプロイメント用の対応するデプロイメントモデルに変換するための第一歩を踏み出します。

Machine learning (ML) continues to permeate all layers of academia, industry and society. Despite its successes, mental frameworks to capture and represent machine learning workflows in a consistent and coherent manner are lacking. For instance, the de facto process modeling standard, Business Process Model and Notation (BPMN), managed by the Object Management Group, is widely accepted and applied. However, it is short of specific support to represent machine learning workflows. Further, the number of heterogeneous tools for deployment of machine learning solutions can easily overwhelm practitioners. Research is needed to align the process from modeling to deploying ML workflows. We analyze requirements for standard based conceptual modeling for machine learning workflows and their serverless deployment. Confronting the shortcomings with respect to consistent and coherent modeling of ML workflows in a technology independent and interoperable manner, we extend BPMN's Meta-Object Facility (MOF) metamodel and the corresponding notation and introduce BPMN4sML (BPMN for serverless machine learning). Our extension BPMN4sML follows the same outline referenced by the Object Management Group (OMG) for BPMN. We further address the heterogeneity in deployment by proposing a conceptual mapping to convert BPMN4sML models to corresponding deployment models using TOSCA. BPMN4sML allows technology-independent and interoperable modeling of machine learning workflows of various granularity and complexity across the entire machine learning lifecycle. It aids in arriving at a shared and standardized language to communicate ML solutions. Moreover, it takes the first steps toward enabling conversion of ML workflow model diagrams to corresponding deployment models for serverless deployment via TOSCA.
翻訳日:2022-08-04 14:17:01 公開日:2022-08-02
# 非凸$\ell_{q,p}=正規化を伴う構造最適化のスクリーニング戦略

A Screening Strategy for Structured Optimization Involving Nonconvex $\ell_{q,p}$ Regularization ( http://arxiv.org/abs/2208.02161v1 )

ライセンス: Link先を確認
Tiange Li, Xiangyu Yang and Hao Wang(参考訳) 本稿では,非凸$\ell_{q,p}$正規化を含む構造化最適化の解法において,計算効率を向上させるための簡易かつ効果的なスクリーニングルール戦略を開発する。 反復的に重み付けされた$\ell_1$ (irl1) フレームワークに基づいて、提案するスクリーニングルールは、サブプロブレムソルバを開始する前に不活性なグループを除去し、計算時間を総和する前処理モジュールのように動作する。 これは主に、各イテレーション中に二重サブプロブレム情報をヒューリスティックに利用することによって実現され、また、我々のスクリーニングルールはIRL1法の有限個の反復で全ての不活性変数を除去できることを示す。 数値実験は,いくつかの最先端アルゴリズムと比較して,スクリーニングルール戦略の効率を示す。

In this paper, we develop a simple yet effective screening rule strategy to improve the computational efficiency in solving structured optimization involving nonconvex $\ell_{q,p}$ regularization. Based on an iteratively reweighted $\ell_1$ (IRL1) framework, the proposed screening rule works like a preprocessing module that potentially removes the inactive groups before starting the subproblem solver, thereby reducing the computational time in total. This is mainly achieved by heuristically exploiting the dual subproblem information during each iteration.Moreover, we prove that our screening rule can remove all inactive variables in a finite number of iterations of the IRL1 method. Numerical experiments illustrate the efficiency of our screening rule strategy compared with several state-of-the-art algorithms.
翻訳日:2022-08-04 14:15:46 公開日:2022-08-02
# 医用画像解析におけるテクスチャの特徴

Texture features in medical image analysis: a survey ( http://arxiv.org/abs/2208.02046v1 )

ライセンス: Link先を確認
Faeze Kiani(参考訳) テクスチャは、画像全体または領域に周期的に繰り返される画像中の画素の強度の空間構造として定義され、画像の概念となる。 テクスチャ、色、形状は、人間の視覚システムによって画像の内容を認識するために使用される3つの主要な構成要素である。 本稿では,まず,効率的かつ更新されたテクスチャ解析演算子について詳述する。 次に、テクスチャ分析を医学的応用や疾患診断に利用する最先端の手法が生き残る。 最後に、正確性、データセット、アプリケーションなどの観点から異なるアプローチを比較します。 その結果, テクスチャの特徴は, 深部, 色, 形状などの異なる特徴セットを別々に, あるいは共同で組み合わせることで, 医用画像の分類において高い精度が得られた。

The texture is defined as spatial structure of the intensities of the pixels in an image that is repeated periodically in the whole image or regions, and makes the concept of the image. Texture, color and shape are three main components which are used by human visual system to recognize image contents. In this paper, first of all, efficient and updated texture analysis operators are survived with details. Next, some state-of-the-art methods are survived that use texture analysis in medical applications and disease diagnosis. Finally, different approaches are compared in terms of accuracy, dataset, application, etc. Results demonstrate that texture features separately or in joint of different feature sets such as deep, color or shape features provide high accuracy in medical image classification.
翻訳日:2022-08-04 14:12:16 公開日:2022-08-02
# CAPD: セキュアでレジリエントなIoBT運用のためのコンテキスト対応でポリシー駆動のフレームワーク

CAPD: A Context-Aware, Policy-Driven Framework for Secure and Resilient IoBT Operations ( http://arxiv.org/abs/2208.01703v1 )

ライセンス: Link先を確認
Sai Sree Laya Chukkapalli, Anupam Joshi, Tim Finin, Robert F. Erbacher(参考訳) Internet of Battlefield Things (IoBT) は歩兵部隊の運用を効率化する。 しかし、これはセンサー、ドローン、戦闘機器、無人車両などの自律的な資産を必要とし、協力し、情報を安全に共有し、競合する複数ドメインでの攻撃に対して耐性がある。 CAPDは、戦闘空間内の自律的なエンティティ間でのデータと知識交換をサポートする、コンテキスト対応でポリシー駆動のフレームワークを提供することで、この問題に対処する。 システム間のセマンティック相互運用性を実現するために制御情報共有を容易にするIoBTオントロジーを提案する。 主なコントリビューションは、共有セマンティックスキーマを備えたナレッジグラフの提供、バックグラウンド知識の統合、データの一貫性の強化と推論の効率的なメカニズム、属性ベースのアクセス制御のサポートなどだ。 IoBTのセンサーはオントロジーに基づいた知識グラフを生成するデータを提供する。 本稿では,CAPDを用いた敵行動の検出と緩和について述べる。 CAPDは、知覚されたデータとSPARQLクエリに対する推論を使用して状況認識を可能にする。 例えば、敵はセンサーの故障やハイジャックを引き起こし、戦術ネットワークを破壊してビデオ監視を低下させる。 このような例では、CAPDはオントロジーに基づく推論を使用して、代替アプローチがミッションをどのようにサポートするかを確認する。 帯域幅の可用性に応じて、アクティブなトランスコーディングによるフレームレートグレースケールビデオの作成を開始するか、静止画像のみを送信する。 ミッション感知された環境と攻撃状況について推論できるこの能力により、自律的なIoBTシステムは競合する条件下でレジリエンスを示すことができる。

The Internet of Battlefield Things (IoBT) will advance the operational effectiveness of infantry units. However, this requires autonomous assets such as sensors, drones, combat equipment, and uncrewed vehicles to collaborate, securely share information, and be resilient to adversary attacks in contested multi-domain operations. CAPD addresses this problem by providing a context-aware, policy-driven framework supporting data and knowledge exchange among autonomous entities in a battlespace. We propose an IoBT ontology that facilitates controlled information sharing to enable semantic interoperability between systems. Its key contributions include providing a knowledge graph with a shared semantic schema, integration with background knowledge, efficient mechanisms for enforcing data consistency and drawing inferences, and supporting attribute-based access control. The sensors in the IoBT provide data that create populated knowledge graphs based on the ontology. This paper describes using CAPD to detect and mitigate adversary actions. CAPD enables situational awareness using reasoning over the sensed data and SPARQL queries. For example, adversaries can cause sensor failure or hijacking and disrupt the tactical networks to degrade video surveillance. In such instances, CAPD uses an ontology-based reasoner to see how alternative approaches can still support the mission. Depending on bandwidth availability, the reasoner initiates the creation of a reduced frame rate grayscale video by active transcoding or transmits only still images. This ability to reason over the mission sensed environment and attack context permits the autonomous IoBT system to exhibit resilience in contested conditions.
翻訳日:2022-08-04 14:11:24 公開日:2022-08-02
# 差動的にプライベートな垂直フェデレーションクラスタリング

Differentially Private Vertical Federated Clustering ( http://arxiv.org/abs/2208.01700v1 )

ライセンス: Link先を確認
Zitao Li, Tianhao Wang, Ninghui Li(参考訳) 多くのアプリケーションでは、複数のパーティが同じユーザセットに関するプライベートデータを持っているが、非結合な属性セットで、サーバはモデルをトレーニングするためにデータを活用したいと考えている。 データのプライバシを保護しながらモデル学習を可能にするためには、データパーティがプライベートデータではなく、モデルをトレーニングするための情報のみを共有する垂直フェデレーション学習(vfl)技術が必要です。 しかし、正確なモデルを学習しながら共有情報がプライバシーを維持することは困難である。 本論文で提案するアルゴリズムは,サーバが証明可能なディファレンシャルプライバシ保証を備えたグローバルセンタのセットを取得可能な,非プライベートな垂直フェデレートk-meansクラスタリングに対する,最初の実用的なソリューションである。 このアルゴリズムは,信頼できない中央サーバを想定し,ローカルなデータパーティから個別のローカルセンタとメンバシップエンコーディングを集約する。 受信した情報に基づいてグローバルデータセットのシナプスとして重み付けされたグリッドを構築する。 最終中心は、重み付きグリッド上で任意のk平均アルゴリズムを実行することで生成される。 格子重み推定の手法は,フラジョレット・マーチンスケッチに基づく,新しい,軽量で,差分的にプライベートな交叉基数推定アルゴリズムを用いる。 さらに、2つ以上のデータパーティを持つ設定における推定精度を向上させるために、重み付け推定アルゴリズムの洗練されたバージョンとパラメータチューニング戦略を提案し、中央のプライベート設定でそれに近い最終的なk-meansユーティリティを減らす。 提案手法は,提案アルゴリズムによって計算されたクラスタセンターの理論的有用性解析と実験評価を行い,既存の手法に基づく2つのベースラインよりも理論的および実験的に優れた性能を示すことを示す。

In many applications, multiple parties have private data regarding the same set of users but on disjoint sets of attributes, and a server wants to leverage the data to train a model. To enable model learning while protecting the privacy of the data subjects, we need vertical federated learning (VFL) techniques, where the data parties share only information for training the model, instead of the private data. However, it is challenging to ensure that the shared information maintains privacy while learning accurate models. To the best of our knowledge, the algorithm proposed in this paper is the first practical solution for differentially private vertical federated k-means clustering, where the server can obtain a set of global centers with a provable differential privacy guarantee. Our algorithm assumes an untrusted central server that aggregates differentially private local centers and membership encodings from local data parties. It builds a weighted grid as the synopsis of the global dataset based on the received information. Final centers are generated by running any k-means algorithm on the weighted grid. Our approach for grid weight estimation uses a novel, light-weight, and differentially private set intersection cardinality estimation algorithm based on the Flajolet-Martin sketch. To improve the estimation accuracy in the setting with more than two data parties, we further propose a refined version of the weights estimation algorithm and a parameter tuning strategy to reduce the final k-means utility to be close to that in the central private setting. We provide theoretical utility analysis and experimental evaluation results for the cluster centers computed by our algorithm and show that our approach performs better both theoretically and empirically than the two baselines based on existing techniques.
翻訳日:2022-08-04 14:11:01 公開日:2022-08-02
# パーソナライズされたレコメンデーションのためのインシシットフィードバックのトリプレットの重要性の適応

Adapting Triplet Importance of Implicit Feedback for Personalized Recommendation ( http://arxiv.org/abs/2208.01709v1 )

ライセンス: Link先を確認
Haolun Wu, Chen Ma, Yingxue Zhang, Xue Liu, Ruiming Tang, Mark Coates(参考訳) インプシットフィードバックは、現実のシステムでの利用性とアクセシビリティのためにパーソナライズされたレコメンデーションサービスを開発するために頻繁に使用される。 このような情報を効果的に活用するために、多くの研究は、構築されたトレーニングトリプレット(ユーザ、ポジティブアイテム、ネガティブアイテム)のペアワイズランキング手法を採用し、ユーザごとにポジティブアイテムとネガティブアイテムを区別することを目指している。 しかし、これらの手法のほとんどはトレーニングトリプレットを等しく扱うため、異なる正と負の項目の微妙な違いを無視する。 一方で、ユーザの行動の補助情報(例えば、生活時間)を利用して、この微妙な違いを捉えている作品もあるが、そのような補助情報を得るのは困難である。 上記の問題を緩和するために,三重項の重要度を適応的に学習する三重項重要度学習(TIL)という新しい学習フレームワークを提案する。 重要スコア生成のための2つの戦略を考案し、ルールベースの設計を必要としない二段階最適化として手順全体を定式化する。 提案手法をいくつかの行列因子化(MF)モデルとグラフニューラルネットワーク(GNN)ベースのレコメンデーションモデルと統合し,フレームワークの互換性を実証する。 提案手法は,3つの実世界のデータセットと多数の最先端手法との比較により,トップkレコメンデーションのRecall@kにおいて,最高の既存モデルよりも3~21倍高い性能を示した。

Implicit feedback is frequently used for developing personalized recommendation services due to its ubiquity and accessibility in real-world systems. In order to effectively utilize such information, most research adopts the pairwise ranking method on constructed training triplets (user, positive item, negative item) and aims to distinguish between positive items and negative items for each user. However, most of these methods treat all the training triplets equally, which ignores the subtle difference between different positive or negative items. On the other hand, even though some other works make use of the auxiliary information (e.g., dwell time) of user behaviors to capture this subtle difference, such auxiliary information is hard to obtain. To mitigate the aforementioned problems, we propose a novel training framework named Triplet Importance Learning (TIL), which adaptively learns the importance score of training triplets. We devise two strategies for the importance score generation and formulate the whole procedure as a bilevel optimization, which does not require any rule-based design. We integrate the proposed training procedure with several Matrix Factorization (MF)- and Graph Neural Network (GNN)-based recommendation models, demonstrating the compatibility of our framework. Via a comparison using three real-world datasets with many state-of-the-art methods, we show that our proposed method outperforms the best existing models by 3-21\% in terms of Recall@k for the top-k recommendation.
翻訳日:2022-08-04 14:10:32 公開日:2022-08-02
# 不均一エージェントミラーラーニング:協調的marlに対する解の連続体

Heterogeneous-Agent Mirror Learning: A Continuum of Solutions to Cooperative MARL ( http://arxiv.org/abs/2208.01682v1 )

ライセンス: Link先を確認
Jakub Grudzien Kuba, Xidong Feng, Shiyao Ding, Hao Dong, Jun Wang, Yaodong Yang(参考訳) 知的機械間の協調の必要性は,人工知能(AI)研究コミュニティにおいて,協調型マルチエージェント強化学習(MARL)の普及に寄与している。 しかし、多くの研究成果は、実験的にのみ研究され、理論的保証が欠如している実用的なMARLアルゴリズムの開発に焦点が当てられている。 最近の研究が示すように、マール法はしばしば、報酬単調性や収束時の準最適性の観点から不安定な性能を達成する。 これらの問題を解決するため,本論文では,marlアルゴリズム設計のための汎用テンプレートを提供する,ヘテロジニアスエージェントミラーラーニング(haml)という新しいフレームワークを提案する。 HAMLテンプレートから派生したアルゴリズムは,結合報酬の単調改善とナッシュ平衡への収束の望ましい特性を満たすことを証明した。 我々は,現在最先端の協調型MARLアルゴリズムであるHATRPOとHAPPOが実際にHAMLインスタンスであることを証明し,HAMLの実用性を検証する。 次に、本理論の自然な結果として、2つの有名なRLアルゴリズムであるHAA2C(A2C)とHADDPG(DDPG)のHAML拡張を提案し、StarCraftIIとMulti-Agent MuJoCoタスクの強いベースラインに対する効果を示す。

The necessity for cooperation among intelligent machines has popularised cooperative multi-agent reinforcement learning (MARL) in the artificial intelligence (AI) research community. However, many research endeavors have been focused on developing practical MARL algorithms whose effectiveness has been studied only empirically, thereby lacking theoretical guarantees. As recent studies have revealed, MARL methods often achieve performance that is unstable in terms of reward monotonicity or suboptimal at convergence. To resolve these issues, in this paper, we introduce a novel framework named Heterogeneous-Agent Mirror Learning (HAML) that provides a general template for MARL algorithmic designs. We prove that algorithms derived from the HAML template satisfy the desired properties of the monotonic improvement of the joint reward and the convergence to Nash equilibrium. We verify the practicality of HAML by proving that the current state-of-the-art cooperative MARL algorithms, HATRPO and HAPPO, are in fact HAML instances. Next, as a natural outcome of our theory, we propose HAML extensions of two well-known RL algorithms, HAA2C (for A2C) and HADDPG (for DDPG), and demonstrate their effectiveness against strong baselines on StarCraftII and Multi-Agent MuJoCo tasks.
翻訳日:2022-08-04 14:06:34 公開日:2022-08-02
# 学習画像圧縮コーデックのストリーミング対応高性能アーキテクチャ

Streaming-capable High-performance Architecture of Learned Image Compression Codecs ( http://arxiv.org/abs/2208.01641v1 )

ライセンス: Link先を確認
Fangzheng Lin, Heming Sun, Jiro Katto(参考訳) 学習した画像圧縮は、最先端の精度と圧縮比を実現することができるが、実行時のパフォーマンスが比較的遅いため、使用が制限される。 ニューラルネットワークとエントロピー符号化に焦点を絞った学習画像コーデックの最適化の試みでは,様々な学習画像圧縮モデルのランタイム性能を改善するための代替手法を提案する。 マルチスレッドパイプラインと最適化されたメモリモデルを導入し、GPUとCPUの非同期実行を可能にし、計算資源を完全に活用する。 私たちのアーキテクチャだけでも、ニューラルモデル自体を変更することなく、優れたパフォーマンスを実現しています。 また、アーキテクチャとニューラルモデルへの以前の調整を組み合わせることで、実行時のパフォーマンスがさらに向上することを示した。 本実装は,ビデオストリーミングエンコーダ-デコーダサンプルアプリケーションを作成し,エンコーダを組込みデバイス上で動作させることで,ベースラインと比較してスループットとレイテンシに優れており,実装の性能を示す。

Learned image compression allows achieving state-of-the-art accuracy and compression ratios, but their relatively slow runtime performance limits their usage. While previous attempts on optimizing learned image codecs focused more on the neural model and entropy coding, we present an alternative method to improving the runtime performance of various learned image compression models. We introduce multi-threaded pipelining and an optimized memory model to enable GPU and CPU workloads asynchronous execution, fully taking advantage of computational resources. Our architecture alone already produces excellent performance without any change to the neural model itself. We also demonstrate that combining our architecture with previous tweaks to the neural models can further improve runtime performance. We show that our implementations excel in throughput and latency compared to the baseline and demonstrate the performance of our implementations by creating a real-time video streaming encoder-decoder sample application, with the encoder running on an embedded device.
翻訳日:2022-08-04 14:04:25 公開日:2022-08-02
# 正のラベリング源を用いたバイナリ分類

Binary Classification with Positive Labeling Sources ( http://arxiv.org/abs/2208.01704v1 )

ライセンス: Link先を確認
Jieyu Zhang, Yujing Wang, Yaming Yang, Yang Luo, Alexander Ratner(参考訳) 機械学習モデルのための大量のトレーニングラベルを効果的に効率的に作成するために、研究者は手動のアノテーションではなくプログラムによるラベル付けソースを使用するWeak Supervision(WS)に切り替えた。 バイナリ分類のための既存のWSの作業は、概してバランスの取れた割合で、正と負のラベルの両方をデータに割り当てることができるラベル付けソースの存在を前提としています。 しかし、少数な肯定的なクラスが存在する多くのタスクにおいて、負の例は開発者が指示的なラベリングソースを生成するには多様すぎる可能性がある。 そこで本研究では、正のラベリングソースのみを用いた二項分類タスクにおけるWSの適用について検討する。 WEAPOは、負のラベル付け源を使わずにトレーニングラベルを作成するための、シンプルで競争力のあるWS手法である。 10個のベンチマークデータセットにおいて,合成ラベルの品質とそれらのラベルを監督する最終分類器の性能の両方において,weapoが最高平均性能を達成していることを示す。 我々は、既存のベンチマークプラットフォームであるwrenchに \methodの実装を組み込んだ。

To create a large amount of training labels for machine learning models effectively and efficiently, researchers have turned to Weak Supervision (WS), which uses programmatic labeling sources rather than manual annotation. Existing works of WS for binary classification typically assume the presence of labeling sources that are able to assign both positive and negative labels to data in roughly balanced proportions. However, for many tasks of interest where there is a minority positive class, negative examples could be too diverse for developers to generate indicative labeling sources. Thus, in this work, we study the application of WS on binary classification tasks with positive labeling sources only. We propose WEAPO, a simple yet competitive WS method for producing training labels without negative labeling sources. On 10 benchmark datasets, we show WEAPO achieves the highest averaged performance in terms of both the quality of synthesized labels and the performance of the final classifier supervised with these labels. We incorporated the implementation of \method into WRENCH, an existing benchmarking platform.
翻訳日:2022-08-04 14:01:41 公開日:2022-08-02
# データマニフォールド形状に依存する不確実性を考慮した深部モデルの成功

Success of Uncertainty-Aware Deep Models Depends on Data Manifold Geometry ( http://arxiv.org/abs/2208.01705v1 )

ライセンス: Link先を確認
Mark Penrod, Harrison Termotto, Varshini Reddy, Jiayu Yao, Finale Doshi-Velez and Weiwei Pan(参考訳) 安全クリティカルな設定における責任ある意思決定のために、機械学習モデルはエッジケースデータを効果的に検出し、処理する必要がある。 既存の研究は、予測の不確実性はこれらのタスクに有用であることを示しているが、あるデータセットに最も適している不確実性認識モデルが文献から明らかでない。 そこで本研究では,敵攻撃に対する堅牢性,アウト・オブ・ディストリビューションと敵検出の6つの不確実性を考慮したディープラーニングモデルを比較した。 データサブマニフォールドの幾何学は,様々なモデルの成功を決定する上で重要な要素であることがわかった。 我々の発見は、不確実性を考慮したディープラーニングモデルの研究における興味深い方向性を示唆している。

For responsible decision making in safety-critical settings, machine learning models must effectively detect and process edge-case data. Although existing works show that predictive uncertainty is useful for these tasks, it is not evident from literature which uncertainty-aware models are best suited for a given dataset. Thus, we compare six uncertainty-aware deep learning models on a set of edge-case tasks: robustness to adversarial attacks as well as out-of-distribution and adversarial detection. We find that the geometry of the data sub-manifold is an important factor in determining the success of various models. Our finding suggests an interesting direction in the study of uncertainty-aware deep learning models.
翻訳日:2022-08-04 14:01:25 公開日:2022-08-02
# 検索モデルにおけるジェンダーバイアスの検討

Exploring Gender Bias in Retrieval Models ( http://arxiv.org/abs/2208.01755v1 )

ライセンス: Link先を確認
Dhanasekar Sundararaman, Vivek Subramanian(参考訳) 文化、性別、民族などのバイアスは何十年も存在し、人間の社会的相互作用の多くの領域に影響を与えてきた。 これらのバイアスは機械学習(ML)モデルに影響を与えることが示されており、自然言語処理(NLP)では、下流タスクに深刻な結果をもたらす可能性がある。 情報検索におけるジェンダーバイアスの軽減はステレオタイプの伝播を避けるために重要である。 本研究では,(1)質問に対する文書の関連性,(2)代名詞を男性,女性,中立的共役に置き換える文書の「ジェンダー」という2つの構成要素からなるデータセットを用いる。 提案手法では,大規模なBERTエンコーダの完全微調整を行う場合,IRの事前訓練モデルではゼロショット検索処理がうまく動作せず,アダプタネットワークによる軽量微調整により,ゼロショット検索性能がほぼ20%向上することを確認した。 また、事前学習されたモデルには性別バイアスがあり、検索された記事は女性よりも男性が多い傾向にあることを示した。 我々は、女性よりも男性の方が好まれるときにモデルをペナルティ化するデバイアスング手法を導入し、ジェンダー間のバランスのとれた方法で記事を検索する効果的なモデルを生み出した。

Biases in culture, gender, ethnicity, etc. have existed for decades and have affected many areas of human social interaction. These biases have been shown to impact machine learning (ML) models, and for natural language processing (NLP), this can have severe consequences for downstream tasks. Mitigating gender bias in information retrieval (IR) is important to avoid propagating stereotypes. In this work, we employ a dataset consisting of two components: (1) relevance of a document to a query and (2) "gender" of a document, in which pronouns are replaced by male, female, and neutral conjugations. We definitively show that pre-trained models for IR do not perform well in zero-shot retrieval tasks when full fine-tuning of a large pre-trained BERT encoder is performed and that lightweight fine-tuning performed with adapter networks improves zero-shot retrieval performance almost by 20% over baseline. We also illustrate that pre-trained models have gender biases that result in retrieved articles tending to be more often male than female. We overcome this by introducing a debiasing technique that penalizes the model when it prefers males over females, resulting in an effective model that retrieves articles in a balanced fashion across genders.
翻訳日:2022-08-04 13:52:10 公開日:2022-08-02
# 塩分検出のためのロバストRGB-D核融合

Robust RGB-D Fusion for Saliency Detection ( http://arxiv.org/abs/2208.01762v1 )

ライセンス: Link先を確認
Zongwei Wu, Shriarulmozhivarman Gobichettipalayam, Brahim Tamadazte, Guillaume Allibert, Danda Pani Paudel, C\'edric Demonceaux(参考訳) マルチモーダル入力を高精度なrgb-dサリエンシー検出に効率的に活用することは、高い関心を集めている。 既存のほとんどの研究は、中間機能の強化のためにRGB-Dの2つのストリームを融合するために、相互モーダル相互作用を利用する。 この過程では、利用可能な深さの低品質の実用的側面が十分に検討されていない。 本研究は,ノイズによる不正確さとRGBの誤認識という,低品質な深度に頑健なRGB-Dサリエンシ検出を実現することを目的とする。 そこで本研究では,(1)層状,(2)トリデント空間,注意機構の利点を生かした,堅牢なRGB-D融合法を提案する。 一方、レイヤワイド・アテンション(LWA)は、RGBの初期と後期の融合と深度特性のトレードオフを、深さ精度に応じて学習する。 一方,tsa (trident spatial attention) は,より広い空間的文脈から特徴を集約し,奥行き不一致問題に対処する。 提案したLWAおよびTSA機構により,低品質深度に対して堅牢でありながら,多モード入力を効率よく唾液濃度検出に利用することができる。 5つのベンチマーク・データセットを用いた実験により,提案手法は最先端の核融合法よりも一貫した性能を示した。

Efficiently exploiting multi-modal inputs for accurate RGB-D saliency detection is a topic of high interest. Most existing works leverage cross-modal interactions to fuse the two streams of RGB-D for intermediate features' enhancement. In this process, a practical aspect of the low quality of the available depths has not been fully considered yet. In this work, we aim for RGB-D saliency detection that is robust to the low-quality depths which primarily appear in two forms: inaccuracy due to noise and the misalignment to RGB. To this end, we propose a robust RGB-D fusion method that benefits from (1) layer-wise, and (2) trident spatial, attention mechanisms. On the one hand, layer-wise attention (LWA) learns the trade-off between early and late fusion of RGB and depth features, depending upon the depth accuracy. On the other hand, trident spatial attention (TSA) aggregates the features from a wider spatial context to address the depth misalignment problem. The proposed LWA and TSA mechanisms allow us to efficiently exploit the multi-modal inputs for saliency detection while being robust against low-quality depths. Our experiments on five benchmark datasets demonstrate that the proposed fusion method performs consistently better than the state-of-the-art fusion alternatives.
翻訳日:2022-08-04 13:36:53 公開日:2022-08-02
# mates2motion: 機械的なcad集合の仕組みを学ぶ

Mates2Motion: Learning How Mechanical CAD Assemblies Work ( http://arxiv.org/abs/2208.01779v1 )

ライセンス: Link先を確認
James Noeckel, Benjamin T. Jones, Karl Willis, Brian Curless, Adriana Schulz(参考訳) 本稿では,CAD表現の深層学習を用いて,機械組立体における交配部分間の自由度を推定する作業について述べる。 我々はCAD部品と仲間からなる実世界の機械集合の大規模なデータセットを用いてモデルを訓練する。 我々は, 集合体の運動をよりよく反映し, 運動軸を狭めるために, これらの配偶子を再定義する手法を提案する。 また,より信頼性の高いラベル付きモーションアノテートテストセットを作成するためのユーザスタディも実施する。

We describe our work on inferring the degrees of freedom between mated parts in mechanical assemblies using deep learning on CAD representations. We train our model using a large dataset of real-world mechanical assemblies consisting of CAD parts and mates joining them together. We present methods for re-defining these mates to make them better reflect the motion of the assembly, as well as narrowing down the possible axes of motion. We also conduct a user study to create a motion-annotated test set with more reliable labels.
翻訳日:2022-08-04 13:36:30 公開日:2022-08-02
# aiによる有機化学ハイパーネットワーク:ネットワーク統計と反応分類への応用

AI-driven Hypernetwork of Organic Chemistry: Network Statistics and Applications in Reaction Classification ( http://arxiv.org/abs/2208.01647v1 )

ライセンス: Link先を確認
Vipul Mann and Venkat Venkatasubramanian(参考訳) 近年の新しい反応や分子の発見は、高スループットスクリーニングの進歩、より複雑な化学設計空間へのアクセシビリティ、正確な分子モデリングフレームワークの開発によって促進されている。 したがって、成長する化学文献の総合的研究は、最近の傾向を理解し、それらを将来の軌道へと外挿することに焦点を当てる必要がある。 この目的のために、化学反応の有向グラフ表現を用いるいくつかのネットワーク理論に基づく研究が報告されている。 本稿では,ハイパーエッジが化学反応を表し,ノードが関与する分子を表すハイパーグラフとして,化学反応の表現に基づく研究を行う。 我々は、ハイパーネットワークを構築するために標準の反応データセットを使用し、その統計(度数分布、平均パス長、順応性または次数相関、PageRank中心性、グラフベースのクラスタ(またはコミュニティ))を報告します。 また、反応の等価有向グラフ表現に対する各統計式を計算し、パラレルを描画し、両者の違いを強調する。 ハイパーグラフ反応表現のAI適用性を示すため、高密度ハイパーグラフ埋め込みを生成し、反応分類問題に使用する。 ハイパーネットワーク表現はフレキシブルであり、反応コンテキストを保持し、化学反応の従来のグラフ表現では明らかでない隠れた洞察を明らかにする。

Rapid discovery of new reactions and molecules in recent years has been facilitated by the advancements in high throughput screening, accessibility to a much more complex chemical design space, and the development of accurate molecular modeling frameworks. A holistic study of the growing chemistry literature is, therefore, required that focuses on understanding the recent trends and extrapolating them into possible future trajectories. To this end, several network theory-based studies have been reported that use a directed graph representation of chemical reactions. Here, we perform a study based on representing chemical reactions as hypergraphs where the hyperedges represent chemical reactions and nodes represent the participating molecules. We use a standard reactions dataset to construct a hypernetwork and report its statistics such as degree distributions, average path length, assortativity or degree correlations, PageRank centrality, and graph-based clusters (or communities). We also compute each statistic for an equivalent directed graph representation of reactions to draw parallels and highlight differences between the two. To demonstrate the AI applicability of hypergraph reaction representation, we generate dense hypergraph embeddings and use them in the reaction classification problem. We conclude that the hypernetwork representation is flexible, preserves reaction context, and uncovers hidden insights that are otherwise not apparent in a traditional directed graph representation of chemical reactions.
翻訳日:2022-08-04 13:27:15 公開日:2022-08-02
# マルチエージェントインタラクションのための深層強化学習

Deep Reinforcement Learning for Multi-Agent Interaction ( http://arxiv.org/abs/2208.01769v1 )

ライセンス: Link先を確認
Ibrahim H. Ahmed and Cillian Brewitt and Ignacio Carlucho and Filippos Christianos and Mhairi Dunion and Elliot Fosong and Samuel Garcin and Shangmin Guo and Balint Gyevnar and Trevor McInroe and Georgios Papoudakis and Arrasy Rahman and Lukas Sch\"afer and Massimiliano Tamborski and Giuseppe Vecchio and Cheng Wang and Stefano V. Albrecht(参考訳) 特定のタスクを達成するために他のエージェントと対話できる自律エージェントの開発は、人工知能と機械学習の研究の中核領域である。 この目標に向けて、Autonomous Agents Research Groupは、深層強化学習とマルチエージェント強化学習に特化して、自律システム制御のための新しい機械学習アルゴリズムを開発する。 研究課題には、協調エージェント政策とエージェント間コミュニケーションのスケーラブルな学習、限られた観察から他のエージェントの振る舞い、目標、構成に関する推論、内因的動機付け、カリキュラム学習、因果推論、表現学習に基づくサンプル効率のよい学習などがある。 本稿では,現在進行中の研究ポートフォリオの概要を概説するとともに,今後の課題について論じる。

The development of autonomous agents which can interact with other agents to accomplish a given task is a core area of research in artificial intelligence and machine learning. Towards this goal, the Autonomous Agents Research Group develops novel machine learning algorithms for autonomous systems control, with a specific focus on deep reinforcement learning and multi-agent reinforcement learning. Research problems include scalable learning of coordinated agent policies and inter-agent communication; reasoning about the behaviours, goals, and composition of other agents from limited observations; and sample-efficient learning based on intrinsic motivation, curriculum learning, causal inference, and representation learning. This article provides a broad overview of the ongoing research portfolio of the group and discusses open problems for future directions.
翻訳日:2022-08-04 13:22:53 公開日:2022-08-02
# エッジタスクスケジューリングのためのデジタル双対支援強化学習

Digital Twin-Assisted Efficient Reinforcement Learning for Edge Task Scheduling ( http://arxiv.org/abs/2208.01781v1 )

ライセンス: Link先を確認
Xiucheng Wang, Longfei Ma, Haocheng Li, Zhisheng Yin, Tom. Luan, Nan Cheng(参考訳) あるユーザが複数の異なるタスクをエッジサーバにオフロードする場合、タスクスケジューリングは重要な問題である。 ユーザが複数のタスクをオフロードし、一度に1つのタスクしかサーバに送信できない場合、サーバは送信順序に従ってタスクを処理するが、問題はNPハードである。 しかし、従来の最適化手法では最適解を迅速に得ることは困難であり、強化学習に基づくアプローチは過度に大きなアクション空間と緩やかな収束の課題に直面している。 本稿では,RLの性能と収束性を改善するために,Digital Twin(DT)を利用したタスクスケジューリング手法を提案する。 エージェントが行った異なる決定の結果をシミュレートするためにdtを使用し、あるエージェントが一度に複数のアクションを試すか、同じように複数のエージェントがdtで並行して環境とやりとりできる。 このようにして、RLの探索効率はDTにより大幅に向上できるので、RLはより早く収束し、局所的な最適性が起こらない。 特に、DT支援非同期Qラーニング(DTAQL)とDT支援Qラーニング(DTEQL)という2つのアルゴリズムがタスクスケジューリング決定を行うように設計されている。 シミュレーションの結果,両アルゴリズムとも探索効率を高め,q-learningの収束速度を大幅に向上させた。

Task scheduling is a critical problem when one user offloads multiple different tasks to the edge server. When a user has multiple tasks to offload and only one task can be transmitted to server at a time, while server processes tasks according to the transmission order, the problem is NP-hard. However, it is difficult for traditional optimization methods to quickly obtain the optimal solution, while approaches based on reinforcement learning face with the challenge of excessively large action space and slow convergence. In this paper, we propose a Digital Twin (DT)-assisted RL-based task scheduling method in order to improve the performance and convergence of the RL. We use DT to simulate the results of different decisions made by the agent, so that one agent can try multiple actions at a time, or, similarly, multiple agents can interact with environment in parallel in DT. In this way, the exploration efficiency of RL can be significantly improved via DT, and thus RL can converges faster and local optimality is less likely to happen. Particularly, two algorithms are designed to made task scheduling decisions, i.e., DT-assisted asynchronous Q-learning (DTAQL) and DT-assisted exploring Q-learning (DTEQL). Simulation results show that both algorithms significantly improve the convergence speed of Q-learning by increasing the exploration efficiency.
翻訳日:2022-08-04 13:22:39 公開日:2022-08-02
# スペクトルクラスタリングのより厳密な分析

A Tighter Analysis of Spectral Clustering, and Beyond ( http://arxiv.org/abs/2208.01724v1 )

ライセンス: Link先を確認
Peter Macgregor and He Sun(参考訳) この研究は、あるグラフ $G=(V_G, E_G)$ の頂点を $k$ eigenvectors of some matrix of $G$ を使って $k$ クラスタに埋め込む古典的なスペクトルクラスタリングアルゴリズムを研究し、$V_G$ を $k$ クラスタに分割するために $k$-means を適用する。 最初の結果は、スペクトルクラスタリングの性能に関するより厳密な分析であり、なぜ文献で研究されているものよりもかなり弱い状態で動作するのかを説明します。 2つ目の結果は、埋め込みを構成するのに$k$の固有ベクトルよりも少ない値を適用することで、スペクトルクラスタリングは多くの実例でより良い出力を得られることを示し、この結果はスペクトルクラスタリングにおける最初の例である。 その概念的および理論的重要性に加えて、我々の研究の実践的影響は、スペクトルクラスタリングが$k$固有ベクトル以下で同等またはより良い結果を生成する合成および実世界のデータセットの実証分析によって示される。

This work studies the classical spectral clustering algorithm which embeds the vertices of some graph $G=(V_G, E_G)$ into $\mathbb{R}^k$ using $k$ eigenvectors of some matrix of $G$, and applies $k$-means to partition $V_G$ into $k$ clusters. Our first result is a tighter analysis on the performance of spectral clustering, and explains why it works under some much weaker condition than the ones studied in the literature. For the second result, we show that, by applying fewer than $k$ eigenvectors to construct the embedding, spectral clustering is able to produce better output for many practical instances; this result is the first of its kind in spectral clustering. Besides its conceptual and theoretical significance, the practical impact of our work is demonstrated by the empirical analysis on both synthetic and real-world datasets, in which spectral clustering produces comparable or better results with fewer than $k$ eigenvectors.
翻訳日:2022-08-04 13:21:19 公開日:2022-08-02
# 説明可能な人工知能と深層学習に基づく病理組織像におけるパラツバーキュラ症の診断

Diagnosis of Paratuberculosis in Histopathological Images Based on Explainable Artificial Intelligence and Deep Learning ( http://arxiv.org/abs/2208.01674v1 )

ライセンス: Link先を確認
Tuncay Yi\u{g}it, Nilg\"un \c{S}eng\"oz, \"Ozlem \"Ozmen, Jude Hemanth, Ali Hakan I\c{s}{\i}k(参考訳) 人工知能は医療画像、特に病理画像において大きな可能性を秘めている。 しかし、人工知能アルゴリズムは意思決定中に思考過程を十分に説明できない。 この状況は、人工知能の応用における説明可能性、すなわちブラックボックスの問題の問題を議題にもたらした: アルゴリズムは与えられた画像の理由を述べずに単に応答する。 この問題を克服し、説明可能性を改善するために、説明可能な人工知能(XAI)が登場し、多くの研究者の関心を喚起している。 そこで本研究では,ディープラーニングアルゴリズムを用いて新しい,オリジナルなデータセットを探索し,XAIアプリケーションの一つである勾配重み付きクラスアクティベーションマッピング(Grad-CAM)を用いて出力を可視化する。 その後,これらの画像について病理医に詳細なアンケート調査を行った。 意思決定過程と説明の両方が検証され,結果の正確性が検証された。 この研究結果は、病理学者が傍結核の診断に大いに役立っている。

Artificial intelligence holds great promise in medical imaging, especially histopathological imaging. However, artificial intelligence algorithms cannot fully explain the thought processes during decision-making. This situation has brought the problem of explainability, i.e., the black box problem, of artificial intelligence applications to the agenda: an algorithm simply responds without stating the reasons for the given images. To overcome the problem and improve the explainability, explainable artificial intelligence (XAI) has come to the fore, and piqued the interest of many researchers. Against this backdrop, this study examines a new and original dataset using the deep learning algorithm, and visualizes the output with gradient-weighted class activation mapping (Grad-CAM), one of the XAI applications. Afterwards, a detailed questionnaire survey was conducted with the pathologists on these images. Both the decision-making processes and the explanations were verified, and the accuracy of the output was tested. The research results greatly help pathologists in the diagnosis of paratuberculosis.
翻訳日:2022-08-04 13:20:40 公開日:2022-08-02
# 長時間映像理解のための2ストリームトランスフォーマアーキテクチャ

Two-Stream Transformer Architecture for Long Video Understanding ( http://arxiv.org/abs/2208.01753v1 )

ライセンス: Link先を確認
Edward Fish, Jon Weinbren, Andrew Gilbert(参考訳) 純粋視覚トランスフォーマーアーキテクチャは、短いビデオ分類やアクション認識タスクに非常に有効である。 しかし、自己注意の二次的な複雑さと誘導バイアスの欠如により、トランスフォーマーはリソース集約であり、データ非効率に悩まされる。 長い形式のビデオ理解タスクは、トランスフォーマーにおけるデータとメモリ効率の問題を増幅し、現在のアプローチではデータやメモリ制限領域の実装が不可能になる。 本稿では,静的画像特徴と時間的文脈特徴との依存関係をモデル化する2ストリームトランスフォーマアーキテクチャを用いた,効率的な時空間注意ネットワーク(stan)を提案する。 提案手法では,1つのgpu上で最大2分間の動画を分類でき,データ効率が良く,複数の長い映像理解タスクでsota性能を実現する。

Pure vision transformer architectures are highly effective for short video classification and action recognition tasks. However, due to the quadratic complexity of self attention and lack of inductive bias, transformers are resource intensive and suffer from data inefficiencies. Long form video understanding tasks amplify data and memory efficiency problems in transformers making current approaches unfeasible to implement on data or memory restricted domains. This paper introduces an efficient Spatio-Temporal Attention Network (STAN) which uses a two-stream transformer architecture to model dependencies between static image features and temporal contextual features. Our proposed approach can classify videos up to two minutes in length on a single GPU, is data efficient, and achieves SOTA performance on several long video understanding tasks.
翻訳日:2022-08-04 13:20:24 公開日:2022-08-02
# CTooth+:大規模歯科用コーンビームCTデータセットと歯容積セグメンテーションのベンチマーク

CTooth+: A Large-scale Dental Cone Beam Computed Tomography Dataset and Benchmark for Tooth Volume Segmentation ( http://arxiv.org/abs/2208.01643v1 )

ライセンス: Link先を確認
Weiwei Cui, Yaqi Wang, Yilong Li, Dan Song, Xingyong Zuo, Jiaojiao Wang, Yifan Zhang, Huiyu Zhou, Bung san Chong, Liaoyuan Zeng, Qianni Zhang(参考訳) 精密歯量分割はコンピュータ支援歯科分析の前提条件である。 深層学習に基づく歯のセグメンテーション法は, 満足度は高いが, 基礎的真実を伴う大量の歯データが必要である。 利用可能な歯科データは限定的であり、既存の方法の再現、評価、臨床応用はできない。 本稿では,22巻,146巻からなる3次元歯科用cbctデータセット ctooth+ を構築した。 さらに, 完全教師付き学習, 半教師付き学習, 能動的学習に基づく, 最先端の歯量セグメンテーション戦略を評価し, 性能原理を定義した。 この研究は、歯容積分画タスクのための新しいベンチマークを提供し、この実験は将来のAIベースの歯科画像研究と臨床応用のベースラインとして機能する。

Accurate tooth volume segmentation is a prerequisite for computer-aided dental analysis. Deep learning-based tooth segmentation methods have achieved satisfying performances but require a large quantity of tooth data with ground truth. The dental data publicly available is limited meaning the existing methods can not be reproduced, evaluated and applied in clinical practice. In this paper, we establish a 3D dental CBCT dataset CTooth+, with 22 fully annotated volumes and 146 unlabeled volumes. We further evaluate several state-of-the-art tooth volume segmentation strategies based on fully-supervised learning, semi-supervised learning and active learning, and define the performance principles. This work provides a new benchmark for the tooth volume segmentation task, and the experiment can serve as the baseline for future AI-based dental imaging research and clinical application development.
翻訳日:2022-08-04 13:14:44 公開日:2022-08-02
# スマート農業のための自律農業ロボット

Autonomous Agriculture Robot for Smart Farming ( http://arxiv.org/abs/2208.01708v1 )

ライセンス: Link先を確認
Vinay Ummadi, Aravind Gundlapalle, Althaf Shaik, Shaik Mohammad Rafi B(参考訳) 本研究の目的は,農業用応用ロボット(AAR)と呼ばれる低地野菜の半自動栽培を行うことのできる知能を有する地上ロボットの開発と実証である。 aarは、インテリジェントな知覚を使って植物とその特性の検出と分類を行う軽量なソーラーパワーロボットである。 このシステムは、自動雑草切断のためのロボットアームも備えている。 このロボットは、肥料散布、殺虫剤、除草剤、その他の流体を作物、雑草、その他の害虫に届けることができる。 さらに、収量推定、作物の収穫、土壌の健康モニタリングといった高度なタスクに関する将来の研究のための情報を提供する。 本稿では,実環境における有望な結果を示すロボットの設計と関連する実験について述べる。

This project aims to develop and demonstrate a ground robot with intelligence capable of conducting semi-autonomous farm operations for different low-heights vegetable crops referred as Agriculture Application Robot(AAR). AAR is a lightweight, solar-electric powered robot that uses intelligent perception for conducting detection and classification of plants and their characteristics. The system also has a robotic arm for the autonomous weed cutting process. The robot can deliver fertilizer spraying, insecticide, herbicide, and other fluids to the targets such as crops, weeds, and other pests. Besides, it provides information for future research into higher-level tasks such as yield estimation, crop, and soil health monitoring. We present the design of robot and the associated experiments which show the promising results in real world environments.
翻訳日:2022-08-04 13:14:27 公開日:2022-08-02
# 高スループット高分子分子動力学シミュレーションによる生シミュレーションデータの自動化と共有のためのクラウドプラットフォーム

A cloud platform for automating and sharing analysis of raw simulation data from high throughput polymer molecular dynamics simulations ( http://arxiv.org/abs/2208.01692v1 )

ライセンス: Link先を確認
Tian Xie, Ha-Kyung Kwon, Daniel Schweigert, Sheng Gong, Arthur France-Lanord, Arash Khajeh, Emily Crabb, Michael Puzon, Chris Fajardo, Will Powelson, Yang Shao-Horn, and Jeffrey C. Grossman(参考訳) 数十万の材料構造とその特性を保存するオープンマテリアルデータベースは、現代の計算材料科学の基盤となっている。 しかし、分子動力学シミュレーションの軌道や密度汎関数理論の計算による電荷密度といったシミュレーションの生の出力は、その巨大さのため一般に共有されていない。 本研究では、生データの共有を容易にし、クラウド内の高速な後処理により、ユーザが定義した新しいプロパティを抽出できるクラウドベースのプラットフォームについて述べる。 最初のデモンストレーションとして、現在、アモルファスポリマー電解質の6286分子動力学軌道と5.7テラバイトのデータを含む。 我々はhttps://github.com/TRI-AMDD/htp_mdで公開分析ライブラリを作成し、専門家が設計した関数と機械学習モデルの両方を用いて生データから複数のプロパティを抽出する。 分析はクラウド上の計算で自動的に実行され、その結果、公開アクセス可能なデータベースが投入される。 我々のプラットフォームは,ユーザに対して,公開インターフェースを通じて新たなトラジェクティブデータと分析機能の両方をコントリビュートすることを奨励している。 新しい分析されたプロパティがデータベースに組み込まれる。 最後に、データのブラウジングと可視化のためのフロントエンドユーザーインターフェイスをhttps://www.htpmd.matr.ioで作成します。 我々は、このプラットフォームが生データを新しい方法で共有し、計算材料科学コミュニティに新しい洞察を与えることを期待している。

Open material databases storing hundreds of thousands of material structures and their corresponding properties have become the cornerstone of modern computational materials science. Yet, the raw outputs of the simulations, such as the trajectories from molecular dynamics simulations and charge densities from density functional theory calculations, are generally not shared due to their huge size. In this work, we describe a cloud-based platform to facilitate the sharing of raw data and enable the fast post-processing in the cloud to extract new properties defined by the user. As an initial demonstration, our database currently includes 6286 molecular dynamics trajectories for amorphous polymer electrolytes and 5.7 terabytes of data. We create a public analysis library at https://github.com/TRI-AMDD/htp_md to extract multiple properties from the raw data, using both expert designed functions and machine learning models. The analysis is run automatically with computation in the cloud, and results then populate a database that can be accessed publicly. Our platform encourages users to contribute both new trajectory data and analysis functions via public interfaces. Newly analyzed properties will be incorporated into the database. Finally, we create a front-end user interface at https://www.htpmd.matr.io for browsing and visualization of our data. We envision the platform to be a new way of sharing raw data and new insights for the computational materials science community.
翻訳日:2022-08-04 13:13:59 公開日:2022-08-02
# テキストからのサイバーシーカリティ関連エンティティの認識と抽出

Recognizing and Extracting Cybersecurtity-relevant Entities from Text ( http://arxiv.org/abs/2208.01693v1 )

ライセンス: Link先を確認
Casey Hanks, Michael Maiden, Priyanka Ranade, Tim Finin, Anupam Joshi(参考訳) サイバー脅威インテリジェンス(Cyber Threat Intelligence、CTI)は、脅威ベクトル、脆弱性、攻撃を記述した情報であり、サイバーセキュリティ知識グラフ(CKG)のようなAIベースのサイバー防衛システムのトレーニングデータとしてよく使用される。 CTIから意味のある洞察を効率的に正確に抽出するために、既存のAIベースのサイバーセキュリティパイプラインをトレーニングするためのコミュニティアクセス可能なデータセットを開発する必要がある。 spacyフレームワークを使ってサイバーセキュリティエンティティモデルのトレーニングとテストに使用し、サイバーセキュリティエンティティを自動的に認識するためのセルフラーニング方法を探求するために、さまざまなオープンソースから最初の非構造化ctiコーパスを作成しました。 また、ウィキデータから既存の世界知識とリンクするサイバーセキュリティドメインのエンティティを適用する手法についても述べる。 今後は,nlpツールの調査とテストを行い,テキストから抽出した新たな情報の継続的統合のための手法を作成する。

Cyber Threat Intelligence (CTI) is information describing threat vectors, vulnerabilities, and attacks and is often used as training data for AI-based cyber defense systems such as Cybersecurity Knowledge Graphs (CKG). There is a strong need to develop community-accessible datasets to train existing AI-based cybersecurity pipelines to efficiently and accurately extract meaningful insights from CTI. We have created an initial unstructured CTI corpus from a variety of open sources that we are using to train and test cybersecurity entity models using the spaCy framework and exploring self-learning methods to automatically recognize cybersecurity entities. We also describe methods to apply cybersecurity domain entity linking with existing world knowledge from Wikidata. Our future work will survey and test spaCy NLP tools and create methods for continuous integration of new information extracted from text.
翻訳日:2022-08-04 13:10:32 公開日:2022-08-02
# 正規化条件付き平均埋め込み学習のための最適レート

Optimal Rates for Regularized Conditional Mean Embedding Learning ( http://arxiv.org/abs/2208.01711v1 )

ライセンス: Link先を確認
Zhu Li, Dimitri Meunier, Mattes Mollenhauer, Arthur Gretton(参考訳) 条件付き平均埋め込み (conditional mean embedded, cme) のカーネルリッジ回帰推定(kernel ridge regression estimation)の一貫性について論じる。これは、目標再生成カーネル hilbert space $\mathcal{h}_y$ への$y$ の条件付き分布の埋め込みである。 CMEにより、ターゲットRKHS関数の条件付き期待値が得られ、非パラメトリック因果推定やベイズ推定に採用されている。 ここでは、ターゲット CME が入力補間空間から $\mathcal{H}_X$ と $L_2$ を $\mathcal{H}_Y$ に作用するヒルベルト・シュミット作用素の空間にあるような不特定設定に対処する。 この作用素空間は新しく定義されたベクトル値補間空間に同型であることが示されている。 この同型性を用いて、不特定条件下での経験的CME推定器の新しい適応的統計的学習率を導出する。 我々の解析は、$\mathcal{H}_Y$を有限次元と仮定することなく、最適な$O(\log n / n)$レートと一致することを示した。 さらに,学習速度の低い上限を確立し,得られた上限値が最適であることを示す。

We address the consistency of a kernel ridge regression estimate of the conditional mean embedding (CME), which is an embedding of the conditional distribution of $Y$ given $X$ into a target reproducing kernel Hilbert space $\mathcal{H}_Y$. The CME allows us to take conditional expectations of target RKHS functions, and has been employed in nonparametric causal and Bayesian inference. We address the misspecified setting, where the target CME is in the space of Hilbert-Schmidt operators acting from an input interpolation space between $\mathcal{H}_X$ and $L_2$, to $\mathcal{H}_Y$. This space of operators is shown to be isomorphic to a newly defined vector-valued interpolation space. Using this isomorphism, we derive a novel and adaptive statistical learning rate for the empirical CME estimator under the misspecified setting. Our analysis reveals that our rates match the optimal $O(\log n / n)$ rates without assuming $\mathcal{H}_Y$ to be finite dimensional. We further establish a lower bound on the learning rate, which shows that the obtained upper bound is optimal.
翻訳日:2022-08-04 13:09:13 公開日:2022-08-02
# no pattern, no recognition: テキストクラスタリングとトピックモデリングの再現性と歪み問題に関する調査

No Pattern, No Recognition: a Survey about Reproducibility and Distortion Issues of Text Clustering and Topic Modeling ( http://arxiv.org/abs/2208.01712v1 )

ライセンス: Link先を確認
Mar\'ilia Costa Rosendo Silva, Felipe Alves Siqueira, Jo\~ao Pedro Mantovani Tarrega, Jo\~ao Vitor Pataca Beinotti, Augusto Sousa Nunes, Miguel de Mattos Gardini, Vin\'icius Adolfo Pereira da Silva, N\'adia F\'elix Felipe da Silva, Andr\'e Carlos Ponce de Leon Ferreira de Carvalho(参考訳) 機械学習アルゴリズムを使ってラベルのないテキストから知識を抽出することは複雑である。 文書分類と情報検索は、教師なし学習(テキストクラスタリングやトピックモデリングなど)の恩恵を受ける2つのアプリケーションであり、探索的データ分析を含む。 しかし、教師なし学習パラダイムは再現性の問題を引き起こす。 初期化は、機械学習アルゴリズムによる可変性をもたらす可能性がある。 さらに、クラスタ幾何に関して、歪みは誤解を招く可能性がある。 原因のうち、異常値と異常値の存在は決定要因となりうる。 テキストクラスタリングとトピックモデリングにおける初期化と外れた問題との関連性にもかかわらず、著者らはそれらの詳細な分析には至らなかった。 本調査は,これらのサブエリアの体系的文献レビュー (2011-2022) を提供し,類似した手順が異なるため,共通用語を提案する。 著者らは研究の機会、傾向、オープンな問題を解説している。 付録は、テキストベクトル化の理論的背景、因子化、レビューされた作品に直接的または間接的に関係するクラスタリングアルゴリズムを要約する。

Extracting knowledge from unlabeled texts using machine learning algorithms can be complex. Document categorization and information retrieval are two applications that may benefit from unsupervised learning (e.g., text clustering and topic modeling), including exploratory data analysis. However, the unsupervised learning paradigm poses reproducibility issues. The initialization can lead to variability depending on the machine learning algorithm. Furthermore, the distortions can be misleading when regarding cluster geometry. Amongst the causes, the presence of outliers and anomalies can be a determining factor. Despite the relevance of initialization and outlier issues for text clustering and topic modeling, the authors did not find an in-depth analysis of them. This survey provides a systematic literature review (2011-2022) of these subareas and proposes a common terminology since similar procedures have different terms. The authors describe research opportunities, trends, and open issues. The appendices summarize the theoretical background of the text vectorization, the factorization, and the clustering algorithms that are directly or indirectly related to the reviewed works.
翻訳日:2022-08-04 13:04:08 公開日:2022-08-02
# グラフネットワークのための曲率インフォームドマルチタスク学習

Curvature-informed multi-task learning for graph networks ( http://arxiv.org/abs/2208.01684v1 )

ライセンス: Link先を確認
Alexander New, Michael J. Pekala, Nam Q. Le, Janna Domenico, Christine D. Piatko, Christopher D. Stiles(参考訳) バンドギャップ、弾力性、溶解性などの結晶や分子に対する興味の性質は、一般に互いに関係しており、それらは物理の法則によって支配されている。 しかし、最先端のグラフニューラルネットワークが複数の特性を同時に予測しようとするとき(マルチタスク学習(MTL)設定)、それらは単一の特性予測器のスイートを過小評価する。 これは、グラフネットワークがこれらの基盤となる類似性を十分に活用していないことを示唆している。 ここでは、この現象の潜在的な説明として、各特性の損失面の曲率が大きく変化し、非効率な学習につながった。 この曲率差は、各性質の損失関数のヘッセンのスペクトル特性をランダム化された数値線型代数を通して行列のない方法で調べることで評価することができる。 本稿では,2つのベンチマークデータセット(MPとQM8)で仮説を評価し,これらの結果が新しいマルチタスク学習モデルのトレーニングにどのように役立つかを考察する。

Properties of interest for crystals and molecules, such as band gap, elasticity, and solubility, are generally related to each other: they are governed by the same underlying laws of physics. However, when state-of-the-art graph neural networks attempt to predict multiple properties simultaneously (the multi-task learning (MTL) setting), they frequently underperform a suite of single property predictors. This suggests graph networks may not be fully leveraging these underlying similarities. Here we investigate a potential explanation for this phenomenon: the curvature of each property's loss surface significantly varies, leading to inefficient learning. This difference in curvature can be assessed by looking at spectral properties of the Hessians of each property's loss function, which is done in a matrix-free manner via randomized numerical linear algebra. We evaluate our hypothesis on two benchmark datasets (Materials Project (MP) and QM8) and consider how these findings can inform the training of novel multi-task learning models.
翻訳日:2022-08-04 13:03:51 公開日:2022-08-02
# グラフプーリングに適用される極大独立頂点集合

Maximal Independent Vertex Set applied to Graph Pooling ( http://arxiv.org/abs/2208.01648v1 )

ライセンス: Link先を確認
Stevan Stanovic (ENSICAEN, UNICAEN), Benoit Ga\"uz\`ere (INSA Rouen Normandie, UNIROUEN, ULH, LITIS), Luc Brun (ENSICAEN, UNICAEN)(参考訳) 畳み込みニューラルネットワーク(cnn)は畳み込みとプールによる画像分類において大きな進歩をもたらした。 特にイメージプーリングは、接続された離散グリッドを同じ接続性を持つ縮小グリッドに変換し、画像のすべてのピクセルをリダクション関数で考慮する。 しかし、そのような性質を満たすプールはグラフには存在しない。 実際、いくつかの手法は、重要な情報の損失を引き起こす頂点選択ステップに基づいている。 他の方法は、ほぼ完全な縮小グラフを誘導する頂点集合のファジィクラスタリングを学ぶ。 そこで本研究では,MIVSPoolと呼ばれる新しいプーリング手法を用いて,両方の問題を解決することを提案する。 この方法は、最大独立頂点集合 (MIVS) を用いて生き残った頂点と呼ばれる頂点の選択と、生き残った頂点を生存者に割り当てることに基づいている。 したがって,本手法は頂点情報を捨てることなく,グラフの密度を人工的に増加させる。 実験の結果,各種標準データセットにおけるグラフ分類の精度が向上した。

Convolutional neural networks (CNN) have enabled major advances in image classification through convolution and pooling. In particular, image pooling transforms a connected discrete grid into a reduced grid with the same connectivity and allows reduction functions to take into account all the pixels of an image. However, a pooling satisfying such properties does not exist for graphs. Indeed, some methods are based on a vertex selection step which induces an important loss of information. Other methods learn a fuzzy clustering of vertex sets which induces almost complete reduced graphs. We propose to overcome both problems using a new pooling method, named MIVSPool. This method is based on a selection of vertices called surviving vertices using a Maximal Independent Vertex Set (MIVS) and an assignment of the remaining vertices to the survivors. Consequently, our method does not discard any vertex information nor artificially increase the density of the graph. Experimental results show an increase in accuracy for graph classification on various standard datasets.
翻訳日:2022-08-04 13:02:58 公開日:2022-08-02
# 近似ベイズ型ニューラル演算子:パラメトリックPDEの不確かさの定量化

Approximate Bayesian Neural Operators: Uncertainty Quantification for Parametric PDEs ( http://arxiv.org/abs/2208.01565v1 )

ライセンス: Link先を確認
Emilia Magnani, Nicholas Kr\"amer, Runa Eschenhagen, Lorenzo Rosasco, Philipp Hennig(参考訳) ニューラル作用素(英: Neural operator)は、偏微分方程式(PDE)の解法(すなわち非線形解演算子)を学習するディープアーキテクチャの一種である。 これらのモデルの現在の技術は明確な不確かさの定量化を提供していない。 というのも、一般的にpdesによって記述される力学系は微妙でマルチスケールな構造を示しており、人間がエラーを見つけるのを難しくしているからです。 本稿では,まず,ガウス過程の形式化におけるニューラル演算子の'シュロー'(線形)バージョンについて,数学的に詳細なベイズ式を提示する。 次に,ベイズ深層学習の近似手法を用いて,この解析的処理を一般深層ニューラルネットワークに拡張する。 ニューラル演算子に関するこれまでの結果を不確実性定量化によって拡張する。 その結果, ニューラル演算子の予測に失敗するケースを同定し, 構造的不確実性推定を行うことができた。

Neural operators are a type of deep architecture that learns to solve (i.e. learns the nonlinear solution operator of) partial differential equations (PDEs). The current state of the art for these models does not provide explicit uncertainty quantification. This is arguably even more of a problem for this kind of tasks than elsewhere in machine learning, because the dynamical systems typically described by PDEs often exhibit subtle, multiscale structure that makes errors hard to spot by humans. In this work, we first provide a mathematically detailed Bayesian formulation of the ''shallow'' (linear) version of neural operators in the formalism of Gaussian processes. We then extend this analytic treatment to general deep neural operators using approximate methods from Bayesian deep learning. We extend previous results on neural operators by providing them with uncertainty quantification. As a result, our approach is able to identify cases, and provide structured uncertainty estimates, where the neural operator fails to predict well.
翻訳日:2022-08-03 13:52:34 公開日:2022-08-02
# 任意サンプリングとプレコンディショニングを併用した確率的Primal-Dual Three Operator Splitting

Stochastic Primal-Dual Three Operator Splitting with Arbitrary Sampling and Preconditioning ( http://arxiv.org/abs/2208.01631v1 )

ライセンス: Link先を確認
Junqi Tang, Matthias Ehrhardt, Carola-Bibiane Sch\"onlieb(参考訳) 本研究では,凸型3-コンポジット最適化問題のクラスを解くための確率的予備条件付き3-オペレータ分割アルゴリズムを提案する。 提案手法はSPDHGアルゴリズム[Chambolle et al. 2018]の直接3演算分割拡張である。 エルゴディックO(1/K)収束率の理論的収束解析を行い,逆問題の画像化におけるアプローチの有効性を示す。

In this work we propose a stochastic primal-dual preconditioned three-operator splitting algorithm for solving a class of convex three-composite optimization problems. Our proposed scheme is a direct three-operator splitting extension of the SPDHG algorithm [Chambolle et al. 2018]. We provide theoretical convergence analysis showing ergodic O(1/K) convergence rate, and demonstrate the effectiveness of our approach in imaging inverse problems.
翻訳日:2022-08-03 13:52:19 公開日:2022-08-02
# 実世界データを用いたMLに基づく表現型のスケーラブルな臨床的解釈

Enabling scalable clinical interpretation of ML-based phenotypes using real world data ( http://arxiv.org/abs/2208.01607v1 )

ライセンス: Link先を確認
Owen Parsons (1), Nathan E Barlow (1), Janie Baxter (1), Karen Paraschin (2), Andrea Derix (2), Peter Hein (2), Robert D\"urichen (1) ((1) Sensyne Health, Oxford, UK, (2) Research and Development, Pharmaceuticals, Bayer AG, Wuppertal, Germany)(参考訳) 大規模で深い電子医療記録(EHR)データセットが利用可能であることは、現実世界の患者旅行をよりよく理解し、患者の新しいサブグループを特定する可能性を秘めている。 MLベースのEHRデータの集約は、主にツール駆動、すなわち、利用可能なあるいは新しく開発されたメソッドに基づいて構築される。 しかし、これらの手法、入力要件、そして重要な結果の出力は、特に深層データ科学や統計的トレーニングなしでは解釈が困難であることが多い。 本研究は,大規模なERHデータセットと複数のクラスタリング手法を用いて,患者層化分析を大規模に実施するためのアプローチについて検討する。 我々は, パターンスクリーニング, メタクラスタリング, 代理モデル, キュレーションなど, 教師なし患者の階層化結果の臨床的評価と解釈を容易にするツールを開発した。 これらのツールは分析のさまざまな段階で使用できる。 標準的な分析手法と比較して、結果を凝縮し分析時間を最適化する能力を示す。 メタクラスタリングの場合、ある例では患者クラスタの数を72から3に削減できることを示した。 別の成層化結果では, 代理モデルを用いて, 血液ナトリウム測定が可能であれば, 心不全患者が成層化されていることを素早く確認することができた。 これは心不全患者全員を対象とした定期的な測定であり,データバイアスが示唆された。 さらなるコホートと特徴キュレーションを用いることで、臨床的意義を高めるために、これらの患者や他の無関係な特徴を除去することができる。 これらの例は,提案手法の有効性を示し,本分野のさらなる研究を奨励したい。

The availability of large and deep electronic healthcare records (EHR) datasets has the potential to enable a better understanding of real-world patient journeys, and to identify novel subgroups of patients. ML-based aggregation of EHR data is mostly tool-driven, i.e., building on available or newly developed methods. However, these methods, their input requirements, and, importantly, resulting output are frequently difficult to interpret, especially without in-depth data science or statistical training. This endangers the final step of analysis where an actionable and clinically meaningful interpretation is needed.This study investigates approaches to perform patient stratification analysis at scale using large EHR datasets and multiple clustering methods for clinical research. We have developed several tools to facilitate the clinical evaluation and interpretation of unsupervised patient stratification results, namely pattern screening, meta clustering, surrogate modeling, and curation. These tools can be used at different stages within the analysis. As compared to a standard analysis approach, we demonstrate the ability to condense results and optimize analysis time. In the case of meta clustering, we demonstrate that the number of patient clusters can be reduced from 72 to 3 in one example. In another stratification result, by using surrogate models, we could quickly identify that heart failure patients were stratified if blood sodium measurements were available. As this is a routine measurement performed for all patients with heart failure, this indicated a data bias. By using further cohort and feature curation, these patients and other irrelevant features could be removed to increase the clinical meaningfulness. These examples show the effectiveness of the proposed methods and we hope to encourage further research in this field.
翻訳日:2022-08-03 13:51:25 公開日:2022-08-02
# 情緒障害という顔

The Face of Affective Disorders ( http://arxiv.org/abs/2208.01369v1 )

ライセンス: Link先を確認
Christian S. Pilz, Benjamin Clemens, Inka C. Hiss, Christoph Weiss, Ulrich Canzler, Jarek Krajewski, Ute Habel, Steffen Leonhardt(参考訳) 臨床領域における脳刺激の調節によって変化する顔面行動の統計的特性について検討した。 根底にあるメカニズムは、ある心の状態に対する行動の代理的測定としての警戒連続体の経験的解釈と結びついている。 提案手法は,現代のカメラを用いたリアルタイム信号処理とコンピュータビジョンのみに依拠する,古典的頭皮ベースオブトラシブセンサ(oeg)を用いたオプト・エレクトロニック・エンブレオグラフィー(oeg)の意味での計測手法である。 顔面動態のコヒーレンスとしての確率的表現に基づいて、感情表現のヘミフェイス非対称性を反映し、精神疾患のうつ病と統合失調症と症状の重症度と、患者と健康管理のほぼ不完全な区別を示す。 時間消費で主観的であり、リアルタイム顔のダイナミクスのような神経生物学的データを組み込んでいない標準的な診断プロセスとは対照的に、感情的応答性の客観的な確率的モデリングは、ビデオベースの顔記録をほんの数分しか必要としない。 また, 経診断的分析における因果推論モデルとしての方法論の可能性を強調し, 薬理学的治療の結果を予測する。 すべての結果は100人の患者と50人のコントロールを備えた臨床縦断データ収集で得られる。

We study the statistical properties of facial behaviour altered by the regulation of brain arousal in the clinical domain of psychiatry. The underlying mechanism is linked to the empirical interpretation of the vigilance continuum as behavioral surrogate measurement for certain states of mind. We name the presented measurement in the sense of the classical scalp based obtrusive sensors Opto Electronic Encephalography (OEG) which relies solely on modern camera based real-time signal processing and computer vision. Based upon a stochastic representation as coherence of the face dynamics, reflecting the hemifacial asymmetry in emotion expressions, we demonstrate an almost flawless distinction between patients and healthy controls as well as between the mental disorders depression and schizophrenia and the symptom severity. In contrast to the standard diagnostic process, which is time-consuming, subjective and does not incorporate neurobiological data such as real-time face dynamics, the objective stochastic modeling of the affective responsiveness only requires a few minutes of video-based facial recordings. We also highlight the potential of the methodology as a causal inference model in transdiagnostic analysis to predict the outcome of pharmacological treatment. All results are obtained on a clinical longitudinal data collection with an amount of 100 patients and 50 controls.
翻訳日:2022-08-03 13:51:00 公開日:2022-08-02
# Simplexのゼロ階最適化に関する一考察

A Note on Zeroth-Order Optimization on the Simplex ( http://arxiv.org/abs/2208.01185v1 )

ライセンス: Link先を確認
Tijana Zrnic, Eric Mazumdar(参考訳) 確率単純度上で定義される滑らかな関数に対するゼロ階勾配推定器を構築する。 提案する推定器はsimplexのみをクエリする。 予測された勾配降下と指数重みアルゴリズムは、正確な勾配の代わりにこの推定器で走ると、$\mathcal o(t^{-1/4})$レートで収束する。

We construct a zeroth-order gradient estimator for a smooth function defined on the probability simplex. The proposed estimator queries the simplex only. We prove that projected gradient descent and the exponential weights algorithm, when run with this estimator instead of exact gradients, converge at a $\mathcal O(T^{-1/4})$ rate.
翻訳日:2022-08-03 13:49:55 公開日:2022-08-02
# 噛む事象を検出するアナログゲートリカレントニューラルネットワーク

Analog Gated Recurrent Neural Network for Detecting Chewing Events ( http://arxiv.org/abs/2208.01201v1 )

ライセンス: Link先を確認
Kofi Odame, Maria Nyamukuru, Mohsen Shahghasemi, Shengjie Bi, David Kotz(参考訳) 本稿では,人間が食べ物を噛んでいることを検知する新しいゲート型リカレントニューラルネットワークを提案する。 ニューラルネットワークをカスタムアナログ集積回路として0.18 um cmos技術で実装した。 ニューラルネットワークは、ボランティアのマストイド骨に装着された接触マイクから収集された6.4時間のデータに基づいて訓練された。 以前は見つからなかった1.6時間のデータをテストしたところ、ニューラルネットワークは24秒の時間解像度で噛む事象を特定した。 91%のリコールとF1スコアの94%を達成し、1.1uWの電力を消費した。 新たなアナログニューラルネットワークに基づく、食事やスナックなどの食事のエピソード全体を検出するシステムは、推定18.8uwの電力を消費する。

We present a novel gated recurrent neural network to detect when a person is chewing on food. We implemented the neural network as a custom analog integrated circuit in a 0.18 um CMOS technology. The neural network was trained on 6.4 hours of data collected from a contact microphone that was mounted on volunteers' mastoid bones. When tested on 1.6 hours of previously-unseen data, the neural network identified chewing events at a 24-second time resolution. It achieved a recall of 91% and an F1-score of 94% while consuming 1.1 uW of power. A system for detecting whole eating episodes -- like meals and snacks -- that is based on the novel analog neural network consumes an estimated 18.8uW of power.
翻訳日:2022-08-03 13:49:49 公開日:2022-08-02
# F0情報とReal Plus Imaginary Spectrogram特徴を組み合わせたオーディオディープフェイク検出

Audio Deepfake Detection Based on a Combination of F0 Information and Real Plus Imaginary Spectrogram Features ( http://arxiv.org/abs/2208.01214v1 )

ライセンス: Link先を確認
Jun Xue, Cunhang Fan, Zhao Lv, Jianhua Tao, Jiangyan Yi, Chengshi Zheng, Zhengqi Wen, Minmin Yuan, Shegang Shao(参考訳) 近年,オーディオディープフェイク検出のための多数の音響特性(log Power Spectrogram, linear frequency cepstral coefficients, constant Q cepstral coefficientsなど)を提案し,優れた性能を示し,様々なサブバンドがオーディオディープフェイク検出に異なる貢献をしていることを示した。 しかし、これはサブバンド内の特定の情報の説明に欠けており、これらの特徴は位相などの情報も失っている。 合成音声のメカニズムにインスパイアされた基本周波数(F0)情報は、合成音声の品質を向上させるために使用され、合成音声のF0は、実際の音声とは大きく異なる、まだ平均的すぎる。 f0はボナフィドと偽音声の区別に重要な情報として用いられることが期待されているが、この情報はf0の不規則分布のため直接使用できない。 代わりに、F0の大部分を含む周波数帯域を入力特徴として選択する。 一方,位相情報と全帯域情報をフル活用するために,相補的な入力特徴として実・仮想スペクトログラム機能を使用し,分離したサブバンドをモデル化することを提案する。 最後に、F0、実像および虚像の分光分析結果が融合される。 ASVspoof 2019 LAデータセットによる実験結果から,提案システムはオーディオディープフェイク検出タスクに極めて有効であり,ほぼすべてのシステムを超える等価エラー率(EER)が0.43%に達することが示された。

Recently, pioneer research works have proposed a large number of acoustic features (log power spectrogram, linear frequency cepstral coefficients, constant Q cepstral coefficients, etc.) for audio deepfake detection, obtaining good performance, and showing that different subbands have different contributions to audio deepfake detection. However, this lacks an explanation of the specific information in the subband, and these features also lose information such as phase. Inspired by the mechanism of synthetic speech, the fundamental frequency (F0) information is used to improve the quality of synthetic speech, while the F0 of synthetic speech is still too average, which differs significantly from that of real speech. It is expected that F0 can be used as important information to discriminate between bonafide and fake speech, while this information cannot be used directly due to the irregular distribution of F0. Insteadly, the frequency band containing most of F0 is selected as the input feature. Meanwhile, to make full use of the phase and full-band information, we also propose to use real and imaginary spectrogram features as complementary input features and model the disjoint subbands separately. Finally, the results of F0, real and imaginary spectrogram features are fused. Experimental results on the ASVspoof 2019 LA dataset show that our proposed system is very effective for the audio deepfake detection task, achieving an equivalent error rate (EER) of 0.43%, which surpasses almost all systems.
翻訳日:2022-08-03 13:49:39 公開日:2022-08-02
# PAN: NISQ マシン上でのパルスアンサッツ

PAN: Pulse Ansatz on NISQ Machines ( http://arxiv.org/abs/2208.01215v1 )

ライセンス: Link先を確認
Zhiding Liang, Jinglei Cheng, Hang Ren, Hanrui Wang, Fei Hua, Yongshan Ding, Fred Chong, Song Han, Yiyu Shi, Xuehai Qian(参考訳) 変分量子アルゴリズム(VQA)は、NISQ時代に大きなポテンシャルを示した。 vqaのワークフローでは、ansatzのパラメータが繰り返し更新され、所望の量子状態が近似される。 より少ないゲートで ansatz をより良いものにするために、様々な努力をしてきました。 量子コンピュータでは、ゲートアンザッツは最終的にトランスモン上のマイクロ波パルスなどの制御信号に変換される。 そして、制御パルスは過回転や過回転などの誤差を最小限に抑えるために精巧な校正を必要とする。 VQAの場合、この手順は冗長性を導入するが、VQAの変動特性は振幅と周波数パラメータを更新することで、自然に過回転と過回転の問題に対処できる。 そこで我々は,vqa用ネイティブパルス ansatz ジェネレータフレームワーク pan を提案する。 振幅と周波数の訓練可能なパラメータを持つネイティブパルス ansatz を生成する。 提案するpanでは,nisqコンピュータでネイティブにサポートされているパラメトリックパルスをチューニングする。 パラメータシフトルールがnative-pulse ansatzでは成立しないので、非gradientオプティマイザをデプロイする必要があります。 オプティマイザに送信されるパラメータの数を制限するために、ネイティブパルスアンサッツを生成するためのプログレッシブな方法を採用しています。 実験はシミュレータと量子デバイスの両方で行われ,提案手法を検証する。 NISQマシンに採用されると、PANは平均86%のレイテンシで性能を改善した。 PAN は、それぞれ H2 と HeH+ 上の VQE タスクに対して 99.336% と 96.482% の精度を達成できる。

Variational quantum algorithms (VQAs) have demonstrated great potentials in the NISQ era. In the workflow of VQA, the parameters of ansatz are iteratively updated to approximate the desired quantum states. We have seen various efforts to draft better ansatz with less gates. In quantum computers, the gate ansatz will eventually be transformed into control signals such as microwave pulses on transmons. And the control pulses need elaborate calibration to minimize the errors such as over-rotation and under-rotation. In the case of VQAs, this procedure will introduce redundancy, but the variational properties of VQAs can naturally handle problems of over-rotation and under-rotation by updating the amplitude and frequency parameters. Therefore, we propose PAN, a native-pulse ansatz generator framework for VQAs. We generate native-pulse ansatz with trainable parameters for amplitudes and frequencies. In our proposed PAN, we are tuning parametric pulses, which are natively supported on NISQ computers. Considering that parameter-shift rules do not hold for native-pulse ansatz, we need to deploy non-gradient optimizers. To constrain the number of parameters sent to the optimizer, we adopt a progressive way to generate our native-pulse ansatz. Experiments are conducted on both simulators and quantum devices to validate our methods. When adopted on NISQ machines, PAN obtained improved the performance with decreased latency by an average of 86%. PAN is able to achieve 99.336% and 96.482% accuracy for VQE tasks on H2 and HeH+ respectively, even with considerable noises in NISQ machines.
翻訳日:2022-08-03 13:48:57 公開日:2022-08-02
# 時空間データの物理インフォームド深部超解像

Physics-informed Deep Super-resolution for Spatiotemporal Data ( http://arxiv.org/abs/2208.01462v1 )

ライセンス: Link先を確認
Pu Ren, Chengping Rao, Yang Liu, Zihan Ma, Qi Wang, Jian-Xun Wang, Hao Sun(参考訳) 複雑な物理システムの高忠実度シミュレーションは、時空間スケールで非常に高価であり、アクセス不能である。 近年, 計算コストが安価で, 解の精度も良好である, 粗粒度シミュレーションに基づく科学的データの拡張にディープラーニングを活用することへの関心が高まっている。 しかし、既存の主要な作業は、リッチなトレーニングデータセットに依存し、十分な物理的制約を欠くデータ駆動アプローチに焦点を当てている。 そこで本研究では, 偏微分方程式(PDE)における時間微分と空間微分の独立性に着想を得た, 物理インフォームドラーニングによる時空間超解像フレームワークを提案する。 一般的な原理は、時間的補間をフロー推定に利用し、時間的補間を学ぶために畳み込み再帰ニューラルネットワークを導入することである。 さらに,低解像度の潜在空間において特徴抽出を行うため,空間再構成のための画素シャッフルを付加した多層残差ブロックとサブピクセル層を用いる。 さらに,ネットワーク内の境界条件の強固な付与を考慮し,再構成精度の向上を図る。 その結果,提案手法の有効性と有効性は,広範な数値実験によるベースラインアルゴリズムと比較できる。

High-fidelity simulation of complex physical systems is exorbitantly expensive and inaccessible across spatiotemporal scales. Recently, there has been an increasing interest in leveraging deep learning to augment scientific data based on the coarse-grained simulations, which is of cheap computational expense and retains satisfactory solution accuracy. However, the major existing work focuses on data-driven approaches which rely on rich training datasets and lack sufficient physical constraints. To this end, we propose a novel and efficient spatiotemporal super-resolution framework via physics-informed learning, inspired by the independence between temporal and spatial derivatives in partial differential equations (PDEs). The general principle is to leverage the temporal interpolation for flow estimation, and then introduce convolutional-recurrent neural networks for learning temporal refinement. Furthermore, we employ the stacked residual blocks with wide activation and sub-pixel layers with pixelshuffle for spatial reconstruction, where feature extraction is conducted in a low-resolution latent space. Moreover, we consider hard imposition of boundary conditions in the network to improve reconstruction accuracy. Results demonstrate the superior effectiveness and efficiency of the proposed method compared with baseline algorithms through extensive numerical experiments.
翻訳日:2022-08-03 13:48:22 公開日:2022-08-02
# 音響シーン分類のための低複雑CNN

Low-complexity CNNs for Acoustic Scene Classification ( http://arxiv.org/abs/2208.01555v1 )

ライセンス: Link先を確認
Arshdeep Singh, James A King, Xubo Liu, Wenwu Wang, Mark D. Plumbley(参考訳) この技術報告では、SurreyAudioTeam22sがDCASE 2022 ASC Task 1, Low-complexity Acoustic Scene Classification (ASC)を提出した。 タスクには2つのルールがあります。 (a)ASCフレームワークは最大128Kパラメータを持つべきである。 (b) 推論毎に最大3000万の乗算累積演算(MAC)が存在するべきである。 本稿では,タスクを意図したルールに従うASCの低複雑さシステムを提案する。

This technical report describes the SurreyAudioTeam22s submission for DCASE 2022 ASC Task 1, Low-Complexity Acoustic Scene Classification (ASC). The task has two rules, (a) the ASC framework should have maximum 128K parameters, and (b) there should be a maximum of 30 millions multiply-accumulate operations (MACs) per inference. In this report, we present low-complexity systems for ASC that follow the rules intended for the task.
翻訳日:2022-08-03 13:48:03 公開日:2022-08-02
# Viskositas: 多成分化学系の粘度予測

Viskositas: Viscosity Prediction of Multicomponent Chemical Systems ( http://arxiv.org/abs/2208.01440v1 )

ライセンス: Link先を確認
Patrick dos Anjos(参考訳) 金属・ガラス産業における粘度は、その生産過程、また地球物理学の分野でも基本的な役割を担っている。 実験的な測定は経済的に高価であり、時間的にもいくつかの数学的モデルが構築され、線形モデルや非線形モデルにおいて、化学組成や温度といった様々な変数の関数として粘度が得られた。 ハイパーパラメータの変動によるニューラルネットワークによる非線形モデルの生成と,化学系や温度に対する粘性予測の信頼性の向上を目的としてデータベースを構築した。 viskositasと名づけられたモデルは、文献や1つの商用モデルと異なるモデルと比較して、テストデータベースに関する平均絶対誤差、標準偏差、決定係数の統計学的評価が向上し、エラーの少ない予測、ばらつきの少ない予測、異常の発生の少ない結果が得られた。

Viscosity in the metallurgical and glass industry plays a fundamental role in its production processes, also in the area of geophysics. As its experimental measurement is financially expensive, also in terms of time, several mathematical models were built to provide viscosity results as a function of several variables, such as chemical composition and temperature, in linear and nonlinear models. A database was built in order to produce a nonlinear model by artificial neural networks by variation of hyperparameters to provide reliable predictions of viscosity in relation to chemical systems and temperatures. The model produced named Viskositas demonstrated better statistical evaluations of mean absolute error, standard deviation and coefficient of determination in relation to the test database when compared to different models from literature and 1 commercial model, offering predictions with lower errors, less variability and less generation of outliers.
翻訳日:2022-08-03 13:45:14 公開日:2022-08-02
# 手法比較研究におけるベンチマークデータセットとシミュレーションの役割について

On the role of benchmarking data sets and simulations in method comparison studies ( http://arxiv.org/abs/2208.01457v1 )

ライセンス: Link先を確認
Sarah Friedrich and Tim Friede(参考訳) メソッド比較は、多くの利用可能なアプローチから選択されることが多い応用研究者のための推奨とガイダンスを提供するために不可欠である。 文献には多くの比較があるが、これらはしばしば中立的ではなく、新しい方法を好む。 設計の選択と結果の適切な報告とは別に、このような手法の比較研究の基盤となるデータに関して異なるアプローチがある。 統計方法論に基づくほとんどの写本は、シミュレーション研究に依存しており、調査された方法論を動機付け、説明するために単一の実世界データセットを提供している。 一方、教師あり学習の文脈では、手法はいわゆるベンチマークデータセット、すなわちコミュニティのゴールドスタンダードとして機能する現実世界のデータを用いて評価されることが多い。 一方,シミュレーション研究は,この文脈ではあまり一般的ではない。 本研究の目的は,これらのアプローチの相違点と類似点を調査し,それらの利点と欠点を議論し,最終的に両世界のベストを選定する手法を評価するための新しいアプローチを開発することである。 この目的のために,混合手法研究や臨床シナリオ評価など,さまざまな文脈からアイデアを借用する。

Method comparisons are essential to provide recommendations and guidance for applied researchers, who often have to choose from a plethora of available approaches. While many comparisons exist in the literature, these are often not neutral but favour a novel method. Apart from the choice of design and a proper reporting of the findings, there are different approaches concerning the underlying data for such method comparison studies. Most manuscripts on statistical methodology rely on simulation studies and provide a single real-world data set as an example to motivate and illustrate the methodology investigated. In the context of supervised learning, in contrast, methods are often evaluated using so-called benchmarking data sets, i.e. real-world data that serve as gold standard in the community. Simulation studies, on the other hand, are much less common in this context. The aim of this paper is to investigate differences and similarities between these approaches, to discuss their advantages and disadvantages and ultimately to develop new approaches to the evaluation of methods picking the best of both worlds. To this aim, we borrow ideas from different contexts such as mixed methods research and Clinical Scenario Evaluation.
翻訳日:2022-08-03 13:44:57 公開日:2022-08-02
# 密度行列とランダムフーリエ特徴を用いた高速カーネル密度推定

Fast Kernel Density Estimation with Density Matrices and Random Fourier Features ( http://arxiv.org/abs/2208.01206v1 )

ライセンス: Link先を確認
Joseph A. Gallego M., Juan F. Osorio, Fabio A. Gonz\'alez(参考訳) カーネル密度推定 (kde) は最も広く使われている非パラメトリック密度推定法の一つである。 メモリベースの手法である、すなわち、予測のためにトレーニングデータセット全体を使用するという事実は、現在のほとんどのビッグデータアプリケーションには適さない。 ツリーベースやハッシュベースの推定器などのいくつかの手法が提案され、カーネル密度推定法の効率性を向上させる。 新しい密度カーネル密度推定法(DMKDE)は、密度行列、量子力学的定式化、および明示的なカーネル近似であるランダムフーリエ特徴を用いて密度推定を生成する。 この手法はKDEにルーツを持ち、メモリベースの制限を伴わずに近似法とみなすことができる。 本稿では,新しいdmkdeアルゴリズムを体系的に評価し,異なる合成データセット上でカーネル密度推定法を近似する他の最先端高速手法と比較する。 実験結果から,DMKDEは計算密度推定の競合と同等であり,高次元データを用いた場合の利点が示された。 すべてのコードをオープンソースソフトウェアリポジトリとして公開しました。

Kernel density estimation (KDE) is one of the most widely used nonparametric density estimation methods. The fact that it is a memory-based method, i.e., it uses the entire training data set for prediction, makes it unsuitable for most current big data applications. Several strategies, such as tree-based or hashing-based estimators, have been proposed to improve the efficiency of the kernel density estimation method. The novel density kernel density estimation method (DMKDE) uses density matrices, a quantum mechanical formalism, and random Fourier features, an explicit kernel approximation, to produce density estimates. This method has its roots in the KDE and can be considered as an approximation method, without its memory-based restriction. In this paper, we systematically evaluate the novel DMKDE algorithm and compare it with other state-of-the-art fast procedures for approximating the kernel density estimation method on different synthetic data sets. Our experimental results show that DMKDE is on par with its competitors for computing density estimates and advantages are shown when performed on high-dimensional data. We have made all the code available as an open source software repository.
翻訳日:2022-08-03 13:43:29 公開日:2022-08-02
# 非同期連関学習と深層強化学習に基づく車載エッジコンピューティングにおけるモビリティアウェア協調キャッシング

Mobility-Aware Cooperative Caching in Vehicular Edge Computing Based on Asynchronous Federated and Deep Reinforcement Learning ( http://arxiv.org/abs/2208.01219v1 )

ライセンス: Link先を確認
Qiong Wu, Yu Zhao, Qiang Fan, Pingyi Fan, Jiangzhou Wang and Cui Zhang(参考訳) vehicular edge computing (VEC)は、リアルタイムのvehicularアプリケーションをサポートするために、異なるRSUのコンテンツをネットワークエッジにキャッシュすることができる。 VECでは、車両の高機能性のため、事前にユーザデータをキャッシュし、車両利用者にとって最も人気で興味深いコンテンツを学ぶ必要がある。 ユーザーデータはたいていプライバシー情報を含んでいるので、ユーザーは自分のデータを他人と共有することを嫌う。 この問題を解決するために、従来の連邦学習(FL)は、ユーザのプライバシーを保護するためにすべてのユーザのローカルモデルを集約することで、グローバルモデルを同期的に更新する必要がある。 しかし、車両は、局所的なモデルトレーニングが完了する前に、vecのカバー領域から頻繁に追い出すため、ローカルモデルが期待通りにアップロードできないため、グローバルモデルの精度が低下する可能性がある。 さらに、ローカルRSUのキャッシュ容量が制限され、人気のあるコンテンツが多種多様であるため、予測された人気コンテンツのサイズがローカルRSUのキャッシュ容量を超えるのが普通である。 したがって、VECは、予測された人気コンテンツを、コンテンツ送信遅延を考慮して異なるRSUにキャッシュする必要がある。 本稿では,車両の移動性について考察し,Asynchronous Federated and Deep Reinforcement Learning (CAFR)に基づくVECにおける協調型キャッシング方式を提案する。 まず、車両の移動性を考慮し、正確なグローバルモデルを得るための非同期FLアルゴリズムを提案し、続いて、グローバルモデルに基づいて人気コンテンツを予測するアルゴリズムを提案する。 また,車両の移動性を考慮し,予測された人気コンテンツに対する最適な協調キャッシング位置を得ることにより,コンテンツ伝達遅延を最適化する深層強化学習アルゴリズムを提案する。 大規模な実験結果から、CAFR方式は他のベースラインキャッシュ方式よりも優れていることが示された。

The vehicular edge computing (VEC) can cache contents in different RSUs at the network edge to support the real-time vehicular applications. In VEC, owing to the high-mobility characteristics of vehicles, it is necessary to cache the user data in advance and learn the most popular and interesting contents for vehicular users. Since user data usually contains privacy information, users are reluctant to share their data with others. To solve this problem, traditional federated learning (FL) needs to update the global model synchronously through aggregating all users' local models to protect users' privacy. However, vehicles may frequently drive out of the coverage area of the VEC before they achieve their local model trainings and thus the local models cannot be uploaded as expected, which would reduce the accuracy of the global model. In addition, the caching capacity of the local RSU is limited and the popular contents are diverse, thus the size of the predicted popular contents usually exceeds the cache capacity of the local RSU. Hence, the VEC should cache the predicted popular contents in different RSUs while considering the content transmission delay. In this paper, we consider the mobility of vehicles and propose a cooperative Caching scheme in the VEC based on Asynchronous Federated and deep Reinforcement learning (CAFR). We first consider the mobility of vehicles and propose an asynchronous FL algorithm to obtain an accurate global model, and then propose an algorithm to predict the popular contents based on the global model. In addition, we consider the mobility of vehicles and propose a deep reinforcement learning algorithm to obtain the optimal cooperative caching location for the predicted popular contents in order to optimize the content transmission delay. Extensive experimental results have demonstrated that the CAFR scheme outperforms other baseline caching schemes.
翻訳日:2022-08-03 13:43:12 公開日:2022-08-02
# Guo et al へのコメント。 [arXiv:2206.11228]

A comment on Guo et al. [arXiv:2206.11228] ( http://arxiv.org/abs/2208.01456v1 )

ライセンス: Link先を確認
Ben Lonnqvist, Harshitha Machiraju, Michael H. Herzog(参考訳) 最近の記事では、Guo et al。 [arXiv:2206.11228]報告によると、ディープネットワークにおける敵意的に訓練された神経表現は、対応する霊長類IT神経表現と同じくらい堅牢である。 論文の主な実験が明るみに出たが、論文に提示された結果の解釈と表現に疑問が持たれている。

In a recent article, Guo et al. [arXiv:2206.11228] report that adversarially trained neural representations in deep networks may already be as robust as corresponding primate IT neural representations. While we find the paper's primary experiment illuminating, we have doubts about the interpretation and phrasing of the results presented in the paper.
翻訳日:2022-08-03 13:42:47 公開日:2022-08-02
# バンディット設定におけるユニモーダルモノパーティタイトマッチング

Unimodal Mono-Partite Matching in a Bandit Setting ( http://arxiv.org/abs/2208.01511v1 )

ライセンス: Link先を確認
Romaric Gaudel (ENSAI, CREST), Matthieu Rodet (ENS Rennes)(参考訳) 我々は,重み付きグラフにおける最適単成分マッチングを求める新たな問題に取り組む。 半バンドバージョンは、各イテレーションで完全なマッチングがサンプリングされるが、 \cite{ADMA} によって対処され、期待される後悔のマッチングが$O(\frac{L\log(L)}{\Delta}\log(T))$で$2L$プレーヤー、$T$イテレーション、最小報酬ギャップ$\Delta$でアルゴリズムを作成する。 この制限を 2 段階減らします. まず、 \cite{GRAB} や \cite{UniRank} のように、適切なグラフ上の期待される報酬の一様性を使って、$O(L\frac{1}{\Delta}\log(T))$で後悔したアルゴリズムを設計する。 第二に、焦点をメインの質問 “\emph{Is user $i$ better than user $j$? この後悔は、$O(L\frac{\Delta}{\tilde{\Delta}^2}\log(T))$となり、$\Tilde{\Delta} > \Delta$は、ユーザーを比較するより良い方法に由来する。 いくつかの実験結果は、これらの理論的な結果が実際に裏付けられていることを示している。

We tackle a new emerging problem, which is finding an optimal monopartite matching in a weighted graph. The semi-bandit version, where a full matching is sampled at each iteration, has been addressed by \cite{ADMA}, creating an algorithm with an expected regret matching $O(\frac{L\log(L)}{\Delta}\log(T))$ with $2L$ players, $T$ iterations and a minimum reward gap $\Delta$. We reduce this bound in two steps. First, as in \cite{GRAB} and \cite{UniRank} we use the unimodality property of the expected reward on the appropriate graph to design an algorithm with a regret in $O(L\frac{1}{\Delta}\log(T))$. Secondly, we show that by moving the focus towards the main question `\emph{Is user $i$ better than user $j$?}' this regret becomes $O(L\frac{\Delta}{\tilde{\Delta}^2}\log(T))$, where $\Tilde{\Delta} > \Delta$ derives from a better way of comparing users. Some experimental results finally show these theoretical results are corroborated in practice.
翻訳日:2022-08-03 13:42:40 公開日:2022-08-02
# UniRank: オンラインランキングのためのUnimodal Banditアルゴリズム

UniRank: Unimodal Bandit Algorithm for Online Ranking ( http://arxiv.org/abs/2208.01515v1 )

ライセンス: Link先を確認
Camille-Sovanneary Gauthier (LACODAM), Romaric Gaudel (ENSAI, CREST), Elisa Fromont (LACODAM, IUF, UR1)(参考訳) 我々は,重み付きグラフにおける最適単成分マッチングを求める新たな問題に取り組む。 半バンドバージョンは、各イテレーションで完全なマッチングがサンプリングされるが、 \cite{ADMA} によって対処され、期待される後悔のマッチングが$O(\frac{L\log(L)}{\Delta}\log(T))$で$2L$プレーヤー、$T$イテレーション、最小報酬ギャップ$\Delta$でアルゴリズムを作成する。 この制限を 2 段階減らします. まず、 \cite{GRAB} や \cite{UniRank} のように、適切なグラフ上の期待される報酬の一様性を使って、$O(L\frac{1}{\Delta}\log(T))$で後悔したアルゴリズムを設計する。 第二に、焦点をメインの質問 “\emph{Is user $i$ better than user $j$? この後悔は、$O(L\frac{\Delta}{\tilde{\Delta}^2}\log(T))$となり、$\Tilde{\Delta} > \Delta$は、ユーザーを比較するより良い方法に由来する。 いくつかの実験結果は、これらの理論的な結果が実際に裏付けられていることを示している。

We tackle a new emerging problem, which is finding an optimal monopartite matching in a weighted graph. The semi-bandit version, where a full matching is sampled at each iteration, has been addressed by \cite{ADMA}, creating an algorithm with an expected regret matching $O(\frac{L\log(L)}{\Delta}\log(T))$ with $2L$ players, $T$ iterations and a minimum reward gap $\Delta$. We reduce this bound in two steps. First, as in \cite{GRAB} and \cite{UniRank} we use the unimodality property of the expected reward on the appropriate graph to design an algorithm with a regret in $O(L\frac{1}{\Delta}\log(T))$. Secondly, we show that by moving the focus towards the main question `\emph{Is user $i$ better than user $j$?}' this regret becomes $O(L\frac{\Delta}{\tilde{\Delta}^2}\log(T))$, where $\Tilde{\Delta} > \Delta$ derives from a better way of comparing users. Some experimental results finally show these theoretical results are corroborated in practice.
翻訳日:2022-08-03 13:42:16 公開日:2022-08-02
# 変圧器の加速・安定化のための統一正規化

Unified Normalization for Accelerating and Stabilizing Transformers ( http://arxiv.org/abs/2208.01313v1 )

ライセンス: Link先を確認
Qiming Yang, Kai Zhang, Chaoxiang Lan, Zhi Yang, Zheyang Li, Wenming Tan, Jun Xiao, Shiliang Pu(参考訳) Transformersの固い結果により、さまざまな自然言語や視覚タスクのアーキテクチャが普及した。 Transformersのデフォルトコンポーネントとして、レイヤ正規化(LN)は各トークン内のアクティベーションを正規化し、ロバスト性を高める。 しかし、LNは推論のオンザフライ統計計算と除算と平方根演算を必要とし、ハードウェアに非効率をもたらす。 さらに、LNを他のハードウェア効率のよい正規化スキーム(例えば、バッチ正規化)に置き換えると、性能は低下し、訓練時にも崩壊する。 このジレンマは、繰り返しによる大きな変動や層間の極端な外乱を含む、アクティベーション統計の異常な挙動によって引き起こされる。 これらの問題に対処するために、他の線形演算と融合して推論を高速化し、LNと同等の性能を実現するUnified Normalization (UN)を提案する。 国連は、調整された変動平滑化戦略でアクティベーションと勾配統計を調整し、パフォーマンスを向上させる努力をしている。 一方, 本論文では, 有効性を理論的に証明し, 実験的に検証したトレーニングの崩壊を避けるために, 適応型外周濾過法を適用した。 言語および視覚タスクの広範な実験を行うことにより、UNはLNに代わる効率的なドロップインを実現できることを示す。 また,GPU上での手法の効率を評価する。 UNを搭載したトランスフォーマーは約31%の推論スピードアップと18%のメモリ削減を享受している。 コードはhttps://github.com/hikvision-research/Unified-Normalizationでリリースされる。

Solid results from Transformers have made them prevailing architectures in various natural language and vision tasks. As a default component in Transformers, Layer Normalization (LN) normalizes activations within each token to boost the robustness. However, LN requires on-the-fly statistics calculation in inference as well as division and square root operations, leading to inefficiency on hardware. What is more, replacing LN with other hardware-efficient normalization schemes (e.g., Batch Normalization) results in inferior performance, even collapse in training. We find that this dilemma is caused by abnormal behaviors of activation statistics, including large fluctuations over iterations and extreme outliers across layers. To tackle these issues, we propose Unified Normalization (UN), which can speed up the inference by being fused with other linear operations and achieve comparable performance on par with LN. UN strives to boost performance by calibrating the activation and gradient statistics with a tailored fluctuation smoothing strategy. Meanwhile, an adaptive outlier filtration strategy is applied to avoid collapse in training whose effectiveness is theoretically proved and experimentally verified in this paper. We demonstrate that UN can be an efficient drop-in alternative to LN by conducting extensive experiments on language and vision tasks. Besides, we evaluate the efficiency of our method on GPU. Transformers equipped with UN enjoy about 31% inference speedup and nearly 18% memory reduction. Code will be released at https://github.com/hikvision-research/Unified-Normalization.
翻訳日:2022-08-03 13:38:50 公開日:2022-08-02
# 安全な地形を再構築するための学習による自己監督的トラバーサビリティ予測

Self-Supervised Traversability Prediction by Learning to Reconstruct Safe Terrain ( http://arxiv.org/abs/2208.01329v1 )

ライセンス: Link先を確認
Robin Schmid, Deegan Atha, Frederik Sch\"oller, Sharmita Dey, Seyed Fakoorian, Kyohei Otsu, Barry Ridge, Marko Bjelonic, Lorenz Wellhausen, Marco Hutter, Ali-akbar Agha-mohammadi(参考訳) 高速な自動運転車でオフロードを走行するには、移動不可能な地形と区別できる堅牢な認識システムに依存する。 通常、これは人間の専門家によって注釈付けされた画像からの教師付き学習に基づく意味理解に依存する。 これは人間の時間に多大な投資を必要とし、専門家の分類を正しく仮定し、小さな詳細が誤分類につながる可能性がある。 これらの課題に対処するために,過去の車両経験から高リスク・低リスク地形を自己管理的に予測する手法を提案する。 まず、車両の軌道をフロントカメラ画像に投影するツールを開発する。 次に、地形の3次元表現における閉塞をフィルターアウトする。 第3に、マスク付き車両軌道領域で訓練されたオートエンコーダは、復元誤差に基づいて低リスクと高リスクの地形を特定する。 4輪オフロード車両を用いた2つの異なるトレーニングおよびテストサイトを用いて,2つのモデルと異なるボトルネックサイズでアプローチを評価した。 訓練場と同様の地形から独立した2つのセマンティックラベルと比較すると、地面を低リスクと高リスクで81.1%と85.1%の精度で分離する能力を示している。

Navigating off-road with a fast autonomous vehicle depends on a robust perception system that differentiates traversable from non-traversable terrain. Typically, this depends on a semantic understanding which is based on supervised learning from images annotated by a human expert. This requires a significant investment in human time, assumes correct expert classification, and small details can lead to misclassification. To address these challenges, we propose a method for predicting high- and low-risk terrains from only past vehicle experience in a self-supervised fashion. First, we develop a tool that projects the vehicle trajectory into the front camera image. Second, occlusions in the 3D representation of the terrain are filtered out. Third, an autoencoder trained on masked vehicle trajectory regions identifies low- and high-risk terrains based on the reconstruction error. We evaluated our approach with two models and different bottleneck sizes with two different training and testing sites with a fourwheeled off-road vehicle. Comparison with two independent test sets of semantic labels from similar terrain as training sites demonstrates the ability to separate the ground as low-risk and the vegetation as high-risk with 81.1% and 85.1% accuracy.
翻訳日:2022-08-03 13:38:27 公開日:2022-08-02
# 効率的な腹部多臓器分割のための階層的空間特徴変換を用いた新しい確率的V-Netモデル

A New Probabilistic V-Net Model with Hierarchical Spatial Feature Transform for Efficient Abdominal Multi-Organ Segmentation ( http://arxiv.org/abs/2208.01382v1 )

ライセンス: Link先を確認
Minfeng Xu, Heng Guo, Jianfeng Zhang, Ke Yan, Le Lu(参考訳) 組織間および組織内形状が複雑で,腹部臓器の外観が異なっていたため,CT像からの腹腔内多臓器分画は困難である。 本稿では,階層型空間的特徴変調を用いた確率論的多臓器分割ネットワークを提案する。 More specifically, we design an input decomposition module via a conditional variational auto-encoder to learn organ-specific distributions on the low dimensional latent space and model richer organ semantic variations that is conditioned on input images.Then by integrating these learned variations into the V-Net decoder hierarchically via spatial feature transformation, which has the ability to convert the variations into conditional Affine transformation parameters for spatial-wise feature maps modulating and guiding the fine-scale segmentation. 提案手法は, 公開されているAbdomenCT-1Kデータセットに基づいて訓練し, 他の2つのオープンデータセット,すなわちAbdomenCT-1Kの患者100名, TCIA+・BTCVデータセットの患者90名を対象に評価した。 肝臓、腎臓、脾臓、膵臓の4つの腹部臓器に対するこれらのデータセットを用いて高い競争力または優れた定量的セグメンテーションの結果が得られ、Diceスコアは腎臓では7.3%、膵では9.7%向上した。

Accurate and robust abdominal multi-organ segmentation from CT imaging of different modalities is a challenging task due to complex inter- and intra-organ shape and appearance variations among abdominal organs. In this paper, we propose a probabilistic multi-organ segmentation network with hierarchical spatial-wise feature modulation to capture flexible organ semantic variants and inject the learnt variants into different scales of feature maps for guiding segmentation. More specifically, we design an input decomposition module via a conditional variational auto-encoder to learn organ-specific distributions on the low dimensional latent space and model richer organ semantic variations that is conditioned on input images.Then by integrating these learned variations into the V-Net decoder hierarchically via spatial feature transformation, which has the ability to convert the variations into conditional Affine transformation parameters for spatial-wise feature maps modulating and guiding the fine-scale segmentation. The proposed method is trained on the publicly available AbdomenCT-1K dataset and evaluated on two other open datasets, i.e., 100 challenging/pathological testing patient cases from AbdomenCT-1K fully-supervised abdominal organ segmentation benchmark and 90 cases from TCIA+&BTCV dataset. Highly competitive or superior quantitative segmentation results have been achieved using these datasets for four abdominal organs of liver, kidney, spleen and pancreas with reported Dice scores improved by 7.3% for kidneys and 9.7% for pancreas, while being ~7 times faster than two strong baseline segmentation methods(nnUNet and CoTr).
翻訳日:2022-08-03 13:38:06 公開日:2022-08-02
# ViP3D:3Dエージェントクエリによるエンドツーエンドの視覚軌道予測

ViP3D: End-to-end Visual Trajectory Prediction via 3D Agent Queries ( http://arxiv.org/abs/2208.01582v1 )

ライセンス: Link先を確認
Junru Gu, Chenxu Hu, Tianyuan Zhang, Xuanyao Chen, Yilun Wang, Yue Wang, Hang Zhao(参考訳) 既存の自律走行パイプラインは、知覚モジュールと予測モジュールを分離する。 2つのモジュールはエージェントボックスやトラジェクトリなどの手書きの機能をインターフェースとして通信する。 この分離のため、予測モジュールは知覚モジュールから部分的な情報のみを受け取る。 さらに悪いことに、知覚モジュールからのエラーは伝播し蓄積し、予測結果に悪影響を及ぼす。 そこで本研究では,生映像からの豊富な情報を活用し,シーン内のエージェントの将来の軌跡を予測する視覚軌跡予測パイプラインvip3dを提案する。 ViP3Dはパイプライン全体にスパースエージェントクエリを採用しており、完全に識別可能で解釈可能である。 さらに,この新たな視覚軌跡予測タスクの評価基準を提案する。 nuScenesデータセットの大規模な実験結果は、従来のパイプラインや従来のエンドツーエンドモデルよりも、ViP3Dの強力なパフォーマンスを示している。

Existing autonomous driving pipelines separate the perception module from the prediction module. The two modules communicate via hand-picked features such as agent boxes and trajectories as interfaces. Due to this separation, the prediction module only receives partial information from the perception module. Even worse, errors from the perception modules can propagate and accumulate, adversely affecting the prediction results. In this work, we propose ViP3D, a visual trajectory prediction pipeline that leverages the rich information from raw videos to predict future trajectories of agents in a scene. ViP3D employs sparse agent queries throughout the pipeline, making it fully differentiable and interpretable. Furthermore, we propose an evaluation metric for this novel end-to-end visual trajectory prediction task. Extensive experimental results on the nuScenes dataset show the strong performance of ViP3D over traditional pipelines and previous end-to-end models.
翻訳日:2022-08-03 13:37:35 公開日:2022-08-02
# 最適かつ有界な多目的タスク割り当てと経路探索

Optimal and Bounded-Suboptimal Multi-Goal Task Assignment and Path Finding ( http://arxiv.org/abs/2208.01222v1 )

ライセンス: Link先を確認
Xinyi Zhong, Jiaoyang Li, Sven Koenig, Hang Ma(参考訳) マルチゴールタスク割り当てと経路探索(mg-tapf)問題を理論的およびアルゴリズム的観点から形式化・検討する。 MG-TAPF問題は、各タスクが一連のゴール位置と、割り当てられたタスクのすべてのゴール位置を順番に訪問するエージェントの衝突のない経路からなるエージェントへのタスクの割り当てを計算することである。 理論的には、MG-TAPF問題は最適解法としてNPハードであることが証明される。 本稿では,多エージェントパス探索問題に対するアルゴリズムに基づくアルゴリズムを提案し,MG-TAPF問題を最適・準最適に解く。 これらのアルゴリズムを様々なベンチマークドメインで実験的に比較する。

We formalize and study the multi-goal task assignment and path finding (MG-TAPF) problem from theoretical and algorithmic perspectives. The MG-TAPF problem is to compute an assignment of tasks to agents, where each task consists of a sequence of goal locations, and collision-free paths for the agents that visit all goal locations of their assigned tasks in sequence. Theoretically, we prove that the MG-TAPF problem is NP-hard to solve optimally. We present algorithms that build upon algorithmic techniques for the multi-agent path finding problem and solve the MG-TAPF problem optimally and bounded-suboptimally. We experimentally compare these algorithms on a variety of different benchmark domains.
翻訳日:2022-08-03 13:37:08 公開日:2022-08-02
# マルチゴールマルチエージェントピックアップとデリバリー

Multi-Goal Multi-Agent Pickup and Delivery ( http://arxiv.org/abs/2208.01223v1 )

ライセンス: Link先を確認
Qinghong Xu, Jiaoyang Li, Sven Koenig, Hang Ma(参考訳) 本研究では,エージェントが常に新しいタスクに取り組み,衝突のない経路を計画する必要があるMAPD(Multi-Agent Pickup-and-Delivery)問題を考える。 タスクを実行するには、エージェントはピックアップロケーションと配送ロケーションからなる2つのゴールロケーションを訪問する必要がある。 本研究では,各エージェントにタスクのシーケンスを割り当てるアルゴリズムの2つの変種を,anytimeアルゴリズム large neighborhood search (lns) と plan paths using the multi-agent path find (mapf) algorithm priority-based search (pbs) を用いて提案する。 LNS-PBS は MAPD インスタンスの現実的なサブクラスである MAPD インスタンスに対して完全であり、既存の完全 MAPD アルゴリズム CENTRAL よりも経験的に有効である。 LNS-wPBSは完全性を保証するものではないが、LSS-PBSよりも実験的に効率的で安定である。 大規模な倉庫で数千のエージェントと数千のタスクにスケールし、既存のスケーラブルなMAPDアルゴリズムHBH+MLA*よりも経験的に効果的です。 LNS-PBS と LNS-wPBS はより一般的な MAPD の変種である Multi-Goal MAPD (MG-MAPD) にも適用される。

In this work, we consider the Multi-Agent Pickup-and-Delivery (MAPD) problem, where agents constantly engage with new tasks and need to plan collision-free paths to execute them. To execute a task, an agent needs to visit a pair of goal locations, consisting of a pickup location and a delivery location. We propose two variants of an algorithm that assigns a sequence of tasks to each agent using the anytime algorithm Large Neighborhood Search (LNS) and plans paths using the Multi-Agent Path Finding (MAPF) algorithm Priority-Based Search (PBS). LNS-PBS is complete for well-formed MAPD instances, a realistic subclass of MAPD instances, and empirically more effective than the existing complete MAPD algorithm CENTRAL. LNS-wPBS provides no completeness guarantee but is empirically more efficient and stable than LNS-PBS. It scales to thousands of agents and thousands of tasks in a large warehouse and is empirically more effective than the existing scalable MAPD algorithm HBH+MLA*. LNS-PBS and LNS-wPBS also apply to a more general variant of MAPD, namely the Multi-Goal MAPD (MG-MAPD) problem, where tasks can have different numbers of goal locations.
翻訳日:2022-08-03 13:36:58 公開日:2022-08-02
# 相関型ネットワーク価値プロセスの濃度不等式とコミュニティ推定および変化点分析への応用

Concentration inequalities for correlated network-valued processes with applications to community estimation and changepoint analysis ( http://arxiv.org/abs/2208.01365v1 )

ライセンス: Link先を確認
Sayak Chatterjee, Shirshendu Chatterjee, Soumendu Sundar Mukherjee, Anirban Nath, Sharmodeep Bhattacharyya(参考訳) ネットワーク価値時系列は現在、ネットワークデータの一般的な形式である。 しかし,ネットワーク評価確率過程から生成されたネットワークシーケンスの集合的挙動の研究は比較的稀である。 既存の研究のほとんどは、ネットワークが時間にわたって独立(あるいは条件付き独立)であり、すべてのエッジが各タイムステップで同期的に更新される単純な設定に焦点を当てている。 本稿では,各辺が非同期に更新される遅延ネットワーク値確率過程から生成されるネットワークシーケンスに関連付けられた結合隣接行列と対応するラプラシアン行列の濃度特性について検討し,各辺は他の辺とは独立に更新を行う遅延確率過程に従う。 これらの濃度測定結果が,コミュニティ推定および変化点推定問題における標準推定値の整合性を証明する上で有用であることを示す。 また,ラジネスパラメータが時間相関の程度を制御し,コミュニティの精度と変化点推定に与える影響をシミュレーションにより検証した。

Network-valued time series are currently a common form of network data. However, the study of the aggregate behavior of network sequences generated from network-valued stochastic processes is relatively rare. Most of the existing research focuses on the simple setup where the networks are independent (or conditionally independent) across time, and all edges are updated synchronously at each time step. In this paper, we study the concentration properties of the aggregated adjacency matrix and the corresponding Laplacian matrix associated with network sequences generated from lazy network-valued stochastic processes, where edges update asynchronously, and each edge follows a lazy stochastic process for its updates independent of the other edges. We demonstrate the usefulness of these concentration results in proving consistency of standard estimators in community estimation and changepoint estimation problems. We also conduct a simulation study to demonstrate the effect of the laziness parameter, which controls the extent of temporal correlation, on the accuracy of community and changepoint estimation.
翻訳日:2022-08-03 13:36:19 公開日:2022-08-02
# s-lime:線形説明における局所性と忠実性の調和

s-LIME: Reconciling Locality and Fidelity in Linear Explanations ( http://arxiv.org/abs/2208.01510v1 )

ライセンス: Link先を確認
Romaric Gaudel (ENSAI, CREST), Luis Gal\'arraga (LACODAM, IRISA), Julien Delaunay (UNIV-RENNES, LACODAM, IRISA), Laurence Roz\'e (INSA Rennes, IRISA, LACODAM), Vaishnavi Bhargava(参考訳) ローカリティの利点は、ブラックボックス機械学習モデルを説明する最も顕著な方法の1つであるLIMEの主要な前提の1つである。 この強調は、インスタンスの近傍をローカルに見るほど、ブラックボックスモデルがよりシンプルになり、より正確にそれを線形サロゲートで模倣できるという仮定に依存している。 理論的には、現在のlimeの設計では、説明が局所的すぎる場合、すなわち帯域幅パラメータ$\sigma$がゼロになる場合、サロゲートモデルは縮退する可能性があることを示唆している。 この観察に基づくと、この論文の貢献は2倍になる。 まず,lime説明の忠実性と意味性に及ぼす帯域幅とトレーニング周辺の影響について検討した。 第2に,本研究で得られた知見に基づいて,忠実度と局所性を両立するLIMEの拡張であるShaslimeを提案する。

The benefit of locality is one of the major premises of LIME, one of the most prominent methods to explain black-box machine learning models. This emphasis relies on the postulate that the more locally we look at the vicinity of an instance, the simpler the black-box model becomes, and the more accurately we can mimic it with a linear surrogate. As logical as this seems, our findings suggest that, with the current design of LIME, the surrogate model may degenerate when the explanation is too local, namely, when the bandwidth parameter $\sigma$ tends to zero. Based on this observation, the contribution of this paper is twofold. Firstly, we study the impact of both the bandwidth and the training vicinity on the fidelity and semantics of LIME explanations. Secondly, and based on our findings, we propose \slime, an extension of LIME that reconciles fidelity and locality.
翻訳日:2022-08-03 13:33:42 公開日:2022-08-02
# 低タスクの多様性の曲線:MAMLにおける転帰学習の失敗とその経験的等価性について

The Curse of Low Task Diversity: On the Failure of Transfer Learning to Outperform MAML and Their Empirical Equivalence ( http://arxiv.org/abs/2208.01545v1 )

ライセンス: Link先を確認
Brando Miranda, Patrick Yu, Yu-Xiong Wang, Sanmi Koyejo(参考訳) 最近、トランスファーラーニングソリューションが、多数のショットラーニングベンチマークを解決するために必要なすべてである可能性があることが分かってきた。 本稿では,これらの疑問を明らかにする。 1. 少数の学習ベンチマークでタスクの多様性を測定するために、新しいメトリクス -- 多様性係数 -- を提案すること。 2. モデルに依存しないメタラーニング(MAML)と公平な条件下でのトランスファーラーニング(アーキテクチャ、同じオプティマイザ、収束のために訓練された全てのモデル)を比較することで。 多様性係数を用いて、人気の MiniImageNet と CIFAR-FS の少数ショット学習ベンチマークの多様性が低いことを示す。 この新たな洞察は、公平な比較の下で、トランスファーラーニングソリューションは低多様性の状態でメタ学習ソリューションよりも優れていると主張する。 具体的には,メタテスト時の精度と分類層の類似性(svcca,pwcca,cka,opdなどの特徴に基づく距離指標を用いて)の観点から,低ダイバーシティ係数がトランスファー学習とmaml学習解との高い類似度に相関することを発見した。 我々の主張をさらに支持するために、モデルのサイズが変化しても、このメタテストの精度は保たれる。 したがって,低い多様性では,mamlとトランスファー・ラーニングは同等のメタテスト性能を持つと結論づける。 また、我々の研究が将来、メタラーニングベンチマークのより思慮深い構築と定量的評価を刺激することを期待しています。

Recently, it has been observed that a transfer learning solution might be all we need to solve many few-shot learning benchmarks -- thus raising important questions about when and how meta-learning algorithms should be deployed. In this paper, we seek to clarify these questions by 1. proposing a novel metric -- the diversity coefficient -- to measure the diversity of tasks in a few-shot learning benchmark and 2. by comparing Model-Agnostic Meta-Learning (MAML) and transfer learning under fair conditions (same architecture, same optimizer, and all models trained to convergence). Using the diversity coefficient, we show that the popular MiniImageNet and CIFAR-FS few-shot learning benchmarks have low diversity. This novel insight contextualizes claims that transfer learning solutions are better than meta-learned solutions in the regime of low diversity under a fair comparison. Specifically, we empirically find that a low diversity coefficient correlates with a high similarity between transfer learning and MAML learned solutions in terms of accuracy at meta-test time and classification layer similarity (using feature based distance metrics like SVCCA, PWCCA, CKA, and OPD). To further support our claim, we find this meta-test accuracy holds even as the model size changes. Therefore, we conclude that in the low diversity regime, MAML and transfer learning have equivalent meta-test performance when both are compared fairly. We also hope our work inspires more thoughtful constructions and quantitative evaluations of meta-learning benchmarks in the future.
翻訳日:2022-08-03 13:33:27 公開日:2022-08-02
# オンラインスパースストリーミング特徴選択アルゴリズム

An Online Sparse Streaming Feature Selection Algorithm ( http://arxiv.org/abs/2208.01562v1 )

ライセンス: Link先を確認
Feilong Chen, Di Wu, Jie Yang, Yi He(参考訳) オンラインストリーミング機能選択(osfs: online streaming feature selection)は,高次元データを扱う上で重要な役割を担っている。 インテリジェントヘルスケアプラットフォームのような現実の多くのアプリケーションでは、ストリーミング機能は常に欠落したデータを持っているため、OSFSを実行する上で重要な課題、すなわちスパースストリーミング機能とラベルの間の不確実な関係を確立する方法が生じる。 残念ながら、既存のosfsアルゴリズムはそのような不確定な関係を決して考慮しない。 本稿では,このギャップを埋めるために,不確実性(OS2FSU)アルゴリズムを用いたオンラインスパースストリーミング機能選択を提案する。 OS2FSUは2つの主な部分から構成される。 1)特徴選択に先立って,希少なストリーミング特徴の欠落データを事前に見積もるために潜在因子分析を利用する。 2) ファジィ論理と周辺粗集合を用いて, 特徴選択を行う際の推定ストリーミング特徴とラベルの不確かさを軽減する。 実験では、OS2FSUは6つの実際のデータセット上の5つの最先端OSFSアルゴリズムと比較される。 その結果、OS2FSUはOSFSでデータ不足が発生した場合、競合より優れていることが示された。

Online streaming feature selection (OSFS), which conducts feature selection in an online manner, plays an important role in dealing with high-dimensional data. In many real applications such as intelligent healthcare platform, streaming feature always has some missing data, which raises a crucial challenge in conducting OSFS, i.e., how to establish the uncertain relationship between sparse streaming features and labels. Unfortunately, existing OSFS algorithms never consider such uncertain relationship. To fill this gap, we in this paper propose an online sparse streaming feature selection with uncertainty (OS2FSU) algorithm. OS2FSU consists of two main parts: 1) latent factor analysis is utilized to pre-estimate the missing data in sparse streaming features before con-ducting feature selection, and 2) fuzzy logic and neighborhood rough set are employed to alleviate the uncertainty between estimated streaming features and labels during conducting feature selection. In the experiments, OS2FSU is compared with five state-of-the-art OSFS algorithms on six real datasets. The results demonstrate that OS2FSU outperforms its competitors when missing data are encountered in OSFS.
翻訳日:2022-08-03 13:32:59 公開日:2022-08-02
# モデル非依存型メタラーニングのための線形競合ユニットを用いた確率的ディープネットワーク

Stochastic Deep Networks with Linear Competing Units for Model-Agnostic Meta-Learning ( http://arxiv.org/abs/2208.01573v1 )

ライセンス: Link先を確認
Konstantinos Kalais, Sotirios Chatzis(参考訳) 本研究は,LWTAアクティベーションを用いた深層ネットワークによるメタラーニング(ML)に対処する。 このタイプのネットワークユニットは、各モデル層からスパース表現を生じさせ、ユニットは1つのユニットだけが0でない出力を生成するブロックに編成される。 導入されたユニットの主な運用原理は、ネットワークが勝者を選ぶために競合ユニットに対して後方サンプリングを行うという確率的原則に依存している。 したがって,提案するネットワークは,現在標準的な決定論的表現パラダイムとは対照的に,スパース確率性の入力データ表現を明示的に抽出するように設計されている。 提案手法は, 画像分類および回帰実験における最先端の予測精度と, アクティブな学習環境における予測誤差を低減し, 計算コストを大幅に削減する。

This work addresses meta-learning (ML) by considering deep networks with stochastic local winner-takes-all (LWTA) activations. This type of network units results in sparse representations from each model layer, as the units are organized into blocks where only one unit generates a non-zero output. The main operating principle of the introduced units rely on stochastic principles, as the network performs posterior sampling over competing units to select the winner. Therefore, the proposed networks are explicitly designed to extract input data representations of sparse stochastic nature, as opposed to the currently standard deterministic representation paradigm. Our approach produces state-of-the-art predictive accuracy on few-shot image classification and regression experiments, as well as reduced predictive error on an active learning setting; these improvements come with an immensely reduced computational cost.
翻訳日:2022-08-03 13:32:42 公開日:2022-08-02
# bert4loc:位置情報のためのbert -- poiレコメンデーションシステム

BERT4Loc: BERT for Location -- POI Recommender System ( http://arxiv.org/abs/2208.01375v1 )

ライセンス: Link先を確認
Syed Raza Bashir, Vojislav Misic(参考訳) 興味のあるポイントを推薦することは、位置情報ベースのソーシャルメディアプラットフォームから正確な位置情報を抽出する必要がある難しい問題である。 このような位置対応レコメンデーションシステムでは, ユーザの履歴行動に基づいた好みのモデル化が課題であり, 重要な課題である。 本稿では,トランスフォーマからの双方向エンコーダ表現に基づく位置認識型レコメンダシステムを提案する。 提案モデルは位置情報とユーザの好みを組み込んだモデルである。 シーケンス内の各位置における次の関心項目(位置)を予測する場合と比較すると,より関連性の高い結果が得られる。 ベンチマークデータセットの大規模な実験により、我々のモデルは様々な最先端のシーケンシャルモデルより一貫して優れていることが示された。

Recommending points of interest is a difficult problem that requires precise location information to be extracted from a location-based social media platform. Another challenging and critical problem for such a location-aware recommendation system is modelling users' preferences based on their historical behaviors. We propose a location-aware recommender system based on Bidirectional Encoder Representations from Transformers for the purpose of providing users with location-based recommendations. The proposed model incorporates location data and user preferences. When compared to predicting the next item of interest (location) at each position in a sequence, our model can provide the user with more relevant results. Extensive experiments on a benchmark dataset demonstrate that our model consistently outperforms a variety of state-of-the-art sequential models.
翻訳日:2022-08-03 13:32:26 公開日:2022-08-02
# MEMO:ディープラーニングライブラリテストのためのカバレッジ誘導モデル生成

MEMO: Coverage-guided Model Generation For Deep Learning Library Testing ( http://arxiv.org/abs/2208.01508v1 )

ライセンス: Link先を確認
Meiziniu Li, Jialun Cao, Yongqiang Tian, Tsz On Li, Ming Wen, Shing-Chi Cheung(参考訳) 最近のディープラーニング(dl)アプリケーションは、主にdlライブラリ上に構築されている。 これらのライブラリの品質保証は、dlアプリケーションの依存可能なデプロイに不可欠である。 そのため、dlモデルをテスト入力として生成してdlライブラリをテストするためのいくつかのテクニックが提案されている。 次にこれらのテクニックは、DLモデルの実行に関連するDLライブラリモジュールを実行するために、DLライブラリにそれらのDLモデルを供給します。 しかし、これらの手法のテストの有効性は、生成されたDLモデルの多様性によって制約される。 調査の結果、これらの手法は層対の最大11.7%(つまり2つの層api間のコールシーケンス)と層パラメータの55.8%(例えばconv2dの"パディング")をカバーすることが判明した。 その結果、特定のレイヤペアやパラメータから生じる多くのバグは、既存のテクニックでは見逃せないことが分かりました。 既存のDLライブラリテスト手法の限界を考慮して,レイヤタイプ,レイヤペア,レイヤパラメータを探索することにより,多様なDLモデルを効率的に生成するMEMOを提案する。 memo: (1) モデルの多様性を損なうことなくテスト効率を高めるための初期モデル削減手法を設計 (2) カスタマイズされたマルコフ連鎖モンテカルロ(mcmc)アルゴリズムのための一連の突然変異演算子を設計し、新しい層タイプ、層対、および層パラメータを探索する。 我々は、モデル実行(TensorFlow, PyTorch, MXNet, ONNX)とモデル変換(Keras-MXNet, TF2ONNX, ONNX2PyTorch)の4つを含む7つの人気のあるDLライブラリ上でMEMOを評価した。 評価の結果、MEMOは10.3%以上の層対、15.3%以上の層パラメータ、2.3%のライブラリブランチをカバーし、近年の成果を上回った。 さらに、MEMOは最新バージョンのDLライブラリで29の新しいバグを検出し、そのうち17がDLライブラリ開発者によって確認され、そのうち5つは修正されている。

Recent deep learning (DL) applications are mostly built on top of DL libraries. The quality assurance of these libraries is critical to the dependable deployment of DL applications. A few techniques have thereby been proposed to test DL libraries by generating DL models as test inputs. Then these techniques feed those DL models to DL libraries for making inferences, in order to exercise DL libraries modules related to a DL model's execution. However, the test effectiveness of these techniques is constrained by the diversity of generated DL models. Our investigation finds that these techniques can cover at most 11.7% of layer pairs (i.e., call sequence between two layer APIs) and 55.8% of layer parameters (e.g., "padding" in Conv2D). As a result, we find that many bugs arising from specific layer pairs and parameters can be missed by existing techniques. In view of the limitations of existing DL library testing techniques, we propose MEMO to efficiently generate diverse DL models by exploring layer types, layer pairs, and layer parameters. MEMO: (1) designs an initial model reduction technique to boost test efficiency without compromising model diversity; and (2) designs a set of mutation operators for a customized Markov Chain Monte Carlo (MCMC) algorithm to explore new layer types, layer pairs, and layer parameters. We evaluate MEMO on seven popular DL libraries, including four for model execution (TensorFlow, PyTorch and MXNet, and ONNX) and three for model conversions (Keras-MXNet, TF2ONNX, ONNX2PyTorch). The evaluation result shows that MEMO outperforms recent works by covering 10.3% more layer pairs, 15.3% more layer parameters, and 2.3% library branches. Moreover, MEMO detects 29 new bugs in the latest version of DL libraries, with 17 of them confirmed by DL library developers, and 5 of those confirmed bugs have been fixed.
翻訳日:2022-08-03 13:32:14 公開日:2022-08-02
# 高次元環境における動的離散選択モデリングのための再帰的分割法

A Recursive Partitioning Approach for Dynamic Discrete Choice Modeling in High Dimensional Settings ( http://arxiv.org/abs/2208.01476v1 )

ライセンス: Link先を確認
Ebrahim Barzegary, Hema Yoganarasimhan(参考訳) 動的離散選択モデルは、個人の現在の選択が将来の意味を持つ設定において、実体的および政策的な質問に答えるために広く用いられている。 しかし、これらのモデルの推定はしばしば計算集約的であり、高次元の設定では不可能である。 実際、ユーティリティ/状態遷移がどのようにエージェントの決定に入るかの構造を特定することは、ガイド理論がない場合、高次元設定では難しい。 本稿では、パラメトリックユーティリティ関数で使用される標準変数に加えて、状態変数の高次元集合を含む動的離散選択モデルの半パラメトリックな定式化を提案する。 高次元変数は、関心の主変数ではないすべての変数を含むことができるが、潜在的に人々の選択に影響を与え、推定手順、すなわち制御変数に含めなければならない。 本研究では,データ駆動再帰的パーティショニングアルゴリズムを提案する。選択と状態遷移のばらつきを考慮して,高次元状態空間の次元性を低減する。 研究者は、その選択方法を使って、最初の段階から離散状態空間を使って問題を推定することができる。 提案手法は,推定バイアスを低減し,同時に推定を可能にする。 本研究ではモンテカルロシミュレーションを行い,高次元説明変数集合を無視する標準推定法と比較して,提案手法の性能を示す。

Dynamic discrete choice models are widely employed to answer substantive and policy questions in settings where individuals' current choices have future implications. However, estimation of these models is often computationally intensive and/or infeasible in high-dimensional settings. Indeed, even specifying the structure for how the utilities/state transitions enter the agent's decision is challenging in high-dimensional settings when we have no guiding theory. In this paper, we present a semi-parametric formulation of dynamic discrete choice models that incorporates a high-dimensional set of state variables, in addition to the standard variables used in a parametric utility function. The high-dimensional variable can include all the variables that are not the main variables of interest but may potentially affect people's choices and must be included in the estimation procedure, i.e., control variables. We present a data-driven recursive partitioning algorithm that reduces the dimensionality of the high-dimensional state space by taking the variation in choices and state transition into account. Researchers can then use the method of their choice to estimate the problem using the discretized state space from the first stage. Our approach can reduce the estimation bias and make estimation feasible at the same time. We present Monte Carlo simulations to demonstrate the performance of our method compared to standard estimation methods where we ignore the high-dimensional explanatory variable set.
翻訳日:2022-08-03 13:31:09 公開日:2022-08-02
# 非)文脈的臨床語埋め込みにおけるバイアス

Bias in (Non)-Contextual Clinical Word Embeddings ( http://arxiv.org/abs/2208.01341v1 )

ライセンス: Link先を確認
Gizem Sogancioglu, Fabian Mijsters, Amar van Uden, Jelle Peperzak(参考訳) 臨床用語の埋め込みは様々なバイオNLP問題において最先端の特徴ベクトル表現として広く用いられている。 単語のセマンティック表現ではかなり成功したが、そのデータセットは統計的、社会的偏見を伴っている可能性があるため、訓練された上では性別のステレオタイプが現れるかもしれない。 本研究は, 精神疾患, 性感染症, 性格特性の3つの医療カテゴリーにおける, 臨床埋め込みの性別バイアスを分析した。 そこで本研究では,2種類の事前学習型埋め込み,すなわち臨床用BERTとBioWordVecを解析した。 いずれの埋め込みもセンシティブな性別グループに偏りがあることが示されるが、BioWordVecは3つのカテゴリーで臨床BERTよりも高い偏りを示す。 また,本研究は,医学文献と矛盾するいくつかの医学用語や疾患に対して,臨床埋め込みが高いバイアスを負うことを示した。 このような根拠のない関係を持つことは、臨床埋め込みを使用する下流アプリケーションに害をもたらす可能性がある。

Clinical word embeddings are extensively used in various Bio-NLP problems as a state-of-the-art feature vector representation. Although they are quite successful at the semantic representation of words, due to the dataset - which potentially carries statistical and societal bias - on which they are trained, they might exhibit gender stereotypes. This study analyses gender bias of clinical embeddings on three medical categories: mental disorders, sexually transmitted diseases, and personality traits. To this extent, we analyze two different pre-trained embeddings namely (contextualized) clinical-BERT and (non-contextualized) BioWordVec. We show that both embeddings are biased towards sensitive gender groups but BioWordVec exhibits a higher bias than clinical-BERT for all three categories. Moreover, our analyses show that clinical embeddings carry a high degree of bias for some medical terms and diseases which is conflicting with medical literature. Having such an ill-founded relationship might cause harm in downstream applications that use clinical embeddings.
翻訳日:2022-08-03 13:27:40 公開日:2022-08-02
# Label Sleuth: ラベルなしテキストから数時間で分類器へ

Label Sleuth: From Unlabeled Text to a Classifier in a Few Hours ( http://arxiv.org/abs/2208.01483v1 )

ライセンス: Link先を確認
Eyal Shnarch, Alon Halfon, Ariel Gera, Marina Danilevsky, Yannis Katsis, Leshem Choshen, Martin Santillan Cooper, Dina Epelboim, Zheng Zhang, Dakuo Wang, Lucy Yip, Liat Ein-Dor, Lena Dankin, Ilya Shnayderman, Ranit Aharonov, Yunyao Li, Naftali Liberman, Philip Levin Slesarev, Gwilym Newton, Shila Ofek-Koifman, Noam Slonim, Yoav Katz(参考訳) テキスト分類は多くの現実世界のシナリオで有用であり、エンドユーザにとって多くの時間を節約できる。 しかし、カスタム分類器を構築するには、コーディングスキルとml知識が必要であり、多くの潜在的なユーザにとって大きな障壁となる。 この障壁を克服するために,テキスト分類器のラベル付けと作成のための無料オープンソースシステムである Label Sleuth を紹介した。 このシステムはユニークです (a)ノンコードシステムであり、NLPを非専門家に利用できるようにする。 (b)カスタムの分類器を得るまで、ユーザをラベル付けプロセス全体を通して案内し、プロセスを数時間でコールドスタートから分類器まで効率的にする。 (c) 開発者による設定と拡張はオープンです。 Label Sleuthをオープンソース化することで、NLPモデルの利用を拡大するユーザと開発者のコミュニティを構築したいと思っています。

Text classification can be useful in many real-world scenarios, saving a lot of time for end users. However, building a custom classifier typically requires coding skills and ML knowledge, which poses a significant barrier for many potential users. To lift this barrier, we introduce Label Sleuth, a free open source system for labeling and creating text classifiers. This system is unique for (a) being a no-code system, making NLP accessible to non-experts, (b) guiding users through the entire labeling process until they obtain a custom classifier, making the process efficient -- from cold start to classifier in a few hours, and (c) being open for configuration and extension by developers. By open sourcing Label Sleuth we hope to build a community of users and developers that will broaden the utilization of NLP models.
翻訳日:2022-08-03 13:27:23 公開日:2022-08-02
# グローバルおよびローカルアライメント最大化による後期核融合多視点クラスタリング

Late Fusion Multi-view Clustering via Global and Local Alignment Maximization ( http://arxiv.org/abs/2208.01198v1 )

ライセンス: Link先を確認
Siwei Wang, Xinwang Liu, En Zhu(参考訳) マルチビュークラスタリング(MVC)は、異なるビューからの補完情報を最適に統合し、クラスタリング性能を改善する。 様々なアプリケーションで有望な性能を示すが、既存のアプローチの多くは、複数の事前定義された類似性を直接融合してクラスタリングに最適な類似性行列を学習する。 本稿では,これらの問題に対処するため,アライメントの最大化によるレイトフュージョンMVCを提案する。 そこで我々はまず,既存のk-meansクラスタリングとベースパーティションとコンセンサスクラスタのアライメントの理論的関係を明らかにする。 そこで本研究では,LF-MVC-GAMと呼ばれる簡易かつ効果的なマルチビューアルゴリズムを提案する。 個々のビューから複数のソース情報をパーティションレベルで最適に融合し、コンセンサスパーティションをこれらの重み付けベースと最大に整合させる。 このようなアライメントは分割レベルの情報を統合し、最適化手順を十分に単純化することで計算の複雑さを大幅に削減するのに有用である。 次に,複数の分割空間間の局所固有構造を保存することにより,クラスタリング性能をさらに向上するために,別の変種LF-MVC-LAMを設計する。 その後, 2つの3段階反復アルゴリズムを開発し, 理論的に保証された収束による最適化問題を解く。 さらに,提案アルゴリズムの一般化誤差境界解析について述べる。 18のマルチビューベンチマークデータセットに関する広範な実験は、小規模から大規模データ項目まで、提案されたlf-mvc-gamとlf-mvc-lamの有効性と効率を示している。 提案されたアルゴリズムのコードはhttps://github.com/wangsiwei2010/latefusionalignmentで公開されている。

Multi-view clustering (MVC) optimally integrates complementary information from different views to improve clustering performance. Although demonstrating promising performance in various applications, most of existing approaches directly fuse multiple pre-specified similarities to learn an optimal similarity matrix for clustering, which could cause over-complicated optimization and intensive computational cost. In this paper, we propose late fusion MVC via alignment maximization to address these issues. To do so, we first reveal the theoretical connection of existing k-means clustering and the alignment between base partitions and the consensus one. Based on this observation, we propose a simple but effective multi-view algorithm termed LF-MVC-GAM. It optimally fuses multiple source information in partition level from each individual view, and maximally aligns the consensus partition with these weighted base ones. Such an alignment is beneficial to integrate partition level information and significantly reduce the computational complexity by sufficiently simplifying the optimization procedure. We then design another variant, LF-MVC-LAM to further improve the clustering performance by preserving the local intrinsic structure among multiple partition spaces. After that, we develop two three-step iterative algorithms to solve the resultant optimization problems with theoretically guaranteed convergence. Further, we provide the generalization error bound analysis of the proposed algorithms. Extensive experiments on eighteen multi-view benchmark datasets demonstrate the effectiveness and efficiency of the proposed LF-MVC-GAM and LF-MVC-LAM, ranging from small to large-scale data items. The codes of the proposed algorithms are publicly available at https://github.com/wangsiwei2010/latefusionalignment.
翻訳日:2022-08-03 13:26:16 公開日:2022-08-02
# 機械学習モデルを用いた洪水予測

Flood Prediction Using Machine Learning Models ( http://arxiv.org/abs/2208.01234v1 )

ライセンス: Link先を確認
Miah Mohammad Asif Syeed, Maisha Farzana, Ishadie Namir, Ipshita Ishrar, Meherin Hossain Nushra, Tanvir Rahman(参考訳) 洪水は自然界で最も壊滅的な災害の一つであり、人間生活、農業、インフラ、社会経済システムに大きな損害を与えている。 洪水災害管理と洪水予報システムに関するいくつかの研究が進められている。 洪水の発生と進行をリアルタイムで正確に予測することは困難である。 広域にまたがる水位と速度を推定するには,データと計算的に要求される洪水伝播モデルとを組み合わせる必要がある。 本稿では,この自然災害の極端なリスクを低減し,異なる機械学習モデルを用いた洪水予測を提供することで,政策提案にも貢献することを目的とする。 本研究では, バイナリロジスティック回帰, K-Nearest Neighbor (KNN), Support Vector Classifier (SVC) および Decision Tree Classifier を用いて正確な予測を行う。 その結果、どのモデルがより正確な結果をもたらすかを理解するために比較分析を行う。

Floods are one of nature's most catastrophic calamities which cause irreversible and immense damage to human life, agriculture, infrastructure and socio-economic system. Several studies on flood catastrophe management and flood forecasting systems have been conducted. The accurate prediction of the onset and progression of floods in real time is challenging. To estimate water levels and velocities across a large area, it is necessary to combine data with computationally demanding flood propagation models. This paper aims to reduce the extreme risks of this natural disaster and also contributes to policy suggestions by providing a prediction for floods using different machine learning models. This research will use Binary Logistic Regression, K-Nearest Neighbor (KNN), Support Vector Classifier (SVC) and Decision tree Classifier to provide an accurate prediction. With the outcome, a comparative analysis will be conducted to understand which model delivers a better accuracy.
翻訳日:2022-08-03 13:25:49 公開日:2022-08-02
# ファジィルールに基づくフレームワークにおけるクラス特化およびルール特化特徴の選択と冗長性制御の理解

Understanding the classes better with class-specific and rule-specific feature selection, and redundancy control in a fuzzy rule based framework ( http://arxiv.org/abs/2208.01294v1 )

ライセンス: Link先を確認
Suchismita Das, Nikhil R. Pal(参考訳) 近年、いくつかの研究では、クラス固有の特徴サブセットを使用することは、分類問題に対するデータを表現するために単一の特徴サブセットを使用するよりも、ある程度の利点があると主張している。 従来の特徴選択方法とは異なり、クラス固有の特徴選択方法は各クラスに対して最適な特徴サブセットを選択する。 通常、クラス固有の特徴選択(CSFS)メソッドは、クラス不均衡、決定集約、高い計算オーバーヘッドなどの問題を引き起こすデータセットの1対全分割を使用する。 本稿では,ファジィルールに基づく分類器に組み込んだクラス固有の特徴選択手法を提案する。 さらに,本手法は,学習目的に適切な正規化子を加えることで,クラス固有の特徴部分集合の冗長度を制御できる。 本手法はクラス固有のサブセットを含むクラス固有のルールを生成する。 また、特定のクラスの異なるルールが異なる機能サブセットによって定義され、クラス内の異なるサブ構造をモデル化する拡張も提案する。 提案手法の有効性は3つの合成データセットの実験を通して検証された。

Recently, several studies have claimed that using class-specific feature subsets provides certain advantages over using a single feature subset for representing the data for a classification problem. Unlike traditional feature selection methods, the class-specific feature selection methods select an optimal feature subset for each class. Typically class-specific feature selection (CSFS) methods use one-versus-all split of the data set that leads to issues such as class imbalance, decision aggregation, and high computational overhead. We propose a class-specific feature selection method embedded in a fuzzy rule-based classifier, which is free from the drawbacks associated with most existing class-specific methods. Additionally, our method can be adapted to control the level of redundancy in the class-specific feature subsets by adding a suitable regularizer to the learning objective. Our method results in class-specific rules involving class-specific subsets. We also propose an extension where different rules of a particular class are defined by different feature subsets to model different substructures within the class. The effectiveness of the proposed method has been validated through experiments on three synthetic data sets.
翻訳日:2022-08-03 13:25:34 公開日:2022-08-02
# 電子健康記録を用いたリスク予測のための複合密度ネットワーク

Compound Density Networks for Risk Prediction using Electronic Health Records ( http://arxiv.org/abs/2208.01320v1 )

ライセンス: Link先を確認
Yuxi Liu, Zhenhao Zhang, Shaowen Qin(参考訳) 電子健康記録 (Electronic Health Records, EHRs) は、患者の状況や治療ニーズの変動により、大量の欠落データを示す。 不足する価値の計算は、この課題に対処するための効果的なアプローチと考えられている。 既存の作業は、EHRベースの機械学習システムの2つの独立した部分として、計算方法と予測モデルを分離する。 本稿では, 複合密度ネットワーク (CDNet) を用いて, 計算手法と予測モデルを一つのフレームワーク内で調整可能な統合エンドツーエンドアプローチを提案する。 CDNet は Gated Recurrent Unit (GRU) と Mixture Density Network (MDN) と Regularized Attention Network (RAN) で構成されている。 GRUはEHRデータをモデル化するための潜在変数モデルとして使用される。 MDNはGRUによって生成される潜伏変数をサンプリングするために設計されている。 RANは信頼性の低いインプット値の正規化器として機能する。 CDNetのアーキテクチャにより、GRUとMDNは互いの出力を反復的に利用し、欠落した値をインプットし、より正確で堅牢な予測を行うことができる。 我々は,MIMIC-IIIデータセット上での死亡予測タスクにおいてCDNetを検証する。 我々のモデルは最先端のモデルをかなりのマージンで上回っている。 また,入力値の正規化が予測性能向上の鍵となることを実証的に示す。 予測の不確実性の分析から,本モデルではアレータリックおよびエピステマティックな不確実性の両方を捉えることができ,モデルユーザがモデル結果をよりよく理解できるようになる。

Electronic Health Records (EHRs) exhibit a high amount of missing data due to variations of patient conditions and treatment needs. Imputation of missing values has been considered an effective approach to deal with this challenge. Existing work separates imputation method and prediction model as two independent parts of an EHR-based machine learning system. We propose an integrated end-to-end approach by utilizing a Compound Density Network (CDNet) that allows the imputation method and prediction model to be tuned together within a single framework. CDNet consists of a Gated recurrent unit (GRU), a Mixture Density Network (MDN), and a Regularized Attention Network (RAN). The GRU is used as a latent variable model to model EHR data. The MDN is designed to sample latent variables generated by GRU. The RAN serves as a regularizer for less reliable imputed values. The architecture of CDNet enables GRU and MDN to iteratively leverage the output of each other to impute missing values, leading to a more accurate and robust prediction. We validate CDNet on the mortality prediction task on the MIMIC-III dataset. Our model outperforms state-of-the-art models by significant margins. We also empirically show that regularizing imputed values is a key factor for superior prediction performance. Analysis of prediction uncertainty shows that our model can capture both aleatoric and epistemic uncertainties, which offers model users a better understanding of the model results.
翻訳日:2022-08-03 13:25:17 公開日:2022-08-02
# デュアルフローによる多視点再生モーフィング

Multiview Regenerative Morphing with Dual Flows ( http://arxiv.org/abs/2208.01287v1 )

ライセンス: Link先を確認
Chih-Jung Tsai, Cheng Sun, Hwann-Tzong Chen(参考訳) 本稿では,複数視点画像の2セットを入力とし,2つの入力セット間のスムーズな遷移を示すだけでなく,任意の遷移状態における異なるビュー間の視覚的一貫性を確保する中間レンダリングを生成するマルチビュー設定による画像モーフィングの新たな課題を解決することを目的とする。 この目的を達成するために、我々は、変形過程を剛性変換と最適輸送補間のための最適化として定式化する、Multiview Regenerative Morphingと呼ばれる新しいアプローチを提案する。 ソースとターゲットシーンのマルチビュー入力画像を考えると、まず各シーンの形状と外観をモデル化し、新しいビューのレンダリングを可能にするボリューム表現を学習する。 次に、ワッサーシュタイン計量における2つの体積表現間の最適な輸送を解くことにより、2つのシーン間のモーフィングを得る。 提案手法は,ユーザの指定した対応や2D/3D入力メッシュに依存しない。 提案されたビュー一貫性補間スキームは、マルチビュー画像に直接作用し、マルチビューフリーフォームモーフィングの新規で視覚的に妥当な効果をもたらす。

This paper aims to address a new task of image morphing under a multiview setting, which takes two sets of multiview images as the input and generates intermediate renderings that not only exhibit smooth transitions between the two input sets but also ensure visual consistency across different views at any transition state. To achieve this goal, we propose a novel approach called Multiview Regenerative Morphing that formulates the morphing process as an optimization to solve for rigid transformation and optimal-transport interpolation. Given the multiview input images of the source and target scenes, we first learn a volumetric representation that models the geometry and appearance for each scene to enable the rendering of novel views. Then, the morphing between the two scenes is obtained by solving optimal transport between the two volumetric representations in Wasserstein metrics. Our approach does not rely on user-specified correspondences or 2D/3D input meshes, and we do not assume any predefined categories of the source and target scenes. The proposed view-consistent interpolation scheme directly works on multiview images to yield a novel and visually plausible effect of multiview free-form morphing.
翻訳日:2022-08-03 13:22:12 公開日:2022-08-02
# 人間の動きの予測に精巧な知識を蒸留する、見過ごされがちな感覚

Overlooked Poses Actually Make Sense: Distilling Privileged Knowledge for Human Motion Prediction ( http://arxiv.org/abs/2208.01302v1 )

ライセンス: Link先を確認
Xiaoning Sun, Qiongjie Cui, Huaijiang Sun, Bin Li, Weiqing Li and Jianfeng Lu(参考訳) 人間の運動予測に関する以前の研究は、観測されるシーケンスと予測対象のシーケンスのマッピング関係を構築するパターンに従っている。 しかしながら、多変量時系列データの固有の複雑さのため、動き列間の外挿関係を見つけることは依然として課題である。 本稿では、補間の観点から予測タスクを実装するために、以前見過ごされた人間のポーズを導入した新しい予測パターンを提案する。 これらのポーズは予測シーケンス後に存在し、特権シーケンスを形成する。 InTerPolation Learning Network (ITP-Network) は、観測されたシーケンスと特権シーケンスの両方を符号化して予測シーケンスを補間し、組み込まれたPrivleged-Sequence-Encoder (Priv-Encoder) が特権知識(PK)を同時に学習する。 次に、特権シーケンスが観測不可能なファイナル予測ネットワーク(FP-Network)を提案するが、従来のネットワークから学習したPKを蒸留する新しいPK-Simulatorを備えている。 このシミュレータは観測されたシーケンスの入力であるが、privエンコーダの挙動を近似し、fp-ネットワークが補間プロセスを模倣することができる。 その結果,H3.6M,CMU-Mocap,および3DPWデータセットの短期的および長期的予測において,予測パターンが最先端の性能を達成することが示された。

Previous works on human motion prediction follow the pattern of building a mapping relation between the sequence observed and the one to be predicted. However, due to the inherent complexity of multivariate time series data, it still remains a challenge to find the extrapolation relation between motion sequences. In this paper, we present a new prediction pattern, which introduces previously overlooked human poses, to implement the prediction task from the view of interpolation. These poses exist after the predicted sequence, and form the privileged sequence. To be specific, we first propose an InTerPolation learning Network (ITP-Network) that encodes both the observed sequence and the privileged sequence to interpolate the in-between predicted sequence, wherein the embedded Privileged-sequence-Encoder (Priv-Encoder) learns the privileged knowledge (PK) simultaneously. Then, we propose a Final Prediction Network (FP-Network) for which the privileged sequence is not observable, but is equipped with a novel PK-Simulator that distills PK learned from the previous network. This simulator takes as input the observed sequence, but approximates the behavior of Priv-Encoder, enabling FP-Network to imitate the interpolation process. Extensive experimental results demonstrate that our prediction pattern achieves state-of-the-art performance on benchmarked H3.6M, CMU-Mocap and 3DPW datasets in both short-term and long-term predictions.
翻訳日:2022-08-03 13:21:52 公開日:2022-08-02
# GaitGL: 歩行認識のための識別的グローバルローカル特徴表現の学習

GaitGL: Learning Discriminative Global-Local Feature Representations for Gait Recognition ( http://arxiv.org/abs/2208.01380v1 )

ライセンス: Link先を確認
Beibei Lin, Shunli Zhang, Ming Wang, Lincheng Li, and Xin Yu(参考訳) 既存の歩行認識手法は、元の歩行系列から直接グローバル特徴表現(GFR)を確立するか、複数の局所部分から局所特徴表現(LFR)を生成する。 しかしGFRは、より深いネットワーク層において受容野が大きくなるにつれて、人間の姿勢の局所的な詳細を無視する傾向にある。 LFRは各地域の詳細な姿勢情報に焦点を合わせることができるが、異なる地域間の関係を無視し、特定の地域の限られた地域情報のみを利用する。 これらの問題を解決するために,GaitGLというグローバルローカルな歩行認識ネットワークを提案し,より差別的な特徴表現を生成する。 具体的には、グローバルな視覚情報と各レイヤの局所的な詳細の両方をフル活用するために、Global and Local Convolutional Layer(GLCL)が開発された。 GLCLはGFR抽出器とマスクベースのLFR抽出器からなる二重分岐構造である。 GFR抽出器は, 各種部位間の関係などの文脈情報を抽出することを目的としており, マスクベースLFR抽出器は局所的な姿勢変化の詳細な利用を目的としている。 さらに,局所特徴抽出機能を改善するためのマスクベースの新しい戦略を導入する。 具体的には,一対の補完マスクを設計し,ランダムに特徴マップを隠蔽し,様々な特徴マップ上でマスクベースのLFR抽出器を訓練する。 このようにして、LFR抽出器は、ローカル情報を完全に活用することを学ぶ。 広範な実験により、gaitglは最先端のgait認識方法よりも優れた性能を達成できることが示されている。 CASIA-B, OU-MVLP, GREW, Gait3Dの平均ランク1の精度はそれぞれ93.6%, 98.7%, 68.0%, 63.8%であり、競合する手法よりも優れていた。 提案手法はHID 2020とHID 2021という2つのコンペで優勝した。

Existing gait recognition methods either directly establish Global Feature Representation (GFR) from original gait sequences or generate Local Feature Representation (LFR) from several local parts. However, GFR tends to neglect local details of human postures as the receptive fields become larger in the deeper network layers. Although LFR allows the network to focus on the detailed posture information of each local region, it neglects the relations among different local parts and thus only exploits limited local information of several specific regions. To solve these issues, we propose a global-local based gait recognition network, named GaitGL, to generate more discriminative feature representations. To be specific, a novel Global and Local Convolutional Layer (GLCL) is developed to take full advantage of both global visual information and local region details in each layer. GLCL is a dual-branch structure that consists of a GFR extractor and a mask-based LFR extractor. GFR extractor aims to extract contextual information, e.g., the relationship among various body parts, and the mask-based LFR extractor is presented to exploit the detailed posture changes of local regions. In addition, we introduce a novel mask-based strategy to improve the local feature extraction capability. Specifically, we design pairs of complementary masks to randomly occlude feature maps, and then train our mask-based LFR extractor on various occluded feature maps. In this manner, the LFR extractor will learn to fully exploit local information. Extensive experiments demonstrate that GaitGL achieves better performance than state-of-the-art gait recognition methods. The average rank-1 accuracy on CASIA-B, OU-MVLP, GREW and Gait3D is 93.6%, 98.7%, 68.0% and 63.8%, respectively, significantly outperforming the competing methods. The proposed method has won the first prize in two competitions: HID 2020 and HID 2021.
翻訳日:2022-08-03 13:21:25 公開日:2022-08-02
# T4DT: 時間的3次元視覚データ学習のためのテンソル化時間

T4DT: Tensorizing Time for Learning Temporal 3D Visual Data ( http://arxiv.org/abs/2208.01421v1 )

ライセンス: Link先を確認
Mikhail Usvyatsov, Rafael Ballester-Rippoll, Lina Bashaeva, Konrad Schindler, Gonzalo Ferrer, Ivan Oseledets(参考訳) 2dラスター画像とは異なり、3dビジュアルデータ処理に支配的な表現は存在しない。 ポイントクラウドやメッシュ、暗黙の関数といったさまざまなフォーマットには、それぞれ強みと弱みがある。 それでも、符号付き距離関数のような格子表現は、3Dでも魅力的な性質を持つ。 特に、一定時間ランダムアクセスを提供し、現代の機械学習に非常に適している。 残念ながら、グリッドのストレージサイズはその次元とともに指数関数的に大きくなる。 そのため、適度な解像度でもメモリ制限を超えることが多い。 この研究は、タッカー、テンソルトレイン、量子テンソルトレイン分解などの様々な低ランクテンソルフォーマットを調査し、時間変化した3Dデータを圧縮する。 本手法は,各フレームの符号付き距離関数を反復的に計算し,ボクセライズし,圧縮し,テンソルランクの切り込みを施し,全フレームを4次元シーン全体を表す単一の圧縮テンソルに凝縮する。 低ランクテンソル圧縮は、時間変化符号付き距離関数を格納および問い合わせするのに非常にコンパクトである。 4dシーンのメモリフットプリントを大幅に削減し、幾何学的品質を驚くほど維持する。 DeepSDFやNeRFのような既存の反復学習ベースのアプローチとは異なり、理論的保証付きクローズドフォームアルゴリズムを用いる。

Unlike 2D raster images, there is no single dominant representation for 3D visual data processing. Different formats like point clouds, meshes, or implicit functions each have their strengths and weaknesses. Still, grid representations such as signed distance functions have attractive properties also in 3D. In particular, they offer constant-time random access and are eminently suitable for modern machine learning. Unfortunately, the storage size of a grid grows exponentially with its dimension. Hence they often exceed memory limits even at moderate resolution. This work explores various low-rank tensor formats, including the Tucker, tensor train, and quantics tensor train decompositions, to compress time-varying 3D data. Our method iteratively computes, voxelizes, and compresses each frame's truncated signed distance function and applies tensor rank truncation to condense all frames into a single, compressed tensor that represents the entire 4D scene. We show that low-rank tensor compression is extremely compact to store and query time-varying signed distance functions. It significantly reduces the memory footprint of 4D scenes while surprisingly preserving their geometric quality. Unlike existing iterative learning-based approaches like DeepSDF and NeRF, our method uses a closed-form algorithm with theoretical guarantees.
翻訳日:2022-08-03 13:20:52 公開日:2022-08-02
# 接続の削減は必要なだけ

Connection Reduction Is All You Need ( http://arxiv.org/abs/2208.01424v1 )

ライセンス: Link先を確認
Rui-Yang Ju, Jen-Shiun Chiang(参考訳) 畳み込みニューラルネットワーク(CNN)は畳み込み層を積み重ねることで深度を増大させ、より深いネットワークモデルは画像認識においてより良い性能を発揮する。 経験的研究により、畳み込み層を積み重ねるだけではネットワークトレーニングが改善されず、スキップ接続(residual learning)によってネットワークモデルのパフォーマンスが向上することが示された。 画像分類タスクでは、グローバルな密結合アーキテクチャを持つモデルはimagenetのような大規模データセットではうまく機能するが、cifar-10やsvhnのような小さなデータセットには適さない。 密接な接続とは違って,層をつなぐ2つの新しいアルゴリズムを提案する。 Baselineは密結合ネットワークであり、2つの新しいアルゴリズムによって接続されたネットワークはそれぞれShortNet1とShortNet2と呼ばれる。 CIFAR-10 と SVHN による画像分類実験の結果,ShortNet1 は Baseline よりも5% 低いテスト誤差率と25% 速い推論時間を示した。 shortnet2は推論時間を40%高速化し、テスト精度を低下させる。

Convolutional Neural Networks (CNN) increase depth by stacking convolutional layers, and deeper network models perform better in image recognition. Empirical research shows that simply stacking convolutional layers does not make the network train better, and skip connection (residual learning) can improve network model performance. For the image classification task, models with global densely connected architectures perform well in large datasets like ImageNet, but are not suitable for small datasets such as CIFAR-10 and SVHN. Different from dense connections, we propose two new algorithms to connect layers. Baseline is a densely connected network, and the networks connected by the two new algorithms are named ShortNet1 and ShortNet2 respectively. The experimental results of image classification on CIFAR-10 and SVHN show that ShortNet1 has a 5% lower test error rate and 25% faster inference time than Baseline. ShortNet2 speeds up inference time by 40% with less loss in test accuracy.
翻訳日:2022-08-03 13:20:32 公開日:2022-08-02
# 多体追跡フレームワーク-剛体物体から運動構造へ

A Multi-body Tracking Framework -- From Rigid Objects to Kinematic Structures ( http://arxiv.org/abs/2208.01502v1 )

ライセンス: Link先を確認
Manuel Stoiber, Martin Sundermeyer, Wout Boerdijk, Rudolph Triebel(参考訳) 運動構造は実世界では非常に一般的である。 単純な関節の物体から複雑な機械システムまで様々である。 しかし、その関連性にもかかわらず、ほとんどのモデルベースの3Dトラッキング手法は剛体物体のみを考慮している。 この制限を克服するため,既存の6DoFアルゴリズムをキネマティックな構造に拡張可能なフレキシブルなフレームワークを提案する。 提案手法は,物体追跡に広く用いられているニュートン様最適化手法を用いた手法に焦点をあてる。 このフレームワークは木のような構造と閉キネマティック構造の両方を考慮し、関節と制約の柔軟な構成を可能にする。 個々の剛体から多体系へ方程式を投影するために、ヤコビアンを用いる。 閉キネマティック鎖に対しては、ラグランジュ乗算器を特徴とする新しい定式化が開発されている。 詳細な数学的証明では、制約の定式化が正確なキネマティック解をもたらし、単一の反復で収束することを示す。 提案手法をベースとして,最先端の剛性物体追跡アルゴリズムであるICGを多体追跡に拡張する。 評価のために、多数のシーケンスと様々なロボットを特徴とする高現実的な合成データセットを作成する。 このデータセットに基づいて,開発したフレームワークと多体トラッカーの優れた性能を示す多種多様な実験を行った。

Kinematic structures are very common in the real world. They range from simple articulated objects to complex mechanical systems. However, despite their relevance, most model-based 3D tracking methods only consider rigid objects. To overcome this limitation, we propose a flexible framework that allows the extension of existing 6DoF algorithms to kinematic structures. Our approach focuses on methods that employ Newton-like optimization techniques, which are widely used in object tracking. The framework considers both tree-like and closed kinematic structures and allows a flexible configuration of joints and constraints. To project equations from individual rigid bodies to a multi-body system, Jacobians are used. For closed kinematic chains, a novel formulation that features Lagrange multipliers is developed. In a detailed mathematical proof, we show that our constraint formulation leads to an exact kinematic solution and converges in a single iteration. Based on the proposed framework, we extend ICG, which is a state-of-the-art rigid object tracking algorithm, to multi-body tracking. For the evaluation, we create a highly-realistic synthetic dataset that features a large number of sequences and various robots. Based on this dataset, we conduct a wide variety of experiments that demonstrate the excellent performance of the developed framework and our multi-body tracker.
翻訳日:2022-08-03 13:20:14 公開日:2022-08-02
# DSR -- 表面異常検出のための二重部分空間再投射ネットワーク

DSR -- A dual subspace re-projection network for surface anomaly detection ( http://arxiv.org/abs/2208.01521v1 )

ライセンス: Link先を確認
Vitjan Zavrtanik, Matej Kristan, Danijel Sko\v{c}aj(参考訳) 識別的非教師なし表面異常検出の最先端は、異常提示訓練画像合成のための外部データセットに依存する。 このようなアプローチは、異常のない領域との類似性のため、現実的に合成することが難しいため、分布近傍の異常に失敗する傾向にある。 本論文では,画像レベルの異常合成を回避した2重デコーダdsrを用いた量子化特徴空間表現に基づくアーキテクチャを提案する。 異常の視覚的性質を仮定することなく、DSRは学習された量子化された特徴空間をサンプリングすることで特徴レベルで異常を生成する。 DSRはKSDD2およびMVTec異常検出データセットの最先端結果を達成する。 挑戦的な実世界のKSDD2データセットの実験では、DSRは他の教師なし表面異常検出方法よりも大幅に優れており、異常検出では10%AP、異常局所化では35%APで以前のトップパフォーマンス手法が改善されている。

The state-of-the-art in discriminative unsupervised surface anomaly detection relies on external datasets for synthesizing anomaly-augmented training images. Such approaches are prone to failure on near-in-distribution anomalies since these are difficult to be synthesized realistically due to their similarity to anomaly-free regions. We propose an architecture based on quantized feature space representation with dual decoders, DSR, that avoids the image-level anomaly synthesis requirement. Without making any assumptions about the visual properties of anomalies, DSR generates the anomalies at the feature level by sampling the learned quantized feature space, which allows a controlled generation of near-in-distribution anomalies. DSR achieves state-of-the-art results on the KSDD2 and MVTec anomaly detection datasets. The experiments on the challenging real-world KSDD2 dataset show that DSR significantly outperforms other unsupervised surface anomaly detection methods, improving the previous top-performing methods by 10% AP in anomaly detection and 35% AP in anomaly localization.
翻訳日:2022-08-03 13:19:55 公開日:2022-08-02
# テクスチャ・サリエンシー適応型注意を画像の漫画化に組み込む学習

Learning to Incorporate Texture Saliency Adaptive Attention to Image Cartoonization ( http://arxiv.org/abs/2208.01587v1 )

ライセンス: Link先を確認
Xiang Gao, Yuqi Zhang, and Yingjie Tian(参考訳) 画像の漫画化は、近ごろ、教師なしのイメージ・ツー・イメージ翻訳の観点から、特徴ある漫画スタイル(クリアエッジ、スムーズなカラーシェーディング、抽象的な微細構造など)を正確に捉え、十分に伝達することが固有の課題である、生成的敵ネットワーク(GAN)に支配されている。 既存の高度なモデルは、エッジを逆方向に推進する学習、スタイル伝達損失の導入、あるいは複数の表現空間からスタイルを整合させる学習により、漫画化効果を高めようとする。 本稿では,より鮮明かつ鮮明なマンガ化効果が,基本的対向損失のみで容易に達成できることを実証する。 漫画のスタイルが漫画のテクスチャ・サレントなローカル画像領域でより明確であることを示すため,通常の画像レベルと平行して,漫画のテクスチャの特徴をよりよく認識し伝達するために,漫画のテクスチャ・サレントなローカルパッチに対する逆学習を制限する領域レベルの逆学習ブランチを構築した。 そこで, マンガ・テクスチュア・サリエンシ・サンプラー (CTSS) モジュールを提案し, トレーニングデータからマンガ・テクスチュア・サリエントパッチを動的にサンプリングする。 広範な実験により,画像マンガ化における関連する手法の欠如成分として,敵対的学習におけるテクスチャ・サリエンシー適応的注意が,特に高分解能入力画像において,画像マンガのスタイライゼーションの促進と向上に重要であることを実証した。

Image cartoonization is recently dominated by generative adversarial networks (GANs) from the perspective of unsupervised image-to-image translation, in which an inherent challenge is to precisely capture and sufficiently transfer characteristic cartoon styles (e.g., clear edges, smooth color shading, abstract fine structures, etc.). Existing advanced models try to enhance cartoonization effect by learning to promote edges adversarially, introducing style transfer loss, or learning to align style from multiple representation space. This paper demonstrates that more distinct and vivid cartoonization effect could be easily achieved with only basic adversarial loss. Observing that cartoon style is more evident in cartoon-texture-salient local image regions, we build a region-level adversarial learning branch in parallel with the normal image-level one, which constrains adversarial learning on cartoon-texture-salient local patches for better perceiving and transferring cartoon texture features. To this end, a novel cartoon-texture-saliency-sampler (CTSS) module is proposed to dynamically sample cartoon-texture-salient patches from training data. With extensive experiments, we demonstrate that texture saliency adaptive attention in adversarial learning, as a missing ingredient of related methods in image cartoonization, is of significant importance in facilitating and enhancing image cartoon stylization, especially for high-resolution input pictures.
翻訳日:2022-08-03 13:19:40 公開日:2022-08-02
# UnrealEgo:ロバストな人間中心の3Dモーションキャプチャーのための新しいデータセット

UnrealEgo: A New Dataset for Robust Egocentric 3D Human Motion Capture ( http://arxiv.org/abs/2208.01633v1 )

ライセンス: Link先を確認
Hiroyasu Akada and Jian Wang and Soshi Shimada and Masaki Takahashi and Christian Theobalt and Vladislav Golyanik(参考訳) 我々は,エゴセントリックな3次元ポーズ推定のための新しい大規模自然主義データセットUnrealEgoを提案する。 UnrealEgoは、制約のない環境で使用できる2台の魚眼カメラを備えた高度な眼鏡のコンセプトに基づいている。 我々は仮想プロトタイプを設計し、ステレオビューキャプチャーのための3次元人間モデルに装着する。 次に、人間の動きの大きなコーパスを生成します。 結果として、unrealegoは、既存のエゴセントリックデータセットの中で最も多様な動きを持つ、野生のステレオイメージを提供する最初のデータセットである。 さらに,ステレオ入力のための2次元キーポイント推定モジュールを考案し,3次元ポーズ推定を改善するという,単純かつ効果的な手法を提案する。 広範な実験により,我々のアプローチは,従来の最先端手法よりも質的かつ定量的に優れることが示された。 UnrealEgoと私たちのソースコードは、プロジェクトのWebページで利用可能です。

We present UnrealEgo, i.e., a new large-scale naturalistic dataset for egocentric 3D human pose estimation. UnrealEgo is based on an advanced concept of eyeglasses equipped with two fisheye cameras that can be used in unconstrained environments. We design their virtual prototype and attach them to 3D human models for stereo view capture. We next generate a large corpus of human motions. As a consequence, UnrealEgo is the first dataset to provide in-the-wild stereo images with the largest variety of motions among existing egocentric datasets. Furthermore, we propose a new benchmark method with a simple but effective idea of devising a 2D keypoint estimation module for stereo inputs to improve 3D human pose estimation. The extensive experiments show that our approach outperforms the previous state-of-the-art methods qualitatively and quantitatively. UnrealEgo and our source codes are available on our project web page.
翻訳日:2022-08-03 13:19:07 公開日:2022-08-02
# 大気汚染物質分散のパラメータ化大渦シミュレーションのための低次モデリング

Reduced-order modeling for parameterized large-eddy simulations of atmospheric pollutant dispersion ( http://arxiv.org/abs/2208.01518v1 )

ライセンス: Link先を確認
Bastien X Nony, M\'elanie Rochoux, Thomas Jaravel (CERFACS), Didier Lucor (LISN)(参考訳) 近隣の汚染物質濃度のマッピングは、都市部の有害なプルーム分散を追跡するのに不可欠である。 乱流スペクトルの大部分を解くことで、大渦シミュレーション(les)は汚染物質濃度空間変動を正確に表現することができる。 この大量の情報を合成して低忠実度操作モデル(例えば、より良い乱流閉鎖条件を提供する)の精度を向上させる方法を見つけることは特に魅力的である。 これはマルチクエリ環境での課題であり、LESは様々な大気パラメータとソースパラメータでプルームフローとトレーサ分散がどのように変化するかを理解するために、展開するのに不当にコストがかかる。 そこで本研究では, 正規直交分解法 (POD) とガウス過程回帰法 (GPR) を組み合わせて, トレーサ濃度に関連する利害関係のLES場統計を予測できる非侵入的縮小次モデルを提案する。 GPRハイパーパラメータは、PODによって通知される最大後部(MAP)手順により、コンポーネント単位で最適化される。 本研究では, 表面積障害物上の乱流境界層流に対応する2次元ケーススタディにおいて, 低次モデルの性能を詳細に解析する。 障害物の上流では, 大量のPODモードをうまく捕捉する必要があることが示されている。 また,成分別最適化により,podモード,特に高次モードにおけるより短い濃度パターンの空間スケール範囲をキャプチャできることを示した。 学習データベースが少なくとも50〜100 lesスナップショットで構成されている場合、より現実的な大気分散アプリケーションに移行するために必要な予算を最初に見積もる場合、減少次モデル予測は許容される。

Mapping near-field pollutant concentration is essential to track accidental toxic plume dispersion in urban areas. By solving a large part of the turbulence spectrum, large-eddy simulations (LES) have the potential to accurately represent pollutant concentration spatial variability. Finding a way to synthesize this large amount of information to improve the accuracy of lower-fidelity operational models (e.g. providing better turbulence closure terms) is particularly appealing. This is a challenge in multi-query contexts, where LES become prohibitively costly to deploy to understand how plume flow and tracer dispersion change with various atmospheric and source parameters. To overcome this issue, we propose a non-intrusive reduced-order model combining proper orthogonal decomposition (POD) and Gaussian process regression (GPR) to predict LES field statistics of interest associated with tracer concentrations. GPR hyperpararameters are optimized component-by-component through a maximum a posteriori (MAP) procedure informed by POD. We provide a detailed analysis of the reducedorder model performance on a two-dimensional case study corresponding to a turbulent atmospheric boundary-layer flow over a surface-mounted obstacle. We show that near-source concentration heterogeneities upstream of the obstacle require a large number of POD modes to be well captured. We also show that the component-by-component optimization allows to capture the range of spatial scales in the POD modes, especially the shorter concentration patterns in the high-order modes. The reduced-order model predictions remain acceptable if the learning database is made of at least fifty to hundred LES snapshot providing a first estimation of the required budget to move towards more realistic atmospheric dispersion applications.
翻訳日:2022-08-03 13:16:07 公開日:2022-08-02
# 視覚異常認識のための曲面幾何ネットワーク

Curved Geometric Networks for Visual Anomaly Recognition ( http://arxiv.org/abs/2208.01188v1 )

ライセンス: Link先を確認
Jie Hong, Pengfei Fang, Weihao Li, Junlin Han, Lars Petersson and Mehrtash Harandi(参考訳) データ分布の根底にある性質を理解するために潜伏埋め込みを学ぶことは、曲率ゼロのユークリッド空間でしばしば定式化される。 しかし、埋め込み空間で与えられる幾何学的制約の成功は、曲面空間がより多くの構造情報をエンコードする可能性を示し、より識別力とよりリッチな表現をもたらす。 本研究では,データ中の異常や分布外オブジェクトを解析するための曲線空間の利点について検討する。 これは3つの幾何学的制約、すなわち球形幾何学(正曲率を持つ)、双曲幾何学(負曲率を持つ)、または混合幾何学(正曲率と負曲率を持つ)による埋め込みを考えることで達成される。 3つの幾何学的制約は、タスクが手元にあることを考慮し、統一設計において交互に選択することができる。 曲線空間への埋め込みを考慮し、異常スコアを計算する関数を定式化する。 2種類の幾何学的加群(Geometric-in-OneおよびGeometric-in-Twoモデル)が元のユークリッド分類器を接続するために提案され、曲線埋め込みから異常スコアが計算される。 画像検出(複数クラスOOD検出と1クラス異常検出)とセグメンテーション(複数クラス異常セグメンテーションと1クラス異常セグメンテーション)を含む,多様な視覚的認識シナリオで得られた設計結果を評価する。 実験の結果,様々なシナリオに対して一貫した改善を行い,提案の有効性を示した。

Learning a latent embedding to understand the underlying nature of data distribution is often formulated in Euclidean spaces with zero curvature. However, the success of the geometry constraints, posed in the embedding space, indicates that curved spaces might encode more structural information, leading to better discriminative power and hence richer representations. In this work, we investigate benefits of the curved space for analyzing anomalies or out-of-distribution objects in data. This is achieved by considering embeddings via three geometry constraints, namely, spherical geometry (with positive curvature), hyperbolic geometry (with negative curvature) or mixed geometry (with both positive and negative curvatures). Three geometric constraints can be chosen interchangeably in a unified design given the task at hand. Tailored for the embeddings in the curved space, we also formulate functions to compute the anomaly score. Two types of geometric modules (i.e., Geometric-in-One and Geometric-in-Two models) are proposed to plug in the original Euclidean classifier, and anomaly scores are computed from the curved embeddings. We evaluate the resulting designs under a diverse set of visual recognition scenarios, including image detection (multi-class OOD detection and one-class anomaly detection) and segmentation (multi-class anomaly segmentation and one-class anomaly segmentation). The empirical results show the effectiveness of our proposal through the consistent improvement over various scenarios.
翻訳日:2022-08-03 13:14:34 公開日:2022-08-02
# 両世界のベストを尽くす: 教師なしドメイン適応のためのドメイン指向トランスフォーマー

Making the Best of Both Worlds: A Domain-Oriented Transformer for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2208.01195v1 )

ライセンス: Link先を確認
Wenxuan Ma, Jinming Zhang, Shuang Li, Chi Harold Liu, Yulin Wang, Wei Li(参考訳) Unsupervised Domain Adaptation (UDA)に関する大規模な研究は、限られた実験データセットから現実の制約のないドメインへのディープラーニングの展開を促進する。 ほとんどのUDAアプローチは、共通の埋め込み空間内の機能を整列させ、ターゲット予測に共有分類器を適用する。 しかし、ドメインの不一致が大きい場合、完全に整列した特徴空間は存在しないため、これらの手法には2つの制限がある。 まず、強制的なドメインアライメントは、ターゲットラベルの監督が欠如しているため、ターゲットドメインの識別性を低下させる。 第2に、ソース管理分類器は、ソースデータに必然的に偏りがあるため、ターゲットドメインでは性能が低下する可能性がある。 これらの問題を緩和するために、異なる領域に焦点を当てた2つの個別の空間で同時に機能アライメントを行い、その領域に特化されたドメイン指向分類器を作成することを提案する。 具体的には、異なるドメイン指向表現を学習するための2つの個別分類トークンを持つドメイン指向変換器(DOT)と、ドメインワイド識別性を維持するための2つの分類器を設計する。 理論的に保証されたコントラストベースアライメントとソース誘導擬似ラベルリファインメント戦略を用いて、ドメイン不変情報と特定情報の両方を探索する。 包括的実験により,本手法がいくつかのベンチマークで最先端の手法であることを検証した。

Extensive studies on Unsupervised Domain Adaptation (UDA) have propelled the deployment of deep learning from limited experimental datasets into real-world unconstrained domains. Most UDA approaches align features within a common embedding space and apply a shared classifier for target prediction. However, since a perfectly aligned feature space may not exist when the domain discrepancy is large, these methods suffer from two limitations. First, the coercive domain alignment deteriorates target domain discriminability due to lacking target label supervision. Second, the source-supervised classifier is inevitably biased to source data, thus it may underperform in target domain. To alleviate these issues, we propose to simultaneously conduct feature alignment in two individual spaces focusing on different domains, and create for each space a domain-oriented classifier tailored specifically for that domain. Specifically, we design a Domain-Oriented Transformer (DOT) that has two individual classification tokens to learn different domain-oriented representations, and two classifiers to preserve domain-wise discriminability. Theoretical guaranteed contrastive-based alignment and the source-guided pseudo-label refinement strategy are utilized to explore both domain-invariant and specific information. Comprehensive experiments validate that our method achieves state-of-the-art on several benchmarks.
翻訳日:2022-08-03 13:14:07 公開日:2022-08-02
# 時空間気象予報のためのシフト窓クロスアテンションを有する新しい変圧器ネットワーク

A Novel Transformer Network with Shifted Window Cross-Attention for Spatiotemporal Weather Forecasting ( http://arxiv.org/abs/2208.01252v1 )

ライセンス: Link先を確認
Alabi Bojesomo, Hasan Al Marzouqi, Panos Liatsis(参考訳) 地球観測所(Earth Observatory)は、AIの力を利用して短時間の予測を行う研究分野である。 本研究では,ビデオトランスフォーマネットワークを用いた天気予報の課題に挑戦する。 視覚トランスフォーマーアーキテクチャは様々なアプリケーションで研究されており、注意の計算複雑性とデータ空腹トレーニングが主な制約となっている。 これらの問題に対処するため,我々はビデオスウィントランスフォーマの使用と専用の拡張スキームを提案する。 さらに,エンコーダ側では徐々に空間的縮小を行い,デコーダ上ではクロスアテンションを行う。 提案手法はウェザー4Cast2021気象予報挑戦データで検証され,時間ごとの気象製品系列から将来のフレーム(4時間)を8時間先まで予測する必要がある。 データセットは0-1に正規化され、さまざまなデータセットにまたがる評価メトリクスの使用が容易になった。 モデルは、トレーニングデータを設けた場合のMSEスコア0.4750と、トレーニングデータを使用しない移行学習中の0.4420との結果である。

Earth Observatory is a growing research area that can capitalize on the powers of AI for short time forecasting, a Now-casting scenario. In this work, we tackle the challenge of weather forecasting using a video transformer network. Vision transformer architectures have been explored in various applications, with major constraints being the computational complexity of Attention and the data hungry training. To address these issues, we propose the use of Video Swin-Transformer, coupled with a dedicated augmentation scheme. Moreover, we employ gradual spatial reduction on the encoder side and cross-attention on the decoder. The proposed approach is tested on the Weather4Cast2021 weather forecasting challenge data, which requires the prediction of 8 hours ahead future frames (4 per hour) from an hourly weather product sequence. The dataset was normalized to 0-1 to facilitate using the evaluation metrics across different datasets. The model results in an MSE score of 0.4750 when provided with training data, and 0.4420 during transfer learning without using training data, respectively.
翻訳日:2022-08-03 13:13:45 公開日:2022-08-02
# 超高解像度画像のセマンティックセグメンテーションに対するロバストな形態的アプローチ

A Robust Morphological Approach for Semantic Segmentation of Very High Resolution Images ( http://arxiv.org/abs/2208.01254v1 )

ライセンス: Link先を確認
Siddharth Saravanan, Aditya Challa, Sravan Danda(参考訳) 画像のセマンティックセグメンテーションのための最先端の手法には、計算集約型ニューラルネットワークアーキテクチャが含まれる。 これらの手法の多くは、メモリや他の計算問題による高解像度画像分割には適応できない。 文学における典型的なアプローチは、低解像度画像からグローバル情報と高解像度画像からのローカル情報とを融合できるニューラルネットワークアーキテクチャの設計である。 しかし、高解像度画像を処理するために設計されたアーキテクチャは、必要以上に複雑であり、調整が難しい多くのハイパーパラメータが伴う。 また、これらのアーキテクチャのほとんどは、高解像度画像の基底真理アノテーションを必要とするため、入手は困難である。 本稿では,既存のセマンティクスセグメンテーションアルゴリズムを高分解能画像にシームレスに拡張可能な,数学的形態的(mm)演算子に基づくロバストパイプラインを開発した。 提案手法では,高解像度画像の真理アノテーションは不要である。 低解像度画像からの情報を効率よく利用し、高解像度画像の勾配情報を利用する。 従来の形態的演算子を用いて低解像度画像上の推論ラベルから高品質な種子を取得し、ランダムウォーカーを用いて種子ラベルを伝播させ、境界線のセマンティックラベルを洗練させる。 本手法により得られた意味セグメンテーションの結果は,高分解能画像上で既存の最先端アルゴリズムを上回った。 パイプラインで使用されるハイパーパラメータに対するアプローチの堅牢性を実証的に証明します。 さらに,パイプラインが適用可能ないくつかの必要条件を特徴付けるとともに,提案手法の詳細な分析を行う。

State-of-the-art methods for semantic segmentation of images involve computationally intensive neural network architectures. Most of these methods are not adaptable to high-resolution image segmentation due to memory and other computational issues. Typical approaches in literature involve design of neural network architectures that can fuse global information from low-resolution images and local information from the high-resolution counterparts. However, architectures designed for processing high resolution images are unnecessarily complex and involve a lot of hyper parameters that can be difficult to tune. Also, most of these architectures require ground truth annotations of the high resolution images to train, which can be hard to obtain. In this article, we develop a robust pipeline based on mathematical morphological (MM) operators that can seamlessly extend any existing semantic segmentation algorithm to high resolution images. Our method does not require the ground truth annotations of the high resolution images. It is based on efficiently utilizing information from the low-resolution counterparts, and gradient information on the high-resolution images. We obtain high quality seeds from the inferred labels on low-resolution images using traditional morphological operators and propagate seed labels using a random walker to refine the semantic labels at the boundaries. We show that the semantic segmentation results obtained by our method beat the existing state-of-the-art algorithms on high-resolution images. We empirically prove the robustness of our approach to the hyper parameters used in our pipeline. Further, we characterize some necessary conditions under which our pipeline is applicable and provide an in-depth analysis of the proposed approach.
翻訳日:2022-08-03 13:13:25 公開日:2022-08-02
# 貫通孔部品挿入のための手位置推定とピン検査

In-Hand Pose Estimation and Pin Inspection for Insertion of Through-Hole Components ( http://arxiv.org/abs/2208.01284v1 )

ライセンス: Link先を確認
Frederik Hagelskjaer and Dirk Kraft(参考訳) 貫通孔コンポーネントの挿入は難しい作業である。 穴の許容範囲が非常に小さいため、挿入の小さな誤差が失敗に繋がる。 これらの障害はコンポーネントを損傷し、回復のために手作業による介入が必要になる。 誤差は不正確な物体のつかみと曲がったピンの両方から生じる。 したがって、システムはオブジェクトの位置を正確に決定し、曲がったピンで部品を拒絶することが重要である。 オブジェクト固有の制約を利用することで、テンプレートマッチングを用いたメソッドを把握し、非常に正確なポーズ推定を得ることができる。 ピンチェックの方法も実装され、比較され、成功した方法が示される。 セットアップは自動的に行われ、2つの新しいコントリビューションがある。 ピンの深層学習セグメンテーションを行い、シミュレーションにより検査ポーズを求める。 そして、検査ポーズとセグメントピンから、ポーズ推定用テンプレートとピンチェックを生成する。 ディープラーニング手法を訓練するために、セグメント化されたスルーホールコンポーネントのデータセットを作成する。 このネットワークはテストセット上で97.3パーセントの精度を示す。 ピンセグメンテーションネットワークは挿入CADモデルでもテストされ、ピンのセグメンテーションに成功した。 完全なシステムは3つの異なるオブジェクトでテストされ、実験によってシステムがすべてのオブジェクトをうまく挿入できることが示されている。 両手の把持誤差を補正し、曲がったピンで物体を拒絶する。

The insertion of through-hole components is a difficult task. As the tolerances of the holes are very small, minor errors in the insertion will result in failures. These failures can damage components and will require manual intervention for recovery. Errors can occur both from imprecise object grasps and bent pins. Therefore, it is important that a system can accurately determine the object's position and reject components with bent pins. By utilizing the constraints inherent in the object grasp a method using template matching is able to obtain very precise pose estimates. Methods for pin-checking are also implemented, compared, and a successful method is shown. The set-up is performed automatically, with two novel contributions. A deep learning segmentation of the pins is performed and the inspection pose is found by simulation. From the inspection pose and the segmented pins, the templates for pose estimation and pin check are then generated. To train the deep learning method a dataset of segmented through-hole components is created. The network shows a 97.3 % accuracy on the test set. The pin-segmentation network is also tested on the insertion CAD models and successfully segment the pins. The complete system is tested on three different objects, and experiments show that the system is able to insert all objects successfully. Both by correcting in-hand grasp errors and rejecting objects with bent pins.
翻訳日:2022-08-03 13:13:02 公開日:2022-08-02
# 6G無線ネットワークにおける知的信頼管理のための生成的逆学習

Generative Adversarial Learning for Intelligent Trust Management in 6G Wireless Networks ( http://arxiv.org/abs/2208.01221v1 )

ライセンス: Link先を確認
Liu Yang, Yun Li, Simon X. Yang, Yinzhi Lu, Tan Guo, Keping Yu(参考訳) 6世代(Emerging six generation, 6G)は異種無線ネットワークの統合であり、任意のネットワークをシームレスにサポートすることができる。 しかし、モバイルユーザーの期待に応えるために6gは高い信頼性を提供するべきだ。 人工知能(AI)は6Gで最も重要なコンポーネントの一つと考えられている。 そして、AIベースの信頼管理は信頼できるサービスを提供するための有望なパラダイムです。 本稿では,6g無線ネットワークに対して,学習可能な信頼管理手法を提案する。 一般的なAIベースの信頼管理スキームをまずレビューし、さらに異質でインテリジェントな6Gアーキテクチャを導入する。 次に、aiと信頼管理の統合によって、インテリジェンスとセキュリティを最適化する。 最後に,aiベースの信頼管理手法を適用し,信頼性の高いリアルタイム通信を実現する。 シミュレーション結果は、ネットワークセキュリティとサービス品質の保証において優れた性能を示している。

Emerging six generation (6G) is the integration of heterogeneous wireless networks, which can seamlessly support anywhere and anytime networking. But high Quality-of-Trust should be offered by 6G to meet mobile user expectations. Artificial intelligence (AI) is considered as one of the most important components in 6G. Then AI-based trust management is a promising paradigm to provide trusted and reliable services. In this article, a generative adversarial learning-enabled trust management method is presented for 6G wireless networks. Some typical AI-based trust management schemes are first reviewed, and then a potential heterogeneous and intelligent 6G architecture is introduced. Next, the integration of AI and trust management is developed to optimize the intelligence and security. Finally, the presented AI-based trust management method is applied to secure clustering to achieve reliable and real-time communications. Simulation results have demonstrated its excellent performance in guaranteeing network security and service quality.
翻訳日:2022-08-03 13:09:23 公開日:2022-08-02
# WAT2022におけるサイロNLPの参加

Silo NLP's Participation at WAT2022 ( http://arxiv.org/abs/2208.01296v1 )

ライセンス: Link先を確認
Shantipriya Parida, Subhadarshi Panda, Stig-Arne Gr\"onroos, Mark Granroth-Wilding, Mika Koistinen(参考訳) 本稿では,アジア翻訳ワークショップ(WAT2022)に提出された「シロNLP」のシステム記述について述べる。 我々は,indic multimodal tasks (indic multimodal tasks, english->hindi, english->malayalam, english->bengali multimodal translation) に参加した。 テキストのみの翻訳では、スクラッチからTransformerをトレーニングし、mBART-50モデルを微調整しました。 マルチモーダル翻訳では,同じmBARTアーキテクチャを用いて画像からオブジェクトタグを抽出し,テキストシーケンスに連結した視覚的特徴として利用した。 提案課題は,英語>ヒンディー語多モーダル翻訳(評価試験),英語>マラヤラム語文のみ,多モーダル翻訳(評価試験),英語>ベンガル語多モーダル翻訳(カオス試験),英語>ベンガル語文のみの翻訳(評価試験)など多岐にわたる。

This paper provides the system description of "Silo NLP's" submission to the Workshop on Asian Translation (WAT2022). We have participated in the Indic Multimodal tasks (English->Hindi, English->Malayalam, and English->Bengali Multimodal Translation). For text-only translation, we trained Transformers from scratch and fine-tuned mBART-50 models. For multimodal translation, we used the same mBART architecture and extracted object tags from the images to use as visual features concatenated with the text sequence. Our submission tops many tasks including English->Hindi multimodal translation (evaluation test), English->Malayalam text-only and multimodal translation (evaluation test), English->Bengali multimodal translation (challenge test), and English->Bengali text-only translation (evaluation test).
翻訳日:2022-08-03 13:08:54 公開日:2022-08-02
# 答えるべきか 答えないのか? Span-based Contrastive Learningによる機械読解モデルの改善

To Answer or Not to Answer? Improving Machine Reading Comprehension Model with Span-based Contrastive Learning ( http://arxiv.org/abs/2208.01299v1 )

ライセンス: Link先を確認
Yunjie Ji, Liangyu Chen, Chenxiao Dou, Baochang Ma, Xiangang Li(参考訳) 不可解な質問による機械読解理解は難解なNLP課題であり、問答から答えられない質問に挑戦する。 微妙なリテラルな変化は答え可能な質問を理解できないことが多いが、ほとんどのmrcモデルはそのような変化を認識できない。 この問題に対処するため,本稿では,解答可能な質問と解答不可能な質問とを,回答スパンレベルで明示的に対比するスパンサティブ学習法(spanCL)を提案する。 spanclでは、mrcモデルはわずかなリテラルの違いから重要な意味変化を認識せざるを得ない。 SQuAD 2.0データセットの実験では、spanceCLはベースラインを大幅に改善し、0.86-2.14絶対EMの改善をもたらす。 さらなる実験により、spanclは生成された質問を効果的に利用する方法であることが示されている。

Machine Reading Comprehension with Unanswerable Questions is a difficult NLP task, challenged by the questions which can not be answered from passages. It is observed that subtle literal changes often make an answerable question unanswerable, however, most MRC models fail to recognize such changes. To address this problem, in this paper, we propose a span-based method of Contrastive Learning (spanCL) which explicitly contrast answerable questions with their answerable and unanswerable counterparts at the answer span level. With spanCL, MRC models are forced to perceive crucial semantic changes from slight literal differences. Experiments on SQuAD 2.0 dataset show that spanCL can improve baselines significantly, yielding 0.86-2.14 absolute EM improvements. Additional experiments also show that spanCL is an effective way to utilize generated questions.
翻訳日:2022-08-03 13:08:37 公開日:2022-08-02
# beike nlp at semeval-2022 task 4: prompt-based paragraph classification for patronizing and condescending language detection

BEIKE NLP at SemEval-2022 Task 4: Prompt-Based Paragraph Classification for Patronizing and Condescending Language Detection ( http://arxiv.org/abs/2208.01312v1 )

ライセンス: Link先を確認
Yong Deng, Chenxiao Dou, Liangyu Chen, Deqiang Miao, Xianghui Sun, Baochang Ma, Xiangang Li(参考訳) PCL検出タスクは, メディアの脆弱なコミュニティを補完する言語を識別・分類することを目的としており, 段落分類の他のNLPタスクと比較すると, PCL検出タスクで提示される負の言語は一般的に暗黙的かつ微妙に認識され, 一般的なテキスト分類のアプローチを失望させる。 本稿では,SemEval-2022タスク4におけるPCL検出問題を対象として,段落分類に基づく即時学習の力を活用したチームの解法について紹介する。 タスクを適切なクローゼプロンプトとして再構成し、事前訓練されたマスケッド言語モデルを用いてクローゼスロットを埋める。 2進分類と複数ラベル分類の2つのサブタスクに対して、タスク固有のプロンプトのマスク付きラベル語を予測するためにDeBERTaモデルを採用し、微調整する。 評価データセットでは,2進分類では,f1-scoreが 0.6406 となり,マルチラベル分類では macro-f1-score が 0.4689 である。

PCL detection task is aimed at identifying and categorizing language that is patronizing or condescending towards vulnerable communities in the general media.Compared to other NLP tasks of paragraph classification, the negative language presented in the PCL detection task is usually more implicit and subtle to be recognized, making the performance of common text-classification approaches disappointed. Targeting the PCL detection problem in SemEval-2022 Task 4, in this paper, we give an introduction to our team's solution, which exploits the power of prompt-based learning on paragraph classification. We reformulate the task as an appropriate cloze prompt and use pre-trained Masked Language Models to fill the cloze slot. For the two subtasks, binary classification and multi-label classification, DeBERTa model is adopted and fine-tuned to predict masked label words of task-specific prompts. On the evaluation dataset, for binary classification, our approach achieves an F1-score of 0.6406; for multi-label classification, our approach achieves an macro-F1-score of 0.4689 and ranks first in the leaderboard.
翻訳日:2022-08-03 13:08:22 公開日:2022-08-02
# PyABSA: アスペクトベースの知覚分析のためのオープンフレームワーク

PyABSA: Open Framework for Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2208.01368v1 )

ライセンス: Link先を確認
Heng Yang and Ke Li(参考訳) 近年,アスペクトベース感情分析(ABSA)が主流となっている。 しかし、現在のABSA研究に統一されたフレームワークがないため、異なるモデルのパフォーマンスを公平に比較することは困難である。 そこで我々はPYABSAというオープンソースのABSAフレームワークを開発した。 さらに、以前の取り組みは、通常、前駆的なアスペクト項抽出(ASC)サブタスクを無視し、アスペクト感性分類(ATE)サブタスクにフォーカスする。 PYABSAはアスペクト項抽出、アスペクト感性分類、テキスト分類の機能を備えており、ABSAのサブタスクはモジュラーアーキテクチャのためにPYABSAに適応することができる。 ABSAアプリケーションを容易にするために、PYABSAseamlessは、ABSAサービスのデプロイに役立つ多言語モデリング、自動データセットアノテーションなどを統合する。 ASCとATEでは、PYABSAは最大33と7のビルトインモデルを提供し、全てのモデルは迅速なトレーニングとインスタント推論を提供する。 PYABSAには、アプリケーションと研究のための21の強化ABSAデータセットから180K以上のABSAインスタンスが含まれている。 PyABSAはhttps://github.com/yangheng95/PyABSAで利用可能である。

Aspect-based sentiment analysis (ABSA) has become a prevalent task in recent years. However, the absence of a unified framework in the present ABSA research makes it challenging to compare different models' performance fairly. Therefore, we created an open-source ABSA framework, namely PYABSA. Besides, previous efforts usually neglect the precursor aspect term extraction (ASC) subtask and focus on the aspect sentiment classification (ATE) subtask. Compared to previous works, PYABSA includes the features of aspect term extraction, aspect sentiment classification, and text classification, while multiple ABSA subtasks can be adapted to PYABSA owing to its modular architecture. To facilitate ABSA applications, PYABSAseamless integrates multilingual modelling, automated dataset annotation, etc., which are helpful in deploying ABSA services. In ASC and ATE, PYABSA provides up to 33 and 7 built-in models, respectively, while all the models provide quick training and instant inference. Besides, PYABSA contains 180K+ ABSA instances from 21 augmented ABSA datasets for applications and studies. PyABSA is available at https://github.com/yangheng95/PyABSA
翻訳日:2022-08-03 13:07:55 公開日:2022-08-02
# 単語間の関係に着目したペルシア語用マルチモジュールg2pコンバータ

Multi-Module G2P Converter for Persian Focusing on Relations between Words ( http://arxiv.org/abs/2208.01371v1 )

ライセンス: Link先を確認
Mahdi Rezaei, Negar Nayeri, Saeed Farzi, Hossein Sameti(参考訳) 本稿では,ペルシア語のG2P変換におけるエンドツーエンドおよびマルチモジュールフレームワークの適用について検討する。 その結果、提案するマルチモジュールG2Pシステムは、精度と速度でエンドツーエンドシステムより優れていることが示された。 システムは、我々のルックアップテーブルとして発音辞書と、GRUとTransformerアーキテクチャを用いて作成されたペルシア語でホモグラフ、OOV、ezafeを扱う別のモデルで構成されている。 このシステムは、単語レベルよりもシーケンスレベルであり、前処理を必要とせずに、ホモグラフの曖昧さやezafe認識に必要な単語(クロスワード情報)の非記述関係を効果的に捉えることができる。 評価の結果, 単語レベルの精度は94.48%であり, ペルシャのG2Pシステムよりも優れていた。

In this paper, we investigate the application of end-to-end and multi-module frameworks for G2P conversion for the Persian language. The results demonstrate that our proposed multi-module G2P system outperforms our end-to-end systems in terms of accuracy and speed. The system consists of a pronunciation dictionary as our look-up table, along with separate models to handle homographs, OOVs and ezafe in Persian created using GRU and Transformer architectures. The system is sequence-level rather than word-level, which allows it to effectively capture the unwritten relations between words (cross-word information) necessary for homograph disambiguation and ezafe recognition without the need for any pre-processing. After evaluation, our system achieved a 94.48% word-level accuracy, outperforming the previous G2P systems for Persian.
翻訳日:2022-08-03 13:07:37 公開日:2022-08-02
# 製造業におけるエネルギー持続可能性向上のためのMBSE分析

MBSE analysis for energy sustainability improvement in manufacturing industry ( http://arxiv.org/abs/2208.01514v1 )

ライセンス: Link先を確認
Romain Delabeye (QUARTZ ), Olivia Penas (QUARTZ ), Martin Ghienne (ISAE-Supm\'eca), Arkadiusz Kosecki (IEMN), Jean-Luc Dion (LISMMA)(参考訳) 産業4.0システムの複雑さが増すにつれて、エネルギー持続可能性を改善するために植物エネルギー管理システムが同様に複雑になる。 本稿では, モデルに基づくシステム工学解析に基づいて, 産業用自律型エネルギー管理システムの総合的な開発を行うための一般的なアプローチを提案する。 このエネルギ管理システム(ems)は、製造システムのエネルギ持続可能性の監視と制御により改善するために、評価、予測、行動する能力を継続的に改善することができる。 このアプローチは System Modeling Language (SysML) で実装された。

With the ever increasing complexity of Industry 4.0 systems, plant energy management systems developed to improve energy sustainability become equally complex. Based on a Model-Based Systems Engineering analysis, this paper aims to provide a general approach to perform holistic development of an autonomous energy management system for manufacturing industries. This Energy Management System (EMS) will be capable of continuously improving its ability to assess, predict, and act, in order to improve by monitoring and controlling the energy sustainability of manufacturing systems. The approach was implemented with the System Modeling Language (SysML).
翻訳日:2022-08-03 13:07:22 公開日:2022-08-02
# スペースマーキングにおける損失

Lost in Space Marking ( http://arxiv.org/abs/2208.01561v1 )

ライセンス: Link先を確認
Cassandra L. Jacobs and Yuval Pinter(参考訳) 我々は、サブワードトークンライザのトレーニングの初期に行われた決定、すなわち、それが特別なマークを持つ単語初期トークンであるべきか、または単語最終トークンであるべきかを考察する。 効率と凝集の面面レベルでの考察と形態的カバレッジに基づき,事前学習した英文で訓練したUnigram LMトークンは,単語初期トークンをマークすることよりも,単語末のマーク付けによる生テキストの利点をトレーニングした方がよいことがわかった。 我々の発見はドメインにまたがって一般化する。

We look at a decision taken early in training a subword tokenizer, namely whether it should be the word-initial token that carries a special mark, or the word-final one. Based on surface-level considerations of efficiency and cohesion, as well as morphological coverage, we find that a Unigram LM tokenizer trained on pre-tokenized English text is better off marking the word-initial token, while one trained on raw text benefits from marking word ends. Our findings generalize across domains.
翻訳日:2022-08-03 13:07:14 公開日:2022-08-02
# ferret: トランスフォーマーの明示的なベンチマークを行うフレームワーク

ferret: a Framework for Benchmarking Explainers on Transformers ( http://arxiv.org/abs/2208.01575v1 )

ライセンス: Link先を確認
Giuseppe Attanasio, Eliana Pastor, Chiara Di Bonaventura, Debora Nozza(参考訳) 多くの解釈ツールにより、実践者や研究者は自然言語処理システムを説明することができる。 しかし、それぞれのツールは異なる構成を必要とし、異なる形式の説明を提供し、それらを評価し比較する可能性を妨げている。 原則化された統一評価ベンチマークは、ユーザーを中央の質問を通して導く:私のユースケースに対して、どの説明方法の方がより信頼できるのか? 我々は、Hugging Face Hubと統合されたTransformerベースのモデルを説明するために、使いやすく拡張可能なPythonライブラリであるferretを紹介した。 統一されたベンチマークスイートを提供し、あらゆるテキストや解釈可能性コーパスの幅広い最先端の説明をテストし比較する。 さらにferletは、新しい説明方法、データセット、評価メトリクスの導入を促進するために、便利なプログラミング抽象化を提供する。

Many interpretability tools allow practitioners and researchers to explain Natural Language Processing systems. However, each tool requires different configurations and provides explanations in different forms, hindering the possibility of assessing and comparing them. A principled, unified evaluation benchmark will guide the users through the central question: which explanation method is more reliable for my use case? We introduce ferret, an easy-to-use, extensible Python library to explain Transformer-based models integrated with the Hugging Face Hub. It offers a unified benchmarking suite to test and compare a wide range of state-of-the-art explainers on any text or interpretability corpora. In addition, ferret provides convenient programming abstractions to foster the introduction of new explanation methods, datasets, or evaluation metrics.
翻訳日:2022-08-03 13:07:03 公開日:2022-08-02
# 合成電子健康記録生成モデルの多面的ベンチマーク

A Multifaceted Benchmarking of Synthetic Electronic Health Record Generation Models ( http://arxiv.org/abs/2208.01230v1 )

ライセンス: Link先を確認
Chao Yan, Yao Yan, Zhiyu Wan, Ziqi Zhang, Larsson Omberg, Justin Guinney, Sean D. Mooney, Bradley A. Malin(参考訳) 合成健康データは、バイオメディカル研究と革新的な医療アプリケーションの開発を支援するためにデータを共有する際のプライバシー上の懸念を軽減する可能性がある。 機械学習に基づくデータ生成の現代的アプローチ、特にGAN(Generative Adversarial Network)手法は進化を続け、顕著な可能性を示している。 しかし、メソッドが出現し、どのユースケースに最も適しているかを判断するときに、メソッドをベンチマークする体系的なアセスメントフレームワークが欠如しています。 本研究では、実用性およびプライバシの指標に関して、合成健康データの重要な特性を評価するための一般化可能なベンチマークフレームワークを提案する。 本研究では,電子健康記録(EHR)データの合成データ生成手法を2つの大学術機関から評価するための枠組みを適用した。 その結果、合成ERHデータを共有するためのユーティリティプライバシトレードオフが存在することが明らかになった。 さらに,各ユースケースのすべての基準において,どの手法が最良であるかは明らかであり,なぜ合成データ生成手法を文脈で評価する必要があるのかを明らかにした。

Synthetic health data have the potential to mitigate privacy concerns when sharing data to support biomedical research and the development of innovative healthcare applications. Modern approaches for data generation based on machine learning, generative adversarial networks (GAN) methods in particular, continue to evolve and demonstrate remarkable potential. Yet there is a lack of a systematic assessment framework to benchmark methods as they emerge and determine which methods are most appropriate for which use cases. In this work, we introduce a generalizable benchmarking framework to appraise key characteristics of synthetic health data with respect to utility and privacy metrics. We apply the framework to evaluate synthetic data generation methods for electronic health records (EHRs) data from two large academic medical centers with respect to several use cases. The results illustrate that there is a utility-privacy tradeoff for sharing synthetic EHR data. The results further indicate that no method is unequivocally the best on all criteria in each use case, which makes it evident why synthetic data generation methods need to be assessed in context.
翻訳日:2022-08-03 13:04:13 公開日:2022-08-02
# 百万次元におけるベイズ変数の選択

Bayesian Variable Selection in a Million Dimensions ( http://arxiv.org/abs/2208.01180v1 )

ライセンス: Link先を確認
Martin Jankowiak(参考訳) ベイズ変数選択は、事前情報と不確実性を考慮した変数選択の原則的方法を提供するため、データ解析の強力なツールである。 しかし、ベイズ変数の選択の広範な採用は計算上の困難、特に多くの共変量 p や非共役確率を持つ難しい状況によって妨げられている。 さらに,この手法が,生物学,生態学,経済学などの分野で広く普及しているカウントデータに対する一般化線形モデルにまで拡張可能であることを示す。 特に,二項回帰および負二項回帰における変数選択のための効率的なアルゴリズムを設計した。 実験では、癌やトウモロコシゲノムデータを含む方法の有効性を実証した。

Bayesian variable selection is a powerful tool for data analysis, as it offers a principled method for variable selection that accounts for prior information and uncertainty. However, wider adoption of Bayesian variable selection has been hampered by computational challenges, especially in difficult regimes with a large number of covariates P or non-conjugate likelihoods. To scale to the large P regime we introduce an efficient MCMC scheme whose cost per iteration is sublinear in P. In addition we show how this scheme can be extended to generalized linear models for count data, which are prevalent in biology, ecology, economics, and beyond. In particular we design efficient algorithms for variable selection in binomial and negative binomial regression, which includes logistic regression as a special case. In experiments we demonstrate the effectiveness of our methods, including on cancer and maize genomic data.
翻訳日:2022-08-03 13:03:45 公開日:2022-08-02
# GeoECG:ロバスト心電図予測のためのWasserstein測地摂動によるデータ拡張

GeoECG: Data Augmentation via Wasserstein Geodesic Perturbation for Robust Electrocardiogram Prediction ( http://arxiv.org/abs/2208.01220v1 )

ライセンス: Link先を確認
Jiacheng Zhu, Jielin Qiu, Zhuolin Yang, Douglas Weber, Michael A. Rosenberg, Emerson Liu, Bo Li, Ding Zhao(参考訳) 12誘導心電図(ECG)の自動解釈と解析にディープニューラルネットワークを適用することへの関心が高まっている。 機械学習手法の現在のパラダイムは、ラベル付きデータの量によって制限されることが多い。 この現象は、専門的な専門知識と人的労力の観点から、大規模なラベル付けに時間と費用がかかるという、臨床的に関連のあるデータにとって特に問題となる。 さらに、深層学習分類器は、例えば医療、臨床試験、保険請求の文脈で適用された場合、破滅的な結果をもたらす可能性のある敵の例や摂動に対して脆弱である可能性がある。 本稿では,心電図信号に基づく心疾患検出のロバスト性を向上させるために,生理学的にインスパイアされたデータ拡張法を提案する。 我々は,wasserstein空間における測地線に沿った他のクラスへのデータ分布を摂動させることにより,拡張サンプルを得る。 ドメイン固有の知識をよりよく活用するために,生理学的に決定された特徴に基づいてECG信号の差を認識する地上指標を設計する。 12個の心電図信号から学習し,心臓状態の5つのカテゴリを識別できる。 その結果,データ拡張法の有効性を反映し,精度とロバスト性が向上した。

There has been an increased interest in applying deep neural networks to automatically interpret and analyze the 12-lead electrocardiogram (ECG). The current paradigms with machine learning methods are often limited by the amount of labeled data. This phenomenon is particularly problematic for clinically-relevant data, where labeling at scale can be time-consuming and costly in terms of the specialized expertise and human effort required. Moreover, deep learning classifiers may be vulnerable to adversarial examples and perturbations, which could have catastrophic consequences, for example, when applied in the context of medical treatment, clinical trials, or insurance claims. In this paper, we propose a physiologically-inspired data augmentation method to improve performance and increase the robustness of heart disease detection based on ECG signals. We obtain augmented samples by perturbing the data distribution towards other classes along the geodesic in Wasserstein space. To better utilize domain-specific knowledge, we design a ground metric that recognizes the difference between ECG signals based on physiologically determined features. Learning from 12-lead ECG signals, our model is able to distinguish five categories of cardiac conditions. Our results demonstrate improvements in accuracy and robustness, reflecting the effectiveness of our data augmentation method.
翻訳日:2022-08-03 13:03:31 公開日:2022-08-02
# 高次元データに対するTSNEアルゴリズムに基づくクラスタ重み付きモデル

Cluster Weighted Model Based on TSNE algorithm for High-Dimensional Data ( http://arxiv.org/abs/2208.01579v1 )

ライセンス: Link先を確認
Kehinde Olobatuyi(参考訳) 多くの機械学習モデルと同様に、クラスタ重み付けモデル(CWM)の精度と速度は高次元データによって妨げられるため、従来は「次元のコース」が混合モデルに与える影響を減らすための擬似手法が研究されていた。 本稿では,クラスタ重み付きモデル (CWM) の背景研究について概説する。 さらに,超高次元データの存在下で混合モデルが成長するには,分岐法が不十分であることを示す。 本稿では、"FlexCWM" Rパッケージのデフォルト値を用いて、位置パラメータの初期値を選択することで、隠れたコンポーネントを検出するヒューリスティックについて論じる。 我々は、高次元空間における擬似CWMを強化するために、TSNE(T-distributed stochastic neighbor embedded)と呼ばれる次元還元手法を導入する。 もともと、CWMは回帰に適していたが、分類の目的では、全てのマルチクラス変数は対数的に雑音で変換される。 モデルのパラメータは期待最大化アルゴリズムによって得られる。 本手法の有効性を,異なる分野の実際のデータセットを用いて示す。

Similar to many Machine Learning models, both accuracy and speed of the Cluster weighted models (CWMs) can be hampered by high-dimensional data, leading to previous works on a parsimonious technique to reduce the effect of "Curse of dimensionality" on mixture models. In this work, we review the background study of the cluster weighted models (CWMs). We further show that parsimonious technique is not sufficient for mixture models to thrive in the presence of huge high-dimensional data. We discuss a heuristic for detecting the hidden components by choosing the initial values of location parameters using the default values in the "FlexCWM" R package. We introduce a dimensionality reduction technique called T-distributed stochastic neighbor embedding (TSNE) to enhance the parsimonious CWMs in high-dimensional space. Originally, CWMs are suited for regression but for classification purposes, all multi-class variables are transformed logarithmically with some noise. The parameters of the model are obtained via expectation maximization algorithm. The effectiveness of the discussed technique is demonstrated using real data sets from different fields.
翻訳日:2022-08-03 13:02:50 公開日:2022-08-02
# itermiunet: 血管の自動分割のための軽量アーキテクチャ

IterMiUnet: A lightweight architecture for automatic blood vessel segmentation ( http://arxiv.org/abs/2208.01485v1 )

ライセンス: Link先を確認
Ashish Kumar, R.K. Agrawal, Leve Joseph(参考訳) 基底画像における血管の自動分画は、高血圧や糖尿病などの様々な全身疾患の特定に不可欠である網膜血管の状態を解析するのに役立ちます。 このセグメンテーションタスクにおけるディープラーニングベースのモデルの成功にもかかわらず、そのほとんどは高度にパラメータ化されており、実用的な応用に限られている。 本稿では,新しい軽量畳み込みに基づくセグメンテーションモデルであるitermiunetを提案する。 このモデルは、Iternetアーキテクチャの優れたセグメンテーション機能を利用するが、MiUnetモデルのエンコーダ・デコーダ構造を組み込むことで、その過度なパラメータ化特性を克服する。 したがって、新しいモデルはネットワークの奥行きと妥協することなくパラメータを削減し、深層モデルで抽象的な階層概念を学ぶ必要がある。 この軽量セグメンテーションモデルはトレーニングと推論の時間を短縮し、データが不足している医療領域において潜在的に有用である。 提案モデルは、DRIVE、STARE、CHASE-DB1の3つの公開データセットで評価された。 さらにクロストレーニングやレート間変動評価も行われている。 提案モデルは,多くの疾患の早期診断のためのツールとして活用される可能性が大きい。

The automatic segmentation of blood vessels in fundus images can help analyze the condition of retinal vasculature, which is crucial for identifying various systemic diseases like hypertension, diabetes, etc. Despite the success of Deep Learning-based models in this segmentation task, most of them are heavily parametrized and thus have limited use in practical applications. This paper proposes IterMiUnet, a new lightweight convolution-based segmentation model that requires significantly fewer parameters and yet delivers performance similar to existing models. The model makes use of the excellent segmentation capabilities of Iternet architecture but overcomes its heavily parametrized nature by incorporating the encoder-decoder structure of MiUnet model within it. Thus, the new model reduces parameters without any compromise with the network's depth, which is necessary to learn abstract hierarchical concepts in deep models. This lightweight segmentation model speeds up training and inference time and is potentially helpful in the medical domain where data is scarce and, therefore, heavily parametrized models tend to overfit. The proposed model was evaluated on three publicly available datasets: DRIVE, STARE, and CHASE-DB1. Further cross-training and inter-rater variability evaluations have also been performed. The proposed model has a lot of potential to be utilized as a tool for the early diagnosis of many diseases.
翻訳日:2022-08-03 13:02:11 公開日:2022-08-02
# 自己監督型単分子再構成の再構築--重要な設計決定

Deconstructing Self-Supervised Monocular Reconstruction: The Design Decisions that Matter ( http://arxiv.org/abs/2208.01489v1 )

ライセンス: Link先を確認
Jaime Spencer Martin, Chris Russell, Simon Hadfield, Richard Bowden(参考訳) 本稿では,自己監督型単眼深度推定への最先端の貢献を体系的に評価するための,オープンかつ包括的な枠組みを提案する。 これには事前トレーニング、バックボーン、アーキテクチャ設計の選択、損失関数が含まれる。 この分野における多くの論文は、アーキテクチャ設計または損失定式化において新規性を主張している。 しかし、単に履歴システムのバックボーンを更新するだけで25%の相対的な改善が得られ、既存のシステムの大半を上回ります。 この分野での論文の体系的な評価は単純ではなかった。 前回の論文でlike-with-likeを比較する必要性は、評価プロトコルの長年のエラーがこの分野でユビキタスであることを意味する。 多くの論文が特定のデータセットに最適化されただけでなく、データや評価基準のエラーにも最適化された可能性が高い。 この分野での今後の研究を支援するために,我々は,修正データと評価基準に対する代替設計決定の簡易な評価を可能にするモジュール型コードベースをリリースする。 我々は,16の最先端コントリビューションを再実装し,検証し,再評価し,自然と都市の両方で密集した屋外深度マップを含む新しいデータセット(SYNS-Patches)を導入する。 これにより、深度境界のような複雑な領域における情報メトリクスの計算が可能になる。

This paper presents an open and comprehensive framework to systematically evaluate state-of-the-art contributions to self-supervised monocular depth estimation. This includes pretraining, backbone, architectural design choices and loss functions. Many papers in this field claim novelty in either architecture design or loss formulation. However, simply updating the backbone of historical systems results in relative improvements of 25%, allowing them to outperform the majority of existing systems. A systematic evaluation of papers in this field was not straightforward. The need to compare like-with-like in previous papers means that longstanding errors in the evaluation protocol are ubiquitous in the field. It is likely that many papers were not only optimized for particular datasets, but also for errors in the data and evaluation criteria. To aid future research in this area, we release a modular codebase, allowing for easy evaluation of alternate design decisions against corrected data and evaluation criteria. We re-implement, validate and re-evaluate 16 state-of-the-art contributions and introduce a new dataset (SYNS-Patches) containing dense outdoor depth maps in a variety of both natural and urban scenes. This allows for the computation of informative metrics in complex regions such as depth boundaries.
翻訳日:2022-08-03 13:01:49 公開日:2022-08-02
# 正弦波アクティベーションネットワークを用いた多次元医用画像のロシー圧縮 : 評価研究

Lossy compression of multidimensional medical images using sinusoidal activation networks: an evaluation study ( http://arxiv.org/abs/2208.01602v1 )

ライセンス: Link先を確認
Matteo Mancini, Derek K. Jones, Marco Palombo(参考訳) 本研究では4次元拡散強調MRI(dMRI)に対する概念実証を用いて,周期的活性化機能を持つニューラルネットワークを用いて,大規模多次元医用画像データセットを確実に圧縮する方法を評価する。 医用画像のランドスケープでは、多次元MRIは基盤組織の微細構造に敏感かつ特異的なバイオマーカーを開発するための重要な研究領域である。 しかし、これらのデータの高次元性は、ストレージと共有能力と関連するコストの両方において問題となり、低次元空間で情報を表現できる適切なアルゴリズムが必要となる。 近年のディープラーニングの理論的発展は、周期的アクティベーション関数が画像の暗黙的なニューラル表現の強力なツールであり、2次元画像の圧縮に利用できることを示している。 本稿では,本手法を4次元画像に拡張し,正弦波アクティベーションネットワークのパラメータを用いて,任意の4次元dMRIデータセットを正確に表現できることを示し,標準のDEFLATEアルゴリズムの約10倍の速度でデータ圧縮を実現する。 その結果,提案手法は平均二乗誤差,ピーク信号-雑音比,構造類似度指数において,ReLUとTanhのアクティベーションパーセプトロンアーキテクチャよりも優れていた。 その後のテンソルと球面調和表現を用いた解析により、提案される損失圧縮は元のデータの特性を正確に再現し、ベンチマークjpeg2000の損失圧縮の約5倍から10倍の相対誤差を生じさせ、mp-pcaデノシングのような標準的な前処理ステップと類似していることが示されている。

In this work, we evaluate how neural networks with periodic activation functions can be leveraged to reliably compress large multidimensional medical image datasets, with proof-of-concept application to 4D diffusion-weighted MRI (dMRI). In the medical imaging landscape, multidimensional MRI is a key area of research for developing biomarkers that are both sensitive and specific to the underlying tissue microstructure. However, the high-dimensional nature of these data poses a challenge in terms of both storage and sharing capabilities and associated costs, requiring appropriate algorithms able to represent the information in a low-dimensional space. Recent theoretical developments in deep learning have shown how periodic activation functions are a powerful tool for implicit neural representation of images and can be used for compression of 2D images. Here we extend this approach to 4D images and show how any given 4D dMRI dataset can be accurately represented through the parameters of a sinusoidal activation network, achieving a data compression rate about 10 times higher than the standard DEFLATE algorithm. Our results show that the proposed approach outperforms benchmark ReLU and Tanh activation perceptron architectures in terms of mean squared error, peak signal-to-noise ratio and structural similarity index. Subsequent analyses using the tensor and spherical harmonics representations demonstrate that the proposed lossy compression reproduces accurately the characteristics of the original data, leading to relative errors about 5 to 10 times lower than the benchmark JPEG2000 lossy compression and similar to standard pre-processing steps such as MP-PCA denosing, suggesting a loss of information within the currently accepted levels for clinical application.
翻訳日:2022-08-03 13:01:29 公開日:2022-08-02
# 個別の意思決定スタイルの検出:チェスにおける行動スティロメトリーの探索

Detecting Individual Decision-Making Style: Exploring Behavioral Stylometry in Chess ( http://arxiv.org/abs/2208.01366v1 )

ライセンス: Link先を確認
Reid McIlroy-Young, Russell Wang, Siddhartha Sen, Jon Kleinberg, Ashton Anderson(参考訳) 複雑なドメインにおける人間の意思決定能力を超える機械学習モデルの出現は、人間と対話するaiシステムを構築する動きを開始した。 多くの構成要素がこの活動に不可欠であり、中心となるものは人間の行動のアルゴリズム的特徴付けである。 既存の研究の多くは人間の行動の集約に重点を置いているが、重要な長期的目標は個人に特化した行動モデルを開発することである。 この過程を定式化するために,行動スタイメトリーの課題について検討し,その課題は意思決定者のみから意思決定者を特定することである。 本稿では,チェスの文脈における行動スタイロメトリに対するトランスフォーマティブに基づくアプローチを提案する。 本手法は数発の分類フレームワークで動作し,100個のラベル付きゲームに対して98%の精度で数千人の候補選手の中からプレイヤーを正確に識別する。 アマチュアプレイを訓練した場合でも,アマチュア選手と世界クラスの選手の劇的な違いにもかかわらず,グランドマスター選手の分布外サンプルに一般化する。 最後に、チェスにおける人間のスタイルや行動データから個人を識別する強力な方法の倫理的影響について、より広く考察する。

The advent of machine learning models that surpass human decision-making ability in complex domains has initiated a movement towards building AI systems that interact with humans. Many building blocks are essential for this activity, with a central one being the algorithmic characterization of human behavior. While much of the existing work focuses on aggregate human behavior, an important long-range goal is to develop behavioral models that specialize to individual people and can differentiate among them. To formalize this process, we study the problem of behavioral stylometry, in which the task is to identify a decision-maker from their decisions alone. We present a transformer-based approach to behavioral stylometry in the context of chess, where one attempts to identify the player who played a set of games. Our method operates in a few-shot classification framework, and can correctly identify a player from among thousands of candidate players with 98% accuracy given only 100 labeled games. Even when trained on amateur play, our method generalises to out-of-distribution samples of Grandmaster players, despite the dramatic differences between amateur and world-class players. Finally, we consider more broadly what our resulting embeddings reveal about human style in chess, as well as the potential ethical implications of powerful methods for identifying individuals from behavioral data.
翻訳日:2022-08-03 12:58:37 公開日:2022-08-02
# CIPCaD-Bench:因果探索法ベンチマークのための連続産業プロセスデータセット

CIPCaD-Bench: Continuous Industrial Process datasets for benchmarking Causal Discovery methods ( http://arxiv.org/abs/2208.01529v1 )

ライセンス: Link先を確認
Giovanni Menegozzo, Diego Dall'Alba, Paolo Fiorini(参考訳) 因果関係は、断層調査を支援し、介入を行い、戦略的決定を下すために、製造プロセスにおいてよく検討される。 業界 4.0 はデータ駆動の因果発見(CD)を可能にするデータ量を増やした。 近年提案されているCD手法が増えていることを考えると、異なる手法の公正な比較と検証の基礎となるため、公開データセットに厳密なベンチマーク手順を導入する必要がある。 本研究は, 連続製造プロセスにおけるcdの公開データセットを2つ導入する。 最初のデータセットは、有名なテネシー・イーストマンシミュレータを使って断層検出とプロセス制御を行っている。 第2のデータセットは、超加工食品製造プラントから抽出され、植物の説明と複数の地上の真実を含む。 これらのデータセットは、異なるメトリクスに基づくベンチマーク手順を提案し、幅広いcdアルゴリズムに基づいて評価される。 この作業により、特定のターゲットアプリケーションに適した方法を選択することができる現実の環境でcdメソッドをテストすることができる。 データセットは以下のリンクで利用可能である。

Causal relationships are commonly examined in manufacturing processes to support faults investigations, perform interventions, and make strategic decisions. Industry 4.0 has made available an increasing amount of data that enable data-driven Causal Discovery (CD). Considering the growing number of recently proposed CD methods, it is necessary to introduce strict benchmarking procedures on publicly available datasets since they represent the foundation for a fair comparison and validation of different methods. This work introduces two novel public datasets for CD in continuous manufacturing processes. The first dataset employs the well-known Tennessee Eastman simulator for fault detection and process control. The second dataset is extracted from an ultra-processed food manufacturing plant, and it includes a description of the plant, as well as multiple ground truths. These datasets are used to propose a benchmarking procedure based on different metrics and evaluated on a wide selection of CD algorithms. This work allows testing CD methods in realistic conditions enabling the selection of the most suitable method for specific target applications. The datasets are available at the following link: https://github.com/giovanniMen
翻訳日:2022-08-03 12:58:15 公開日:2022-08-02
# クラスタ検証は有効なのか?

Are Cluster Validity Measures (In)valid? ( http://arxiv.org/abs/2208.01261v1 )

ライセンス: Link先を確認
Marek Gagolewski and Maciej Bartoszuk and Anna Cena(参考訳) データセットを分割すべきパーティション数を選択するために、内部クラスタの有効性尺度(calinski-harabasz、dun、davies-bouldinインデックスなど)が頻繁に使用される。 本稿では,これらの指標を教師なし学習活動において客観的関数として扱うとどうなるかを検討する。 シルエット指数に関して最適なグループ化は本当に意味があるのだろうか? 多くの(in)validityインデックスは、専門家の知識と非常によくマッチするクラスタリングを促進することが分かりました。 また, OWA演算子と近辺グラフ上に構築されたダン指数の, 形状によらず高い密度の部分空間をよりよく分離できるように, 新たな, 良好な性能を持つ変種を導入する。

Internal cluster validity measures (such as the Calinski-Harabasz, Dunn, or Davies-Bouldin indices) are frequently used for selecting the appropriate number of partitions a dataset should be split into. In this paper we consider what happens if we treat such indices as objective functions in unsupervised learning activities. Is the optimal grouping with regards to, say, the Silhouette index really meaningful? It turns out that many cluster (in)validity indices promote clusterings that match expert knowledge quite poorly. We also introduce a new, well-performing variant of the Dunn index that is built upon OWA operators and the near-neighbour graph so that subspaces of higher density, regardless of their shapes, can be separated from each other better.
翻訳日:2022-08-03 12:58:01 公開日:2022-08-02
# 生成逆ネットワークにおけるフーリエスペクトルの明示的利用

Explicit Use of Fourier Spectrum in Generative Adversarial Networks ( http://arxiv.org/abs/2208.01265v1 )

ライセンス: Link先を確認
Soroush Sheikh Gargar(参考訳) Generative Adversarial Networksは、ターゲット分布のデータセットのみで新しい画像を生成する上で、最先端の性能のため、研究者の注目を集めている。 真正画像のスペクトルと偽画像の間には相違があることが示されている。 フーリエ変換は単射写像であるため、モデルが元の分布を学習する上で重大な問題を持っていることは公正な結論である。 本稿では,現在のGANのアーキテクチャと数学的理論において,その欠点が考えられる理由について考察する。 そこで本研究では,実画像と偽画像のスペクトル間の差を低減させる新しいモデルを提案する。 そこで我々は,幾何学的深層学習の青写真を用いた周波数領域の新しいアーキテクチャを設計した。 そして、トレーニングプロセスにおいて、元のデータのフーリエ領域表現を主要な特徴として考慮し、生成した画像の品質改善を実験的に示す。

Generative Adversarial Networks have got the researchers' attention due to their state-of-the-art performance in generating new images with only a dataset of the target distribution. It has been shown that there is a dissimilarity between the spectrum of authentic images and fake ones. Since the Fourier transform is a bijective mapping, saying that the model has a significant problem in learning the original distribution is a fair conclusion. In this work, we investigate the possible reasons for the mentioned drawback in the architecture and mathematical theory of the current GANs. Then we propose a new model to reduce the discrepancies between the spectrum of the actual and fake images. To that end, we design a brand new architecture for the frequency domain using the blueprint of geometric deep learning. Then, we experimentally show promising improvements in the quality of the generated images by considering the Fourier domain representation of the original data as a principal feature in the training process.
翻訳日:2022-08-03 12:57:18 公開日:2022-08-02
# 正確さを予測することで何が学べるか?

What can we Learn by Predicting Accuracy? ( http://arxiv.org/abs/2208.01358v1 )

ライセンス: Link先を確認
Benjamin Chamand and Olivier Risser-Maroix(参考訳) 本稿では,「正確さを予測して何が学べるか?」という問いに答える。 実際、分類は機械学習で最も一般的なタスクの1つであり、この非微分可能な目的を最大化するために多くの損失関数が開発されている。 実験によって検証される前に、主に直観と理論によって導かれる損失関数設計に関する過去の研究とは異なり、我々はこの問題を逆の方法でアプローチすることを提案している。 このデータ駆動アプローチは、データから一般法則を発見するのに物理学で使われるものと似ている。 我々は記号回帰法を用いて線形分類器の精度と高い相関関係を持つ数学的表現を自動的に見つける。 260以上のデータセットで発見された公式はピアソン相関が0.96、r2が0.93である。 より興味深いことに、この公式は非常に説明可能であり、損失設計に関する様々な論文からの洞察を裏付けている。 この研究が、機械学習理論のより深い理解につながる新しいヒューリスティックスを求めて、新たな視点を開くことを期待している。

This paper seeks to answer the following question: "What can we learn by predicting accuracy?" Indeed, classification is one of the most popular task in machine learning and many loss functions have been developed to maximize this non-differentiable objective. Unlike past work on loss function design, which was mostly guided by intuition and theory before being validated by experimentation, here we propose to approach this problem in the opposite way : we seek to extract knowledge from experiments. This data-driven approach is similar to that used in physics to discover general laws from data. We used a symbolic regression method to automatically find a mathematical expression that is highly correlated with the accuracy of a linear classifier. The formula discovered on more than 260 datasets has a Pearson correlation of 0.96 and a r2 of 0.93. More interestingly, this formula is highly explainable and confirms insights from various previous papers on loss design. We hope this work will open new perspectives in the search for new heuristics leading to a deeper understanding of machine learning theory.
翻訳日:2022-08-03 12:57:04 公開日:2022-08-02
# 複数のテキスト情報と報告意図に基づくバグレポートの自動分類

Automatic Classification of Bug Reports Based on Multiple Text Information and Reports' Intention ( http://arxiv.org/abs/2208.01274v1 )

ライセンス: Link先を確認
Fanqi Meng, Xuesong Wang, Jingdong Wang and Peifang Wang(参考訳) ソフトウェアの規模と複雑さの急速な拡大に伴い、多くのバグレポートがバグトラッキングシステムに提出される。 欠陥修復をスピードアップするために、これらのレポートを適切な開発者に送信できるように、正確に分類する必要がある。 しかし,既存の分類手法では,バグレポートのテキスト情報のみを使用するため,性能が低下する。 そこで本研究では,バグレポートの自動分類手法を提案する。 イノベーションは、バグレポートを分類する際に、レポートのテキスト情報に加えて、レポートの意図(提案や説明など)も考慮し、分類の性能を向上させることである。 まず4つのエコシステム(Apache、Eclipse、Gentoo、Mozilla)からバグレポートを収集し、手動でアノテートして実験的なデータセットを構築します。 次に,自然言語処理技術を用いてデータを前処理する。 BERTとTF-IDFは、目的と複数テキスト情報の特徴を抽出するために使用される。 最後に、これらの機能は分類器のトレーニングに使用される。 K-Nearest Neighbor, Naive Bayes, Logistic Regression, Support Vector Machine, Random Forestの5つの分類器による実験結果から,提案手法は性能が向上し,F-Measureは87.3%から95.5%に向上した。

With the rapid growth of software scale and complexity, a large number of bug reports are submitted to the bug tracking system. In order to speed up defect repair, these reports need to be accurately classified so that they can be sent to the appropriate developers. However, the existing classification methods only use the text information of the bug report, which leads to their low performance. To solve the above problems, this paper proposes a new automatic classification method for bug reports. The innovation is that when categorizing bug reports, in addition to using the text information of the report, the intention of the report (i.e. suggestion or explanation) is also considered, thereby improving the performance of the classification. First, we collect bug reports from four ecosystems (Apache, Eclipse, Gentoo, Mozilla) and manually annotate them to construct an experimental data set. Then, we use Natural Language Processing technology to preprocess the data. On this basis, BERT and TF-IDF are used to extract the features of the intention and the multiple text information. Finally, the features are used to train the classifiers. The experimental result on five classifiers (including K-Nearest Neighbor, Naive Bayes, Logistic Regression, Support Vector Machine, and Random Forest) show that our proposed method achieves better performance and its F-Measure achieves from 87.3% to 95.5%.
翻訳日:2022-08-03 12:56:48 公開日:2022-08-02
# 意識に基づく個人化フェデレーション学習による学生のパフォーマンス予測におけるバイアスの緩和

Mitigating Biases in Student Performance Prediction via Attention-Based Personalized Federated Learning ( http://arxiv.org/abs/2208.01182v1 )

ライセンス: Link先を確認
Yun-Wei Chu, Seyyedali Hosseinalipour, Elizabeth Tenorio, Laura Cruz, Kerrie Douglas, Andrew Lan, Christopher Brinton(参考訳) 従来の学習に基づく学生モデリングのアプローチは、データの可用性のバイアスにより、表現不足の学生グループにあまり一般化しない。 本稿では,人種や性別などの異なる集団に対する推定精度を最適化するオンライン学習活動から,学生のパフォーマンスを予測する手法を提案する。 近年のフェデレーション学習の基盤を基盤として,個々の学生サブグループのパーソナライズされたモデルは,サブグループの多様性を考慮したメタグレード更新を通じて,全学生モデルに集約されたグローバルモデルから導出される。 学生活動のより良い表現を学習するために,学生行動の多様性(講義ビデオの訪問やフォーラムへの参加など)を活用する自己指導型行動事前学習手法を用いて,モデル集約段階におけるニューラルネットワークの注意機構を含むアプローチを強化する。 オンラインコースから得られた実世界の3つのデータセットの実験を通して,本手法は,すべてのサブグループの学習結果を予測する上で,既存のモデリングベースラインよりも大幅に改善されていることを示す。 生徒の埋め込みを視覚的に分析した結果、パーソナライズ手法によって、異なるサブグループ内の異なるアクティビティパターンが実際に識別され、ベースラインと比較して強力な推論能力と一致していることが確認された。

Traditional learning-based approaches to student modeling generalize poorly to underrepresented student groups due to biases in data availability. In this paper, we propose a methodology for predicting student performance from their online learning activities that optimizes inference accuracy over different demographic groups such as race and gender. Building upon recent foundations in federated learning, in our approach, personalized models for individual student subgroups are derived from a global model aggregated across all student models via meta-gradient updates that account for subgroup heterogeneity. To learn better representations of student activity, we augment our approach with a self-supervised behavioral pretraining methodology that leverages multiple modalities of student behavior (e.g., visits to lecture videos and participation on forums), and include a neural network attention mechanism in the model aggregation stage. Through experiments on three real-world datasets from online courses, we demonstrate that our approach obtains substantial improvements over existing student modeling baselines in predicting student learning outcomes for all subgroups. Visual analysis of the resulting student embeddings confirm that our personalization methodology indeed identifies different activity patterns within different subgroups, consistent with its stronger inference ability compared with the baselines.
翻訳日:2022-08-03 12:55:35 公開日:2022-08-02
# 多言語対話における多言語対応

Multilingual Coreference Resolution in Multiparty Dialogue ( http://arxiv.org/abs/2208.01307v1 )

ライセンス: Link先を確認
Boyuan Zheng, Patrick Xia, Mahsa Yarmohammadi, Benjamin Van Durme(参考訳) コリファレンス解決のための既存のマルチパーティ対話データセットが誕生し、多くの課題がまだ解決されていない。 そこで我々は,テレビの文字起こしに基づく大規模データセットMultilingual Multiparty Coref (MMC) を作成した。 複数の言語でゴールド品質の字幕が利用可能であるため、アノテーションプロジェクションを通じて他の言語(中国語とfarsi)でシルバーコリファレンスデータを作成するためのアノテーションの再利用を提案する。 金(英)データでは、市販のモデルはMCCでは比較的低性能であり、MCCは以前のデータセットよりも多人数のコア参照を幅広くカバーしていることを示している。 シルバーデータでは、データ拡張とゼロショットの言語間設定を効果的にシミュレートするスクラッチからのトレーニングの両方にそれを使うことに成功した。

Existing multiparty dialogue datasets for coreference resolution are nascent, and many challenges are still unaddressed. We create a large-scale dataset, Multilingual Multiparty Coref (MMC), for this task based on TV transcripts. Due to the availability of gold-quality subtitles in multiple languages, we propose reusing the annotations to create silver coreference data in other languages (Chinese and Farsi) via annotation projection. On the gold (English) data, off-the-shelf models perform relatively poorly on MMC, suggesting that MMC has broader coverage of multiparty coreference than prior datasets. On the silver data, we find success both using it for data augmentation and training from scratch, which effectively simulates the zero-shot cross-lingual setting.
翻訳日:2022-08-03 12:52:05 公開日:2022-08-02
# 共同学習に基づく医学文献からの因果関係抽出

Joint Learning-based Causal Relation Extraction from Biomedical Literature ( http://arxiv.org/abs/2208.01316v1 )

ライセンス: Link先を確認
Dongling Li, Pengchao Wu, Yuehu Dong, Jinghang Gu, Longhua Qian, Guodong Zhou(参考訳) 生物医学的実体の因果関係抽出は、生物医学的テキストマイニングにおいて、エンティティ関係とエンティティ関数の2つの種類の情報を含む最も複雑なタスクの1つである。 ひとつの実現可能なアプローチは、関係抽出と関数検出を2つの独立したサブタスクとして捉えることである。 しかし,この分離学習法は本質的な相関を無視し,不満足な性能をもたらす。 本稿では,エンティティ関係抽出とエンティティ関数検出を組み合わせた共同学習モデルを提案し,それらの共通性を活用し,相互関係を捉えることにより,生体内因果関係抽出の性能を向上させる。 一方,モデルトレーニング段階では,損失関数の異なる関数型が重み付けに割り当てられる。 具体的には、負の関数インスタンスに対するペナルティ係数が増大し、関数検出の精度が向上する。 The BioCreative-V Track 4 corpus の実験結果から,我々の共同学習モデルは,BEL文抽出においてそれぞれF1スコア58.4%,37.3%をステージ2およびステージ1評価で達成し,それぞれのモデルよりも優れていた。 これにより、我々の共同学習システムは、他のシステムと比較してステージ2における最先端のパフォーマンスに達することを示す。

Causal relation extraction of biomedical entities is one of the most complex tasks in biomedical text mining, which involves two kinds of information: entity relations and entity functions. One feasible approach is to take relation extraction and function detection as two independent sub-tasks. However, this separate learning method ignores the intrinsic correlation between them and leads to unsatisfactory performance. In this paper, we propose a joint learning model, which combines entity relation extraction and entity function detection to exploit their commonality and capture their inter-relationship, so as to improve the performance of biomedical causal relation extraction. Meanwhile, during the model training stage, different function types in the loss function are assigned different weights. Specifically, the penalty coefficient for negative function instances increases to effectively improve the precision of function detection. Experimental results on the BioCreative-V Track 4 corpus show that our joint learning model outperforms the separate models in BEL statement extraction, achieving the F1 scores of 58.4% and 37.3% on the test set in Stage 2 and Stage 1 evaluations, respectively. This demonstrates that our joint learning system reaches the state-of-the-art performance in Stage 2 compared with other systems.
翻訳日:2022-08-03 12:51:51 公開日:2022-08-02
# 硬質負の擬似生成を用いた説明木構築のためのアクティブエンテーメント符号化

Active entailment encoding for explanation tree construction using parsimonious generation of hard negatives ( http://arxiv.org/abs/2208.01376v1 )

ライセンス: Link先を確認
Alex Bogatu, Zili Zhou, D\'onal Landers, Andr\'e Freitas(参考訳) Entailment trees have been proposed to simulate the human reasoning process of explanation generation in the context of open--domain textual question answering. However, in practice, manually constructing these explanation trees proves a laborious process that requires active human involvement. Given the complexity of capturing the line of reasoning from question to the answer or from claim to premises, the issue arises of how to assist the user in efficiently constructing multi--level entailment trees given a large set of available facts. 本稿では,説明ツリー内の各中間ノードに対して,大きな候補リストから前提事実の肯定的かつ否定的な例をアノテートする必要がある。 そこで我々は, 正負の正負の正負のサンプルを持つ事前学習型トランスフォーマーモデルを反復的に微調整し, 意味的関係と説明的関係のエンコーディングのバランスをとることを目的とする。 実験により, 提案手法の有効性向上を実証し, 提案手法の有効性向上を実証し, 提案手法をいくつかの方法と比較した場合, 説明的前提選択の最大20倍の改善が得られた。

Entailment trees have been proposed to simulate the human reasoning process of explanation generation in the context of open--domain textual question answering. However, in practice, manually constructing these explanation trees proves a laborious process that requires active human involvement. Given the complexity of capturing the line of reasoning from question to the answer or from claim to premises, the issue arises of how to assist the user in efficiently constructing multi--level entailment trees given a large set of available facts. In this paper, we frame the construction of entailment trees as a sequence of active premise selection steps, i.e., for each intermediate node in an explanation tree, the expert needs to annotate positive and negative examples of premise facts from a large candidate list. We then iteratively fine--tune pre--trained Transformer models with the resulting positive and tightly controlled negative samples and aim to balance the encoding of semantic relationships and explanatory entailment relationships. Experimental evaluation confirms the measurable efficiency gains of the proposed active fine--tuning method in facilitating entailment trees construction: up to 20\% improvement in explanatory premise selection when compared against several alternatives.
翻訳日:2022-08-03 12:51:29 公開日:2022-08-02
# 説明可能な機械学習による言語間事実の解明

Unravelling Interlanguage Facts via Explainable Machine Learning ( http://arxiv.org/abs/2208.01468v1 )

ライセンス: Link先を確認
Barbara Berti, Andrea Esuli, Fabrizio Sebastiani(参考訳) ネイティブ言語識別(英語: native language identification、nli)は、テキストの著者のネイティブ言語を推測する分類器である(教師付き機械学習による)トレーニングのタスクである。 この課題は過去10年間で広範囲に研究され、長年にわたってNLIシステムの性能は着実に改善されてきた。 nliタスクの異なる側面、すなわち、機械学習アルゴリズムで訓練されたnli分類器の内部を分析することで、その分類決定の説明を得るために、言語現象が「話者の母国語を遠ざける」ことに関する洞察を得ることを最終的な目標としている。 我々は、NLIと(あまり研究されていない)相補的なタスク、すなわち、テキストがネイティブまたは非ネイティブな話者によって書かれたかどうかを推測するために、この視点を使用する。 英語学習者のエッセイのデータセットとソーシャルメディア投稿のデータセットの3つの異なるデータセットを用いて、どの言語特性(語彙的、形態学的、構文的、統計的)が、我々の2つの課題、すなわち、話者のL1の最も効果的な指標であるかを調査する。 また,2つのケーススタディ,1つはスペイン語,もう1つはイタリア語の英語学習者について,分類器がl1を同定する上で最も重要な特徴を個々に分析した。 全体としては、説明可能な機械学習の使用は、thにとって価値のあるツールであることを示している。

Native language identification (NLI) is the task of training (via supervised machine learning) a classifier that guesses the native language of the author of a text. This task has been extensively researched in the last decade, and the performance of NLI systems has steadily improved over the years. We focus on a different facet of the NLI task, i.e., that of analysing the internals of an NLI classifier trained by an \emph{explainable} machine learning algorithm, in order to obtain explanations of its classification decisions, with the ultimate goal of gaining insight into which linguistic phenomena ``give a speaker's native language away''. We use this perspective in order to tackle both NLI and a (much less researched) companion task, i.e., guessing whether a text has been written by a native or a non-native speaker. Using three datasets of different provenance (two datasets of English learners' essays and a dataset of social media posts), we investigate which kind of linguistic traits (lexical, morphological, syntactic, and statistical) are most effective for solving our two tasks, namely, are most indicative of a speaker's L1. We also present two case studies, one on Spanish and one on Italian learners of English, in which we analyse individual linguistic traits that the classifiers have singled out as most important for spotting these L1s. Overall, our study shows that the use of explainable machine learning can be a valuable tool for th
翻訳日:2022-08-03 12:51:08 公開日:2022-08-02
# 異なるトランスモデルを用いたCOVID-19フェイクニュース検出の比較検討

A Comparative Study on COVID-19 Fake News Detection Using Different Transformer Based Models ( http://arxiv.org/abs/2208.01355v1 )

ライセンス: Link先を確認
Sajib Kumar Saha Joy, Dibyo Fabian Dofadar, Riyo Hayat Khan, Md. Sabbir Ahmed, Rafeed Rahman(参考訳) ソーシャルネットワークの急速な進歩とインターネット利用の利便性により、ソーシャルメディアサイトにおける偽ニュースや噂の急増が加速した。 新型コロナウイルス(covid-19)の流行の中で、この誤解を招く情報は、人々の精神的・身体的生命を危険にさらすことで事態を悪化させている。 このような不正確さの拡散を制限するため、オンラインプラットフォームからの偽ニュースを特定することが、最初の第一歩となる。 本研究では、インターネットからCOVID-19の不正なニュースを検出するために、LSTMのないBERT、ALBERT、RoBERTa、BERT & ALBERTのハイブリッドといった5つのトランスフォーマーモデルを実装して比較分析を行った。 COVID-19 Fake News Datasetは、モデルのトレーニングとテストに使用されている。 これらのモデルの中で、RoBERTaモデルは実クラスと偽クラスの両方でF1スコアが0.98であることから、他のモデルよりも優れている。

The rapid advancement of social networks and the convenience of internet availability have accelerated the rampant spread of false news and rumors on social media sites. Amid the COVID 19 epidemic, this misleading information has aggravated the situation by putting peoples mental and physical lives in danger. To limit the spread of such inaccuracies, identifying the fake news from online platforms could be the first and foremost step. In this research, the authors have conducted a comparative analysis by implementing five transformer based models such as BERT, BERT without LSTM, ALBERT, RoBERTa, and a Hybrid of BERT & ALBERT in order to detect the fraudulent news of COVID 19 from the internet. COVID 19 Fake News Dataset has been used for training and testing the models. Among all these models, the RoBERTa model has performed better than other models by obtaining an F1 score of 0.98 in both real and fake classes.
翻訳日:2022-08-03 12:49:58 公開日:2022-08-02
# AlexaTM 20B: 大規模多言語Seq2Seqモデルを用いたFew-Shot Learning

AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model ( http://arxiv.org/abs/2208.01448v1 )

ライセンス: Link先を確認
Saleh Soltan, Shankar Ananthakrishnan, Jack FitzGerald, Rahul Gupta, Wael Hamza, Haidar Khan, Charith Peris, Stephen Rawls, Andy Rosenbaum, Anna Rumshisky, Chandana Satya Prakash, Mukund Sridhar, Fabian Triefenbach, Apurv Verma, Gokhan Tur, Prem Natarajan(参考訳) 本研究では,多言語大規模シーケンス・ツー・シークエンス(seq2seq)モデルにおいて,様々なタスクにおけるデコーダのみのモデルよりも,より効率的な学習者であることを実証する。 特に,Alexa Teacher Model (AlexaTM 20B) と呼ばれる200億のパラメータのセク2セックモデルをトレーニングし,一括要約タスクにおける最先端(SOTA)のパフォーマンスを達成し,さらに大きな540B PaLMデコーダモデルを上回る性能を示す。 AlexaTM 20Bはまた、フローレス101データセット上のモデル(アラビア語、英語、フランス語、ドイツ語、ヒンディー語、イタリア語、日本語、マラシ語、ポルトガル語、スペイン語、タミル語、テルグ語)でサポートされているほぼすべての言語ペアに対して、1ショットの機械翻訳でSOTAを達成している。 また、ゼロショット設定では、AlexaTM 20BがSuperGLUEおよびSQuADv2データセット上でGPT3 (175B)を上回り、XNLI、XCOPA、Paws-X、XWinogradなどの多言語タスクでSOTAパフォーマンスを提供する。 全体として,大規模言語モデル(llm)トレーニングのためのデコーダのみのモデルに代わる強力な選択肢として,seq2seqモデルに説得力のある事例を示す。

In this work, we demonstrate that multilingual large-scale sequence-to-sequence (seq2seq) models, pre-trained on a mixture of denoising and Causal Language Modeling (CLM) tasks, are more efficient few-shot learners than decoder-only models on various tasks. In particular, we train a 20 billion parameter multilingual seq2seq model called Alexa Teacher Model (AlexaTM 20B) and show that it achieves state-of-the-art (SOTA) performance on 1-shot summarization tasks, outperforming a much larger 540B PaLM decoder model. AlexaTM 20B also achieves SOTA in 1-shot machine translation, especially for low-resource languages, across almost all language pairs supported by the model (Arabic, English, French, German, Hindi, Italian, Japanese, Marathi, Portuguese, Spanish, Tamil, and Telugu) on Flores-101 dataset. We also show in zero-shot setting, AlexaTM 20B outperforms GPT3 (175B) on SuperGLUE and SQuADv2 datasets and provides SOTA performance on multilingual tasks such as XNLI, XCOPA, Paws-X, and XWinograd. Overall, our results present a compelling case for seq2seq models as a powerful alternative to decoder-only models for Large-scale Language Model (LLM) training.
翻訳日:2022-08-03 12:49:43 公開日:2022-08-02
# スパイクネットワークを作る:ロバストな脳のような教師なし機械学習

Making a Spiking Net Work: Robust brain-like unsupervised machine learning ( http://arxiv.org/abs/2208.01204v1 )

ライセンス: Link先を確認
Peter G. Stratton, Andrew Wabnitz, Chip Essam, Allen Cheung and Tara J. Hamilton(参考訳) 過去10年間の人工知能(AI)への関心の高まりは、ほぼ独占的に、ニューラルネットワーク(ANN)の進歩によって引き起こされている。 ANNは、多くの難解な問題に対して最先端のパフォーマンスを設定しているが、トレーニングには大量のデータと計算資源が必要であり、教師付き学習を採用するため、トレーニングの例ごとに正しくラベル付けされた応答を知る必要があり、実際のドメインのスケーラビリティを制限している。 スパイキングニューラルネットワーク(SNN)は、より脳に似た人工ニューロンを使用するANNの代替であり、教師なし学習を使用して、正しい応答を知らずに入力データの認識可能な特徴を発見することができる。 しかし、SNNは動的安定性に悩まされており、ANNの精度と一致しない。 ここでは、SNNが、消滅するスパイク問題に対する原則的解決策を提供することや、既存の浅いSNNを全て上回り、ANNの性能を同等にするために、文献で特定されている多くの欠点を克服する方法について示す。 ラベル付きデータの教師なし学習と、トレーニング期間の1/50分の1(ラベル付きデータは最後の単純な線形読み出し層でのみ使用される)を使用して、これを達成する。 この結果、snsは、ラベルなしデータセットで高速、正確、効率的、説明可能、再デプロイ可能な機械学習のための実行可能な新しい方法となる。

The surge in interest in Artificial Intelligence (AI) over the past decade has been driven almost exclusively by advances in Artificial Neural Networks (ANNs). While ANNs set state-of-the-art performance for many previously intractable problems, they require large amounts of data and computational resources for training, and since they employ supervised learning they typically need to know the correctly labelled response for every training example, limiting their scalability for real-world domains. Spiking Neural Networks (SNNs) are an alternative to ANNs that use more brain-like artificial neurons and can use unsupervised learning to discover recognizable features in the input data without knowing correct responses. SNNs, however, struggle with dynamical stability and cannot match the accuracy of ANNs. Here we show how an SNN can overcome many of the shortcomings that have been identified in the literature, including offering a principled solution to the vanishing spike problem, to outperform all existing shallow SNNs and equal the performance of an ANN. It accomplishes this while using unsupervised learning with unlabeled data and only 1/50th of the training epochs (labelled data is used only for a final simple linear readout layer). This result makes SNNs a viable new method for fast, accurate, efficient, explainable, and re-deployable machine learning with unlabeled datasets.
翻訳日:2022-08-03 12:46:34 公開日:2022-08-02
# インシシシト2-tower Policies

Implicit Two-Tower Policies ( http://arxiv.org/abs/2208.01191v1 )

ライセンス: Link先を確認
Yunfan Zhao, Qingkai Pan, Krzysztof Choromanski, Deepali Jain, Vikas Sindhwani(参考訳) 本稿では,学習可能な潜在表現と入力状態の注意スコアに基づいて行動を選択する,構造化強化学習方針-アーキテクチャ,暗黙の2-tower(itt)ポリシの新たなクラスを提案する。 政策スタックにおける状態処理からのアクションを明示的に切り離すことで、我々は2つの主要な目標 – 実質的な計算ゲインとより良いパフォーマンス – を達成できる。 私たちのアーキテクチャは、離散と連続のアクション空間の両方と互換性があります。 OpenAI GymとDeepMind Control Suiteの15の環境でテストを行うことで、ITTアーキテクチャは特にブラックボックス/進化的最適化に適しており、対応するポリシートレーニングアルゴリズムは、非構造化の暗黙的ポリシーだけでなく、一般的に使用される明示的なポリシーよりも優れています。 我々は,ITTの2tower構造に重きを置いて,ハッシュや遅延塔更新などの手法を適用すれば,さらなる計算精度の向上が期待できることを示す。

We present a new class of structured reinforcement learning policy-architectures, Implicit Two-Tower (ITT) policies, where the actions are chosen based on the attention scores of their learnable latent representations with those of the input states. By explicitly disentangling action from state processing in the policy stack, we achieve two main goals: substantial computational gains and better performance. Our architectures are compatible with both: discrete and continuous action spaces. By conducting tests on 15 environments from OpenAI Gym and DeepMind Control Suite, we show that ITT-architectures are particularly suited for blackbox/evolutionary optimization and the corresponding policy training algorithms outperform their vanilla unstructured implicit counterparts as well as commonly used explicit policies. We complement our analysis by showing how techniques such as hashing and lazy tower updates, critically relying on the two-tower structure of ITTs, can be applied to obtain additional computational improvements.
翻訳日:2022-08-03 12:46:11 公開日:2022-08-02
# DAPDAG : 摂動DAG再建によるドメイン適応

DAPDAG: Domain Adaptation via Perturbed DAG Reconstruction ( http://arxiv.org/abs/2208.01373v1 )

ライセンス: Link先を確認
Yanke Li, Hatt Tobias, Ioana Bica, Mihaela van der Schaar(参考訳) ラベルのない別のドメインで予測を可能にするために、複数のドメインからのラベル付きデータを活用することは、重要だが挑戦的な問題である。 この問題に対処するため, DAPDAG (\textbf{D}omain \textbf{A}daptation via \textbf{P}erturbed \textbf{DAG} Reconstruction) というフレームワークを導入し, 与えられた特徴を推測し, 有向非巡回グラフ(DAG)を補助タスクとして再構築する自動エンコーダを提案する。 基礎となるDAG構造は、条件分布が潜在環境変数$E$によって導かれる領域間で変化することを許される観測変数の間で不変であると仮定される。 エンコーダは$E$の推論デバイスとして機能するように設計されており、デコーダはDAGと推定$E$のグラフィカルな両親に条件付けられた各変数を再構成する。 エンコーダとデコーダをエンドツーエンドで共同で訓練し,混合変数を用いた合成および実データセット実験を行う。 実験の結果,DAGの再構成は近似推論に有効であることが示唆された。 さらに,提案手法は,特に対象領域がソース領域と大きく異なる場合において,予測タスクにおける他のベンチマークに対する競合性能を向上できる。

Leveraging labelled data from multiple domains to enable prediction in another domain without labels is a significant, yet challenging problem. To address this problem, we introduce the framework DAPDAG (\textbf{D}omain \textbf{A}daptation via \textbf{P}erturbed \textbf{DAG} Reconstruction) and propose to learn an auto-encoder that undertakes inference on population statistics given features and reconstructing a directed acyclic graph (DAG) as an auxiliary task. The underlying DAG structure is assumed invariant among observed variables whose conditional distributions are allowed to vary across domains led by a latent environmental variable $E$. The encoder is designed to serve as an inference device on $E$ while the decoder reconstructs each observed variable conditioned on its graphical parents in the DAG and the inferred $E$. We train the encoder and decoder jointly in an end-to-end manner and conduct experiments on synthetic and real datasets with mixed variables. Empirical results demonstrate that reconstructing the DAG benefits the approximate inference. Furthermore, our approach can achieve competitive performance against other benchmarks in prediction tasks, with better adaptation ability, especially in the target domain significantly different from the source domains.
翻訳日:2022-08-03 12:45:45 公開日:2022-08-02
# 画像は1語の価値:テキストインバージョンによるテキスト対画像生成のパーソナライズ

An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion ( http://arxiv.org/abs/2208.01618v1 )

ライセンス: Link先を確認
Rinon Gal, Yuval Alaluf, Yuval Atzmon, Or Patashnik, Amit H. Bermano, Gal Chechik, Daniel Cohen-Or(参考訳) テキストから画像へのモデルは、自然言語による創造を導く前例のない自由を提供する。 しかし、そのような自由が、特定のユニークな概念のイメージを生成し、その外観を変更したり、新しい役柄や新しい場面で構成したりするためにどのように行使できるかは不明である。 言い換えれば、言語誘導モデルを使って猫を絵に変えたり、お気に入りのおもちゃをベースとした新製品を想像したりできるのでしょうか? ここでは,このような創造的自由を許容する簡単なアプローチを提案する。 オブジェクトやスタイルなど,ユーザが提供する概念の3~5イメージのみを使用して,凍結したテキスト・ツー・イメージモデルの埋め込み空間において,新たな"ワード"を通じて表現することを学ぶ。 これらの単語は自然言語の文に構成することができ、直感的にパーソナライズされた創造を導く。 特に、単一の単語埋め込みが一意で多様な概念を捉えるのに十分であることを示す証拠を見つける。 当社のアプローチを幅広いベースラインと比較し、さまざまなアプリケーションやタスクの概念をより忠実に表現できることを示しています。 私たちのコード、データ、新しい単語は、https://textual-inversion.github.ioで利用可能になります。

Text-to-image models offer unprecedented freedom to guide creation through natural language. Yet, it is unclear how such freedom can be exercised to generate images of specific unique concepts, modify their appearance, or compose them in new roles and novel scenes. In other words, we ask: how can we use language-guided models to turn our cat into a painting, or imagine a new product based on our favorite toy? Here we present a simple approach that allows such creative freedom. Using only 3-5 images of a user-provided concept, like an object or a style, we learn to represent it through new "words" in the embedding space of a frozen text-to-image model. These "words" can be composed into natural language sentences, guiding personalized creation in an intuitive way. Notably, we find evidence that a single word embedding is sufficient for capturing unique and varied concepts. We compare our approach to a wide range of baselines, and demonstrate that it can more faithfully portray the concepts across a range of applications and tasks. Our code, data and new words will be available at: https://textual-inversion.github.io
翻訳日:2022-08-03 12:45:16 公開日:2022-08-02
# クロスアテンション制御によるPrompt-to-Prompt画像編集

Prompt-to-Prompt Image Editing with Cross Attention Control ( http://arxiv.org/abs/2208.01626v1 )

ライセンス: Link先を確認
Amir Hertz, Ron Mokady, Jay Tenenbaum, Kfir Aberman, Yael Pritch, Daniel Cohen-Or(参考訳) 最近の大規模テキスト駆動合成モデルは、与えられたテキストプロンプトに従う高度に多様な画像を生成するという特徴により、多くの注目を集めている。 このようなテキストベースの合成手法は、その意図を口頭で表現することに慣れている人間に特に魅力的である。 したがって、テキスト駆動画像合成をテキスト駆動画像編集に拡張することは自然である。 これらの生成モデルでは編集は困難であり、編集技法の生来的な性質は原画像の大部分を保存することであるが、テキストベースのモデルでは、テキストプロンプトの小さな変更であっても、しばしば全く異なる結果をもたらす。 最先端の方法は、編集をローカライズするために空間マスクを提供することをユーザに要求し、マスキング領域内の元の構造や内容を無視してこれを緩和する。 本稿では,テキストのみに編集を制御できる直感的なプロンプト・トゥ・プロンプト編集フレームワークを追求する。 この目的のために,テキスト条件付きモデルを深く分析し,画像の空間的レイアウトとプロンプト内の各単語との関係を制御するためのキーとなるクロスアテンション層を観察する。 本稿では,テキストプロンプトのみを編集して画像合成を監視するアプリケーションをいくつか紹介する。 これには、単語の置き換えによる局所的な編集、仕様の追加によるグローバル編集、さらには画像に単語が反映される程度を微妙に制御することが含まれる。 我々は,様々な画像やプロンプトに対して,高品質な合成と忠実さを編集したプロンプトに示す。

Recent large-scale text-driven synthesis models have attracted much attention thanks to their remarkable capabilities of generating highly diverse images that follow given text prompts. Such text-based synthesis methods are particularly appealing to humans who are used to verbally describe their intent. Therefore, it is only natural to extend the text-driven image synthesis to text-driven image editing. Editing is challenging for these generative models, since an innate property of an editing technique is to preserve most of the original image, while in the text-based models, even a small modification of the text prompt often leads to a completely different outcome. State-of-the-art methods mitigate this by requiring the users to provide a spatial mask to localize the edit, hence, ignoring the original structure and content within the masked region. In this paper, we pursue an intuitive prompt-to-prompt editing framework, where the edits are controlled by text only. To this end, we analyze a text-conditioned model in depth and observe that the cross-attention layers are the key to controlling the relation between the spatial layout of the image to each word in the prompt. With this observation, we present several applications which monitor the image synthesis by editing the textual prompt only. This includes localized editing by replacing a word, global editing by adding a specification, and even delicately controlling the extent to which a word is reflected in the image. We present our results over diverse images and prompts, demonstrating high-quality synthesis and fidelity to the edited prompts.
翻訳日:2022-08-03 12:44:57 公開日:2022-08-02
# MT-SNN:複数タスクのシングルタスクを可能にするスパイキングニューラルネットワーク

MT-SNN: Spiking Neural Network that Enables Single-Tasking of Multiple Tasks ( http://arxiv.org/abs/2208.01522v1 )

ライセンス: Link先を確認
Paolo G. Cachi, Sebastian Ventura, Krzysztof J. Cios(参考訳) 本稿では,複数タスクの単一タスクのアプローチを用いたマルチタスク分類問題の解法におけるニューラルネットワークのスパイク機能について検討する。 1つのタスクを一度に実行しながら2つ以上の分類タスクを学習できるマルチタスクスパイクニューラルネットワーク(mt-snn)を設計・実装した。 この作業で使用される漏洩積分と発火ニューロンの発火閾値を調節して実行するタスクを選択する。 このネットワークは、Loihi2ニューロモルフィックチップ用のIntelのLavaプラットフォームを使って実装されている。 NMNISTデータに対する動的マルチタスク分類の試験を行う。 その結果,MT-SNNはスパイキングニューロンの発火閾値を変化させることで,複数のタスクを効果的に学習することがわかった。

In this paper we explore capabilities of spiking neural networks in solving multi-task classification problems using the approach of single-tasking of multiple tasks. We designed and implemented a multi-task spiking neural network (MT-SNN) that can learn two or more classification tasks while performing one task at a time. The task to perform is selected by modulating the firing threshold of leaky integrate and fire neurons used in this work. The network is implemented using Intel's Lava platform for the Loihi2 neuromorphic chip. Tests are performed on dynamic multitask classification for NMNIST data. The results show that MT-SNN effectively learns multiple tasks by modifying its dynamics, namely, the spiking neurons' firing threshold.
翻訳日:2022-08-03 12:43:24 公開日:2022-08-02
# 視覚的質問応答に対する生成バイアス

Generative Bias for Visual Question Answering ( http://arxiv.org/abs/2208.00690v2 )

ライセンス: Link先を確認
Jae Won Cho, Dong-jin Kim, Hyeonggon Ryu, In So Kweon(参考訳) VQA(Visual Question Answering)のタスクは、データセット内のバイアスを利用して最終的な予測を行うVQAモデルの問題に悩まされていることが知られている。 多くの従来のアンサンブルに基づくデバイアス法では、ロバストターゲットモデルのトレーニングを支援するために、追加モデルにバイアスを負わせるように意図的に訓練する手法が提案されている。 しかし、これらの手法は、トレーニングデータのラベル統計や単一のモーダル分岐から直接モデルに対するバイアスを計算する。 対照的に,本研究では,対象vqaモデルが抱えるバイアスをよりよく学習するために,genb と呼ばれるバイアスモデル \emph{directly from the target model} を訓練するための生成法を提案する。 特に、genbは生成ネットワークを使用して、敵の目的と知識の蒸留の組み合わせを通してバイアスを学ぶ。 次に、GenBをバイアスモデルとしてターゲットモデルをデバイアス化し、VQA-CP2、VQA-CP1、GQA-OOD、VQA-CEなどの様々なVQAバイアスデータセットに対する手法の効果を広範な実験を通して示す。

The task of Visual Question Answering (VQA) is known to be plagued by the issue of VQA models exploiting biases within the dataset to make its final prediction. Many previous ensemble based debiasing methods have been proposed where an additional model is purposefully trained to be biased in order to aid in training a robust target model. However, these methods compute the bias for a model from the label statistics of the training data or directly from single modal branches. In contrast, in this work, in order to better learn the bias a target VQA model suffers from, we propose a generative method to train the bias model \emph{directly from the target model}, called GenB. In particular, GenB employs a generative network to learn the bias through a combination of the adversarial objective and knowledge distillation. We then debias our target model with GenB as a bias model, and show through extensive experiments the effects of our method on various VQA bias datasets including VQA-CP2, VQA-CP1, GQA-OOD, and VQA-CE.
翻訳日:2022-08-03 11:08:49 公開日:2022-08-02
# ELF22:インターネットトロルに悪影響を与えるコンテキストベースのカウンタトラリングデータセット

ELF22: A Context-based Counter Trolling Dataset to Combat Internet Trolls ( http://arxiv.org/abs/2208.00176v2 )

ライセンス: Link先を確認
Huije Lee, Young Ju NA, Hoyun Song, Jisu Shin, Jong C. Park(参考訳) オンライントロルは社会的コストを高め、個人に心理的損害を与える。 ボットをトロールに利用する自動アカウントの急増に伴い、個々の利用者が定量的かつ質的に状況を処理することは困難である。 この問題に対処するため,戦闘トロルに対する対応として,表現の自由を損なうことなく,コミュニティユーザによる議論の継続を促すため,トラル対策の自動化に重点を置いている。 そこで本研究では,自動応答生成のための新しいデータセットを提案する。 特に,ラベル付き応答戦略によるトロルコメントとカウンター応答を含むペアワイズデータセットを構築し,そのモデルに微調整したモデルに対して,所定の戦略に従ってカウンター応答を可変させることで応答を生成する。 データセットの有効性を評価するために3つのタスクを実施し,自動評価と人的評価の両面で結果を評価した。 人的評価において,我々のデータセットに微調整されたモデルでは,戦略制御文生成の性能が大幅に向上することが示されている。

Online trolls increase social costs and cause psychological damage to individuals. With the proliferation of automated accounts making use of bots for trolling, it is difficult for targeted individual users to handle the situation both quantitatively and qualitatively. To address this issue, we focus on automating the method to counter trolls, as counter responses to combat trolls encourage community users to maintain ongoing discussion without compromising freedom of expression. For this purpose, we propose a novel dataset for automatic counter response generation. In particular, we constructed a pair-wise dataset that includes troll comments and counter responses with labeled response strategies, which enables models fine-tuned on our dataset to generate responses by varying counter responses according to the specified strategy. We conducted three tasks to assess the effectiveness of our dataset and evaluated the results through both automatic and human evaluation. In human evaluation, we demonstrate that the model fine-tuned on our dataset shows a significantly improved performance in strategy-controlled sentence generation.
翻訳日:2022-08-03 11:08:28 公開日:2022-08-02
# giMLPs:MLPの抑制機構を持つゲート

giMLPs: Gate with Inhibition Mechanism in MLPs ( http://arxiv.org/abs/2208.00929v2 )

ライセンス: Link先を確認
Cheng Kang, Jindich Prokop, Lei Tong, Huiyu Zhou, Yong Hu, Daneil Novak(参考訳) 本稿では,新しいモデルアーキテクチャであるGate with inhibition MLP (giMLP)を提案する。 CycleMLP(gi-CycleMLP)を阻害するゲートは、ImageNetの分類タスクで同等の性能を発揮し、また、2つの新しい技術に依存してBERT、Roberta、DeBERTaV3モデルを改善する。 1つ目は Gating MLP で、モデルの適応を更に調整するために MLP と trunk Attention の行列乗算を行う。 2つ目は分岐調節を阻害または増強する抑制であり、抑制レベルが増大するにつれて、より筋肉的な特徴の制限をモデルに提供する。 抑制レベルが低いgiCycleMLPは、ImageNet分類精度の観点から、オリジナルのCycleMLPと競合できることを示す。 さらに,これらの手法が細調整したNLU下流タスクの性能を著しく向上させるという,総合的な実証研究を通しても示している。 DeBERTa(giDeBERTa)の微細調整における MLP 抑制ゲートについては,NLU タスクのほとんどの部分において,追加の事前訓練を行なわずに魅力的な結果が得られる。 また,ゲートが阻害された場合,アクティベーション関数は短く滑らかな負の尾を持ち,重要でない特徴や傷ついたモデルが適度に阻害されることがある。 imagenetと12の言語下流タスクにおける実験は、画像分類と自然言語微調整の能力向上の両方において、事前学習なしでゲートを阻害する効果を示している。

This paper presents a new model architecture, gate with inhibition MLP (giMLP).The gate with inhibition on CycleMLP (gi-CycleMLP) can produce equal performance on the ImageNet classification task, and it also improves the BERT, Roberta, and DeBERTaV3 models depending on two novel techniques. The first is the gating MLP, where matrix multiplications between the MLP and the trunk Attention input in further adjust models' adaptation. The second is inhibition which inhibits or enhances the branch adjustment, and with the inhibition levels increasing, it offers models more muscular features restriction. We show that the giCycleMLP with a lower inhibition level can be competitive with the original CycleMLP in terms of ImageNet classification accuracy. In addition, we also show through a comprehensive empirical study that these techniques significantly improve the performance of fine-tuning NLU downstream tasks. As for the gate with inhibition MLPs on DeBERTa (giDeBERTa) fine-tuning, we find it can achieve appealing results on most parts of NLU tasks without any extra pretraining again. We also find that with the use of Gate With Inhibition, the activation function should have a short and smooth negative tail, with which the unimportant features or the features that hurt models can be moderately inhibited. The experiments on ImageNet and twelve language downstream tasks demonstrate the effectiveness of Gate With Inhibition, both for image classification and for enhancing the capacity of nature language fine-tuning without any extra pretraining.
翻訳日:2022-08-03 11:08:10 公開日:2022-08-02
# 変分輸送と鏡面の輝きによる \textit{Constrained Domains} の分布最適化のための粒子アルゴリズム

A Particle-Based Algorithm for Distributional Optimization on \textit{Constrained Domains} via Variational Transport and Mirror Descent ( http://arxiv.org/abs/2208.00587v2 )

ライセンス: Link先を確認
Dai Hai Nguyen, Tetsuya Sakurai(参考訳) 目的関数を最小化するための最適化問題を考える。これは変分形式を許容し、理論解析とアルゴリズム設計の両方に挑戦する \textit{constrained domain} 上の確率分布上で定義される。 制約付き最適化のためのミラー降下アルゴリズムに着想を得て,Mirrored Variational Transport (\textbf{mirrorVT}) と呼ばれる反復的かつ粒子ベースのアルゴリズムを提案する。 各反復について、 \textbf{mirrorvt} は粒子をミラー写像によって誘導される拘束されない双対空間に写像し、次に粒子を押して双対空間上で定義される分布の多様体上のワッサーシュタイン勾配降下を概ね行う。 イテレーションの終わりに、粒子は元の制約された空間にマッピングされる。 模擬実験により, 単純およびユークリッド球制約領域上の確率分布上の関数を最小化するための \textbf{mirrorVT} の有効性を示す。 また,その理論特性を解析し,その収束を目的関数の極大最小値に特徴付ける。

We consider the optimization problem of minimizing an objective functional, which admits a variational form and is defined over probability distributions on the \textit{constrained domain}, which poses challenges to both theoretical analysis and algorithmic design. Inspired by the mirror descent algorithm for constrained optimization, we propose an iterative and particle-based algorithm, named Mirrored Variational Transport (\textbf{mirrorVT}). For each iteration, \textbf{mirrorVT} maps particles to a unconstrained dual space induced by a mirror map and then approximately perform Wasserstein gradient descent on the manifold of distributions defined over the dual space by pushing particles. At the end of iteration, particles are mapped back to the original constrained space. Through simulated experiments, we demonstrate the effectiveness of \textbf{mirrorVT} for minimizing the functionals over probability distributions on the simplex- and Euclidean ball-constrained domains. We also analyze its theoretical properties and characterize its convergence to the global minimum of the objective functional.
翻訳日:2022-08-03 11:07:42 公開日:2022-08-02
# 未知環境における確率的最短経路問題に対する凸双対性

Convex duality for stochastic shortest path problems in known and unknown environments ( http://arxiv.org/abs/2208.00330v2 )

ライセンス: Link先を確認
Kelli Francis-Staite(参考訳) 本稿では,凸最適化の観点から,未知環境における確率的最短経路(SSP)問題を考察する。 まず、既知のパラメータケースで結果を思い出し、異なる証明を通して理解を深める。 次に、拡張値反復(evi)演算子を研究する未知のパラメータケースに焦点を当てる。 これにはローゼンバーグ等で使われている既存の演算子も含まれる。 [26]およびTarbouriech et al。 [31] は l-1 ノルムと supremum ノルムに基づいており、KL-発散のような他のノルムや発散に対応する EVI 作用素を定義する。 本稿では、一般に、EVI演算子が凸プログラムとどのように関連しているか、および強い双対性を示す双対の形式を示す。 そこで本稿では,neu および pike-burke [21] の有限ホライズン研究における境界が,ssp 設定におけるこれらの拡張値反復演算子に適用できるかどうかについて考察する。 これらの作用素に対する [21] と似た境界が存在することが示されているが、一般に単調ではなくより複雑な収束特性を持つ作用素に繋がる。 特別な場合、振動する挙動を観察する。 本稿では,研究の進展に関するオープンな疑問と,さらなる検討を要するいくつかの事例を提示する。

This paper studies Stochastic Shortest Path (SSP) problems in known and unknown environments from the perspective of convex optimisation. It first recalls results in the known parameter case, and develops understanding through different proofs. It then focuses on the unknown parameter case, where it studies extended value iteration (EVI) operators. This includes the existing operators used in Rosenberg et al. [26] and Tarbouriech et al. [31] based on the l-1 norm and supremum norm, as well as defining EVI operators corresponding to other norms and divergences, such as the KL-divergence. This paper shows in general how the EVI operators relate to convex programs, and the form of their dual, where strong duality is exhibited. This paper then focuses on whether the bounds from finite horizon research of Neu and Pike-Burke [21] can be applied to these extended value iteration operators in the SSP setting. It shows that similar bounds to [21] for these operators exist, however they lead to operators that are not in general monotone and have more complex convergence properties. In a special case we observe oscillating behaviour. This paper generates open questions on how research may progress, with several examples that require further examination.
翻訳日:2022-08-03 11:07:21 公開日:2022-08-02
# sbetaによるsimplexクラスタリングとブラックボックス予測のオンライン調整への応用

Simplex Clustering via sBeta with Applications to Online Adjustment of Black-Box Predictions ( http://arxiv.org/abs/2208.00287v2 )

ライセンス: Link先を確認
Florent Chiaroni, Malik Boudiaf, Amar Mitiche, Ismail Ben Ayed(参考訳) 我々は、深層ニューラルネットワークのソフトマックス予測をクラスタリングし、k-sBetasと呼ばれる新しい確率的クラスタリング手法を導入する。 クラスタリング分布の一般的な文脈において、既存の手法は、標準ユークリッド距離の代替として、KL分散のような単純なデータに合わせた歪み測度を探索することに焦点を当てている。 クラスタリング分布の一般論として,歪みに基づく手法に基づく統計モデルでは十分説明できないことを強調する。 その代わりに、各クラスタ内のデータの適合度を、パラメータが2進代入変数とともに制約され、推定されるsBeta密度関数に最適化する。 本定式化は,クラスタデータのモデリングにおける様々なパラメトリック密度を近似し,クラスタバランスバイアスの制御を可能にする。 これにより,道路分割における一括分類や教師なし領域適応など,様々なシナリオにおけるブラックボックス予測の効率的な教師なし調整のための高い競争性能が得られる。 実装はhttps://github.com/fchiaroni/Clustering_Softmax_Predictionsで確認できる。

We explore clustering the softmax predictions of deep neural networks and introduce a novel probabilistic clustering method, referred to as k-sBetas. In the general context of clustering distributions, the existing methods focused on exploring distortion measures tailored to simplex data, such as the KL divergence, as alternatives to the standard Euclidean distance. We provide a general perspective of clustering distributions, which emphasizes that the statistical models underlying distortion-based methods may not be descriptive enough. Instead, we optimize a mixed-variable objective measuring the conformity of data within each cluster to the introduced sBeta density function, whose parameters are constrained and estimated jointly with binary assignment variables. Our versatile formulation approximates a variety of parametric densities for modeling cluster data, and enables to control the cluster-balance bias. This yields highly competitive performances for efficient unsupervised adjustment of black-box predictions in a variety of scenarios, including one-shot classification and unsupervised domain adaptation in real-time for road segmentation. Implementation is available at https://github.com/fchiaroni/Clustering_Softmax_Predictions.
翻訳日:2022-08-03 11:06:24 公開日:2022-08-02
# FixMatchSeg: 半スーパービジョンのセマンティックセグメンテーションのためのFixMatchの修正

FixMatchSeg: Fixing FixMatch for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2208.00400v2 )

ライセンス: Link先を確認
Pratima Upretee, Bishesh Khanal(参考訳) セマンティックな医用画像セグメンテーションのための教師付き深層学習手法は、ここ数年でますます人気が高まっているが、リソース制限された設定では、多くの注釈付き画像を取得することは、主に専門家が必要であり、費用がかかり、時間がかかるため、非常に難しい。 近年, 分類問題において, 教師付き手法と半教師付き手法のギャップは劇的に縮小されているが, セグメンテーション手法のギャップは依然として大きい。 本研究では,最先端の半教師付き分類法fixmatchを意味セグメンテーションタスクに適用し,fixmatchsegを導入する。 fixmatchsegは、心臓超音波、胸部x線、網膜底画像、皮膚画像の4つの異なる解剖学的、異なるモダリティのデータセットで評価されている。 ラベルがほとんどない場合、FixMatchSegが強力な教師付きベースラインと同等に動作することを示す。

Supervised deep learning methods for semantic medical image segmentation are getting increasingly popular in the past few years.However, in resource constrained settings, getting large number of annotated images is very difficult as it mostly requires experts, is expensive and time-consuming.Semi-supervised segmentation can be an attractive solution where a very few labeled images are used along with a large number of unlabeled ones. While the gap between supervised and semi-supervised methods have been dramatically reduced for classification problems in the past couple of years, there still remains a larger gap in segmentation methods. In this work, we adapt a state-of-the-art semi-supervised classification method FixMatch to semantic segmentation task, introducing FixMatchSeg. FixMatchSeg is evaluated in four different publicly available datasets of different anatomy and different modality: cardiac ultrasound, chest X-ray, retinal fundus image, and skin images. When there are few labels, we show that FixMatchSeg performs on par with strong supervised baselines.
翻訳日:2022-08-03 11:06:06 公開日:2022-08-02
# ネットワークコミュニティ検出の20年

20 years of network community detection ( http://arxiv.org/abs/2208.00111v2 )

ライセンス: Link先を確認
Santo Fortunato, M. E. J. Newman(参考訳) ネットワークデータの分析における基本的な技術的課題は、強く結びついたり、類似した機能や役割を共有するノード群である、コミュニティの自動発見である。 本解説では,過去20年間のこの分野の進展を概観する。

A fundamental technical challenge in the analysis of network data is the automated discovery of communities - groups of nodes that are strongly connected or that share similar features or roles. In this commentary we review progress in the field over the last 20 years.
翻訳日:2022-08-03 11:05:45 公開日:2022-08-02