このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221101となっている論文です。

PDF登録状況(公開日: 20221101)

TitleAuthorsAbstract論文公表日・翻訳日
# 多体局所化系における多重フラクタリティと二部絡みを超えたヒルベルト空間相関

Hilbert-space correlations beyond multifractality and bipartite entanglement in many-body localised systems ( http://arxiv.org/abs/2208.08468v2 )

ライセンス: Link先を確認
Sthitadhi Roy(参考訳) 多体局在化系(MBL)の固有状態は、ヒルベルト空間上の振幅の多フラクタル統計とともに、領域法的双極子絡みによって特徴づけられる。 同時に、フラクタル統計量を持つばらばらなランダムな純粋な状態は、領域則と互換性がなく、必ずしも体積則の絡み合いを示す。 これにより、ヒルベルト空間振幅 MBL 固有状態の相関関数は、その領域法則の絡み合いがそれらの多重フラクタル性と整合性を持つために持つ必要があるという疑問が提起される。 本研究では, 絡み合いの情報を伝達する適切なヒルベルト空間相関を同定し, 計算する。 mbl固有状態の場合、これらの相関はエルゴード状態だけでなくフラクタル統計量を持つ疎ランダム状態とも質的に異なることが分かる。 これにより、MBL固有状態に対する領域法的絡み合いと多フラクタリティの共存の中心に、その相関関係が実際に存在することを示すことができる。

Eigenstates of many-body localised (MBL) systems are characterised by area-law bipartite entanglement along with multifractal statistics of their amplitudes on Hilbert space. At the same time, sparse random pure states with fractal statistics are not compatible with area-law and necessarily exhibit volume-law entanglement. This raises the question that what correlation functions of Hilbert-space amplitudes MBL eigenstates must possess for their area law entanglement to be compatible with their multifractality. In this work, we identify and compute such appropriate Hilbert-space correlations which carry information of entanglement. We find that, for MBL eigenstates, these correlations are qualitatively different not only from those of ergodic states but also of sparse random states with fractal statistics. This enables us to show that indeed the said correlations lie at the heart of the coexistence of area-law entanglement and multifractality for MBL eigenstates.
翻訳日:2023-01-30 20:11:14 公開日:2022-11-01
# 量子PUFモデルの比較

Comparison of Quantum PUF models ( http://arxiv.org/abs/2208.10599v2 )

ライセンス: Link先を確認
Vladlen Galetsky, Soham Ghosh, Christian Deppe and Roberto Ferrara(参考訳) 物理不能関数(英: physical unclonable function、PUF)は、物理系(例えば半導体、結晶など)のハードウェア構造であり、半導体のユニークな識別や暗号プロセスの鍵の確保に使用される。 PUFは実行時にノイズの多い秘密の再現を生成する。 この秘密はチップの認証に使用できるか、ノイズを取り除いた後に暗号鍵として利用できる。 量子ハードウェアの分野における最近の進歩は、量子超越性を達成すると主張する場合があり、現在のrsa型古典暗号システムのフレギリティを高いターゲットとしている。 解決策として、そのような問題を緩和するためにQuantum PUFを開発したい。 この技術にはいくつかのアプローチがある。 我々はこれらの異なるアプローチを比較し、量子トークンベースの認証シミュレータQTOKSimの要件を導入し、その性能を多要素認証プロトコルで検証する。

Physical unclonable functions (PUFs) are hardware structures in a physical system (e.g. semiconductor, crystals etc.) that are used to enable unique identification of the semiconductor or to secure keys for cryptographic processes. A PUF thus generates a noisy secret reproducible at runtime. This secret can either be used to authenticate the chip, or it is available as a cryptographic key after removing the noise. Latest advancements in the field of quantum hardware, in some cases claiming to achieve quantum supremacy, highly target the fragility of current RSA type classical cryptosystems. As a solution, one would like to develop Quantum PUFs to mitigate such problem. There are several approaches for this technology. In our work we compare these different approaches and introduce the requirements for QTOKSim, a quantum token based authentication simulator testing its performance on a multi-factor authentication protocol.
翻訳日:2023-01-30 04:43:27 公開日:2022-11-01
# チャーン絶縁体と相互作用する励起原子:遠方界共鳴カシミール-ポルダー反発に向けて

An excited atom interacting with a Chern insulator: towards a far-field resonant Casimir-Polder repulsion ( http://arxiv.org/abs/2208.14047v2 )

ライセンス: Link先を確認
Bing-Sui Lu, Khatee Zathul Arifa, Martial Ducloy(参考訳) チャーン絶縁体との単一(電気双極子)遷移を有する励起アルカリ型原子の共振カシミール・ポルダー相互作用を考察する。 チャーン絶縁体は非ゼロの時間反転対称性を破るホール伝導体を持ち、ホール伝導体と原子遷移の円偏光状態とのカップリングに依存する共鳴カシミール・ポルダー相互作用にさらなる寄与をもたらす。 共振カシミール-ポルダーシフトはチャーン絶縁体のファンホブ特異点に関連する値付近の非励起周波数に対して著しく増大する。 さらに, 原子双極子遷移が正方偏極し, チャーン絶縁体のチャーン数が1ドルまたは原子双極子遷移が円偏極となり, チャーン数が1ドルであれば, 共鳴カシミール・ポルダー力は比較的大きな原子-表面距離に対して単調に減衰・反発しうることがわかった。

We consider the resonant Casimir-Polder interaction of an excited alkali-type atom which has a single (electric dipole) transition with a Chern insulator. The Chern insulator has a nonzero, time reversal symmetry breaking Hall conductance, leading to an additional contribution to the resonant Casimir-Polder interaction which depends on the coupling between the Hall conductance and the circular polarization state of the atomic transition. We find that the resonant Casimir-Polder shift can be significantly enhanced for de-excitation frequencies near values associated with the van Hove singularities of the Chern insulator. Furthermore, we find that the resonant Casimir-Polder force can become monotonically decaying and repulsive for a relatively large atom-surface distance, if the atomic dipole transition is right circularly polarized and the Chern number of the Chern insulator is $-1$ or the atomic dipole transition is left circularly polarized and the Chern number is $1$.
翻訳日:2023-01-28 12:11:10 公開日:2022-11-01
# ラボオンチップ応用のためのマイクロ流体量子センシングプラットフォーム

Microfluidic quantum sensing platform for lab-on-a-chip applications ( http://arxiv.org/abs/2209.01651v3 )

ライセンス: Link先を確認
Robin D. Allert, Fleming Bruckmaier, Nick R. Neuling, Fabian A. Freire-Moschovitis, Kristina S. Liu, Claudia Schrepel, Philip Sch\"atzle, Peter Knittel, Martin Hermans, Dominik B. Bucher(参考訳) Lab-on-a-chip (LOC) の応用は、物理的および生命科学のツールとして重要視されている。 利点はシステムの小型化によるものであり、複雑な機能、再現性の向上、高いスループットを実現しながら、サンプルボリュームをはるかに少なくすることができる。 しかし、LOCアプリケーションはこれらの固有の利点を完全に活用するために、広範囲なセンサーの小型化を必要とする。 原子サイズの量子センサーはこのギャップを埋め、ナノからマイクロスケールの温度、電気、磁場の測定を可能にしている。 それでも、両方の分野の技術的な複雑さは、LOCシステムと量子センサーの非競合的な組み合わせを妨げている。 本稿では,ダイヤモンド中のnv(nvacancy)センターなど,固体スピン量子センサのための完全統合型マイクロ流体プラットフォームを提案する。 我々のプラットフォームは、高速スピン操作、完全な量子センシング機能、生体適合性、任意のチャネルやチップジオメトリへの適応性など、すべての技術的要件を満たす。 LOCシステムにおける量子センサの膨大な可能性を説明するため,我々は超磁性イオン検出から高分解能マイクロスケールのNV-NMRまで,マイクロ流体プラットフォームにおける化学分析のための様々なNV中心型センシングモードを実証した。 その結果, 電気化学, 高スループット反応スクリーニング, バイオアナリシス, オルガン・オン・ア・チップ, シングルセル研究など, LOCデバイス内での新しい化学分析能力の扉が開けた。

Lab-on-a-chip (LOC) applications have emerged as invaluable physical and life sciences tools. The advantages stem from advanced system miniaturization, thus, requiring far less sample volume while allowing for complex functionality, increased reproducibility, and high throughput. However, LOC applications necessitate extensive sensor miniaturization to leverage these inherent advantages fully. Atom-sized quantum sensors are highly promising to bridge this gap and have enabled measurements of temperature, electric and magnetic fields on the nano- to microscale. Nevertheless, the technical complexity of both disciplines has so far impeded an uncompromising combination of LOC systems and quantum sensors. Here, we present a fully integrated microfluidic platform for solid-state spin quantum sensors, such as the nitrogen-vacancy (NV) center in diamond. Our platform fulfills all technical requirements, such as fast spin manipulation, enabling full quantum sensing capabilities, biocompatibility, and easy adaptability to arbitrary channel and chip geometries. To illustrate the vast potential of quantum sensors in LOC systems, we demonstrate various NV center-based sensing modalities for chemical analysis in our microfluidic platform, ranging from paramagnetic ion detection to high-resolution microscale NV-NMR. Consequently, our work opens the door for novel chemical analysis capabilities within LOC devices with applications in electrochemistry, high throughput reaction screening, bioanalytics, organ-on-a-chip, or single-cell studies.
翻訳日:2023-01-27 23:18:18 公開日:2022-11-01
# 計測誘発皮膚効果による絡み合い遷移の欠如

Absence of entanglement transition due to measurement-induced skin effect ( http://arxiv.org/abs/2209.11241v2 )

ライセンス: Link先を確認
Yu-peng Wang, Chen Fang, and Jie Ren(参考訳) ユニタリ進化の対象となる量子多体系と、増大速度を持つ局所的な測定は、(sub)拡張から領域法則エントロピースケーリングへの絡み合い遷移を行う。 一般監視」下のある開放境界系では、非エルミート系における「皮膚効果」を連想させるような、異常な遅延時間粒子濃度がエッジに現れる。 このような測定による皮膚効果は、絡み合いの発生を抑制し、絡み合い遷移なしに短距離絡み合いを生じさせる。

A quantum many-body system subject to unitary evolution and repeated local measurements with an increasing rate undergoes an entanglement transition from (sub)extensive to area law entropy scaling. We find that certain open boundary systems under "generalized monitoring" display an anomalous late-time particle concentration on the edge, reminiscent of the "skin effect" in non-Hermitian systems. Such measurement-induced skin effect will suppress the entanglement generation, rendering the system short-range entangled without any entanglement transition.
翻訳日:2023-01-25 17:49:31 公開日:2022-11-01
# 教師付き機械学習におけるクリーンキュービットのパワー

The Power of One Clean Qubit in Supervised Machine Learning ( http://arxiv.org/abs/2210.09275v2 )

ライセンス: Link先を確認
Mahsa Karimi, Ali Javadi-Abhari, Christoph Simon, Roohollah Ghobadi(参考訳) 量子相関が大きなデータセットの中に新しいパターンを発見できるため、機械学習の分野は量子対応デバイスから恩恵を受ける可能性がある。 これまで量子機械学習の文献は、主にリソースの絡み合いに重点を置いてきた。 本研究の目的は,機械学習における量子コヒーレンス(quantum coherence)と量子相関(quantum discord)の応用について検討することである。 本研究は,1量子ビット (DQC1) を持つ決定論的量子コンピューティングとして知られる,ユニバーサルでない量子コンピューティングモデルに基づく。 コヒーレンス消費とカーネル関数の単純な関係が示され、これは機械学習の重要な概念である。 DQC1モデルを用いたIBMハードウェア上でのバイナリ分類問題の実装について述べる。 さらに,実装における量子コヒーレンスとハードウェアノイズの役割を分析する。

The field of machine learning could benefit from quantum-enabled devices, as quantum correlations may allow for the discovery of new patterns within large datasets. Thus far, the quantum machine learning literature has mainly focused on entanglement as a resource. The purpose of this paper is to examine the use of quantum coherence and a less studied type of quantum correlation, quantum discord, in machine learning. Our study is based on a non-universal quantum computing model known as deterministic quantum computing with one qubit (DQC1). A simple relationship is shown between coherence consumption and the kernel function, a crucial machine learning concept. We present an implementation of a binary classification problem on IBM hardware using the DQC1 model. Further, we analyze the role of quantum coherence and hardware noise in our implementation.
翻訳日:2023-01-22 06:48:46 公開日:2022-11-01
# 高調波発振器の動的エンタングルメント証人

Dynamic-based entanglement witnesses for harmonic oscillators ( http://arxiv.org/abs/2210.10357v2 )

ライセンス: Link先を確認
Pooja Jayachandran, Lin Htoo Zaw, Valerio Scarani(参考訳) 連続変数系の絡み合い証人の族について紹介する。これはテスト時の結合調和発振器の動力学が結合調和振動子であるという唯一の仮定に依存する。 絡み合いは、通常のモードの1つにおけるtsirelson nonclassicality testから推測され、他のモードの状態について何も知らない。 各ラウンドにおいて、プロトコルは1つの座標(例えば位置)の符号のみを数回にわたって測定する必要がある。 この動的ベースの絡み合いの証人は、不確実性の関係よりもベルの不等式に似ている:特に古典理論の偽陽性は認めない。 我々の基準は非ガウス状態を検出するが、それらのいくつかは他の基準では見落としている。

We introduce a family of entanglement witnesses for continuous variable systems, which rely on the sole assumption that their dynamics is that of coupled harmonic oscillators at the time of the test. Entanglement is inferred from the Tsirelson nonclassicality test on one of the normal modes, without any knowledge about the state of the other mode. In each round, the protocol requires measuring only the sign of one coordinate (e.g. position) at one among several times. This dynamic-based entanglement witness is more akin to a Bell inequality than to an uncertainty relation: in particular, it does not admit false positives from classical theory. Our criterion detects non-Gaussian states, some of which are missed by other criteria.
翻訳日:2023-01-22 01:54:23 公開日:2022-11-01
# 崩壊モデルに照らしての量子古典的分割に関する新しい知見

New insights on the quantum-classical division in light of Collapse Models ( http://arxiv.org/abs/2210.10603v2 )

ライセンス: Link先を確認
Fernanda Torres, Sujoy K. Modak, Alfredo Aranda(参考訳) 我々は、崩壊モデルによる量子論の解釈の観点から、量子と古典的挙動の基本的な分割は熱力学相の分割と類似していると主張する。 崩壊パラメータ$(\lambda)$と崩壊長スケール$r_C$との特定の関係は、通常の熱力学相図における共存曲線の役割を担っている。 さらに、$\lambda$と$r_C$の間の機能的な関係は、既存のIGEXコラボレーションデータによって強く支持されています。 この結果は、自由ウェーブパケット力学に適用された量子測定理論とGhirardi-Rimini-Weber(GRW)モデルに関する自己完結した議論に先行している。

We argue, in light of Collapse Model interpretation of quantum theory, that the fundamental division between the quantum and classical behaviors is analogous to the division of thermodynamic phases. A specific relationship between the collapse parameter $(\lambda)$ and the collapse length scale ($r_C$) plays the role of the coexistence curve in usual thermodynamic phase diagrams. We further claim that our functional relationship between $\lambda$ and $r_C$ is strongly supported by the existing IGEX collaboration data. This result is preceded by a self-contained discussion of quantum measurement theory and the Ghirardi-Rimini-Weber (GRW) model applied to the free wavepacket dynamics.
翻訳日:2023-01-22 01:45:39 公開日:2022-11-01
# ノイズ希釈による仮想蒸留

Virtual distillation with noise dilution ( http://arxiv.org/abs/2210.14753v2 )

ライセンス: Link先を確認
Yong Siah Teo and Seongwook Shin and Hyukgun Kwon and Seok-Hyung Lee and Hyunseok Jeong(参考訳) 仮想蒸留は、ノイズタイプを仮定せずに量子計算誤差を低減する誤差緩和技術である。 量子回路のユーザが余分なノイズをもたらす遅延線などの周辺回路を付加する必要がある場合、ノイズチャネルが回路内の層に均一に分散されている場合、周辺回路が回路全体にわたって分割された場合、エラー緩和性能が向上することが分かる。 マルチキュービット損失チャネルとポーリノイズチャネルでは, 平均緩和性能が単調に向上し, ノイズ周辺部はより多くの層に分割(希薄)され, 各層は2つの設計として振る舞うのに十分な深さのサブサーキットに挟まれている。 解析的および数値的な証拠は、二階蒸留が(ほぼ)最適緩和に十分であることを示している。 提案手法は,複数の回路からの出力キュービットの待ち行列に遅延線が必要とされる,奥行きが浅いような,現実的なノイズの多い中間規模量子回路を収容する量子計算クラスタの設計に応用する。

Virtual distillation is an error-mitigation technique that reduces quantum-computation errors without assuming the noise type. In scenarios where the user of a quantum circuit is required to additionally employ peripherals, such as delay lines, that introduce excess noise, we find that the error-mitigation performance can be improved if the peripheral, whenever possible, is split across the entire circuit; that is, when the noise channel is uniformly distributed in layers within the circuit. We show that under the multiqubit loss and Pauli noise channels respectively, for a given overall error rate, the average mitigation performance improves monotonically as the noisy peripheral is split~(diluted) into more layers, with each layer sandwiched between subcircuits that are sufficiently deep to behave as two-designs. For both channels, analytical and numerical evidence show that second-order distillation is generally sufficient for (near-)optimal mitigation. We propose an application of these findings in designing a quantum-computing cluster that houses realistic noisy intermediate-scale quantum circuits that may be shallow in depth, where measurement detectors are limited and delay lines are necessary to queue output qubits from multiple circuits.
翻訳日:2023-01-21 13:24:31 公開日:2022-11-01
# 量子計測のエントロピー

Entropy of Quantum Measurements ( http://arxiv.org/abs/2210.15738v2 )

ライセンス: Link先を確認
Stan Gudder(参考訳) a$ が量子効果であり、$\rho$ が状態であれば、$\rho$-entropy $S_a(\rho )$ は $a$ が約$\rho$ を提供する不確実性の量を与える。 より小さい$s_a(\rho )$ は、$a$ の計測値がより多くなれば、$\rho$ となる。 セクション~2では、$s_a(\rho )$ の境界を提供し、$a+b$ が効果であるなら$s_{a+b}(\rho )\ge s_a(\rho )+s_b(\rho )$ を示す。 次に,効果の凸混合に関する結果を示す。 また、効果の逐次積とその$\rho$-エントロピーについても検討する。 セクション~3では、観測可能な$A$に対して$S_a(\rho )$を使って$\rho$-entropy $S_A(\rho )$を定義する。 S_A(\rho )$ は$\rho$-entropy $S_\iscript (\rho )$ を楽器に対して直接提供することを示す。 我々は$S_A(\rho )$ のバウンダリを確立し、これらのバウンダリが得られたときの特性を証明する。 これらは文学における結果の簡易な証明である。 また、測定モデルの$\rho$-entropies、可観測物の逐次積、可観測物の粗粒化についても検討する。 この理論を説明する様々な例がある。

If $a$ is a quantum effect and $\rho$ is a state, we define the $\rho$-entropy $S_a(\rho )$ which gives the amount of uncertainty that a measurement of $a$ provides about $\rho$. The smaller $S_a(\rho )$ is, the more information a measurement of $a$ gives about $\rho$. In Section~2, we provide bounds on $S_a(\rho )$ and show that if $a+b$ is an effect, then $S_{a+b}(\rho )\ge S_a(\rho )+S_b(\rho )$. We then prove a result concerning convex mixtures of effects. We also consider sequential products of effects and their $\rho$-entropies. In Section~3, we employ $S_a(\rho )$ to define the $\rho$-entropy $S_A(\rho )$ for an observable $A$. We show that $S_A(\rho )$ directly provides the $\rho$-entropy $S_\iscript (\rho )$ for an instrument $\iscript$. We establish bounds for $S_A(\rho )$ and prove characterizations for when these bounds are obtained. These give simplified proofs of results given in the literature. We also consider $\rho$-entropies for measurement models, sequential products of observables and coarse-graining of observables. Various examples that illustrate the theory are provided.
翻訳日:2023-01-21 07:55:53 公開日:2022-11-01
# 量子ノイズの影響下での任意2量子状態の7量子ビット絡み込みチャネルによるセキュアな決定論的遠隔状態生成

A secure deterministic remote state preparation via a seven-qubit entangled channel of an arbitrary two-qubit state under the impact of quantum noise ( http://arxiv.org/abs/2211.00356v1 )

ライセンス: Link先を確認
Deepak Singh, Sanjeev Kumar, Bikash K. Behera(参考訳) 量子通信研究の最も重要なサブフィールドの1つとして、リモート状態準備(RSP)が量子ネットワークにおいて重要な役割を果たす。 ここでは,Borras \emph{et al から生成される 7 ビットの絡み合ったチャネルを用いて,任意の 2 ビット状態を作成するための決定論的遠隔状態作成方式を提案する。 状態"。 量子ノイズは、現在使われている量子通信のプロトコルに固有のものであり、量子通信システムの完全性とそれらの信頼性を危険にさらす。 初期の状態は純粋な量子状態であったが、何らかのノイズがシステムに注入されるとすぐに混合状態に移行した。 本稿では, ビットフリップノイズ, 位相フリップノイズ, ビット位相フリップノイズ, 振幅減衰, 位相減衰, 偏極ノイズの6種類のノイズモデルについて述べる。 これらのノイズが絡み合ったチャネルに与えた影響は、ノイズによって変化した密度行列を分析して見ることができる。 ノイズがスキームに与える影響を分析する目的で、元の量子状態とリモートで用意された状態との忠実性を評価し、グラフィカルに表現した。 さらに、包括的なセキュリティ分析を行い、提案プロトコルが内部および外部攻撃に対して安全であることを実証する。

As one of the most prominent subfields of quantum communication research, remote state preparation (RSP) plays a crucial role in quantum networks. Here we present a deterministic remote state preparation scheme to prepare an arbitrary two-qubit state via a seven-qubit entangled channel created from Borras \emph{et al.} state. Quantum noises are inherent to each and every protocol for quantum communication that is currently in use, putting the integrity of quantum communication systems and their dependability at risk. The initial state of the system was a pure quantum state, but as soon as there was any noise injected into the system, it transitioned into a mixed state. In this article, we discuss the six different types of noise models namely bit-flip noise, phase-flip noise, bit-phase-flip noise, amplitude damping, phase damping and depolarizing noise. The impact these noises had on the entangled channel may be seen by analysing the density matrices that have been altered as a result of the noise. For the purpose of analysing the impact of noise on the scheme, the fidelity between the original quantum state and the remotely prepared state has been assessed and graphically represented. In addition, a comprehensive security analysis is performed, demonstrating that the suggested protocol is safe against internal and external attacks.
翻訳日:2023-01-20 19:46:11 公開日:2022-11-01
# $\mathcal{PT}$-symmetric Sine-Gordonモデルの導出とその非平衡性

Derivation of $\mathcal{PT}$-symmetric Sine-Gordon model and its relevance to non-equilibrium ( http://arxiv.org/abs/2211.00333v1 )

ライセンス: Link先を確認
Vinayak M Kulkarni(参考訳) Parity-Time $\mathcal{PT}$-symmetric non-Hermitian Sine-Gordon(nhSG)モデルは非平衡スピン-ボソンモデルから導かれる。 我々はスピン作用素に対するケルディシュ回転を導出し、そこからSGモデルを導出できる。 ケルディシュ場における正規化群計算を行い、非平衡モデルと非エルミートモデルの有効結合の固定点と流れを比較する。 また、自己エネルギーを明示的に見つけ、$\mathcal{PT}$対称性保存状態と非平衡状態が持続する状態を理解するための2つの方法を比較する。非平衡モデルと非エルミタンモデルの結合のRGフローは、強い結合状態において標準ベレジンスキー-コスターリッツ-トゥーレス(BKT)物理を捕捉する。

The Parity-Time $\mathcal{PT}$-symmetric non-Hermitian Sine-Gordon(nhSG) model derived from the nonequilibrium spin-boson model. We have derived the Keldysh rotation for spin operators, from which the SG model can be derived. We perform renormalization group calculations in the Keldysh fields and compare the fixed points and the flow of the effective couplings of nonequilibrium and non-Hermitian models. Also, we explicitly find the self-energies and compare the two methods to understand the regimes where $\mathcal{PT}$ symmetry preserved regime, and nonequilibrium regimes persist.RG flow of couplings of nonequilibrium model and non-hermitian model both capture the standard Berezinskii-Kosterlitz-Thouless(BKT) physics in a strong coupling regime.
翻訳日:2023-01-20 19:45:32 公開日:2022-11-01
# 巨大原子間の複素デコヒーレンスフリー相互作用

Complex decoherence-free interactions between giant atoms ( http://arxiv.org/abs/2211.00280v1 )

ライセンス: Link先を確認
Lei Du, Lingzhen Guo, and Yong Li(参考訳) 巨大原子は、現代の量子技術の主要なタスクである工学的デコヒーレンスのない相互作用のための有望なプラットフォームを提供する。 本稿では,周期的カップリング変調と適切なカップリング点配置を考慮した,巨大原子間の複雑なデコヒーレンスフリー相互作用の実装方法について系統的に検討する。 実験で調整可能な変調の位相をデコヒーレンスフリーな相互作用にエンコードできることを実証し、巨大原子が効果的に閉ループを構成するとき、光子のアハロノフ・ボーム効果を可能にする。 特に,結合点の大きい分離から生じる非マルコフ遅延効果の影響を考察し,変調パラメータ依存性について検討する。

Giant atoms provide a promising platform for engineering decoherence-free interactions which is a major task in modern quantum technologies. Here we study systematically how to implement complex decoherence-free interactions among giant atoms resorting to periodic coupling modulations and suitable arrangements of coupling points. We demonstrate that the phase of the modulation, which is tunable in experiments, can be encoded into the decoherence-free interactions, and thus enables the Aharonov-Bohm effect of photons when the giant atoms constitute an effective closed loop. In particular, we consider the influence of non-Markovian retardation effect arising from large separations of the coupling points and study its dependence on the modulation parameters.
翻訳日:2023-01-20 19:44:26 公開日:2022-11-01
# 超振動光トラップにおける単一原子

Single atom in a superoscillatory optical trap ( http://arxiv.org/abs/2211.00274v1 )

ライセンス: Link先を確認
Hamim M. Rivy, Syed A. Aljunid, Nikolay I. Zheludev, David Wilkowski(参考訳) 個々の原子とそのアンサンブルを制御したトラップは、多くの天体系や光時計などの量子シミュレーションへの関心が高まっている。 本稿では、標準的なエアリー焦点から通常のアブブの回折限界よりも小さい波長以下のホットスポットまで連続的に調整できる光トラップにおける単一超低温原子のトラップについて報告する。 ホットスポットは、複数の自由空間コヒーレント波の正確な干渉によって超振動の効果を用いて生成された。 我々は, 原子有効温度, 寿命, トラップ周波数を測定して超振動性光トラップを特徴付ける。 超振動トラップと連続ポテンシャルチューニングは、量子シミュレーターのためのコンパクトで持続可能な原子アンサンブルを生成するだけでなく、単一分子量子化学や量子エミッタのサブ波長周期配列内の協調原子-光子相互作用の研究にも有用であると主張している。

Controlled trapping of individual atoms and their ensembles is of growing interest for quantum simulations of many body systems, optical clocks, and beyond. Here, we report trapping of single ultracold atom in an optical trap that can be continuously tuned from a standard Airy focus to a subwavelength hotspot smaller than the usual Abbe's diffraction limit. The hotspot was generated using the effect of superoscillations, by the precise interference of multiple free-space coherent waves. We characterized the superoscillatory optical trap by measuring the atom effective temperature, lifetime, and the trap frequency. We argue that superoscillatory trapping and continuous potential tuning offers not only a way to generate compact and tenable ensembles of trapped atoms for quantum simulators but will also be useful in single molecule quantum chemistry and the study of cooperative atom-photon interaction within subwavelength periodic arrays of quantum emitters.
翻訳日:2023-01-20 19:44:07 公開日:2022-11-01
# 量子電磁力学における時間分散

Time dispersion in quantum electrodynamics ( http://arxiv.org/abs/2211.00202v1 )

ライセンス: Link先を確認
John Ashmead(参考訳) 量子電磁力学(QED)は、完全に相対論的に見える方法でしばしば定式化される。 しかし、qedは3つの空間次元を可観測として扱うが、時間は古典的なパラメータとして扱うので、部分的に相対論的である。 例えば、経路積分の定式化において、経路上の和は空間において異なるが時間において異なるパスではない経路を含む。 共分散を適用して QED を拡張し、空間と同一の時間を含む。 これは時間の分散、時間の絡み合い、空間におけるHUPに間に合うハイゼンベルクの不確実性原理(HUP)の完全同値性などを意味する。 長い時間内に標準のqedを回復します。 また、経時的絡み合いは、紫外線の発散を解消する歓迎側効果を有する。 アト秒のスケールでその効果を見るべきです。 近年のアト秒物理学や量子コンピューティングの発展により、これらの効果は目に見えるようになった。 結果は偽造である。 演算子への時間の促進は、量子力学と相対性理論の合意された検証された原理の直接的な適用によってなされるので、改ざんはそれらの原則に影響を及ぼす。 確認は、アト秒物理学、量子コンピューティングと通信、量子重力に影響を及ぼす。

Quantum electrodynamics (QED) is often formulated in a way that appears fully relativistic. However since QED treats the three space dimensions as observables but time as a classical parameter, it is only partially relativistic. For instance, in the path integral formulation, the sum over paths includes paths that vary in space but not paths that vary in time. We apply covariance to extend QED to include time on the same basis as space. This implies dispersion in time, entanglement in time, full equivalence of the Heisenberg uncertainty principle (HUP) in time to the HUP in space, and so on. In the long time limit we recover standard QED. Further, entanglement in time has the welcome side effect of eliminating the ultraviolet divergences. We should see the effects at scales of attoseconds. With recent developments in attosecond physics and in quantum computing, these effects should now be visible. The results are therefore falsifiable. Since the promotion of time to an operator is done by a straightforward application of agreed and tested principles of quantum mechanics and relativity, falsification will have implications for those principles. Confirmation will have implications for attosecond physics, quantum computing and communications, and quantum gravity.
翻訳日:2023-01-20 19:43:43 公開日:2022-11-01
# 真ローレンツ量子宇宙論

Truly Lorentzian quantum cosmology ( http://arxiv.org/abs/2211.00517v1 )

ライセンス: Link先を確認
Ding Jia(参考訳) ローレンツ経路積分に基づく量子宇宙論は有望な道である。 しかし、多くの以前の研究は実数直線全体に平方スケール係数を統合することでローレンツ的でない構成を可能にする。 ここで、正の2乗スケール係数を持つローレンツ構成に最小超空間パスを積分することで、期待値を大きく変えることができることを示す。 さらに、これは因果地平線とその量子揺らぎの研究を可能にし、非ローレンツ的特異な超超空間幾何学を除外することで自明な特異性回避を達成する。 この結果は、半古典的鞍点近似が真のローレンツ量子宇宙論において常に有効であるとは限らないことを示している。 その結果、トンネルや境界のない提案、バウンシング宇宙論、インフレーションの量子起源等に関する関連する研究が再検討される必要がある。

Quantum cosmology based on Lorentzian path integrals is a promising avenue. However, many previous works allow non-Lorentzian configurations by integrating the squared scale factor over the whole real line. Here we show that restricting the minisuperspace path integral to Lorentzian configurations with positive squared scale factor can significantly change the expectation values. In addition, this enables the study of causal horizons and their quantum fluctuations, and achieves singularity avoidance trivially by excluding singular minisuperspace geometries as non-Lorentzian. The results indicate that semiclassical saddle point approximation is not always valid in truly Lorentzian quantum cosmology. As a consequence, related works on the tunnelling and no-boundary proposals, bouncing cosmology, and the quantum origin of inflation etc. need to be reexamined.
翻訳日:2023-01-20 19:37:38 公開日:2022-11-01
# 低次モデリングによる量子多体系の制御

Controlling quantum many-body systems using reduced-order modelling ( http://arxiv.org/abs/2211.00467v1 )

ライセンス: Link先を確認
I.A. Luchnikov, M.A. Gavreev, A.K. Fedorov(参考訳) 量子多体制御は、関連する問題の計算複雑性のため、量子科学において最も難しい問題の一つである。 本稿では,時間依存制御を十分に小さなサブシステムに適用した多体量子系の制御クラスを効率的に解く手法を提案する。 このアプローチは、テンソル・ネットワークスに基づくサブシステムの非マルコフ力学の低次元還元次モデルを構築するスキームに基づいている。 元のサブシステムの ‘デジタルツイン’ と見なされるような縮小順序モデルのダイナミクスのシミュレーションは、はるかに効率的であり、制御パラメータ空間における勾配に基づく最適化ツールボックスの使用を可能にする。 量子スピンチェーンの制御問題を解くことによって提案手法を検証する。 特に、このアプローチは準粒子を刺激するためのシーケンスを自動的に識別し、そのダイナミクスを誘導して情報を回復し、伝達する。 さらに, 乱れが誘発され, システムが多体局在状態にある場合, 一般化スピンエコー配列がダイナミクスインバージョンとして見出され, 標準値と比較して性能が向上した。 設計によるアプローチでは,制御プロトコルをより効率的にするためにサブシステムの非マルコフダイナミクスを利用する。 我々は、多体系の研究、非自明な準粒子特性の探索、量子コンピューティングデバイスの開発制御ツールにおける直接の応用を見出すことを期待している。

Quantum many-body control is among most challenging problems in quantum science, due to computational complexity of related underlying problems. We propose an efficient approach for solving a class of control problems for many-body quantum systems, where time-dependent controls are applied to a sufficiently small subsystem. The approach is based on a tensor-networks-based scheme to build a low-dimensional reduced-order model of the subsystem's non-Markovian dynamics. Simulating dynamics of such a reduced-order model, viewed as a ``digital twin" of the original subsystem, is significantly more efficient, which enables the use of gradient-based optimization toolbox in the control parameter space. We validate the proposed method by solving control problems for quantum spin chains. In particular, the approach automatically identifies sequences for exciting the quasiparticles and guiding their dynamics to recover and transmit information. Additionally, when disorder is induced and the system is in the many body localized phase, we find generalized spin-echo sequences for dynamics inversion, which show improved performance compared to standard ones. Our approach by design takes advantage of non-Markovian dynamics of a subsystem to make control protocols more efficient, and, under certain conditions can store information in the rest of the many-body system and subsequently retrieve it at a desired moment of time. We expect that our results will find direct applications in the study of many-body systems, in probing non-trivial quasiparticle properties, as well as in development control tools for quantum computing devices.
翻訳日:2023-01-20 19:37:23 公開日:2022-11-01
# 16マイクログラムメカニカル発振器の「オーディンガー猫状態」

Schr\"odinger cat states of a 16-microgram mechanical oscillator ( http://arxiv.org/abs/2211.00449v1 )

ライセンス: Link先を確認
Marius Bild, Matteo Fadel, Yu Yang, Uwe von L\"upke, Phillip Martin, Alessandro Bruno, Yiwen Chu(参考訳) 重ね合わせ原理は量子力学の最も基本的な原理の1つである。 schr\"odinger方程式によれば、物理系はその可能な状態の任意の線形結合を持つことができる。 この原理の妥当性は、顕微鏡システムでは日常的に検証されているが、なぜある種の古典的な性質によって区別できる状態の重畳状態にあるマクロな物体を観察しないのかは不明である。 ここでは,2つの相が振動する重ね合わせ状態にあるshr\"odinger cat state of motionにおいて,有効質量16.2マイクログラムのメカニカル共振器の合成を示す。 重ね合わせの大きさと位相の制御を示し、これらの状態のデコヒーレンスダイナミクスについて検討する。 量子と古典の世界の境界における光の遮蔽は別として、量子技術は連続的な可変量子情報処理と量子メロジを機械共振器で実現し、量子技術への関心が高まっている。

The superposition principle is one of the most fundamental principles of quantum mechanics. According to the Schr\"odinger equation, a physical system can be in any linear combination of its possible states. While the validity of this principle is routinely validated for microscopic systems, it is still unclear why we do not observe macroscopic objects to be in superpositions of states that can be distinguished by some classical property. Here we demonstrate the preparation of a mechanical resonator with an effective mass of 16.2 micrograms in Schr\"odinger cat states of motion, where the constituent atoms are in a superposition of oscillating with two opposite phases. We show control over the size and phase of the superposition and investigate the decoherence dynamics of these states. Apart from shedding light at the boundary between the quantum and the classical world, our results are of interest for quantum technologies, as they pave the way towards continuous-variable quantum information processing and quantum metrology with mechanical resonators.
翻訳日:2023-01-20 19:36:58 公開日:2022-11-01
# 特別なニーズを持つユーザのためのデバイス間インタラクションモデル

A device-interaction model for users with special needs ( http://arxiv.org/abs/2211.00445v1 )

ライセンス: Link先を確認
Juan Jesus Ojeda-Castelo, Jose A. Piedra-Fernandez, Luis Iribarne(参考訳) インタラクションはあらゆるコンピュータシステムを使用する基本的な部分ですが、特別なニーズを持つ人々にとっては依然として問題です。 この状況を改善するために,ユーザモデルの適応ルールに基づく新しいデバイス・インタラクション・モデルを提案する。 教育分野におけるユーザエクスペリエンスを通じたユーザビリティ向上を目的として,インタラクションデバイスの特徴を考慮したインタラクションレベルの適応化を目標としている。 評価プロセスでは,特別教育センターの学生が数名参加している。 これらの学生は身体障害または感覚障害または自閉症を持っている。 結果は、このモデルが障害のある生徒がコンピュータシステムと対話し、必然的に学術的および個人的開発に多大な利益をもたらすことができることを十分に期待できる。

Interaction is a fundamental part of using any computer system but it is still an issue for people with special needs. In order to improve this situation, this paper describes a new device-interaction model based on adaptation rules for user models. The aim is the adaptation at the interaction level, taking into account the interaction device features in order to improve the usability through the user experience in the education sector. In the evaluation process, several students from a special education center have participated. These students have either a physical or sensory disability or autism. The results are promising enough to consider that this model will be able to help students with disabilities to interact with a computer system which will inevitably provide tremendous benefits to their academic and personal development.
翻訳日:2023-01-20 19:36:39 公開日:2022-11-01
# 任意の相互作用強度を持つ超伝導量子ビットの熱的絡み合い

Thermal entanglement of superconducting qubits for arbitrary interaction strength ( http://arxiv.org/abs/2211.00417v1 )

ライセンス: Link先を確認
Areeda Ayoub and Javed Akram(参考訳) 超伝導量子ビットの任意の相互作用強度と基底状態周波数に対する熱絡みについて検討した。 熱的絡み合いを定量化するためのシステムの同時性を計算する。 2つの超伝導量子ビット間の外部調整可能なカプラキュービットサンドイッチが絡み合う仕組みを提案する。 コンカージェンスの挙動は, 温度, 量子ビット有効結合強度, 量子ビット周波数が熱絡み合いに及ぼす影響を検討する3つの異なるケースで解析された。 ここで言うべきことは、最大絡み合った状態を達成するためには、同じ周波数で2つの超伝導量子ビットを使う方がよいということだ。 また、与えられた温度では、内部容量とインダクタンスによって熱の絡み合いを調整できることに注意する。

We investigate the thermal entanglement in two superconducting qubits for arbitrary interaction strength and ground state frequencies. We calculate the concurrence of the system to quantify the thermal entanglement. We suggest a scheme, where an external tunable coupler qubit sandwich between two superconducting qubits generates entanglement. The behavior of concurrence is analyzed for three different cases, in which we consider the effects of the temperature, the qubit-qubit effective coupling strength, and the qubit frequencies on the thermal entanglement. What deserves mentioning here is that to achieve maximally entangled states, it is better to use two superconducting qubits with the same frequencies. We also note that for a given temperature, the thermal entanglement can be tuned by qubit internal capacitance and inductance.
翻訳日:2023-01-20 19:36:29 公開日:2022-11-01
# 変分回路学習による時間最適量子駆動

Time-Optimal Quantum Driving by Variational Circuit Learning ( http://arxiv.org/abs/2211.00405v1 )

ライセンス: Link先を確認
Tangyou Huang, Yongcheng Ding, L\'eonce Dupays, Yue Ban, Man-Hong Yung, Adolfo del Campo, and Xi Chen(参考訳) パラメータ化回路を用いたデジタル量子コンピュータ上の量子力学のシミュレーションは、基礎的および応用物理学や化学に広く応用されている。 この文脈では、古典的なオプティマイザと量子コンピュータを組み合わせたハイブリッド量子古典アルゴリズムは、特定の問題を解決するための競争戦略である。 我々は最適な量子制御にその使用を推し進めた。 量子デバイス上に閉じ込められた量子粒子の波長-パケット展開を有限個の量子ビットでシミュレートする。 次に、勾配降下に基づく回路学習を用いて、制御相転移とユニタリダイナミクスによって課される量子速度制限との間の本質的な接続を解明する。 さらに,本手法の誤差に対する堅牢性について考察し,回路にバレンプラトーが存在しないことを示す。 ディジタル量子シミュレーションとハイブリッド回路学習の組み合わせは、量子最適制御の新しい可能性を開く。

The simulation of quantum dynamics on a digital quantum computer with parameterized circuits has widespread applications in fundamental and applied physics and chemistry. In this context, using the hybrid quantum-classical algorithm, combining classical optimizers and quantum computers, is a competitive strategy for solving specific problems. We put forward its use for optimal quantum control. We simulate the wave-packet expansion of a trapped quantum particle on a quantum device with a finite number of qubits. We then use circuit learning based on gradient descent to work out the intrinsic connection between the control phase transition and the quantum speed limit imposed by unitary dynamics. We further discuss the robustness of our method against errors and demonstrate the absence of barren plateaus in the circuit. The combination of digital quantum simulation and hybrid circuit learning opens up new prospects for quantum optimal control.
翻訳日:2023-01-20 19:36:15 公開日:2022-11-01
# ボース・アインシュタイン凝縮物中の不純物の量子力学

Quantum dynamics of impurities in a Bose-Einstein condensate ( http://arxiv.org/abs/2211.00403v1 )

ライセンス: Link先を確認
Javed Akram(参考訳) 準1次元ボース・アインシュタイン凝縮体(BEC)における2つの不純物の量子力学について検討した。 ボース・アインシュタイン凝縮体中の不純物の力学に及ぼす不純物-BECおよび不純物-不純物相互作用強度の影響を調べた。 不純物とBECの自己相関関数を研究することにより、BEC内の不純物のトラップの解析と定量化を行う。 種間結合強度の小さい値の場合、BECはトラップ内で振動し始めます。 弱い結合強度のために、BEC内の数サイクルの振動の後、魅力的な不純物と反発性の不純物が捕獲される。 強い相互作用強度体制では、不純物の対向運動は極めて早く抑制される。 結論から,クエンチダイナミクスは,不純物bec相互作用や不純物-不純物相互作用を研究するためのツールであることが示唆された。 解析の結果, フォノン, 衝撃波, ソリトン, セルフトラッピングの発生は不純物-BEC結合係数に強く依存していることがわかった。

We study the quantum dynamics of the two impurities in a trapped quasi-one-dimensional Bose-Einstein condensate (BEC). We explore the effect of impurity-BEC and impurity-impurity interaction strengths on the dynamics of impurities inside the Bose-Einstein condensate. By studying the auto-correlation function of impurities and the BEC, we analyze and quantify the trapping of impurities inside the BEC. We find out that for the small value of inter-species coupling strength the BEC starts to oscillate inside the trap. For mild coupling strengths, attractive and repulsive impurities are captured after a few cycles of oscillation inside the BEC. In the strong interaction strength regime, the to-and-fro motion of impurities is suppressed quite fast. Our conclusion indicates that quench dynamics can be a tool for studying impurity BEC interactions or impurity-impurity interactions. Our analysis shows that the generation of phonon, shock waves, soliton trains, and self-trapping is strongly dependent on the impurity-BEC coupling coefficient.
翻訳日:2023-01-20 19:36:05 公開日:2022-11-01
# PT対称環境下での単離ボース-アインシュタイン凝縮体の熱化

Thermalization of isolated Bose-Einstein condensate under a PT-symmetric environment ( http://arxiv.org/abs/2211.00390v1 )

ライセンス: Link先を確認
Javed Akram and Asad Hussain and Muhammad Nouman and Jameel Hussain(参考訳) 固有状態熱化仮説(eth)の仮定によれば、熱化は系のハミルトニアンの個々の固有状態によって起こるという。 しかし、ETHは熱化に繋がる力学に光を当てていない。 本稿では,高調波トラップに埋め込まれた光学格子電位に閉じ込められたボース・アインシュタイン凝縮体(BEC)の熱化を観察する。 このような光学格子電位は、振動するBECに局所的な摩擦を与える。 BECの時間密度プロットの広がりはBECの熱化を示している。 さらに, PT対称ポテンシャルの存在がBEC力学および系の熱化に大きく影響していることが観察された。 PT対称ポテンシャルの存在は、BECの平均位置を所望の位置と所望の時間で操作する方法を提供する。

The postulates of the eigenstate thermalization hypothesis (ETH) express that thermalization occurs due to the individual eigenstate of the system's Hamiltonian. But the ETH put no light on the dynamics that lead toward thermalization. In this paper, we observe the thermalization of a Bose-Einstein Condensate (BEC) confined in an optical lattice potential that is embedded in the harmonic trap. Such optical lattice potential offers local friction to the oscillating BEC. The spread in the temporal density plot of BEC shows the thermalization of the BEC. Moreover, we observe that the presence of a PT-symmetric potential greatly influences the BEC dynamics and the thermalization of the system. The presence of a PT-symmetric potential offers a way to manipulate the mean position of the BEC to the desired location and for a desired length of time.
翻訳日:2023-01-20 19:35:48 公開日:2022-11-01
# 量子周縁の適合性に必要な不等式の十分な族

A sufficient family of necessary inequalities for the compatibility of quantum marginals ( http://arxiv.org/abs/2211.00685v1 )

ライセンス: Link先を確認
Thomas C. Fraser(参考訳) 量子境界問題は、異なるサブシステム上の量子状態の集まりが、それらがある種の多部量子状態の限界であるという意味で互換性があるかの特徴付けに関係している。 ここで示される可算不等式族は、それぞれが量子状態の任意の相反する集合によって満たされる。 さらに、この不等式族は十分であることが示され、全ての非互換な量子状態の集合は族に属する少なくとも1つの不等式に違反する。

The quantum marginal problem is concerned with characterizing which collections of quantum states on different subsystems are compatible in the sense that they are the marginals of some multipartite quantum state. Presented here is a countable family of inequalities, each of which is necessarily satisfied by any compatible collection of quantum states. Additionally, this family of inequalities is shown to be sufficient: every incompatible collection of quantum states will violate at least one inequality belonging to the family.
翻訳日:2023-01-20 19:30:21 公開日:2022-11-01
# 非エルミート型$\mathcal{p}\mathcal{t}$-symmetric transverse-field ising spin chainsの量子相転移

Quantum phase transitions in non-Hermitian $\mathcal{P}\mathcal{T}$-symmetric transverse-field Ising spin chains ( http://arxiv.org/abs/2211.00679v1 )

ライセンス: Link先を確認
Grigory A. Starkov, Mikhail V. Fistoul, Ilya M. Eremin(参考訳) 本稿では,非エルミート系$\mathcal{p}\mathcal{t}$-symmetric superconducting qubits chains において発生する量子相と量子相転移に関する理論的研究について述べる。 ハミルトニアンの非エルミート的部分は、局所スタガード利得と損失項に対応する虚数スタガード \textit{longitudinal } 磁場を介して実装される。 有限サイズのスピン鎖に対してハミルトニアンの直接数値対角化を$N$とすることで、第一励起状態と基底状態の間のエネルギー差、隣接するスピン間の相互作用強度$J$と局所ゲイン(損失)パラメータ$\gamma$の空間的相関関数(局所磁化のz$成分)を含むエネルギースペクトルの依存関係を探索する。 コヒーレンス長$\xi$のスケーリング手順により、システムの完全な量子位相図を確立することができる。 我々は、$J<0$、すなわち$\mathcal{P}\mathcal{T}$対称性の反強磁性状態と$\mathcal{P}\mathcal{T}$対称性の常磁性状態の2つの量子相を求め、それらの間の量子相転移線は例外点の直線である。 j>0$ に対して、基底状態の$\mathcal{p}\mathcal{t}$-symmetry は、パラメータ空間の全体領域の $j$ と $\gamma$ に保持され、固定されたパラメータ $\gamma > 1$ に対して強磁性と常磁性の間の量子相転移を惹きつける \textit{two} を示す。 また、数値的に得られた結果とよく一致するBethe-Peierls近似の枠組みから導出される定性量子位相図 $\gamma-J$ も提供する。

We present a theoretical study of quantum phases and quantum phase transitions occurring in non-Hermitian $\mathcal{P}\mathcal{T}$-symmetric superconducting qubits chains described by a transverse-field Ising spin model. A non-Hermitian part of the Hamiltonian is implemented via imaginary staggered \textit{longitudinal } magnetic field, which corresponds to a local staggered gain and loss terms. By making use of a direct numerical diagonalization of the Hamiltonian for spin chains of a finite size $N$, we explore the dependencies of the energy spectrum, including the energy difference between the first excited and the ground states, the spatial correlation function of local polarization ($z$-component of local magnetization) on the adjacent spins interaction strength $J$ and the local gain (loss) parameter $\gamma$. A scaling procedure for the coherence length $\xi$ allows us to establish a complete quantum phase diagram of the system. We obtain two quantum phases for $J<0$, namely, $\mathcal{P}\mathcal{T}$-symmetry broken antiferromagnetic state and $\mathcal{P}\mathcal{T}$-symmetry preserved paramagnetic state, and the quantum phase transition line between them is the line of exception points. For $J>0$ the $\mathcal{P}\mathcal{T}$-symmetry of the ground state is retained in a whole region of parameter space of $J$ and $\gamma$, and a system shows \textit{two} intriguing quantum phase transitions between ferromagnetic and paramagnetic states for a fixed parameter $\gamma > 1$. We also provide the qualitative quantum phase diagram $\gamma-J$ derived in the framework of the Bethe-Peierls approximation that is in a good accord with numerically obtained results.
翻訳日:2023-01-20 19:30:10 公開日:2022-11-01
# ディック超放射能は近傍近傍の相互作用を必要とする

Dicke superradiance requires interactions beyond nearest-neighbors ( http://arxiv.org/abs/2211.00668v1 )

ライセンス: Link先を確認
Wai-Keong Mok, Ana Asenjo-Garcia, Tze Chien Sum, Leong-Chuan Kwek(参考訳) 光子を媒介とするエミッタの励起アンサンブル内の相互作用はディック超放射能を生じさせ、発光速度は大幅に向上し、短時間で高強度バーストとして現れる。 超ラジアントバーストは、エミッター間の長距離相互作用を持つ系で一般的に観測されるが、最小相互作用範囲は未知である。 ここで、全ての次元において最も近接な相互作用しか持たない任意の順序配列に対して、超ラジアントバーストの条件は密度行列の正則性に反し、物理的に観測できないことを証明する。 ディック超放射能は、次のアネレスト-隣の相互作用を最小限に含める必要があることを示す。 指数関数的に崩壊する相互作用では、臨界カップリングは全ての次元のエミッターの数とは漸近的に独立しており、その結果、集合的な強化がデコヒーレンス効果とバランスをとるしきい値相互作用範囲を定義する。 本研究は,多体量子系における集団崩壊の理解と,エネルギー収穫や量子センシングなどの応用のための物理系における超ラジアント放出の設計に関する重要な物理知見を提供する。

Photon-mediated interactions within an excited ensemble of emitters can result in Dicke superradiance, where the emission rate is greatly enhanced, manifesting as a high-intensity burst at short times. The superradiant burst is most commonly observed in systems with long-range interactions between the emitters, although the minimal interaction range remains unknown. Here, we prove that for an arbitrary ordered array with only nearest-neighbor interactions in all dimensions, the condition for a superradiant burst violates the positivity of the density matrix and is thus not physically observable. We show that Dicke superradiance requires minimally the inclusion of next-nearest-neighbor interactions. For exponentially decaying interactions, the critical coupling is found to be asymptotically independent of the number of emitters in all dimensions, thereby defining the threshold interaction range where the collective enhancement balances out the decoherence effects. Our findings provide key physical insights to the understanding of collective decay in many-body quantum systems, and the designing of superradiant emission in physical systems for applications such as energy harvesting and quantum sensing.
翻訳日:2023-01-20 19:29:28 公開日:2022-11-01
# マヨラナ非局在化による表面符号のコヒーレント誤差閾値

Coherent error threshold for surface codes from Majorana delocalization ( http://arxiv.org/abs/2211.00655v1 )

ライセンス: Link先を確認
Florian Venn, Jan Behrends, Benjamin B\'eri(参考訳) 統計力学マッピングは、量子エラー補正に関する重要な洞察を提供する。 しかし、既存の写像は非コヒーレントノイズを仮定し、例えばスプリアスゲート回転によるコヒーレントエラーを無視する。 x$- または $z$-rotations (replacing bit または phase flips) として、表面コードをコヒーレントなエラーでマッピングし、複雑なカップリングを持つ二次元(2d)イジングモデル、さらに2d majorana散乱ネットワークにマップします。 以上より,コヒーレントおよび非コヒーレント誤差の補正において,共通点と質的差異の両方を明らかにする。 どちらも、2Dネットワークを1Dフェルミオンにリンクさせることで明確に示されるように、誤差補正位相写像は$\mathbb{Z}_2$-nontrivial 2D 絶縁体である。 しかし、回転角 $\phi_\text{th}$ を超えて、非コヒーレントエラーに対して$\mathbb{z}_2$-trivial insulator の代わりに、コヒーレントエラーは majorana 金属にマップされる。 この$\phi_\text{th}$は理論上達成可能なストレージ閾値である。 数値的には $\phi_\text{th}\approx0.14\pi$ である。 対応するビットフリップ率 $\sin^2(\phi_\text{th})\approx 0.18$ は既知の不整合しきい値 $p_\text{th}\approx0.11$ を超える。

Statistical mechanics mappings provide key insights on quantum error correction. However, existing mappings assume incoherent noise, thus ignoring coherent errors due to, e.g., spurious gate rotations. We map the surface code with coherent errors, taken as $X$- or $Z$-rotations (replacing bit or phase flips), to a two-dimensional (2D) Ising model with complex couplings, and further to a 2D Majorana scattering network. Our mappings reveal both commonalities and qualitative differences in correcting coherent and incoherent errors. For both, the error-correcting phase maps, as we explicitly show by linking 2D networks to 1D fermions, to a $\mathbb{Z}_2$-nontrivial 2D insulator. However, beyond a rotation angle $\phi_\text{th}$, instead of a $\mathbb{Z}_2$-trivial insulator as for incoherent errors, coherent errors map to a Majorana metal. This $\phi_\text{th}$ is the theoretically achievable storage threshold. We numerically find $\phi_\text{th}\approx0.14\pi$. The corresponding bit-flip rate $\sin^2(\phi_\text{th})\approx 0.18$ exceeds the known incoherent threshold $p_\text{th}\approx0.11$.
翻訳日:2023-01-20 19:29:08 公開日:2022-11-01
# ライドバーグ原子のハニカム配列におけるトリマー量子スピン液体

Trimer quantum spin liquid in a honeycomb array of Rydberg atoms ( http://arxiv.org/abs/2211.00653v1 )

ライセンス: Link先を確認
Milan Kornja\v{c}a, Rhine Samajdar, Tommaso Macr\`i, Nathan Gemelke, Sheng-Tao Wang, and Fangli Liu(参考訳) 量子スピン液体は、長距離量子の絡み合いによって特徴づけられる強相関量子状態のパラダイム的例である。 近年,ルビー格子上に配列されたrydberg原子の系において,ガッピング位相的$\mathbb{z}_2$スピン液体の直接的シグネチャが観察されている。 ここでは, ライドバーグ原子のハニカム配列において, 原理的に異なるスピン液体のクラスを具体化する。 密度行列再正規化群と厳密対角化シミュレーションの両方を用いて、この系の量子位相図を探索する。 より興味深いことに、第3アレスト近傍の原子がリドベルク封鎖半径内にある状態では、双対三角格子上の古典的三量体構成の重ね合わせから形成される新しい基底状態(創発的な$\mathrm{U}(1)\times \mathrm{U}(1)$局所対称性)が見つかる。 このトリマースピン状態の忠実性は、レーザー駆動の滑らかなターンオフに伴うrydberg-blockadeに基づく投影機構によって説明される力学合成によって向上することができる。 最後に,現実的な実験パラメータの下でのトリマースピン液体相のロバスト性について議論し,本提案が現在のrydberg原子量子シミュレータに容易に実装できることを実証する。

Quantum spin liquids are elusive but paradigmatic examples of strongly correlated quantum states that are characterized by long-range quantum entanglement. Recently, the direct signatures of a gapped topological $\mathbb{Z}_2$ spin liquid have been observed in a system of Rydberg atoms arrayed on the ruby lattice. Here, we illustrate the concrete realization of a fundamentally different class of spin liquids in a honeycomb array of Rydberg atoms. Exploring the quantum phase diagram of this system using both density-matrix renormalization group and exact diagonalization simulations, several density-wave-ordered phases are characterized and their origins explained. More interestingly, in the regime where third-nearest-neighbor atoms lie within the Rydberg blockade radius, we find a novel ground state -- with an emergent $\mathrm{U}(1)\times \mathrm{U}(1)$ local symmetry -- formed from superpositions of classical {\it trimer} configurations on the dual triangular lattice. The fidelity of this trimer spin liquid state can be enhanced via dynamical preparation, which we explain by a Rydberg-blockade-based projection mechanism associated with the smooth turnoff of the laser drive. Finally, we discuss the robustness of the trimer spin liquid phase under realistic experimental parameters and demonstrate that our proposal can be readily implemented in current Rydberg atom quantum simulators.
翻訳日:2023-01-20 19:28:41 公開日:2022-11-01
# 永続テンソルと多次元エンタングルメント変換

Persistent Tensors and Multiqudit Entanglement Transformation ( http://arxiv.org/abs/2211.00652v1 )

ライセンス: Link先を確認
Masoud Gharahi and Vladimir Lysikov(参考訳) 我々は、新しいテンソルのクラスに対してテンソル階数の下限を構築し、永続テンソルと呼ぶ。 持続テンソルの3つの特定の族を示し、その下限はタイトである。 これらの3つの族の間には、それらの間の絡み合い変換の研究に使用できる最小ランクの永続テンソルの縮退の連鎖があることを示す。 さらに、持続テンソルのこれらの3つの族は、確かにマルチキュービット$\rm{W}$状態の異なる一般化であり、幾何的にマルチキュービット$\rm{GHZ}$状態の軌道閉包にあることを示す。 その結果,マルチキューディット$\rm{GHZ}$状態からの$\rm{W}$状態の一般化を,漸近的確率的局所演算と古典的通信(SLOCC)をレート1で得られることを示す。 最後に、得られたテンソルランクの下界を、永続的なサマンドを持つ直和と、ブロックピラミッドテンソルと呼ばれるテンソルのより一般的な組み合わせに拡張する。 結果として、テンソル階数はクローネッカーと、$\rm{GHZ}$テンソルを持つ最小ランクの持続テンソルのテンソル積の下で乗法的であることを示す。

We construct a lower bound of the tensor rank for a new class of tensors, which we call persistent tensors. We present three specific families of persistent tensors, of which the lower bound is tight. We show that there is a chain of degenerations between these three families of minimal-rank persistent tensors that can be used to study the entanglement transformation between them. In addition, we show that these three families of persistent tensors are indeed different generalizations of multiqubit $\rm{W}$ states within multiqudit systems and are geometrically in the orbit closure of multiqudit $\rm{GHZ}$ states. Consequently, we show that one can obtain every one of the generalizations of $\rm{W}$ state from a multiqudit $\rm{GHZ}$ state via asymptotic Stochastic Local Operations and Classical Communication (SLOCC) with rate one. Finally, we extend the obtained lower bound of the tensor rank to direct sums with persistent summands and to even more general combinations of tensors, which we call block pyramidal tensors. As a result, we show that the tensor rank is multiplicative under the Kronecker and tensor products of minimal-rank persistent tensors with the $\rm{GHZ}$ tensor.
翻訳日:2023-01-20 19:28:14 公開日:2022-11-01
# 摂動型J1-J2ハイゼンベルク量子鎖の基底および第1励起状態混合における相転移の推定

Estimating phase transition of perturbed J1-J2 Heisenberg quantum chain in mixtures of ground and first excited states ( http://arxiv.org/abs/2211.00623v1 )

ライセンス: Link先を確認
Sayan Mondal, George Biswas, Ahana Ghoshal, Anindya Biswas, Ujjwal Sen(参考訳) J1-J2ハイゼンベルク量子スピン鎖の1次励起状態と1次励起状態の混合状態における近傍の絡み合いは、無隙間スピン流体から間隙二量体相への鎖の相転移を検出する秩序パラメータとして利用できることを示す。 本研究では, 基底状態と第一励起状態との相対混合確率を, 系の大きさの異なるサブジャエント状態において変化させる順序パラメータの有効性について検討し, 熱力学的限界に導出する。 近傍のコンカレンスは, システムが基底状態であっても良好な順序パラメータとして機能するが, 第1の励起状態に漏れる確率は小さい。 さらに,模型の位相図上の異方性およびガラス性障害の出現に対する応答を調べるために,サブジャエント状態の秩序パラメータを適用し,対応する有限スケール指数と創発的三重臨界点を分析した。

We show that the nearest neighbour entanglement in a mixture of ground and first excited states - the subjacent state - of the J1-J2 Heisenberg quantum spin chain can be used as an order parameter to detect the phase transition of the chain from a gapless spin fluid to a gapped dimer phase. We study the effectiveness of the order parameter for varying relative mixing probabilities between the ground and first excited states in the subjacent state for different system sizes, and extrapolate the results to the thermodynamic limit. We observe that the nearest neighbour concurrence can play a role of a good order parameter even if the system is in the ground state, but with a small probability of leaking into the first excited state. Moreover, we apply the order parameter of the subjacent state to investigate the response to introduction of anisotropy and of glassy disorder on the phase diagram of the model, and analyse the corresponding finite-size scale exponents and the emergent tricritical point.
翻訳日:2023-01-20 19:27:48 公開日:2022-11-01
# 効率的なバックトラックライン探索による量子自然勾配

Quantum Natural Gradient with Efficient Backtracking Line Search ( http://arxiv.org/abs/2211.00615v1 )

ライセンス: Link先を確認
Touheed Anwar Atif, Uchenna Chukwu, Jesse Berwald and Raouf Dridi(参考訳) 近年,変分量子アルゴリズムを学習するために提案されたQNGD(Quantum Natural Gradient Descent)方式について検討した。 QNGD (Steepest Gradient Descent, SGD) は、フビニ・スタディ計量を備えた複素射影空間で動作する。 本稿ではArmijoの規則に基づくQNGDの適応的実装を提案する。 提案アルゴリズムは, 様々な初期化を伴う3種類のモデルにおいて, 雑音シミュレータを用いて検証する。 以上の結果から,適応型QNGDはステップサイズを動的に適応し,競争的に最適なステップサイズに関する知識を必要とする元のQNGDを一貫して上回ることを示す。 さらに,適応qngdで行探索を行うための追加の複雑さは最小であり,提案する適応戦略によって提供される利得が複雑さの増大を支配することを保証する。 さらに、上記の適応型スキームを具備した単純なSGDアルゴリズム(ユークリッド空間に実装)により、最適なステップサイズを持つQNGDスキームと同様の性能が得られることを示した。 我々の結果は、変分量子計算における微分幾何学の重要性の新たな確認である。 実際、我々は、より高速で効率的なアルゴリズムの設計を導く上で、高度な数学がNISQ時代に顕著な役割を果たしていることを予測している。

We consider the Quantum Natural Gradient Descent (QNGD) scheme which was recently proposed to train variational quantum algorithms. QNGD is Steepest Gradient Descent (SGD) operating on the complex projective space equipped with the Fubini-Study metric. Here we present an adaptive implementation of QNGD based on Armijo's rule, which is an efficient backtracking line search that enjoys a proven convergence. The proposed algorithm is tested using noisy simulators on three different models with various initializations. Our results show that Adaptive QNGD dynamically adapts the step size and consistently outperforms the original QNGD, which requires knowledge of optimal step size to {perform competitively}. In addition, we show that the additional complexity involved in performing the line search in Adaptive QNGD is minimal, ensuring the gains provided by the proposed adaptive strategy dominates any increase in complexity. Additionally, our benchmarking demonstrates that a simple SGD algorithm (implemented in the Euclidean space) equipped with the adaptive scheme above, can yield performances similar to the QNGD scheme with optimal step size. Our results are yet another confirmation of the importance of differential geometry in variational quantum computations. As a matter of fact, we foresee advanced mathematics to play a prominent role in the NISQ era in guiding the design of faster and more efficient algorithms.
翻訳日:2023-01-20 19:27:29 公開日:2022-11-01
# x線トムソン散乱法による虚時領域の温密物質の実験:理論的モデルとシミュレーション

Analyzing X-ray Thomson scattering experiments of warm dense matter in the imaginary-time domain: theoretical models and simulations ( http://arxiv.org/abs/2211.00579v1 )

ライセンス: Link先を確認
Tobias Dornheim and Jan Vorberger and Zhandos Moldabekov and Maximilian B\"ohme(参考訳) 熱密物質(WDM)を用いた実験の厳密な診断は、非常に難しい。 鍵となる方法はX線トムソン散乱(XRTS)によって与えられるが、XRTSの測定の解釈は通常、様々な近似を持つ理論モデルに基づいている。 最近 ドルンハイムらです [arXiv:2206.12805]は、仮想時間相関関数(ITCF)に基づくXRTS実験の温度診断のための新しいフレームワークを導入した。 一方、周波数領域から虚時間領域へ切り替えることで、多くの物理的特性に直接アクセスでき、モデルや近似なしに任意の複雑な物質の温度の抽出が容易になる。 一方、動的量子多体理論における理論的な研究の大部分は周波数領域に費やされており、我々の知る限り、ITCFにおける物理特性の顕在化はいまだに理解されていない。 本研究では,虚時経路積分の枠組みにおける二体相関の虚時依存に対する単純半解析モデルを導入することで,この不満足な状況を改善することを目的とする。 実例として、均一な電子ガスのITCFに対して、我々の新しいモデルと広範囲のアブイニシオパス積分モンテカルロの結果を比較し、幅広い波動数、密度、温度に関する優れた一致を見出した。

The rigorous diagnostics of experiments with warm dense matter (WDM) is notoriously difficult. A key method is given by X-ray Thomson scattering (XRTS), but the interpretation of XRTS measurements is usually based on theoretical models that entail various approximations. Recently, Dornheim et al. [arXiv:2206.12805] have introduced a new framework for temperature diagnostics of XRTS experiments that is based on imaginary-time correlation functions (ITCF). On the one hand, switching from the frequency- to the imaginary-time domain gives one direct access to a number of physical properties, which facilitates the extraction of the temperature of arbitrarily complex materials without any models or approximations. On the other hand, the bulk of theoretical works in dynamic quantum many-body theory is devoted to the frequency-domain, and, to our knowledge, the manifestation of physics properties within the ITCF remains poorly understood. In the present work, we aim to change this unsatisfactory situation by introducing a simple, semi-analytical model for the imaginary-time dependence of two-body correlations within the framework of imaginary-time path integrals. As a practical example, we compare our new model to extensive ab initio path integral Monte Carlo results for the ITCF of a uniform electron gas, and find excellent agreement over a broad range of wave numbers, densities, and temperatures.
翻訳日:2023-01-20 19:27:06 公開日:2022-11-01
# 単純分布、凸圏および文脈性

Simplicial distributions, convex categories and contextuality ( http://arxiv.org/abs/2211.00571v1 )

ライセンス: Link先を確認
Aziz Kharoof, Cihan Okay(参考訳) 物理実験のデータは確率分布の前駆体として表現することができる。 量子論の顕著な特徴は、量子力学実験で得られた確率分布は、ベルによる祝福された観測である合同確率分布を必ずしも含まないことである。 このような分布を文脈と呼ぶ。 単純分布 (simplicial distributions) は、確率分布の前層を拡張する組合せモデルである。 文脈性はこの一般化された設定で定義できる。 本稿では,カテゴリー的視点から単純な分布を研究するための凸圏の概念を紹介する。 単純分布は、結果空間が群の構造を持つとき、単一の対象を持つ凸圏である凸モノイドの構造を与えることができる。 文脈性はモノイドに対する可逆性の弱いバージョンを導入することによってモノイド理論的な概念として記述する。 我々の主な結果は、単純分布が非文脈的であることと弱可逆であることである。 同様に、強い文脈性と文脈分数もモノイドの可逆性の観点から特徴づけることができる。 最後に,cechコホモロジーと群のコホモロジーに基づく初期の手法を精査する極値単純分布を検出するために,単純ホモトピーが利用できることを示す。

The data of a physical experiment can be represented as a presheaf of probability distributions. A striking feature of quantum theory is that those probability distributions obtained in quantum mechanical experiments do not always admit a joint probability distribution, a celebrated observation due to Bell. Such distributions are called contextual. Simplicial distributions are combinatorial models that extend presheaves of probability distributions by elevating sets of measurements and outcomes to spaces. Contextuality can be defined in this generalized setting. This paper introduces the notion of convex categories to study simplicial distributions from a categorical perspective. Simplicial distributions can be given the structure of a convex monoid, a convex category with a single object, when the outcome space has the structure of a group. We describe contextuality as a monoid-theoretic notion by introducing a weak version of invertibility for monoids. Our main result is that a simplicial distribution is noncontextual if and only if it is weakly invertible. Similarly, strong contextuality and contextual fraction can be characterized in terms of invertibility in monoids. Finally, we show that simplicial homotopy can be used to detect extremal simplicial distributions refining the earlier methods based on Cech cohomology and the cohomology of groups.
翻訳日:2023-01-20 19:26:44 公開日:2022-11-01
# 政策を意思決定モデルに変換する人間-AI協調システムの構築

Envisioning a Human-AI collaborative system to transform policies into decision models ( http://arxiv.org/abs/2212.06882v1 )

ライセンス: Link先を確認
Vanessa Lopez, Gabriele Picco, Inge Vejsbjerg, Thanh Lam Hoang, Yufang Hou, Marco Luca Sbodio, John Segrave-Daly, Denisa Moga, Sean Swords, Miao Wei and Eoin Carroll(参考訳) 規制は市民の日常生活の多くの側面を支配している。 政府や企業は、コード化された規則(例えば、特定の利益のために市民の適格性をチェックするために)の形でこれを日常的に自動化する。 しかし、自動化への道は長くて困難です。 これに対処するため、デジタル政府のための最近のグローバルイニシアティブは、人間の消費のための自然言語と計算可能な規則やコードを同時に表現することを提案しており、広く公共の関心を集めている。 本稿では,ソーシャルサービスのための資格ポリシーから意思決定モデルを半自動構築する問題を紹介し,ポリシー文書からAI,NLP,知識グラフを用いた決定モデルの実行,解釈,標準化までの道程を短縮する初期的アプローチを提案する。 オープンドメインの課題を数多く抱えているが、このポジションでは、透明性、解釈可能性、トレーサビリティ、意思決定の責任性を改善しながら、人間の可読性と機械実行可能ポリシールールの両方の生産をスケールする上で、政府機関や政策の専門家を支援するaiの膨大な可能性を探求する。

Regulations govern many aspects of citizens' daily lives. Governments and businesses routinely automate these in the form of coded rules (e.g., to check a citizen's eligibility for specific benefits). However, the path to automation is long and challenging. To address this, recent global initiatives for digital government, proposing to simultaneously express policy in natural language for human consumption as well as computationally amenable rules or code, are gathering broad public-sector interest. We introduce the problem of semi-automatically building decision models from eligibility policies for social services, and present an initial emerging approach to shorten the route from policy documents to executable, interpretable and standardised decision models using AI, NLP and Knowledge Graphs. Despite the many open domain challenges, in this position paper we explore the enormous potential of AI to assist government agencies and policy experts in scaling the production of both human-readable and machine executable policy rules, while improving transparency, interpretability, traceability and accountability of the decision making.
翻訳日:2023-01-20 19:19:56 公開日:2022-11-01
# トレーディングシステムに応用した強化学習:調査

Reinforcement Learning Applied to Trading Systems: A Survey ( http://arxiv.org/abs/2212.06064v1 )

ライセンス: Link先を確認
Leonardo Kanashiro Felizardo, Francisco Caio Lima Paiva, Anna Helena Reali Costa, Emilio Del-Moral-Hernandez(参考訳) 市場取引所での取引のような金融分野の業務は困難であり、長い間研究者を惹きつけてきた。 近年の業績と強化学習(rl)の良さもトレーディングタスクへの採用を増加させている。 RLは確立された形式的な概念を持つフレームワークを使用しており、収益性のあるトレーディング戦略を学習する際の魅力を高めている。 しかし、金融分野での注意を払わずにRLを使用することは、新しい研究者が基準に従うことや、関連する概念ガイドラインを採用できないことを防げる。 本研究では,研究分野の構造化ガイドとして機能する以前の研究の統一的,理論的に基礎的な検討と比較を行うための,基礎的RLの技術的基礎,概念,レコメンデーションを取り入れた。 rlの最も一般的な定式化とデザインパターンを、利用可能な多数の研究から考慮した分類において、29の論文の選定について検討した。 この分類により、データ入力、前処理、状態とアクションの構成、rl技術の採用、評価設定、全体的な結果など、最も関連する側面の正確な検査が可能となった。 私たちの分析アプローチは、現在のシステム設計のベストプラクティス、さらなる調査を必要とするギャップ、有望な研究機会を明確に識別できる基本的なrl概念を中心に構成されています。 最後に、本研究は、研究者の標準遵守へのコミットメントを促進し、RL構造体から遠ざかることを避けることによって、この分野の発展を促進する試みである。

Financial domain tasks, such as trading in market exchanges, are challenging and have long attracted researchers. The recent achievements and the consequent notoriety of Reinforcement Learning (RL) have also increased its adoption in trading tasks. RL uses a framework with well-established formal concepts, which raises its attractiveness in learning profitable trading strategies. However, RL use without due attention in the financial area can prevent new researchers from following standards or failing to adopt relevant conceptual guidelines. In this work, we embrace the seminal RL technical fundamentals, concepts, and recommendations to perform a unified, theoretically-grounded examination and comparison of previous research that could serve as a structuring guide for the field of study. A selection of twenty-nine articles was reviewed under our classification that considers RL's most common formulations and design patterns from a large volume of available studies. This classification allowed for precise inspection of the most relevant aspects regarding data input, preprocessing, state and action composition, adopted RL techniques, evaluation setups, and overall results. Our analysis approach organized around fundamental RL concepts allowed for a clear identification of current system design best practices, gaps that require further investigation, and promising research opportunities. Finally, this review attempts to promote the development of this field of study by facilitating researchers' commitment to standards adherence and helping them to avoid straying away from the RL constructs' firm ground.
翻訳日:2023-01-20 19:19:37 公開日:2022-11-01
# エネルギーモーメントを用いた高速スペクトル密度計算

Faster spectral density calculation using energy moments ( http://arxiv.org/abs/2211.00790v1 )

ライセンス: Link先を確認
Jeremy Hartse and Alessandro Roggero(参考訳) 線形応答系における包括的散乱断面積の正確な予測には、強相関多体系におけるスペクトル密度を計算するための効率的かつ制御可能な方法が必要である。 本研究では,量子コンピュータ上で効率的に計算できるハミルトニアンのフーリエモーメントを用いて,最近提案されたガウス積分変換手法を再構成する。 このフレームワークの主な利点の1つは、スペクトル密度のエネルギーモーメントに関する以前の知識を活用することにより、計算コストの大幅な削減を可能にすることである。 例えば、$^{40}$Caや1ドルMeVの目標エネルギー分解能の単純なモデルでは、巨大な双極子反応の計算には$\approx 125$、典型的な運動量転移における準弾性電子散乱のシミュレーションには$$\approx 50$の速さが期待できる。

Accurate predictions of inclusive scattering cross sections in the linear response regime require efficient and controllable methods to calculate the spectral density in a strongly-correlated many-body system. In this work we reformulate the recently proposed Gaussian Integral Transform technique in terms of Fourier moments of the system Hamiltonian which can be computed efficiently on a quantum computer. One of the main advantages of this framework is that it allows for an important reduction of the computational cost by exploiting previous knowledge about the energy moments of the spectral density. For a simple model of medium mass nucleus like $^{40}$Ca and target energy resolution of $1$ MeV we find an expected speed-up of $\approx 125$ times for the calculation of the giant dipole response and of $\approx 50$ times for the simulation of quasi-elastic electron scattering at typical momentum transfers.
翻訳日:2023-01-20 19:19:07 公開日:2022-11-01
# 運動量空間におけるヒルベルト空間の断片化から生じる永続電流状態

Persistent-current states originating from the Hilbert space fragmentation in momentum space ( http://arxiv.org/abs/2211.00785v1 )

ライセンス: Link先を確認
Masaya Kunimi and Ippei Danshita(参考訳) ヒルベルト空間フラグメンテーション (Hilbert space fragmentation, HSF) は、孤立量子系のヒルベルト空間が指数的に多くの非連結部分集合に分裂する現象である。 分裂した系は、ダイナミクスが小さなサブセクタに制限されるため、長期間の進化の後に熱化することはない。 HSFの最近の発展に触発されて、運動量空間において HSF を示すハミルトニアンを構成する。 運動量空間のHSFにより、持続電流(PC)状態が出現することを示す。 また,hsfの構造を破る確率ポテンシャルに対するpc状態の安定性についても検討し,pcの減衰速度が電流速度にほぼ依存していることを見いだした。

Hilbert space fragmentation (HSF) is a phenomenon that the Hilbert space of an isolated quantum system splits into exponentially many disconnected subsectors. The fragmented systems do not thermalize after long-time evolution because the dynamics are restricted to a small subsector. Inspired by recent developments of the HSF, we construct the Hamiltonian that exhibits the HSF in the momentum space. We show that persistent-current (PC) states emerge due to the HSF in the momentum space. We also investigate the stability of the PC states against the random potential, which breaks the structure of the HSF, and find that the decay rate of the PC is almost independent of the current velocity.
翻訳日:2023-01-20 19:18:50 公開日:2022-11-01
# セキュアなマルチパーティ量子計算プロトコルの汎用性の改善:三角量子誤り訂正符号の活用

An improvement on the versatility of secure multi-party quantum computation protocol: exploitation of triorthogonal quantum error-correcting codes ( http://arxiv.org/abs/2211.00777v1 )

ライセンス: Link先を確認
Petr A. Mishchenko and Keita Xagawa(参考訳) セキュアなマルチパーティ量子計算 (MPQC) プロトコルは、数個の量子ノードがプロトコルの命令に忠実に従わなくても、$n$の互いに不信な量子ノードのグループにエラーのない分散量子計算を可能にする汎用的なツールである。 しかし、量子誤り訂正技術の上に構築されたMPQCプロトコルの場合、その汎用性は特定の量子誤り訂正符号(QECC)を選択する必要があるという事実によって大きく影響される。 そこで本研究では,三元交互QECCに基づくMPQCプロトコルを改良し,三元交互QECCに基づくMPQCプロトコルと比較した場合の量子ノード数$n$に対する制約を著しく小さくする手法を提案する。 特に、少数の量子ノード$n$の領域で利用可能な様々なオプションは、ノイズの多い中間スケール量子(NISQ)時代に重要になる。

Secure multi-party quantum computation (MPQC) protocol is a versatile tool that enables error-free distributed quantum computation to a group of $n$ mutually distrustful quantum nodes even when some of the quantum nodes do not follow the instructions of the protocol honestly. However, in case of the MPQC protocols built on top of the quantum error correction technique, the versatility is significantly affected by the fact that one has to choose a particular quantum error-correcting code (QECC), which immediately applies a constraint on the number of quantum nodes $n$. Therefore, in this talk, we suggest a modified MPQC protocol based on triorthogonal QECCs which applies significantly less constraint on the number of quantum nodes $n$ if compared to the previously suggested MPQC protocol based on triply-even QECCs. Especially, the variety of available options in the region of a small number of quantum nodes $n$ becomes important in the noisy intermediate-scale quantum (NISQ) era.
翻訳日:2023-01-20 19:18:38 公開日:2022-11-01
# 量子擬似絡み合い

Quantum Pseudoentanglement ( http://arxiv.org/abs/2211.00747v1 )

ライセンス: Link先を確認
Adam Bouland, Bill Fefferman, Soumik Ghosh, Umesh Vazirani and Zixin Zhou(参考訳) 量子擬似乱数状態は効率的に構成可能な状態であり、それにもかかわらず多時間観測者にハール乱数状態として表される。 Ji、Liu、Songによって最初に定義されたそのような状態は、暗号からAdS/CFT対応まで、数多くの応用を見出した。 根本的な問題は、そのような状態を作るのにどれだけの絡み合いが必要かである。 Haar-random状態と$t\geq 2$の$t$-designsは、ほぼ最大エンタングルメントを示す。 ここでは、量子ビットの均等性にまたがる多対数交絡エントロピーのみを持つ擬ランダム状態の最初の構成を提供する。 我々の構成は、量子攻撃に対して安全な任意の一方通行関数に基づいている。 さらに、我々の構成における絡み合いは、任意の所望の関数 $\omega(\log n) \leq f(n) \leq O(n)$ に対して、エンタングルメント $\Theta(f(n))$ を持つ擬似ランダム状態を持つことができるという意味で、完全に「絡み合い」であることを示す。 より根本的には、我々の研究は、エンタングルメントが量子系の「実現可能な」量であることに疑問を投げかける。 Gheorghiu と Hoban の最近の研究に触発されて、我々は「擬似絡み合い(pseudoentanglement)」と呼ばれる新しい概念を定義した。 このような状態は可能な限り最強の形で存在し、同時に擬似ランダム状態であることを示す。 また, エンタングルメント蒸留から量子重力への特性試験まで, 様々な応用について述べる。

Quantum pseudorandom states are efficiently constructable states which nevertheless masquerade as Haar-random states to poly-time observers. First defined by Ji, Liu and Song, such states have found a number of applications ranging from cryptography to the AdS/CFT correspondence. A fundamental question is exactly how much entanglement is required to create such states. Haar-random states, as well as $t$-designs for $t\geq 2$, exhibit near-maximal entanglement. Here we provide the first construction of pseudorandom states with only polylogarithmic entanglement entropy across an equipartition of the qubits, which is the minimum possible. Our construction can be based on any one-way function secure against quantum attack. We additionally show that the entanglement in our construction is fully "tunable", in the sense that one can have pseudorandom states with entanglement $\Theta(f(n))$ for any desired function $\omega(\log n) \leq f(n) \leq O(n)$. More fundamentally, our work calls into question to what extent entanglement is a "feelable" quantity of quantum systems. Inspired by recent work of Gheorghiu and Hoban, we define a new notion which we call "pseudoentanglement", which are ensembles of efficiently constructable quantum states which hide their entanglement entropy. We show such states exist in the strongest form possible while simultaneously being pseudorandom states. We also describe diverse applications of our result from entanglement distillation to property testing to quantum gravity.
翻訳日:2023-01-20 19:18:21 公開日:2022-11-01
# 自由空間量子ネットワークのための量子時間転送

Quantum time transfer for freespace quantum networking ( http://arxiv.org/abs/2211.00737v1 )

ライセンス: Link先を確認
Randy Lafler and R. Nicholas Lanning(参考訳) 長距離量子ネットワークのタイミング要求は、ベル状態の測定のために独立したソースから光子の到着を同期させる必要性によって引き起こされる。 したがって、繰り返しレートやパルス持続時間といった特性は、テレポーテーションやエンタングルメントスワップといった量子ネットワークタスクを実現するのに必要な精度に影響する。 古典的レーザーパルス、周波数コム、二光子源を利用していくつかの解が提案されている。 本稿では,自然に隠蔽され,潜在的に量子安全となる量子現象に基づく後者の手法の有用性について検討する。 さらに、比較的低技術な量子光子源と検出装置に依存するが、日中の空間-地球リンクを代表する高損失と高ノイズチャネル条件下でも、ピコ秒タイミングの精度を提供する。 そのため、この手法は、日中の空間-地球量子ネットワークやGPSが否定した環境での高精度なセキュアなタイミングの提供に有用である可能性がある。

Timing requirements for long-range quantum networking are driven by the necessity of synchronizing the arrival of photons, from independent sources, for Bell-state measurements. Thus, characteristics such as repetition rate and pulse duration influence the precision required to enable quantum networking tasks such as teleportation and entanglement swapping. Some solutions have been proposed utilizing classical laser pulses, frequency combs, and bi-photon sources. In this article, we explore the utility of the latter method since it is based upon quantum phenomena, which makes it naturally covert, and potentially quantum secure. Furthermore, it relies on relatively low technology quantum-photon sources and detection equipment, but provides picosecond timing precision even under high loss and high noise channel conditions representative of daytime space-Earth links. Therefore, this method is potentially relevant for daytime space-Earth quantum networking and/or providing high-precision secure timing in GPS denied environments.
翻訳日:2023-01-20 19:17:31 公開日:2022-11-01
# 量子ゲージネットワーク:新しい種類のテンソルネットワーク

Quantum Gauge Networks: A New Kind of Tensor Network ( http://arxiv.org/abs/2210.12151v2 )

ライセンス: Link先を確認
Kevin Slagle(参考訳) テンソルネットワークは低次元量子物理学をシミュレートするための強力なツールであるが、テンソルネットワークアルゴリズムは高い空間次元において非常に計算コストが高い。 量子ゲージネットワーク(quantum gauge network)は、シミュレーションの計算コストがより大きな空間次元に対して明示的に増加しないテンソルネットワークアンサッツの一種である。 量子力学のゲージ図から着想を得た。量子力学は空間の各パッチの局所波動関数で構成され、隣接するパッチはユニタリ接続によって関連付けられる。 量子ゲージネットワーク(qgn)は、局所波動関数のヒルベルト空間次元と接続が切断される以外、同様の構造を持つ。 一般化波動関数あるいは行列積状態(MPS)からQGNを得る方法について述べる。 多くの作用素に対する任意の波動関数の2k$-point相関関数はすべて、結合次元 $o(m^k)$ の qgn によって正確に符号化できる。 対照的に、わずか$k=1$の場合、指数的に大きい2^{M/6}$の結合次元は、一般に量子ビットのMPSに対して必要である。 任意の空間次元における量子力学の近似シミュレーションのための簡単なQGNアルゴリズムを提供する。 近似力学は時間に依存しないハミルトニアンの正確なエネルギー保存を達成でき、空間対称性も正確に維持できる。 フェルミオンハミルトニアンの量子クエンチを最大3次元の空間次元でシミュレートしてアルゴリズムをベンチマークする。

Although tensor networks are powerful tools for simulating low-dimensional quantum physics, tensor network algorithms are very computationally costly in higher spatial dimensions. We introduce quantum gauge networks: a different kind of tensor network ansatz for which the computation cost of simulations does not explicitly increase for larger spatial dimensions. We take inspiration from the gauge picture of quantum dynamics, which consists of a local wavefunction for each patch of space, with neighboring patches related by unitary connections. A quantum gauge network (QGN) has a similar structure, except the Hilbert space dimensions of the local wavefunctions and connections are truncated. We describe how a QGN can be obtained from a generic wavefunction or matrix product state (MPS). All $2k$-point correlation functions of any wavefunction for $M$ many operators can be encoded exactly by a QGN with bond dimension $O(M^k)$. In comparison, for just $k=1$, an exponentially larger bond dimension of $2^{M/6}$ is generically required for an MPS of qubits. We provide a simple QGN algorithm for approximate simulations of quantum dynamics in any spatial dimension. The approximate dynamics can achieve exact energy conservation for time-independent Hamiltonians, and spatial symmetries can also be maintained exactly. We benchmark the algorithm by simulating the quantum quench of fermionic Hamiltonians in up to three spatial dimensions.
翻訳日:2023-01-18 19:28:54 公開日:2022-11-01
# 大域的不変性を伴う時系列アライメント

Time Series Alignment with Global Invariances ( http://arxiv.org/abs/2002.03848v2 )

ライセンス: Link先を確認
Titouan Vayer and Romain Tavenard and Laetitia Chapel and Nicolas Courty and R\'emi Flamary and Yann Soullard(参考訳) 多変量時系列は信号処理におけるユビキタスオブジェクトである。 このような2つのオブジェクト間の距離や類似性を測定することは、機械学習を含む様々なアプリケーションで主要な関心事であるが、時間的ダイナミクスと時系列の表現、すなわち観測される量の性質が互いに異なる場合、すぐに非常に困難になる可能性がある。 本研究では,特徴空間の潜在的大域的変換と時間的アライメントを併用して学習することにより,特徴空間と時間的変動を両立させる新しい距離を共同最適化問題として提案する。 我々のフレームワークの汎用性は、関連する不変クラスに依存するいくつかの変種を可能にする。 その他の貢献として, 時系列の微分可能損失を定義し, この新しい幾何学の下での時系列重心計算のための2つのアルゴリズムを提案する。 シミュレーションデータと実世界のデータの両方にアプローチの関心を示し、最先端の手法と比較して、我々のアプローチの堅牢性を示す。

Multivariate time series are ubiquitous objects in signal processing. Measuring a distance or similarity between two such objects is of prime interest in a variety of applications, including machine learning, but can be very difficult as soon as the temporal dynamics and the representation of the time series, {\em i.e.} the nature of the observed quantities, differ from one another. In this work, we propose a novel distance accounting both feature space and temporal variabilities by learning a latent global transformation of the feature space together with a temporal alignment, cast as a joint optimization problem. The versatility of our framework allows for several variants depending on the invariance class at stake. Among other contributions, we define a differentiable loss for time series and present two algorithms for the computation of time series barycenters under this new geometry. We illustrate the interest of our approach on both simulated and real world data and show the robustness of our approach compared to state-of-the-art methods.
翻訳日:2023-01-02 07:50:08 公開日:2022-11-01
# 双曲空間におけるロバスト大マージン学習

Robust Large-Margin Learning in Hyperbolic Space ( http://arxiv.org/abs/2004.05465v3 )

ライセンス: Link先を確認
Melanie Weber, Manzil Zaheer, Ankit Singh Rawat, Aditya Menon and Sanjiv Kumar(参考訳) 近年、双曲空間における表現学習への関心が高まり、標準的なユークリッド空間よりもかなり少ない次元で階層データを表現することができるようになった。 しかし、下流の機械学習タスクにおける双曲空間の有効性とメリットは、あまり注目されていない。 本稿では,ユークリッド空間ではなく,双曲型で分類器を学習するための最初の理論的保証について述べる。 具体的には,階層構造を持つデータに対して大きなマージン分類器を学習する問題を考える。 敵の例を注意深く注入することで,大辺縁超平面を効率的に学習するアルゴリズムを提供する。 最後に、双曲空間によく埋め込まれる階層的データに対して、低埋め込み次元は双曲空間において、分類器を直接学習する際に優れた保証を保証する。

Recently, there has been a surge of interest in representation learning in hyperbolic spaces, driven by their ability to represent hierarchical data with significantly fewer dimensions than standard Euclidean spaces. However, the viability and benefits of hyperbolic spaces for downstream machine learning tasks have received less attention. In this paper, we present, to our knowledge, the first theoretical guarantees for learning a classifier in hyperbolic rather than Euclidean space. Specifically, we consider the problem of learning a large-margin classifier for data possessing a hierarchical structure. We provide an algorithm to efficiently learn a large-margin hyperplane, relying on the careful injection of adversarial examples. Finally, we prove that for hierarchical data that embeds well into hyperbolic space, the low embedding dimension ensures superior guarantees when learning the classifier directly in hyperbolic space.
翻訳日:2022-12-14 10:07:01 公開日:2022-11-01
# 正規化確率制御問題に対する勾配流

Gradient Flows for Regularized Stochastic Control Problems ( http://arxiv.org/abs/2006.05956v4 )

ライセンス: Link先を確認
David \v{S}i\v{s}ka and {\L}ukasz Szpruch(参考訳) 本稿では,相対エントロピーによって正規化される測度空間である作用空間の確率的制御問題について検討する。 我々は,コスト汎関数が減少することが保証される測度値制御プロセスの勾配フローを構成する適切な距離空間を同定する。 この勾配流れの任意の不変測度はポントリャーギン最適性原理を満たすことが示されている。 私たちが取り組んだ問題が十分に凸であれば、勾配流は指数関数的に速く収束する。 さらに、最適測度値制御は、確率的制御問題を解く際に事前の知識を取り入れることができるベイズ解釈を許容する。 この研究は、強化学習コミュニティで広く使われている確率勾配型アルゴリズムの収束に対する理論的基盤を拡大し、制御問題を解決することを目的としている。

This paper studies stochastic control problems with the action space taken to be the space of measures, regularized by the relative entropy. We identify suitable metric space on which we construct a gradient flow for the measure-valued control process along which the cost functional is guaranteed to decrease. It is shown that any invariant measure of this gradient flow satisfies the Pontryagin optimality principle. If the problem we work with is sufficiently convex, the gradient flow converges exponentially fast. Furthermore, the optimal measure-valued control admits Bayesian interpretation which means that one can incorporate prior knowledge when solving stochastic control problem. This work is motivated by a desire to extend the theoretical underpinning for the convergence of stochastic gradient type algorithms widely used in the reinforcement learning community to solve control problems.
翻訳日:2022-11-23 06:44:14 公開日:2022-11-01
# データ駆動型疾患進展モデリング

Data-Driven Disease Progression Modelling ( http://arxiv.org/abs/2211.05786v1 )

ライセンス: Link先を確認
Neil P. Oxtoby(参考訳) 2010年以前の神経学コミュニティにおけるインセンスの議論は、アルツハイマー病の進行の仮説モデル、すなわちバイオマーカーの病態生理学的カスケードにおいて頂点に達した。 これを受けて、データ駆動型疾患の進行モデルがコンピュータサイエンスのコミュニティから登場し、患者の大規模なコホート、健康管理、そしてプロドロマ/アトリスクの個人のデータを用いて、神経変性疾患のタイムラインを再構築することを目的としている。 本章では,疾患進展の理解と予測のための有用性に着目し,現場から選択したハイライトについて述べる。

Intense debate in the Neurology community before 2010 culminated in hypothetical models of Alzheimer's disease progression: a pathophysiological cascade of biomarkers, each dynamic for only a segment of the full disease timeline. Inspired by this, data-driven disease progression modelling emerged from the computer science community with the aim to reconstruct neurodegenerative disease timelines using data from large cohorts of patients, healthy controls, and prodromal/at-risk individuals. This chapter describes selected highlights from the field, with a focus on utility for understanding and forecasting of disease progression.
翻訳日:2022-11-20 14:09:08 公開日:2022-11-01
# 多目的最適化問題の解法における適応進化計算の学習

Learning Adaptive Evolutionary Computation for Solving Multi-Objective Optimization Problems ( http://arxiv.org/abs/2211.09719v1 )

ライセンス: Link先を確認
Remco Coppens, Robbert Reijnen, Yingqian Zhang, Laurens Bliek, Berend Steenhuisen(参考訳) 多目的進化アルゴリズム(MOEA)は多目的最適化問題の解法として広く用いられている。 アルゴリズムは良い解を見つけるために適切なパラメータを設定することに依存する。 しかし、このパラメータチューニングは、非決定的(組合せ的)最適化問題の解決に非常に計算コストがかかる可能性がある。 本稿では,Deep Reinforcement Learning (DRL) を用いた適応パラメータ制御とMOEAを統合したフレームワークを提案する。 DRLポリシは、最適化中のソリューションに対する突然変異の強度と確率を決定する値を適応的に設定するように訓練されている。 提案手法は,単純なベンチマーク問題と,現実の複雑な倉庫設計・制御問題を用いて検証する。 実験の結果,優れた解を得るための解の質と計算時間の観点から,本手法の利点を実証した。 さらに, 学習方針は伝達可能であることを示す。つまり, 単純なベンチマーク問題で訓練されたポリシーを直接適用して, 複雑な倉庫最適化問題の解決を効果的に行うことができる。

Multi-objective evolutionary algorithms (MOEAs) are widely used to solve multi-objective optimization problems. The algorithms rely on setting appropriate parameters to find good solutions. However, this parameter tuning could be very computationally expensive in solving non-trial (combinatorial) optimization problems. This paper proposes a framework that integrates MOEAs with adaptive parameter control using Deep Reinforcement Learning (DRL). The DRL policy is trained to adaptively set the values that dictate the intensity and probability of mutation for solutions during optimization. We test the proposed approach with a simple benchmark problem and a real-world, complex warehouse design and control problem. The experimental results demonstrate the advantages of our method in terms of solution quality and computation time to reach good solutions. In addition, we show the learned policy is transferable, i.e., the policy trained on a simple benchmark problem can be directly applied to solve the complex warehouse optimization problem, effectively, without the need for retraining.
翻訳日:2022-11-20 14:00:11 公開日:2022-11-01
# 自己監督型音声認識モデルにおける再考回避

Avoid Overthinking in Self-Supervised Models for Speech Recognition ( http://arxiv.org/abs/2211.08989v1 )

ライセンス: Link先を確認
Dan Berrebbi and Brian Yan and Shinji Watanabe(参考訳) 自己教師付き学習(SSL)モデルは、私たちの言語、言語、ビジョンに対するアプローチを形変えました。 しかし、その巨大なサイズとそれらの層とタスクの間の不透明な関係は、中間層から作られたものよりも予測が悪くなるため、推論とネットワークの過度な再考をもたらす。 早期終了戦略(EE)は、特定のサンプルの推論時間における計算を動的に削減することで、両方の問題を解決することができる。 視覚と言語における分類タスクに人気があるが、初期の層からの出力がしばしば縮退するsequence-to-sequence speech recognition (asr)タスクでは、eeはあまり使われていない。 この課題は、音声SSLモデルがアウト・オブ・ディストリビューション(OOD)データに適用された場合にさらに複雑になる。 本稿ではまず、SSLモデルがASRで過剰に検討されていることを示す。 次に、パフォーマンス対スピードトレードオフの最適境界を計算することによって、EEにおけるさらなる研究を動機付けます。 この問題に対処するため、我々は、(1)最近提案された忍耐戦略をASRに適用し、(2)これまで導入された全ての戦略より優れたASR固有の新しいEE戦略を設計する。

Self-supervised learning (SSL) models reshaped our approach to speech, language and vision. However their huge size and the opaque relations between their layers and tasks result in slow inference and network overthinking, where predictions made from the last layer of large models is worse than those made from intermediate layers. Early exit (EE) strategies can solve both issues by dynamically reducing computations at inference time for certain samples. Although popular for classification tasks in vision and language, EE has seen less use for sequence-to-sequence speech recognition (ASR) tasks where outputs from early layers are often degenerate. This challenge is further compounded when speech SSL models are applied on out-of-distribution (OOD) data. This paper first shows that SSL models do overthinking in ASR. We then motivate further research in EE by computing an optimal bound for performance versus speed trade-offs. To approach this bound we propose two new strategies for ASR: (1) we adapt the recently proposed patience strategy to ASR; and (2) we design a new EE strategy specific to ASR that performs better than all strategies previously introduced.
翻訳日:2022-11-20 13:58:01 公開日:2022-11-01
# 生成型adversarial networkを用いた悪天候による歪み画像からのクリア画像の生成

Generating Clear Images From Images With Distortions Caused by Adverse Weather Using Generative Adversarial Networks ( http://arxiv.org/abs/2211.05234v1 )

ライセンス: Link先を確認
Nuriel Shalom Mor(参考訳) 本研究では,雨滴の付着による歪みを含む悪天候による画像に対するコンピュータビジョンタスクの改善手法を提案する。 rgbカメラを利用する自動運転車には、悪天候の影響を受ける画像にコンピュータビジョンを適用するという課題を克服することが不可欠である。 そこで本研究では,画像再構成やコンピュータビジョンタスクの文脈において,歪みの影響を除去する上で有効であることを示す。 対象物認識は自動運転車にとって重要な課題であり,付着雨滴による歪みや閉塞によって完全に損なわれ,降雨モデルによって性能を回復できることを示した。 本論文で述べるアプローチは, あらゆる悪天候条件に適用可能である。

We presented a method for improving computer vision tasks on images affected by adverse weather conditions, including distortions caused by adherent raindrops. Overcoming the challenge of applying computer vision to images affected by adverse weather conditions is essential for autonomous vehicles utilizing RGB cameras. For this purpose, we trained an appropriate generative adversarial network and showed that it was effective at removing the effect of the distortions, in the context of image reconstruction and computer vision tasks. We showed that object recognition, a vital task for autonomous driving vehicles, is completely impaired by the distortions and occlusions caused by adherent raindrops and that performance can be restored by our de-raining model. The approach described in this paper could be applied to all adverse weather conditions.
翻訳日:2022-11-13 23:30:06 公開日:2022-11-01
# パーソナライズされた発作検出と分類のためのメタGNNアプローチ

A Meta-GNN approach to personalized seizure detection and classification ( http://arxiv.org/abs/2211.02642v1 )

ライセンス: Link先を確認
Abdellah Rahmani, Arun Venkitaraman, Pascal Frossard(参考訳) 本稿では,特定の患者に限られた発作サンプルから迅速に適応できるパーソナライズされた発作検出・分類フレームワークを提案する。 我々は、グラフニューラルネットワーク(gnn)とメタラーニング(meta-learning)という、さまざまな実世界のアプリケーションで最近大きな成功を収めた2つの新しいパラダイムを組み合わせることで、これを実現する。 我々は、メタgnnベースの分類器を訓練し、このグローバルモデルが最終的に非常に限られたサンプルを用いて、未発見の患者に適応できるように、一連の訓練患者からグローバルモデルを学ぶ。 我々は, エピレプシーのための最大かつ一般公開のベンチマークデータセットである TUSZ-dataset にアプローチを適用した。 本手法は, 新規患者に対する20回の反復で, 精度82.7%, f1得点82.08%の精度でベースラインを上回った。

In this paper, we propose a personalized seizure detection and classification framework that quickly adapts to a specific patient from limited seizure samples. We achieve this by combining two novel paradigms that have recently seen much success in a wide variety of real-world applications: graph neural networks (GNN), and meta-learning. We train a Meta-GNN based classifier that learns a global model from a set of training patients such that this global model can eventually be adapted to a new unseen patient using very limited samples. We apply our approach on the TUSZ-dataset, one of the largest and publicly available benchmark datasets for epilepsy. We show that our method outperforms the baselines by reaching 82.7% on accuracy and 82.08% on F1 score after only 20 iterations on new unseen patients.
翻訳日:2022-11-13 23:28:02 公開日:2022-11-01
# アルツハイマー病の進行評価に向けて : 機械学習法の検討

Towards Alzheimer's Disease Progression Assessment: A Review of Machine Learning Methods ( http://arxiv.org/abs/2211.02636v1 )

ライセンス: Link先を確認
Zibin Zhao(参考訳) アルツハイマー病(ad)は、世界中で最も壊滅的な神経変性疾患であり、毎年1000万人近くが新たに発症している。 現在の技術は、画像技術の進歩とともに、この疾患の進行と病因を研究する前例のない機会を提供する。 近年、ビッグデータと機械学習(ML)による社会の出現により、研究者はMLベースのAD診断の最近の進歩を要約するために多大な努力を払ってきた。 本稿では,ADの進展を評価する上で最も一般的で最近のMLモデルについて概説し,今後の研究に有利な課題,機会,今後の方向性について考察する。

Alzheimer's Disease (AD), as the most devastating neurodegenerative disease worldwide, has reached nearly 10 million new cases annually. Current technology provides unprecedented opportunities to study the progression and etiology of this disease with the advanced in imaging techniques. With the recent emergence of a society driven by big data and machine learning (ML), researchers have exerted considerable effort to summarize recent advances in ML-based AD diagnosis. Here, we outline some of the most prevalent and recent ML models for assessing the progression of AD and provide insights on the challenges, opportunities, and future directions that could be advantageous to future research in AD using ML.
翻訳日:2022-11-13 23:27:16 公開日:2022-11-01
# pippi2021:胎児発育制限における胎児肝・胎盤の自動診断とテクスチャ解析へのアプローチ

PIPPI2021: An Approach to Automated Diagnosis and Texture Analysis of the Fetal Liver & Placenta in Fetal Growth Restriction ( http://arxiv.org/abs/2211.02639v1 )

ライセンス: Link先を確認
Aya Mutaz Zeidan, Paula Ramirez Gilliland, Ashay Patel, Zhanchong Ou, Dimitra Flouri, Nada Mufti, Kasia Maksym, Rosalind Aughwane, Sebastien Ourselin, Anna David, Andrew Melbourne(参考訳) 胎児成長制限 (FGR) は、胎児が遺伝的に所定の成長電位に達するのに失敗することが特徴の妊娠条件である。 マルチコントラストMRIによるFGRのマルチ胎児臓器解析におけるモデルフィッティング手法,線形回帰機械学習モデル,ディープラーニング回帰,およびハリリックテクスチャ特徴の適用について検討する。 正常成長12例,妊娠年齢(GA)が妊娠時と一致した12例に対して,T2リラクトメトリーと拡散強調MRIデータセットを併用した。 骨盤内不整脈運動モデルとMRI胎児解析のための新しいマルチコンパートメントモデルを適用し,多臓器FGR評価の可能性を示し,異常な動脈ドプラ所見などの経験的指標の限界を克服し,胎盤機能障害の評価を行った。 胎盤と胎児の肝臓はFGRと正常なコントロール (低灌流, 胎児の異常な血液動態, 胎児の酸素代謝の低下) に重要な相違が認められた。 これは、胎児の脳に対する胎児の血液の優先的な絞殺と関連している可能性がある。 これらの特徴は、FGR診断(テストデータの100\%の精度、n=5)、デリバリ時のGA、MRIスキャンからデリバリまでの時間、およびベビーウェイトを予測するための単純な機械学習モデルを用いることで、FGRの重症度を評価する上での役割を判断するためにさらに検討された。 さらに,後者の3変数を回帰する深層学習の活用についても検討した。 胎児臓器の画像テクスチャ解析では, 胎盤灌流分画では, 群間 (p$<0.0009) に有意なテクスチャ変化がみられ (p$<0.009) , 肝内不整脈毛細血管運動では空間的差が認められた (p$<0.009)。 本研究は胎児臓器に対するFGRの効果を実証する概念実証として機能する。

Fetal growth restriction (FGR) is a prevalent pregnancy condition characterised by failure of the fetus to reach its genetically predetermined growth potential. We explore the application of model fitting techniques, linear regression machine learning models, deep learning regression, and Haralick textured features from multi-contrast MRI for multi-fetal organ analysis of FGR. We employed T2 relaxometry and diffusion-weighted MRI datasets (using a combined T2-diffusion scan) for 12 normally grown and 12 FGR gestational age (GA) matched pregnancies. We applied the Intravoxel Incoherent Motion Model and novel multi-compartment models for MRI fetal analysis, which exhibit potential to provide a multi-organ FGR assessment, overcoming the limitations of empirical indicators - such as abnormal artery Doppler findings - to evaluate placental dysfunction. The placenta and fetal liver presented key differentiators between FGR and normal controls (decreased perfusion, abnormal fetal blood motion and reduced fetal blood oxygenation. This may be associated with the preferential shunting of the fetal blood towards the fetal brain. These features were further explored to determine their role in assessing FGR severity, by employing simple machine learning models to predict FGR diagnosis (100\% accuracy in test data, n=5), GA at delivery, time from MRI scan to delivery, and baby weight. Moreover, we explored the use of deep learning to regress the latter three variables. Image texture analysis of the fetal organs demonstrated prominent textural variations in the placental perfusion fractions maps between the groups (p$<$0.0009), and spatial differences in the incoherent fetal capillary blood motion in the liver (p$<$0.009). This research serves as a proof-of-concept, investigating the effect of FGR on fetal organs.
翻訳日:2022-11-13 23:20:00 公開日:2022-11-01
# モンキーポックス病の検出と分類における伝達学習と局所解釈モデル非依存的視覚アプローチ:深層学習の知見

Transfer learning and Local interpretable model agnostic based visual approach in Monkeypox Disease Detection and Classification: A Deep Learning insights ( http://arxiv.org/abs/2211.05633v1 )

ライセンス: Link先を確認
Md Manjurul Ahsan, Tareque Abu Abdullah, Md Shahin Ali, Fatematuj Jahora, Md Khairul Islam, Amin G. Alhashim, Kishor Datta Gupta(参考訳) 近年の各国におけるサルポックス病の流行は、世界がまだコロナウイルス病と闘っているときに世界的なパンデミックの脅威となる。 その夜明けには、モンキーポックス病のゆっくりと安定した個体間の伝染を真剣に扱う必要がある。 長年にわたり、Deep Learning (DL)ベースの疾患予測は、早期、安価、安価な診断施設を提供することによって真の可能性を示している。 この機会を考慮して、我々はVGG16、InceptionResNetV2、ResNet50、ResNet101、MobileNetV2、VGG19の6つの異なるディープラーニングモデルの修正とテストを行った。 予備計算の結果から,提案するinceptionresnetv2およびmobilenetv2モデルは,精度93%から99%の精度で性能が向上した。 本研究は, 転帰学習を用いた複数の疾患診断モデルの構築における性能向上を実証する最近の学術研究によって補強されている。 最後に,サルポックス病の発症を特徴付ける重要な特徴を特定する上で重要な役割を果たす局所的解釈可能なモデル非依存的説明(lime)を用いて,モデル予測についてさらに説明する。

The recent development of Monkeypox disease among various nations poses a global pandemic threat when the world is still fighting Coronavirus Disease-2019 (COVID-19). At its dawn, the slow and steady transmission of Monkeypox disease among individuals needs to be addressed seriously. Over the years, Deep learning (DL) based disease prediction has demonstrated true potential by providing early, cheap, and affordable diagnosis facilities. Considering this opportunity, we have conducted two studies where we modified and tested six distinct deep learning models-VGG16, InceptionResNetV2, ResNet50, ResNet101, MobileNetV2, and VGG19-using transfer learning approaches. Our preliminary computational results show that the proposed modified InceptionResNetV2 and MobileNetV2 models perform best by achieving an accuracy ranging from 93% to 99%. Our findings are reinforced by recent academic work that demonstrates improved performance in constructing multiple disease diagnosis models using transfer learning approaches. Lastly, we further explain our model prediction using Local Interpretable Model-Agnostic Explanations (LIME), which play an essential role in identifying important features that characterize the onset of Monkeypox disease.
翻訳日:2022-11-13 23:19:08 公開日:2022-11-01
# 構造推定への敵対的アプローチ

An Adversarial Approach to Structural Estimation ( http://arxiv.org/abs/2007.06169v3 )

ライセンス: Link先を確認
Tetsuya Kaji, Elena Manresa, Guillaume Pouliot(参考訳) 構造モデルに対する新しいシミュレーションベース推定法である逆推定法を提案する。 推定器は、発電機(構造モデルを用いたシミュレーション観測を生成する)と判別器(観察がシミュレーションされているかどうかを分類する)の間のミニマックス問題の解として定式化される。 判別器は分類の精度を最大化し、生成器はそれを最小化する。 十分リッチな判別器により、逆推定器は正しい仕様の下ではパラメトリック効率を、誤特定下ではパラメトリック率を達成する。 我々は,適応性特性を活用し,収束速度の速い識別器としてニューラルネットワークの利用を提唱する。 本手法を高齢者の貯蓄意思決定モデルに適用し,富裕層だけでなく富裕層においても,富裕層に対する貯蓄の源泉として,その動機を明らかにする。

We propose a new simulation-based estimation method, adversarial estimation, for structural models. The estimator is formulated as the solution to a minimax problem between a generator (which generates simulated observations using the structural model) and a discriminator (which classifies whether an observation is simulated). The discriminator maximizes the accuracy of its classification while the generator minimizes it. We show that, with a sufficiently rich discriminator, the adversarial estimator attains parametric efficiency under correct specification and the parametric rate under misspecification. We advocate the use of a neural network as a discriminator that can exploit adaptivity properties and attain fast rates of convergence. We apply our method to the elderly's saving decision model and show that our estimator uncovers the bequest motive as an important source of saving across the wealth distribution, not only for the rich.
翻訳日:2022-11-10 23:49:32 公開日:2022-11-01
# IoCを超えて見る:外部CTIから攻撃パターンを自動的に抽出する

Looking Beyond IoCs: Automatically Extracting Attack Patterns from External CTI ( http://arxiv.org/abs/2211.01753v1 )

ライセンス: Link先を確認
Md Tanvirul Alam, Dipkamal Bhusal, Youngja Park and Nidhi Rastogi(参考訳) 公共企業や商業企業はサイバー脅威インテリジェンス(CTI)を広く共有し、新興のサイバー攻撃に対抗するシステムを準備している。 これまで使われている情報のほとんどは、正規表現を使って簡単に抽出できるため、ipアドレスやドメイン名などの既知の脅威指標を追跡することに限定されている。 長期使用の制限と指標の長期分析の困難さにより,攻撃パターンと呼ばれるより堅牢な脅威知能信号を用いることが提案されている。 しかし,大規模攻撃パターンの抽出は難しい課題である。 本稿では,CTIレポートからテキストベースの攻撃パターンを大規模に抽出できる知識抽出フレームワークであるLADDERを提案する。 このモデルは、androidおよびエンタープライズネットワークにおける攻撃のフェーズをキャプチャすることで、攻撃パターンを特徴付ける。 そして、それらをMITRE ATT\&CKパターンフレームワークに体系的にマッピングする。 本稿では,socアナリストに対して,前もって防衛に備えて,新興攻撃に属する攻撃ベクターの存在を判断するためのラダーの適用を実証するいくつかのユースケースを提案する。

Public and commercial companies extensively share cyber threat intelligence (CTI) to prepare systems to defend against emerging cyberattacks. Most used intelligence thus far has been limited to tracking known threat indicators such as IP addresses and domain names as they are easier to extract using regular expressions. Due to the limited long-term usage and difficulty of performing a long-term analysis on indicators, we propose using significantly more robust threat intelligence signals called attack patterns. However, extracting attack patterns at scale is a challenging task. In this paper, we present LADDER, a knowledge extraction framework that can extract text-based attack patterns from CTI reports at scale. The model characterizes attack patterns by capturing phases of an attack in android and enterprise networks. It then systematically maps them to the MITRE ATT\&CK pattern framework. We present several use cases to demonstrate the application of LADDER for SOC analysts in determining the presence of attack vectors belonging to emerging attacks in preparation for defenses in advance.
翻訳日:2022-11-04 14:19:23 公開日:2022-11-01
# 定量的対数比較法における個人判断の操作

Manipulation of individual judgments in the quantitative pairwise comparisons method ( http://arxiv.org/abs/2211.01809v1 )

ライセンス: Link先を確認
M. Strada and K. Ku{\l}akowski(参考訳) 意思決定法は、ペアで代替品を比較する手法をよく使う。 このアプローチでは、専門家は異なる選択肢を比較し、得られた結果から定量的ランキングを作成する。 専門家(意思決定者)はその判断に誠実であると一般的に信じられている。 私たちの研究では、専門家が収賄に弱いシナリオを考えます。 この目的のために,意図した操作を決定できるフレームワークを定義し,目的を達成するための3つのアルゴリズムを提示する。 これらのアルゴリズムを分析することで、このような攻撃を防げる手がかりが得られるかもしれない。

Decision-making methods very often use the technique of comparing alternatives in pairs. In this approach, experts are asked to compare different options, and then a quantitative ranking is created from the results obtained. It is commonly believed that experts (decision-makers) are honest in their judgments. In our work, we consider a scenario in which experts are vulnerable to bribery. For this purpose, we define a framework that allows us to determine the intended manipulation and present three algorithms for achieving the intended goal. Analyzing these algorithms may provide clues to help defend against such attacks.
翻訳日:2022-11-04 13:54:21 公開日:2022-11-01
# ベストを超えて:無限配列帯域における分布関数の推定

Beyond the Best: Estimating Distribution Functionals in Infinite-Armed Bandits ( http://arxiv.org/abs/2211.01743v1 )

ライセンス: Link先を確認
Yifei Wang, Tavor Baharav, Yanjun Han, Jiantao Jiao, David Tse(参考訳) 無限大のバンディット問題では、各アームの平均報酬は未知の分布からサンプリングされ、さらに各アームをサンプリングすることで、そのアームの平均報酬のノイズ推定が得られる。 先行研究は、最高の腕、すなわち平均報酬分布の最大値を推定することに焦点を当てている。 本稿では,最大値を超える分布関数の一般クラスを考察し,オフラインとオンラインの両方に統一されたメタアルゴリズムを提案する。 学習者が新しいアームや既存のアームのサンプルを順次選択できるオンライン推定では、平均機能の推定にオフライン設定よりも有利な点はないが、中央値、最大値、トリミング平均などの他の機能ではサンプルの複雑さが著しく減少する。 一致する下限はいくつかの異なるワッサースタイン距離を利用する。 中央値推定の特別な場合について,ガウス畳み込みと独立な関心を持つであろう雑音レベルとの区別可能性について,好奇心をそそるしきい値化現象を同定する。

In the infinite-armed bandit problem, each arm's average reward is sampled from an unknown distribution, and each arm can be sampled further to obtain noisy estimates of the average reward of that arm. Prior work focuses on identifying the best arm, i.e., estimating the maximum of the average reward distribution. We consider a general class of distribution functionals beyond the maximum, and propose unified meta algorithms for both the offline and online settings, achieving optimal sample complexities. We show that online estimation, where the learner can sequentially choose whether to sample a new or existing arm, offers no advantage over the offline setting for estimating the mean functional, but significantly reduces the sample complexity for other functionals such as the median, maximum, and trimmed mean. The matching lower bounds utilize several different Wasserstein distances. For the special case of median estimation, we identify a curious thresholding phenomenon on the indistinguishability between Gaussian convolutions with respect to the noise level, which may be of independent interest.
翻訳日:2022-11-04 13:09:23 公開日:2022-11-01
# 著者名曖昧化問題に対するベイズ学習, グリーディ集約クラスタリング手法と評価手法

A Bayesian Learning, Greedy agglomerative clustering approach and evaluation techniques for Author Name Disambiguation Problem ( http://arxiv.org/abs/2211.01303v1 )

ライセンス: Link先を確認
Shashwat Sourav(参考訳) 著者名はしばしば、同じ作者が異なる名前で登場することと、類似した名前を持つ複数の著者によって曖昧さに悩まされる。 これにより、著者と学術研究の関連付けが難しくなり、信用帰属、書誌分析、デジタル図書館における著者による検索、エキスパート発見の正確性が低下する。 著者名の曖昧化のための技法が文献に多数提案されている。 著者名の曖昧さを解消するための研究に焦点を合わせます。 まず,評価手法とクラスタリングモデルについて検討し,ベイズ学習とグリーディ集合的アプローチを導いた。 この集中レビューは、世界中で活発に使われている非常に大きな実データベースに適用できる技術について議論するため、研究コミュニティにとって役立つと思います。 bayesian と greedy agglomerative のアプローチは、よりよい方法で取り組み、問題を解決するのに役立ちます。 最後に、私は今後の仕事の方向性を概観する。

Author names often suffer from ambiguity owing to the same author appearing under different names and multiple authors possessing similar names. It creates difficulty in associating a scholarly work with the person who wrote it, thereby introducing inaccuracy in credit attribution, bibliometric analysis, search-by-author in a digital library, and expert discovery. A plethora of techniques for disambiguation of author names has been proposed in the literature. I try to focus on the research efforts targeted to disambiguate author names. I first go through the conventional methods, then I discuss evaluation techniques and the clustering model which finally leads to the Bayesian learning and Greedy agglomerative approach. I believe this concentrated review will be useful for the research community because it discusses techniques applied to a very large real database that is actively used worldwide. The Bayesian and the greedy agglomerative approach used will help to tackle AND problems in a better way. Finally, I try to outline a few directions for future work
翻訳日:2022-11-03 14:51:07 公開日:2022-11-01
# 逆方向と非逆方向のLSTM音楽生成モデルの比較

Comparision Of Adversarial And Non-Adversarial LSTM Music Generative Models ( http://arxiv.org/abs/2211.00731v1 )

ライセンス: Link先を確認
Moseli Mots'oehli and Anna Sergeevna Bosman and Johan Pieter De Villiers(参考訳) アルゴリズム音楽作曲(英: algorithmic music composition)は、人間の介入が最小限の楽曲を作曲する方法である。 リカレントニューラルネットワークは伝統的に、音楽構成の実装の成功を含む多くのシーケンスからシーケンスへの予測タスクに適用されるが、入出力マッピングに基づいた標準的な教師あり学習アプローチは、メモの多様性の欠如につながる。 したがって、これらのモデルは、音楽生成のようなタスクには適さないと見なすことができる。 生成型adversarial networkは、データの生成的分布を学び、さまざまなサンプルに導く。 本研究は、midiデータを用いたリカレントニューラルネットワーク音楽作曲家の敵対的および非敵対的訓練を実装し、比較する。 得られた音楽サンプルは、人間のリスナーによって評価され、その好みが記録される。 この評価は, 対人訓練が審美的に楽しむ音楽を生み出すことを示唆している。

Algorithmic music composition is a way of composing musical pieces with minimal to no human intervention. While recurrent neural networks are traditionally applied to many sequence-to-sequence prediction tasks, including successful implementations of music composition, their standard supervised learning approach based on input-to-output mapping leads to a lack of note variety. These models can therefore be seen as potentially unsuitable for tasks such as music generation. Generative adversarial networks learn the generative distribution of data and lead to varied samples. This work implements and compares adversarial and non-adversarial training of recurrent neural network music composers on MIDI data. The resulting music samples are evaluated by human listeners, their preferences recorded. The evaluation indicates that adversarial training produces more aesthetically pleasing music.
翻訳日:2022-11-03 14:49:34 公開日:2022-11-01
# TorchFL:フェデレーション学習実験をブートストラップするパフォーマンスライブラリ

TorchFL: A Performant Library for Bootstrapping Federated Learning Experiments ( http://arxiv.org/abs/2211.00735v1 )

ライセンス: Link先を確認
Vivek Khimani and Shahin Jabbari(参考訳) データプライバシに関する法律の強化により、フェデレートド・ラーニング(FL)は、クライアント(エンドユーザ)が、データを集中型のサードパーティサーバに転送、保存することなく、協調的にディープラーニング(DL)モデルをトレーニングできる有望な技術として登場した。 理論的な成功にもかかわらず、FLはハードウェア、コンピューティング、およびクライアントのエッジとモバイルデバイスによって提示される様々なインフラストラクチャ制約のため、現実世界のシステムではまだ採用されていない。 その結果、シミュレーションされたデータセット、モデル、実験は、FL研究コミュニティによってその理論や研究結果を検証するために多用されている。 私たちはパフォーマンスライブラリTorchFLを紹介します。 (i)FL実験のブートストラップ (ii)各種ハードウェアアクセラレータを用いて実行すること。 (iii)性能のプロファイリング及び (iv)goの全体およびエージェント固有の結果をログする。 PyTorchとLightningを使用してボトムアップ設計上に構築されたTorchFLは、モデル、データセット、FLアルゴリズムのための準備の整った抽象化を提供し、開発者は必要に応じてカスタマイズできる。

With the increased legislation around data privacy, federated learning (FL) has emerged as a promising technique that allows the clients (end-user) to collaboratively train deep learning (DL) models without transferring and storing the data in a centralized, third-party server. Despite the theoretical success, FL is yet to be adopted in real-world systems due to the hardware, computing, and various infrastructure constraints presented by the edge and mobile devices of the clients. As a result, simulated datasets, models, and experiments are heavily used by the FL research community to validate their theories and findings. We introduce TorchFL, a performant library for (i) bootstrapping the FL experiments, (ii) executing them using various hardware accelerators, (iii) profiling the performance, and (iv) logging the overall and agent-specific results on the go. Being built on a bottom-up design using PyTorch and Lightning, TorchFL provides ready-to-use abstractions for models, datasets, and FL algorithms, while allowing the developers to customize them as and when required.
翻訳日:2022-11-03 14:49:21 公開日:2022-11-01
# グラフノード分類器の公平性と正確性に及ぼすデータの欠落の影響

Impact Of Missing Data Imputation On The Fairness And Accuracy Of Graph Node Classifiers ( http://arxiv.org/abs/2211.00783v1 )

ライセンス: Link先を確認
Haris Mansoor, Sarwan Ali, Shafiq Alam, Muhammad Asad Khan, Umair ul Hassan, Imdadullah Khan(参考訳) 機械学習(ML)アルゴリズムの公正性の分析は、最近多くの研究者の関心を集めている。 ほとんどのMLメソッドは保護されたグループに対するバイアスを示しており、犯罪率予測などの多くのアプリケーションにおけるMLモデルの適用性を制限する。 データが適切に処理されていない場合、フェアネスに悪影響を及ぼすことが知られている。 欠落データを扱うために多くのインプテーション手法が提案されている。 しかし,データの欠落が公平性に与える影響はよく研究されていない。 本稿では,グラフデータ(ノード属性)インプットの文脈における公平性への影響を,埋め込みとニューラルネットワークの異なる手法を用いて解析する。 6つのデータセットに対する大規模な実験は、グラフノード分類の下での欠落データ計算において深刻な公平性の問題を示す。 また,提案手法の選択は公平性と精度の両方に影響を及ぼすことがわかった。 この結果は,グラフデータの公平性や,グラフの欠落を効率的に処理する方法に関する貴重な知見を提供する。 この研究は、グラフデータの公正性に関する理論的研究に関する方向性も提供する。

Analysis of the fairness of machine learning (ML) algorithms recently attracted many researchers' interest. Most ML methods show bias toward protected groups, which limits the applicability of ML models in many applications like crime rate prediction etc. Since the data may have missing values which, if not appropriately handled, are known to further harmfully affect fairness. Many imputation methods are proposed to deal with missing data. However, the effect of missing data imputation on fairness is not studied well. In this paper, we analyze the effect on fairness in the context of graph data (node attributes) imputation using different embedding and neural network methods. Extensive experiments on six datasets demonstrate severe fairness issues in missing data imputation under graph node classification. We also find that the choice of the imputation method affects both fairness and accuracy. Our results provide valuable insights into graph data fairness and how to handle missingness in graphs efficiently. This work also provides directions regarding theoretical studies on fairness in graph data.
翻訳日:2022-11-03 14:49:00 公開日:2022-11-01
# マルコフモデルを用いた新型コロナウイルス感染拡大に伴う学区学習のモダリティの推定

Inferring school district learning modalities during the COVID-19 pandemic with a hidden Markov model ( http://arxiv.org/abs/2211.00708v1 )

ライセンス: Link先を確認
Mark J. Panaggio, Mike Fang, Hyunseung Bang, Paige A. Armstrong, Alison M. Binder, Julian E. Grass, Jake Magid, Marc Papazian, Carrie K Shapiro-Mendoza, Sharyn E. Parks(参考訳) 本研究では,全米の公立学校が提供している学習モダリティを調査し,フル・イン・対人・ハイブリッド・フル・リモート・ラーニングを行う学校の割合の変化を時間とともに追跡した。 2020年9月から2021年6月までの14,688のユニークな学区の学習モードは、burbio, mch strategic data, the american enterprise institute's return to learn tracker and individual state dashboardsによって報告された。 モダリティのより完全な記述を提供するために、これらのデータを組み合わせて分解するモデルが必要だった。 隠れマルコフモデル(HMM)は、各地区の学習モダリティを週ごとに推定するために用いられた。 本手法は, 個々のデータソースよりも時空間被覆率が高く, 4つのデータソースのうち3つと同一性が高い。 モデルの結果、完全対人学習を提供する地区の割合は、2020年9月の40.3%から2021年6月の54.7%に上昇し、45の州と都市部と農村の両方で増加した。 この種の確率モデルは、公衆衛生監視と研究活動を支援するために、不完全で矛盾するデータソースを融合するためのツールとして機能する。

In this study, learning modalities offered by public schools across the United States were investigated to track changes in the proportion of schools offering fully in-person, hybrid and fully remote learning over time. Learning modalities from 14,688 unique school districts from September 2020 to June 2021 were reported by Burbio, MCH Strategic Data, the American Enterprise Institute's Return to Learn Tracker and individual state dashboards. A model was needed to combine and deconflict these data to provide a more complete description of modalities nationwide. A hidden Markov model (HMM) was used to infer the most likely learning modality for each district on a weekly basis. This method yielded higher spatiotemporal coverage than any individual data source and higher agreement with three of the four data sources than any other single source. The model output revealed that the percentage of districts offering fully in-person learning rose from 40.3% in September 2020 to 54.7% in June of 2021 with increases across 45 states and in both urban and rural districts. This type of probabilistic model can serve as a tool for fusion of incomplete and contradictory data sources in support of public health surveillance and research efforts.
翻訳日:2022-11-03 14:32:52 公開日:2022-11-01
# MAgNET:メッシュベースのシミュレーションのためのグラフU-Netアーキテクチャ

MAgNET: A Graph U-Net Architecture for Mesh-Based Simulations ( http://arxiv.org/abs/2211.00713v1 )

ライセンス: Link先を確認
Saurabh Deshpande, Jakub Lengiewicz, St\'ephane P.A. Bordas(参考訳) メッシュベースのアプローチは物理ベースのシミュレーションの解法として基本的なものであるが、特に非線形問題では重要な計算量を必要とする。 深層学習技術は物理に基づくシミュレーションを加速するが、問題のサイズと複雑さが増加するにつれて効率よく実行できない。 そこで本研究では、メッシュグラフデータ上で教師あり学習を行うための新しい幾何学的深層学習フレームワークであるMulti- Channel Aggregation Networkを提案する。 MAgNETは、畳み込みニューラルネットワークにおけるマルチチャネル局所演算の概念を任意の非グリッド入力に一般化する提案されたMAg演算に基づいている。 MAgはグラフ構造化データの非線形回帰マッピングを効率的に行うことができる。 MAg層は提案したグラフプーリング操作とインターリーブされ、堅牢なグラフU-Netアーキテクチャを構成し、任意の複雑なメッシュを処理し、問題のサイズに応じて効率的にスケールする。 離散化のタイプに限らず、いくつかの非線形有限要素シミュレーションにおいてMAgNETの予測能力を示す。

Mesh-based approaches are fundamental to solving physics-based simulations, however, they require significant computational efforts, especially for highly non-linear problems. Deep learning techniques accelerate physics-based simulations, however, they fail to perform efficiently as the size and complexity of the problem increases. Hence in this work, we propose MAgNET: Multi-channel Aggregation Network, a novel geometric deep learning framework for performing supervised learning on mesh-based graph data. MAgNET is based on the proposed MAg (Multichannel Aggregation) operation which generalises the concept of multi-channel local operations in convolutional neural networks to arbitrary non-grid inputs. MAg can efficiently perform non-linear regression mapping for graph-structured data. MAg layers are interleaved with the proposed novel graph pooling operations to constitute a graph U-Net architecture that is robust, handles arbitrary complex meshes and scales efficiently with the size of the problem. Although not limited to the type of discretisation, we showcase the predictive capabilities of MAgNET for several non-linear finite element simulations.
翻訳日:2022-11-03 14:32:27 公開日:2022-11-01
# 因子分析器の不斉混合に関するベイズ的枠組み

A Bayesian Framework on Asymmetric Mixture of Factor Analyser ( http://arxiv.org/abs/2211.00729v1 )

ライセンス: Link先を確認
Hamid Reza Safaeyan, Karim Zare, Mohamad R. Mahmoudi, Amir Mosavi(参考訳) 因子分析器モデル(MFAモデル)は,共分散行列に基づく因子解析手法によって自由パラメータの数を減少させる高次元データ解析の効率的なモデルである。 このモデルは、データの潜在グループを決定する重要な方法論も提供します。 非対称および/または外れ値データセットに基づいてモデルを拡張するためのいくつかの研究があり、頻繁なケースで検証されたいくつかの既知の計算制限がある。 本稿では,スキュー正規(無制限)一般化双曲型(SUNGH)分布のリッチで柔軟なクラスを持つMFAモデルと,いくつかの計算上の利点を持つベイズ構造について述べる。 SUNGHファミリーは、様々な方向の歪みをモデル化する柔軟性と、重み付きデータを可能にする。 ソン族の構造にはいくつかの望ましい性質があり、例えば、パラメータの推定に適用される計算の容易化につながる解析的に柔軟な密度である。 因子分析モデルを考慮すると、SUNGHファミリーは誤差成分と因子スコアの両方の歪みと重みを許容する。 本研究では,この分布群を用いる利点を考察し,実データ例とシミュレーションを用いたmfaモデルの適切な効率性について検証した。

Mixture of factor analyzer (MFA) model is an efficient model for the analysis of high dimensional data through which the factor-analyzer technique based on the covariance matrices reducing the number of free parameters. The model also provides an important methodology to determine latent groups in data. There are several pieces of research to extend the model based on the asymmetrical and/or with outlier datasets with some known computational limitations that have been examined in frequentist cases. In this paper, an MFA model with a rich and flexible class of skew normal (unrestricted) generalized hyperbolic (called SUNGH) distributions along with a Bayesian structure with several computational benefits have been introduced. The SUNGH family provides considerable flexibility to model skewness in different directions as well as allowing for heavy tailed data. There are several desirable properties in the structure of the SUNGH family, including, an analytically flexible density which leads to easing up the computation applied for the estimation of parameters. Considering factor analysis models, the SUNGH family also allows for skewness and heavy tails for both the error component and factor scores. In the present study, the advantages of using this family of distributions have been discussed and the suitable efficiency of the introduced MFA model using real data examples and simulation has been demonstrated.
翻訳日:2022-11-03 14:32:10 公開日:2022-11-01
# ディープラーニングにおける差分プライバシーと勾配圧縮の相互作用について

On the Interaction Between Differential Privacy and Gradient Compression in Deep Learning ( http://arxiv.org/abs/2211.00734v1 )

ライセンス: Link先を確認
Jimmy Lin(参考訳) ディファレンシャルプライバシと勾配圧縮は、機械学習において個別によく研究されているトピックであるが、これらの2つのトピック間のインタラクションの研究はまだ比較的新しい。 差分プライバシーと勾配圧縮のガウス的メカニズムがディープラーニングにおけるテスト精度にどのように影響するかを実験的に検討する。 勾配圧縮の既存の文献は、差分プライバシー保証がない場合の圧縮を主に評価し、十分に高い圧縮速度が精度を低下させることを示した。 同様に、差分プライバシーに関する既存の文献は、圧縮がない場合のプライバシーメカニズムを評価し、十分に強力なプライバシー保証が精度を低下させることを示す。 本研究では, 勾配圧縮が非プライベートトレーニングにおけるテスト精度に悪影響を及ぼすのに対して, 偏差プライベートトレーニングではテスト精度が向上する場合があることを観察する。 具体的には,勾配に攻撃的スパーシフィケーションやランク低減を行うことで,差分プライバシーに付加されるガウス雑音の影響が小さくなることを観察する。 これらの観察は、差分プライバシーと圧縮が平均勾配の推定におけるバイアスと分散にどのように影響するかの分析を通して説明される。 本研究は,個別の深層学習と勾配圧縮の文脈において,テスト精度を改善する方法について提案する。 この提案を評価し、差分プライバシー機構が付加するノイズがテスト精度に与える影響を最大24.6%低減し、勾配偏差がテスト精度に与える影響を最大15.1%低減できることを見出した。

While differential privacy and gradient compression are separately well-researched topics in machine learning, the study of interaction between these two topics is still relatively new. We perform a detailed empirical study on how the Gaussian mechanism for differential privacy and gradient compression jointly impact test accuracy in deep learning. The existing literature in gradient compression mostly evaluates compression in the absence of differential privacy guarantees, and demonstrate that sufficiently high compression rates reduce accuracy. Similarly, existing literature in differential privacy evaluates privacy mechanisms in the absence of compression, and demonstrates that sufficiently strong privacy guarantees reduce accuracy. In this work, we observe while gradient compression generally has a negative impact on test accuracy in non-private training, it can sometimes improve test accuracy in differentially private training. Specifically, we observe that when employing aggressive sparsification or rank reduction to the gradients, test accuracy is less affected by the Gaussian noise added for differential privacy. These observations are explained through an analysis how differential privacy and compression effects the bias and variance in estimating the average gradient. We follow this study with a recommendation on how to improve test accuracy under the context of differentially private deep learning and gradient compression. We evaluate this proposal and find that it can reduce the negative impact of noise added by differential privacy mechanisms on test accuracy by up to 24.6%, and reduce the negative impact of gradient sparsification on test accuracy by up to 15.1%.
翻訳日:2022-11-03 14:31:54 公開日:2022-11-01
# 説明可能な機械学習を用いたパンデミック誘発概念ドリフトによる患者フロー予測

Forecasting Patient Flows with Pandemic Induced Concept Drift using Explainable Machine Learning ( http://arxiv.org/abs/2211.00739v1 )

ライセンス: Link先を確認
Teo Susnjak and Paula Maddigan(参考訳) 緊急医療機関(Urgent Care Clinicals, UCCs)と救急部門(EDs)の患者到着を正確に予測することは, 効果的なリソーシングと患者ケアに重要である。 しかし、多くのドライバに依存するため、正しく患者フローを推定することは簡単ではない。 新型コロナウイルス(covid-19)のパンデミックやロックダウンにより、患者の到着予想がさらに複雑になっている。 本研究では,google検索用語,歩行者の交通量,インフルエンザの発生率,および新型コロナウイルスの警報レベル指標など,新たな準リアルタイム変数のスイートが,一般的に患者フロー予測モデルを改善し,そのモデルがパンデミック状態の広範囲な混乱に効果的に適用できるかを検討する。 この研究は、eXplainable AIフィールドのツールを使用して、これまでよりもモデルの内部力学をより深く研究することで、この領域における作業の本体に一意に貢献する。 機械学習と統計的手法を組み合わせた投票アンサンブル方式は,実験で最も信頼性が高い。 当社の調査では、一般的な新型コロナウイルスの警告レベル機能とgoogle検索用語と歩行者のトラフィックが、一般的な予測に有効であったことが分かりました。 本研究の意義は,患者フローの正確な予測を確実にするために,プロキシ変数が標準自己回帰機能を効果的に増強できることである。 提案手法は,今後のパンデミック発生時の予測精度の維持に有効なモデル入力である可能性が示唆された。

Accurately forecasting patient arrivals at Urgent Care Clinics (UCCs) and Emergency Departments (EDs) is important for effective resourcing and patient care. However, correctly estimating patient flows is not straightforward since it depends on many drivers. The predictability of patient arrivals has recently been further complicated by the COVID-19 pandemic conditions and the resulting lockdowns. This study investigates how a suite of novel quasi-real-time variables like Google search terms, pedestrian traffic, the prevailing incidence levels of influenza, as well as the COVID-19 Alert Level indicators can both generally improve the forecasting models of patient flows and effectively adapt the models to the unfolding disruptions of pandemic conditions. This research also uniquely contributes to the body of work in this domain by employing tools from the eXplainable AI field to investigate more deeply the internal mechanics of the models than has previously been done. The Voting ensemble-based method combining machine learning and statistical techniques was the most reliable in our experiments. Our study showed that the prevailing COVID-19 Alert Level feature together with Google search terms and pedestrian traffic were effective at producing generalisable forecasts. The implications of this study are that proxy variables can effectively augment standard autoregressive features to ensure accurate forecasting of patient flows. The experiments showed that the proposed features are potentially effective model inputs for preserving forecast accuracies in the event of future pandemic outbreaks.
翻訳日:2022-11-03 14:31:27 公開日:2022-11-01
# ロバスト変調分類のための最大度蒸留

Maximum Likelihood Distillation for Robust Modulation Classification ( http://arxiv.org/abs/2211.00748v1 )

ライセンス: Link先を確認
Javier Maroto, G\'er\^ome Bovet and Pascal Frossard(参考訳) ディープニューラルネットワークは特に通信システムや自動変調分類(AMC)で広く利用されている。 しかし、ネットワークの決定を変えるために慎重に作られた小さな敵の摂動に非常に影響を受けやすい。 本研究では,より堅牢なAMCシステムを構築するために,知識蒸留のアイデアと敵の訓練に基づいて構築する。 まず,モデルの正確性と堅牢性の観点から,トレーニングデータの品質の重要性について概説する。 次に、オフライン設定におけるAMC問題の解決が可能なMaximum Likelihood関数を用いて、より良いトレーニングラベルを生成することを提案する。 これらのラベルは、困難条件下でモデルに不確実性を教えるため、精度を高めるとともに、敵の訓練と組み合わせることでモデルの堅牢性を高めることができる。 興味深いことに、このパフォーマンス転送の増大はオンライン設定に反映され、そこでは最大様相関数は実際には使用できない。 この研究は、ラベルノイズを直接除去するよりも、難しいシナリオで学習が不確実である可能性を強調している。

Deep Neural Networks are being extensively used in communication systems and Automatic Modulation Classification (AMC) in particular. However, they are very susceptible to small adversarial perturbations that are carefully crafted to change the network decision. In this work, we build on knowledge distillation ideas and adversarial training in order to build more robust AMC systems. We first outline the importance of the quality of the training data in terms of accuracy and robustness of the model. We then propose to use the Maximum Likelihood function, which could solve the AMC problem in offline settings, to generate better training labels. Those labels teach the model to be uncertain in challenging conditions, which permits to increase the accuracy, as well as the robustness of the model when combined with adversarial training. Interestingly, we observe that this increase in performance transfers to online settings, where the Maximum Likelihood function cannot be used in practice. Overall, this work highlights the potential of learning to be uncertain in difficult scenarios, compared to directly removing label noise.
翻訳日:2022-11-03 14:31:03 公開日:2022-11-01
# 複数のインド語への講義映像の大規模言語間ダビングのための技術パイプライン

Technology Pipeline for Large Scale Cross-Lingual Dubbing of Lecture Videos into Multiple Indian Languages ( http://arxiv.org/abs/2211.01338v1 )

ライセンス: Link先を確認
Anusha Prakash, Arun Kumar, Ashish Seth, Bhagyashree Mukherjee, Ishika Gupta, Jom Kuriakose, Jordan Fernandes, K V Vikram, Mano Ranjith Kumar M, Metilda Sagaya Mary, Mohammad Wajahat, Mohana N, Mudit Batra, Navina K, Nihal John George, Nithya Ravi, Pruthwik Mishra, Sudhanshu Srivastava, Vasista Sai Lodagala, Vandan Mujadia, Kada Sai Venkata Vineeth, Vrunda Sukhadia, Dipti Sharma, Hema Murthy, Pushpak Bhattacharya, S Umesh, Rajeev Sangal(参考訳) 講義ビデオのクロスリンガルドビングには、元の音声の書き起こし、不均一性の修正と除去、ドメイン項の発見、ターゲット言語へのテキスト間翻訳、ターゲット言語リズムを用いたテキストのチャンク、テキストから音声への合成、そして元のビデオへの等時リップシンクが必要である。 このタスクは、ソース言語とターゲット言語が異なる言語ファミリーに属し、生成された音声の持続時間が異なる場合に困難になる。 これは、もともとの話者のリズム、特にextempore speechによってさらに複合される。 本稿では,インド語の講義ビデオの半自動再生における課題について述べる。 インドの9つの言語に講義をダビングするためにプロトタイプが開発された。 2つの異なるコース(ヒンディー語とタミル語)で平均オピニオンスコア(mos)を得る。 出力ビデオは、それぞれ4.09と3.74のスコアで、MOS(1-5)と唇同期で原ビデオと比較される。 人間の努力も75%減少する。

Cross-lingual dubbing of lecture videos requires the transcription of the original audio, correction and removal of disfluencies, domain term discovery, text-to-text translation into the target language, chunking of text using target language rhythm, text-to-speech synthesis followed by isochronous lipsyncing to the original video. This task becomes challenging when the source and target languages belong to different language families, resulting in differences in generated audio duration. This is further compounded by the original speaker's rhythm, especially for extempore speech. This paper describes the challenges in regenerating English lecture videos in Indian languages semi-automatically. A prototype is developed for dubbing lectures into 9 Indian languages. A mean-opinion-score (MOS) is obtained for two languages, Hindi and Tamil, on two different courses. The output video is compared with the original video in terms of MOS (1-5) and lip synchronisation with scores of 4.09 and 3.74, respectively. The human effort also reduces by 75%.
翻訳日:2022-11-03 14:23:07 公開日:2022-11-01
# ViT-DeiT : 乳癌組織像分類のためのアンサンブルモデル

ViT-DeiT: An Ensemble Model for Breast Cancer Histopathological Images Classification ( http://arxiv.org/abs/2211.00749v1 )

ライセンス: Link先を確認
Amira Alotaibi, Tarik Alafif, Faris Alkhilaiwi, Yasser Alatawi, Hassan Althobaiti, Abdulmajeed Alrefaei, Yousef M Hawsawi, Tin Nguyen(参考訳) 乳がんは世界でも最も多いがんであり、女性の死因となるがんとしては2番目に多い。 病理組織像を用いた乳癌のタイムリーで正確な診断は患者のケアと治療に不可欠である。 病理学者は、画像処理に基づく新しいアプローチの助けを借りて、より正確な診断を行うことができる。 このアプローチは、2種類の事前訓練された視覚変換器モデル、すなわちビジョン変換器とデータ効率の良い画像変換器のアンサンブルモデルである。 提案するアンサンブルモデルでは,乳がんの病理像を8つのクラスに分類し,そのうち4つは良性に分類し,他は悪性に分類する。 提案モデルの評価にはパブリックデータセットが使用された。 実験の結果、98.17%の精度、98.18%の精度、98.08%のリコール、98.12%のF1スコアが得られた。

Breast cancer is the most common cancer in the world and the second most common type of cancer that causes death in women. The timely and accurate diagnosis of breast cancer using histopathological images is crucial for patient care and treatment. Pathologists can make more accurate diagnoses with the help of a novel approach based on image processing. This approach is an ensemble model of two types of pre-trained vision transformer models, namely, Vision Transformer and Data-Efficient Image Transformer. The proposed ensemble model classifies breast cancer histopathology images into eight classes, four of which are categorized as benign, whereas the others are categorized as malignant. A public dataset was used to evaluate the proposed model. The experimental results showed 98.17% accuracy, 98.18% precision, 98.08% recall, and a 98.12% F1 score.
翻訳日:2022-11-03 14:15:49 公開日:2022-11-01
# 幹部によるソーシャルメディア投稿の株価への影響評価

Evaluating Impact of Social Media Posts by Executives on Stock Prices ( http://arxiv.org/abs/2211.01287v1 )

ライセンス: Link先を確認
Anubhav Sarkar, Swagata Chakraborty, Sohom Ghosh, Sudip Kumar Naskar(参考訳) 株式市場の動きを予測することは、常に投資家や活発な研究分野にとって大きな関心事だった。 調査によると、製品の人気は人々の話に大きく影響されている。 twitterやredditのようなソーシャルメディアは、こうした影響のホットスポットになっている。 本稿は,Twitter と Reddit の投稿を用いた株価予測におけるソーシャルメディア投稿の影響について検討する。 当社の目標は,ソーシャルメディアデータの感情を過去の株価データと統合し,時系列モデルを用いた価格決定に与える影響を検討することである。 さまざまなデータセットに基づく複数の深層学習モデルを用いた厳密な実験と深層分析を行い,経営幹部や一般人によるポストが近い価格に与える影響について検討した。 複数の株(AppleとTesla)と分散通貨(BitcoinとEthereum)の実験結果は、ソーシャルメディアデータを含む予測の改善と、エグゼクティブポストを含む予測の改善を一貫して示している。

Predicting stock market movements has always been of great interest to investors and an active area of research. Research has proven that popularity of products is highly influenced by what people talk about. Social media like Twitter, Reddit have become hotspots of such influences. This paper investigates the impact of social media posts on close price prediction of stocks using Twitter and Reddit posts. Our objective is to integrate sentiment of social media data with historical stock data and study its effect on closing prices using time series models. We carried out rigorous experiments and deep analysis using multiple deep learning based models on different datasets to study the influence of posts by executives and general people on the close price. Experimental results on multiple stocks (Apple and Tesla) and decentralised currencies (Bitcoin and Ethereum) consistently show improvements in prediction on including social media data and greater improvements on including executive posts.
翻訳日:2022-11-03 14:05:15 公開日:2022-11-01
# LARO:定量的サセプティビリティマッピングを高速化する学習的獲得と再構築最適化

LARO: Learned Acquisition and Reconstruction Optimization to accelerate Quantitative Susceptibility Mapping ( http://arxiv.org/abs/2211.00725v1 )

ライセンス: Link先を確認
Jinwei Zhang, Pascal Spincemaille, Hang Zhang, Thanh D. Nguyen, Chao Li, Jiahao Li, Ilhami Kovanlikaya, Mert R. Sabuncu, Yi Wang(参考訳) qsm(quantical susceptibility mapping)は、複数のエコー時点における一連の画像の取得と再構成を伴い、組織野を推定し、スキャン時間を延長し、特定の再構成技術を必要とする。 本稿では,qsm用マルチエコー勾配エコー(mgre)パルスシーケンスの高速化を目的とした,学習獲得・再構成最適化(laro)と呼ばれる新しいフレームワークを提案する。 提案手法では,深部再構成ネットワークを用いて,モンテカルロマルチエコk空間サンプリングパターンを最適化する。 次に、この最適化されたサンプリングパターンを、Cartesian fan-beam k-space segmenting と ordering for prospective scans を用いてmGREシーケンスで実装した。 さらに,リコンストラクションネットワークに繰り返し発生する時間的特徴融合モジュールを挿入し,エコー時間に沿って信号冗長性をキャプチャする。 本研究は, サンプリングパターンの最適化と, 提案する再構成戦略が, マルチエコー画像再構成の質向上に寄与することを示す。 一般化実験により、LAROは新たな病態と異なるシーケンスパラメータを持つテストデータに対して堅牢であることが示された。 私たちのコードはhttps://github.com/jinwei1209/laro.gitで利用可能です。

Quantitative susceptibility mapping (QSM) involves acquisition and reconstruction of a series of images at multi-echo time points to estimate tissue field, which prolongs scan time and requires specific reconstruction technique. In this paper, we present our new framework, called Learned Acquisition and Reconstruction Optimization (LARO), which aims to accelerate the multi-echo gradient echo (mGRE) pulse sequence for QSM. Our approach involves optimizing a Cartesian multi-echo k-space sampling pattern with a deep reconstruction network. Next, this optimized sampling pattern was implemented in an mGRE sequence using Cartesian fan-beam k-space segmenting and ordering for prospective scans. Furthermore, we propose to insert a recurrent temporal feature fusion module into the reconstruction network to capture signal redundancies along echo time. Our ablation studies show that both the optimized sampling pattern and proposed reconstruction strategy help improve the quality of the multi-echo image reconstructions. Generalization experiments show that LARO is robust on the test data with new pathologies and different sequence parameters. Our code is available at https://github.com/Jinwei1209/LARO.git.
翻訳日:2022-11-03 14:04:10 公開日:2022-11-01
# 自己教師型物理によるCT用デノナイジング

Self-supervised Physics-based Denoising for Computed Tomography ( http://arxiv.org/abs/2211.00745v1 )

ライセンス: Link先を確認
Elvira Zainulina and Alexey Chernyavskiy and Dmitry V. Dylov(参考訳) Computed Tomography (CT) は、X線固有の放射線により患者にリスクを課し、低線量CT(LDCT)イメージング法の開発を促進する。 放射線線量の減少は健康リスクを減少させるが、ノイジエ測定につながり、組織コントラストを減少させ、ct画像にアーティファクトを引き起こす。 最終的に、これらの問題は医療従事者の認識に影響を与え、誤診を引き起こす可能性がある。 現代のディープラーニングノイズ抑制法は、この課題を緩和するが、訓練には低ノイズ高ノイズCT画像ペアが必要である。 本研究では,高用量CTプロジェクション地上真実像を使わずにトレーニング可能なノイズ2ノイズD-ANMの自己管理手法を提案する。 従来提案されていた自己教師型手法とは異なり,提案手法では隣接投影と実際のCTノイズ分布モデルとの接続を利用する。 このような組み合わせにより、元のノイズの多いLDCTプロジェクションのみを使用して、解釈可能なno-reference denoisingを可能にする。 ldctデータを用いた実験により,提案手法が完全教師付きモデルのレベルに達し,時折教師付きモデルに到達し,様々なノイズレベルに容易に一般化し,最先端の自己教師付きデノイジングアルゴリズムを上回ることを示した。

Computed Tomography (CT) imposes risk on the patients due to its inherent X-ray radiation, stimulating the development of low-dose CT (LDCT) imaging methods. Lowering the radiation dose reduces the health risks but leads to noisier measurements, which decreases the tissue contrast and causes artifacts in CT images. Ultimately, these issues could affect the perception of medical personnel and could cause misdiagnosis. Modern deep learning noise suppression methods alleviate the challenge but require low-noise-high-noise CT image pairs for training, rarely collected in regular clinical workflows. In this work, we introduce a new self-supervised approach for CT denoising Noise2NoiseTD-ANM that can be trained without the high-dose CT projection ground truth images. Unlike previously proposed self-supervised techniques, the introduced method exploits the connections between the adjacent projections and the actual model of CT noise distribution. Such a combination allows for interpretable no-reference denoising using nothing but the original noisy LDCT projections. Our experiments with LDCT data demonstrate that the proposed method reaches the level of the fully supervised models, sometimes superseding them, easily generalizes to various noise levels, and outperforms state-of-the-art self-supervised denoising algorithms.
翻訳日:2022-11-03 14:03:50 公開日:2022-11-01
# 高速・高能率音声システムのためのエンドツーエンド音声認識と終端処理

Unified End-to-End Speech Recognition and Endpointing for Fast and Efficient Speech Systems ( http://arxiv.org/abs/2211.00786v1 )

ライセンス: Link先を確認
Shaan Bijwadia, Shuo-yiin Chang, Bo Li, Tara Sainath, Chao Zhang, Yanzhang He(参考訳) 自動音声認識(ASR)システムは通常、音声境界を特定するために外部エンドポイント(EP)モデルに依存している。 本稿では,asrオーディオエンコーダからの情報を任意に活用することでep品質を向上させるとともに,asrタスクとepタスクを単一のエンドツーエンド(e2e)マルチタスクモデルで共同でトレーニングする手法を提案する。 我々は、EPにオーディオフレームを直接消費するか、ASRモデルから低レベルの潜在表現を消費するよう訓練する「スウィッチ」接続を導入する。 これにより、推論中に1つのE2Eモデルを使用して、低コストでフレームフィルタリングを行うことができ、また、進行中のASR計算に基づいて高品質なエンドツーエンド(EOQ)予測を行うことができる。 単語誤り率を低下させることなく,複数の単一タスクモデルと比較して,平均的エンドポイントレイテンシを120ms (30.8%削減),90%のレイテンシを170ms (23.0%削減)削減した。 連続認識では、WERは10.6%向上している。

Automatic speech recognition (ASR) systems typically rely on an external endpointer (EP) model to identify speech boundaries. In this work, we propose a method to jointly train the ASR and EP tasks in a single end-to-end (E2E) multitask model, improving EP quality by optionally leveraging information from the ASR audio encoder. We introduce a "switch" connection, which trains the EP to consume either the audio frames directly or low-level latent representations from the ASR model. This results in a single E2E model that can be used during inference to perform frame filtering at low cost, and also make high quality end-of-query (EOQ) predictions based on ongoing ASR computation. We present results on a voice search test set showing that, compared to separate single-task models, this approach reduces median endpoint latency by 120 ms (30.8% reduction), and 90th percentile latency by 170 ms (23.0% reduction), without regressing word error rate. For continuous recognition, WER improves by 10.6% (relative).
翻訳日:2022-11-03 13:55:09 公開日:2022-11-01
# 近接デバイスを用いた量子自然言語生成

Quantum Natural Language Generation on Near-Term Devices ( http://arxiv.org/abs/2211.00727v1 )

ライセンス: Link先を確認
Amin Karamlou, Marcel Pfaffhauser and James Wootton(参考訳) ノイズの多い中規模量子デバイスの出現は、様々な領域における量子コンピューティングの概念実証に繋がった。 例えば、文分類実験が行われた自然言語処理(nlp)や、地政学的地図作成や画像操作などのタスクが実行される手続き生成などがある。 文生成のためのハイブリッド量子古典アルゴリズムを設計し,これらの領域の交点における応用について検討する。 本アルゴリズムは,組合せ最適化のための模擬焼鈍法に基づく。 シミュレーションおよび実量子ハードウェア上での文生成を成功させる実装が提供される。 我々のアルゴリズムの変種は、音楽生成にも利用できる。 本稿は,NLPと量子コンピューティングに関するすべての背景を,自己完結型にすることを目的とする。

The emergence of noisy medium-scale quantum devices has led to proof-of-concept applications for quantum computing in various domains. Examples include Natural Language Processing (NLP) where sentence classification experiments have been carried out, as well as procedural generation, where tasks such as geopolitical map creation, and image manipulation have been performed. We explore applications at the intersection of these two areas by designing a hybrid quantum-classical algorithm for sentence generation. Our algorithm is based on the well-known simulated annealing technique for combinatorial optimisation. An implementation is provided and used to demonstrate successful sentence generation on both simulated and real quantum hardware. A variant of our algorithm can also be used for music generation. This paper aims to be self-contained, introducing all the necessary background on NLP and quantum computing along the way.
翻訳日:2022-11-03 13:47:54 公開日:2022-11-01
# カテゴリー理論を用いたストック・フロー図と動的システムのための代数的枠組み

An Algebraic Framework for Stock & Flow Diagrams and Dynamical Systems Using Category Theory ( http://arxiv.org/abs/2211.01290v1 )

ライセンス: Link先を確認
Xiaoyan Li, John Baez, Sophie Libkind, Eric Redekopp, Long Pham, Nathaniel D Osgood(参考訳) 大規模な感染症の数学的モデリングは重要だが、難しい。 これらの困難のいくつかは、ダイアグラムをそれ自体で数学的形式論として真剣に捉えるアプローチによって軽減することができる。 ストック・アンド・フロー・ダイアグラムは感染性疾患モデリングのための広くアクセス可能なビルディングブロックとして広く利用されている。 本章では、基礎となる数学に焦点をあてるのではなく、StockFlow.jlのソフトウェアによって作成されたコミュニケーション可能な病気の例を非公式に使用し、分類的枠組みの基礎、特徴、利点を説明する。 まず、分類的ストック・フロー・ダイアグラムを特徴付け、ストック・フロー・ダイアグラムの構文とそれらのセマンティクスを明確に分離し、ソフトウェアですでに実装されているセマンティクスの3つの例を示す:ODE、因果ループ・ダイアグラム、システム構造図。 次に、構成と階層化のフレームワークと、ストックとフロー図の例を確立します。 カテゴリ理論を適用すると、これらのフレームワークはモジュラー形式で小さなものから大きな図を作ることができる。 最後に、ダイアグラム中心のリアルタイム協調モデリングのためのオープンソースのModelCollabソフトウェアを紹介する。 グラフィカルなユーザインタフェースを用いて、このWebベースのソフトウェアは、ユーザが上述した分類的根本操作のタイプを引き受けるが、分類的基礎に関する知識は一切ない。

Mathematical modeling of infectious disease at scale is important, but challenging. Some of these difficulties can be alleviated by an approach that takes diagrams seriously as mathematical formalisms in their own right. Stock & flow diagrams are widely used as broadly accessible building blocks for infectious disease modeling. In this chapter, rather than focusing on the underlying mathematics, we informally use communicable disease examples created by the implemented software of StockFlow.jl to explain the basics, characteristics, and benefits of the categorical framework. We first characterize categorical stock & flow diagrams, and note the clear separation between the syntax of stock & flow diagrams and their semantics, demonstrating three examples of semantics already implemented in the software: ODEs, causal loop diagrams, and system structure diagrams. We then establish composition and stratification frameworks and examples for stock & flow diagrams. Applying category theory, these frameworks can build large diagrams from smaller ones in a modular fashion. Finally, we introduce the open-source ModelCollab software for diagram-centric real-time collaborative modeling. Using the graphical user interface, this web-based software allows the user to undertake the types of categorically-rooted operations discussed above, but without any knowledge of their categorical foundations.
翻訳日:2022-11-03 13:47:09 公開日:2022-11-01
# ニューラルアルゴリズム推論タスクの分散的一般化

Towards Better Out-of-Distribution Generalization of Neural Algorithmic Reasoning Tasks ( http://arxiv.org/abs/2211.00692v1 )

ライセンス: Link先を確認
Sadegh Mahdavi, Kevin Swersky, Thomas Kipf, Milad Hashemi, Christos Thrampoulidis, Renjie Liao(参考訳) 本稿では,ニューラルネットワークを用いた入出力対からアルゴリズム(ソート,幅優先探索,深度優先探索など)を学習することを目的とした,ニューラルネットワーク推論タスクのOOD一般化について検討する。 まず、この設定におけるOODの一般化は、一般的なOOD設定とは大きく異なると論じる。 例えば、ライン上の「emph{accuracy on the line」のような画像分類のOOD一般化のいくつかの現象はここでは見られず、データ拡張法のような手法は、多くの拡張技法の基礎となる仮定がしばしば違反されるため、役に立たない。 第2に,現在有望なベンチマークであるclrs \citep{deepmind2021clrs}の,30のアルゴリズム推論タスクを含む主な課題(入力分布シフト,非表出的データ生成,非表出的検証指標)を分析した。 本稿では,入力分布シフトの簡単な修正やデータ生成の改善など,いくつかのソリューションを提案する。 最後に,注目に基づく2WLグラフニューラルネットワーク(GNN)プロセッサを提案する。 私たちのコードは、 \url{https://github.com/smahdavi4/clrs} で利用可能です。

In this paper, we study the OOD generalization of neural algorithmic reasoning tasks, where the goal is to learn an algorithm (e.g., sorting, breadth-first search, and depth-first search) from input-output pairs using deep neural networks. First, we argue that OOD generalization in this setting is significantly different than common OOD settings. For example, some phenomena in OOD generalization of image classifications such as \emph{accuracy on the line} are not observed here, and techniques such as data augmentation methods do not help as assumptions underlying many augmentation techniques are often violated. Second, we analyze the main challenges (e.g., input distribution shift, non-representative data generation, and uninformative validation metrics) of the current leading benchmark, i.e., CLRS \citep{deepmind2021clrs}, which contains 30 algorithmic reasoning tasks. We propose several solutions, including a simple-yet-effective fix to the input distribution shift and improved data generation. Finally, we propose an attention-based 2WL-graph neural network (GNN) processor which complements message-passing GNNs so their combination outperforms the state-of-the-art model by a 3% margin averaged over all algorithms. Our code is available at: \url{https://github.com/smahdavi4/clrs}.
翻訳日:2022-11-03 13:46:47 公開日:2022-11-01
# 拡散モデルによる合成画像の検出について

On the detection of synthetic images generated by diffusion models ( http://arxiv.org/abs/2211.00680v1 )

ライセンス: Link先を確認
Riccardo Corvi and Davide Cozzolino and Giada Zingarini and Giovanni Poggi and Koki Nagano and Luisa Verdoliva(参考訳) 過去10年間で、主にgan(generative adversarial networks)に基づいた強力な手法の開発により、合成メディアの作成が著しく進展した。 最近では拡散モデル(dm)に基づく手法が注目を浴びている。 印象的なフォトリアリズムを提供するだけでなく、テキストベースのビジュアルコンテンツの作成を可能にし、アートからビデオゲームまで、さまざまなアプリケーション分野において、新しくエキサイティングな機会を開く。 一方、この資産は悪意のあるユーザーの手に付加的な資産であり、攻撃に完全に適合した偽のメディアを生成し配布し、メディアの法医学的コミュニティに新たな課題をもたらすことができる。 本研究では,拡散モデルが生成する合成画像と原始画像の区別がいかに困難か,その課題に現在の最先端の検出器が適しているかを理解することを目的とする。 この目的のために,まず拡散モデルが残した法医学的痕跡を明らかにした後,gan生成画像用に開発された現在の検出器が,これらの新しい合成画像に対してどのように作用するか,特に画像圧縮と再サイズを伴う社会的ネットワークシナリオに挑戦するかを研究する。 データセットとコードはgithub.com/grip-unina/DMimageDetectionで入手できる。

Over the past decade, there has been tremendous progress in creating synthetic media, mainly thanks to the development of powerful methods based on generative adversarial networks (GAN). Very recently, methods based on diffusion models (DM) have been gaining the spotlight. In addition to providing an impressive level of photorealism, they enable the creation of text-based visual content, opening up new and exciting opportunities in many different application fields, from arts to video games. On the other hand, this property is an additional asset in the hands of malicious users, who can generate and distribute fake media perfectly adapted to their attacks, posing new challenges to the media forensic community. With this work, we seek to understand how difficult it is to distinguish synthetic images generated by diffusion models from pristine ones and whether current state-of-the-art detectors are suitable for the task. To this end, first we expose the forensics traces left by diffusion models, then study how current detectors, developed for GAN-generated images, perform on these new synthetic images, especially in challenging social-networks scenarios involving image compression and resizing. Datasets and code are available at github.com/grip-unina/DMimageDetection.
翻訳日:2022-11-03 13:19:41 公開日:2022-11-01
# 3DMODT:3次元点群における共同検出・追跡のための注意誘導アフィニティ

3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D Point Clouds ( http://arxiv.org/abs/2211.00746v1 )

ライセンス: Link先を確認
Jyoti Kini, Ajmal Mian, Mubarak Shah(参考訳) 本研究では,3次元点群における複数物体の同時検出と追跡を行う手法を提案する。 本手法では,両ステップを1つのエンドツーエンドトレーサブルネットワークに組み込むことにより,外部オブジェクト検出器への依存性を解消する。 本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。 連続点クラウドスキャンにおける特徴類似性を利用した計算親和性行列は、視覚的トラッキングの不可欠な部分を形成する。 誤対応を抑えることで親和性行列を洗練するための注意に基づく改良モジュールを提案する。 このモジュールは、各アフィニティマトリックス内の自己アフィニティと、一対のアフィニティマトリックス間のクロスアフィニティを用いて、アフィニティマトリックスにおける大域的コンテキストをキャプチャするように設計されている。 競合するアプローチとは異なり、我々のネットワークは複雑な後処理アルゴリズムを必要とせず、追跡結果を直接出力するために生のLiDARフレームを処理する。 提案手法の有効性を,JRDB,Waymo,KITTIの3つの追跡ベンチマークで示す。 実験的な評価は、モデルがデータセットをまたいでうまく一般化する能力を示しています。

We propose a method for joint detection and tracking of multiple objects in 3D point clouds, a task conventionally treated as a two-step process comprising object detection followed by data association. Our method embeds both steps into a single end-to-end trainable network eliminating the dependency on external object detectors. Our model exploits temporal information employing multiple frames to detect objects and track them in a single network, thereby making it a utilitarian formulation for real-world scenarios. Computing affinity matrix by employing features similarity across consecutive point cloud scans forms an integral part of visual tracking. We propose an attention-based refinement module to refine the affinity matrix by suppressing erroneous correspondences. The module is designed to capture the global context in affinity matrix by employing self-attention within each affinity matrix and cross-attention across a pair of affinity matrices. Unlike competing approaches, our network does not require complex post-processing algorithms, and processes raw LiDAR frames to directly output tracking results. We demonstrate the effectiveness of our method on the three tracking benchmarks: JRDB, Waymo, and KITTI. Experimental evaluations indicate the ability of our model to generalize well across datasets.
翻訳日:2022-11-03 13:19:21 公開日:2022-11-01
# キャラクタ間関係駆動ストーリー生成に向けて

Towards Inter-character Relationship-driven Story Generation ( http://arxiv.org/abs/2211.00676v1 )

ライセンス: Link先を確認
Anvesh Rao Vijjini, Faeze Brahman, Snigdha Chaturvedi(参考訳) 本稿では,物語生成のための対人関係をモデル化するタスクを紹介する。 この課題に対処するため、我々はReliSt(ReliSt)の潜在変数として関係性を提案する。 ReLiStは文単位でストーリー文を生成し、関係セレクタとストーリーストレッチャーという2つの主要なコンポーネントを持つ。 関係セレクタは、次に提示する関係を選択する潜在変数を特定し、ストーリー継続者は、選択された関係をコヒーレントな方法で表現しながら、次の文を生成する。 我々の自動評価と人的評価は、ReLiStがコンテンツ品質を維持しながら、望ましい関係に忠実なストーリーを生成できることを示しています。 推論中の文間の関係の割り当てはReLiStに解釈可能性をもたらす。

In this paper, we introduce the task of modeling interpersonal relationships for story generation. For addressing this task, we propose Relationships as Latent Variables for Story Generation, (ReLiSt). ReLiSt generates stories sentence by sentence and has two major components - a relationship selector and a story continuer. The relationship selector specifies a latent variable to pick the relationship to exhibit in the next sentence and the story continuer generates the next sentence while expressing the selected relationship in a coherent way. Our automatic and human evaluations demonstrate that ReLiSt is able to generate stories with relationships that are more faithful to desired relationships while maintaining the content quality. The relationship assignments to sentences during inference bring interpretability to ReLiSt.
翻訳日:2022-11-03 13:11:21 公開日:2022-11-01
# 効果的事象検出のための意味的ピボットモデル

Semantic Pivoting Model for Effective Event Detection ( http://arxiv.org/abs/2211.00709v1 )

ライセンス: Link先を確認
Anran Hao, Siu Cheung Hui, Jian Su(参考訳) イベント検出は、構造化されていない記事からイベントインスタンスの言及を識別し分類することを目的としており、自然言語処理(NLP)において重要なタスクである。 イベント検出の既存のテクニックは、イベントタイプクラスを表すために均質な1つのホットベクターのみを使用し、型の意味的意味がタスクにとって重要であるという事実を無視している。 このようなアプローチは非効率であり、過度に適合しがちである。 本稿では,学習中の事前情報を明示的に取り込み,入力とイベント間の意味的に有意味な相関関係を捉えた,効果的なイベント検出(速度)のための意味的ピボットモデルを提案する。 実験の結果,提案モデルが最先端性能を達成し,外部リソースを使わずに複数の設定でベースラインを上回ることがわかった。

Event Detection, which aims to identify and classify mentions of event instances from unstructured articles, is an important task in Natural Language Processing (NLP). Existing techniques for event detection only use homogeneous one-hot vectors to represent the event type classes, ignoring the fact that the semantic meaning of the types is important to the task. Such an approach is inefficient and prone to overfitting. In this paper, we propose a Semantic Pivoting Model for Effective Event Detection (SPEED), which explicitly incorporates prior information during training and captures semantically meaningful correlations between input and events. Experimental results show that our proposed model achieves state-of-the-art performance and outperforms the baselines in multiple settings without using any external resources.
翻訳日:2022-11-03 13:11:10 公開日:2022-11-01
# プライバシーはロバスト性をもたらす:情報計算ギャップとスパース平均推定

Privacy Induces Robustness: Information-Computation Gaps and Sparse Mean Estimation ( http://arxiv.org/abs/2211.00724v1 )

ライセンス: Link先を確認
Kristian Georgiev, Samuel B. Hopkins(参考訳) 非常に高い確率でうまく機能するプライベートメカニズムは、たとえ受信したサンプルの一定割合が敵対的に破損したとしても、精度を維持するという意味で自動的に堅牢である。 最適メカニズムは一般にこれらの高い成功確率を達成するため、多くの基礎統計問題に対する最適プライベートメカニズムは堅牢であることを示す。 本稿では, アルゴリズムと計算複雑性の両面において, 異なる統計問題に対する観測結果について検討する。 ブレナン・ブレスラーの秘密推論による斜流予想を仮定すると、計算効率、プライバシーリーク、およびスパース平均推定の成功確率の基本的なトレードオフを示す。 このトレードオフにマッチするプライベートアルゴリズムはまだ分かっていないが、 Sum-of-Squares 法により多項式的に広いパラメータで(多対数因子まで)達成できる。 プライベートスパース平均推定のための情報計算ギャップを確立するために,効率的なアルゴリズムよりも少ないサンプルを用いた新しい(指数時間)機構を設計する。 最後に、PAC学習パリティ関数や多変量ガウス平均の推定など、いくつかの統計および学習問題に対するプライバシーによる情報計算ギャップの証拠を示す。

We establish a simple connection between robust and differentially-private algorithms: private mechanisms which perform well with very high probability are automatically robust in the sense that they retain accuracy even if a constant fraction of the samples they receive are adversarially corrupted. Since optimal mechanisms typically achieve these high success probabilities, our results imply that optimal private mechanisms for many basic statistics problems are robust. We investigate the consequences of this observation for both algorithms and computational complexity across different statistical problems. Assuming the Brennan-Bresler secret-leakage planted clique conjecture, we demonstrate a fundamental tradeoff between computational efficiency, privacy leakage, and success probability for sparse mean estimation. Private algorithms which match this tradeoff are not yet known -- we achieve that (up to polylogarithmic factors) in a polynomially-large range of parameters via the Sum-of-Squares method. To establish an information-computation gap for private sparse mean estimation, we also design new (exponential-time) mechanisms using fewer samples than efficient algorithms must use. Finally, we give evidence for privacy-induced information-computation gaps for several other statistics and learning problems, including PAC learning parity functions and estimation of the mean of a multivariate Gaussian.
翻訳日:2022-11-03 12:53:21 公開日:2022-11-01
# viinter: 画像の暗黙的神経表現によるビュー補間

VIINTER: View Interpolation with Implicit Neural Representations of Images ( http://arxiv.org/abs/2211.00722v1 )

ライセンス: Link先を確認
Brandon Yushan Feng, Susmija Jabbireddy, Amitabh Varshney(参考訳) 本稿では,画像の暗黙的ニューラル表現(INR)を補間することで補間を観察する手法であるVIINTERを提案する。 我々は,各画像に関連付けられた学習符号ベクトルを活用し,これらの符号間の補間を行い,視点遷移を実現する。 補間品質を大幅に向上させる手法をいくつか提案する。 VIINTERは、3D構造を構築したり、カメラポーズを推定したり、ピクセル対応を計算したりすることなく、ビュー補間を実現する新しい方法を示す。 異なるタイプのカメラレイアウトとシーン構成を持つ複数のマルチビューシーンにおけるVIINTERの有効性を検証する。 画像のINR(表面や体積とは対照的に)の開発は、画像の嵌合や超解像度といったタスクを中心に行われており、VIINTERでは、画像補間機能を示し、画像操作タスクにINRを使用することに期待できる展望を提供する。

We present VIINTER, a method for view interpolation by interpolating the implicit neural representation (INR) of the captured images. We leverage the learned code vector associated with each image and interpolate between these codes to achieve viewpoint transitions. We propose several techniques that significantly enhance the interpolation quality. VIINTER signifies a new way to achieve view interpolation without constructing 3D structure, estimating camera poses, or computing pixel correspondence. We validate the effectiveness of VIINTER on several multi-view scenes with different types of camera layout and scene composition. As the development of INR of images (as opposed to surface or volume) has centered around tasks like image fitting and super-resolution, with VIINTER, we show its capability for view interpolation and offer a promising outlook on using INR for image manipulation tasks.
翻訳日:2022-11-03 12:52:31 公開日:2022-11-01
# マルチモーダルAIと衛星画像による大気質の測定

Measuring Air Quality via Multimodal AI and Satellite Imagery ( http://arxiv.org/abs/2211.00780v1 )

ライセンス: Link先を確認
Andrew Rowley and Oktay Karaku\c{s}(参考訳) 気候変動は、地球が現在直面している最も重要な環境問題であり、地球上のすべての生物に影響を及ぼす可能性がある。 空気質の監視ステーションは一般的に地上ベースであるため、汚染物質分布を検出する能力は広い範囲に限定されることが多い。 欧州宇宙機関(ESA)のコペルニクス計画衛星 "Sentinel-5P" は、様々な汚染情報を公的に利用可能なデータ出力で測定できる、新たに打ち上げられた衛星である。 本稿では,監視局が存在しない空気質指標を予測するためのマルチモーダル機械学習モデルを提案する。 このモデルの入力には、汚染物質分布の強調と社会・産業行動の変化の動機づけを目的として、地上測定と衛星データの融合が含まれる。 ヨーロッパの汚染監視ステーション測定の新しいデータセットは、$\textit{altitude, populationなどを含む機能で作成されている。 ESA Copernicusプロジェクトからの$。 このデータセットは、様々な種類のデータソースを融合させて様々な汚染物質の予測を出力できるマルチモーダルMLモデルAir Quality Network(AQNet)のトレーニングに使用される。 これらの予測は「空気品質指標」を作成するために集約され、異なる地域における空気品質を比較するのに使用できる。 NO$_2$, O$_3$, PM$_{10}$の3種類の汚染物質がAQNetによって予測され, 衛星画像のみを用いたモデルと比較して有用であることが判明した。 また,サポートデータの追加により予測が向上することが判明した。 英国とアイルランドのサンプル外データで開発されたAQNetをテストすると、平均汚染量の約20%が過大評価されているものの、良好な推定値が得られる。

Climate change may be classified as the most important environmental problem that the Earth is currently facing, and affects all living species on Earth. Given that air-quality monitoring stations are typically ground-based their abilities to detect pollutant distributions are often restricted to wide areas. Satellites however have the potential for studying the atmosphere at large; the European Space Agency (ESA) Copernicus project satellite, "Sentinel-5P" is a newly launched satellite capable of measuring a variety of pollutant information with publicly available data outputs. This paper seeks to create a multi-modal machine learning model for predicting air-quality metrics where monitoring stations do not exist. The inputs of this model will include a fusion of ground measurements and satellite data with the goal of highlighting pollutant distribution and motivating change in societal and industrial behaviors. A new dataset of European pollution monitoring station measurements is created with features including $\textit{altitude, population, etc.}$ from the ESA Copernicus project. This dataset is used to train a multi-modal ML model, Air Quality Network (AQNet) capable of fusing these various types of data sources to output predictions of various pollutants. These predictions are then aggregated to create an "air-quality index" that could be used to compare air quality over different regions. Three pollutants, NO$_2$, O$_3$, and PM$_{10}$, are predicted successfully by AQNet and the network was found to be useful compared to a model only using satellite imagery. It was also found that the addition of supporting data improves predictions. When testing the developed AQNet on out-of-sample data of the UK and Ireland, we obtain satisfactory estimates though on average pollution metrics were roughly overestimated by around 20\%.
翻訳日:2022-11-03 12:52:15 公開日:2022-11-01
# 自然言語モデル学習におけるユーザエンティティ差分プライバシー

User-Entity Differential Privacy in Learning Natural Language Models ( http://arxiv.org/abs/2211.01141v1 )

ライセンス: Link先を確認
Phung Lai, NhatHai Phan, Tong Sun, Rajiv Jain, Franck Dernoncourt, Jiuxiang Gu, Nikolaos Barmpalios(参考訳) 本稿では,テキストデータにおけるセンシティブなエンティティと自然言語モデル(NLM)学習におけるデータ所有者の両方に対して,形式的なプライバシ保護を実現するために,UeDPという新しい概念を導入する。 uedpを保存するために,ユーザとセンシティブなエンティティサンプリングプロセスをシームレスに組み合わせることによって,プライバシ損失とモデルユーティリティとのトレードオフを最適化する,新しいアルゴリズム uedp-alg を開発した。 UeDP-Algは,複数のNLMタスクにおいて,同一のプライバシ予算消費下でのモデルユーティリティのベースラインアプローチよりも優れていることを示す。

In this paper, we introduce a novel concept of user-entity differential privacy (UeDP) to provide formal privacy protection simultaneously to both sensitive entities in textual data and data owners in learning natural language models (NLMs). To preserve UeDP, we developed a novel algorithm, called UeDP-Alg, optimizing the trade-off between privacy loss and model utility with a tight sensitivity bound derived from seamlessly combining user and sensitive entity sampling processes. An extensive theoretical analysis and evaluation show that our UeDP-Alg outperforms baseline approaches in model utility under the same privacy budget consumption on several NLM tasks, using benchmark datasets.
翻訳日:2022-11-03 12:44:12 公開日:2022-11-01
# 教育における強化学習 : 多要素バンドアプローチ

Reinforcement Learning in Education: A Multi-Armed Bandit Approach ( http://arxiv.org/abs/2211.00779v1 )

ライセンス: Link先を確認
Herkulaas Combrink, Vukosi Marivate, Benjamin Rosman(参考訳) 強化学習研究の進歩は、異なるエージェントベースのモデルが与えられた環境でタスクを最適に実行する方法を学ぶ方法を示している。 強化傾きは、エージェントが状態-アクション-リワードループを移動してエージェント全体の報酬を最大化し、与えられた環境における特定の問題の解決を最適化する、教師なしの問題を解決する。 しかし、これらのアルゴリズムは、特定の問題を解決するために現実の環境で取るべき行動の理解に基づいて設計されている。 そのような問題の1つは、教育のようにユーザが主題であるシステム内でアクションを識別、推奨、実行する能力である。 近年,教育場面における対面学習とオンライン学習を統合したブレンド学習手法が普及している。 さらに、教育に使用されるオンラインプラットフォームは、ユーザ、この意味では、学生または学習者にとって有益なアクションの識別、推薦、実行のような特定の機能の自動化を必要とする。 これらの科学的進歩が有望であるように、教育システムにこれらのエージェントを確実に配置するためには、さまざまな分野で研究を行う必要がある。 そこで,本研究の目的は,教育場面における介入勧告問題に対する環境内の累積報酬の文脈化とシミュレートである。

Advances in reinforcement learning research have demonstrated the ways in which different agent-based models can learn how to optimally perform a task within a given environment. Reinforcement leaning solves unsupervised problems where agents move through a state-action-reward loop to maximize the overall reward for the agent, which in turn optimizes the solving of a specific problem in a given environment. However, these algorithms are designed based on our understanding of actions that should be taken in a real-world environment to solve a specific problem. One such problem is the ability to identify, recommend and execute an action within a system where the users are the subject, such as in education. In recent years, the use of blended learning approaches integrating face-to-face learning with online learning in the education context, has in-creased. Additionally, online platforms used for education require the automation of certain functions such as the identification, recommendation or execution of actions that can benefit the user, in this sense, the student or learner. As promising as these scientific advances are, there is still a need to conduct research in a variety of different areas to ensure the successful deployment of these agents within education systems. Therefore, the aim of this study was to contextualise and simulate the cumulative reward within an environment for an intervention recommendation problem in the education context.
翻訳日:2022-11-03 12:43:19 公開日:2022-11-01
# 減量、再利用、リサイクル:蒸留による訓練効率の向上

Reduce, Reuse, Recycle: Improving Training Efficiency with Distillation ( http://arxiv.org/abs/2211.00683v1 )

ライセンス: Link先を確認
Cody Blakeney, Jessica Zosa Forde, Jonathan Frankle, Ziliang Zong, Matthew L. Leavitt(参考訳) ディープネットワークトレーニングの効率を向上させる方法(つまり、所定のレベルのモデル品質を達成するために必要なリソース)は、ディープラーニング実践者にとってすぐに利益となる。 蒸留は通常、モデルを圧縮したり、モデルの品質を向上させるために使用されるが、蒸留が実際に訓練効率を向上させるかどうかは不明である。 蒸留の品質改善は、トレーニングスピードアップに変換できるのか、それとも、リソースの節約なしに最終モデル品質を単純に向上できるのか? 我々は,イメージネットでトレーニングしたResNet-50と,C4でトレーニングしたBERTをマスク言語モデリングの対象とし,共通エンタープライズハードウェア(NVIDIA A100の8倍)を用いてGLUEで評価した。 GLUEで評価すると,ImageNetでトレーニングしたResNet-50の1.96倍,BERTで1.42倍のトレーニングを高速化できることがわかった。 さらに、bertの蒸留は、トレーニングの最初の20-50%でのみ行われる場合に最適な結果が得られる。 また, ResNet-50 と BERT の双方において, 教師としての最良質モデルを用いた場合においても, 蒸留によるトレーニングは, 蒸留なしでのトレーニングよりも, ほぼ常に効率的であることがわかった。 最後に,O(n)のランタイムコストを持つ教師モデルのアンサンブルから,各ステップの教師モデルのプールから1人の教師をランダムにサンプリングすることで,O(1)のランタイムコストしか持たない教師モデルの蒸留のメリットを得ることができた。 これらの結果から, 蒸留は画像分類と言語モデリングの両方において, 訓練効率が大幅に向上し, 蒸留プロトコルに対する簡単な最適化が向上する可能性が示唆された。

Methods for improving the efficiency of deep network training (i.e. the resources required to achieve a given level of model quality) are of immediate benefit to deep learning practitioners. Distillation is typically used to compress models or improve model quality, but it's unclear if distillation actually improves training efficiency. Can the quality improvements of distillation be converted into training speed-ups, or do they simply increase final model quality with no resource savings? We conducted a series of experiments to investigate whether and how distillation can be used to accelerate training using ResNet-50 trained on ImageNet and BERT trained on C4 with a masked language modeling objective and evaluated on GLUE, using common enterprise hardware (8x NVIDIA A100). We found that distillation can speed up training by up to 1.96x in ResNet-50 trained on ImageNet and up to 1.42x on BERT when evaluated on GLUE. Furthermore, distillation for BERT yields optimal results when it is only performed for the first 20-50% of training. We also observed that training with distillation is almost always more efficient than training without distillation, even when using the poorest-quality model as a teacher, in both ResNet-50 and BERT. Finally, we found that it's possible to gain the benefit of distilling from an ensemble of teacher models, which has O(n) runtime cost, by randomly sampling a single teacher from the pool of teacher models on each step, which only has a O(1) runtime cost. Taken together, these results show that distillation can substantially improve training efficiency in both image classification and language modeling, and that a few simple optimizations to distillation protocols can further enhance these efficiency improvements.
翻訳日:2022-11-03 12:27:45 公開日:2022-11-01
# 深層強化学習を用いた適応型大近所探索におけるオペレータ選択

Operator Selection in Adaptive Large Neighborhood Search using Deep Reinforcement Learning ( http://arxiv.org/abs/2211.00759v1 )

ライセンス: Link先を確認
Robbert Reijnen, Yingqian Zhang, Hoong Chuin Lau, Zaharah Bukhsh(参考訳) LNS(Large Neighborhood Search)は組合せ最適化問題の解法として人気がある。 LNSは、破壊と修復演算子を用いて、解空間内の近傍を反復的に探索する。 LNSが手前の問題を解決するのに最適な演算子を決定することは、労働集約的なプロセスである。 したがって,前回の探索回数の演算性能に基づいて,探索過程中の演算子を適応的に選択するための適応型大規模近傍探索 (alns) が提案されている。 このような演算子選択手順は、複雑で大きな解空間では有効ではない、ドメイン知識に基づくヒューリスティックである。 本稿では,ALNSの各探索繰り返しに対する演算子を逐次決定問題として選択する問題に対処し,Deep Reinforced Adaptive Large Neighhood Searchと呼ばれる深層強化学習法を提案する。 そこで,提案手法は,探索の状態に基づいて,どの操作を選択して高い長期報酬を得るか,すなわち基礎となる最適化問題に対する優れた解を求めることを目的としている。 提案手法は,確率重みと時間窓を用いた時間依存オリエンテーリング問題を用いて評価する。 提案手法は, 大規模探索における演算子を適応的に選択する手法を効果的に学習し, 大規模問題事例の少ない観察で学習しながら, 最先端の機械学習手法と比較して競争力のある結果が得られることを示す。

Large Neighborhood Search (LNS) is a popular heuristic for solving combinatorial optimization problems. LNS iteratively explores the neighborhoods in solution spaces using destroy and repair operators. Determining the best operators for LNS to solve a problem at hand is a labor-intensive process. Hence, Adaptive Large Neighborhood Search (ALNS) has been proposed to adaptively select operators during the search process based on operator performances of the previous search iterations. Such an operator selection procedure is a heuristic, based on domain knowledge, which is ineffective with complex, large solution spaces. In this paper, we address the problem of selecting operators for each search iteration of ALNS as a sequential decision problem and propose a Deep Reinforcement Learning based method called Deep Reinforced Adaptive Large Neighborhood Search. As such, the proposed method aims to learn based on the state of the search which operation to select to obtain a high long-term reward, i.e., a good solution to the underlying optimization problem. The proposed method is evaluated on a time-dependent orienteering problem with stochastic weights and time windows. Results show that our approach effectively learns a strategy that adaptively selects operators for large neighborhood search, obtaining competitive results compared to a state-of-the-art machine learning approach while trained with much fewer observations on small-sized problem instances.
翻訳日:2022-11-03 12:27:12 公開日:2022-11-01
# ブラックボックス最適化のためのモンテカルロ木降下

Monte Carlo Tree Descent for Black-Box Optimization ( http://arxiv.org/abs/2211.00778v1 )

ライセンス: Link先を確認
Yaoguang Zhai, Sicun Gao(参考訳) Black-Box Optimizationの鍵となるのは、潜在的に幅広い数値特性を持つ入力領域を効率的に探索し、低相対降下と最適化への高速な前進を実現することである。 Monte Carlo Tree Search (MCTS)法が最近導入され、探索とエクスプロイトのバランスをとる検索空間の分割性を改善することでベイズ最適化の改善が図られている。 この有望なフレームワークを拡張し、より高速な最適化のためにサンプルベース降下をさらに統合する方法を研究する。 我々は,確率的探索とガウス過程を含む頂点における新しい降下法を用いて,モンテカルロ探索木を拡張する新しい方法をデザインする。 本稿では,進捗と不確実性,分岐選択,木展開,バックプロパゲーションのバランスをとるための対応するルールを提案する。 設計された検索プロセスは、より高速な降下のためのサンプリングに重点を置いており、ローカライズされたガウス過程を搾取と探索の両方の補助指標として使っている。 提案アルゴリズムは,多くの挑戦的ベンチマーク問題において,最先端の手法より優れていることを示す。

The key to Black-Box Optimization is to efficiently search through input regions with potentially widely-varying numerical properties, to achieve low-regret descent and fast progress toward the optima. Monte Carlo Tree Search (MCTS) methods have recently been introduced to improve Bayesian optimization by computing better partitioning of the search space that balances exploration and exploitation. Extending this promising framework, we study how to further integrate sample-based descent for faster optimization. We design novel ways of expanding Monte Carlo search trees, with new descent methods at vertices that incorporate stochastic search and Gaussian Processes. We propose the corresponding rules for balancing progress and uncertainty, branch selection, tree expansion, and backpropagation. The designed search process puts more emphasis on sampling for faster descent and uses localized Gaussian Processes as auxiliary metrics for both exploitation and exploration. We show empirically that the proposed algorithms can outperform state-of-the-art methods on many challenging benchmark problems.
翻訳日:2022-11-03 12:26:51 公開日:2022-11-01
# 忘れないことを超えて: 後進的知識伝達による継続的な学習

Beyond Not-Forgetting: Continual Learning with Backward Knowledge Transfer ( http://arxiv.org/abs/2211.00789v1 )

ライセンス: Link先を確認
Sen Lin, Li Yang, Deliang Fan, Junshan Zhang(参考訳) 一連のタスクを連続的に学習することにより、連続学習エージェント(cl)は、前進知識転送と後方知識転送をそれぞれ活用して、新しいタスクと「古い」タスクの両方の学習性能を向上させることができる。 しかし、既存のCL手法の多くは、古いタスクに対する学習モデルの修正を最小限にすることで、ニューラルネットワークの破滅的な忘れに対処することに焦点を当てている。 これは必然的に、新しいタスクから古いタスクへの後方からの知識伝達を制限する。 この問題に対処するために,我々はまず,古いタスクの学習モデルを更新することがclにとって有益である条件を理論的に解析し,また,従来のタスクの入力部分空間への勾配射影に基づいて,後向きの知識伝達を導く。 理論的解析に基づいて,データ再生のない固定容量ニューラルネットワークのための,バックワードノウルEdge tRansfer (CUBER) を用いたContinUal学習法を開発した。 特に、CUBERは、まずタスク相関を特徴付け、階層的に正に相関した古いタスクを識別し、新しいタスクを学習する際に、古いタスクの学習モデルを選択的に修正する。 実験的研究により、CUBERはデータ再生なしでいくつかの既存のCLベンチマークにおいて、初めて正の逆向きの知識伝達を達成できることが示され、関連するベースラインは依然として破滅的な忘れ(負の逆方向の知識伝達)に悩まされている。 後向きの知識伝達におけるCUBERの優れた性能は、それに応じて高い精度をもたらす。

By learning a sequence of tasks continually, an agent in continual learning (CL) can improve the learning performance of both a new task and `old' tasks by leveraging the forward knowledge transfer and the backward knowledge transfer, respectively. However, most existing CL methods focus on addressing catastrophic forgetting in neural networks by minimizing the modification of the learnt model for old tasks. This inevitably limits the backward knowledge transfer from the new task to the old tasks, because judicious model updates could possibly improve the learning performance of the old tasks as well. To tackle this problem, we first theoretically analyze the conditions under which updating the learnt model of old tasks could be beneficial for CL and also lead to backward knowledge transfer, based on the gradient projection onto the input subspaces of old tasks. Building on the theoretical analysis, we next develop a ContinUal learning method with Backward knowlEdge tRansfer (CUBER), for a fixed capacity neural network without data replay. In particular, CUBER first characterizes the task correlation to identify the positively correlated old tasks in a layer-wise manner, and then selectively modifies the learnt model of the old tasks when learning the new task. Experimental studies show that CUBER can even achieve positive backward knowledge transfer on several existing CL benchmarks for the first time without data replay, where the related baselines still suffer from catastrophic forgetting (negative backward knowledge transfer). The superior performance of CUBER on the backward knowledge transfer also leads to higher accuracy accordingly.
翻訳日:2022-11-03 12:26:32 公開日:2022-11-01
# SleepyWheels: 事故防止につながる眠気検出のためのアンサンブルモデル

SleepyWheels: An Ensemble Model for Drowsiness Detection leading to Accident Prevention ( http://arxiv.org/abs/2211.00718v1 )

ライセンス: Link先を確認
Jomin Jose, Andrew J, Kumudha Raimond, Shweta Vincent(参考訳) インドの高速道路での運転に関連する事故の約40%は、運転者がハンドルの後ろで眠りに落ちたためである。 ドライバーの眠気を検出するためにいくつかの研究が進行中であるが、それらはモデルの複雑さとコストに悩まされている。 本論文では,ドライバーの疲労をリアルタイムで識別するために,軽量ニューラルネットワークと顔のランドマーク識別を併用した革命的手法を提案する。 SleepyWheelsは、目や口を覆う際の顔の特徴の欠如、ドライバーの肌の色の変化、カメラの配置、観察角度など、幅広いテストシナリオで成功している。 リアルタイムシステムにエミュレートするとうまく機能します。 SleepyWheelsは、EfficientNetV2と顔のランドマーク検出器を使用して、眠気の検出を識別した。 このモデルは、ドライバーの眠気に関する特別なデータセットに基づいて訓練され、精度は97%に達する。 モデルは軽量であるため、さまざまなプラットフォーム用のモバイルアプリケーションとして、さらにデプロイすることができる。

Around 40 percent of accidents related to driving on highways in India occur due to the driver falling asleep behind the steering wheel. Several types of research are ongoing to detect driver drowsiness but they suffer from the complexity and cost of the models. In this paper, SleepyWheels a revolutionary method that uses a lightweight neural network in conjunction with facial landmark identification is proposed to identify driver fatigue in real time. SleepyWheels is successful in a wide range of test scenarios, including the lack of facial characteristics while covering the eye or mouth, the drivers varying skin tones, camera placements, and observational angles. It can work well when emulated to real time systems. SleepyWheels utilized EfficientNetV2 and a facial landmark detector for identifying drowsiness detection. The model is trained on a specially created dataset on driver sleepiness and it achieves an accuracy of 97 percent. The model is lightweight hence it can be further deployed as a mobile application for various platforms.
翻訳日:2022-11-03 12:18:14 公開日:2022-11-01
# 各種応用分野における物体検出の最先端モデル

State-of-the-art Models for Object Detection in Various Fields of Application ( http://arxiv.org/abs/2211.00733v1 )

ライセンス: Link先を確認
Syed Ali John Naqvi and Syed Bazil Ali(参考訳) 本稿では,オブジェクト認識の課題を1段階法と2段階法という2つの手法の文脈に置くことにより,オブジェクト検出の最先端化を目標として,データセットとその最良モデルのリストを示す。 我々は、粒度学習モデル(COCOミニバル、COCOテスト、Pascal VOC 2007、ADE20K、ImageNet)で最近開発された5つのトップデータセットの詳細な統計分析を行った。 データセットは、多様性、データ品質、バイアス最小、ラベル品質などの観点から、他のデータセットと密接に比較した後、手動で選択される。 さらに重要なことは、この2年間で、これらのデータセットと新興モデルとの最高の組み合わせを提供するために、私たちの作業が拡張されます。 各データセットの上位モデルとその最適なユースケースをリストアップする。 我々は、様々な汎用オブジェクト検出モデルと特定オブジェクト検出モデルの包括的概要を提供し、結合 (ious) と異なるサイズのオブジェクトの異なる交差点で固定されたbox (ap) の推論時間や平均精度などの比較結果を列挙した。 定性的かつ定量的な分析により、専門家はデータセットとモデルの最適な組み合わせを使用して、新しいパフォーマンス記録を達成できる。

We present a list of datasets and their best models with the goal of advancing the state-of-the-art in object detection by placing the question of object recognition in the context of the two types of state-of-the-art methods: one-stage methods and two stage-methods. We provided an in-depth statistical analysis of the five top datasets in the light of recent developments in granulated Deep Learning models - COCO minival, COCO test, Pascal VOC 2007, ADE20K, and ImageNet. The datasets are handpicked after closely comparing them with the rest in terms of diversity, quality of data, minimal bias, labeling quality etc. More importantly, our work extends to provide the best combination of these datasets with the emerging models in the last two years. It lists the top models and their optimal use cases for each of the respective datasets. We have provided a comprehensive overview of a variety of both generic and specific object detection models, enlisting comparative results like inference time and average precision of box (AP) fixed at different Intersection Over Union (IoUs) and for different sized objects. The qualitative and quantitative analysis will allow experts to achieve new performance records using the best combination of datasets and models.
翻訳日:2022-11-03 12:17:59 公開日:2022-11-01
# 隣接染色組織からメラノサイトーシス細胞マスクを学習する

Learning Melanocytic Cell Masks from Adjacent Stained Tissue ( http://arxiv.org/abs/2211.00646v1 )

ライセンス: Link先を確認
Mikio Tada, Maria L. Wei, Michael J. Keiser(参考訳) メラノーマは最も攻撃的な皮膚がんの1つであり、皮膚がんの死亡率が高い。 しかし,病理医によるメラノーマ診断では,信頼性は低い。 メラノーマはメラノーマの癌であるため、病理組織学的変異によらないメラノサイト細胞分画ツールを開発し、ピクセルレベルのアノテーションを自動化する必要がある。 しかし、ギガピクセルレベルの病理学ラベル付けは実用的ではない。 そこで本研究では, ヘマトキシリン(hematoxylin)とエオシン(eosin, h&e)染色スライダー(h&e)のメラノサイト様細胞分割のための深層ニューラルネットワークを, 隣接組織片の対免疫組織化学的(ihc)スライドを用いて訓練する方法を提案する。

Melanoma is one of the most aggressive forms of skin cancer, causing a large proportion of skin cancer deaths. However, melanoma diagnoses by pathologists shows low interrater reliability. As melanoma is a cancer of the melanocyte, there is a clear need to develop a melanocytic cell segmentation tool that is agnostic to pathologist variability and automates pixel-level annotation. Gigapixel-level pathologist labeling, however, is impractical. Herein, we propose a means to train deep neural networks for melanocytic cell segmentation from hematoxylin and eosin (H&E) stained slides using paired immunohistochemical (IHC) slides of adjacent tissue sections, achieving a mean IOU of 0.64 despite imperfect ground-truth labels.
翻訳日:2022-11-03 12:09:17 公開日:2022-11-01
# 深層学習による脳内オルガノイドの自動定量分析

Automatic Quantitative Analysis of Brain Organoids via Deep Learning ( http://arxiv.org/abs/2211.00750v1 )

ライセンス: Link先を確認
Jingli Shi(参考訳) 脳オルガノイド技術の最近の進歩は、医師や研究者が脳疾患を理解し治療する方法を変える可能性がある新しい方法である。 新しい薬物検査、疾患モデリング、科学研究において、ヒト幹細胞由来の脳オルガノイドの顕著な使用にもかかわらず、ヒトによるオルガノイドの内部構造、細胞、および神経を観察および分析するのに、依然として多くの時間を要する作業であり、特に、脳オルガノイドのための成長ai技術を組み合わせた標準的な定量的分析方法がない。 本稿では,異なる蛍光でタグ付けされた脳オルガノイドスライスチャネルに対して,コンピュータによる自動解析手法を提案する。 本手法を2つのグループ顕微鏡画像の2チャンネルに適用し,野生型と変異型脳オルガノイドの明らかな差異を示した。

Recent advances in brain organoid technology are exciting new ways, which have the potential to change the way how doctors and researchers understand and treat cerebral diseases. Despite the remarkable use of brain organoids derived from human stem cells in new drug testing, disease modeling, and scientific research, it is still heavily time-consuming work to observe and analyze the internal structure, cells, and neural inside the organoid by humans, specifically no standard quantitative analysis method combined growing AI technology for brain organoid. In this paper, an automated computer-assisted analysis method is proposed for brain organoid slice channels tagged with different fluorescent. We applied the method on two channels of two group microscopy images and the experiment result shows an obvious difference between Wild Type and Mutant Type cerebral organoids.
翻訳日:2022-11-03 12:08:57 公開日:2022-11-01
# 拡張ラグランジアンによる一般関数近似を用いた最適保守オフラインRL

Optimal Conservative Offline RL with General Function Approximation via Augmented Lagrangian ( http://arxiv.org/abs/2211.00716v1 )

ライセンス: Link先を確認
Paria Rashidinejad, Hanlin Zhu, Kunhe Yang, Stuart Russell, Jiantao Jiao(参考訳) オフライン強化学習(rl)は、以前収集されたインタラクションのデータセットからの意思決定を指すもので、過去数年間で大きな注目を集めている。 保守的な政策学習の様々な形態を通じて、部分的なデータカバレッジの問題に対処することで、オフラインのRL実践性の改善に多くの努力が注がれている。 ほとんどのアルゴリズムは有限サンプル保証を持っていないが、いくつかの証明可能な保守的なオフラインRLアルゴリズムは、部分的カバレッジを扱う単一政治集中フレームワーク内で設計され分析される。 しかし、信頼区間を得るのが難しい非線形関数近似では、既存の証明可能なアルゴリズムは計算の難易度、禁断的な強い仮定、そして準最適統計率に悩まされる。 本稿では,RLの限界値サンプリング(MIS)の定式化と,一般関数近似と単一政治集中性の下で統計的に最適で実用的なオフラインRLアルゴリズムのセットを,不確実な定量化の必要性を回避して提示する。 サンプルベースのMIS問題の近似をうまく解くための鍵は、ある占有率の制約がほぼ満たされることを保証することである。 拡張ラグランジアン法の新たな適用によりこれらの制約を強制し、以下の結果が証明される: MISの定式化により、拡張ラグランジアンは統計的に最適なオフラインRLに十分である。 行動正則化などの手法により保守主義を付加する先行アルゴリズムとは対照的に,本手法では,この必要性を確実に排除し,正規化要因を「保守主義の推進者」よりも「占有正当性の強化者」と再解釈する。

Offline reinforcement learning (RL), which refers to decision-making from a previously-collected dataset of interactions, has received significant attention over the past years. Much effort has focused on improving offline RL practicality by addressing the prevalent issue of partial data coverage through various forms of conservative policy learning. While the majority of algorithms do not have finite-sample guarantees, several provable conservative offline RL algorithms are designed and analyzed within the single-policy concentrability framework that handles partial coverage. Yet, in the nonlinear function approximation setting where confidence intervals are difficult to obtain, existing provable algorithms suffer from computational intractability, prohibitively strong assumptions, and suboptimal statistical rates. In this paper, we leverage the marginalized importance sampling (MIS) formulation of RL and present the first set of offline RL algorithms that are statistically optimal and practical under general function approximation and single-policy concentrability, bypassing the need for uncertainty quantification. We identify that the key to successfully solving the sample-based approximation of the MIS problem is ensuring that certain occupancy validity constraints are nearly satisfied. We enforce these constraints by a novel application of the augmented Lagrangian method and prove the following result: with the MIS formulation, augmented Lagrangian is enough for statistically optimal offline RL. In stark contrast to prior algorithms that induce additional conservatism through methods such as behavior regularization, our approach provably eliminates this need and reinterprets regularizers as "enforcers of occupancy validity" than "promoters of conservatism."
翻訳日:2022-11-03 12:08:42 公開日:2022-11-01
# TOE: タグ/ワード関係とより微細なタグを組み込んだグリッドタグ不連続NERモデル

TOE: A Grid-Tagging Discontinuous NER Model Enhanced by Embedding Tag/Word Relations and More Fine-Grained Tags ( http://arxiv.org/abs/2211.00684v1 )

ライセンス: Link先を確認
Jiang Liu, Donghong Ji, Jingye Li, Dongdong Xie, Chong Teng, Liang Zhao and Fei Li(参考訳) これまでのところ、不連続な名前付きエンティティ認識(ner)は研究の注目を集めており、ハイパーグラフベースメソッド、スパンベースメソッド、シーケンスツーシーケンス(seq2seq)メソッドなど、関連する多くの方法が急増している。 しかし、これらの手法は多かれ少なかれ曖昧さや効率性などの問題に悩まされ、性能が制限される。 近年,タギングシステムやモデルアーキテクチャのフレキシブルな設計の恩恵を受けるグリッドタギング手法が,様々な情報抽出タスクに適応できることが示されている。 本稿では,このような手法の系統を追従し,不連続nerの競合的グリッドタグモデルを提案する。 我々は,2種類のタグ指向拡張機構を,NER問題を単語関係予測に投入する最先端(SOTA)グリッドタグモデルに組み込むため,このモデルをTOEと呼ぶ。 まず, タッグ表現埋め込みモジュール (trem) を設計し, 単語間関係だけでなく, 単語間タグとタグ間関係も考慮させた。 具体的には、タグ表現を構築し、TREMに埋め込むことにより、TREMはタグ表現と単語表現をクエリ/キー/値として扱い、自己認識を利用して関係をモデル化する。 一方、SOTAモデルでは、Next-Neighboring-Word(NNW)とTail-Head-Word(THW)タグをモチベーションとして、2つの対称タグ、すなわちPrevious-Neighboring-Word(PNW)とHead-Tail-Word(HTW)を追加し、よりきめ細かい単語関係をモデル化し、タグ予測からエラー伝達を緩和する。 CADEC、ShARe13、ShARe14という3つのベンチマークデータセットの実験では、私たちのTOEモデルは、F1のSOTA結果を約0.83%、0.05%、0.66%押し上げ、その効果を実証しています。

So far, discontinuous named entity recognition (NER) has received increasing research attention and many related methods have surged such as hypergraph-based methods, span-based methods, and sequence-to-sequence (Seq2Seq) methods, etc. However, these methods more or less suffer from some problems such as decoding ambiguity and efficiency, which limit their performance. Recently, grid-tagging methods, which benefit from the flexible design of tagging systems and model architectures, have shown superiority to adapt for various information extraction tasks. In this paper, we follow the line of such methods and propose a competitive grid-tagging model for discontinuous NER. We call our model TOE because we incorporate two kinds of Tag-Oriented Enhancement mechanisms into a state-of-the-art (SOTA) grid-tagging model that casts the NER problem into word-word relationship prediction. First, we design a Tag Representation Embedding Module (TREM) to force our model to consider not only word-word relationships but also word-tag and tag-tag relationships. Concretely, we construct tag representations and embed them into TREM, so that TREM can treat tag and word representations as queries/keys/values and utilize self-attention to model their relationships. On the other hand, motivated by the Next-Neighboring-Word (NNW) and Tail-Head-Word (THW) tags in the SOTA model, we add two new symmetric tags, namely Previous-Neighboring-Word (PNW) and Head-Tail-Word (HTW), to model more fine-grained word-word relationships and alleviate error propagation from tag prediction. In the experiments of three benchmark datasets, namely CADEC, ShARe13 and ShARe14, our TOE model pushes the SOTA results by about 0.83%, 0.05% and 0.66% in F1, demonstrating its effectiveness.
翻訳日:2022-11-03 12:08:11 公開日:2022-11-01
# ピクセルと自然言語命令から具体化されたタスクを構築するボクセルの解法を学ぶ

Learning to Solve Voxel Building Embodied Tasks from Pixels and Natural Language Instructions ( http://arxiv.org/abs/2211.00688v1 )

ライセンス: Link先を確認
Alexey Skrynnik, Zoya Volovikova, Marc-Alexandre C\^ot\'e, Anton Voronov, Artem Zholus, Negar Arabzadeh, Shrestha Mohanty, Milagro Teruel, Ahmed Awadallah, Aleksandr Panov, Mikhail Burtsev, Julia Kiseleva(参考訳) エージェントのアクションプランを生成するための事前学習言語モデルの導入は、有望な研究戦略である。 しかし、実環境やシミュレーション環境での命令の実行には、アクションの実行可能性の検証と目標の完了との関連が必要である。 本稿では,自然言語命令に従ってマインクラフト型環境におけるオブジェクト構築作業において,言語モデルと強化学習を組み合わせた新しい手法を提案する。 提案手法はまず命令から一貫した達成可能なサブゴールのセットを生成し,学習済みのRLポリシーで関連するサブタスクを完了させる。 提案手法はiglu 2022コンペティションにおいてrlベースラインを形成した。

The adoption of pre-trained language models to generate action plans for embodied agents is a promising research strategy. However, execution of instructions in real or simulated environments requires verification of the feasibility of actions as well as their relevance to the completion of a goal. We propose a new method that combines a language model and reinforcement learning for the task of building objects in a Minecraft-like environment according to the natural language instructions. Our method first generates a set of consistently achievable sub-goals from the instructions and then completes associated sub-tasks with a pre-trained RL policy. The proposed method formed the RL baseline at the IGLU 2022 competition.
翻訳日:2022-11-03 12:07:28 公開日:2022-11-01
# winogroundがなぜ難しいのか? Visuolinguistic compositionalityにおける失敗の調査

Why is Winoground Hard? Investigating Failures in Visuolinguistic Compositionality ( http://arxiv.org/abs/2211.00768v1 )

ライセンス: Link先を確認
Anuj Diwan, Layne Berry, Eunsol Choi, David Harwath, Kyle Mahowald(参考訳) 最近のvisuolinguistic pre-trained modelsは、画像検索やビデオキャプションといった様々なエンドタスクにおいて有望な進歩を示している。 しかし、最近提案されたwinogroundデータセットは、ペア画像と英語のキャプションをマッチさせるモデルに挑戦し、語彙的に重なるが意味が異なるアイテム(例えば「草の中にマグカップがある」と「マグカップの中に草がある」)に挑戦している。 新しいきめ細かいタグを使ってデータセットに注釈を付けることで、winogroundタスクの解決には合成言語理解だけでなく、commonsense推論や低解像度画像における焦点を絞った小さなオブジェクトの特定といった他の能力が必要であることを示した。 本稿では,関連するタスク(プロジェクションタスク,画像検索タスク),データ拡張,データセットの手動検査など)に関する一連の実験を通じて,データセットの主な課題を明らかにする。 分析の結果,本研究の課題は,構成言語理解よりも視覚表現とテキスト表現の融合にある可能性が示唆された。 アノテーションとコードはhttps://github.com/ajd12342/why-winoground-hard でリリースしています。

Recent visuolinguistic pre-trained models show promising progress on various end tasks such as image retrieval and video captioning. Yet, they fail miserably on the recently proposed Winoground dataset, which challenges models to match paired images and English captions, with items constructed to overlap lexically but differ in meaning (e.g., "there is a mug in some grass" vs. "there is some grass in a mug"). By annotating the dataset using new fine-grained tags, we show that solving the Winoground task requires not just compositional language understanding, but a host of other abilities like commonsense reasoning or locating small, out-of-focus objects in low-resolution images. In this paper, we identify the dataset's main challenges through a suite of experiments on related tasks (probing task, image retrieval task), data augmentation, and manual inspection of the dataset. Our analysis suggests that a main challenge in visuolinguistic models may lie in fusing visual and textual representations, rather than in compositional language understanding. We release our annotation and code at https://github.com/ajd12342/why-winoground-hard .
翻訳日:2022-11-03 12:07:01 公開日:2022-11-01
# クロスサーベイ銀河形態分類と異常検出のための半監督領域適応法

Semi-Supervised Domain Adaptation for Cross-Survey Galaxy Morphology Classification and Anomaly Detection ( http://arxiv.org/abs/2211.00677v1 )

ライセンス: Link先を確認
Aleksandra \'Ciprijanovi\'c and Ashia Lewis and Kevin Pedro and Sandeep Madireddy and Brian Nord and Gabriel N. Perdue and Stefan Wild(参考訳) 大きな天文学的な調査の時代に、複数のデータセットに人工知能アルゴリズムを同時に活用する能力は、科学的な発見のための新たな道を開くだろう。 残念なことに、あるデータドメインの画像にディープニューラルネットワークをトレーニングするだけで、他のデータセットでは非常にパフォーマンスが悪くなります。 本稿では、クラスオーバーラップの異なるデータセットに適用可能な半教師付きドメインアライメントを実行することができるUniversal Domain Adaptation法DeepAstroUDAを提案する。 余分なクラスは2つのデータセットのいずれかに存在し、メソッドは未知のクラスの存在下でも使用できる。 本研究では,2つの異なる観測データセット(sdsとdecals)上でのドメイン適応を初めて成功させた。 本手法は,2つの天文学調査のギャップを橋渡しできると同時に,ラベルなしデータセットにおける未知のデータの異常検出とクラスタリングにも有効であることを示す。 我々は、異常検出を伴う銀河形態分類の2つの例に適用する。 1) 融合銀河の検出による渦巻銀河及び楕円銀河の分類(未知の異常類を含む3類) 2) クラスがより詳細な銀河の形態的性質を記述し、重力レンズ(未知の1つの異常クラスを含む10のクラス)を検出するより細かい問題。

In the era of big astronomical surveys, our ability to leverage artificial intelligence algorithms simultaneously for multiple datasets will open new avenues for scientific discovery. Unfortunately, simply training a deep neural network on images from one data domain often leads to very poor performance on any other dataset. Here we develop a Universal Domain Adaptation method DeepAstroUDA, capable of performing semi-supervised domain alignment that can be applied to datasets with different types of class overlap. Extra classes can be present in any of the two datasets, and the method can even be used in the presence of unknown classes. For the first time, we demonstrate the successful use of domain adaptation on two very different observational datasets (from SDSS and DECaLS). We show that our method is capable of bridging the gap between two astronomical surveys, and also performs well for anomaly detection and clustering of unknown data in the unlabeled dataset. We apply our model to two examples of galaxy morphology classification tasks with anomaly detection: 1) classifying spiral and elliptical galaxies with detection of merging galaxies (three classes including one unknown anomaly class); 2) a more granular problem where the classes describe more detailed morphological properties of galaxies, with the detection of gravitational lenses (ten classes including one unknown anomaly class).
翻訳日:2022-11-03 11:58:46 公開日:2022-11-01
# 機械学習とSDEによる裏側包括型XVAのリー群における評価トリガー

Rating Triggers for Collateral-Inclusive XVA via Machine Learning and SDEs on Lie Groups ( http://arxiv.org/abs/2211.00326v1 )

ライセンス: Link先を確認
Kevin Kamm and Michelle Muniz(参考訳) 本稿では,幾何学的アプローチを用いてエンティティの評価過程をモデル化する。 我々はリー群上のsdeとして評価遷移をモデル化する。 具体的には、過去のデータ(移行行列の推移)と市場データ(CDSの引用)にモデルを調整することに集中し、過去の確率からリスク中立に切り替えるための測度の変化の最も一般的な選択を比較します。 これに対し、古典的ギルサノフの定理がリー群の設定にどのように適用できるかを示す。 さらに,新しいDeep Learningアプローチを用いて,コホート手法を用いて計算した評価機関による評価行列の不完全性を克服する。 これにより、スキーム全体が改善され、アプリケーションにとってモデルがより堅牢になる。 我々は,このモデルを用いて,CSAの基準付きネットセットの2値クレジットとデビット評価の調整を,両者のレーティングに依存する閾値で計算する。

In this paper, we model the rating process of an entity by using a geometrical approach. We model rating transitions as an SDE on a Lie group. Specifically, we focus on calibrating the model to both historical data (rating transition matrices) and market data (CDS quotes) and compare the most popular choices of changes of measure to switch from the historical probability to the risk-neutral one. For this, we show how the classical Girsanov theorem can be applied in the Lie group setting. Moreover, we overcome some of the imperfections of rating matrices published by rating agencies, which are computed with the cohort method, by using a novel Deep Learning approach. This leads to an improvement of the entire scheme and makes the model more robust for applications. We apply our model to compute bilateral credit and debit valuation adjustments of a netting set under a CSA with thresholds depending on ratings of the two parties.
翻訳日:2022-11-02 15:12:43 公開日:2022-11-01
# 高次相互情報によるマルチニューロンの重要性の相乗的サブネットワーク

Higher-order mutual information reveals synergistic sub-networks for multi-neuron importance ( http://arxiv.org/abs/2211.00416v1 )

ライセンス: Link先を確認
Kenzo Clauw, Sebastiano Stramaglia, Daniele Marinazzo(参考訳) トレーニングされたニューラルネットワークの分類決定に関して重要なニューロンの定量化は、その内部動作を理解する上で不可欠である。 以前の研究は、主に個々のニューロンにとって重要であった。 本研究では,o-informationと呼ばれる多変量相互情報法を用いて,ニューロン群が相乗的あるいは冗長な情報を含むかを検討する。 我々は,第1層が冗長性によって支配されるのに対し,第2層は局所クラス固有の特徴(概念)を示す相乗性によって支配されるのを観察する。 最後に, O-information を用いたマルチニューロンの重要性を示す。 これは、シナジスティックなサブネットワークを再トレーニングすることで、パフォーマンスの最小限の変更をもたらす。 これらの結果から,提案手法はpruningやunsupervised representation learningに利用できることが示唆された。

Quantifying which neurons are important with respect to the classification decision of a trained neural network is essential for understanding their inner workings. Previous work primarily attributed importance to individual neurons. In this work, we study which groups of neurons contain synergistic or redundant information using a multivariate mutual information method called the O-information. We observe the first layer is dominated by redundancy suggesting general shared features (i.e. detecting edges) while the last layer is dominated by synergy indicating local class-specific features (i.e. concepts). Finally, we show the O-information can be used for multi-neuron importance. This can be demonstrated by re-training a synergistic sub-network, which results in a minimal change in performance. These results suggest our method can be used for pruning and unsupervised representation learning.
翻訳日:2022-11-02 15:12:27 公開日:2022-11-01
# PELICAN:粒子物理学のための置換同変とローレンツ不変または共変アグリゲータネットワーク

PELICAN: Permutation Equivariant and Lorentz Invariant or Covariant Aggregator Network for Particle Physics ( http://arxiv.org/abs/2211.00454v1 )

ライセンス: Link先を確認
Alexander Bogatskiy, Timothy Hoffman, David W. Miller, Jan T. Offermann(参考訳) 素粒子物理学における機械学習に対する現在の多くのアプローチは、多数のパラメータを必要とし、基礎となる物理原理を無視し、科学モデリングツールとしての適用性を制限する汎用アーキテクチャを使用している。 本研究では,6次元ローレンツ対称性全体の入力集合を最大に縮小し,全置換同値である機械学習アーキテクチャを提案する。 我々は,このネットワークアーキテクチャをトップクォークタギングの標準タスクに適用し,モデルの複雑さがかなり低いにもかかわらず,ネットワークが既存の競合相手を上回っていることを示す。 さらに、4モーメントの回帰タスクに適用した同じネットワークのローレンツ共変変量を示す。

Many current approaches to machine learning in particle physics use generic architectures that require large numbers of parameters and disregard underlying physics principles, limiting their applicability as scientific modeling tools. In this work, we present a machine learning architecture that uses a set of inputs maximally reduced with respect to the full 6-dimensional Lorentz symmetry, and is fully permutation-equivariant throughout. We study the application of this network architecture to the standard task of top quark tagging and show that the resulting network outperforms all existing competitors despite much lower model complexity. In addition, we present a Lorentz-covariant variant of the same network applied to a 4-momentum regression task.
翻訳日:2022-11-02 15:12:13 公開日:2022-11-01
# 画像認識システムにおける計算パラメータ変化の影響の検討

Exploring Effects of Computational Parameter Changes to Image Recognition Systems ( http://arxiv.org/abs/2211.00471v1 )

ライセンス: Link先を確認
Nikolaos Louloudakis, Perry Gibson, Jos\'e Cano and Ajitha Rajan(参考訳) 画像認識タスクは一般的にディープラーニングを使用し、膨大な処理能力を必要とするため、高速でタイムリーな処理にはGPUやFPGAなどのハードウェアアクセラレータに依存する。 リアルタイム画像認識タスクの失敗は、ハードウェアアクセラレータの誤ったマッピングが原因で起こり、タイミングの不確実性と不正確な動作につながる可能性がある。 自律運転や医用イメージングといった安全クリティカルなアプリケーションにおける画像認識タスクの利用が増加しているため、ディープラーニングフレームワーク、コード生成のためのコンパイラ最適化、ハードウェアデバイスなどのパラメータとして、計算環境の変化に対するロバスト性を評価することが不可欠である。 本稿では,モバイルNetV2,ResNet101V2,DenseNet121,InceptionV3の4つの一般的な画像認識モデルのロバストネス解析を行い,(1)ディープラーニングフレームワーク,(2)コンパイラ最適化,(3)ハードウェアデバイスなど,モデルの計算環境における以下のパラメータの影響を評価する。 本稿では,各環境パラメータの変化に対する出力ラベルと推定時間の観点からモデル性能の感度を報告する。 4つのモデルの出力ラベル予測は、ディープラーニングフレームワークの選択(最大57%)に敏感であり、他のパラメータには敏感であることがわかった。 一方、モデル推論時間は、最も影響の大きいハードウェアデバイスの変化を伴う全ての環境パラメータの影響を受けていた。 効果の程度はモデル間で均一ではなかった。

Image recognition tasks typically use deep learning and require enormous processing power, thus relying on hardware accelerators like GPUs and FPGAs for fast, timely processing. Failure in real-time image recognition tasks can occur due to incorrect mapping on hardware accelerators, which may lead to timing uncertainty and incorrect behavior. Owing to the increased use of image recognition tasks in safety-critical applications like autonomous driving and medical imaging, it is imperative to assess their robustness to changes in the computational environment as parameters like deep learning frameworks, compiler optimizations for code generation, and hardware devices are not regulated with varying impact on model performance and correctness. In this paper we conduct robustness analysis of four popular image recognition models (MobileNetV2, ResNet101V2, DenseNet121 and InceptionV3) with the ImageNet dataset, assessing the impact of the following parameters in the model's computational environment: (1) deep learning frameworks; (2) compiler optimizations; and (3) hardware devices. We report sensitivity of model performance in terms of output label and inference time for changes in each of these environment parameters. We find that output label predictions for all four models are sensitive to choice of deep learning framework (by up to 57%) and insensitive to other parameters. On the other hand, model inference time was affected by all environment parameters with changes in hardware device having the most effect. The extent of effect was not uniform across models.
翻訳日:2022-11-02 15:12:01 公開日:2022-11-01
# オンデバイス分散フェデレーション学習システムにおけるマルチリソース割り当て

Multi-Resource Allocation for On-Device Distributed Federated Learning Systems ( http://arxiv.org/abs/2211.00481v1 )

ライセンス: Link先を確認
Yulan Gao, Ziqiang Ye, Han Yu, Zehui Xiong, Yue Xiao, Dusit Niyato(参考訳) 本研究は、オンデバイス分散フェデレーション学習(fl)システムにおけるレイテンシとエネルギー消費量の重み付け和を最小化する分散マルチリソース割り当て方式を提案する。 システム内の各モバイルデバイスは、所定の領域内でモデルトレーニングプロセスを実行し、それぞれパラメータを導出およびアップロードするための計算および通信資源を割り当て、計算/通信予算および目標遅延要求の対象となるシステムの目的を最小化する。 特に、モバイルデバイスは無線TCP/IPアーキテクチャを介して接続される。 最適化問題構造を展開すれば、2つの凸部分確率に分解できる。 ラグランジアン双対および調和探索法に基づいて、全サブプロブレムに対する閉形式解による大域的最適解を特徴づけ、マルチリソーストレードオフに対する質的な洞察を与える。 数値シミュレーションを用いて,提案アルゴリズムの解析と性能評価を行う。

This work poses a distributed multi-resource allocation scheme for minimizing the weighted sum of latency and energy consumption in the on-device distributed federated learning (FL) system. Each mobile device in the system engages the model training process within the specified area and allocates its computation and communication resources for deriving and uploading parameters, respectively, to minimize the objective of system subject to the computation/communication budget and a target latency requirement. In particular, mobile devices are connect via wireless TCP/IP architectures. Exploiting the optimization problem structure, the problem can be decomposed to two convex sub-problems. Drawing on the Lagrangian dual and harmony search techniques, we characterize the global optimal solution by the closed-form solutions to all sub-problems, which give qualitative insights to multi-resource tradeoff. Numerical simulations are used to validate the analysis and assess the performance of the proposed algorithm.
翻訳日:2022-11-02 15:11:34 公開日:2022-11-01
# 新しい話者のための多話者テキスト音声モデルのアダプタベース拡張

Adapter-Based Extension of Multi-Speaker Text-to-Speech Model for New Speakers ( http://arxiv.org/abs/2211.00585v1 )

ライセンス: Link先を確認
Cheng-Ping Hsieh, Subhankar Ghosh, Boris Ginsburg(参考訳) ファインチューニングは、テキスト音声(TTS)モデルを新しい話者に適応させる一般的な方法である。 しかし、このアプローチにはいくつかの課題がある。 通常、微調整には話者あたりの音質が数時間必要である。 また、微調整は、事前学習した話者の音声合成の品質に悪影響を及ぼす。 本稿では,パラメータ効率のよいアダプタモジュールを用いたTS適応の代替手法を提案する。 提案手法では、いくつかの小さなアダプタモジュールを元のネットワークに追加する。 オリジナルの重量は凍結され、アダプターだけが新しいスピーカーの音声に微調整されている。 パラメータ効率の良い微調整アプローチは、元のモデルと高いレベルのパラメータ共有を持つ新しいモデルを生成する。 LibriTTS, HiFi-TTS, VCTKデータセットを用いた実験により, 適応型手法の有効性を客観的および主観的指標を用いて検証した。

Fine-tuning is a popular method for adapting text-to-speech (TTS) models to new speakers. However this approach has some challenges. Usually fine-tuning requires several hours of high quality speech per speaker. There is also that fine-tuning will negatively affect the quality of speech synthesis for previously learnt speakers. In this paper we propose an alternative approach for TTS adaptation based on using parameter-efficient adapter modules. In the proposed approach, a few small adapter modules are added to the original network. The original weights are frozen, and only the adapters are fine-tuned on speech for new speaker. The parameter-efficient fine-tuning approach will produce a new model with high level of parameter sharing with original model. Our experiments on LibriTTS, HiFi-TTS and VCTK datasets validate the effectiveness of adapter-based method through objective and subjective metrics.
翻訳日:2022-11-02 15:11:20 公開日:2022-11-01
# 空中監視のためのデジタルドローンカメラと光チャネルパラメータの組み合わせ

combined digital drone camera and optical channel parameters for air surveillance ( http://arxiv.org/abs/2211.00377v1 )

ライセンス: Link先を確認
Wamidh Jalil Mazher, hadeel Tariq Ibrahim(参考訳) 自由空間光学(FSO)通信ネットワークを備えたデジタルドローンカメラは、航空監視に有望であると提案されている。 fsoチャネルでは、大気乱流(at)が信号を劣化させる。 本研究では,デジタルドローンカメラのパラメータとオプティカルチャネルを組み合わせることで,その効果を緩和した。 デジタルドローンカメラパラメータは、この提案をサポートするために、視野とカメラオブジェクト距離によって示される。 一方、光学チャネルパラメータは高度ではなく、最も臨界なパラメータで表され、これはATの効果を特徴づけるために使用される屈折率構造パラメータである。 その結果、2つの補題が提案され、デジタルドローンカメラと光チャネルパラメータの最適関係を示す。 そのため、デジタルドローンカメラFSOによる空気監視システム全体の品質が大幅に向上した。 さらに,本研究を支援するために実例の分析と最適化を行った。 最後に, デジタルドローンカメラとFSOパラメータを10^-6$の目標停止確率で組み合わせることで, 17dBの空気監視システムの性能向上を最適化せずに比較できることを実証した。

Digital drone cameras with free-space optical (FSO) communication networks have been proposed to be promising for air surveillance. In the FSO channel, atmospheric turbulence (AT) degrades the signal. In this study, we combined the parameters of the digital drone camera and the optical channel to mitigate the AT effect. The digital drone camera parameters are indicated by the field of view and camera object distance to support this proposal. Meanwhile, the optical channel parameters, rather than the altitude, are denoted by the most critical parameter, which is the refractive index structure parameter used to characterize the effects of AT. Consequently, two lemmas are proposed and combined to present the optimum relationship between the digital drone camera and optical channel parameters. Therefore, the quality of the entire air surveillance system with a digital drone camera FSO is significantly improved. Furthermore, the analysis and optimization for practical cases were applied to support our findings. Finally, our results demonstrated that an impressive performance improvement of an air surveillance system of 17 dB is possible compared without optimization by combining digital drone camera and FSO parameters at a target outage transceiver probability of $10^-6$.
翻訳日:2022-11-02 15:05:14 公開日:2022-11-01
# 銀河分類:Sloan Digital Sky Survey画像の分類のためのディープラーニングアプローチ

Galaxy classification: a deep learning approach for classifying Sloan Digital Sky Survey images ( http://arxiv.org/abs/2211.00397v1 )

ライセンス: Link先を確認
Sarvesh Gharat and Yogesh Dandawate(参考訳) 近年では、sloan digital sky survey(sdss)のような大規模なスカイサーベイが、膨大な量のデータを生み出している。 天文学者による膨大なデータの分類には時間がかかります。 このプロセスを単純化するため、2007年にギャラクシー動物園と呼ばれるボランティアベースの市民科学プロジェクトが導入され、分類の時間がかなり短縮された。 しかし、現代のディープラーニングでは、分類の時間を短縮するため、この分類タスクの自動化は極めて有益である。 過去数年間、銀河を複数のクラスに分類する驚くべき仕事をする多くのアルゴリズムが提案されてきた。 しかし、これらのアルゴリズムは銀河を6種類未満に分類する傾向がある。 しかし、我々が銀河について知っている微妙な情報を考えると、銀河を8種類以上に分類する必要がある。 本研究では,拡張したハッブルチューニングフォークからsdssデータを10クラスに分類するために,ニューラルネットワークモデルを提案する。 ディスクエッジ銀河とディスクフェイス銀河には大きな注意が払われ、それぞれのクラスに関連付けられた様々なサブ構造と微小な特徴を区別する。 この手法を完全自動化する特徴を抽出するための畳み込み層からなるモデルを提案する。 テストの精度は84.73パーセントで、クラスでこのような微妙な詳細を考慮すると期待できる。 畳み込みレイヤに加えて、提案されたモデルには、分類に責任を持つ3つのレイヤがあるため、アルゴリズムの消費時間が短縮される。

In recent decades, large-scale sky surveys such as Sloan Digital Sky Survey (SDSS) have resulted in generation of tremendous amount of data. The classification of this enormous amount of data by astronomers is time consuming. To simplify this process, in 2007 a volunteer-based citizen science project called Galaxy Zoo was introduced, which has reduced the time for classification by a good extent. However, in this modern era of deep learning, automating this classification task is highly beneficial as it reduces the time for classification. For the last few years, many algorithms have been proposed which happen to do a phenomenal job in classifying galaxies into multiple classes. But all these algorithms tend to classify galaxies into less than six classes. However, after considering the minute information which we know about galaxies, it is necessary to classify galaxies into more than eight classes. In this study, a neural network model is proposed so as to classify SDSS data into 10 classes from an extended Hubble Tuning Fork. Great care is given to disc edge and disc face galaxies, distinguishing between a variety of substructures and minute features which are associated with each class. The proposed model consists of convolution layers to extract features making this method fully automatic. The achieved test accuracy is 84.73 per cent which happens to be promising after considering such minute details in classes. Along with convolution layers, the proposed model has three more layers responsible for classification, which makes the algorithm consume less time.
翻訳日:2022-11-02 15:04:58 公開日:2022-11-01
# 表面サーモグラフィを用いた3次元電気サージカルプロセス内領域温度推定のための無限次元適応境界観察

Infinite-Dimensional Adaptive Boundary Observer for Inner-Domain Temperature Estimation of 3D Electrosurgical Processes using Surface Thermography Sensing ( http://arxiv.org/abs/2211.00515v1 )

ライセンス: Link先を確認
Hamza El-Kebir, Junren Ran, Martin Ostoja-Starzewski, Richard Berlin, Joseph Bentsman, Leonardo P. Chamorro(参考訳) 本稿では,電気外科における地下有機組織温度測定のための新しい3次元適応オブザーバフレームワークを提案する。 オブザーバ構造は、パラメータ推定と温度場観測の両方のために、リアルタイム赤外線サーモグラフィーから得られる2次元表面温度測定を利用する。 本稿では,パラメータ適応と推定を分離する新しい手法を提案する。パラメータ推定はリアルタイムに実行でき,オブザーバループはより遅い時間スケールで実行することができる。 そこで本研究では, 表面サーモグラフィの時系列を用いて組織拡散率を直接推定する, 注意型ノイズロバスト平均化法という新しいパラメータ推定法を提案する。 この拡散率適応法則に基づく実時間パラメータ適応成分と、感応表面温度に基づくルエンベルガー型補正器とを含む。 本稿では,ロボット手術の設定に適応した新しいモデル構造を提案する。このモデルでは,電気外科的熱分布を,新しい非線形入力マッピングを含むコンパクトに支持された等級および速度制御熱源としてモデル化する。 生体外組織データを用いた適応観察者のシミュレーションにおける良好な性能を示す。

We present a novel 3D adaptive observer framework for use in the determination of subsurface organic tissue temperatures in electrosurgery. The observer structure leverages pointwise 2D surface temperature readings obtained from a real-time infrared thermographer for both parameter estimation and temperature field observation. We introduce a novel approach to decoupled parameter adaptation and estimation, wherein the parameter estimation can run in real-time, while the observer loop runs on a slower time scale. To achieve this, we introduce a novel parameter estimation method known as attention-based noise-robust averaging, in which surface thermography time series are used to directly estimate the tissue's diffusivity. Our observer contains a real-time parameter adaptation component based on this diffusivity adaptation law, as well as a Luenberger-type corrector based on the sensed surface temperature. In this work, we also present a novel model structure adapted to the setting of robotic surgery, wherein we model the electrosurgical heat distribution as a compactly supported magnitude- and velocity-controlled heat source involving a new nonlinear input mapping. We demonstrate satisfactory performance of the adaptive observer in simulation, using real-life experimental ex vivo porcine tissue data.
翻訳日:2022-11-02 15:04:34 公開日:2022-11-01
# ディープラーニングを用いた非線形ダイナミクスのための一般化擬似埋め込み

Generalized Quadratic-Embeddings for Nonlinear Dynamics using Deep Learning ( http://arxiv.org/abs/2211.00357v1 )

ライセンス: Link先を確認
Pawan Goyal and Peter Benner(参考訳) 工学設計プロセス(例えば制御と予測)は数学的モデリングに依存し、基礎となる動的挙動を記述する。 複雑なダイナミクスの動作では、モデルと同様にモデリング手順が複雑になり、設計プロセスが複雑になる可能性がある。 したがって、すべての非線形ダイナミクスが設計プロセスを強化するのに十分シンプルな共通のモデル構造を持つことが望ましい。 最も単純な力学モデルは線形であるが、線形モデルは複雑な力学を理解するのに十分な表現力を持たないことが多い。 本研究では,非線形ダイナミクスのモデリング手法を提案し,非線形動的過程をモデル化するための共通フレームワークについて考察する。 この原理の卓越した考え方は、滑らかな非線形系は近似誤差なしに適切な昇降座標系において二次系として記述できるということである。 これらの座標を手作業で設計するのは簡単ではない。 本研究では、ディープラーニング機能を活用し、データを用いた座標系を見つけるのに適したニューラルネットワークアーキテクチャについて論じる。 目的を達成するために,革新的なニューラルアーキテクチャとそれに対応する客観的基準を提案する。 工学と生物学の応用から得られるデータを用いて,そのアプローチを説明する。

The engineering design process (e.g., control and forecasting) relies on mathematical modeling, describing the underlying dynamic behavior. For complex dynamics behavior, modeling procedures, as well as models, can be intricated, which can make the design process cumbersome. Therefore, it is desirable to have a common model structure, which is also simple enough, for all nonlinear dynamics to enhance design processes. The simplest dynamical model -- one can think of -- is linear, but linear models are often not expressive enough to apprehend complex dynamics. In this work, we propose a modeling approach for nonlinear dynamics and discuss a common framework to model nonlinear dynamic processes, which is built upon a \emph{lifting-principle}. The preeminent idea of the principle is that smooth nonlinear systems can be written as quadratic systems in an appropriate lifted coordinate system without any approximation error. Hand-designing these coordinates is not straightforward. In this work, we utilize deep learning capabilities and discuss suitable neural network architectures to find such a coordinate system using data. We present innovative neural architectures and the corresponding objective criterion to achieve our goal. We illustrate the approach using data coming from applications in engineering and biology.
翻訳日:2022-11-02 14:56:28 公開日:2022-11-01
# linkformer: プロジェクトベースおよび転送学習環境におけるソフトウェアアーチファクトの自動コンテクスト化リンクリカバリ

LinkFormer: Automatic Contextualised Link Recovery of Software Artifacts in both Project-based and Transfer Learning Settings ( http://arxiv.org/abs/2211.00381v1 )

ライセンス: Link先を確認
Maliheh Izadi, Pooya Rostami Mazrae, Tom Mens, Arie van Deursen(参考訳) ソフトウェアアーティファクトは、ソフトウェア開発サイクルを通して相互に相互作用することが多い。 関連アーティファクトの関連付けは、ソフトウェアプロジェクトの効果的なドキュメンテーションとメンテナンスのための一般的なプラクティスである。 従来、発行レポートと関連するコミットのリンクを登録するには、開発者は関連するコミットのメッセージに発行識別子を手動で含める。 調査によれば、開発者はそのアーティファクトを手動で接続することを忘れがちで、結果としてリンクが失われる傾向がある。 そこで,このようなリンクを自動で発見・再生する手法が提案されている。 しかし,本論文は主にランダムに分散したテストセットにおける予測精度の向上に重点を置いており,予測モデルの時間的効果や一般化可能性など,この問題の他の重要な側面を無視している。 本稿では,3つの側面からこの問題に対処するLinkFormerを提案する。 1) 正確性: 予測に文脈情報をよりよく活用するために, 問題やコミットのテキストとメタデータに, トランスフォーマアーキテクチャと事前学習された複数のモデルを用いる。 2) データの漏洩: 分割ポリシーによる時間の影響を実証的に評価するために, ランダム分割データと時間分割データの両方に対する既存のアプローチとともに, 提案モデルを訓練し, テストする。 3) 一般化可能性: 異なるプロジェクト間でうまく機能する汎用モデルを提供するため、2つの移行学習設定でLinkFormerをさらに微調整する。 実世界の環境に類似した学習モデルのトレーニングにおいて,研究者はデータの時間的流れを保存すべきである。 さらにLinkFormerは、最先端を大きなマージンで大幅に上回る。 linkformerはまた、ほとんど履歴データなしで、未発見のプロジェクトに対して学んだ知識を拡張することもできる。

Software artifacts often interact with each other throughout the software development cycle. Associating related artifacts is a common practice for effective documentation and maintenance of software projects. Conventionally, to register the link between an issue report and its associated commit, developers manually include the issue identifier in the message of the relevant commit. Research has shown that developers tend to forget to connect said artifacts manually, resulting in a loss of links. Hence, several link recovery techniques were proposed to discover and revive such links automatically. However, the literature mainly focuses on improving the prediction accuracy on a randomly-split test set, while neglecting other important aspects of this problem, including the effect of time and generalizability of the predictive models. In this paper, we propose LinkFormer to address this problem from three aspects; 1) Accuracy: To better utilize contextual information for prediction, we employ the Transformer architecture and fine-tune multiple pre-trained models on textual and metadata of issues and commits. 2) Data leakage: To empirically assess the impact of time through the splitting policy, we train and test our proposed model along with several existing approaches on both randomly- and temporally split data. 3) Generalizability: To provide a generic model that can perform well across different projects, we further fine-tune LinkFormer in two transfer learning settings. We empirically show that researchers should preserve the temporal flow of data when training learning-based models to resemble the real-world setting. In addition, LinkFormer significantly outperforms the state-of-the-art by large margins. LinkFormer is also capable of extending the knowledge it learned to unseen projects with little to no historical data.
翻訳日:2022-11-02 14:56:12 公開日:2022-11-01
# ウェーブレットニューラルネットワークとウェーブレットベースニューラルネットワーク

Wavelet Neural Networks versus Wavelet-based Neural Networks ( http://arxiv.org/abs/2211.00396v1 )

ライセンス: Link先を確認
Lubomir T. Dechevsky, Kristoffer M. Tangrand(参考訳) これは、新しいタイプのニューラルネットワーク(NN)、ウェーブレットベースのニューラルネットワーク(WBNN)を導入し、それらの特性と応用の可能性を研究する一連の研究の最初の論文である。 本研究は、現在存在するウェーブレットニューラルネットワーク(WNN)と比較し、WBNNがWNNをはるかに上回っていることを示す。 WBNNが圧倒的に優れている理由の1つは、生物ノルム多分解能解析(MRA)に基づく高度な階層木構造である。 このもう1つの理由は、ウェーブレットツリーの深さをnnのニューラルネットワークの幅に組み込むという新しいアイデアの実装です。 ウェーブレット深度とニューラル深度の役割の分離は、SwarmとディープWBNNの機能の急激な増加と機械学習プロセスの高速化のための概念的かつアルゴリズム的かつ高効率な方法論を提供する。

This is the first paper in a sequence of studies in which we introduce a new type of neural networks (NNs) -- wavelet-based neural networks (WBNNs) -- and study their properties and potential for applications. We begin this study with a comparison to the currently existing type of wavelet neural networks (WNNs) and show that WBNNs vastly outperform WNNs. One reason for the vast superiority of WBNNs is their advanced hierarchical tree structure based on biorthonormal multiresolution analysis (MRA). Another reason for this is the implementation of our new idea to incorporate the wavelet tree depth into the neural width of the NN. The separation of the roles of wavelet depth and neural depth provides a conceptually and algorithmically simple but highly efficient methodology for sharp increase in functionality of swarm and deep WBNNs and rapid acceleration of the machine learning process.
翻訳日:2022-11-02 14:55:42 公開日:2022-11-01
# NGNのためのブロックチェーン対応リソース管理機構の評価

Evaluation of a blockchain-enabled resource management mechanism for NGNs ( http://arxiv.org/abs/2211.00457v1 )

ライセンス: Link先を確認
Michael Xevgenis, Dimitrios Kogias, Ioannis Christidis, Charalampos Patrikakis, Helen C. Leligou(参考訳) ICTの新しい時代は、次世代ネットワーク(NGN)の進化と人間中心のアプリケーションの開発から始まっている。 超低レイテンシ、高スループット、高可用性は、現代のネットワークの主要な特徴である。 ネットワークプロバイダ(NP)は、都市部だけでなく、地球の隅々で利用可能な最も要求の多いアプリケーションをサポートするために準備されたネットワークインフラストラクチャの開発とメンテナンスを担当している。 NPは高品質なサービスを提供し、全体的なコストを低くするために協力しなければなりません。 競争力のあるエンティティ間のコラボレーションは、原則として信頼できるサードパーティや、整合性、セキュリティ、信頼性を保証する分散型アプローチ/テクノロジによって規制される。 本稿では,NP間の資源管理と交渉におけるブロックチェーン技術の利用について検討し,実検層で実施した実験結果について述べる。 リソース管理機構の実装はスマートコントラクト(SC)で記述され、テストベッドはそれぞれRaftとIBFTのコンセンサス機構を使用している。 本論文の目的は,トランザクションスループットとレイテンシの観点からその性能を評価することで,このソリューションが動作可能な粒度(例えば,マイクロサービスレベルでのNP間のリソース再割り当てのサポートなど)を評価し,パフォーマンス指標に基づいて,このユースケースに最も適したコンセンサス機構のような,実装固有のパラメータを定義することである。

A new era in ICT has begun with the evolution of Next Generation Networks (NGNs) and the development of human-centric applications. Ultra-low latency, high throughput, and high availability are a few of the main characteristics of modern networks. Network Providers (NPs) are responsible for the development and maintenance of network infrastructures ready to support the most demanding applications that should be available not only in urban areas but in every corner of the earth. The NPs must collaborate to offer high-quality services and keep their overall cost low. The collaboration among competitive entities can in principle be regulated by a trusted 3rd party or by a distributed approach/technology which can guarantee integrity, security, and trust. This paper examines the use of blockchain technology for resource management and negotiation among NPs and presents the results of experiments conducted in a dedicated real testbed. The implementation of the resource management mechanism is described in a Smart Contract (SC) and the testbeds use the Raft and the IBFT consensus mechanisms respectively. The goal of this paper is two-fold: to assess its performance in terms of transaction throughput and latency so that we can assess the granularity at which this solution can operate (e.g. support resource re-allocation among NPs on micro-service level or not) and define implementation-specific parameters like the consensus mechanism that is the most suitable for this use case based on performance metrics.
翻訳日:2022-11-02 14:55:25 公開日:2022-11-01
# 時変ネットワーク上の非凸分散学習における最適複雑性

Optimal Complexity in Non-Convex Decentralized Learning over Time-Varying Networks ( http://arxiv.org/abs/2211.00533v1 )

ライセンス: Link先を確認
Xinmeng Huang and Kun Yuan(参考訳) 時間変動ネットワークによる分散最適化は、機械学習の新たなパラダイムである。 大規模な深層トレーニングでは通信オーバーヘッドが大幅に削減され、特にノードの移動時の無線シナリオでは堅牢になる。 フェデレーション学習は、グローバル平均化とローカル更新を交互に経時的なコミュニケーションパターンで、分散最適化と見なすこともできる。 理論的限界を明確にし、効率的なアルゴリズムを開発するための研究が数多く存在するが、時変ネットワーク上の非凸分散確率最適化の最適複雑性は、いまだに不明である。 主な課題は、時間変化通信による2ノード間のメッセージ送信の有効性の計測方法と、ネットワークサイズが固定された場合(確率最適化の前提条件である)の下位境界を確立する方法である。 本稿では,これらの課題を解決し,最初の下界複雑性を確立する。 また,下界の厳密さとアルゴリズムの最適性を示すために,下界をほぼ達成する新たな分散アルゴリズムを開発した。

Decentralized optimization with time-varying networks is an emerging paradigm in machine learning. It saves remarkable communication overhead in large-scale deep training and is more robust in wireless scenarios especially when nodes are moving. Federated learning can also be regarded as decentralized optimization with time-varying communication patterns alternating between global averaging and local updates. While numerous studies exist to clarify its theoretical limits and develop efficient algorithms, it remains unclear what the optimal complexity is for non-convex decentralized stochastic optimization over time-varying networks. The main difficulties lie in how to gauge the effectiveness when transmitting messages between two nodes via time-varying communications, and how to establish the lower bound when the network size is fixed (which is a prerequisite in stochastic optimization). This paper resolves these challenges and establish the first lower bound complexity. We also develop a new decentralized algorithm to nearly attain the lower bound, showing the tightness of the lower bound and the optimality of our algorithm.
翻訳日:2022-11-02 14:55:03 公開日:2022-11-01
# glinkx:ホモフィラスグラフとヘテロフィラスグラフのためのスケーラブルな統一フレームワーク

GLINKX: A Scalable Unified Framework For Homophilous and Heterophilous Graphs ( http://arxiv.org/abs/2211.00550v1 )

ライセンス: Link先を確認
Marios Papachristou, Rishab Goel, Frank Portman, Matthew Miller, Rong Jin(参考訳) グラフ学習では、グラフに着想を得たアーキテクチャに関して、2つの主な帰納的バイアスがあった: 一方、高階の相互作用とメッセージパッシングは、ホモフィルグラフ上でうまく機能し、GCNやGATによって活用される。 しかし、そのようなアーキテクチャは大規模な実世界のグラフに容易にスケールできない。 一方、ego特徴と隣接埋め込みを用いた浅い(あるいはノードレベルの)モデルは、異種グラフでうまく機能する。 本研究では, ホモ親和性グラフとヘテロ親和性グラフの両方で機能する, スケーラブルな浅層法GLINKXを提案する。 GLINKXが活用 (i)新規な単球性ラベル伝搬 (ii)ego/node機能 (iii)位置埋め込みとしての知識グラフ埋め込み (iv)ノードレベルのトレーニング、及び (v)低次元メッセージパッシング。 形式的には、新しいエラー境界を証明し、GLINKXの構成要素を正当化する。 実験により,同好および異好のデータセットに対して有効性を示す。

In graph learning, there have been two predominant inductive biases regarding graph-inspired architectures: On the one hand, higher-order interactions and message passing work well on homophilous graphs and are leveraged by GCNs and GATs. Such architectures, however, cannot easily scale to large real-world graphs. On the other hand, shallow (or node-level) models using ego features and adjacency embeddings work well in heterophilous graphs. In this work, we propose a novel scalable shallow method -- GLINKX -- that can work both on homophilous and heterophilous graphs. GLINKX leverages (i) novel monophilous label propagations, (ii) ego/node features, (iii) knowledge graph embeddings as positional embeddings, (iv) node-level training, and (v) low-dimensional message passing. Formally, we prove novel error bounds and justify the components of GLINKX. Experimentally, we show its effectiveness on several homophilous and heterophilous datasets.
翻訳日:2022-11-02 14:54:47 公開日:2022-11-01
# 高レイノルズ数の分離流れに対するデータ同化と乱流モデリングの統一的手法

A unified method of data assimilation and turbulence modeling for separated flows at high Reynolds numbers ( http://arxiv.org/abs/2211.00601v1 )

ライセンス: Link先を確認
Z. Y. Wang, W. W. Zhang(参考訳) 近年,深層ニューラルネットワーク(DNN)に代表される機械学習手法が,乱流モデリングの新しいパラダイムとなっている。 しかし、高レイノルズ数のシナリオでは、高忠実度データの欠如や乱流モデルとransソルバの結合過程における収束と安定性の問題など、いくつかのボトルネックが残っている。 本稿では,高レイノルズ数での分離流れに対するデータ同化と乱流モデリングの統一的アプローチとして,改良されたアンサンブルカルマン反転法を提案する。 DNNのトレーニング可能なパラメータは、RANS方程式とDNNの渦-粘性モデルとの相互結合の枠組みにおいて、与えられた実験的表面圧力係数に従って最適化される。 このようにして、データ同化とモデルトレーニングを組み合わせることで、高忠実度乱流モデルが実験と効率的に一致するようにする。 本手法の有効性は,高レイノルズ数での翼まわりの分離流れ(s809)を用いて検証した。 その結果, 実験状態の結合同化により, 付着流と分離流の両方に対して, 異なる攻撃角での乱流モデルが一般化できることがわかった。 従来のSAモデルと比較すると,高い攻撃角度でのリフト係数の誤差は3倍以上に減少する。 得られたモデルは安定性とロバスト性も良好である。

In recent years, machine learning methods represented by deep neural networks (DNN) have been a new paradigm of turbulence modeling. However, in the scenario of high Reynolds numbers, there are still some bottlenecks, including the lack of high-fidelity data and the convergence and stability problem in the coupling process of turbulence models and the RANS solvers. In this paper, we propose an improved ensemble kalman inversion method as a unified approach of data assimilation and turbulence modeling for separated flows at high Reynolds numbers. The trainable parameters of the DNN are optimized according to the given experimental surface pressure coefficients in the framework of mutual coupling between the RANS equations and DNN eddy-viscosity models. In this way, data assimilation and model training are combined into one step to get the high-fidelity turbulence models agree well with experiments efficiently. The effectiveness of the method is verified by cases of separated flows around airfoils(S809) at high Reynolds numbers. The results show that through joint assimilation of vary few experimental states, we can get turbulence models generalizing well to both attached and separated flows at different angles of attack. The errors of lift coefficients at high angles of attack are significantly reduced by more than three times compared with the traditional SA model. The models obtained also perform well in stability and robustness.
翻訳日:2022-11-02 14:54:32 公開日:2022-11-01
# 有限水平確率線型2次制御問題に対するポリシー勾配法の収束性

Convergence of policy gradient methods for finite-horizon stochastic linear-quadratic control problems ( http://arxiv.org/abs/2211.00617v1 )

ライセンス: Link先を確認
Michael Giegrich, Christoph Reisinger, Yufei Zhang(参考訳) 有限水平探索線形四元数制御(LQC)問題に対する政策勾配法(PG法)の大域的線形収束について検討する。 この設定には、不定のコストを伴う確率的lqc問題が含まれ、目的に追加のエントロピー正則化が可能となる。 状態変数において平均が線型であり、共分散が状態独立である連続時間ガウスポリシーを考える。 離散時間問題とは対照的に、コストはポリシーにおいて非強制的であり、すべての降下方向が有界イテレートにつながるわけではない。 本稿では,フィッシャー幾何とビュール=ヴァッサーシュタイン幾何を用いて,政策の平均と共分散に対する幾何的勾配勾配勾配を求める。 ポリシーイテレートは、a-プリオリ境界を満たすことが示され、線形レートで最適ポリシーにグローバルに収束する。 さらに,離散時間ポリシーを用いた新しいPG手法を提案する。 このアルゴリズムは連続時間解析を活用し、異なる動作周波数にわたってロバストな線形収束を実現する。 数値実験により提案アルゴリズムの収束性と堅牢性を確認する。

We study the global linear convergence of policy gradient (PG) methods for finite-horizon exploratory linear-quadratic control (LQC) problems. The setting includes stochastic LQC problems with indefinite costs and allows additional entropy regularisers in the objective. We consider a continuous-time Gaussian policy whose mean is linear in the state variable and whose covariance is state-independent. Contrary to discrete-time problems, the cost is noncoercive in the policy and not all descent directions lead to bounded iterates. We propose geometry-aware gradient descents for the mean and covariance of the policy using the Fisher geometry and the Bures-Wasserstein geometry, respectively. The policy iterates are shown to satisfy an a-priori bound, and converge globally to the optimal policy with a linear rate. We further propose a novel PG method with discrete-time policies. The algorithm leverages the continuous-time analysis, and achieves a robust linear convergence across different action frequencies. A numerical experiment confirms the convergence and robustness of the proposed algorithm.
翻訳日:2022-11-02 14:54:14 公開日:2022-11-01
# 機械学習はタンパク質の消化率推定のための実験的アプローチを導く

Machine learning can guide experimental approaches for protein digestibility estimations ( http://arxiv.org/abs/2211.00625v1 )

ライセンス: Link先を確認
Sara Malvar, Anvita Bhagavathula, Maria Angels de Luis Balaguer, Swati Sharma and Ranveer Chandra(参考訳) 食品タンパク質の消化性とバイオアベイラビリティは、ヒトの栄養要求に対処する上で重要な側面である。 本研究では,食品の真の回腸消化率係数を予測するための機械学習手法を提案する。 このモデルは、異なる食品からの栄養情報とそれらのタンパク質ファミリーのFASTA配列を組み合わせた、ユニークなキュレートされたデータセットを利用している。 タンパク質の生化学的性質を抽出し,これらの性質をTransformer-based protein Language Model (pLM) の埋め込みと組み合わせた。 さらに、モデル予測に最も寄与する特徴を特定し、解釈可能性を提供するためにSHAPを使用しました。 食品タンパク質の消化率を予測する最初のAIベースのモデルは、既存の実験技術と比較して90%の精度を持つ。 この精度で、我々のモデルは、ビビオやビオトロでの長い実験の必要性を排除し、新しい食品をより早く、より安く、より倫理的に作成することができる。

Food protein digestibility and bioavailability are critical aspects in addressing human nutritional demands, particularly when seeking sustainable alternatives to animal-based proteins. In this study, we propose a machine learning approach to predict the true ileal digestibility coefficient of food items. The model makes use of a unique curated dataset that combines nutritional information from different foods with FASTA sequences of some of their protein families. We extracted the biochemical properties of the proteins and combined these properties with embeddings from a Transformer-based protein Language Model (pLM). In addition, we used SHAP to identify features that contribute most to the model prediction and provide interpretability. This first AI-based model for predicting food protein digestibility has an accuracy of 90% compared to existing experimental techniques. With this accuracy, our model can eliminate the need for lengthy in-vivo or in-vitro experiments, making the process of creating new foods faster, cheaper, and more ethical.
翻訳日:2022-11-02 14:53:48 公開日:2022-11-01
# 深部平衡構造の計測モデルの変化に対するロバスト性

Robustness of Deep Equilibrium Architectures to Changes in the Measurement Model ( http://arxiv.org/abs/2211.00531v1 )

ライセンス: Link先を確認
Junhao Hu, Shirin Shoushtari, Zihao Zou, Jiaming Liu, Zhixin Sun, Ulugbek S.Kamilov(参考訳) 深層モデルベースアーキテクチャ(dmbas)は、物理計測モデルと学習済み画像の優先順位を統合する逆問題の画像化に広く使われている。 プラグアンドプレイ事前(PnP)とディープ均衡モデル(DEQ)は2つのDMBAフレームワークであり、注目されている。 両者の主な違いは、DECに先行する画像が特定の測定モデルを用いて訓練されるのに対し、PnPでは一般的な画像デノイザとして訓練される点である。 この違いは、pnpが測定モデルの変化に対してdeqよりも頑健であるという共通の仮定の背後にある。 本稿では,測定モデルの変化に対するdeqのロバスト性について検討する。 画像逆問題に対する2つの結果から,不一致測定モデルで訓練されたdeqプライオリエントが画像デノイザを上回っていることが示唆された。

Deep model-based architectures (DMBAs) are widely used in imaging inverse problems to integrate physical measurement models and learned image priors. Plug-and-play priors (PnP) and deep equilibrium models (DEQ) are two DMBA frameworks that have received significant attention. The key difference between the two is that the image prior in DEQ is trained by using a specific measurement model, while that in PnP is trained as a general image denoiser. This difference is behind a common assumption that PnP is more robust to changes in the measurement models compared to DEQ. This paper investigates the robustness of DEQ priors to changes in the measurement models. Our results on two imaging inverse problems suggest that DEQ priors trained under mismatched measurement models outperform image denoisers.
翻訳日:2022-11-02 14:47:16 公開日:2022-11-01
# 医用画像超解像のための微調整逆数ネットワークモデル

Fine-tuned Generative Adversarial Network-based Model for Medical Images Super-Resolution ( http://arxiv.org/abs/2211.00577v1 )

ライセンス: Link先を確認
Alireza Aghelan, Modjtaba Rouhani(参考訳) 医用画像解析では、低解像度画像は医用画像の解釈性能に悪影響を及ぼし、誤診を引き起こす可能性がある。 単一画像超解像法(SISR)は、医用画像の解像度と品質を改善する。 現在、gan(generative adversarial network)に基づく超解像法が広く用いられており、非常に優れた性能を示している。 本研究では,医療画像の解像度と品質を高めるために,Real-Enhanced Super-Resolution Generative Adversarial Network (Real-ESRGAN) モデルを用いる。 自然のデータセットとは異なり、医療データセットは空間分解能があまり高くない。 転送学習は、外部データセット(しばしば自然データセット)でトレーニングされたモデルを使用して、医療画像を強化する効果的な方法の1つである。 提案手法では,Real-ESRGANモデルの事前学習したジェネレータと識別器ネットワークを医用画像データセットを用いて微調整する。 本稿では網膜像と胸部X線像について検討した。 我々は,網膜画像のSTAREデータセットと胸部X線(深セン)データセットを用いた。 提案モデルはより正確で自然なテクスチャを生成し,出力画像は元のReal-ESRGANモデルよりも細部と解像度がよい。

In medical image analysis, low-resolution images negatively affect the performance of medical image interpretation and may cause misdiagnosis. Single image super-resolution (SISR) methods can improve the resolution and quality of medical images. Currently, super-resolution methods based on generative adversarial networks (GAN) are widely used and have shown very good performance. In this work, we use the Real-Enhanced Super-Resolution Generative Adversarial Network (Real-ESRGAN) model to enhance the resolution and quality of medical images. Unlike natural datasets, medical datasets do not have very high spatial resolution. Transfer learning is one of the effective methods which uses models trained with external datasets (often natural datasets), and fine-tunes them to enhance medical images. In our proposed approach, the pre-trained generator and discriminator networks of the Real-ESRGAN model are fine-tuned using medical image datasets. In this paper, we worked on retinal images and chest X-ray images. We used the STARE dataset of retinal images and Tuberculosis Chest X-rays (Shenzhen) dataset. The proposed model produces more accurate and natural textures, and the output images have better detail and resolution compared to the original Real-ESRGAN model.
翻訳日:2022-11-02 14:47:03 公開日:2022-11-01
# スマートオフショア風力発電設備のモニタリング・運用・保守に関するレビュー

Review on Monitoring, Operation and Maintenance of Smart Offshore Wind Farms ( http://arxiv.org/abs/2211.00221v1 )

ライセンス: Link先を確認
Lei Kou, Yang Li, Fangfang Zhang, Xiaodong Gong, Yinghong Hu, Quande Yuan, and Wende Ke(参考訳) 近年、風力エネルギーの発展に伴い、風力発電所の数と規模が急速に成長している。 オフショア風力発電所は、安定した風速、クリーン、再生可能、非汚染の利点があり、耕作地を占有しないため、徐々に世界中の風力発電産業の新たな潮流となっている。 オフショア風力発電の運用とメンテナンスモードは、デジタル化とインテリジェンスの方向に発展しつつある。 運用・維持コストの削減、発電効率の向上、洋上風力発電システムの安定性の向上、スマート洋上風力発電の建設に資するオフショア風力発電の監視・運用・維持に関する調査を行うことは、非常に重要である。 本稿では,特に「オフショア風力工学・生物・環境」のモニタリング,電力機器の監視,スマートなオフショア風力農場の運用・維持といった点から,オフショア風力農場の監視・運用・維持を概説する。 最後に, スマート洋上風力発電のモニタリング, 運用, 維持に関する今後の研究課題について提案し, 今後の研究方向性について検討する。

In recent years, with the development of wind energy, the number and scale of wind farms are developing rapidly. Since offshore wind farm has the advantages of stable wind speed, clean, renewable, non-polluting and no occupation of cultivated land, which has gradually become a new trend of wind power industry all over the world. The operation and maintenance mode of offshore wind power is developing in the direction of digitization and intelligence. It is of great significance to carry out the research on the monitoring, operation and maintenance of offshore wind farm, which will be of benefits to reduce the operation and maintenance cost, improve the power generation efficiency, improve the stability of offshore wind farm system and build smart offshore wind farm. This paper will mainly analyze and summarize the monitoring, operation and maintenance of offshore wind farm, especially from the following points: monitoring of "offshore wind power engineering & biological & environment", the monitoring of power equipment and the operation & maintenance of smart offshore wind farms. Finally, the future research challenges about monitoring, operation and maintenance of smart offshore wind farm are proposed, and the future research directions in this field are prospected.
翻訳日:2022-11-02 14:46:43 公開日:2022-11-01
# サンプリングのための出生死ダイナミクス:グローバル収束、近似とその漸近

Birth-death dynamics for sampling: Global convergence, approximations and their asymptotics ( http://arxiv.org/abs/2211.00450v1 )

ライセンス: Link先を確認
Yulong Lu, Dejan Slep\v{c}ev, Lihan Wang(参考訳) 非凸ポテンシャルを持つgibbs法をサンプリングすることの難しさに動機づけられ,連続死ダイナミクスの研究を行った。 クルバック・リーブルの発散または$\chi^2$の発散によって支配される出生死の確率密度は、潜在的な障壁に依存しない普遍的な速度でギブス平衡測度に指数関数的に収束する。 純粋な生死ダイナミクスに基づく実用的な数値サンプリングシステムを構築するために,カーネルによる測定値の近似に依存し,勾配流構造を保持する相互作用粒子系を考える。 カーネルの帯域幅が0に縮まるにつれて、カーネル化されたダイナミクスが有限時間間隔で$\Gamma$-convergesとなり、純粋な生死ダイナミクスになることを示す。 さらに,ケナライズドダイナミクスに対応するエネルギーの最小値のバイアスを定量的に推定する。 最後に、ギブズ測度に対する角化ダイナミクスの漸近状態の収束に関する長時間の漸近結果を証明する。

Motivated by the challenge of sampling Gibbs measures with nonconvex potentials, we study a continuum birth-death dynamics. We prove that the probability density of the birth-death governed by Kullback-Leibler divergence or by $\chi^2$ divergence converge exponentially fast to the Gibbs equilibrium measure with a universal rate that is independent of the potential barrier. To build a practical numerical sampler based on the pure birth-death dynamics, we consider an interacting particle system which relies on kernel-based approximations of the measure and retains the gradient-flow structure. We show on the torus that the kernelized dynamics $\Gamma$-converges, on finite time intervals, to the pure birth-death dynamics as the kernel bandwidth shrinks to zero. Moreover we provide quantitative estimates on the bias of minimizers of the energy corresponding to the kernalized dynamics. Finally we prove the long-time asymptotic results on the convergence of the asymptotic states of the kernalized dynamics towards the Gibbs measure.
翻訳日:2022-11-02 14:46:24 公開日:2022-11-01
# 分岐流れの効率的なシミュレーションのための物理形ニューラルネットワークによる転送学習

Transfer Learning with Physics-Informed Neural Networks for Efficient Simulation of Branched Flows ( http://arxiv.org/abs/2211.00214v1 )

ライセンス: Link先を確認
Rapha\"el Pellegrin, Blake Bullwinkel, Marios Mattheakis, Pavlos Protopapas(参考訳) 物理情報ニューラルネットワーク(PINN)は、微分方程式を解くための有望なアプローチを提供し、より一般的には、物理科学における問題にディープラーニングを適用する。 我々は、最近開発されたPINNの移動学習手法を採用し、ランダムポテンシャルを持つ常微分方程式の非線形系に対する正確な解を得るためのマルチヘッドモデルを提案する。 特に,ランダム波動力学における普遍現象である確率分岐流のシミュレートに本手法を適用した。 最後に,2つの物理的な伝達学習課題に対して,フィードフォワードとGANベースのPINNで達成した結果を比較し,本手法がスクラッチから訓練した標準PINNと比較して,計算速度を著しく向上させることを示した。

Physics-Informed Neural Networks (PINNs) offer a promising approach to solving differential equations and, more generally, to applying deep learning to problems in the physical sciences. We adopt a recently developed transfer learning approach for PINNs and introduce a multi-head model to efficiently obtain accurate solutions to nonlinear systems of ordinary differential equations with random potentials. In particular, we apply the method to simulate stochastic branched flows, a universal phenomenon in random wave dynamics. Finally, we compare the results achieved by feed forward and GAN-based PINNs on two physically relevant transfer learning tasks and show that our methods provide significant computational speedups in comparison to standard PINNs trained from scratch.
翻訳日:2022-11-02 14:45:42 公開日:2022-11-01
# SOLAR: CNNベースの科学サロゲートの分散トレーニングのための高度に最適化されたデータローディングフレームワーク

SOLAR: A Highly Optimized Data Loading Framework for Distributed Training of CNN-based Scientific Surrogates ( http://arxiv.org/abs/2211.00224v1 )

ライセンス: Link先を確認
Baixi Sun, Xiaodong Yu, Chengming Zhang, Jiannan Tian, Sian Jin, Kamil Iskra, Tao Zhou, Tekin Bicer, Pete Beckman, and Dingwen Tao(参考訳) CNNベースのサロゲートは、従来の時間を要する物理的アプローチを置き換える科学的応用で普及している。 これらのサロゲートは、小さなトレーニングデータセットよりも計算コストが大幅に低い満足な結果が得られるが、ベンチマーク結果は、大規模なデータセットでサロゲートをトレーニングする場合、データローディングオーバーヘッドが大きなパフォーマンスボトルネックとなることを示している。 実際には、サロゲートは通常、テラバイト規模に到達しやすい高解像度の科学的データで訓練される。 一般的なcnnトレーニングにおけるロードスループットを改善するために,最先端のデータローダがいくつか提案されている。 そこで本研究では,サロゲートデータローダであるsolarを提案する。 ベンチマーク中に3つの重要な観測結果を活用し、3つの新しい設計を含む。 具体的には、solarは事前に決定されたシャッフルインデックスリストを生成し、データ再利用とバッファヒット率を最大化するためにグローバルアクセス順序とバッファ退避スキームを最適化する。 次に、軽量な計算不均衡と負荷負荷不均衡のトレードオフを提案し、全体のトレーニングを高速化する。 最終的にHDF5でデータアクセスパターンを最適化し、より優れた並列I/Oスループットを実現する。 3つの科学的サロゲートと32のGPUによる評価は、SOLARがPyTorch Data Loaderで最大24.4倍、最先端のデータローダで3.52倍のスピードアップを達成可能であることを示している。

CNN-based surrogates have become prevalent in scientific applications to replace conventional time-consuming physical approaches. Although these surrogates can yield satisfactory results with significantly lower computation costs over small training datasets, our benchmarking results show that data-loading overhead becomes the major performance bottleneck when training surrogates with large datasets. In practice, surrogates are usually trained with high-resolution scientific data, which can easily reach the terabyte scale. Several state-of-the-art data loaders are proposed to improve the loading throughput in general CNN training; however, they are sub-optimal when applied to the surrogate training. In this work, we propose SOLAR, a surrogate data loader, that can ultimately increase loading throughput during the training. It leverages our three key observations during the benchmarking and contains three novel designs. Specifically, SOLAR first generates a pre-determined shuffled index list and accordingly optimizes the global access order and the buffer eviction scheme to maximize the data reuse and the buffer hit rate. It then proposes a tradeoff between lightweight computational imbalance and heavyweight loading workload imbalance to speed up the overall training. It finally optimizes its data access pattern with HDF5 to achieve a better parallel I/O throughput. Our evaluation with three scientific surrogates and 32 GPUs illustrates that SOLAR can achieve up to 24.4X speedup over PyTorch Data Loader and 3.52X speedup over state-of-the-art data loaders.
翻訳日:2022-11-02 14:45:27 公開日:2022-11-01
# 相補ラベルを用いた対人訓練 : 漸次的インフォーマティブアタックの利点について

Adversarial Training with Complementary Labels: On the Benefit of Gradually Informative Attacks ( http://arxiv.org/abs/2211.00269v1 )

ライセンス: Link先を確認
Jianan Zhou, Jianing Zhu, Jingfeng Zhang, Tongliang Liu, Gang Niu, Bo Han, Masashi Sugiyama(参考訳) 不完全な監督を伴う対人訓練(AT)は重要であるが、注意は限られている。 より現実的なシナリオに向けてATを推し進めるために、データサンプルが属さないクラスを指定する補完ラベル(CL)を備えたATという、真に新しいが困難な設定を探索する。 しかし、既存のclsの方法とatの直接の組み合わせは、一貫性のある失敗をもたらすが、2段階のトレーニングの単純なベースラインにはない。 本稿では,この現象をさらに探究し,clsによるatの根底にある課題を,難解な敵意最適化と低品質の敵意の例として特定する。 そこで本研究では,2つの重要な要素からなる段階的情報攻撃を用いた新しい学習戦略を提案する。 1)ウォームアップ攻撃(ウォームアップ)は、CLによる対向最適化を容易にするために、対向的摂動予算を緩やかに引き上げる。 2) Pseudo-Label Attack (PLA) は, 段階的に情報的モデル予測を補正された相補的損失に組み込む。 本手法の有効性をベンチマークデータセットで実証するために,広範囲にわたる実験を行った。 コードは、https://github.com/RoyalSkye/ATCLで公開されている。

Adversarial training (AT) with imperfect supervision is significant but receives limited attention. To push AT towards more practical scenarios, we explore a brand new yet challenging setting, i.e., AT with complementary labels (CLs), which specify a class that a data sample does not belong to. However, the direct combination of AT with existing methods for CLs results in consistent failure, but not on a simple baseline of two-stage training. In this paper, we further explore the phenomenon and identify the underlying challenges of AT with CLs as intractable adversarial optimization and low-quality adversarial examples. To address the above problems, we propose a new learning strategy using gradually informative attacks, which consists of two critical components: 1) Warm-up Attack (Warm-up) gently raises the adversarial perturbation budgets to ease the adversarial optimization with CLs; 2) Pseudo-Label Attack (PLA) incorporates the progressively informative model predictions into a corrected complementary loss. Extensive experiments are conducted to demonstrate the effectiveness of our method on a range of benchmarked datasets. The code is publicly available at: https://github.com/RoyalSkye/ATCL.
翻訳日:2022-11-02 14:44:58 公開日:2022-11-01
# 3次元深部畳み込みを伴う時空還元次モデルによる外挿流体力学

Combined space-time reduced-order model with 3D deep convolution for extrapolating fluid dynamics ( http://arxiv.org/abs/2211.00307v1 )

ライセンス: Link先を確認
Indu Kant Deo, Rui Gao, Rajeev Jaiman(参考訳) 航空宇宙工学および海洋工学の応用において、ドラッグとノイズを減らすために効率的で信頼性の高いアクティブフロー制御戦略が必要である。 ナビエ・ストークス方程式に基づく従来の全階モデルでは実現不可能であるが、特に強い非線形性や対流支配現象において、能動制御タスクでは高度なモデル還元手法は非効率である。 畳み込み型リカレントオートエンコーダネットワークアーキテクチャを用いて、深層学習に基づくダウンオーダモデルは、高次シミュレーションよりも数桁高速に実行しながら有効であることが最近示されている。 しかし、これらのモデルはトレーニングデータ以外の重要な課題に直面し、アクティブな制御と最適化タスクの有効性を制限する。 本研究では,ネットワークアーキテクチャを改良し,結合した時空物理を暗黙のバイアスとして統合することにより,外挿性能の向上を目指す。 深層学習による低次モデルは一般に空間次元と時間次元のデカップリングを用いており、モデリングと近似誤差を導入することができる。 これらの誤りを軽減するために,3次元畳み込みネットワークを用いた空間時間相関学習手法を提案する。 提案手法を標準エンコーダ-プロパゲータ-デコーダモデルに対して評価し,優れた外挿性能を示す。 3次元畳み込みネットワークの有効性を実証するために, 円柱を通り抜ける円柱内の流れのベンチマーク問題を考察し, フルオーダーシミュレーションによる時空間スナップショットを用いた。 提案した3次元畳み込みアーキテクチャは, 種々のレイノルズ数に対する速度場と圧力場を正確に捉える。 標準的なエンコーダ・プロパゲータ・デコーダネットワークと比較して、時空間ベースの3D畳み込みネットワークはトレーニングデータ以外のレイノルズ数の予測範囲を改善する。

There is a critical need for efficient and reliable active flow control strategies to reduce drag and noise in aerospace and marine engineering applications. While traditional full-order models based on the Navier-Stokes equations are not feasible, advanced model reduction techniques can be inefficient for active control tasks, especially with strong non-linearity and convection-dominated phenomena. Using convolutional recurrent autoencoder network architectures, deep learning-based reduced-order models have been recently shown to be effective while performing several orders of magnitude faster than full-order simulations. However, these models encounter significant challenges outside the training data, limiting their effectiveness for active control and optimization tasks. In this study, we aim to improve the extrapolation capability by modifying network architecture and integrating coupled space-time physics as an implicit bias. Reduced-order models via deep learning generally employ decoupling in spatial and temporal dimensions, which can introduce modeling and approximation errors. To alleviate these errors, we propose a novel technique for learning coupled spatial-temporal correlation using a 3D convolution network. We assess the proposed technique against a standard encoder-propagator-decoder model and demonstrate a superior extrapolation performance. To demonstrate the effectiveness of 3D convolution network, we consider a benchmark problem of the flow past a circular cylinder at laminar flow conditions and use the spatio-temporal snapshots from the full-order simulations. Our proposed 3D convolution architecture accurately captures the velocity and pressure fields for varying Reynolds numbers. Compared to the standard encoder-propagator-decoder network, the spatio-temporal-based 3D convolution network improves the prediction range of Reynolds numbers outside of the training data.
翻訳日:2022-11-02 14:44:40 公開日:2022-11-01
# プール型アクティブラーニングによるエンティティマッチング

Entity Matching by Pool-based Active Learning ( http://arxiv.org/abs/2211.00311v1 )

ライセンス: Link先を確認
Youfang Han, Chunping Li(参考訳) エンティティマッチングの目標は、異なるデータソースから同じ実世界エンティティを表す対応するレコードを見つけることである。 現在、主流の手法では、ルールベースのエンティティマッチング方法には膨大なドメイン知識が必要です。 機械学習ベースまたはディープラーニングベースのエンティティマッチングメソッドは、モデルを構築するために大量のラベル付きサンプルを必要とするため、いくつかのアプリケーションでは達成が難しい。 さらに、学習ベースの手法は過度に適合しやすいため、トレーニングサンプルの品質要件は非常に高い。 本稿では,エンティティマッチングタスクのためのアクティブラーニング手法ALMatcherを提案する。 この方法は、少数の貴重なサンプルのみを手動でラベル付けし、これらのサンプルを使用して高品質のモデルを構築する必要がある。 本稿では,ラベル付きトレーニングサンプルの数を最小化し,課題要件を満たすためのクエリ手法としてのハイブリッド不確実性を提案する。 提案手法は異なる分野の7つのデータセットで検証されている。 実験の結果、ALMatcherは少数のラベル付きサンプルしか使用せず、既存のアプローチよりも優れた結果が得られることがわかった。

The goal of entity matching is to find the corresponding records representing the same real-world entity from different data sources. At present, in the mainstream methods, rule-based entity matching methods need tremendous domain knowledge. The machine-learning based or deep-learning based entity matching methods need a large number of labeled samples to build the model, which is difficult to achieve in some applications. In addition, learning-based methods are easy to over-fitting, so the quality requirements of training samples are very high. In this paper, we present an active learning method ALMatcher for the entity matching tasks. This method needs to manually label only a small number of valuable samples, and use these samples to build a model with high quality. This paper proposes a hybrid uncertainty as query strategy to find those valuable samples for labeling, which can minimize the number of labeled training samples meanwhile meet the task requirements. The proposed method has been validated on seven data sets in different fields. The experiment shows that ALMatcher uses only a small number of labeled samples and achieves better results compared to existing approaches.
翻訳日:2022-11-02 14:44:09 公開日:2022-11-01
# TrimTail: シンプルだが効果的なスペクトログラムレベルの刑罰付き低レイテンシストリーミングASR

TrimTail: Low-Latency Streaming ASR with Simple but Effective Spectrogram-Level Length Penalty ( http://arxiv.org/abs/2211.00522v1 )

ライセンス: Link先を確認
Xingchen Song, Di Wu, Zhiyong Wu, Binbin Zhang, Yuekai Zhang, Zhendong Peng, Wenpeng Li, Fuping Pan, Changbao Zhu(参考訳) 本稿では,ストリーミングasrモデルのレイテンシを改善するための簡易かつ効果的なエミッション正規化手法であるtrimtailを提案する。 TrimTailの中核となる考え方は、長さのペナルティ(例えば、後続のフレームをトリミングすることで、図1-(b)を参照)を入力発話のスペクトルに直接適用することであり、アライメントは不要である。 我々は,ctc損失[1]あるいはトランスデューサ損失[2]で訓練された各種エンドツーエンドストリーミングasrネットワークに適用することにより,任意のデータセット上のトレーニング損失やモデルアーキテクチャを余分な労力なしで,オンラインに適用し,最適化できることを実証する。 Aishell-1とLibrispeechで100$\sim$200msのレイテンシ低減を実現しています。 さらに,TrimTailを用いることで,精度が0.2未満のユーザ感度遅延(USD)を400msのアルゴリズムで改善することができる。

In this paper, we present TrimTail, a simple but effective emission regularization method to improve the latency of streaming ASR models. The core idea of TrimTail is to apply length penalty (i.e., by trimming trailing frames, see Fig. 1-(b)) directly on the spectrogram of input utterances, which does not require any alignment. We demonstrate that TrimTail is computationally cheap and can be applied online and optimized with any training loss or any model architecture on any dataset without any extra effort by applying it on various end-to-end streaming ASR networks either trained with CTC loss [1] or Transducer loss [2]. We achieve 100 $\sim$ 200ms latency reduction with equal or even better accuracy on both Aishell-1 and Librispeech. Moreover, by using TrimTail, we can achieve a 400ms algorithmic improvement of User Sensitive Delay (USD) with an accuracy loss of less than 0.2.
翻訳日:2022-11-02 14:38:31 公開日:2022-11-01
# T5lephone: 音素レベルT5による音声理解のための音声とテキスト自己組織化モデル

T5lephone: Bridging Speech and Text Self-supervised Models for Spoken Language Understanding via Phoneme level T5 ( http://arxiv.org/abs/2211.00586v1 )

ライセンス: Link先を確認
Chan-Jan Hsu, Ho-Lam Chung, Hung-yi Lee, Yu Tsao(参考訳) Spoken言語理解(SLU)では、自然解は事前訓練された音声モデル(例えば HuBERT)と事前訓練された言語モデル(例えば T5)を結合する。 以前の作品のほとんどは、サブワードベースのトークン化を伴う事前学習された言語モデルを使っている。 しかし、入力単位の粒度は、音声モデル出力と言語モデル入力のアライメントに影響し、文字ベースのトークン化を伴うPLMは未探索である。 本研究では,異なるトークン化戦略を持つplmが,音声質問応答(sqa)と音声翻訳(st)を含む音声言語理解タスクにどのように影響するかについて広範な研究を行う。 さらに,t5lephone (phone と発音する) は,音素化テキストを用いて事前学習される t5 の変種である。 我々はT5lephoneを既存のPLMで初期化し、比較的軽量な計算資源を用いて事前訓練する。 我々はNMSQAの最先端に到達し、T5lephoneモデルはT5を超え、他のタイプのユニットはエンドツーエンドのSQAとSTである。

In Spoken language understanding (SLU), a natural solution is concatenating pre-trained speech models (e.g. HuBERT) and pretrained language models (PLM, e.g. T5). Most previous works use pretrained language models with subword-based tokenization. However, the granularity of input units affects the alignment of speech model outputs and language model inputs, and PLM with character-based tokenization is underexplored. In this work, we conduct extensive studies on how PLMs with different tokenization strategies affect spoken language understanding task including spoken question answering (SQA) and speech translation (ST). We further extend the idea to create T5lephone(pronounced as telephone), a variant of T5 that is pretrained using phonemicized text. We initialize T5lephone with existing PLMs to pretrain it using relatively lightweight computational resources. We reached state-of-the-art on NMSQA, and the T5lephone model exceeds T5 with other types of units on end-to-end SQA and ST.
翻訳日:2022-11-02 14:38:14 公開日:2022-11-01
# 3次元医用画像セグメンテーションのための構造幅不確かさの探索

Exploring Structure-Wise Uncertainty for 3D Medical Image Segmentation ( http://arxiv.org/abs/2211.00303v1 )

ライセンス: Link先を確認
Anton Vasiliuk, Daria Frolova, Mikhail Belyaev, Boris Shirokikh(参考訳) 医学画像にディープラーニングモデルを適用する場合,モデルの不確かさを推定することが重要である。 ボクセルワイドの不確実性は、人間の専門家にとって有用な視覚マーカーであり、セグメンテーションのようなモデルのボクセルワイド出力を改善するために使用できる。 さらに、不確実性は、オフ・オブ・ディストリビューション(OOD)検出のための確かな基盤を提供し、画像レベルでのモデル性能を向上させる。 しかし、医用画像における頻繁な課題の1つは、腫瘍や病変など、異なる局所構造の分割である。 ここでは、構造的不確実性は、画像的および意味論的に認識されるものよりも、より正確な操作を可能にする。 個々の構造に対する不確実性を生み出す方法はいまだに調査されていない。 構造的不確実性を測定し,OODデータがモデル性能に与える影響を評価する枠組みを提案する。 そこで本研究では,セグメンテーション品質を改善するための最適なUE法を提案する。 このフレームワークは、LIDC-IDRI、LiTS、および複数の脳転移症例を持つプライベートデータセットの3つのデータセットでテストされている。

When applying a Deep Learning model to medical images, it is crucial to estimate the model uncertainty. Voxel-wise uncertainty is a useful visual marker for human experts and could be used to improve the model's voxel-wise output, such as segmentation. Moreover, uncertainty provides a solid foundation for out-of-distribution (OOD) detection, improving the model performance on the image-wise level. However, one of the frequent tasks in medical imaging is the segmentation of distinct, local structures such as tumors or lesions. Here, the structure-wise uncertainty allows more precise operations than image-wise and more semantic-aware than voxel-wise. The way to produce uncertainty for individual structures remains poorly explored. We propose a framework to measure the structure-wise uncertainty and evaluate the impact of OOD data on the model performance. Thus, we identify the best UE method to improve the segmentation quality. The proposed framework is tested on three datasets with the tumor segmentation task: LIDC-IDRI, LiTS, and a private one with multiple brain metastases cases.
翻訳日:2022-11-02 14:36:59 公開日:2022-11-01
# 可変非参照画像とビデオ品質メトリクスに対するユニバーサル摂動攻撃

Universal Perturbation Attack on Differentiable No-Reference Image- and Video-Quality Metrics ( http://arxiv.org/abs/2211.00366v1 )

ライセンス: Link先を確認
Ekaterina Shumitskaya, Anastasia Antsiferova, Dmitriy Vatolin(参考訳) universal adversarial perturbation attackは畳み込みニューラルネットワークを使用する画像分類器を分析するために広く使われている。 今日では、画像やビデオ品質の指標を騙す攻撃もある。 したがって、これらのメトリクスの持続可能性分析は重要です。 実際、もし攻撃がメトリックを混乱させることができれば、攻撃者は容易に品質スコアを上げることができる。 画像とビデオのアルゴリズムの開発者は、切り離された処理によってスコアを上げることができるが、アルゴリズムの比較はもはや公平ではない。 分類器に対する普遍的な逆摂動の概念に着想を得て,普遍摂動を通じて微分可能無参照品質指標を攻撃する新しい手法を提案する。 この手法を、7つの非参照画像・ビデオ品質指標(PaQ-2-PiQ, Linearity, VSFA, MDTVSFA, KonCept512, Nima, SPAQ)に適用した。 それぞれのスコアを増大させる普遍的な摂動を訓練しました。 また,我々の攻撃に対して最も脆弱かつ最も耐性のある指標を同定し,測定安定性を評価する手法を提案する。 成功した普遍的な摂動の存在は、信頼できるスコアを提供するためのメトリックの能力を減らすように見える。 そこで我々は,従来の主観的テストとベンチマークを補完するために,計量信頼性のさらなる検証として提案手法を推奨する。

Universal adversarial perturbation attacks are widely used to analyze image classifiers that employ convolutional neural networks. Nowadays, some attacks can deceive image- and video-quality metrics. So sustainability analysis of these metrics is important. Indeed, if an attack can confuse the metric, an attacker can easily increase quality scores. When developers of image- and video-algorithms can boost their scores through detached processing, algorithm comparisons are no longer fair. Inspired by the idea of universal adversarial perturbation for classifiers, we suggest a new method to attack differentiable no-reference quality metrics through universal perturbation. We applied this method to seven no-reference image- and video-quality metrics (PaQ-2-PiQ, Linearity, VSFA, MDTVSFA, KonCept512, Nima and SPAQ). For each one, we trained a universal perturbation that increases the respective scores. We also propose a method for assessing metric stability and identify the metrics that are the most vulnerable and the most resistant to our attack. The existence of successful universal perturbations appears to diminish the metric's ability to provide reliable scores. We therefore recommend our proposed method as an additional verification of metric reliability to complement traditional subjective tests and benchmarks.
翻訳日:2022-11-02 14:36:40 公開日:2022-11-01
# Pruned ResNetモデルを用いた欠陥ミネラルウール認識

Recognition of Defective Mineral Wool Using Pruned ResNet Models ( http://arxiv.org/abs/2211.00466v1 )

ライセンス: Link先を確認
Mehdi Rafiei, Dat Thanh Tran, Alexandros Iosifidis(参考訳) ミネラルウールの生産は、最終品質の制御を困難にする非線形プロセスである。 したがって、製品品質を分析し、欠陥製品を認識する非破壊的な方法を持つことが重要である。 そこで我々は,ミネラルウールの視覚品質制御システムを開発した。 ウール標本のX線画像が収集され、欠陥および非欠陥サンプルのトレーニングセットが作成された。 その後、最も効率的なモデルを見つけるために、resnetアーキテクチャに基づく複数の認識モデルを開発した。 実寿命に適用可能な軽量かつ高速な推定モデルを構築するために, 2つの構造的刈り込み法を分類器に適用した。 データセットの少ない量を考慮すると、トレーニング中にクロスバリデーションと拡張メソッドが使用される。 その結果、98%以上の精度のモデルが得られたが、現在の手法と比較して20%以上の欠陥製品を認識することができた。

Mineral wool production is a non-linear process that makes it hard to control the final quality. Therefore, having a non-destructive method to analyze the product quality and recognize defective products is critical. For this purpose, we developed a visual quality control system for mineral wool. X-ray images of wool specimens were collected to create a training set of defective and non-defective samples. Afterward, we developed several recognition models based on the ResNet architecture to find the most efficient model. In order to have a light-weight and fast inference model for real-life applicability, two structural pruning methods are applied to the classifiers. Considering the low quantity of the dataset, cross-validation and augmentation methods are used during the training. As a result, we obtained a model with more than 98% accuracy, which in comparison to the current procedure used at the company, it can recognize 20% more defective products.
翻訳日:2022-11-02 14:36:17 公開日:2022-11-01
# 表面信号パラメータを用いたニューラルインプシティ表現の学習

Learning Neural Implicit Representations with Surface Signal Parameterizations ( http://arxiv.org/abs/2211.00519v1 )

ライセンス: Link先を確認
Yanran Guan, Andrei Chubarau, Ruby Rao, Derek Nowrouzezahrai(参考訳) ニューラルな暗黙の表面表現は、最近、多角形メッシュ、集計点、ボクセルなどの明示的な3Dオブジェクトエンコーディングの代替として人気がある。 重要な研究によってこれらの表現の幾何学的忠実性は向上したが、最終的な外観にはあまり注目されなかった。 従来の明示的なオブジェクト表現は、3次元形状データと、拡散色テクスチャや、通常3次元表面の平面へのマッピングを必要とする通常の地図における微妙な幾何学的詳細といった補助的な表面マッピングされた画像データとを結合するが、一方、暗黙的な表現は、構成可能な表面パラメータ化の欠如により、容易にテクスチャ化できない。 このデジタルコンテンツオーサリング手法に触発されて,外観データに適した表面パラメータ化を暗黙的に符号化するニューラルネットワークアーキテクチャを設計した。 そのため、既存のメッシュベースのデジタルコンテンツと外観データとの互換性が保たれている。 個々の3Dオブジェクトにコンパクトなネットワークを過度に適合させる最近の研究により、ニュートラル暗示面の能力を拡張し、テクスチャマッピングの様々な共通かつ重要な応用を可能にする、新しい重み付きニューラル暗示表現を提案する。 我々の手法は、合理的なベースラインと最先端の代替品より優れている。

Neural implicit surface representations have recently emerged as popular alternative to explicit 3D object encodings, such as polygonal meshes, tabulated points, or voxels. While significant work has improved the geometric fidelity of these representations, much less attention is given to their final appearance. Traditional explicit object representations commonly couple the 3D shape data with auxiliary surface-mapped image data, such as diffuse color textures and fine-scale geometric details in normal maps that typically require a mapping of the 3D surface onto a plane, i.e., a surface parameterization; implicit representations, on the other hand, cannot be easily textured due to lack of configurable surface parameterization. Inspired by this digital content authoring methodology, we design a neural network architecture that implicitly encodes the underlying surface parameterization suitable for appearance data. As such, our model remains compatible with existing mesh-based digital content with appearance data. Motivated by recent work that overfits compact networks to individual 3D objects, we present a new weight-encoded neural implicit representation that extends the capability of neural implicit surfaces to enable various common and important applications of texture mapping. Our method outperforms reasonable baselines and state-of-the-art alternatives.
翻訳日:2022-11-02 14:36:05 公開日:2022-11-01
# 高周波超音波による前立腺癌検出のためのラベル付きデータを用いた自己監督学習

Self-Supervised Learning with Limited Labeled Data for Prostate Cancer Detection in High Frequency Ultrasound ( http://arxiv.org/abs/2211.00527v1 )

ライセンス: Link先を確認
Paul F. R. Wilson, Mahdi Gilany, Amoon Jamzad, Fahimeh Fooladgar, Minh Nguyen Nhat To, Brian Wodlinger, Purang Abolmaesumi, Parvin Mousavi(参考訳) 深層学習に基づく高周波・高分解能マイクロ超音波データの解析は前立腺癌検出に有望である。 超音波データの解析に対する従来のアプローチは、主に教師付き学習パラダイムに従っている。 深層ネットワークの訓練に用いられる超音波画像の根拠ラベルには、生検で得られた組織サンプルの病理組織学的解析から得られる粗い注釈が含まれていることが多い。 これによりラベル付きデータの可用性と品質に固有の制限が生まれ、教師付き学習方法の成功に大きな課題が生じた。 一方で、ラベルのない前立腺超音波データは豊富である。 本研究では,マイクロ超音波データに自己教師付き表現学習を適用した。 2つの臨床センターで得られた391名の被験者1028名の生検コアから得られた超音波データを用いて,この方法で学習した特徴表現を非癌組織から癌を分類し,AUROCスコアが91%であることを示す。 我々の知る限りでは、超音波データを用いた前立腺がん検出のためのエンドツーエンドの自己教師付き学習アプローチとして、これが初めて成功した。 提案手法は, ベースライン教師あり学習手法より優れ, 異なるデータセンター間をよく一般化し, ラベルなしデータの追加による性能向上を実現し, 大量のラベルなしデータを用いた将来の研究に有望なアプローチとなる。

Deep learning-based analysis of high-frequency, high-resolution micro-ultrasound data shows great promise for prostate cancer detection. Previous approaches to analysis of ultrasound data largely follow a supervised learning paradigm. Ground truth labels for ultrasound images used for training deep networks often include coarse annotations generated from the histopathological analysis of tissue samples obtained via biopsy. This creates inherent limitations on the availability and quality of labeled data, posing major challenges to the success of supervised learning methods. On the other hand, unlabeled prostate ultrasound data are more abundant. In this work, we successfully apply self-supervised representation learning to micro-ultrasound data. Using ultrasound data from 1028 biopsy cores of 391 subjects obtained in two clinical centres, we demonstrate that feature representations learnt with this method can be used to classify cancer from non-cancer tissue, obtaining an AUROC score of 91% on an independent test set. To the best of our knowledge, this is the first successful end-to-end self-supervised learning approach for prostate cancer detection using ultrasound data. Our method outperforms baseline supervised learning approaches, generalizes well between different data centers, and scale well in performance as more unlabeled data are added, making it a promising approach for future research using large volumes of unlabeled data.
翻訳日:2022-11-02 14:35:41 公開日:2022-11-01
# DOLPH:位相検索のための拡散モデル

DOLPH: Diffusion Models for Phase Retrieval ( http://arxiv.org/abs/2211.00529v1 )

ライセンス: Link先を確認
Shirin Shoushtari, Jailing Liu, Ulugbek S. Kamilov(参考訳) 位相検索は、複雑な値の線形測定の大きさから画像を復元する問題を指す。 問題は正しくないため、回復には未知の画像に関する事前の知識が必要である。 DOLPHは位相検索のための新しいディープモデルベースアーキテクチャであり、拡散モデルを用いて予め指定された画像と位相検索のための非凸データ忠実項を統合する。 拡散モデルは、画像デノイザとしての実装のために比較的容易に訓練できる最近の深層生成モデルのクラスである。 DOLPHは拡散モデルのサンプリングステップとデータ一貫性更新を交互に行い、高品質なソリューションを再構築する。 数値計算の結果,DOLPHの雑音に対する頑健さと,一連の測定値からいくつかの候補解を生成する能力を示す。

Phase retrieval refers to the problem of recovering an image from the magnitudes of its complex-valued linear measurements. Since the problem is ill-posed, the recovery requires prior knowledge on the unknown image. We present DOLPH as a new deep model-based architecture for phase retrieval that integrates an image prior specified using a diffusion model with a nonconvex data-fidelity term for phase retrieval. Diffusion models are a recent class of deep generative models that are relatively easy to train due to their implementation as image denoisers. DOLPH reconstructs high-quality solutions by alternating data-consistency updates with the sampling step of a diffusion model. Our numerical results show the robustness of DOLPH to noise and its ability to generate several candidate solutions given a set of measurements.
翻訳日:2022-11-02 14:35:20 公開日:2022-11-01
# ディープアンサンブルを用いた複合特徴選択

Composite Feature Selection using Deep Ensembles ( http://arxiv.org/abs/2211.00631v1 )

ライセンス: Link先を確認
Fergus Imrie, Alexander Norcliffe, Pietro Lio, Mihaela van der Schaar(参考訳) 現実世界の多くの問題では、機能は単独ではなく、互いに組み合わせて機能する。 例えば、ゲノム学では、病気は単一の突然変異によって引き起こされるのではなく、複数の突然変異が存在する必要がある。 機能選択に関する事前の作業は、個々の特徴を特定しようとするか、事前定義された集合からのみ関連グループを決定することができる。 本研究では,事前定義されたグループ化を伴わない予測的特徴群発見の問題について検討する。 そのため、特徴間の線形および非線形相互作用の観点から予測群を定義する。 本稿では,特徴選択モデルのアンサンブルを用いて予測群を抽出し,候補群を提供することなく,新たなディープラーニングアーキテクチャを提案する。 選択された群はスパースであり、最小重なりを示す。 さらに,発見群と基底真理との類似性を測定するための新しい尺度を提案する。 我々は,複数の合成タスクと半合成化学データセットにおいて,基底の真理構造が知られ,画像データセットと実世界のがんデータセットが有効であることを示す。

In many real world problems, features do not act alone but in combination with each other. For example, in genomics, diseases might not be caused by any single mutation but require the presence of multiple mutations. Prior work on feature selection either seeks to identify individual features or can only determine relevant groups from a predefined set. We investigate the problem of discovering groups of predictive features without predefined grouping. To do so, we define predictive groups in terms of linear and non-linear interactions between features. We introduce a novel deep learning architecture that uses an ensemble of feature selection models to find predictive groups, without requiring candidate groups to be provided. The selected groups are sparse and exhibit minimum overlap. Furthermore, we propose a new metric to measure similarity between discovered groups and the ground truth. We demonstrate the utility of our model on multiple synthetic tasks and semi-synthetic chemistry datasets, where the ground truth structure is known, as well as an image dataset and a real-world cancer dataset.
翻訳日:2022-11-02 14:29:42 公開日:2022-11-01
# 脳電図と軽度認知障害研究:スコーピングレビューと文献分析(ScoRBA)

Electroencephalography and mild cognitive impairment research: A scoping review and bibliometric analysis (ScoRBA) ( http://arxiv.org/abs/2211.00302v1 )

ライセンス: Link先を確認
Adi Wijaya, Noor Akhmad Setiawan, Asma Hayati Ahmad, Rahimah Zakaria, Zahiruddin Othman(参考訳) 背景: 軽度認知障害(MCI)は, MCIからADへの進行率が高いことから, アルツハイマー病(AD)の前駆者とみなされることが多い。 感性神経バイオマーカーは正確なMCI診断のためのツールを提供し、より早く、おそらくより効果的な治療を可能にする。 多くの神経科学技術が利用可能であるにもかかわらず、脳波検査(EEG)は低コストで時間分解能が優れているため、研究者の間で最も人気があり、頻繁に使用されるツールである。 目的:2012年から2022年にかけて,脳波とMCIのスコーピング調査を行い,この分野の研究の進展を調べた。 方法:従来のスコーピングレビューとは対照的に,データチャートはVOSviewerを用いた共起分析によって支援され,データレポートにはPatterns,Advanceds,Gaps,Evidence of Practice,Research Recommendations(PAGER)フレームワークが採用され,結果の質が向上した。 結果: 事象関連電位 (ERPs) と脳波, てんかん, 定量的脳波 (QEEG) と脳波ベース機械学習 (EEG-based machine learning) は, 脳波とMCIに関する2310の査読論文で取り上げられた。 結論: 脳波とMCIの主な研究テーマは,ERP/EEG,QEEG,EEGベースの機械学習フレームワークを用いて,発作とMCIを高精度に検出することである。

Background: Mild cognitive impairment (MCI) is often considered a precursor to Alzheimer's disease (AD) due to the high rate of progression from MCI to AD. Sensitive neural biomarkers may provide a tool for an accurate MCI diagnosis, enabling earlier and perhaps more effective treatment. Despite the availability of numerous neuroscience techniques, electroencephalography (EEG) is the most popular and frequently used tool among researchers due to its low cost and superior temporal resolution. Objective: We conducted a scoping review of EEG and MCI between 2012 and 2022 to track the progression of research in this field. Methods: In contrast to previous scoping reviews, the data charting was aided by co-occurrence analysis using VOSviewer, while data reporting adopted a Patterns, Advances, Gaps, Evidence of Practice, and Research Recommendations (PAGER) framework to increase the quality of the results. Results: Event-related potentials (ERPs) and EEG, epilepsy, quantitative EEG (QEEG), and EEG-based machine learning were the research themes addressed by 2310 peer-reviewed articles on EEG and MCI. Conclusion: Our review identified the main research themes in EEG and MCI with high-accuracy detection of seizure and MCI performed using ERP/EEG, QEEG and EEG-based machine learning frameworks.
翻訳日:2022-11-02 14:28:43 公開日:2022-11-01
# データ中毒によるメンバーシップ露出の増幅

Amplifying Membership Exposure via Data Poisoning ( http://arxiv.org/abs/2211.00463v1 )

ライセンス: Link先を確認
Yufei Chen, Chao Shen, Yun Shen, Cong Wang, Yang Zhang(参考訳) 現場のデータがトレーニングの段階にますます関与しているため、機械学習アプリケーションはデータ中毒攻撃の影響を受けやすくなっている。 このような攻撃は典型的にはテスト時の精度低下や制御ミス予測につながる。 本稿では,良性トレーニングサンプルのプライバシ漏洩リスクを増大させるデータ中毒の第3の手法について検討する。 この目的を達成するために, 対象クラスの会員の露出を増幅する一連のデータ中毒攻撃を実演する。 まず,教師付き分類アルゴリズムに対する汎用的ダーティラベル攻撃を提案する。 次に, 投与サンプルを正しくラベル付けし, 人間のモデレーションを回避するために「自然」に見せかけるトランスファー学習シナリオにおいて, 最適化に基づくクリーンラベル攻撃を提案する。 我々はコンピュータビジョンベンチマークに対する攻撃を広範囲に評価する。 提案手法は, テスト時間モデルの性能低下を最小限に抑えることで, メンバシップ推定精度を大幅に向上できることを示す。 攻撃の潜在的なネガティブな影響を軽減するため、本研究は可能な対策も検討する。

As in-the-wild data are increasingly involved in the training stage, machine learning applications become more susceptible to data poisoning attacks. Such attacks typically lead to test-time accuracy degradation or controlled misprediction. In this paper, we investigate the third type of exploitation of data poisoning - increasing the risks of privacy leakage of benign training samples. To this end, we demonstrate a set of data poisoning attacks to amplify the membership exposure of the targeted class. We first propose a generic dirty-label attack for supervised classification algorithms. We then propose an optimization-based clean-label attack in the transfer learning scenario, whereby the poisoning samples are correctly labeled and look "natural" to evade human moderation. We extensively evaluate our attacks on computer vision benchmarks. Our results show that the proposed attacks can substantially increase the membership inference precision with minimum overall test-time model performance degradation. To mitigate the potential negative impacts of our attacks, we also investigate feasible countermeasures.
翻訳日:2022-11-02 14:28:13 公開日:2022-11-01
# 洪水マッピングのPi定理の定式化

Pi theorem formulation of flood mapping ( http://arxiv.org/abs/2211.00636v1 )

ライセンス: Link先を確認
Mark S. Bartlett, Jared Van Blitterswyk, Martha Farella, Jinshu Li, Curtis Smith, and Assaad Mrad(参考訳) 物理現象は、あらゆる次元において均質な物理法則によって記述されるが、物理現象のメカニズムとパターンは、物理過程を記述する単位の形とは独立している。 したがって、異なる条件において、過程の類似性はバッキンガムの$\pi$定理による物理的問題の無次元の再構成によって捉えることができる。 ここではバッキンガム$\Pi$定理を適用し、洪水過程の類似性を捉えるために無次元の指標を作成する。 特に,ロジスティック回帰機械学習(ML)モデルを用いた非次元予測器を用いて,洪水リスクの確率論的決定を行う。 ロジスティック回帰型洪水図は、連邦緊急事態管理局(FEMA)の地図に基づく2次元水理モデルの結果とよく比較できる。 結果として、インデックスとロジスティック回帰は、既存のFEMAマップを新しい(未マップの)領域に拡張し、洪水や降水イベントの広い範囲に拡大する可能性がある。 その結果,新しい次元のない指標は,異なる地形や気候地域における洪水過程の類似性を捉えていることがわかった。 したがって、これらの次元の無い指標は、新しい地域での洪水のリスクにより洪水の観測(例えば衛星)を拡大し、世界中の規模の洪水リスクの迅速かつリアルタイムな推定の基盤を提供することができる。

While physical phenomena are stated in terms of physical laws that are homogeneous in all dimensions, the mechanisms and patterns of the physical phenomena are independent of the form of the units describing the physical process. Accordingly, across different conditions, the similarity of a process may be captured through a dimensionless reformulation of the physical problem with Buckingham $\Pi$ theorem. Here, we apply Buckingham $\Pi$ theorem for creating dimensionless indices for capturing the similarity of the flood process, and in turn, these indices allow machine learning to map the likelihood of pluvial (flash) flooding over a landscape. In particular, we use these dimensionless predictors with a logistic regression machine learning (ML) model for a probabilistic determination of flood risk. The logistic regression derived flood maps compare well to 2D hydraulic model results that are the basis of the Federal Emergency Management Agency (FEMA) maps. As a result, the indices and logistic regression also provide the potential to expand existing FEMA maps to new (unmapped) areas and a wider spectrum of flood flows and precipitation events. Our results demonstrate that the new dimensionless indices capture the similarity of the flood process across different topographies and climate regions. Consequently, these dimensionless indices may expand observations of flooding (e.g., satellite) to the risk of flooding in new areas, as well as provide a basis for the rapid, real-time estimation of flood risk on a worldwide scale.
翻訳日:2022-11-02 14:27:58 公開日:2022-11-01
# 双方向注意による音声認識改善のための音声テキストベースマルチモーダル学習

Speech-text based multi-modal training with bidirectional attention for improved speech recognition ( http://arxiv.org/abs/2211.00325v1 )

ライセンス: Link先を確認
Yuhang Yang, Haihua Xu, Hao Huang, Eng Siong Chng, Sheng Li(参考訳) 最先端のasrモデルにデータ効率とマルチモーダルトレーニングによる非ペアテキストデータを提供するには,2つの問題に対処する必要がある。 1)音声と言語(いわゆるテキストデータ)間の特徴サンプリング率の同期性 2) 2つのエンコーダから学習した表現の均一性。 本稿では,ASRエンコーダ(ボット層)とテキストエンコーダ(テキストエンコーダ)をマルチモーダル学習法で共同学習するために,新しい双方向アテンション機構(BiAM)を提案する。 BiAMは特徴サンプリングレートの交換を促進することを目的としており、別の空間で測定すべき1種類の変換された特徴の質を多種多様な目的関数で実現している。 その結果、テキストエンコーダが生成する表現は対応する音声表現とより類似しているのに対し、音声表現はより言語情報に富むため、非ペアテキストデータの事前学習には共有asrモデルの方が適している。 提案手法の有効性を検証するため,余分な不自由なテキストデータを用いて2種類の実験を行う。 Librispeech corpusの実験結果から、ペアデータ学習のみで最大6.15%のワードエラー率削減(WERR)を達成でき、また、より不適切なテキストデータを使用すると9.23%のWERRを実現することができる。

To let the state-of-the-art end-to-end ASR model enjoy data efficiency, as well as much more unpaired text data by multi-modal training, one needs to address two problems: 1) the synchronicity of feature sampling rates between speech and language (aka text data); 2) the homogeneity of the learned representations from two encoders. In this paper we propose to employ a novel bidirectional attention mechanism (BiAM) to jointly learn both ASR encoder (bottom layers) and text encoder with a multi-modal learning method. The BiAM is to facilitate feature sampling rate exchange, realizing the quality of the transformed features for the one kind to be measured in another space, with diversified objective functions. As a result, the speech representations are enriched with more linguistic information, while the representations generated by the text encoder are more similar to corresponding speech ones, and therefore the shared ASR models are more amenable for unpaired text data pretraining. To validate the efficacy of the proposed method, we perform two categories of experiments with or without extra unpaired text data. Experimental results on Librispeech corpus show it can achieve up to 6.15% word error rate reduction (WERR) with only paired data learning, while 9.23% WERR when more unpaired text data is employed.
翻訳日:2022-11-02 14:27:09 公開日:2022-11-01
# カーネル法による伝達学習

Transfer Learning with Kernel Methods ( http://arxiv.org/abs/2211.00227v1 )

ライセンス: Link先を確認
Adityanarayanan Radhakrishnan, Max Ruiz Luyten, Neha Prasad, Caroline Uhler(参考訳) 転送学習とは、ソースタスクでトレーニングされたモデルをターゲットタスクに適応させるプロセスを指す。 カーネルメソッドは、概念的にも計算上もシンプルな機械学習モデルであり、様々なタスクで競合するが、カーネルメソッドの転送学習を実行する方法が不明確である。 本研究では,ソースモデルをターゲットタスクに投影し,翻訳することで,カーネルメソッドの転送学習フレームワークを提案する。 画像分類および仮想薬物スクリーニングへの応用におけるフレームワークの有効性を実証する。 特に,大規模画像データセットでトレーニングされた現代的なカーネルの転送は,ターゲットタスクで直接トレーニングされた同じカーネルを使用する場合と比較して大幅にパフォーマンスが向上する可能性がある。 さらに,移植誘導核は癌細胞株に対する薬物の影響をより正確に予測できることを示した。 いずれのアプリケーションにおいても,転送先カーネルの性能を対象とするサンプル数の関数として特徴付ける,単純なスケーリング則を同定する。 我々は、この現象を単純な線形設定で説明し、正確なスケーリング則を導出することができる。 カーネルメソッドのためのシンプルで効果的な転送学習フレームワークを提供することで、大規模なデータセットでトレーニングされたカーネルメソッドを、さまざまなダウンストリームターゲットタスクに容易に適応させることができる。

Transfer learning refers to the process of adapting a model trained on a source task to a target task. While kernel methods are conceptually and computationally simple machine learning models that are competitive on a variety of tasks, it has been unclear how to perform transfer learning for kernel methods. In this work, we propose a transfer learning framework for kernel methods by projecting and translating the source model to the target task. We demonstrate the effectiveness of our framework in applications to image classification and virtual drug screening. In particular, we show that transferring modern kernels trained on large-scale image datasets can result in substantial performance increase as compared to using the same kernel trained directly on the target task. In addition, we show that transfer-learned kernels allow a more accurate prediction of the effect of drugs on cancer cell lines. For both applications, we identify simple scaling laws that characterize the performance of transfer-learned kernels as a function of the number of target examples. We explain this phenomenon in a simplified linear setting, where we are able to derive the exact scaling laws. By providing a simple and effective transfer learning framework for kernel methods, our work enables kernel methods trained on large datasets to be easily adapted to a variety of downstream target tasks.
翻訳日:2022-11-02 14:19:07 公開日:2022-11-01
# SADT: シャープネスを考慮した最小化と自己蒸留を組み合わせたモデル一般化

SADT: Combining Sharpness-Aware Minimization with Self-Distillation for Improved Model Generalization ( http://arxiv.org/abs/2211.00310v1 )

ライセンス: Link先を確認
Masud An-Nur Islam Fahim, Jani Boutellier(参考訳) ディープニューラルネットワークのトレーニング時間とモデルの一般化性を改善するための方法は、ハイパーパラメータの設定に敏感で再現性がより難しい、さまざまなデータ拡張、正規化、最適化アプローチで構成される。 本研究は, シャープネス認識最小化と自己蒸留という, モデル一般化性に対処する最近の2つのトレーニング戦略を共同で検討し, シャープネス認識蒸留教師(SADT)の新たなトレーニング戦略を提案する。 この研究の実験的セクションでは、SADTは、さまざまなニューラルネットワーク、データセット、ハイパーパラメータ設定に対するモデル収束時間、テスト時間パフォーマンス、モデル一般化性において、これまで公表されたトレーニング戦略を一貫して上回っている。

Methods for improving deep neural network training times and model generalizability consist of various data augmentation, regularization, and optimization approaches, which tend to be sensitive to hyperparameter settings and make reproducibility more challenging. This work jointly considers two recent training strategies that address model generalizability: sharpness-aware minimization, and self-distillation, and proposes the novel training strategy of Sharpness-Aware Distilled Teachers (SADT). The experimental section of this work shows that SADT consistently outperforms previously published training strategies in model convergence time, test-time performance, and model generalizability over various neural architectures, datasets, and hyperparameter settings.
翻訳日:2022-11-02 14:18:46 公開日:2022-11-01
# ゴールキーパーの意思決定を促すものは何か?

What drives a goalkeepers' decisions? ( http://arxiv.org/abs/2211.00374v1 )

ライセンス: Link先を確認
Samer Fatayri, Kirill Serykh, Egor Gumin(参考訳) サッカーの試合では、ゴールキーパーのパフォーマンスはチーム全体の成功にとって重要な要素です。 ゴールキーパーの重要性にもかかわらず、イベントのパフォーマンスやデータ追跡にはほとんど注意が払われていない。 そこで我々は,ショットストッピングに最も有効な動きを予測し,ゴールキーパーの実際の行動と比較するモデルを開発した。 このモデルは、ゴールキーパーの位置とダイブ半径に基づいて、ゴールキーパーのパフォーマンスを評価する。 実生活におけるゴールキーパーの動きは,モデルによって最も効果的と考えられる動きとは対照的に,より多様であった。 さらに,実生活サッカーの試合におけるゴールキーパーの行動分析ツールの開発に本モデルを用いた。 加えて、シミュレーター機能により、チームアナリストやソファーはゴールキーパーの反応をさらに改善できる状況を特定することができる。

In soccer games, the goalkeeper's performance is an important factor to the success of the whole team. Despite the goalkeeper's importance, little attention has been paid to their performance in events and tracking data. Here, we developed a model to predict which movements would be most effective for shot-stopping and compare it to the real-life behavior of goalkeepers. This model evaluates the performance of goalkeepers based on their position and dive radius. We found that contrary to the movements that were considered most effective by our model, real-life goalkeepers' movements were more diverse. We further used our model to develop a tool to analyse goalkeepers' behavior in real-life soccer games. In addition, a simulator function allows team analysts or couches to identify situations that allow further improvement of the reaction of the goalkeeper.
翻訳日:2022-11-02 14:18:31 公開日:2022-11-01
# CPU評価を組み込んだ未知の決定木の最適化

Optimization of Oblivious Decision Tree Ensembles Evaluation for CPU ( http://arxiv.org/abs/2211.00391v1 )

ライセンス: Link先を確認
Alexey Mironov, Ilnur Khuziev(参考訳) CatBoostは人気のある機械学習ライブラリである。 CatBoostモデルは、未熟な決定木に基づいて、トレーニングと評価を迅速化する。 CatBoostには多くのアプリケーションがあり、いくつかは低レイテンシと高いスループット評価を必要とする。 本稿では,シングルコアCPU計算におけるCatBoostの性能向上の可能性を検討する。 評価を最適化するために,AVX命令セットが提供する新機能について検討する。 品質に影響を与えずにAVX2命令を用いて20~40%の性能向上を図る。 スピードと品質の新たなトレードオフも導入しています。 葉の値とAVX-512命令にfloat16を用い,50~70%の高速化を実現した。

CatBoost is a popular machine learning library. CatBoost models are based on oblivious decision trees, making training and evaluation rapid. CatBoost has many applications, and some require low latency and high throughput evaluation. This paper investigates the possibilities for improving CatBoost's performance in single-core CPU computations. We explore the new features provided by the AVX instruction sets to optimize evaluation. We increase performance by 20-40% using AVX2 instructions without quality impact. We also introduce a new trade-off between speed and quality. Using float16 for leaf values and AVX-512 instructions, we achieve 50-70% speed-up.
翻訳日:2022-11-02 14:18:19 公開日:2022-11-01
# 大規模グラフニューラルネットワークの効率的な推論

Efficient Graph Neural Network Inference at Large Scale ( http://arxiv.org/abs/2211.00495v1 )

ライセンス: Link先を確認
Xinyi Gao, Wentao Zhang, Yingxia Shao, Quoc Viet Hung Nguyen, Bin Cui, Hongzhi Yin(参考訳) グラフニューラルネットワーク(GNN)は、幅広いアプリケーションで優れた性能を示している。 しかし、大規模グラフの巨大なサイズは、リアルタイム推論シナリオ下でアプリケーションを妨げる。 既存のスケーラブルなgnnは、機能を前処理し、トレーニングと推論手順を加速するために線形伝播を利用するが、これらのメソッドは、未認識のノードで推論を行う際に拡張性の問題に苦しんでいる。 帰納的環境での推論を高速化するため,各ノードに対して,そのトポロジ情報に基づいてパーソナライズされた伝搬順序を生成する適応的伝搬順序法を提案する。 これにより、機能の分散の冗長な計算を回避できる。 さらに、正確性と推論遅延の間のトレードオフは、アプリケーションシナリオの異なるレイテンシ制約に適合するように、単純なハイパーパラメータによって柔軟に制御できる。 潜在的な推論精度の損失を補うために,マルチスケール受信情報を利用して推論性能を向上させるインセプション蒸留を提案する。 提案した推論加速フレームワークは,精度と効率の両面でSOTAグラフ推論加速度ベースラインを上回っていることを示す。 特に,提案手法の利点は大規模データセットにおいてより重要であり,我々のフレームワークは最大規模のOgbn-productsデータセット上で75\times$推論スピードアップを達成する。

Graph neural networks (GNNs) have demonstrated excellent performance in a wide range of applications. However, the enormous size of large-scale graphs hinders their applications under real-time inference scenarios. Although existing scalable GNNs leverage linear propagation to preprocess the features and accelerate the training and inference procedure, these methods still suffer from scalability issues when making inferences on unseen nodes, as the feature preprocessing requires the graph is known and fixed. To speed up the inference in the inductive setting, we propose a novel adaptive propagation order approach that generates the personalized propagation order for each node based on its topological information. This could successfully avoid the redundant computation of feature propagation. Moreover, the trade-off between accuracy and inference latency can be flexibly controlled by simple hyper-parameters to match different latency constraints of application scenarios. To compensate for the potential inference accuracy loss, we further propose Inception Distillation to exploit the multi scale reception information and improve the inference performance. Extensive experiments are conducted on four public datasets with different scales and characteristics, and the experimental results show that our proposed inference acceleration framework outperforms the SOTA graph inference acceleration baselines in terms of both accuracy and efficiency. In particular, the advantage of our proposed method is more significant on larger-scale datasets, and our framework achieves $75\times$ inference speedup on the largest Ogbn-products dataset.
翻訳日:2022-11-02 14:18:13 公開日:2022-11-01
# 専門家の文脈混合:知識を予測モデリングに統合する

Contextual Mixture of Experts: Integrating Knowledge into Predictive Modeling ( http://arxiv.org/abs/2211.00558v1 )

ライセンス: Link先を確認
Francisco Souza, Tim Offermans, Ruud Barendse, Geert Postma, Jeroen Jansen(参考訳) この研究は、プロセス産業における人-機械のシナジーを高めるために、プロセス知識をその構造に統合するために考案された新しいデータ駆動モデルを提案する。 提案したContextual Mixture of Experts (cMoE)は、モデル学習段階に沿ったプロセス知識を明示的に使用して、履歴データを形成して、可能性分布を通じてプロセスに関連するオペレータのコンテキストを表現する。 このモデルは, 硫黄回収ユニットと重合プロセスを含む品質予測のための2つの実例で評価された。 両方の実験で異なるコンテキストを表現するために、専門家のコンテキスト混合が用いられました。 その結果、プロセス知識の統合は、プロセスの異なる状態に影響を与える変数に関する洞察を提供することで、解釈可能性を改善しながら予測性能を高めた。

This work proposes a new data-driven model devised to integrate process knowledge into its structure to increase the human-machine synergy in the process industry. The proposed Contextual Mixture of Experts (cMoE) explicitly uses process knowledge along the model learning stage to mold the historical data to represent operators' context related to the process through possibility distributions. This model was evaluated in two real case studies for quality prediction, including a sulfur recovery unit and a polymerization process. The contextual mixture of experts was employed to represent different contexts in both experiments. The results indicate that integrating process knowledge has increased predictive performance while improving interpretability by providing insights into the variables affecting the process's different regimes.
翻訳日:2022-11-02 14:17:48 公開日:2022-11-01
# トポロジと特徴空間全体にわたる表現の学習によるグラフ畳み込みネットワークにおけるヘテロフィア再考

Revisiting Heterophily in Graph Convolution Networks by Learning Representations Across Topological and Feature Spaces ( http://arxiv.org/abs/2211.00565v1 )

ライセンス: Link先を確認
Ashish Tiwari, Sresth Tosniwal, and Shanmuganathan Raman(参考訳) グラフ畳み込みネットワーク(GCN)は、グラフベースの機械学習タスクにおける表現の学習において、非常に成功した。 リッチノード表現の学習に特有な手法は、ほとんどがホモフィリー仮定のみに依存しており、ヘテロフィラスグラフの性能は限られている。 ヘテロフィリーに対処する新しいアーキテクチャでいくつかの手法が開発されているが、トポロジーと特徴空間GCNという2つの空間にまたがるグラフ表現を学習することでヘテロフィリーに対処できると主張している。 本研究では,同種および異種グラフベンチマークを用いた半教師付きノード分類タスクにおけるGCNフレームワークの性能を,トポロジと特徴空間をまたいだ表現の学習と組み合わせにより実験的に実証した。

Graph convolution networks (GCNs) have been enormously successful in learning representations over several graph-based machine learning tasks. Specific to learning rich node representations, most of the methods have solely relied on the homophily assumption and have shown limited performance on the heterophilous graphs. While several methods have been developed with new architectures to address heterophily, we argue that by learning graph representations across two spaces i.e., topology and feature space GCNs can address heterophily. In this work, we experimentally demonstrate the performance of the proposed GCN framework over semi-supervised node classification task on both homophilous and heterophilous graph benchmarks by learning and combining representations across the topological and the feature spaces.
翻訳日:2022-11-02 14:17:35 公開日:2022-11-01
# データ効率学習による位置認識サブグラフニューラルネットワーク

Position-Aware Subgraph Neural Networks with Data-Efficient Learning ( http://arxiv.org/abs/2211.00572v1 )

ライセンス: Link先を確認
Chang Liu, Yuwen Yang, Zhe Xie, Hongtao Lu, Yue Ding(参考訳) データ効率のよいグラフ学習(GEL)は、現実世界のアプリケーションでは不可欠である。 既存のGELメソッドでは、ノード、エッジ、あるいはグラフ全体の有用な表現を ``small'' ラベル付きデータで学習することに重点を置いている。 しかし, サブグラフ予測におけるデータ効率学習の問題については検討されていない。 この問題の課題は以下の側面にある。 1) サブグラフは位置の特徴を学習し,その基盤となるグラフの構造情報を取得することが重要である。 既存のサブグラフニューラルネットワーク法では、不連続な位置エンコーディングを学習できるが、全体的な計算複雑性は極めて高い。 2) ルールベース, サンプルベース, 適応, 自動手法を含む GEL のグラフ増補法は, グラフがノードが少なく, 位置, 近傍, 構造などのリッチな情報を含むため, サブグラフの増補には適さない。 サブグラフの増強は望ましくない摂動の影響を受けやすい。 3) 基本グラフには少数のノードしか含まれていないため,サブグラフ表現学習がこれらの‘hot'ノードに支配されているという潜在的な ``bias'' 問題が発生する。 対照的に、残りのノードは完全な学習に失敗し、サブグラフ表現学習の一般化能力が低下する。 本稿では,これらの課題に対処し,PADELと呼ばれるサブグラフニューラルネットワークのための位置認識型データ効率学習フレームワークを提案する。 具体的には,アンカーフリーな新しいノード位置符号化法を提案し,拡散型変分部分グラフオートエンコーダに基づく新しい生成的部分グラフ拡張法を考案し,部分グラフコントラスト学習のための探索的かつ活用可能なビューを提案する。 3つの実世界のデータセットにおける広範な実験結果から,提案手法が最先端のベースラインよりも優れていることが示された。

Data-efficient learning on graphs (GEL) is essential in real-world applications. Existing GEL methods focus on learning useful representations for nodes, edges, or entire graphs with ``small'' labeled data. But the problem of data-efficient learning for subgraph prediction has not been explored. The challenges of this problem lie in the following aspects: 1) It is crucial for subgraphs to learn positional features to acquire structural information in the base graph in which they exist. Although the existing subgraph neural network method is capable of learning disentangled position encodings, the overall computational complexity is very high. 2) Prevailing graph augmentation methods for GEL, including rule-based, sample-based, adaptive, and automated methods, are not suitable for augmenting subgraphs because a subgraph contains fewer nodes but richer information such as position, neighbor, and structure. Subgraph augmentation is more susceptible to undesirable perturbations. 3) Only a small number of nodes in the base graph are contained in subgraphs, which leads to a potential ``bias'' problem that the subgraph representation learning is dominated by these ``hot'' nodes. By contrast, the remaining nodes fail to be fully learned, which reduces the generalization ability of subgraph representation learning. In this paper, we aim to address the challenges above and propose a Position-Aware Data-Efficient Learning framework for subgraph neural networks called PADEL. Specifically, we propose a novel node position encoding method that is anchor-free, and design a new generative subgraph augmentation method based on a diffused variational subgraph autoencoder, and we propose exploratory and exploitable views for subgraph contrastive learning. Extensive experiment results on three real-world datasets show the superiority of our proposed method over state-of-the-art baselines.
翻訳日:2022-11-02 14:17:19 公開日:2022-11-01
# Seg&Struct:3次元形状解析のための部分分割と構造推論の相互作用

Seg&Struct: The Interplay Between Part Segmentation and Structure Inference for 3D Shape Parsing ( http://arxiv.org/abs/2211.00382v1 )

ライセンス: Link先を確認
Jeonghyun Kim, Kaichun Mo, Minhyuk Sung, Woontack Woo(参考訳) 本稿では,部分分割と構造推論の相互作用を利用した教師付き学習フレームワークseg&structを提案し,それらの相乗効果を統合フレームワークで実証する。 部分分割と構造推論はともに近年の深層学習の文献で広く研究されているが、各タスクで使用される監督は、他のタスクを支援するために十分に活用されていない。 すなわち、構造推論は通常、ポイント・ツー・パート・アソシエーションを利用しないオートエンコーダを用いて行われる。 また、セグメント化は、出力セグメントの妥当性を示す構造的な先入観がほとんどである。 我々は、これらの2つのタスクが、パフォーマンスを改善するための監督を十分に活用しながら、どのように組み合わさることができるかを示す。 筆者らのフレームワークは,まずオフザシェルフアルゴリズムを用いて生の入力形状を部分セグメントに分解し,その出力を部分階層内のノードにマッピングし,点対部分関係を確立する。 これに続いて、我々は構造情報、例えば部分境界ボックスや部分関係を予測する。 最後に、構造に基づく部分特徴を用いた部分境界の混乱を調べることにより、セグメント化を補正する。 structurenet と partnet を用いた実験の結果,この2つのタスク間の相互作用により,両タスクとも27.91% の構造推論と 0.5% のセグメンテーションが著しく改善することがわかった。

We propose Seg&Struct, a supervised learning framework leveraging the interplay between part segmentation and structure inference and demonstrating their synergy in an integrated framework. Both part segmentation and structure inference have been extensively studied in the recent deep learning literature, while the supervisions used for each task have not been fully exploited to assist the other task. Namely, structure inference has been typically conducted with an autoencoder that does not leverage the point-to-part associations. Also, segmentation has been mostly performed without structural priors that tell the plausibility of the output segments. We present how these two tasks can be best combined while fully utilizing supervision to improve performance. Our framework first decomposes a raw input shape into part segments using an off-the-shelf algorithm, whose outputs are then mapped to nodes in a part hierarchy, establishing point-to-part associations. Following this, ours predicts the structural information, e.g., part bounding boxes and part relationships. Lastly, the segmentation is rectified by examining the confusion of part boundaries using the structure-based part features. Our experimental results based on the StructureNet and PartNet demonstrate that the interplay between the two tasks results in remarkable improvements in both tasks: 27.91% in structure inference and 0.5% in segmentation.
翻訳日:2022-11-02 14:11:24 公開日:2022-11-01
# ステレオマッチングにおける一般化のための視覚ヒントの拡張

Expansion of Visual Hints for Improved Generalization in Stereo Matching ( http://arxiv.org/abs/2211.00392v1 )

ライセンス: Link先を確認
Andrea Pilzer, Yuxin Hou, Niki Loppi, Arno Solin, Juho Kannala(参考訳) 一般化を改善するために,ステレオマッチングを導く視覚ヒント拡張を提案する。 我々の研究は、コンピュータビジョンとロボット工学における視覚慣性オドメトリー(VIO)の堅牢性によって動機付けられており、スパースで不均一に分散された特徴点セットがシーンを特徴付ける。 ステレオマッチングを改善するため、2Dヒントを3Dポイントに高めることを提案する。 これらのスパースかつ不均一に分布する3次元視覚ヒントは、3次元ランダムな幾何グラフを用いて拡張され、学習と推論プロセスが強化される。 提案手法は,複数のベンチマークで評価し,画像列以外のセンサを使わずに性能が向上したことを示す。 視覚的なオドメトリーによる実用的適用性と共生を強調するため,本手法が組込みハードウェア上でどのように動作するかを示す。

We introduce visual hints expansion for guiding stereo matching to improve generalization. Our work is motivated by the robustness of Visual Inertial Odometry (VIO) in computer vision and robotics, where a sparse and unevenly distributed set of feature points characterizes a scene. To improve stereo matching, we propose to elevate 2D hints to 3D points. These sparse and unevenly distributed 3D visual hints are expanded using a 3D random geometric graph, which enhances the learning and inference process. We evaluate our proposal on multiple widely adopted benchmarks and show improved performance without access to additional sensors other than the image sequence. To highlight practical applicability and symbiosis with visual odometry, we demonstrate how our methods run on embedded hardware.
翻訳日:2022-11-02 14:11:02 公開日:2022-11-01
# Oracleによるコントラストクラスタリング

Oracle-guided Contrastive Clustering ( http://arxiv.org/abs/2211.00409v1 )

ライセンス: Link先を確認
Mengdie Wang, Liyuan Shang, Suyun Zhao, Yiming Wang, Hong Chen, Cuiping Li and Xizhao Wang(参考訳) deep clusteringは、ディープアーキテクチャを通じてクラスタリング表現を学ぶことを目的としている。 既存のメソッドの多くは、クラスタリングタスクのパーソナライズされた要求を無視したクラスタリングパフォーマンスを最大化するというユニークな目標でクラスタリングを行う。 %,無誘導クラスタリングソリューションが得られた。 しかし、実際のシナリオでは、オーラクルは異なるセマンティクス(背景、色、オブジェクトなど)のような異なる基準を利用してラベルのないデータをクラスタリングし、パーソナライズされたクラスタリングタスクを転送する傾向があります。 そこで本研究では,タスク対応型クラスタリングを実現するために,oracle によるコントラストクラスタリング (occ) を提案する。 具体的には、アクティブな学習にインスパイアされ、いくつかの情報的なインスタンスペアがクエリされ、そのペアが望ましい向きに従って同じクラスタ内にあるかどうかのオーラクルによって評価される。 そして、これらの問合せされた同一クラスタ対は、対照的な学習のための正のインスタンス対の集合を拡張し、OCCに向きを意識した特徴表現の抽出を誘導する。 したがって、独自の要求を持ったオラクルによって導かれるクエリ結果は、OCCのクラスタリング結果を望ましい方向へと導く可能性がある。 理論的には、クラスタリングのリスクはより厳密な上限で与えられ、オーラクルに対するアクティブクエリがクラスタリングのリスクを軽減することが保証される。 実験により,OCCが特定の方向に沿って正確にクラスタリング可能であることを確認し,SOTAクラスタリング法を著しく上回っている。 私たちの知る限りでは、パーソナライズされたクラスタリングを行う最初のディープフレームワークです。

Deep clustering aims to learn a clustering representation through deep architectures. Most of the existing methods usually conduct clustering with the unique goal of maximizing clustering performance, that ignores the personalized demand of clustering tasks.% and results in unguided clustering solutions. However, in real scenarios, oracles may tend to cluster unlabeled data by exploiting distinct criteria, such as distinct semantics (background, color, object, etc.), and then put forward personalized clustering tasks. To achieve task-aware clustering results, in this study, Oracle-guided Contrastive Clustering(OCC) is then proposed to cluster by interactively making pairwise ``same-cluster" queries to oracles with distinctive demands. Specifically, inspired by active learning, some informative instance pairs are queried, and evaluated by oracles whether the pairs are in the same cluster according to their desired orientation. And then these queried same-cluster pairs extend the set of positive instance pairs for contrastive learning, guiding OCC to extract orientation-aware feature representation. Accordingly, the query results, guided by oracles with distinctive demands, may drive the OCC's clustering results in a desired orientation. Theoretically, the clustering risk in an active learning manner is given with a tighter upper bound, that guarantees active queries to oracles do mitigate the clustering risk. Experimentally, extensive results verify that OCC can cluster accurately along the specific orientation and it substantially outperforms the SOTA clustering methods as well. To the best of our knowledge, it is the first deep framework to perform personalized clustering.
翻訳日:2022-11-02 14:10:49 公開日:2022-11-01
# GLCM特徴量と相互情報を用いた高スペクトル画像の次元化と分類のための新しいフィルタ

A new filter for dimensionality reduction and classification of hyperspectral images using GLCM features and mutual information ( http://arxiv.org/abs/2211.00446v1 )

ライセンス: Link先を確認
Hasna Nhaila, Elkebir Sarhrouni and Ahmed Hammouch(参考訳) 次元化は超スペクトル画像分類(HSI)の重要な前処理ステップであり、必然的な課題である。 スペクトル情報や空間情報に基づく特徴抽出や抽出アルゴリズムを用いる方法もある。 本稿では,相互情報に基づくスペクトル情報と空間情報の両方を考慮したHSIの次元化と分類のための新しい手法を提案する。 灰色度共起行列 (GLCM) から抽出したテクスチャ特徴により空間情報を特徴付け, 均一性, コントラスト, 相関, エネルギーを利用する。 分類にはサポートベクターマシン(SVM)を用いる。 実験は3つのよく知られたハイパースペクトルベンチマークデータセットで実施される。 提案アルゴリズムは, 提案手法の状態を比較検討した。 その結果,本手法は適切なタイミングで分類精度を高め,他の手法よりも優れていることがわかった。 この方法は、ハイパースペクトル画像、分類、スペクトルと空間の特徴、グレーレベル共起行列、GLCM、相互情報、ベクトルマシンのサポート、SVMなど、より高性能なキーワードのために改善される。

Dimensionality reduction is an important preprocessing step of the hyperspectral images classification (HSI), it is inevitable task. Some methods use feature selection or extraction algorithms based on spectral and spatial information. In this paper, we introduce a new methodology for dimensionality reduction and classification of HSI taking into account both spectral and spatial information based on mutual information. We characterise the spatial information by the texture features extracted from the grey level cooccurrence matrix (GLCM); we use Homogeneity, Contrast, Correlation and Energy. For classification, we use support vector machine (SVM). The experiments are performed on three well-known hyperspectral benchmark datasets. The proposed algorithm is compared with the state of the art methods. The obtained results of this fusion show that our method outperforms the other approaches by increasing the classification accuracy in a good timing. This method may be improved for more performance Keywords: hyperspectral images; classification; spectral and spatial features; grey level cooccurrence matrix; GLCM; mutual information; support vector machine; SVM.
翻訳日:2022-11-02 14:10:20 公開日:2022-11-01
# スタジオ外で署名: 継続的手話認識のためのバックグラウンドロバストネスのベンチマーク

Signing Outside the Studio: Benchmarking Background Robustness for Continuous Sign Language Recognition ( http://arxiv.org/abs/2211.00448v1 )

ライセンス: Link先を確認
Youngjoon Jang, Youngtaek Oh, Jae Won Cho, Dong-Jin Kim, Joon Son Chung, In So Kweon(参考訳) この研究の目標は、バックグラウンドロバストな連続手話認識である。 現存するほとんどの連続手話認識(cslr)ベンチマークは固定された背景を持ち、静的な単色背景を持つスタジオで撮影される。 しかし、署名は現実世界のスタジオに限ったものではない。 背景シフトによるCSLRモデルのロバスト性を分析するため,様々な背景から既存のCSLRモデルを評価する。 そこで本研究では,既存のCSLRベンチマークを用いたベンチマークデータセットを自動生成するパイプラインを提案する。 新たに構築したベンチマークデータセットは,実環境をシミュレートする多様なシーンで構成されている。 最新のCSLR法でさえ、背景が変化した新しいデータセットではグルースをよく認識できない。 そこで本研究では,(1)背景ランダム化と(2)CSLRモデルの特徴的乱れを含む,シンプルで効果的な学習手法を提案する。 実験結果から,本手法は他の未知の背景データを最小限の訓練画像で一般化することを示した。

The goal of this work is background-robust continuous sign language recognition. Most existing Continuous Sign Language Recognition (CSLR) benchmarks have fixed backgrounds and are filmed in studios with a static monochromatic background. However, signing is not limited only to studios in the real world. In order to analyze the robustness of CSLR models under background shifts, we first evaluate existing state-of-the-art CSLR models on diverse backgrounds. To synthesize the sign videos with a variety of backgrounds, we propose a pipeline to automatically generate a benchmark dataset utilizing existing CSLR benchmarks. Our newly constructed benchmark dataset consists of diverse scenes to simulate a real-world environment. We observe even the most recent CSLR method cannot recognize glosses well on our new dataset with changed backgrounds. In this regard, we also propose a simple yet effective training scheme including (1) background randomization and (2) feature disentanglement for CSLR models. The experimental results on our dataset demonstrate that our method generalizes well to other unseen background data with minimal additional training images.
翻訳日:2022-11-02 14:10:02 公開日:2022-11-01
# 自己監督型強度イベントステレオマッチング

Self-Supervised Intensity-Event Stereo Matching ( http://arxiv.org/abs/2211.00509v1 )

ライセンス: Link先を確認
Jinjin Gu, Jinan Zhou, Ringo Sai Wo Chu, Yan Chen, Jiawei Zhang, Xuanye Cheng, Song Zhang, Jimmy S. Ren(参考訳) イベントカメラはバイオインスパイアされた新しい視覚センサであり、高ダイナミックレンジと低消費電力のマイクロ秒精度で画素レベルの強度変化を出力する。 これらの利点にもかかわらず、イベントカメラは高品質の強度とイベントを同時に得ることができないため、計算画像処理タスクに直接適用できない。 本稿では,スタンドアロンのイベントカメラと近代的な強度カメラを接続して,両センサを応用することを目的とする。 マルチモーダルステレオマッチングタスクを通じてこの接続を確立する。 まず、イベントを再構成した画像に変換し、既存のステレオネットワークをこのマルチモダリティ条件に拡張する。 本研究では,地上の真理不一致データを用いずにマルチモーダルステレオネットワークを訓練する自己教師方式を提案する。 画像勾配に基づいて計算された構造損失は、そのようなマルチモーダルデータの自己教師付き学習を可能にするために用いられる。 異なるモダリティを持つビュー間の内部ステレオ制約を活用し、不一致クロスコンシスタンス損失や内部不一致損失を含む一般的なステレオ損失関数を導入し、既存のアプローチと比較して性能とロバスト性が向上する。 実験は,合成データと実データの両方において,提案手法,特に一般ステレオ損失関数の有効性を示す。 最終的に、下流タスク(例えば、ビデオ補間アプリケーション)における整列イベントと強調画像の利用に光を当てた。

Event cameras are novel bio-inspired vision sensors that output pixel-level intensity changes in microsecond accuracy with a high dynamic range and low power consumption. Despite these advantages, event cameras cannot be directly applied to computational imaging tasks due to the inability to obtain high-quality intensity and events simultaneously. This paper aims to connect a standalone event camera and a modern intensity camera so that the applications can take advantage of both two sensors. We establish this connection through a multi-modal stereo matching task. We first convert events to a reconstructed image and extend the existing stereo networks to this multi-modality condition. We propose a self-supervised method to train the multi-modal stereo network without using ground truth disparity data. The structure loss calculated on image gradients is used to enable self-supervised learning on such multi-modal data. Exploiting the internal stereo constraint between views with different modalities, we introduce general stereo loss functions, including disparity cross-consistency loss and internal disparity loss, leading to improved performance and robustness compared to existing approaches. The experiments demonstrate the effectiveness of the proposed method, especially the proposed general stereo loss functions, on both synthetic and real datasets. At last, we shed light on employing the aligned events and intensity images in downstream tasks, e.g., video interpolation application.
翻訳日:2022-11-02 14:09:45 公開日:2022-11-01
# ソーシャルメディアデータによる地理情報収集

Geo-Information Harvesting from Social Media Data ( http://arxiv.org/abs/2211.00543v1 )

ライセンス: Link先を確認
Xiao Xiang Zhu, Yuanyuan Wang, Mrinalini Kochupillai, Martin Werner, Matthias H\"aberle, Eike Jens Hoffmann, Hannes Taubenb\"ock, Devis Tuia, Alex Levering, Nathan Jacobs, Anna Kruspe, Karam Abdulahhad(参考訳) 地理情報として、オープンプラットフォームやソーシャルメディアからの大量の画像やテキストメッセージは、時間的に準シームのない、空間的に多面的なストリームを形成するが、未知で多様な品質を持つ。 リモートセンシングデータとの相補性から、これらの情報源からの地理情報は有望な視点を提供しているが、そのデータ特性から収穫は自明ではない。 本稿では,データの可用性,分析対応データ作成とデータ管理,ソーシャルメディアのテキストや画像からの地理情報抽出,ソーシャルメディアとリモートセンシングデータの融合など,この分野の重要な側面について論じる。 次に、模範的な地理的応用を紹介します。 また,地理情報収集と地理応用の文脈において,ソーシャルメディアデータの倫理的考察に関する最初の広範な議論を行う。 この取り組みにより、好奇心を刺激し、地理応用のためのソーシャルメディアデータを探究する研究者の基盤を築きたい。 私たちはコミュニティに、コードとデータを共有することで協力することを奨励します。

As unconventional sources of geo-information, massive imagery and text messages from open platforms and social media form a temporally quasi-seamless, spatially multi-perspective stream, but with unknown and diverse quality. Due to its complementarity to remote sensing data, geo-information from these sources offers promising perspectives, but harvesting is not trivial due to its data characteristics. In this article, we address key aspects in the field, including data availability, analysis-ready data preparation and data management, geo-information extraction from social media text messages and images, and the fusion of social media and remote sensing data. We then showcase some exemplary geographic applications. In addition, we present the first extensive discussion of ethical considerations of social media data in the context of geo-information harvesting and geographic applications. With this effort, we wish to stimulate curiosity and lay the groundwork for researchers who intend to explore social media data for geo-applications. We encourage the community to join forces by sharing their code and data.
翻訳日:2022-11-02 14:09:23 公開日:2022-11-01
# 部分的シーンにおけるオブジェクトローカライズのためのcommonsenseの活用

Leveraging commonsense for object localisation in partial scenes ( http://arxiv.org/abs/2211.00562v1 )

ライセンス: Link先を確認
Francesco Giuliari, Geri Skenderi, Marco Cristani, Alessio Del Bue and Yiming Wang(参考訳) 本研究では,シーンの部分的な3dスキャンだけで未知の領域における対象の位置を推定することを目的とした,部分シーンにおける対象の局所化問題に対処するエンドツーエンドソリューションを提案する。 本研究では,空間的シーングラフであるdirected spatial commonsense graph (d-scg) の幾何学的推論を容易にする新しいシーン表現を提案する。 具体的には、d-scgのノードはシーンオブジェクトを表し、エッジは相対的な位置である。 各オブジェクトノードは、概念ノードの集合と異なるコモンセンス関係を介して接続される。 提案するグラフベースシーン表現では,新たな注目メッセージパッシング機構を実装したグラフニューラルネットワークを用いて,対象物体の未知の位置を推定する。 ネットワークは、D-SCGにおいて、対象ノードと概念ノードの両方を集約することにより、対象オブジェクトと各可視オブジェクトの相対位置を予測する。 そして、それらの相対的な位置をマージして最終位置を得る。 本手法を部分走査網を用いて評価し,8倍の速さで局所化精度を5.9%向上させた。

We propose an end-to-end solution to address the problem of object localisation in partial scenes, where we aim to estimate the position of an object in an unknown area given only a partial 3D scan of the scene. We propose a novel scene representation to facilitate the geometric reasoning, Directed Spatial Commonsense Graph (D-SCG), a spatial scene graph that is enriched with additional concept nodes from a commonsense knowledge base. Specifically, the nodes of D-SCG represent the scene objects and the edges are their relative positions. Each object node is then connected via different commonsense relationships to a set of concept nodes. With the proposed graph-based scene representation, we estimate the unknown position of the target object using a Graph Neural Network that implements a novel attentional message passing mechanism. The network first predicts the relative positions between the target object and each visible object by learning a rich representation of the objects via aggregating both the object nodes and the concept nodes in D-SCG. These relative positions then are merged to obtain the final position. We evaluate our method using Partial ScanNet, improving the state-of-the-art by 5.9% in terms of the localisation accuracy at a 8x faster training speed.
翻訳日:2022-11-02 14:09:05 公開日:2022-11-01
# MedSegDiff:拡散確率モデルによる医用画像分割

MedSegDiff: Medical Image Segmentation with Diffusion Probabilistic Model ( http://arxiv.org/abs/2211.00611v1 )

ライセンス: Link先を確認
Junde Wu, Huihui Fang, Yu Zhang, Yehui Yang, Yanwu Xu(参考訳) 拡散確率モデル(DPM)は近年,コンピュータビジョンにおいて最もホットな話題の一つとなっている。 ImagenやLatent Diffusion Models、Stable Diffusionといった画像生成アプリケーションは、素晴らしい生成能力を示しており、コミュニティで広く議論されている。 多くの最近の研究は、画像の劣化、超解像、異常検出など、他の視覚的タスクにも有用であることを示した。 DPM の成功に触発されて,一般医用画像分割作業に向けた最初の DPM ベースモデルを提案し,MedSegDiff と命名した。 医用画像セグメンテーションにおけるDPMのステップワイド領域の注意力を高めるために,各サンプリングステップの状態適応条件を確立する動的条件エンコーディングを提案する。 さらに、このプロセスにおける高周波雑音成分の負の効果を排除するために、FF-Parser(Feature Frequency Parser)を提案する。 我々はMedSegDiffを,眼底画像に対する光カップのセグメンテーション,MRI画像に対する脳腫瘍のセグメンテーション,超音波画像に対する甲状腺結節のセグメンテーションの3つの課題について検証した。 実験の結果,MedSegDiffは高い性能差で最先端(SOTA)手法より優れており,提案モデルの一般化と有効性を示している。

Diffusion probabilistic model (DPM) recently becomes one of the hottest topic in computer vision. Its image generation application such as Imagen, Latent Diffusion Models and Stable Diffusion have shown impressive generation capabilities, which aroused extensive discussion in the community. Many recent studies also found it useful in many other vision tasks, like image deblurring, super-resolution and anomaly detection. Inspired by the success of DPM, we propose the first DPM based model toward general medical image segmentation tasks, which we named MedSegDiff. In order to enhance the step-wise regional attention in DPM for the medical image segmentation, we propose dynamic conditional encoding, which establishes the state-adaptive conditions for each sampling step. We further propose Feature Frequency Parser (FF-Parser), to eliminate the negative effect of high-frequency noise component in this process. We verify MedSegDiff on three medical segmentation tasks with different image modalities, which are optic cup segmentation over fundus images, brain tumor segmentation over MRI images and thyroid nodule segmentation over ultrasound images. The experimental results show that MedSegDiff outperforms state-of-the-art (SOTA) methods with considerable performance gap, indicating the generalization and effectiveness of the proposed model.
翻訳日:2022-11-02 14:08:47 公開日:2022-11-01
# E2E 精製データセット

E2E Refined Dataset ( http://arxiv.org/abs/2211.00513v1 )

ライセンス: Link先を確認
Keisuke Toyama, Katsuhito Sudoh, Satoshi Nakamura(参考訳) MR-to-text E2Eデータセットは多くの研究者によって使用されているが、MR-textペアには多くの削除/挿入/置換エラーが含まれている。 このようなエラーはMR-to-textシステムの品質に影響するため、可能な限り修正する必要がある。 そこで我々は,e2eデータセットを洗練されたデータセットに変換する改良データセットとpythonプログラムを開発した。

Although the well-known MR-to-text E2E dataset has been used by many researchers, its MR-text pairs include many deletion/insertion/substitution errors. Since such errors affect the quality of MR-to-text systems, they must be fixed as much as possible. Therefore, we developed a refined dataset and some python programs that convert the original E2E dataset into a refined dataset.
翻訳日:2022-11-02 14:02:29 公開日:2022-11-01
# 不完全情報を用いた自然言語推論

Natural Language Deduction with Incomplete Information ( http://arxiv.org/abs/2211.00614v1 )

ライセンス: Link先を確認
Zayne Sprague, Kaj Bostrom, Swarat Chaudhuri, Greg Durrett(参考訳) 増大する研究機関は、自然言語を"防備"(deductive inference)として生成することで、質問に答えるか、クレームを検証する方法を研究している。 しかし、これらの手法は、与えられた証拠に従えば、音を抑えることができる。 我々は,すべての前提が最初から記述されていないような不特定な設定を処理可能な新しいシステムを提案する。 自然言語生成モデルを用いて、別の前提と結論が与えられた前提を推論することにより、結論が真であるために必要な証拠の欠如を示唆することができる。 システムでは,2つのフランジを双方向に探索し,導出性(前方鎖)と導出性(後方鎖)を生成する。 探索空間のカバレッジを達成するために,各ステップ毎に複数の可能な出力をサンプリングすると同時に,低品質世代をラウンドトリップ検証手順でフィルタリングすることで精度を確保する。 EntailmentBankデータセットの修正版とEveryday Norms: Why Not?と呼ばれる新しいデータセットの結果。 バリデーションを備えた帰納的生成は、ドメイン内および外部設定間で前提を回復できることを示す。

A growing body of work studies how to answer a question or verify a claim by generating a natural language "proof": a chain of deductive inferences yielding the answer based on a set of premises. However, these methods can only make sound deductions when they follow from evidence that is given. We propose a new system that can handle the underspecified setting where not all premises are stated at the outset; that is, additional assumptions need to be materialized to prove a claim. By using a natural language generation model to abductively infer a premise given another premise and a conclusion, we can impute missing pieces of evidence needed for the conclusion to be true. Our system searches over two fringes in a bidirectional fashion, interleaving deductive (forward-chaining) and abductive (backward-chaining) generation steps. We sample multiple possible outputs for each step to achieve coverage of the search space, at the same time ensuring correctness by filtering low-quality generations with a round-trip validation procedure. Results on a modified version of the EntailmentBank dataset and a new dataset called Everyday Norms: Why Not? show that abductive generation with validation can recover premises across in- and out-of-domain settings.
翻訳日:2022-11-02 14:02:22 公開日:2022-11-01
# gmf: 汎用マルチモーダル融合フレームワークによる通信異常拒否

GMF: General Multimodal Fusion Framework for Correspondence Outlier Rejection ( http://arxiv.org/abs/2211.00207v1 )

ライセンス: Link先を確認
Xiaoshui Huang, Wentao Qu, Yifan Zuo, Yuming Fang, Xiaowei Zhao(参考訳) 対応出力の削除は、高点雲登録精度を達成するための重要なステップである対応品質を高めることができる。 現状の対応拒否法では,対応文の構造的特徴のみを活用している。 しかし, テクスチャ情報は, 人間の視覚系における対応異常を拒絶する上で重要である。 本稿では,構造情報とテクスチャ情報の両方を利用して,対応外れ値の否定を学ぶための汎用マルチモーダル融合(gmf)を提案する。 具体的には,ペア画像からのテクスチャ情報とポイント対応からの構造情報を融合するために,2つのクロス・アテンション・ベースの融合層を提案する。 さらに,トークン間の差異を増大させ,隣り合う情報に注意を払わせるために,畳み込み位置符号化層を提案する。 我々の位置エンコーディング層は、ローカル情報とグローバル情報の両方を相互アテンション操作に統合する。 複数のデータセット(3DMatch, 3DLoMatch, KITTI)と最近の最先端モデル(DRegNet, DGR, PointDSC)による実験により、GMFが広範な一般化能力を達成し、点雲登録精度を一貫して改善していることが証明された。 さらに、いくつかのアブレーション研究では、異なる損失関数、照明条件、ノイズに対するGMFの堅牢性を示しており、コードはhttps://github.com/XiaoshuiHuang/GMFで公開されている。

Rejecting correspondence outliers enables to boost the correspondence quality, which is a critical step in achieving high point cloud registration accuracy. The current state-of-the-art correspondence outlier rejection methods only utilize the structure features of the correspondences. However, texture information is critical to reject the correspondence outliers in our human vision system. In this paper, we propose General Multimodal Fusion (GMF) to learn to reject the correspondence outliers by leveraging both the structure and texture information. Specifically, two cross-attention-based fusion layers are proposed to fuse the texture information from paired images and structure information from point correspondences. Moreover, we propose a convolutional position encoding layer to enhance the difference between Tokens and enable the encoding feature pay attention to neighbor information. Our position encoding layer will make the cross-attention operation integrate both local and global information. Experiments on multiple datasets(3DMatch, 3DLoMatch, KITTI) and recent state-of-the-art models (3DRegNet, DGR, PointDSC) prove that our GMF achieves wide generalization ability and consistently improves the point cloud registration accuracy. Furthermore, several ablation studies demonstrate the robustness of the proposed GMF on different loss functions, lighting conditions and noises.The code is available at https://github.com/XiaoshuiHuang/GMF.
翻訳日:2022-11-02 14:00:48 公開日:2022-11-01
# Pixel-Wiseコントラスト蒸留

Pixel-Wise Contrastive Distillation ( http://arxiv.org/abs/2211.00218v1 )

ライセンス: Link先を確認
Junqiang Huang and Zichao Guo(参考訳) 本稿では,高密度予測タスクに指定された最初の画素レベルの自己監督蒸留フレームワークを提案する。 提案手法はpixel-wise contrastive distillation (pcd) と呼ばれ,生徒と教師の出力特徴マップから対応する画素を引き付けることで知識を蒸留する。 このピクセル対ピクセル蒸留は教師の出力の空間情報を維持する必要がある。 本研究では,ベクトル化特徴を符号化する教師の熟達した投影/予測ヘッドを2次元特徴マップの処理に適応する空間適応器を提案する。 spatialadaptorはより有益なピクセルレベルの蒸留を可能にし、密集した予測タスクのためのより良い学生をもたらす。 さらに,小型モデルの有効受容領域が不十分であることを踏まえ,プラグイン型マルチヘッド自己認識モジュールを用いて,学生の特徴マップの画素を明示的に関連付ける。 総じて,pcdは,様々な濃密な予測タスクにおいて,従来の自己教師付き蒸留法を上回っている。 PCDによって蒸留されたResNet-18のバックボーンは37.4$ AP$^\text{bbox}$と34.0$ AP$^{mask}$でCOCOデータセット上のMask R-CNN検出器で達成され、教師付き事前訓練法を上回る最初の事前学習法として登場した。

We present the first pixel-level self-supervised distillation framework specified for dense prediction tasks. Our approach, called Pixel-Wise Contrastive Distillation (PCD), distills knowledge by attracting the corresponding pixels from student's and teacher's output feature maps. This pixel-to-pixel distillation demands for maintaining the spatial information of teacher's output. We propose a SpatialAdaptor that adapts the well-trained projection/prediction head of the teacher used to encode vectorized features to processing 2D feature maps. SpatialAdaptor enables more informative pixel-level distillation, yielding a better student for dense prediction tasks. Besides, in light of the inadequate effective receptive fields of small models, we utilize a plug-in multi-head self-attention module to explicitly relate the pixels of student's feature maps. Overall, our PCD outperforms previous self-supervised distillation methods on various dense prediction tasks. A backbone of ResNet-18 distilled by PCD achieves $37.4$ AP$^\text{bbox}$ and $34.0$ AP$^{mask}$ with Mask R-CNN detector on COCO dataset, emerging as the first pre-training method surpassing the supervised pre-trained counterpart.
翻訳日:2022-11-02 14:00:22 公開日:2022-11-01
# 自己監督型キャラクタ-キャラクタ-キャラクタ蒸留

Self-supervised Character-to-Character Distillation ( http://arxiv.org/abs/2211.00288v1 )

ライセンス: Link先を確認
Tongkun Guan, Wei Shen(参考訳) 複雑なテキスト画像(不規則な構造、低い解像度、重い咬合、さらには照明など)を扱うため、既存の教師付きテキスト認識手法はデータ格納型である。 これらの方法は、注釈付き実画像への依存を減らすために大規模な合成テキスト画像を用いるが、ドメインギャップは認識性能を制限する。 したがって、自己教師付き学習によるラベルのない実画像上のロバストテキスト特徴表現の探索は良い解である。 しかし、既存の自己教師付きテキスト認識手法は、水平軸に沿って視覚特徴を大まかに分割することで文字構造を損なうことにより、シーケンスからシーケンスへの表現学習のみを実行する。 さらに、これらのシーケンシャルレベルの自己学習手法は、大規模な幾何学的拡張がシーケンス対シーケンスの不整合をもたらすため、幾何ベースのデータ拡張の可用性を制限する。 以上の課題に対処するため, 自己監督型キャラクタ蒸留法CCDを提案した。 具体的には、自己教師付き文字セグメンテーションモジュールの設計により、ラベルなし実画像のキャラクタ構造を記述し、さらに、セグメンテーション結果をキャラクタレベル表現学習の構築に適用する。 CCDは、よりきめ細かい特徴表現を学習するための文字レベルのプリテキストタスクを提案するという点で、以前の研究とは異なる。 さらに,シーケンス・ツー・シーケンスモデルの柔軟性に欠ける拡張と比較して,様々な変換(幾何学や色など)をまたいだ文字対キャラクタ表現一貫性を満足し,代表的な空間において頑健なテキスト特徴を生成する。 実験により、CCDは、公開されているテキスト認識ベンチマークで最先端のパフォーマンスを達成することが示された。

Handling complicated text images (e.g., irregular structures, low resolution, heavy occlusion, and even illumination), existing supervised text recognition methods are data-hungry. Although these methods employ large-scale synthetic text images to reduce the dependence on annotated real images, the domain gap limits the recognition performance. Therefore, exploring the robust text feature representation on unlabeled real images by self-supervised learning is a good solution. However, existing self-supervised text recognition methods only execute sequence-to-sequence representation learning by roughly splitting the visual features along the horizontal axis, which will damage the character structures. Besides, these sequential-level self-learning methods limit the availability of geometric-based data augmentation, as large-scale geometry augmentation leads to sequence-to-sequence inconsistency. To address the above-mentioned issues, we proposed a novel self-supervised character-to-character distillation method, CCD. Specifically, we delineate the character structures of unlabeled real images by designing a self-supervised character segmentation module, and further apply the segmentation results to build character-level representation learning. CCD differs from prior works in that we propose a character-level pretext task to learn more fine-grained feature representations. Besides, compared with the inflexible augmentations of sequence-to-sequence models, our work satisfies character-to-character representation consistency, across various transformations (e.g., geometry and colour), to generate robust text features in the representative space. Experiments demonstrate that CCD achieves state-of-the-art performance on publicly available text recognition benchmarks.
翻訳日:2022-11-02 14:00:00 公開日:2022-11-01
# 一様教師なし視覚異常検出器としてのシームズ遷移マスクオートエンコーダ

Siamese Transition Masked Autoencoders as Uniform Unsupervised Visual Anomaly Detector ( http://arxiv.org/abs/2211.00349v1 )

ライセンス: Link先を確認
Haiming Yao, Xue Wang, Wenyong Yu(参考訳) 教師なし視覚異常検出は、多くのシナリオにおいて実践的な重要性を伝達し、無拘束な異常の定義のために難しい課題である。 さらに、以前のほとんどのメソッドはアプリケーション固有であり、アプリケーションシナリオにまたがる異常に対する統一モデルを確立することは未解決である。 本稿では,多種多様な視覚異常検出タスクを深い特徴遷移により均一に処理する,Samese Transition Masked Autoencoders (ST-MAE) と呼ばれるハイブリッドフレームワークを提案する。 具体的には,まず,事前学習した深層畳み込みニューラルネットワークから階層的セマンティクス特徴を抽出し,その後,深い特徴を2つの異なる特徴パッチサブセットに分割するための特徴分離戦略を開発した。 分離された特徴を活用してST-MAEは、機能パッチの各サブセットで動作し、2つのサブセットの潜在表現遷移を実行するシームズエンコーダと、遷移した潜在表現から元の機能を再構築する軽量デコーダと共に開発された。 最後に、意味深い特徴残差を用いて異常属性を検出することができる。 我々の深い特徴遷移スキームは、原型的正規パターンを抽出するための非自明で意味的な自己スーパーバイザリーなタスクをもたらし、異なる視覚異常検出タスクにうまく一般化する一様モデルの学習を可能にします。 広範な実験により,st-mae法により,アプリケーションシナリオを横断する複数のベンチマークにおける最先端性能を,優れた推論効率で向上し,教師なし視覚異常検出の一様モデルとなる可能性が示唆された。

Unsupervised visual anomaly detection conveys practical significance in many scenarios and is a challenging task due to the unbounded definition of anomalies. Moreover, most previous methods are application-specific, and establishing a unified model for anomalies across application scenarios remains unsolved. This paper proposes a novel hybrid framework termed Siamese Transition Masked Autoencoders(ST-MAE) to handle various visual anomaly detection tasks uniformly via deep feature transition. Concretely, the proposed method first extracts hierarchical semantics features from a pre-trained deep convolutional neural network and then develops a feature decoupling strategy to split the deep features into two disjoint feature patch subsets. Leveraging the decoupled features, the ST-MAE is developed with the Siamese encoders that operate on each subset of feature patches and perform the latent representations transition of two subsets, along with a lightweight decoder that reconstructs the original feature from the transitioned latent representation. Finally, the anomalous attributes can be detected using the semantic deep feature residual. Our deep feature transition scheme yields a nontrivial and semantic self-supervisory task to extract prototypical normal patterns, which allows for learning uniform models that generalize well for different visual anomaly detection tasks. The extensive experiments conducted demonstrate that the proposed ST-MAE method can advance state-of-the-art performance on multiple benchmarks across application scenarios with a superior inference efficiency, which exhibits great potential to be the uniform model for unsupervised visual anomaly detection.
翻訳日:2022-11-02 13:59:32 公開日:2022-11-01
# 拡張不変マニフォールド学習

Augmentation Invariant Manifold Learning ( http://arxiv.org/abs/2211.00460v1 )

ライセンス: Link先を確認
Shulei Wang(参考訳) データ拡張は、近年の自己教師型表現学習の進歩において、広く使われている技法であり、重要な要素である。 拡張データ間の類似性を保存することで、結果のデータ表現は様々な下流分析を改善し、多くのアプリケーションで最先端のパフォーマンスを達成することができる。 データ拡張の役割を解明するため,低次元積多様体上の統計フレームワークを開発し,ラベルのない拡張データが有用なデータ表現に繋がる理由を理論的に理解する。 本研究では,拡張不変多様体学習と呼ばれる新しい表現学習法を提案し,それに対応する損失関数を開発し,ディープニューラルネットワークと協調してデータ表現を学習する。 既存の手法と比較して、新しいデータ表現は多様体の幾何学的構造と拡張データの不変性を同時に活用する。 我々の理論的調査は,拡張データから得られたデータ表現が下流解析における$k$-nearest近傍分類器をどのように改善するかを正確に特徴付け,より複雑なデータ拡張によって下流解析がより改善されることを示す。 最後に,本論文の理論的結果を支えるために,シミュレーションおよび実データに関する数値実験を行った。

Data augmentation is a widely used technique and an essential ingredient in the recent advance in self-supervised representation learning. By preserving the similarity between augmented data, the resulting data representation can improve various downstream analyses and achieve state-of-art performance in many applications. To demystify the role of data augmentation, we develop a statistical framework on a low-dimension product manifold to theoretically understand why the unlabeled augmented data can lead to useful data representation. Under this framework, we propose a new representation learning method called augmentation invariant manifold learning and develop the corresponding loss function, which can work with a deep neural network to learn data representations. Compared with existing methods, the new data representation simultaneously exploits the manifold's geometric structure and invariant property of augmented data. Our theoretical investigation precisely characterizes how the data representation learned from augmented data can improve the $k$-nearest neighbor classifier in the downstream analysis, showing that a more complex data augmentation leads to more improvement in downstream analysis. Finally, numerical experiments on simulated and real datasets are presented to support the theoretical results in this paper.
翻訳日:2022-11-02 13:53:09 公開日:2022-11-01
# FADO:感情支援対話のためのフィードバック対応ダブルコントラリングネットワーク

FADO: Feedback-Aware Double COntrolling Network for Emotional Support Conversation ( http://arxiv.org/abs/2211.00250v1 )

ライセンス: Link先を確認
Wei Peng, Ziyuan Qin, Yue Hu, Yuqiang Xie, Yunpeng Li(参考訳) Emotional Support Conversation (ESConv) は、支援的戦略と対応によって支援者の感情的苦痛を軽減することを目的としている。 支援者は、esconvのヘルプシーカー(例えば、ダイアログ変更時の感情変化など)のフィードバックを得て、適切な戦略を選択することが不可欠である。 しかしながら、従来の方法は戦略を選択し、ヘルプシーカーのフィードバックを無視するためにダイアログ履歴に重点を置いているため、誤った戦略予測に繋がる。 さらに、これらのアプローチは、文脈と戦略のフローをモデル化し、戦略と制約の応答を生成するための戦略に関するコンテキストに集中できる戦略とコンテキストのフローに注意を払わない。 本稿では,戦略スケジュールを作成し,支援応答を生成するためのフィードバックアウェア二重制御ネットワーク(fado)を提案する。 fadoのコアモジュールはデュアルレベルフィードバック戦略セレクタとダブルコントロールリーダで構成されている。 具体的には、二段階フィードバック戦略セレクタは、ターンレベルと会話レベルフィードバックを活用して戦略を奨励または罰する。 二重制御リーダは、戦略制約応答を生成するための新しい戦略-コンテキストフローを構築する。 さらに、戦略辞書は戦略の意味情報を強化し、戦略制約応答の品質を向上させるように設計されている。 ESConvの実験結果から,提案したFADOは,戦略選択と応答生成の両面から最先端の性能を達成した。 私たちのコードはhttps://github/after/reviewing.comから入手可能です。

Emotional Support Conversation (ESConv) aims to reduce help-seekers'emotional distress with the supportive strategy and response. It is essential for the supporter to select an appropriate strategy with the feedback of the help-seeker (e.g., emotion change during dialog turns, etc) in ESConv. However, previous methods mainly focus on the dialog history to select the strategy and ignore the help-seeker's feedback, leading to the wrong and user-irrelevant strategy prediction. In addition, these approaches only model the context-to-strategy flow and pay less attention to the strategy-to-context flow that can focus on the strategy-related context for generating the strategy-constrain response. In this paper, we propose a Feedback-Aware Double COntrolling Network (FADO) to make a strategy schedule and generate the supportive response. The core module in FADO consists of a dual-level feedback strategy selector and a double control reader. Specifically, the dual-level feedback strategy selector leverages the turn-level and conversation-level feedback to encourage or penalize strategies. The double control reader constructs the novel strategy-to-context flow for generating the strategy-constrain response. Furthermore, a strategy dictionary is designed to enrich the semantic information of the strategy and improve the quality of strategy-constrain response. Experimental results on ESConv show that the proposed FADO has achieved the state-of-the-art performance in terms of both strategy selection and response generation. Our code is available at https://github/after/reviewing.
翻訳日:2022-11-02 13:51:10 公開日:2022-11-01
# CARE:条件付きグラフ生成による共感反応の因果推論

CARE: Causality Reasoning for Empathetic Responses by Conditional Graph Generation ( http://arxiv.org/abs/2211.00255v1 )

ライセンス: Link先を確認
Jiashuo Wang, Yi Cheng, Wenjie Li(参考訳) 共感応答生成に対する最近のアプローチは、ユーザの感情と経験の両方の理解を高めるために感情因果関係を取り入れている。 しかし、これらのアプローチには2つの重大な問題がある。 まず、彼らはユーザの感情とユーザエクスペリエンスの間の因果関係のみを検討し、ユーザエクスペリエンス間の因果関係を無視する。 第2に、因果関係間の相互依存を無視し、独立して推論する。 上記の問題を解決するため、ユーザの感情、対話履歴、将来の対話内容から、すべてのもっともらしい因果関係を相互に同時に推論することを期待する。 そして、これらの因果関係を共感反応の応答生成に注入する。 具体的には, 因果関係推論のための条件付き変分グラフオートエンコーダ(cvgae)を新たに設計し, 因果関係注入のためのデコーダに多元的注意機構を導入する。 この枠組み全体をCARE(CAusality Reasoning for Empathetic conversation)と命名した。 実験結果から,本手法は最先端性能を実現することが示唆された。

Recent approaches to empathetic response generation incorporate emotion causalities to enhance comprehension of both the user's feelings and experiences. However, these approaches suffer from two critical issues. First, they only consider causalities between the user's emotion and the user's experiences, and ignore those between the user's experiences. Second, they neglect interdependence among causalities and reason them independently. To solve the above problems, we expect to reason all plausible causalities interdependently and simultaneously, given the user's emotion, dialogue history, and future dialogue content. Then, we infuse these causalities into response generation for empathetic responses. Specifically, we design a new model, i.e., the Conditional Variational Graph Auto-Encoder (CVGAE), for the causality reasoning, and adopt a multi-source attention mechanism in the decoder for the causality infusion. We name the whole framework as CARE, abbreviated for CAusality Reasoning for Empathetic conversation. Experimental results indicate that our method achieves state-of-the-art performance.
翻訳日:2022-11-02 13:50:44 公開日:2022-11-01
# FRSUM:Factual Robustnessの強化によるFithful Abstractive Summarizationを目指して

FRSUM: Towards Faithful Abstractive Summarization via Enhancing Factual Robustness ( http://arxiv.org/abs/2211.00294v1 )

ライセンス: Link先を確認
Wenhao Wu, Wei Li, Jiachen Liu, Xinyan Xiao, Ziqiang Cao, Sujian Li, Hua Wu(参考訳) 流動的で文法的なテキストを生成することができたが、現在のSeq2Seqの要約モデルは未だに不誠実な生成問題に悩まされている。 本稿では,既存システムの忠実さを,敵対的不信情報に対して事実情報を正しく生成する能力である事実堅牢性という新たな視点から検討する。 まず,その成功率によってモデルの実力度を測定し,事実情報を生成する際の敵攻撃を防御する。 現在のシステムにおける事実的堅牢性分析は、忠実性に関する人間の判断と良好な整合性を示している。 これらの知見に触発されて,本論文では,モデルの信頼性を向上させることを提案する。 具体的には,明示的な敵対的サンプルと暗黙の現実的敵対的摂動の両方に対する防御をモデルに教える新しい訓練戦略,frsumを提案する。 FRSUMは,T5,BARTなどの各種Seq2Seqモデルの忠実度を一貫して向上することを示す。

Despite being able to generate fluent and grammatical text, current Seq2Seq summarization models still suffering from the unfaithful generation problem. In this paper, we study the faithfulness of existing systems from a new perspective of factual robustness which is the ability to correctly generate factual information over adversarial unfaithful information. We first measure a model's factual robustness by its success rate to defend against adversarial attacks when generating factual information. The factual robustness analysis on a wide range of current systems shows its good consistency with human judgments on faithfulness. Inspired by these findings, we propose to improve the faithfulness of a model by enhancing its factual robustness. Specifically, we propose a novel training strategy, namely FRSUM, which teaches the model to defend against both explicit adversarial samples and implicit factual adversarial perturbations. Extensive automatic and human evaluation results show that FRSUM consistently improves the faithfulness of various Seq2Seq models, such as T5, BART.
翻訳日:2022-11-02 13:50:27 公開日:2022-11-01
# メトリック学習オートエンコーダを用いたゼロデイ脅威検出

Zero Day Threat Detection Using Metric Learning Autoencoders ( http://arxiv.org/abs/2211.00441v1 )

ライセンス: Link先を確認
Dhruv Nandakumar, Robert Schiller, Christopher Redino, Kevin Choi, Abdul Rahman, Edward Bowen, Marc Vucovich, Joe Nehila, Matthew Weeks, Aaron Shaha(参考訳) 企業ネットワークへのゼロデイ脅威(ZDT)の拡散は、非常にコストがかかり、大規模に悪意のある行動のためにトラフィックをスキャンする新しい方法が必要である。 通常の行動の多様さと、攻撃型の巨大な景観は、ディープラーニング手法を高非線形な行動パターンを捉えるための魅力的な選択肢にします。 本稿では,ネットワークフローテレメトリにおけるZDTの識別にデュアル・オートエンコーダ・アプローチを用いた従来手法の改良について述べる。 ネットワーク内のホストの役割を抽象的に表現する,これまで導入されたアセットレベルのグラフ機能に加えて,この新モデルは,2番目のオートエンコーダをラベル付きアタックデータでトレーニングするために,メトリック学習を使用する。 これにより性能が向上するだけでなく、潜在空間におけるマルチクラス分類を可能にすることにより、モデルの解釈可能性を改善するという利点もある。 これは、予測されたZDTを調査する際に、潜伏空間のどの既知の攻撃クラスが近くにあるかを示すことで、人間の脅威ハンターの時間を節約できる可能性がある。 ここで提示されるモデルは、さらに2つのデータセットでトレーニングされ、評価され、新しいネットワークトポロジに一般化しても有望な結果を示し続ける。

The proliferation of zero-day threats (ZDTs) to companies' networks has been immensely costly and requires novel methods to scan traffic for malicious behavior at massive scale. The diverse nature of normal behavior along with the huge landscape of attack types makes deep learning methods an attractive option for their ability to capture highly-nonlinear behavior patterns. In this paper, the authors demonstrate an improvement upon a previously introduced methodology, which used a dual-autoencoder approach to identify ZDTs in network flow telemetry. In addition to the previously-introduced asset-level graph features, which help abstractly represent the role of a host in its network, this new model uses metric learning to train the second autoencoder on labeled attack data. This not only produces stronger performance, but it has the added advantage of improving the interpretability of the model by allowing for multiclass classification in the latent space. This can potentially save human threat hunters time when they investigate predicted ZDTs by showing them which known attack classes were nearby in the latent space. The models presented here are also trained and evaluated with two more datasets, and continue to show promising results even when generalizing to new network topologies.
翻訳日:2022-11-02 13:44:46 公開日:2022-11-01
# 時間変動特徴変調によるブラックボックス音響効果のモデル化

Modelling black-box audio effects with time-varying feature modulation ( http://arxiv.org/abs/2211.00497v1 )

ライセンス: Link先を確認
Marco Comunit\`a, Christian J. Steinmetz, Huy Phan, Joshua D. Reiss(参考訳) 音声効果のブラックボックスモデリングのためのディープラーニングアプローチは期待されているが、既存の研究の大部分は、ギターアンプや歪みといった比較的短い時間スケールでの振る舞いを伴う非線形効果に焦点を当てている。 再帰的および畳み込み的アーキテクチャは、より長い時間スケールで振る舞いを捉えるために理論的に拡張できるが、既存のアーキテクチャの幅、深さ、拡張係数を単純にスケーリングするだけでは、ファズやダイナミックレンジ圧縮のようなオーディオ効果をモデル化する場合には、十分な性能が得られないことを示す。 そこで本研究では,時間変化による特徴量線形変調を時間的畳み込みバックボーンに統合し,中間アクティベーションの学習可能な適応を可能にする手法を提案する。 提案手法は,時間領域と周波数領域の両方で,ファズ・コンプレッサー実装の長距離依存性をより正確に把握する。 再現性を高めるために、音響サンプル、ソースコード、事前訓練されたモデルを提供する。

Deep learning approaches for black-box modelling of audio effects have shown promise, however, the majority of existing work focuses on nonlinear effects with behaviour on relatively short time-scales, such as guitar amplifiers and distortion. While recurrent and convolutional architectures can theoretically be extended to capture behaviour at longer time scales, we show that simply scaling the width, depth, or dilation factor of existing architectures does not result in satisfactory performance when modelling audio effects such as fuzz and dynamic range compression. To address this, we propose the integration of time-varying feature-wise linear modulation into existing temporal convolutional backbones, an approach that enables learnable adaptation of the intermediate activations. We demonstrate that our approach more accurately captures long-range dependencies for a range of fuzz and compressor implementations across both time and frequency domain metrics. We provide sound examples, source code, and pretrained models to faciliate reproducibility.
翻訳日:2022-11-02 13:44:24 公開日:2022-11-01
# 因果データ融合のためのロバスト直接学習

Robust Direct Learning for Causal Data Fusion ( http://arxiv.org/abs/2211.00249v1 )

ライセンス: Link先を確認
Xinyu Li, Yilin Li, Qing Cui, Longfei Li, Jun Zhou(参考訳) ビッグデータの時代において、マルチソース異種データの爆発的成長は多くのエキサイティングな課題と条件付き平均処理効果の推論を改善する機会を与えている。 本稿では,ソース固有共変量の存在を許容する一般設定の下で,同種および異種因果データ融合問題について検討する。 治療効果を他のニュアサンス関数から分離し、特定の誤特定に対して二重堅牢性を達成するマルチソースデータ統合のための直接学習フレームワークを提供する。 推定精度と安定性を向上させるため,半パラメトリック効率理論の理論的知見に基づく因果情報認識重み付け関数を提案し,より深い重み付けを高い解釈性を持つ因果情報を含むサンプルに割り当てる。 重み付き最小二乗基準の下で共変量に回帰することで,重み付き多元直接学習器という2段階アルゴリズムを導入し,実装の容易さ,二重ロバスト性,モデルの柔軟性といったメリットを享受し,因果的データ融合のための強力なツールを提供する。 シミュレーション研究において,同種および異種因果データ融合シナリオにおける提案手法の有効性を実証した。

In the era of big data, the explosive growth of multi-source heterogeneous data offers many exciting challenges and opportunities for improving the inference of conditional average treatment effects. In this paper, we investigate homogeneous and heterogeneous causal data fusion problems under a general setting that allows for the presence of source-specific covariates. We provide a direct learning framework for integrating multi-source data that separates the treatment effect from other nuisance functions, and achieves double robustness against certain misspecification. To improve estimation precision and stability, we propose a causal information-aware weighting function motivated by theoretical insights from the semiparametric efficiency theory; it assigns larger weights to samples containing more causal information with high interpretability. We introduce a two-step algorithm, the weighted multi-source direct learner, based on constructing a pseudo-outcome and regressing it on covariates under a weighted least square criterion; it offers us a powerful tool for causal data fusion, enjoying the advantages of easy implementation, double robustness and model flexibility. In simulation studies, we demonstrate the effectiveness of our proposed methods in both homogeneous and heterogeneous causal data fusion scenarios.
翻訳日:2022-11-02 13:44:07 公開日:2022-11-01
# 繰り返しニューラルネットワークとベイズフィルタの普遍近似

Recurrent Neural Networks and Universal Approximation of Bayesian Filters ( http://arxiv.org/abs/2211.00335v1 )

ライセンス: Link先を確認
Adrian N. Bishop and Edwin V. Bonilla(参考訳) ベイズ最適フィルタ問題を考える:すなわち、観測シーケンスから潜在時系列信号の条件統計を推定する。 古典的なアプローチは、しばしば仮定または推定された遷移と観測モデルの使用に依存する。 代わりに、一般的なリカレントニューラルネットワークフレームワークを定式化し、観測入力から所望の推定器統計への再帰的マッピングを直接学習する。 この記事の主な焦点は、このフレームワークの近似能力である。 一般の非コンパクト領域におけるフィルタリングに近似誤差境界を与える。 また,長い時間性能を保証する強時間一様近似誤差境界についても考察する。 これらの結果の実際的な懸念と意味について論じる。

We consider the Bayesian optimal filtering problem: i.e. estimating some conditional statistics of a latent time-series signal from an observation sequence. Classical approaches often rely on the use of assumed or estimated transition and observation models. Instead, we formulate a generic recurrent neural network framework and seek to learn directly a recursive mapping from observational inputs to the desired estimator statistics. The main focus of this article is the approximation capabilities of this framework. We provide approximation error bounds for filtering in general non-compact domains. We also consider strong time-uniform approximation error bounds that guarantee good long-time performance. We discuss and illustrate a number of practical concerns and implications of these results.
翻訳日:2022-11-02 13:43:46 公開日:2022-11-01
# 文脈的ヘミヘックスサブサンプリングを用いた拡散mriにおける角アップサンプリング

Angular upsampling in diffusion MRI using contextual HemiHex sub-sampling in q-space ( http://arxiv.org/abs/2211.00240v1 )

ライセンス: Link先を確認
Abrar Faiyaz, Md Nasir Uddin, Giovanni Schifitto(参考訳) 人工知能(Deep Learning(DL)/機械学習(ML))技術は、医療画像におけるあらゆる不適切な問題に対処し、克服するために広く使われている。 臨床像を保持するMRにおける勾配方向の低減と高角分解能(HAR)拡散データの利用は,この分野において重要な課題である。 DL/MLアプローチは有望だが、データに関連するコンテキストを組み込んで、AIモデルが後部を推測するための最大事前情報を提供することが重要である。 本稿では,半ヘックス(hh)サブサンプリングを導入し,q空間幾何におけるトレーニングデータサンプリングを提案的に取り扱うとともに,最寄りのhh-samplesにおける最寄りの回帰トレーニングを行い,最終的にdmriデータをサンプリングする。 以前の研究では、dmriデータのサンプルアップに回帰を用いるが、推論の構造化幾何学的尺度の提供に失敗したため、パフォーマンス上の問題が発生する。 提案手法は, 未知の q-空間を推定し, 先行研究の限界に対処する幾何的に最適化された回帰手法である。

Artificial Intelligence (Deep Learning(DL)/ Machine Learning(ML)) techniques are widely being used to address and overcome all kinds of ill-posed problems in medical imaging which was or in fact is seemingly impossible. Reducing gradient directions but harnessing high angular resolution(HAR) diffusion data in MR that retains clinical features is an important and challenging problem in the field. While the DL/ML approaches are promising, it is important to incorporate relevant context for the data to ensure that maximum prior information is provided for the AI model to infer the posterior. In this paper, we introduce HemiHex (HH) subsampling to suggestively address training data sampling on q-space geometry, followed by a nearest neighbor regression training on the HH-samples to finally upsample the dMRI data. Earlier studies has tried to use regression for up-sampling dMRI data but yields performance issues as it fails to provide structured geometrical measures for inference. Our proposed approach is a geometrically optimized regression technique which infers the unknown q-space thus addressing the limitations in the earlier studies.
翻訳日:2022-11-02 13:43:00 公開日:2022-11-01
# RGMIM:新型コロナウイルス検出のための地域誘導マスク画像モデリング

RGMIM: Region-Guided Masked Image Modeling for COVID-19 Detection ( http://arxiv.org/abs/2211.00313v1 )

ライセンス: Link先を確認
Guang Li, Ren Togo, Takahiro Ogawa, Miki Haseyama(参考訳) 自己監督学習は急速に発展し,医療分野におけるコンピュータ支援診断も進歩している。 Masked Image Modeling (MIM) は、入力ピクセルの一部をマスキングし、マスクされたピクセルを予測しようとする自己教師付き学習手法の1つである。 伝統的なmim手法はしばしばランダムマスキング戦略を用いる。 しかし, 医用画像は, 通常の画像と比較して, 疾患検出の領域が小さいことが多い。 例えば、肺外の領域は決定する情報を含んでいないため、ランダムマスキング戦略は新型コロナウイルスの検出に十分な情報を学ばない可能性がある。 そこで本稿では,新型コロナウイルス検出のための領域誘導マスク画像モデリング手法(RGMIM)を提案する。 本手法では,肺マスク情報を用いて有効な地域を特定することで,新型コロナウイルス検出に役立つ情報を学習する新しいマスキング戦略を設計する。 実験結果から、RGMIMは他の最先端の自己教師型学習手法よりも、オープンなCOVID-19ラジオグラフィーデータセットの方が優れていることが示された。

Self-supervised learning has developed rapidly and also advances computer-aided diagnosis in the medical field. Masked image modeling (MIM) is one of the self-supervised learning methods that masks a portion of input pixels and tries to predict the masked pixels. Traditional MIM methods often use a random masking strategy. However, medical images often have a small region of interest for disease detection compared to ordinary images. For example, the regions outside the lung do not contain the information for decision, which may cause the random masking strategy not to learn enough information for COVID-19 detection. Hence, we propose a novel region-guided masked image modeling method (RGMIM) for COVID-19 detection in this paper. In our method, we design a new masking strategy that uses lung mask information to locate valid regions to learn more helpful information for COVID-19 detection. Experimental results show that RGMIM can outperform other state-of-the-art self-supervised learning methods on an open COVID-19 radiography dataset.
翻訳日:2022-11-02 13:42:25 公開日:2022-11-01
# 視覚的ポーズに基づくフィルタリングとウェアラブル・アクセラレーションによる混在環境における非音声発話状態検出

No-audio speaking status detection in crowded settings via visual pose-based filtering and wearable acceleration ( http://arxiv.org/abs/2211.00549v1 )

ライセンス: Link先を確認
Jose Vargas-Quiros, Laura Cabrera-Quiros, Hayley Hung(参考訳) 混み合った場面で誰が話しているかを認識することは、内部の社会的相互作用を理解する上で重要な課題である。 身体運動だけでの発話状況の検出は、個人の音声が得られない社会的場面の分析の扉を開く。 ビデオとウェアラブルのセンサーは、邪魔にならないプライバシー保護の方法で話すことを認識できる。 映像モダリティを考慮すれば、アクション認識問題において、バウンディングボックスは伝統的に対象対象をローカライズし、セグメンテーションし、その内部で起こるアクションを認識するために使用される。 しかし, クロス汚染, 閉塞, 人体の明瞭な性質は, 混み合った場面でこのアプローチを困難にしている。 そこで本研究では,音素ポーズを主観的局所化と後続の音声検出の段階に活用する。 提案手法では,ポーズキーポイントに関する局所特徴の選択が一般化性能に肯定的な影響を及ぼすとともに,検討対象の局所特徴量を大幅に削減し,より効率的な手法であることを示す。 被験者の視点が異なる2つのインザワイルドデータセットを用いて,この効果におけるクロス汚染の役割について検討した。 さらに,ウェアラブルセンサで測定した加速度を同じタスクに利用し,両手法を組み合わせたマルチモーダルアプローチを提案する。

Recognizing who is speaking in a crowded scene is a key challenge towards the understanding of the social interactions going on within. Detecting speaking status from body movement alone opens the door for the analysis of social scenes in which personal audio is not obtainable. Video and wearable sensors make it possible recognize speaking in an unobtrusive, privacy-preserving way. When considering the video modality, in action recognition problems, a bounding box is traditionally used to localize and segment out the target subject, to then recognize the action taking place within it. However, cross-contamination, occlusion, and the articulated nature of the human body, make this approach challenging in a crowded scene. Here, we leverage articulated body poses for subject localization and in the subsequent speech detection stage. We show that the selection of local features around pose keypoints has a positive effect on generalization performance while also significantly reducing the number of local features considered, making for a more efficient method. Using two in-the-wild datasets with different viewpoints of subjects, we investigate the role of cross-contamination in this effect. We additionally make use of acceleration measured through wearable sensors for the same task, and present a multimodal approach combining both methods.
翻訳日:2022-11-02 13:42:05 公開日:2022-11-01
# CPG-RL:四足歩行のための中央パターン生成器の学習

CPG-RL: Learning Central Pattern Generators for Quadruped Locomotion ( http://arxiv.org/abs/2211.00458v1 )

ライセンス: Link先を確認
Guillaume Bellegarda, Auke Ijspeert(参考訳) 本稿では,結合発振器のシステムである中央パターン生成器(CPG)を深部強化学習(DRL)フレームワークに統合し,強靭で一方向の四足歩行を実現する手法を提案する。 エージェントは、固有発振器セットポイント(振幅と周波数)を直接変調し、異なる発振器間のリズム挙動を調整することを学習する。 このアプローチはまた、DRLを使用して神経科学、すなわち下降経路、振動子間結合、歩行生成における感覚フィードバックの役割に関する質問を探索することができる。 私たちは、シミュレーションでポリシーを訓練し、unitree a1 4rupedへのsim-to-real転送を行い、トレーニング中に目に見えない外乱に対する堅牢な行動を観察します。 固有感覚センシングに基づいて複数の異なる観測空間をテストし、我々のフレームワークがドメインのランダム化やフィードバックのほとんどなくデプロイ可能であり、振動子状態とともに観測空間に接触ブールのみを提供することができることを示した。 ビデオ結果はhttps://youtu.be/xqXHLzLsEV4で見ることができる。

In this letter, we present a method for integrating central pattern generators (CPGs), i.e. systems of coupled oscillators, into the deep reinforcement learning (DRL) framework to produce robust and omnidirectional quadruped locomotion. The agent learns to directly modulate the intrinsic oscillator setpoints (amplitude and frequency) and coordinate rhythmic behavior among different oscillators. This approach also allows the use of DRL to explore questions related to neuroscience, namely the role of descending pathways, interoscillator couplings, and sensory feedback in gait generation. We train our policies in simulation and perform a sim-to-real transfer to the Unitree A1 quadruped, where we observe robust behavior to disturbances unseen during training, most notably to a dynamically added 13.75 kg load representing 115% of the nominal quadruped mass. We test several different observation spaces based on proprioceptive sensing and show that our framework is deployable with no domain randomization and very little feedback, where along with the oscillator states, it is possible to provide only contact booleans in the observation space. Video results can be found at https://youtu.be/xqXHLzLsEV4.
翻訳日:2022-11-02 13:41:44 公開日:2022-11-01
# ジェンダー不明瞭テキスト音声の生成

Generating Gender-Ambiguous Text-to-Speech Voices ( http://arxiv.org/abs/2211.00375v1 )

ライセンス: Link先を確認
Konstantinos Markopoulos, Georgia Maniati, Georgios Vamvoukakis, Nikolaos Ellinas, Karolos Nikitaras, Konstantinos Klapsas, Georgios Vardaxoglou, Panos Kakoulidis, June Sig Sung, Inchul Hwang, Aimilios Chalamandaris, Pirros Tsiakoulis and Spyros Raptis(参考訳) 音声アシスタントまたは任意の音声ユーザーインタフェースの性別は、その認識されたアイデンティティの中心要素である。 女性の声は一般的な選択であるが、女性や男性と明確に区別するよりも、性別が曖昧である別のアプローチへの関心が高まっている。 本研究は,既存の人物と一致しない性あいまいな音声音声(TTS)を生成するタスクに対処する。 これは、複数の話者からのデータに基づいて多言語多話者ttsシステムを訓練中に形成された潜在話者埋め込み空間からサンプリングすることで達成される。 サンプリングプロセスについては様々な選択肢が検討されている。 実験では、異なるサンプリング選択が性別のあいまいさや発声の自然性に及ぼす影響を評価した。 提案手法は, ベースライン平均話者埋め込みよりも優れた新しい話者を効率的に生成できることを示す。 我々の知る限り、これは多様なユーザー要求を満たすために、性別とあいまいな声を確実に生成できる最初の体系的なアプローチである。

The gender of a voice assistant or any voice user interface is a central element of its perceived identity. While a female voice is a common choice, there is an increasing interest in alternative approaches where the gender is ambiguous rather than clearly identifying as female or male. This work addresses the task of generating gender-ambiguous text-to-speech (TTS) voices that do not correspond to any existing person. This is accomplished by sampling from a latent speaker embeddings' space that was formed while training a multilingual, multi-speaker TTS system on data from multiple male and female speakers. Various options are investigated regarding the sampling process. In our experiments, the effects of different sampling choices on the gender ambiguity and the naturalness of the resulting voices are evaluated. The proposed method is shown able to efficiently generate novel speakers that are superior to a baseline averaged speaker embedding. To our knowledge, this is the first systematic approach that can reliably generate a range of gender-ambiguous voices to meet diverse user requirements.
翻訳日:2022-11-02 13:35:57 公開日:2022-11-01
# 表現型音声合成のためのトークンレベルの音響遅延予測による発話レベル表現の学習

Learning utterance-level representations through token-level acoustic latents prediction for Expressive Speech Synthesis ( http://arxiv.org/abs/2211.00523v1 )

ライセンス: Link先を確認
Karolos Nikitaras, Konstantinos Klapsas, Nikolaos Ellinas, Georgia Maniati, June Sig Sung, Inchul Hwang, Spyros Raptis, Aimilios Chalamandaris, Pirros Tsiakoulis(参考訳) 本稿では,文字行動音声や発話スタイルなどの発話レベルの属性をキャプチャし制御するために,トークンレベルの潜在韻律変数を用いた表現型音声合成モデルを提案する。 現在の研究は、このような細粒度および発話レベルの音声属性を、対応するレベルで動作するモジュールによって抽出された異なる表現に明示的に分解することを目的としている。 細粒度潜在性空間は粗粒度情報もキャプチャするので,多種多様な韻律表現を捉えるために,潜在性空間の次元が増加するとより明確になる。 したがって、トークンレベルの表現と発話レベルの表現の多様性と、それらの絡み合いの間にトレードオフが生じる。 本稿では、まず、豊富な音声属性をトークンレベル潜在空間にキャプチャし、入力テキストを付与した先行ネットワークを個別に訓練し、その前のステップで抽出した音素レベル後潜在音を予測するために、発話レベル表現を学習することでこの問題を軽減する。 定性評価と定量的評価の両方を用いて,提案手法の有効性を実証する。 オーディオサンプルはデモページから入手できます。

This paper proposes an Expressive Speech Synthesis model that utilizes token-level latent prosodic variables in order to capture and control utterance-level attributes, such as character acting voice and speaking style. Current works aim to explicitly factorize such fine-grained and utterance-level speech attributes into different representations extracted by modules that operate in the corresponding level. We show that the fine-grained latent space also captures coarse-grained information, which is more evident as the dimension of latent space increases in order to capture diverse prosodic representations. Therefore, a trade-off arises between the diversity of the token-level and utterance-level representations and their disentanglement. We alleviate this issue by first capturing rich speech attributes into a token-level latent space and then, separately train a prior network that given the input text, learns utterance-level representations in order to predict the phoneme-level, posterior latents extracted during the previous step. Both qualitative and quantitative evaluations are used to demonstrate the effectiveness of the proposed approach. Audio samples are available in our demo page.
翻訳日:2022-11-02 13:35:03 公開日:2022-11-01
# 分散グラフニューラルネットワークトレーニング

Distributed Graph Neural Network Training: A Survey ( http://arxiv.org/abs/2211.00216v1 )

ライセンス: Link先を確認
Yingxia Shao, Hongzheng Li, Xizhi Gu, Hongbo Yin, Yawen Li, Xupeng Miao, Wentao Zhang, Bin Cui, Lei Chen(参考訳) グラフニューラルネットワーク(GNN)は、グラフ越しに学習するディープラーニングモデルの一種であり、多くの領域でうまく適用されている。 GNNの有効性にもかかわらず、GNNが大規模グラフに効率的にスケールすることは依然として困難である。 治療法として、分散コンピューティングは、豊富なコンピューティングリソースを提供できるため、大規模GNNをトレーニングするための有望なソリューションとなる。 しかし,グラフ構造の依存性は,大規模通信と作業負荷の不均衡に苦しむ高効率分散GNNトレーニングの達成の難しさを増す。 近年,分散GNN訓練への取り組みが盛んに行われており,一連の学習アルゴリズムやシステムも提案されている。 しかし、グラフ処理から分散実行まで、最適化技術に関する体系的なレビューが欠けている。 本稿では,大規模機能通信,モデルの精度の喪失,ワークロードの不均衡といった,分散GNNトレーニングにおける3つの大きな課題を分析する。 次に,これらの課題に対処する分散GNNトレーニングにおける最適化手法の新しい分類法を提案する。 新しい分類法は,GNNデータ分割,GNNバッチ生成,GNN実行モデル,GNN通信プロトコルの4つのカテゴリに分類される。 最後に,マルチGPU,GPUクラスタ,CPUクラスタ用の既存の分散GNNシステムをまとめた上で,スケーラブルGNNの今後の方向性について論じる。

Graph neural networks (GNNs) are a type of deep learning models that learning over graphs, and have been successfully applied in many domains. Despite the effectiveness of GNNs, it is still challenging for GNNs to efficiently scale to large graphs. As a remedy, distributed computing becomes a promising solution of training large-scale GNNs, since it is able to provide abundant computing resources. However, the dependency of graph structure increases the difficulty of achieving high-efficiency distributed GNN training, which suffers from the massive communication and workload imbalance. In recent years, many efforts have been made on distributed GNN training, and an array of training algorithms and systems have been proposed. Yet, there is a lack of systematic review on the optimization techniques from graph processing to distributed execution. In this survey, we analyze three major challenges in distributed GNN training that are massive feature communication, the loss of model accuracy and workload imbalance. Then we introduce a new taxonomy for the optimization techniques in distributed GNN training that address the above challenges. The new taxonomy classifies existing techniques into four categories that are GNN data partition, GNN batch generation, GNN execution model, and GNN communication protocol.We carefully discuss the techniques in each category. In the end, we summarize existing distributed GNN systems for multi-GPUs, GPU-clusters and CPU-clusters, respectively, and give a discussion about the future direction on scalable GNNs.
翻訳日:2022-11-02 13:34:21 公開日:2022-11-01
# 過渡合成特性を有する深部フィードフォワードネットワークに基づく三相PWM整流器の故障診断

Fault diagnosis for three-phase PWM rectifier based on deep feedforward network with transient synthetic features ( http://arxiv.org/abs/2211.00228v1 )

ライセンス: Link先を確認
Kou Lei, Liu Chuang, Cai Guo-Wei, Zhang Zhe, Zhou Jia-Ning, Wang Xue-Mei(参考訳) 三相pwm整流器はその優れた特性と潜在的な利点のために産業で広く採用されている。 しかし、IGBTは開回路の故障があるものの、システムが突然クラッシュするわけではなく、電圧変動や電流高調波などの性能が低下する。 本稿では, 過渡相電流を主成分とし, 過渡相電流を用いてディープフィードフォワードネットワーク分類器を訓練する, 過渡的合成特徴を有するディープフィードフォワードネットワークに基づく故障診断手法を提案する。 まず, 断層相電流の特徴を解析する。 第2に、深度フィードフォワードネットワーク分類器を訓練するために、特徴合成後の歴史的断層データを使用し、その平均断層診断精度は、過渡合成断層データに対して97.85%に達する。 最後に, オンライン断層診断実験により, 故障IGBTを正確に検出でき, 診断結果の精度と信頼性を高める能力を有する複数のグループの結果によって最終診断結果が決定されることを示した。 (c)2020年ISA。 エルゼビア社出版。 権利は保留。

Three-phase PWM rectifiers are adopted extensively in industry because of their excellent properties and potential advantages. However, while the IGBT has an open-circuit fault, the system does not crash suddenly, the performance will be reduced for instance voltages fluctuation and current harmonics. A fault diagnosis method based on deep feedforward network with transient synthetic features is proposed to reduce the dependence on the fault mathematical models in this paper, which mainly uses the transient phase current to train the deep feedforward network classifier. Firstly, the features of fault phase current are analyzed in this paper. Secondly, the historical fault data after feature synthesis is employed to train the deep feedforward network classifier, and the average fault diagnosis accuracy can reach 97.85% for transient synthetic fault data, the classifier trained by the transient synthetic features obtained more than 1% gain in performance compared with original transient features. Finally, the online fault diagnosis experiments show that the method can accurately locate the fault IGBTs, and the final diagnosis result is determined by multiple groups results, which has the ability to increase the accuracy and reliability of the diagnosis results. (c) 2020 ISA. Published by Elsevier Ltd. All rights reserved.
翻訳日:2022-11-02 13:33:58 公開日:2022-11-01
# マルチエージェントアンサンブルのエンドツーエンド最適化と学習

End-to-End Optimization and Learning for Multiagent Ensembles ( http://arxiv.org/abs/2211.00251v1 )

ライセンス: Link先を確認
James Kotary, Vincenzo Di Vito, Ferdinando Fioretto(参考訳) マルチエージェントアンサンブル学習(multiagent ensemble learning)は、個々のエージェントからの予測を組み合わせることによって、正確で堅牢な機械学習モデルを作成するための重要なアルゴリズムである。 これらのモデルを設計する上で重要な課題は、特定の入力サンプルに対して個別の予測を組み合わせる効果的なルールを作ることである。 本稿では,制約付き最適化と学習のユニークな統合により,事前学習したアンサンブルから正確な予測を行うための特別なコンセンサスルールを導出することを提案する。 その結果得られた戦略は、エンドツーエンドのマルチエージェントアンサンブル学習(e2e-mel)と呼ばれ、特定の入力サンプルを組み合わせる適切な予測器を選択することを学ぶ。 本論文は,アンサンブル学習モデル内で訓練されたエンドツーエンド選択プログラムにアンサンブル学習タスクを導出する方法を示す。 標準ベンチマークの結果は、e2e-MELが様々な設定で従来のコンセンサスルールを大幅に上回っていることを示している。

Multiagent ensemble learning is an important class of algorithms aimed at creating accurate and robust machine learning models by combining predictions from individual agents. A key challenge for the design of these models is to create effective rules to combine individual predictions for any particular input sample. This paper addresses this challenge and proposes a unique integration of constrained optimization and learning to derive specialized consensus rules to compose accurate predictions from a pretrained ensemble. The resulting strategy, called end-to-end Multiagent ensemble Learning (e2e-MEL), learns to select appropriate predictors to combine for a particular input sample. The paper shows how to derive the ensemble learning task into a differentiable selection program which is trained end-to-end within the ensemble learning model. Results over standard benchmarks demonstrate the ability of e2e-MEL to substantially outperform conventional consensus rules in a variety of settings.
翻訳日:2022-11-02 13:33:37 公開日:2022-11-01
# hfn:多変量時系列異常検出のための異種特徴ネットワーク

HFN: Heterogeneous Feature Network for Multivariate Time Series Anomaly Detection ( http://arxiv.org/abs/2211.00277v1 )

ライセンス: Link先を確認
Jun Zhan, Chengkun Wu, Canqun Yang, Qiucheng Miao and Xiandong Ma(参考訳) 産業機器やコンピュータシステムに対するネットワークまたは物理的攻撃は大きな損失をもたらす可能性がある。 したがって、モニタリングデータ、特に多変量時系列(mts)データに基づく迅速かつ正確な異常検出(ad)は非常に重要である。 MTSデータの異常検出の鍵となるステップとして、様々な変数間の関係の学習が多くのアプローチで研究されている。 しかし、既存のアプローチのほとんどは変数間の不均一性、すなわち異なる種類の変数(連続的な数値変数、離散的な分類変数、ハイブリッド変数)は異なる異なるエッジ分布を持つ可能性がある。 本稿では,mtsのための不均質特徴ネットワーク(hfn)に基づく新しい半教師付き異常検出フレームワークを提案し,ラベルなし時系列データから異種構造情報を学習し,異常検出の精度を向上させるとともに,注意係数を用いて検出異常の解説を行う。 具体的には,センサ埋め込みによって生成された埋め込み類似度サブグラフとセンサ値によって生成された特徴値類似度サブグラフを組み合わせることで,変数間の豊富な異種相互情報をフル活用する時系列異種グラフを構築する。 そして、ノードとチャネルの注意を含む予測モデルを共同で最適化し、より良い時系列表現を得る。 このアプローチは、ヘテロジニアスグラフ構造学習(HGSL)と表現学習の最先端技術を融合させる。 実世界の応用から得られた4つのセンサ・データセット実験により,本手法がベースライン・アプローチよりも高精度に異常を検出することが示され,異常の迅速な位置決めの基礎となった。

Network or physical attacks on industrial equipment or computer systems may cause massive losses. Therefore, a quick and accurate anomaly detection (AD) based on monitoring data, especially the multivariate time-series (MTS) data, is of great significance. As the key step of anomaly detection for MTS data, learning the relations among different variables has been explored by many approaches. However, most of the existing approaches do not consider the heterogeneity between variables, that is, different types of variables (continuous numerical variables, discrete categorical variables or hybrid variables) may have different and distinctive edge distributions. In this paper, we propose a novel semi-supervised anomaly detection framework based on a heterogeneous feature network (HFN) for MTS, learning heterogeneous structure information from a mass of unlabeled time-series data to improve the accuracy of anomaly detection, and using attention coefficient to provide an explanation for the detected anomalies. Specifically, we first combine the embedding similarity subgraph generated by sensor embedding and feature value similarity subgraph generated by sensor values to construct a time-series heterogeneous graph, which fully utilizes the rich heterogeneous mutual information among variables. Then, a prediction model containing nodes and channel attentions is jointly optimized to obtain better time-series representations. This approach fuses the state-of-the-art technologies of heterogeneous graph structure learning (HGSL) and representation learning. The experiments on four sensor datasets from real-world applications demonstrate that our approach detects the anomalies more accurately than those baseline approaches, thus providing a basis for the rapid positioning of anomalies.
翻訳日:2022-11-02 13:33:22 公開日:2022-11-01
# DensePure: 対向ロバスト性への拡散モデル理解

DensePure: Understanding Diffusion Models towards Adversarial Robustness ( http://arxiv.org/abs/2211.00322v1 )

ライセンス: Link先を確認
Chaowei Xiao, Zhongzhu Chen, Kun Jin, Jiongxiao Wang, Weili Nie, Mingyan Liu, Anima Anandkumar, Bo Li, Dawn Song(参考訳) 拡散モデルは最近、雑音化のプロセスを通じて認定ロバスト性を改善するために採用されている。 しかし、なぜ拡散モデルが証明された堅牢性を改善することができるのかという理論的理解はいまだに欠けており、さらなる改善を妨げている。 本研究では,拡散モデルの基本特性を解析し,それらが証明された堅牢性を高める条件を確立することにより,このギャップを埋める。 この深い理解により,事前学習モデル(すなわち分類器)のロバスト性向上を目的とした,新しい手法を提案することができる。 逆の)入力が与えられると、デュークピュアは拡散モデルの逆プロセス(異なるランダムな種を含む)を介して複数のノイズを出し、複数の逆のサンプルを取得し、その後分類器に渡され、最終的に予測されるラベルの多数投票が行われる。 本設計は, 逆試料の条件分布の理論的解析により, 複数走行の復号化を図ったものである。 具体的には、クリーンサンプルのデータ密度が高い場合、拡散モデルにおける逆過程における条件密度も高いので、後者の条件分布からのサンプリングは、逆例を浄化し、対応するクリーンサンプルを高い確率で返却することができる。 条件分布の最高密度点を逆サンプルとして利用することにより,拡散モデルの逆過程下で与えられたインスタンスのロバスト領域を同定する。 このロバストな領域は複数の凸集合の結合であり、以前の作品で特定されたロバストな領域よりもはるかに大きい可能性がある。 実際には、DensePureは条件分布における高密度領域のラベルを近似して、認証された堅牢性を高めることができる。

Diffusion models have been recently employed to improve certified robustness through the process of denoising. However, the theoretical understanding of why diffusion models are able to improve the certified robustness is still lacking, preventing from further improvement. In this study, we close this gap by analyzing the fundamental properties of diffusion models and establishing the conditions under which they can enhance certified robustness. This deeper understanding allows us to propose a new method DensePure, designed to improve the certified robustness of a pretrained model (i.e. classifier). Given an (adversarial) input, DensePure consists of multiple runs of denoising via the reverse process of the diffusion model (with different random seeds) to get multiple reversed samples, which are then passed through the classifier, followed by majority voting of inferred labels to make the final prediction. This design of using multiple runs of denoising is informed by our theoretical analysis of the conditional distribution of the reversed sample. Specifically, when the data density of a clean sample is high, its conditional density under the reverse process in a diffusion model is also high; thus sampling from the latter conditional distribution can purify the adversarial example and return the corresponding clean sample with a high probability. By using the highest density point in the conditional distribution as the reversed sample, we identify the robust region of a given instance under the diffusion model's reverse process. We show that this robust region is a union of multiple convex sets, and is potentially much larger than the robust regions identified in previous works. In practice, DensePure can approximate the label of the high density region in the conditional distribution so that it can enhance certified robustness.
翻訳日:2022-11-02 13:32:54 公開日:2022-11-01
# 軌道予測における知識統合の事前情報

Informed Priors for Knowledge Integration in Trajectory Prediction ( http://arxiv.org/abs/2211.00348v1 )

ライセンス: Link先を確認
Christian Schlauch and Nadja Klein and Christian Wirth(参考訳) インフォームド機械学習は、事前知識を学習システムに統合することを可能にする。 これにより精度と堅牢性が向上し、データの必要性が軽減される。 しかし、既存の手法では、事前の知識と観察とのトレードオフを必要とせず、問題空間を直接減らすために使用できる、厳しい制約のある知識をしばしば想定している。 他のアプローチでは、特定のアーキテクチャ変更を事前知識の表現として使用し、適用性を制限する。 本稿では,連続学習に基づく情報機械学習手法を提案する。 これにより、任意の事前知識を複数のソースから統合することができ、特定のアーキテクチャを必要としない。 さらに,予測精度とロバスト性を向上させる確率的およびマルチモーダル予測を可能にする。 我々は、自律運転のための最先端の軌道予測器に適用することで、我々のアプローチを実証する。 このドメインは、堅牢で正確な予測を必要とする一方で、非常に多様な可能な環境と非常に稀なイベントの対象となるため、特に情報学習アプローチに依存している。 我々は、従来の設定で既に利用可能なデータのみを用いて、一般的なベンチマークデータセットでモデルを評価する。 本手法は,文献でよく用いられる非形式学習法とインフォームド学習法の両方に勝ることを示す。 さらに,従来のベースラインとの競合も可能で,半数の観察例を用いても可能であった。

Informed machine learning methods allow the integration of prior knowledge into learning systems. This can increase accuracy and robustness or reduce data needs. However, existing methods often assume hard constraining knowledge, that does not require to trade-off prior knowledge with observations, but can be used to directly reduce the problem space. Other approaches use specific, architectural changes as representation of prior knowledge, limiting applicability. We propose an informed machine learning method, based on continual learning. This allows the integration of arbitrary, prior knowledge, potentially from multiple sources, and does not require specific architectures. Furthermore, our approach enables probabilistic and multi-modal predictions, that can improve predictive accuracy and robustness. We exemplify our approach by applying it to a state-of-the-art trajectory predictor for autonomous driving. This domain is especially dependent on informed learning approaches, as it is subject to an overwhelming large variety of possible environments and very rare events, while requiring robust and accurate predictions. We evaluate our model on a commonly used benchmark dataset, only using data already available in a conventional setup. We show that our method outperforms both non-informed and informed learning methods, that are often used in the literature. Furthermore, we are able to compete with a conventional baseline, even using half as many observation examples.
翻訳日:2022-11-02 13:26:41 公開日:2022-11-01
# 半教師付き期待最大化について

On the Semi-supervised Expectation Maximization ( http://arxiv.org/abs/2211.00537v1 )

ライセンス: Link先を確認
Erixhen Sula and Lizhong Zheng(参考訳) 予測最大化(EM)アルゴリズムは、データが不完全である場合の最大推定を反復修正するために広く用いられている。 ラベル付きおよびラベルなしサンプルからモデルを学習するための半教師付きケースに焦点を当てる。 半教師付きケースにおける既存の作業は,収束保証よりも性能に重点を置いてきたが,ラベル付きサンプルの収束率への寄与に注目した。 本分析は, 指数族混合モデルにおいて, ラベル付き試料が収束率をいかに向上させるかを明らかにした。 この場合、ラベル付けされていないサンプルのみからなる人口EMに対して、人口EM(無制限データ付きEM)がグローバル収束の近傍で初期化されていると仮定する。 ラベル付きサンプルの解析は、ガウス混合モデルの収束率の包括的記述を提供する。 さらに, 2つのガウスの対称混合に対して, ラベル付き試料の発見を拡張し, 未ラベル試料を用いた集団EMの収束率の代替的証明を行う。

The Expectation Maximization (EM) algorithm is widely used as an iterative modification to maximum likelihood estimation when the data is incomplete. We focus on a semi-supervised case to learn the model from labeled and unlabeled samples. Existing work in the semi-supervised case has focused mainly on performance rather than convergence guarantee, however we focus on the contribution of the labeled samples to the convergence rate. The analysis clearly demonstrates how the labeled samples improve the convergence rate for the exponential family mixture model. In this case, we assume that the population EM (EM with unlimited data) is initialized within the neighborhood of global convergence for the population EM that consists solely of samples that have not been labeled. The analysis for the labeled samples provides a comprehensive description of the convergence rate for the Gaussian mixture model. In addition, we extend the findings for labeled samples and offer an alternative proof for the population EM's convergence rate with unlabeled samples for the symmetric mixture of two Gaussians.
翻訳日:2022-11-02 13:26:21 公開日:2022-11-01
# ペアワイズ平均(ランダム化)の中央値について

On Medians of (Randomized) Pairwise Means ( http://arxiv.org/abs/2211.00603v1 )

ライセンス: Link先を確認
Pierre Laforgue, Stephan Cl\'emen\c{c}on, Patrice Bertail(参考訳) Lugosi & Mendelson (2016)で最近導入されたトーナメント手順は、少なくとも理論的観点からは、機械学習における経験的リスク最小化の原則まで、魅力的な代替手段を提供する。 Median-of-Means (MoM)による統計的学習は、基本的に、トレーニングデータを同じ大きさのブロックに分割し、各データブロック上の候補決定ルールのペアごとの統計性能を比較することである。 非パラメトリック回帰(nonparametric regression)の文脈では、すべてのデュエルを勝ち取った関数は、最小限の仮定の下で平均二乗誤差を上回り、ロバスト性特性を示すことが示されている。 本稿では,このアプローチを拡張し,他の学習問題に対処し,特に,一対のランキングやクラスタリング,メートル法学習の場合のように,一対の観察よりもむしろ一対の観察に対する期待の形をとることを目的としている。 正確には、momが達成した境界は、単純なセグメンテーションではなく、置換スキームなしで独立したサンプリングによって構築されたブロックによって本質的に保存される。 これらの結果は、リスクがペアの損失関数と関連し、その経験的損失関数が$U$-statisticの形式である状況にまで拡張される。 提案する学習/推定手法の性能を保証する理論的結果以外にも、いくつかの数値実験は、実際にその妥当性の実証的な証拠を提供する。

Tournament procedures, recently introduced in Lugosi & Mendelson (2016), offer an appealing alternative, from a theoretical perspective at least, to the principle of Empirical Risk Minimization in machine learning. Statistical learning by Median-of-Means (MoM) basically consists in segmenting the training data into blocks of equal size and comparing the statistical performance of every pair of candidate decision rules on each data block: that with highest performance on the majority of the blocks is declared as the winner. In the context of nonparametric regression, functions having won all their duels have been shown to outperform empirical risk minimizers w.r.t. the mean squared error under minimal assumptions, while exhibiting robustness properties. It is the purpose of this paper to extend this approach in order to address other learning problems, in particular for which the performance criterion takes the form of an expectation over pairs of observations rather than over one single observation, as may be the case in pairwise ranking, clustering or metric learning. Precisely, it is proved here that the bounds achieved by MoM are essentially conserved when the blocks are built by means of independent sampling without replacement schemes instead of a simple segmentation. These results are next extended to situations where the risk is related to a pairwise loss function and its empirical counterpart is of the form of a $U$-statistic. Beyond theoretical results guaranteeing the performance of the learning/estimation methods proposed, some numerical experiments provide empirical evidence of their relevance in practice.
翻訳日:2022-11-02 13:25:54 公開日:2022-11-01
# HDNet:ミリ波レーダを用いた歩行認識のための階層的動的ネットワーク

HDNet: Hierarchical Dynamic Network for Gait Recognition using Millimeter-Wave Radar ( http://arxiv.org/abs/2211.00312v1 )

ライセンス: Link先を確認
Yanyan Huang, Yong Wang, Kun Shi, Chaojie Gu, Yu Fu, Cheng Zhuo, Zhiguo Shi(参考訳) 歩行認識は様々な応用に広く用いられている。 現在最も一般的なアプローチは、コンピュータビジョン技術の進歩により、RGB画像から人間の歩行を認識することである。 それでもrgbカメラの認識能力は粗い状況では低下し、視覚監視はプライバシー侵害を引き起こす可能性がある。 ミリ波(mmwave)レーダのロバスト性や非侵襲性により、近年はレーダベースの歩行認識が注目を集めている。 本研究では,mmWaveレーダを用いた歩行認識のための階層型動的ネットワーク(HDNet)を提案する。 よりダイナミックな情報を探るため,新しい点雲記述子としてポイントフローを提案する。 また,動的フレームサンプリングモジュールを考案し,性能を損なうことなく計算効率を向上させる。 提案手法の優位性を証明するため,2つの公開ミリ波レーダに基づく歩行認識データセットについて広範な実験を行い,本モデルが既存の最先端手法よりも優れていることを示す。

Gait recognition is widely used in diversified practical applications. Currently, the most prevalent approach is to recognize human gait from RGB images, owing to the progress of computer vision technologies. Nevertheless, the perception capability of RGB cameras deteriorates in rough circumstances, and visual surveillance may cause privacy invasion. Due to the robustness and non-invasive feature of millimeter wave (mmWave) radar, radar-based gait recognition has attracted increasing attention in recent years. In this research, we propose a Hierarchical Dynamic Network (HDNet) for gait recognition using mmWave radar. In order to explore more dynamic information, we propose point flow as a novel point clouds descriptor. We also devise a dynamic frame sampling module to promote the efficiency of computation without deteriorating performance noticeably. To prove the superiority of our methods, we perform extensive experiments on two public mmWave radar-based gait recognition datasets, and the results demonstrate that our model is superior to existing state-of-the-art methods.
翻訳日:2022-11-02 13:24:30 公開日:2022-11-01
# 敵の敵は私の友人:敵の訓練を改善するために逆敵を探索する

The Enemy of My Enemy is My Friend: Exploring Inverse Adversaries for Improving Adversarial Training ( http://arxiv.org/abs/2211.00525v1 )

ライセンス: Link先を確認
Junhao Dong, Seyed-Mohsen Moosavi-Dezfooli, Jianhuang Lai, Xiaohua Xie(参考訳) 現在のディープラーニング技術は、様々なコンピュータビジョンタスクにおいて優れたパフォーマンスをもたらすが、敵の例には弱い。 敵の訓練とその変種は、敵の例に対抗して最も効果的なアプローチであることが示されている。 これらの方法は通常、逆数に対する出力確率と対応する自然例との差を正則化する。 しかし、モデルが自然な例を誤って分類した場合、否定的な影響をもたらす可能性がある。 この問題を回避するため,本モデルでは,その「逆逆逆」対応例に対して,類似した出力を生成することを奨励する,新たな敵訓練手法を提案する。 これらのサンプルは自然サンプルの近傍の確率を最大化するために生成される。 様々な視覚データセットとアーキテクチャに関する大規模な実験により、我々のトレーニング手法は、最先端のロバスト性および自然な精度を達成することを示した。 さらに,逆逆対数例の普遍バージョンを用いて,計算コストの低い単段階対数トレーニング手法の性能を向上させる。

Although current deep learning techniques have yielded superior performance on various computer vision tasks, yet they are still vulnerable to adversarial examples. Adversarial training and its variants have been shown to be the most effective approaches to defend against adversarial examples. These methods usually regularize the difference between output probabilities for an adversarial and its corresponding natural example. However, it may have a negative impact if the model misclassifies a natural example. To circumvent this issue, we propose a novel adversarial training scheme that encourages the model to produce similar outputs for an adversarial example and its ``inverse adversarial'' counterpart. These samples are generated to maximize the likelihood in the neighborhood of natural examples. Extensive experiments on various vision datasets and architectures demonstrate that our training method achieves state-of-the-art robustness as well as natural accuracy. Furthermore, using a universal version of inverse adversarial examples, we improve the performance of single-step adversarial training techniques at a low computational cost.
翻訳日:2022-11-02 13:24:13 公開日:2022-11-01
# 韻律的特徴と言語的特徴を用いた内容認識型ニューラルテキスト音声MOS予測の検討

Investigating Content-Aware Neural Text-To-Speech MOS Prediction Using Prosodic and Linguistic Features ( http://arxiv.org/abs/2211.00342v1 )

ライセンス: Link先を確認
Alexandra Vioni, Georgia Maniati, Nikolaos Ellinas, June Sig Sung, Inchul Hwang, Aimilios Chalamandaris, Pirros Tsiakoulis(参考訳) MOS予測ニューラルモデルに基づく自動合成音声評価の最先端手法について検討した。 このようなMOS予測モデルには、スペクトル特徴を入力として使用するMOSNetと、音声信号を直接入力として使用する事前学習モデルに依存するSSL-MOSが含まれる。 現代の高品質のニューラルttsシステムでは、音声コンテンツに対する韻律的適切性は、音声自然性にとって決定的な要因である。 そこで本研究では,MOS予測システムに付加的な入力として韻律的・言語的特徴を含め,予測結果への影響を評価することを提案する。 音素レベルF0と持続時間の特徴を韻律入力とみなし、タコトロンエンコーダ出力、POSタグ、BERT埋め込みを高レベル言語入力とみなす。 すべてのMOS予測システムは、クラウドソースされた自然性MOS評価を備えた、TSSのみのニューラルネットワークであるSOMOSでトレーニングされている。 提案手法は,発話レベルおよびシステムレベルの予測において,予測されたMOSスコアと基礎的事実との相関性を改善することにより,MOS予測タスクにおいて有益であることを示す。

Current state-of-the-art methods for automatic synthetic speech evaluation are based on MOS prediction neural models. Such MOS prediction models include MOSNet and LDNet that use spectral features as input, and SSL-MOS that relies on a pretrained self-supervised learning model that directly uses the speech signal as input. In modern high-quality neural TTS systems, prosodic appropriateness with regard to the spoken content is a decisive factor for speech naturalness. For this reason, we propose to include prosodic and linguistic features as additional inputs in MOS prediction systems, and evaluate their impact on the prediction outcome. We consider phoneme level F0 and duration features as prosodic inputs, as well as Tacotron encoder outputs, POS tags and BERT embeddings as higher-level linguistic inputs. All MOS prediction systems are trained on SOMOS, a neural TTS-only dataset with crowdsourced naturalness MOS evaluations. Results show that the proposed additional features are beneficial in the MOS prediction task, by improving the predicted MOS scores' correlation with the ground truths, both at utterance-level and system-level predictions.
翻訳日:2022-11-02 13:23:56 公開日:2022-11-01
# ゴール条件強化学習の抽象化としての離散的因子表現

Discrete Factorial Representations as an Abstraction for Goal Conditioned Reinforcement Learning ( http://arxiv.org/abs/2211.00247v1 )

ライセンス: Link先を確認
Riashat Islam, Hongyu Zang, Anirudh Goyal, Alex Lamb, Kenji Kawaguchi, Xin Li, Romain Laroche, Yoshua Bengio, Remi Tachet Des Combes(参考訳) 目標条件強化学習(RL)は、複数のタスクを解決し、多様な目的を達成する訓練エージェントにとって有望な方向である。 これらの目標を、トレーニング中に確実に目標に到達できると同時に、評価中に新しい目標に一般化できるような方法で、どうやって \textit{specify} と \textit{ground} にするかは、研究のオープン領域のままである。 雑音と高次元感覚入力の空間における目標を定義することは、目標条件付きエージェントの訓練や、新しい目標への一般化に挑戦する。 そこで我々は,DGRLと呼ぶ手法を用いて,目標の因子的表現を学習し,離散化ボトルネックによる結果の表現を粗い目標仕様のために処理することを提案する。 本研究では,モーズ環境から複雑なロボットナビゲーションや操作に至るまでのタスクにおいて,この手法を実験的に評価することにより,目標条件付きRLセットアップの性能を向上させることができることを示す。 さらに, 分散目標に対する期待帰納率を低く抑える定理を証明し, 表現的組合せ構造による目標の特定を可能とした。

Goal-conditioned reinforcement learning (RL) is a promising direction for training agents that are capable of solving multiple tasks and reach a diverse set of objectives. How to \textit{specify} and \textit{ground} these goals in such a way that we can both reliably reach goals during training as well as generalize to new goals during evaluation remains an open area of research. Defining goals in the space of noisy and high-dimensional sensory inputs poses a challenge for training goal-conditioned agents, or even for generalization to novel goals. We propose to address this by learning factorial representations of goals and processing the resulting representation via a discretization bottleneck, for coarser goal specification, through an approach we call DGRL. We show that applying a discretizing bottleneck can improve performance in goal-conditioned RL setups, by experimentally evaluating this method on tasks ranging from maze environments to complex robotic navigation and manipulation. Additionally, we prove a theorem lower-bounding the expected return on out-of-distribution goals, while still allowing for specifying goals with expressive combinatorial structure.
翻訳日:2022-11-02 13:17:39 公開日:2022-11-01
# 密度ギャップに基づく正規化による変分オートエンコーダの改善

Improving Variational Autoencoders with Density Gap-based Regularization ( http://arxiv.org/abs/2211.00321v1 )

ライセンス: Link先を確認
Jianfei Zhang, Jun Bai, Chenghua Lin, Yanmeng Wang, Wenge Rong(参考訳) variational autoencoder(vaes)は、潜在表現学習と潜在指向生成のためのnlpの強力な教師なし学習フレームワークの1つである。 VAEの古典的な最適化目標は、生成の条件付き可能性と正規化のための負のクルバック・リーブラー(KL)分岐からなるエビデンス下界(ELBo)を最大化することである。 実際には、ELBoの最適化は、全ての試料の後方分布を同じ分解された局所最適値、すなわち後崩壊またはKL消滅に収束させる。 VAEにおける後部崩壊を防止する効果的な方法が提案されているが、本質的には後部崩壊と穴問題のトレードオフ、すなわち集合後部分布と先行分布とのミスマッチを生じる。 そこで本研究では, 集約後分布と先行分布との確率的密度ギャップに基づく新たな正規化により, 両問題に対処する新たな学習目標を提案する。 言語モデリング,潜時空間可視化,補間実験を通じて,提案手法は両問題を効果的に解き,既存の手法よりも遅延方向生成の方が優れていることを示す。 我々の知る限りでは、私たちは初めて穴の問題と後方崩壊を共同で解決した。

Variational autoencoders (VAEs) are one of the powerful unsupervised learning frameworks in NLP for latent representation learning and latent-directed generation. The classic optimization goal of VAEs is to maximize the Evidence Lower Bound (ELBo), which consists of a conditional likelihood for generation and a negative Kullback-Leibler (KL) divergence for regularization. In practice, optimizing ELBo often leads the posterior distribution of all samples converge to the same degenerated local optimum, namely posterior collapse or KL vanishing. There are effective ways proposed to prevent posterior collapse in VAEs, but we observe that they in essence make trade-offs between posterior collapse and hole problem, i.e., mismatch between the aggregated posterior distribution and the prior distribution. To this end, we introduce new training objectives to tackle both two problems through a novel regularization based on the probabilistic density gap between the aggregated posterior distribution and the prior distribution. Through experiments on language modeling, latent space visualization and interpolation, we show that our proposed method can solve both problems effectively and thus outperforms the existing methods in latent-directed generation. To the best of our knowledge, we are the first to jointly solve the hole problem and the posterior collapse.
翻訳日:2022-11-02 13:17:17 公開日:2022-11-01
# 最適輸送を用いた教師なし外乱検出のためのメタラーニング

Meta-Learning for Unsupervised Outlier Detection with Optimal Transport ( http://arxiv.org/abs/2211.00372v1 )

ライセンス: Link先を確認
Prabhant Singh and Joaquin Vanschoren(参考訳) 自動機械学習は、教師なし分類と回帰の分野で広く研究され、採用されてきたが、教師なし設定の進歩は限られている。 そこで本稿では,従来のデータセットからのメタラーニングに基づく異常検出の自動化手法を提案する。 我々の前提は, 最適異常検出手法の選択はデータ分布の固有特性に依存する, というものである。 特に最適なトランスポートを活用して、最も類似した分布を持つデータセットを見つけ、そのデータ分散に最も適することが証明された外れ値検出技術を適用します。 我々は,提案手法のロバスト性を評価し,教師なし異常検出において,その手法がアートメソッドの状態を上回っていることを確認した。 このアプローチは、他の教師なし設定を自動化するために簡単に一般化できる。

Automated machine learning has been widely researched and adopted in the field of supervised classification and regression, but progress in unsupervised settings has been limited. We propose a novel approach to automate outlier detection based on meta-learning from previous datasets with outliers. Our premise is that the selection of the optimal outlier detection technique depends on the inherent properties of the data distribution. We leverage optimal transport in particular, to find the dataset with the most similar underlying distribution, and then apply the outlier detection techniques that proved to work best for that data distribution. We evaluate the robustness of our approach and find that it outperforms the state of the art methods in unsupervised outlier detection. This approach can also be easily generalized to automate other unsupervised settings.
翻訳日:2022-11-02 13:16:56 公開日:2022-11-01
# 自動不均衡学習

Automated Imbalanced Learning ( http://arxiv.org/abs/2211.00376v1 )

ライセンス: Link先を確認
Prabhant Singh and Joaquin Vanschoren(参考訳) 自動機械学習は、機械学習モデル開発の時間を要する反復的なタスクを自動化することに非常に成功しています。 しかし、現在の手法はデータが不均衡な場合に苦労する。 多くの現実世界のデータセットは自然に不均衡であり、この問題に対する不適切な処理は、非常に役に立たないモデルにつながる可能性があるため、この問題は慎重に扱う必要がある。 本稿ではまず,ラベルの不均衡によって異なるAutoML手法がどう影響するかを,新しいベンチマークで検討する。 第2に,不均衡に対処し,既存のautomlフレームワークに統合するための戦略を提案する。 最後に,これらの戦略の影響を評価し,AutoMLシステムへの導入がラベルの不均衡に対するロバスト性を大幅に向上させることを示す。

Automated Machine Learning has grown very successful in automating the time-consuming, iterative tasks of machine learning model development. However, current methods struggle when the data is imbalanced. Since many real-world datasets are naturally imbalanced, and improper handling of this issue can lead to quite useless models, this issue should be handled carefully. This paper first introduces a new benchmark to study how different AutoML methods are affected by label imbalance. Second, we propose strategies to better deal with imbalance and integrate them into an existing AutoML framework. Finally, we present a systematic study which evaluates the impact of these strategies and find that their inclusion in AutoML systems significantly increases their robustness against label imbalance.
翻訳日:2022-11-02 13:16:43 公開日:2022-11-01
# Dungeons and Data: 大規模NetHackデータセット

Dungeons and Data: A Large-Scale NetHack Dataset ( http://arxiv.org/abs/2211.00539v1 )

ライセンス: Link先を確認
Eric Hambro, Roberta Raileanu, Danielle Rothermel, Vegard Mella, Tim Rockt\"aschel, Heinrich K\"uttler, Naila Murray(参考訳) Go、StarCraft、DOTAといったシーケンシャルな意思決定問題を解決するエージェントの開発における最近のブレークスルーは、シミュレーション環境と大規模データセットの両方に依存している。 しかし、この研究の進展は、オープンソースデータセットの不足と、それらを扱うための計算コストによって妨げられている。 本稿では,NetHack Learning Dataset(NLD)について紹介する。NetHackの人気のゲームから,大規模かつ高度にスケール可能なトラジェクトリデータセットであるNetHack Learning Dataset(NLD)について述べる。 NLDは3つの部分から構成される: 2009年から2020年にかけてNAOのパブリックNetHackサーバで収集された150万件の人間の軌道からの100億件の状態遷移、NetHack Challenge 2021の象徴的なボット勝者から収集された10万件の軌道からの30億件の国家行動スコアの遷移、そして、ユーザがその軌道のコレクションを高度に圧縮された形式で記録、読み込み、ストリームするためのコード。 我々は,オンラインおよびオフラインのrlを含む既存のアルゴリズムを評価し,実演から学ぶとともに,大規模データセットを十分に活用してシーケンシャルな意思決定タスクに挑戦するためには,重要な研究成果が必要であることを示した。

Recent breakthroughs in the development of agents to solve challenging sequential decision making problems such as Go, StarCraft, or DOTA, have relied on both simulated environments and large-scale datasets. However, progress on this research has been hindered by the scarcity of open-sourced datasets and the prohibitive computational cost to work with them. Here we present the NetHack Learning Dataset (NLD), a large and highly-scalable dataset of trajectories from the popular game of NetHack, which is both extremely challenging for current methods and very fast to run. NLD consists of three parts: 10 billion state transitions from 1.5 million human trajectories collected on the NAO public NetHack server from 2009 to 2020; 3 billion state-action-score transitions from 100,000 trajectories collected from the symbolic bot winner of the NetHack Challenge 2021; and, accompanying code for users to record, load and stream any collection of such trajectories in a highly compressed form. We evaluate a wide range of existing algorithms including online and offline RL, as well as learning from demonstrations, showing that significant research advances are needed to fully leverage large-scale datasets for challenging sequential decision making tasks.
翻訳日:2022-11-02 13:16:30 公開日:2022-11-01
# 離散的関節分布モデリングのためのエネルギーベースGFlowNetによる一貫性トレーニング

Consistent Training via Energy-Based GFlowNets for Modeling Discrete Joint Distributions ( http://arxiv.org/abs/2211.00568v1 )

ライセンス: Link先を確認
Chanakya Ekbote, Moksh Jain, Payel Das, Yoshua Bengio(参考訳) 生成フローネットワーク(gflownets)は、さまざまな離散オブジェクトを生成するための大幅なパフォーマンス改善を実証した。 $x$ 与えられた報酬関数 $r(x)$ は、オブジェクトの有用性を示し、教師付き学習によって、gflownetから独立してトレーニングされる。 これは、$R$のトレーニングやGFlowNetのトレーニングにおけるインダクティブ最適化バイアスの間に \textit{incompatibility} をもたらす可能性があり、より悪いサンプルと分布の変化への適応が遅くなる可能性がある、という仮説を立てる。 本研究は、GFlowNetsを用いたエネルギーベースモデルの共同学習と、それを拡張して、ペプチド配列や抗菌活性など、JEBGFNs(Joint Energy-based GFlowNets)と呼ばれる複数の変数のジョイントを学習するものである。 GFlowNetの報酬として使用されるエネルギーベースモデルの合同学習は、報酬関数$R$とGFlowNetのサンプルが共同で訓練されているため、非互換性の問題を解決することができる。 この共同訓練や共同エネルギーベースの定式化は抗菌性ペプチド生成の大幅な改善をもたらすことが判明した。 高い抗生物質活性に対する進化的あるいは人工的な選択からトレーニングシーケンスが生まれたため、おそらく抗生物質活性に関する情報を明らかにする配列の分布にいくつかの構造が存在する。 この結果,共同生成モデルと純粋識別モデルとの利点がある。 また,抗微生物ペプチド発見のための能動的学習環境としてJEBGFNを評価した。

Generative Flow Networks (GFlowNets) have demonstrated significant performance improvements for generating diverse discrete objects $x$ given a reward function $R(x)$, indicating the utility of the object and trained independently from the GFlowNet by supervised learning to predict a desirable property $y$ given $x$. We hypothesize that this can lead to \textit{incompatibility} between the inductive optimization biases in training $R$ and in training the GFlowNet, potentially leading to worse samples and slow adaptation to changes in the distribution. In this work, we build upon recent work on jointly learning energy-based models with GFlowNets and extend it to learn the joint over multiple variables, which we call Joint Energy-Based GFlowNets (JEBGFNs), such as peptide sequences and their antimicrobial activity. Joint learning of the energy-based model, used as a reward for the GFlowNet, can resolve the issues of incompatibility since both the reward function $R$ and the GFlowNet sampler are trained jointly. We find that this joint training or joint energy-based formulation leads to significant improvements in generating anti-microbial peptides. As the training sequences arose out of evolutionary or artificial selection for high antibiotic activity, there is presumably some structure in the distribution of sequences that reveals information about the antibiotic activity. This results in an advantage to modeling their joint generatively vs. pure discriminative modeling. We also evaluate JEBGFN in an active learning setting for discovering anti-microbial peptides.
翻訳日:2022-11-02 13:16:01 公開日:2022-11-01
# 効率的な体験リプレイのためのイベントテーブル

Event Tables for Efficient Experience Replay ( http://arxiv.org/abs/2211.00576v1 )

ライセンス: Link先を確認
Varun Kompella, Thomas Walsh, Samuel Barrett, Peter Wurman, Peter Stone(参考訳) experience replay(er)は、多くの深層強化学習(rl)システムの重要なコンポーネントである。 しかし、ERバッファからの均一サンプリングは、緩やかな収束と不安定な漸近的な振る舞いを引き起こす可能性がある。 本稿では,erバッファをイベントテーブルに分割するイベントテーブル(sset)からの階層化サンプリングについて述べる。 従来のモノリシックバッファアプローチに対する理論的優位性を証明し、SSETと既存の優先サンプリング戦略を組み合わせることにより、学習速度と安定性をさらに向上する。 MiniGridドメイン、ベンチマークRL環境、高忠実度カーレースシミュレータの試行の結果は、既存のERバッファサンプリング手法よりもSSETの利点と汎用性を実証している。

Experience replay (ER) is a crucial component of many deep reinforcement learning (RL) systems. However, uniform sampling from an ER buffer can lead to slow convergence and unstable asymptotic behaviors. This paper introduces Stratified Sampling from Event Tables (SSET), which partitions an ER buffer into Event Tables, each capturing important subsequences of optimal behavior. We prove a theoretical advantage over the traditional monolithic buffer approach and combine SSET with an existing prioritized sampling strategy to further improve learning speed and stability. Empirical results in challenging MiniGrid domains, benchmark RL environments, and a high-fidelity car racing simulator demonstrate the advantages and versatility of SSET over existing ER buffer sampling approaches.
翻訳日:2022-11-02 13:15:37 公開日:2022-11-01
# スパース近似の観点からのバッチアクティブ学習

Batch Active Learning from the Perspective of Sparse Approximation ( http://arxiv.org/abs/2211.00246v1 )

ライセンス: Link先を確認
Maohao Shen, Bowen Jiang, Jacky Yibo Zhang, Oluwasanmi Koyejo(参考訳) アクティブラーニングは、機械学習エージェントと人間のアノテーション間のインタラクションを活用することで、効率的なモデルトレーニングを可能にする。 スパース近似の観点からバッチアクティブラーニングを定式化する新しいフレームワークを提案し,提案する。 アクティブラーニング手法は,ラベルのないデータプールから,対応するトレーニング損失関数が全データプールに近似するように,有用な部分集合を見つけることを目的としている。 本手法は,大規模アプリケーションにおける不確実性と表現のバランスを明示的に保ち,欲望あるいは近位反復型ハードしきい値アルゴリズムによって解決できる不連続最適化問題である。 提案手法はベイジアンニューラルネットワークと非ベイジアンニューラルネットワークの両方を含む様々な設定に適応できる。 数値実験により,計算複雑性の低い異なる異なる環境における競争性能が得られた。

Active learning enables efficient model training by leveraging interactions between machine learning agents and human annotators. We study and propose a novel framework that formulates batch active learning from the sparse approximation's perspective. Our active learning method aims to find an informative subset from the unlabeled data pool such that the corresponding training loss function approximates its full data pool counterpart. We realize the framework as sparsity-constrained discontinuous optimization problems, which explicitly balance uncertainty and representation for large-scale applications and could be solved by greedy or proximal iterative hard thresholding algorithms. The proposed method can adapt to various settings, including both Bayesian and non-Bayesian neural networks. Numerical experiments show that our work achieves competitive performance across different settings with lower computational complexity.
翻訳日:2022-11-02 13:14:51 公開日:2022-11-01
# フラットスーパービジョンからネステッドエンティティを認識する:新しいNERサブタスク、実現可能性と課題

Recognizing Nested Entities from Flat Supervision: A New NER Subtask, Feasibility and Challenges ( http://arxiv.org/abs/2211.00301v1 )

ライセンス: Link先を確認
Enwei Zhu, Yiyang Liu, Ming Jin, Jinpeng Li(参考訳) 最近の多くの名前付きエンティティ認識(NER)研究は、平らなNERを重複しない仮定で批判し、ネストされたNERの調査に切り替えている。 しかし、既存のネストされたNERモデルは、ネストされたエンティティをアノテートしたトレーニングデータに大きく依存している。 本研究では,フラットなエンティティのみをアノテートしたデータに対して,ネストされたエンティティを認識可能なトレーニングされたモデルを求める場合,現実的なアプリケーションシナリオに対応する,新しいサブタスクであるネスト・トゥ・フラットなNERを提案する。 この課題に対処するために、スパンベースのモデルをトレーニングし、ラベル付きエンティティ内にネストされたスパンを意図的に無視する。 トレーニングデータからネストされたエンティティを除去すると,ACE 2004,ACE 2005,GENIAの各エンティティ内のスパンのサブセットに対して54.8%,54.2%,41.1%のスコアが得られた。 このことは、我々のアプローチの有効性とタスクの実現可能性を示している。 さらに、フラットエンティティにおけるモデルの性能は、完全に影響を受けない。 我々はさらにCoNLL 2003のテストセットにネストされたエンティティを手動でアノテートし、NERベンチマークを作成する。 分析の結果、主な課題はフラットエンティティとネストエンティティの間のデータとアノテーションの不整合にあることがわかった。

Many recent named entity recognition (NER) studies criticize flat NER for its non-overlapping assumption, and switch to investigating nested NER. However, existing nested NER models heavily rely on training data annotated with nested entities, while labeling such data is costly. This study proposes a new subtask, nested-from-flat NER, which corresponds to a realistic application scenario: given data annotated with flat entities only, one may still desire the trained model capable of recognizing nested entities. To address this task, we train span-based models and deliberately ignore the spans nested inside labeled entities, since these spans are possibly unlabeled entities. With nested entities removed from the training data, our model achieves 54.8%, 54.2% and 41.1% F1 scores on the subset of spans within entities on ACE 2004, ACE 2005 and GENIA, respectively. This suggests the effectiveness of our approach and the feasibility of the task. In addition, the model's performance on flat entities is entirely unaffected. We further manually annotate the nested entities in the test set of CoNLL 2003, creating a nested-from-flat NER benchmark. Analysis results show that the main challenges stem from the data and annotation inconsistencies between the flat and nested entities.
翻訳日:2022-11-02 13:08:13 公開日:2022-11-01
# テキスト分類のための反事実説明の任意の時間生成

Anytime Generation of Counterfactual Explanations for Text Classification ( http://arxiv.org/abs/2211.00369v1 )

ライセンス: Link先を確認
Daniel Gilo and Shaul Markovitch(参考訳) 多くの機械学習アプリケーションにおいて、ユーザーは分類器の推薦や予測の背後にある推論を理解することが重要である。 しかし、学習されたモデルは、しばしば人間によって理解されるには複雑すぎる。 社会科学の研究は、人間が代替手段よりも反実的な説明を好むことを示している。 本稿では,テキスト領域における反実的説明を生成するための一般的な枠組みを提案する。 私たちのフレームワークは、モデル非依存、表現非依存、ドメイン非依存、そしていつでもです。 我々は,初期状態が分類されたテキストであり,目標状態が補完クラス内のテキストである空間における探索問題としてタスクをモデル化する。 オペレータはその部分を置き換えることでテキストを変換する。 我々のフレームワークはドメインに依存しない演算子を含むが、特殊な演算子を通してドメイン固有の知識を利用することもできる。 探索アルゴリズムは、元の分類対象から最小の単語レベルLevenshtein距離を持つ補完クラスからテキストを見つけようとする。

In many machine learning applications, it is important for the user to understand the reasoning behind the recommendation or prediction of the classifiers. The learned models, however, are often too complicated to be understood by a human. Research from the social sciences indicates that humans prefer counterfactual explanations over alternatives. In this paper, we present a general framework for generating counterfactual explanations in the textual domain. Our framework is model-agnostic, representation-agnostic, domain-agnostic, and anytime. We model the task as a search problem in a space where the initial state is the classified text, and the goal state is a text in the complementary class. The operators transform a text by replacing parts of it. Our framework includes domain-independent operators, but can also exploit domain-specific knowledge through specialized operators. The search algorithm attempts to find a text from the complementary class with minimal word-level Levenshtein distance from the original classified object.
翻訳日:2022-11-02 13:07:46 公開日:2022-11-01
# 大規模言語モデルファインチューニングにおける文脈内学習能力の維持

Preserving In-Context Learning ability in Large Language Model Fine-tuning ( http://arxiv.org/abs/2211.00635v1 )

ライセンス: Link先を確認
Yihan Wang, Si Si, Daliang Li, Michal Lukasik, Felix Yu, Cho-Jui Hsieh, Inderjit S Dhillon, Sanjiv Kumar(参考訳) 事前訓練された大規模言語モデル(LLM)は、モデルパラメータを変更することなく、少数のショット学習が可能なコンテキスト内学習者である。 しかし、私たちが示すように、特定のタスクに対するLLMの微調整は、一般的にコンテキスト内の能力を損なう。 この損失の重要な原因は、モデルが微調整されたタスクの形式に過度に適合し、このフォーマット以上の出力ができないフォーマットの特殊化である。 さらに、ファインチューニングの開始時にフォーマットの特殊化が発生することを示す。 この問題を解決するために,事前学習モデルのコンテキスト内能力を保持するシンプルな2段階ファインチューニングフレームワークであるModel Tuning (ProMoT) を用いた Prompt Tuning を提案する。 ProMoTはまず、微調整対象タスクのソフトプロンプトを訓練し、その後、このソフトプロンプトを付けたモデル自体を微調整する。 ProMoTはタスク固有のフォーマットをソフトプロンプトにオフロードする。 自然言語推論(NLI)と英仏翻訳にProMoTを用いたmT5 XXLを微調整し、8つの異なるNLPタスクで得られたモデルの文脈内能力を評価する。 ProMoTは、バニラの微調整に比べて微調整されたタスクで同様のパフォーマンスを実現するが、ボード全体のコンテキスト内学習性能は大幅に低下する。 より重要なことに、promotは、nliバイナリ分類タスクの微調整など、異なるフォーマットのタスクにおいて顕著な一般化能力を示しており、モデルのコンテキスト内における要約能力(事前訓練されたモデルと比較して+0.53 rouge-2スコア)を改善し、promotは、小さくて高品質なデータセットでllmにグラウンド化や推論といった汎用的な機能を構築する有望な方法である。 シーケンシャルあるいはマルチタスクトレーニングに拡張すると、promotはドメイン外の一般化パフォーマンスをさらに向上させることができる。

Pretrained large language models (LLMs) are strong in-context learners that are able to perform few-shot learning without changing model parameters. However, as we show, fine-tuning an LLM on any specific task generally destroys its in-context ability. We discover an important cause of this loss, format specialization, where the model overfits to the format of the fine-tuned task and is unable to output anything beyond this format. We further show that format specialization happens at the beginning of fine-tuning. To solve this problem, we propose Prompt Tuning with MOdel Tuning (ProMoT), a simple yet effective two-stage fine-tuning framework that preserves in-context abilities of the pretrained model. ProMoT first trains a soft prompt for the fine-tuning target task, and then fine-tunes the model itself with this soft prompt attached. ProMoT offloads task-specific formats into the soft prompt that can be removed when doing other in-context tasks. We fine-tune mT5 XXL with ProMoT on natural language inference (NLI) and English-French translation and evaluate the in-context abilities of the resulting models on 8 different NLP tasks. ProMoT achieves similar performance on the fine-tuned tasks compared with vanilla fine-tuning, but with much less reduction of in-context learning performances across the board. More importantly, ProMoT shows remarkable generalization ability on tasks that have different formats, e.g. fine-tuning on a NLI binary classification task improves the model's in-context ability to do summarization (+0.53 Rouge-2 score compared to the pretrained model), making ProMoT a promising method to build general purpose capabilities such as grounding and reasoning into LLMs with small but high quality datasets. When extended to sequential or multi-task training, ProMoT can achieve even better out-of-domain generalization performance.
翻訳日:2022-11-02 13:07:36 公開日:2022-11-01
# なぜスピーチを嫌うのか? 説明可能なヘイト音声検出のためのマスケラゲール予測

Why Is It Hate Speech? Masked Rationale Prediction for Explainable Hate Speech Detection ( http://arxiv.org/abs/2211.00243v1 )

ライセンス: Link先を確認
Jiyun Kim, Byounghan Lee, Kyung-Ah Sohn(参考訳) ヘイトスピーチ検出モデルでは,検出性能のバイアスと説明可能性に加えて,二つの重要な側面を考慮すべきである。 ヘイトスピーチは、特定の単語の存在だけでは特定できない:モデルは人間のように推論でき、説明できる。 この2つの側面に関する性能を改善するために,中間課題としてMasked Rationale Prediction (MRP)を提案する。 MRP(英語: MRP)は、人間の判断の根拠である文のマスクされた人間の有理数-スニペットを予測するタスクである。 モデルがMDPの合理性に基づいて推論能力を学ぶと、バイアスや説明可能性の観点からヘイトスピーチ検出を頑健に行う。 提案手法は,様々な指標の最先端性能を実現し,ヘイトスピーチ検出の有効性を実証する。

In a hate speech detection model, we should consider two critical aspects in addition to detection performance-bias and explainability. Hate speech cannot be identified based solely on the presence of specific words: the model should be able to reason like humans and be explainable. To improve the performance concerning the two aspects, we propose Masked Rationale Prediction (MRP) as an intermediate task. MRP is a task to predict the masked human rationales-snippets of a sentence that are grounds for human judgment-by referring to surrounding tokens combined with their unmasked rationales. As the model learns its reasoning ability based on rationales by MRP, it performs hate speech detection robustly in terms of bias and explainability. The proposed method generally achieves state-of-the-art performance in various metrics, demonstrating its effectiveness for hate speech detection.
翻訳日:2022-11-02 13:07:00 公開日:2022-11-01
# クラスタリングに基づく記号知識抽出手法

Clustering-Based Approaches for Symbolic Knowledge Extraction ( http://arxiv.org/abs/2211.00234v1 )

ライセンス: Link先を確認
Federico Sabbatini and Roberta Calegari(参考訳) 機械学習の世界に属する不透明なモデルは、最も異なるアプリケーション領域でさらに活用される。 これらのモデルは、人間の見地からブラックボックス(BB)として機能し、そのアプリケーションに象徴的で人間の読みやすい知識を抽出する方法がなければ、完全に信頼できない。 本稿では,bbレグレプタのシンボリック知識抽出器が採用する再帰的設計,すなわち超立方体入力空間領域に関する規則の作成について分析する。 この種のパーティショニングは、手元にあるデータセットが高次元であるか対称的な制約を満たさない場合、最適以下の解をもたらすかもしれない。 次に,記号的知識抽出に先立って行う(深度)クラスタリングに基づく手法を提案する。

Opaque models belonging to the machine learning world are ever more exploited in the most different application areas. These models, acting as black boxes (BB) from the human perspective, cannot be entirely trusted if the application is critical unless there exists a method to extract symbolic and human-readable knowledge out of them. In this paper we analyse a recurrent design adopted by symbolic knowledge extractors for BB regressors - that is, the creation of rules associated with hypercubic input space regions. We argue that this kind of partitioning may lead to suboptimal solutions when the data set at hand is high-dimensional or does not satisfy symmetric constraints. We then propose a (deep) clustering-based approach to be performed before symbolic knowledge extraction to achieve better performance with data sets of any kind.
翻訳日:2022-11-02 13:06:20 公開日:2022-11-01
# 機械学習ブラックボックスから抽出した記号的知識の評価指標--討論論文

Evaluation Metrics for Symbolic Knowledge Extracted from Machine Learning Black Boxes: A Discussion Paper ( http://arxiv.org/abs/2211.00238v1 )

ライセンス: Link先を確認
Federico Sabbatini and Roberta Calegari(参考訳) ほぼすべてのアプリケーション分野で不透明な意思決定システムが採用されているため、透明性の欠如と人間の可読性に関する問題は、エンドユーザーにとって特に懸念事項である。 人間の解釈可能な知識と不透明なモデルによる正確な予測を関連付ける既存の提案の中に、不透明なモデルから記号的知識を抽出することができる規則抽出技術がある。 しかし,抽出した知識の可読性レベルを定量的に評価する方法はまだ未解決の課題である。 そのようなメトリックを見つけることは、例えば、異なる知識表現の集合同士の自動比較を可能にするための鍵であり、知識抽出者のためのパラメータの自動チューニングアルゴリズムの開発の道を開く。 本稿では,このような指標の必要性と,可読性評価と評価の臨界性について考察し,最も一般的な知識表現を考慮し,最も厄介な問題を強調した。

As opaque decision systems are being increasingly adopted in almost any application field, issues about their lack of transparency and human readability are a concrete concern for end-users. Amongst existing proposals to associate human-interpretable knowledge with accurate predictions provided by opaque models, there are rule extraction techniques, capable of extracting symbolic knowledge out of an opaque model. However, how to assess the level of readability of the extracted knowledge quantitatively is still an open issue. Finding such a metric would be the key, for instance, to enable automatic comparison between a set of different knowledge representations, paving the way for the development of parameter autotuning algorithms for knowledge extractors. In this paper we discuss the need for such a metric as well as the criticalities of readability assessment and evaluation, taking into account the most common knowledge representations while highlighting the most puzzling issues.
翻訳日:2022-11-02 13:06:07 公開日:2022-11-01
# ARDIR:内部表現の知識蒸留によるロバスト性の向上

ARDIR: Improving Robustness using Knowledge Distillation of Internal Representation ( http://arxiv.org/abs/2211.00239v1 )

ライセンス: Link先を確認
Tomokatsu Takahashi, Masanori Yamada, Yuuki Yamanaka, Tomoya Yamashita(参考訳) 敵の訓練は、敵の例に対して頑健なモデルを学習するための最も有望な方法である。 最近の研究では、同一アーキテクチャ間の知識蒸留が、対人訓練の性能向上に有効であることが示されている。 知識蒸留の利用は、敵対的訓練を改善する新しいアプローチであり、多くの注目を集めている。 しかし、その性能はまだ不十分である。 そこで我々は, 知識蒸留をより効果的に活用するために, 内部表現による対人ロバスト蒸留(ARDIR)を提案する。 教師モデルの出力に加えて、ARDIRは教師モデルの内的表現を対人訓練のラベルとして使用する。 これにより、学生モデルはよりリッチでより情報的なラベルでトレーニングできる。 その結果、ARDIRはより堅牢な学生モデルを学ぶことができる。 実験では,ARDIRが従来の手法より優れていたことを示す。

Adversarial training is the most promising method for learning robust models against adversarial examples. A recent study has shown that knowledge distillation between the same architectures is effective in improving the performance of adversarial training. Exploiting knowledge distillation is a new approach to improve adversarial training and has attracted much attention. However, its performance is still insufficient. Therefore, we propose Adversarial Robust Distillation with Internal Representation~(ARDIR) to utilize knowledge distillation even more effectively. In addition to the output of the teacher model, ARDIR uses the internal representation of the teacher model as a label for adversarial training. This enables the student model to be trained with richer, more informative labels. As a result, ARDIR can learn more robust student models. We show that ARDIR outperforms previous methods in our experiments.
翻訳日:2022-11-02 13:05:51 公開日:2022-11-01
# 健康と健康のレコメンデーションシステムのための fittest の共進化と置換の利用

Using coevolution and substitution of the fittest for health and well-being recommender systems ( http://arxiv.org/abs/2211.00414v1 )

ライセンス: Link先を確認
Hugo Alcaraz-Herrera and John Cartlidge(参考訳) 本研究は,2群競合進化型遺伝的アルゴリズムの解離問題に対処する手法であるFittest (SF) の置換について検討する。 SFはドメイン非依存であり、キャリブレーションを必要としない。 まず,sfがエンゲージメントを維持し,最小限のトイドメインで最適なソリューションを見つける能力について比較評価を行った。 実験の結果,sfは文献上の他の手法よりも熱意を保てることがわかった。 そして、健康と幸福のためのレコメンデーションを進化させる、より複雑な現実世界の問題に対処する。 本稿では,進化的レコメンデーションシステムであるevorecsysの共進化的拡張について紹介する。 本稿は,sfが文献の他の手法よりもエンゲージメントを良好に維持できることを実証し,その結果,vorecsys が生成する技術よりも,sf を用いた推薦が高品質かつ多様であることを示す。

This research explores substitution of the fittest (SF), a technique designed to counteract the problem of disengagement in two-population competitive coevolutionary genetic algorithms. SF is domain-independent and requires no calibration. We first perform a controlled comparative evaluation of SF's ability to maintain engagement and discover optimal solutions in a minimal toy domain. Experimental results demonstrate that SF is able to maintain engagement better than other techniques in the literature. We then address the more complex real-world problem of evolving recommendations for health and well-being. We introduce a coevolutionary extension of EvoRecSys, a previously published evolutionary recommender system. We demonstrate that SF is able to maintain engagement better than other techniques in the literature, and the resultant recommendations using SF are higher quality and more diverse than those produced by EvoRecSys.
翻訳日:2022-11-02 12:59:53 公開日:2022-11-01
# 周波数カム:周期的信号をリアルタイムに撮像する

Frequency Cam: Imaging Periodic Signals in Real-Time ( http://arxiv.org/abs/2211.00198v1 )

ライセンス: Link先を確認
Bernd Pfrommer(参考訳) 高時間分解能と大きなダイナミックレンジイベントカメラは画像中の時間周期信号の解析に一意に適している。 本研究では,画像画素がフリックする基本周波数を検出するための,効率的で非同期なイベントカメラアルゴリズムを提案する。 このアルゴリズムは,2次ディジタル無限インパルス応答(IIR)フィルタを用いて,画素ごとの輝度の近似再構成を行い,比較したベースライン法よりも高周波数雑音に強い。 さらに,信号の落下エッジを使用することで,立ち上がりエッジよりも正確な周期推定が可能となり,ゼロレベル交差を補間する信号の精度がさらに向上することを示す。 実験の結果,64kHzまでの周波数を1ピクセルで検出するカメラの優れた能力は,読み出し帯域制限が深刻な障害となるため,全センサ画像に受け継がれないことがわかった。 これは、センサーに近いハードウェア実装により、周波数イメージングが大幅に改善されることを示唆している。 我々は、フルセンサー周波数イメージングと現在の周波数カムの重要な設計パラメータについて論じる。rosノードとしてオープンソースの実装であり、ラップトップcpuの1つのコア上で毎秒5000万イベント以上で動作する。 これはpropheseeのmetavision toolkitのクローズドソース振動解析モジュールから得られた結果と質的に非常によく似た結果を生成する。 Frequency Camのコードとデモビデオはhttps://github.com/berndpfrommer/ frequency_camで見ることができる。

Due to their high temporal resolution and large dynamic range event cameras are uniquely suited for the analysis of time-periodic signals in an image. In this work we present an efficient and fully asynchronous event camera algorithm for detecting the fundamental frequency at which image pixels flicker. The algorithm employs a second-order digital infinite impulse response (IIR) filter to perform an approximate per-pixel brightness reconstruction and is more robust to high-frequency noise than the baseline method we compare to. We further demonstrate that using the falling edge of the signal leads to more accurate period estimates than the rising edge, and that for certain signals interpolating the zero-level crossings can further increase accuracy. Our experiments find that the outstanding capabilities of the camera in detecting frequencies up to 64kHz for a single pixel do not carry over to full sensor imaging as readout bandwidth limitations become a serious obstacle. This suggests that a hardware implementation closer to the sensor will allow for greatly improved frequency imaging. We discuss the important design parameters for fullsensor frequency imaging and present Frequency Cam, an open-source implementation as a ROS node that can run on a single core of a laptop CPU at more than 50 million events per second. It produces results that are qualitatively very similar to those obtained from the closed source vibration analysis module in Prophesee's Metavision Toolkit. The code for Frequency Cam and a demonstration video can be found at https://github.com/berndpfrommer/frequency_cam
翻訳日:2022-11-02 12:59:39 公開日:2022-11-01
# CONDAQA: 否定に関する推論のための対照的な理解データセット

CONDAQA: A Contrastive Reading Comprehension Dataset for Reasoning about Negation ( http://arxiv.org/abs/2211.00295v1 )

ライセンス: Link先を確認
Abhilasha Ravichander, Matt Gardner, Ana Marasovi\'c(参考訳) 人間の言語に基づくコミュニケーションのフルパワーは否定なしでは実現できない。 すべての人間の言語は何らかの否定を持っている。 それにもかかわらず、否定は現在の自然言語理解システムにとって難しい現象である。 否定を効果的に処理できるモデルの開発を促進するために,段落における否定文の意味を推論する必要がある最初の英語読解データセットであるCONDAQAを提案する。 さまざまな否定手法の段落を収集し,その行程における否定文の意味について,クラウドワーカーに質問する。 また、労働者は3種類の編集 – 否定されたステートメントの表現、否定のスコープの変更、否定の反転 – を行い、結果として、モデルが急激なショートカットで答えるのが難しい質問と回答のペアのクラスタを生成します。 CONDAQAは、200以上のユニークな否定キューを備えた14,182の質問応答ペアを備え、現在の最先端モデルでは難しい。 CONDAQAの最高のパフォーマンスモデル(UnifiedQA-v2-3b)は、我々の一貫性基準で42%しか達成できません。 我々は、完全に微調整された、少数ショット、ゼロショットの評価とともにデータセットをリリースし、ネゲート言語で動作する将来のNLPメソッドの開発を容易にする。

The full power of human language-based communication cannot be realized without negation. All human languages have some form of negation. Despite this, negation remains a challenging phenomenon for current natural language understanding systems. To facilitate the future development of models that can process negation effectively, we present CONDAQA, the first English reading comprehension dataset which requires reasoning about the implications of negated statements in paragraphs. We collect paragraphs with diverse negation cues, then have crowdworkers ask questions about the implications of the negated statement in the passage. We also have workers make three kinds of edits to the passage -- paraphrasing the negated statement, changing the scope of the negation, and reversing the negation -- resulting in clusters of question-answer pairs that are difficult for models to answer with spurious shortcuts. CONDAQA features 14,182 question-answer pairs with over 200 unique negation cues and is challenging for current state-of-the-art models. The best performing model on CONDAQA (UnifiedQA-v2-3b) achieves only 42% on our consistency metric, well below human performance which is 81%. We release our dataset, along with fully-finetuned, few-shot, and zero-shot evaluations, to facilitate the development of future NLP methods that work on negated language.
翻訳日:2022-11-02 12:59:16 公開日:2022-11-01
# VarMAE: ドメイン適応型言語理解のための変分マスク付きオートエンコーダの事前学習

VarMAE: Pre-training of Variational Masked Autoencoder for Domain-adaptive Language Understanding ( http://arxiv.org/abs/2211.00430v1 )

ライセンス: Link先を確認
Dou Hu, Xiaolong Hou, Xiyang Du, Mengyuan Zhou, Lianxin Jiang, Yang Mo, Xiaofeng Shi(参考訳) 事前トレーニングされた言語モデルは、一般的なベンチマークで有望なパフォーマンスを達成している。 最近の研究は、ドメインコーパスのスクラッチや連続的なプレトレーニングから事前トレーニングを行う。 しかし、多くの特定の領域において、限定コーパスは正確な表現を得るのをほとんどサポートできない。 本稿では,ドメイン適応型言語理解のための新しいトランスフォーマーベース言語モデルであるVarMAEを提案する。 masked autoencodingの目的のもと、トークンのコンテキストを滑らかな潜在分布にエンコードするコンテキスト不確実性学習モジュールを設計した。 このモジュールは多種多様な文脈表現を生成できる。 科学および金融分野におけるNLUタスクの実験は、VarMAEが限られたリソースを持つ新しいドメインに効率的に適応できることを実証している。

Pre-trained language models have achieved promising performance on general benchmarks, but underperform when migrated to a specific domain. Recent works perform pre-training from scratch or continual pre-training on domain corpora. However, in many specific domains, the limited corpus can hardly support obtaining precise representations. To address this issue, we propose a novel Transformer-based language model named VarMAE for domain-adaptive language understanding. Under the masked autoencoding objective, we design a context uncertainty learning module to encode the token's context into a smooth latent distribution. The module can produce diverse and well-formed contextual representations. Experiments on science- and finance-domain NLU tasks demonstrate that VarMAE can be efficiently adapted to new domains with limited resources.
翻訳日:2022-11-02 12:58:54 公開日:2022-11-01
# 神経手話翻訳におけるグラフベースクロスモーダル情報融合の活用

Leveraging Graph-based Cross-modal Information Fusion for Neural Sign Language Translation ( http://arxiv.org/abs/2211.00526v1 )

ライセンス: Link先を確認
Jiangbin Zheng, Siyuan Li, Cheng Tan, Chong Wu, Yidong Chen, Stan Z. Li(参考訳) 手話(英: sign language、sl)は、聴覚障害者コミュニティの母語であり、ほとんどの人が理解できない特殊な視覚言語である。 近年,聴覚障害者と聴覚障害者のコミュニケーションギャップを橋渡しする手段として,神経手話翻訳(neural sign language translation:slt)が広く注目を集めている。 言語知識を弱教師付きで学習しようとする現在の主流のエンドツーエンドニューラルネットワークSLTモデルは、低データリソースの条件下で十分な意味情報をマイニングできないことがわかった。 そこで本研究では,手話言語学における単語レベルの意味知識を新たに導入し,現在のエンドツーエンドニューラルsltモデルの改善を支援する。 具体的には,動的グラフに基づくマルチモーダル特徴融合を用いた新しいニューラルsltモデルを提案する。このモデルでは,クロスモーダル情報,すなわちテキストとビデオは,その相関に基づいてまず動的グラフとして組み立てられ,その後,マルチモーダルグラフエンコーダによって処理され,その後のニューラル翻訳モデルでの利用のためにマルチモーダル埋め込みを生成する。 私たちの知識を最大限に活用するために、私たちは、複数のモーダル情報を神経手話翻訳モデルに融合するグラフニューラルネットワークを初めて導入しました。 さらに,公開されているSLTデータセットRWTH-PHOENIX-Weather-2014Tについて実験を行った。 定量的実験により モデルを改善することができることが分かりました

Sign Language (SL), as the mother tongue of the deaf community, is a special visual language that most hearing people cannot understand. In recent years, neural Sign Language Translation (SLT), as a possible way for bridging communication gap between the deaf and the hearing people, has attracted widespread academic attention. We found that the current mainstream end-to-end neural SLT models, which tries to learning language knowledge in a weakly supervised manner, could not mine enough semantic information under the condition of low data resources. Therefore, we propose to introduce additional word-level semantic knowledge of sign language linguistics to assist in improving current end-to-end neural SLT models. Concretely, we propose a novel neural SLT model with multi-modal feature fusion based on the dynamic graph, in which the cross-modal information, i.e. text and video, is first assembled as a dynamic graph according to their correlation, and then the graph is processed by a multi-modal graph encoder to generate the multi-modal embeddings for further usage in the subsequent neural translation models. To the best of our knowledge, we are the first to introduce graph neural networks, for fusing multi-modal information, into neural sign language translation models. Moreover, we conducted experiments on a publicly available popular SLT dataset RWTH-PHOENIX-Weather-2014T. and the quantitative experiments show that our method can improve the model.
翻訳日:2022-11-02 12:58:41 公開日:2022-11-01
# バイモーダル・スーパービジョンの少ないビジョン言語モデル

Training Vision-Language Models with Less Bimodal Supervision ( http://arxiv.org/abs/2211.00262v1 )

ライセンス: Link先を確認
Elad Segal, Ben Bogin, Jonathan Berant(参考訳) 視覚言語モデルのようなマルチモーダルモデルの事前学習における標準的な実践は、画像テキストペアなど、両方のモダリティからアライメントされた入力のペアに依存することである。 しかし、そのようなペアは低リソース設定やいくつかのモダリティペア(構造化テーブルやイメージなど)では入手が困難である。 本研究では,このような並列データへの依存度を,<emph{bimodal supervision} とよばれる程度に低減し,各モードで事前訓練されたモデルを用いて検討する。 ハイパフォーマンスな視覚言語モデルを用いて実験を行い、バイモーダル監視が3つの視覚言語課題に与える影響を分析する。 VQAv2やGQAのような単純なタスクでは、バイモーダルの監督を完全に排除でき、パフォーマンスの損失はわずかである。 逆に、より複雑な推論を必要とするNLVR2では、バイモーダルな監督のないトレーニングはランダムなパフォーマンスをもたらす。 それにもかかわらず、バイモーダルデータ(キャプションと共に142k画像)の5\%しか使用せず、または各画像のマシン生成ラベルのリストという形で弱い監督を活用すれば、3m画像テキストペアを使用する場合と比較して、適度な低下しか得られない。 私たちのコードはhttps://github.com/eladsegal/less-bimodal-sup.comで利用可能です。

Standard practice in pretraining multimodal models, such as vision-language models, is to rely on pairs of aligned inputs from both modalities, for example, aligned image-text pairs. However, such pairs can be difficult to obtain in low-resource settings and for some modality pairs (e.g., structured tables and images). In this work, we investigate the extent to which we can reduce the reliance on such parallel data, which we term \emph{bimodal supervision}, and use models that are pretrained on each modality independently. We experiment with a high-performing vision-language model, and analyze the effect of bimodal supervision on three vision-language tasks. We find that on simpler tasks, such as VQAv2 and GQA, one can eliminate bimodal supervision completely, suffering only a minor loss in performance. Conversely, for NLVR2, which requires more complex reasoning, training without bimodal supervision leads to random performance. Nevertheless, using only 5\% of the bimodal data (142K images along with their captions), or leveraging weak supervision in the form of a list of machine-generated labels for each image, leads to only a moderate degradation compared to using 3M image-text pairs: 74\%$\rightarrow$$\sim$70\%. Our code is available at https://github.com/eladsegal/less-bimodal-sup.
翻訳日:2022-11-02 12:58:16 公開日:2022-11-01
# グラフニューラルネットワークを用いたfMRI解析のためのタスク対応効果的な脳結合性学習

Learning Task-Aware Effective Brain Connectivity for fMRI Analysis with Graph Neural Networks ( http://arxiv.org/abs/2211.00261v1 )

ライセンス: Link先を確認
Yue Yu, Xuan Kan, Hejie Cui, Ran Xu, Yujia Zheng, Xiangchen Song, Yanqiao Zhu, Kun Zhang, Razieh Nabi, Ying Guo, Chao Zhang, Carl Yang(参考訳) 機能的磁気共鳴イメージング(fMRI)は、脳機能解析において最も一般的な画像モダリティの1つである。 近年,高性能なfMRI解析にグラフニューラルネットワーク(GNN)が採用されている。 残念ながら、従来の機能的脳ネットワークは主に関心領域(ROI)の類似性に基づいて構築されており、それは下流の予測タスクにうるさいし、GNNベースのモデルでは劣る結果をもたらす可能性がある。 本稿では,fMRI解析におけるGNNの適応性を向上するために,fMRI解析のためのTBDSを提案し,このフレームワークは,fMRI解析のためのエンディング・ツー・エンド・エンド・ツー・エンドフレームワークである,Shaunderline{T}ask-aware \underline{B}rain接続性を持つ。 TBDSの重要なコンポーネントは、DAG学習アプローチを採用して、生の時系列をタスク対応の脳結合性に変換する脳ネットワークジェネレータである。 さらに、脳ネットワーク生成プロセス中にタスク固有の知識を注入するためのコントラスト正規化も設計する。 Adolescent Brain Cognitive Development (ABCD) と Philadelphia Neuroimaging Cohort (PNC) の2つのfMRIデータセットに関する総合的な実験は、TBDSの有効性を示している。 さらに、生成された脳ネットワークは予測関連脳領域を強調し、予測結果のユニークな解釈を提供する。 私たちの実装は受け入れ次第https://github.com/yueyu1030/TBDSに公開します。

Functional magnetic resonance imaging (fMRI) has become one of the most common imaging modalities for brain function analysis. Recently, graph neural networks (GNN) have been adopted for fMRI analysis with superior performance. Unfortunately, traditional functional brain networks are mainly constructed based on similarities among region of interests (ROI), which are noisy and agnostic to the downstream prediction tasks and can lead to inferior results for GNN-based models. To better adapt GNNs for fMRI analysis, we propose TBDS, an end-to-end framework based on \underline{T}ask-aware \underline{B}rain connectivity \underline{D}AG (short for Directed Acyclic Graph) \underline{S}tructure generation for fMRI analysis. The key component of TBDS is the brain network generator which adopts a DAG learning approach to transform the raw time-series into task-aware brain connectivities. Besides, we design an additional contrastive regularization to inject task-specific knowledge during the brain network generation process. Comprehensive experiments on two fMRI datasets, namely Adolescent Brain Cognitive Development (ABCD) and Philadelphia Neuroimaging Cohort (PNC) datasets demonstrate the efficacy of TBDS. In addition, the generated brain networks also highlight the prediction-related brain regions and thus provide unique interpretations of the prediction results. Our implementation will be published to https://github.com/yueyu1030/TBDS upon acceptance.
翻訳日:2022-11-02 12:57:50 公開日:2022-11-01
# 運転場面における行動意図予測 : アンケート調査

Behavioral Intention Prediction in Driving Scenes: A Survey ( http://arxiv.org/abs/2211.00385v1 )

ライセンス: Link先を確認
Jianwu Fang, Fan Wang, Peining Shen, Zhedong Zheng, Jianru Xue, and Tat-seng Chua(参考訳) 運転シーンでは、通常、道路参加者は周囲との頻繁な交流と意図の理解を示す。 エゴエージェント(各道路参加者自身)は、他の道路利用者が常に何をするのかを予測し、共有的で一貫した理解を期待します。 例えば、他の道路利用者の次の動きを予測し、予期しない事故を避けるために一貫した共同行動を期待する必要がある。 行動意図予測(BIP)とは、人間の思考過程をシミュレートし、特定の行動の開始時刻を予測することである。 これは、周辺の道路参加者が近い将来に特定の行動(横断、越路、旋回など)を提示するかどうかについて、特定の行動よりも早期に信号を提供する。 bipの作業は、ビッグデータを活用するためのディープラーニングモデルに基づいて、効果的な推論アプローチ(説明可能な推論、クロスモダリティ融合、シミュレーション拡張など)の開発に重点を置いている。 そこで本研究では, 軌道予測, 行動予測, 事故予測などのBIP条件付き予測タスクに着目し, この分野における様々な作業の差異について検討する。 本研究と知見に基づき,行動意図予測におけるオープンな問題について議論し,今後の研究方向性を提案する。

In the driving scene, the road participants usually show frequent interaction and intention understanding with the surrounding. Ego-agent (each road participant itself) conducts the prediction of what behavior will be done by other road users all the time and expects a shared and consistent understanding. For instance, we need to predict the next movement of other road users and expect a consistent joint action to avoid unexpected accident. Behavioral Intention Prediction (BIP) is to simulate such a human consideration process and fulfill the beginning time prediction of specific behaviors. It provides an earlier signal promptly than the specific behaviors for whether the surrounding road participants will present specific behavior (crossing, overtaking, and turning, etc.) in near future or not. More and more works in BIP are based on deep learning models to take advantage of big data, and focus on developing effective inference approaches (e.g., explainable inference, cross-modality fusion, and simulation augmentation). Therefore, in this work, we focus on BIP-conditioned prediction tasks, including trajectory prediction, behavior prediction, and accident prediction and explore the differences among various works in this field. Based on this investigation and the findings, we discuss the open problems in behavioral intention prediction and propose future research directions.
翻訳日:2022-11-02 12:57:26 公開日:2022-11-01
# 意図的スタンスによる未知の理解

Understanding the Unforeseen via the Intentional Stance ( http://arxiv.org/abs/2211.00478v1 )

ライセンス: Link先を確認
Stephanie Stacy, Alfredo Gabaldon, John Karigiannis, James Kubrich, Peter Tu(参考訳) 本稿では,観察したエージェントの新しい行動を理解するためのアーキテクチャとシステムを提案する。 我々のアプローチの主な特徴は、dennettの意図的な姿勢と、予期せぬ経験を理解するための主要な計算メカニズムの1つとしてアナロジー推論の採用である。 このアプローチは過去の経験と類似し、観察したエージェントの振る舞いを説明する仮説的根拠を構築する。 したがって、複数の過去の経験をブレンドして予期せぬ事象を類推的に説明し、推論の柔軟性を高めることができる。 我々は,この手法が表面レベルの比較に基づく手法よりも観察行動の有意義な説明をもたらすと論じる。 分類における行動説明の重要な利点は、その能力である。 一 推論に基づいて適切な対応をする、及び 二 仮説的な説明の検証を可能にする非自明な予測をする。 ガスステーション環境におけるアナロジーによる新しい経験の理解を示すための簡易なユースケースを提案する。

We present an architecture and system for understanding novel behaviors of an observed agent. The two main features of our approach are the adoption of Dennett's intentional stance and analogical reasoning as one of the main computational mechanisms for understanding unforeseen experiences. Our approach uses analogy with past experiences to construct hypothetical rationales that explain the behavior of an observed agent. Moreover, we view analogies as partial; thus multiple past experiences can be blended to analogically explain an unforeseen event, leading to greater inferential flexibility. We argue that this approach results in more meaningful explanations of observed behavior than approaches based on surface-level comparisons. A key advantage of behavior explanation over classification is the ability to i) take appropriate responses based on reasoning and ii) make non-trivial predictions that allow for the verification of the hypothesized explanation. We provide a simple use case to demonstrate novel experience understanding through analogy in a gas station environment.
翻訳日:2022-11-02 12:57:04 公開日:2022-11-01
# バックトラック対策

Backtracking Counterfactuals ( http://arxiv.org/abs/2211.00472v1 )

ライセンス: Link先を確認
Julius von K\"ugelgen, Abdirisak Mohamed, Sander Beckers(参考訳) 擬似推論 - 仮説的シナリオや可能な世界を想定したもので、実際に何が起こったか(事実)とは異なる状況が、人間の認知においてどこにでもある。 従来、反実的な状況は、同じ初期条件を共有しながら自然の法則に違反した「小さな奇跡」として扱われてきた。 パールの構造因果モデル(SCM)フレームワークでは、これは因果関係変数の値が共有されている間に因果関係の法則を変更する介入によって数学的に厳密になる。 しかし、近年では、この純粋に介入主義的な反事実論は、哲学者と心理学者の両方から精査されている。 むしろ彼らは、反事実的世界において因果関係の法則が変わらず、事実的世界との違いは、変化した初期条件(外在的変数)に"逆追跡"されることを示唆している。 本研究は,SCMフレームワーク内で,この代替手法を検証し,定式化するものである。 人間のバックトラックの証拠は豊富だが、現在の研究は私たちの知る限りでは、バックトラックのカウンターファクトリーの最初の一般的な説明とアルゴリズムである。 本稿では,関連文献の文脈におけるバックトラックセマンティクスについて論じるとともに,最近の説明可能な人工知能(XAI)の発展に結びついている。

Counterfactual reasoning -- envisioning hypothetical scenarios, or possible worlds, where some circumstances are different from what (f)actually occurred (counter-to-fact) -- is ubiquitous in human cognition. Conventionally, counterfactually-altered circumstances have been treated as "small miracles" that locally violate the laws of nature while sharing the same initial conditions. In Pearl's structural causal model (SCM) framework this is made mathematically rigorous via interventions that modify the causal laws while the values of exogenous variables are shared. In recent years, however, this purely interventionist account of counterfactuals has increasingly come under scrutiny from both philosophers and psychologists. Instead, they suggest a backtracking account of counterfactuals, according to which the causal laws remain unchanged in the counterfactual world; differences to the factual world are instead "backtracked" to altered initial conditions (exogenous variables). In the present work, we explore and formalise this alternative mode of counterfactual reasoning within the SCM framework. Despite ample evidence that humans backtrack, the present work constitutes, to the best of our knowledge, the first general account and algorithmisation of backtracking counterfactuals. We discuss our backtracking semantics in the context of related literature and draw connections to recent developments in explainable artificial intelligence (XAI).
翻訳日:2022-11-02 12:51:17 公開日:2022-11-01
# 筋運動と顔多様体埋め込みを用いたビデオからの(隠れ)感情の検出

Detection of (Hidden) Emotions from Videos using Muscles Movements and Face Manifold Embedding ( http://arxiv.org/abs/2211.00233v1 )

ライセンス: Link先を確認
Juni Kim, Zhikang Dong, Eric Guan, Judah Rosenthal, Shi Fu, Miriam Rafailovich, Pawel Polak(参考訳) 大量の被験者に対して,非侵襲的かつスケールが容易な新しい方法と,人間の顔のビデオから(隠れた)感情検出方法を提案する。 本手法では,映像中の顔の正確な位置を顔多様体検出と局所的な顔多様体埋め込みとを組み合わせることで,映像中の被験者の動きに不変な筋のマイクロムーブメント測定のための共通領域を作成する。 次のステップでは、デジタル画像スペックル相関(disc)とオプティカルフローアルゴリズムを用いて、顔のマイクロムーブメントのパターンを計算する。 対応するベクトル場は元の空間に写像され、ビデオの元のフレームに重畳される。 したがって、得られたビデオには、顔の筋肉の動きの方向に関する追加情報が含まれている。 公開されている可視的な感情のCK++データセットを、同じフォーマットの動画に加えて、隠れた感情を加えます。 我々は、マイクロモーション検出を用いてすべての動画を処理し、その結果を用いて、ビデオ -Frame Attention Network (FAN) からの感情分類のための最先端ネットワークをトレーニングする。 オリジナルのFANモデルは、元のCK++ビデオで非常に高いサンプリング性能を達成するが、隠れた感情ビデオではそれほどうまく機能しない。 モデルがトレーニングされ、筋肉運動のベクトル場を持つビデオでテストされると、パフォーマンスが大幅に向上する。 直感的には、対応する矢印は画像のエッジとして機能し、FANネットワークの畳み込みフィルタによって容易にキャプチャされる。

We provide a new non-invasive, easy-to-scale for large amounts of subjects and a remotely accessible method for (hidden) emotion detection from videos of human faces. Our approach combines face manifold detection for accurate location of the face in the video with local face manifold embedding to create a common domain for the measurements of muscle micro-movements that is invariant to the movement of the subject in the video. In the next step, we employ the Digital Image Speckle Correlation (DISC) and the optical flow algorithm to compute the pattern of micro-movements in the face. The corresponding vector field is mapped back to the original space and superimposed on the original frames of the videos. Hence, the resulting videos include additional information about the direction of the movement of the muscles in the face. We take the publicly available CK++ dataset of visible emotions and add to it videos of the same format but with hidden emotions. We process all the videos using our micro-movement detection and use the results to train a state-of-the-art network for emotions classification from videos -- Frame Attention Network (FAN). Although the original FAN model achieves very high out-of-sample performance on the original CK++ videos, it does not perform so well on hidden emotions videos. The performance improves significantly when the model is trained and tested on videos with the vector fields of muscle movements. Intuitively, the corresponding arrows serve as edges in the image that are easily captured by the convolutions filters in the FAN network.
翻訳日:2022-11-02 12:49:07 公開日:2022-11-01
# 森林火災予測のための深層学習

Deep Learning for Global Wildfire Forecasting ( http://arxiv.org/abs/2211.00534v1 )

ライセンス: Link先を確認
Ioannis Prapas, Akanksha Ahuja, Spyros Kondylatos, Ilektra Karasante, Eleanna Panagiotou, Lazaro Alonso, Charalampos Davalas, Dimitrios Michail, Nuno Carvalhais, Ioannis Papoutsis(参考訳) 気候変動は、火災の悪化によって野火活動が悪化すると予想されている。 世界規模で山火事を予知する能力の向上は、その悪影響を軽減する上で非常に重要である。 本研究では,グローバルファイアデータセットを作成し,セグメンテーション深層学習モデルを用いて,サブシーズンスケールでのグローバルバーンエリアの存在を予測するためのプロトタイプを実証する。 特に,気候,植生,海洋指数,人間関連変数など,季節的および季節的火災要因に関連する様々な変数と,2001-2021年の歴史的焼損地域と山火事発生量を含むオープンアクセス型グローバル分析対応データキューブを提案する。 我々は,地球規模の山火事予測をイメージセグメンテーションタスクとして扱う深層学習モデルを訓練し,燃えているエリア8,16,32,64日前の存在を正確に予測する。 本研究は, 森林火災予測における深層学習の活用を動機とし, 地球規模の山火事の予測改善への道を開く。

Climate change is expected to aggravate wildfire activity through the exacerbation of fire weather. Improving our capabilities to anticipate wildfires on a global scale is of uttermost importance for mitigating their negative effects. In this work, we create a global fire dataset and demonstrate a prototype for predicting the presence of global burned areas on a sub-seasonal scale with the use of segmentation deep learning models. Particularly, we present an open-access global analysis-ready datacube, which contains a variety of variables related to the seasonal and sub-seasonal fire drivers (climate, vegetation, oceanic indices, human-related variables), as well as the historical burned areas and wildfire emissions for 2001-2021. We train a deep learning model, which treats global wildfire forecasting as an image segmentation task and skillfully predicts the presence of burned areas 8, 16, 32 and 64 days ahead of time. Our work motivates the use of deep learning for global burned area forecasting and paves the way towards improved anticipation of global wildfire patterns.
翻訳日:2022-11-02 12:48:41 公開日:2022-11-01
# ノイズ注入型CLIPによる画像キャプションのためのテキストオンリートレーニング

Text-Only Training for Image Captioning using Noise-Injected CLIP ( http://arxiv.org/abs/2211.00575v1 )

ライセンス: Link先を確認
David Nukrai, Ron Mokady and Amir Globerson(参考訳) 我々は,CLIPモデルとトレーニング時に追加のテキストデータのみを使用し,付加的なキャプション付き画像を追加する作業を検討する。 私たちのアプローチは、CLIPがビジュアルとテキストの埋め込みを類似させるように訓練されているという事実に依存しています。 したがって、CLIPのテキスト埋め込みをテキストに翻訳する方法しか学ばず、凍結したCLIPテキストエンコーダのデコーダをテキストのみを使って学習することで、この方法を学ぶことができる。 この直観は埋め込み空間間のギャップから「ほぼ正しい」と論じ、訓練中のノイズ注入による修正を提案する。 スタイル転送を含む4つのベンチマークでSOTAゼロショット画像キャプションを表示することで,提案手法の有効性を示す。 コード、データ、モデルはgithubで入手できる。

We consider the task of image-captioning using only the CLIP model and additional text data at training time, and no additional captioned images. Our approach relies on the fact that CLIP is trained to make visual and textual embeddings similar. Therefore, we only need to learn how to translate CLIP textual embeddings back into text, and we can learn how to do this by learning a decoder for the frozen CLIP text encoder using only text. We argue that this intuition is "almost correct" because of a gap between the embedding spaces, and propose to rectify this via noise injection during training. We demonstrate the effectiveness of our approach by showing SOTA zero-shot image captioning across four benchmarks, including style transfer. Code, data, and models are available on GitHub.
翻訳日:2022-11-02 12:48:23 公開日:2022-11-01
# ccsエクスプローラー:臨床コホート研究からの関連性予測、抽出要約、名前付きエンティティ認識

CCS Explorer: Relevance Prediction, Extractive Summarization, and Named Entity Recognition from Clinical Cohort Studies ( http://arxiv.org/abs/2211.00201v1 )

ライセンス: Link先を確認
Irfan Al-Hussaini, Davi Nakajima An, Albert J. Lee, Sarah Bi, Cassie S. Mitchell(参考訳) 臨床コホート研究(CCS)は、文書化された臨床研究の大きな源である。 理想的には、臨床の専門家は、既存の薬物の新興疾患に対する有効性を評価するための薬の発見から、新しく開発された薬物の最初の試験まで、探索的分析のためにこれらの論文を解釈する。 しかし、毎日100以上のCCS記事がPubMedに掲載されている。 その結果、医師が記事を見つけ、関連する情報を抽出するのに何日もかかる可能性がある。 これらの記事の長いリストを素早く掘り下げて、これらの記事の要点を文書化する方法を見つけることはできますか? 本研究では,文の関連性予測,抽出要約,患者,結果,介入エンティティ検出のためのエンドツーエンドシステムであるCSエクスプローラーを提案する。 CCSエクスプローラーはウェブベースのグラフィカルユーザーインタフェースにパッケージされており、ユーザーはどんな病名も提供できる。 CCS Explorerは、バックエンドで自動生成されたクエリの結果に基づいて、PubMedの記事から関連するすべての情報を抽出し、集約する。 CCSエクスプローラーは、これらのタスクごとに追加レイヤを持つトランスフォーマーに基づいて、事前訓練された言語モデルを微調整する。 2つの公開データセットを用いてモデルを評価する。 CCSエクスプローラーは80.2%、AUC-ROC 0.843、BioBERTを用いた文関連予測では88.3%のリコールを取得し、PubMedBERTを用いた患者、介入、アウトカム検出(PIO)では平均77.8%のマイクロF1スコアを達成した。 これにより、ccsエクスプローラーは関連情報を確実に抽出して記事を要約し、660$\times$で節約することができる。

Clinical Cohort Studies (CCS) are a great source of documented clinical research. Ideally, a clinical expert will interpret these articles for exploratory analysis ranging from drug discovery for evaluating the efficacy of existing drugs in tackling emerging diseases to the first test of newly developed drugs. However, more than 100 CCS articles are published on PubMed every day. As a result, it can take days for a doctor to find articles and extract relevant information. Can we find a way to quickly sift through the long list of these articles faster and document the crucial takeaways from each of these articles? In this work, we propose CCS Explorer, an end-to-end system for relevance prediction of sentences, extractive summarization, and patient, outcome, and intervention entity detection from CCS. CCS Explorer is packaged in a web-based graphical user interface where the user can provide any disease name. CCS Explorer then extracts and aggregates all relevant information from articles on PubMed based on the results of an automatically generated query produced on the back-end. CCS Explorer fine-tunes pre-trained language models based on transformers with additional layers for each of these tasks. We evaluate the models using two publicly available datasets. CCS Explorer obtains a recall of 80.2%, AUC-ROC of 0.843, and an accuracy of 88.3% on sentence relevance prediction using BioBERT and achieves an average Micro F1-Score of 77.8% on Patient, Intervention, Outcome detection (PIO) using PubMedBERT. Thus, CCS Explorer can reliably extract relevant information to summarize articles, saving time by ~ 660$\times$.
翻訳日:2022-11-02 12:48:07 公開日:2022-11-01
# クラスAction Prediction:米国における集団訴訟の法的判断予測のためのベンチマーク

ClassActionPrediction: A Challenging Benchmark for Legal Judgment Prediction of Class Action Cases in the US ( http://arxiv.org/abs/2211.00582v1 )

ライセンス: Link先を確認
Gil Semo, Dor Bernsohn, Ben Hagag, Gila Hayat, Joel Niklaus(参考訳) 法務自然言語処理(NLP)の研究分野は近年活発に行われており、法務判断予測(LJP)は最も広く研究されている課題の1つとなっている。 現在、ほとんどの一般公開されたLJPデータセットは、市民法を持つ国に由来する。 この作業では、米国におけるクラスアクションケースに焦点を当てた、挑戦的なljpデータセットを初めてリリースします。 これは、裁判所がしばしば使用する事実の要約ではなく、苦情を入力として含む、より難しくより現実的なタスクに焦点を当てた、共通の法体系における最初のデータセットである。 さらに,専門家の人間予測を収集して課題の難易度を調べ,このデータセットで人間専門家であっても53%の精度にしか達できないことを示した。 当社のlongformerモデルは,最初の2,048トークンのみを考慮しても,人間のベースライン(63%)を明らかに上回っている。 さらに, 詳細な誤差解析を行い, ロングフォーマーモデルが人間専門家よりも著しく校正されていることを確認した。 最後に、実験に使用されるデータセットとコードを公開します。

The research field of Legal Natural Language Processing (NLP) has been very active recently, with Legal Judgment Prediction (LJP) becoming one of the most extensively studied tasks. To date, most publicly released LJP datasets originate from countries with civil law. In this work, we release, for the first time, a challenging LJP dataset focused on class action cases in the US. It is the first dataset in the common law system that focuses on the harder and more realistic task involving the complaints as input instead of the often used facts summary written by the court. Additionally, we study the difficulty of the task by collecting expert human predictions, showing that even human experts can only reach 53% accuracy on this dataset. Our Longformer model clearly outperforms the human baseline (63%), despite only considering the first 2,048 tokens. Furthermore, we perform a detailed error analysis and find that the Longformer model is significantly better calibrated than the human experts. Finally, we publicly release the dataset and the code used for the experiments.
翻訳日:2022-11-02 12:41:51 公開日:2022-11-01
# Intel Xeonプロセッサ上でのエンドツーエンド人工知能パイプラインの最適化戦略

Strategies for Optimizing End-to-End Artificial Intelligence Pipelines on Intel Xeon Processors ( http://arxiv.org/abs/2211.00286v1 )

ライセンス: Link先を確認
Meena Arunachalam, Vrushabh Sanghavi, Yi A Yao, Yi A Zhou, Lifeng A Wang, Zongru Wen, Niroop Ammbashankar, Ning W Wang, Fahim Mohammad(参考訳) エンドツーエンド(E2E)の人工知能(AI)パイプラインは、データ前処理、データ取り込み、モデルの定義とトレーニング、ハイパーパラメータ最適化、デプロイメント、推論、後処理、続いて下流分析を含むいくつかのステージで構成されている。 効率的なE2Eワークフローを得るためには、パイプラインのほとんどすべてのステージを最適化する必要がある。 Intel Xeonプロセッサには、AIアクセラレーション(例えば、Intel Deep Learning Boost)がバンドルされた大きなメモリ容量があり、トレーニングと推論パイプラインの複数のインスタンスを並列に実行するのに適しており、総所有コスト(TCO)が低い。 Xeonプロセッサの性能を示すために,コンピュータビジョン,NLP,レコメンデーションシステムなど,さまざまなE2Eパイプライン上でのソフトウェアとハードウェアアクセラレーションを組み合わせた包括的な最適化戦略を適用した。 異なるE2Eパイプライン間で1.8xから81.7xまでのパフォーマンス改善を実現しました。 本稿では,Intel Xeonプロセッサ上で8種類のE2Eパイプラインを用いて,この性能を実現するための最適化戦略について紹介する。

End-to-end (E2E) artificial intelligence (AI) pipelines are composed of several stages including data preprocessing, data ingestion, defining and training the model, hyperparameter optimization, deployment, inference, postprocessing, followed by downstream analyses. To obtain efficient E2E workflow, it is required to optimize almost all the stages of pipeline. Intel Xeon processors come with large memory capacities, bundled with AI acceleration (e.g., Intel Deep Learning Boost), well suited to run multiple instances of training and inference pipelines in parallel and has low total cost of ownership (TCO). To showcase the performance on Xeon processors, we applied comprehensive optimization strategies coupled with software and hardware acceleration on variety of E2E pipelines in the areas of Computer Vision, NLP, Recommendation systems, etc. We were able to achieve a performance improvement, ranging from 1.8x to 81.7x across different E2E pipelines. In this paper, we will be highlighting the optimization strategies adopted by us to achieve this performance on Intel Xeon processors with a set of eight different E2E pipelines.
翻訳日:2022-11-02 12:41:34 公開日:2022-11-01
# 未来は違う: 大きな事前学習された言語モデルは予測タスクに失敗する

The future is different: Large pre-trained language models fail in prediction tasks ( http://arxiv.org/abs/2211.00384v1 )

ライセンス: Link先を確認
Kostadin Cvejoski, Rams\'es J. S\'anchez, C\'esar Ojeda(参考訳) 大規模事前学習型言語モデル(LPLM)は、下流の教師付きタスクを微調整することで大きな成功を収めた。 しかし、トレーニング中に使用するデータと推論時に使用するデータの間に分散シフトが発生した場合、パフォーマンスが劇的に低下することが知られている。 本稿では、時間とともに自然に変化するデータ分布に着目し、WALLSTREETBETS、ASKSCIENCE、The DONALD、POLITICSという4つの新しいREDDITデータセットを導入する。 まず、lplmは、時間とともにトピックの分布が変化するサブredditからの将来の投稿の人気を予測する際に、平均88%(ベストケース!)のパフォーマンス低下を示すことができることを実証する。 次に、ニューラル変動動的トピックモデルとアテンションメカニズムを利用して、回帰タスクの時間言語モデル表現を推論する簡単な手法を提案する。 私たちのモデルは、将来の投稿の人気を予測する場合、最悪の場合(最高のケースでは2%)、パフォーマンス低下の約40%しか表示しませんが、lplmのパラメータの総数の約7%しか使用せず、2021年のgamestop short squeezeのような現実世界のイベントについての洞察を提供する解釈可能な表現を提供しています。

Large pre-trained language models (LPLM) have shown spectacular success when fine-tuned on downstream supervised tasks. Yet, it is known that their performance can drastically drop when there is a distribution shift between the data used during training and that used at inference time. In this paper we focus on data distributions that naturally change over time and introduce four new REDDIT datasets, namely the WALLSTREETBETS, ASKSCIENCE, THE DONALD, and POLITICS sub-reddits. First, we empirically demonstrate that LPLM can display average performance drops of about 88% (in the best case!) when predicting the popularity of future posts from sub-reddits whose topic distribution changes with time. We then introduce a simple methodology that leverages neural variational dynamic topic models and attention mechanisms to infer temporal language model representations for regression tasks. Our models display performance drops of only about 40% in the worst cases (2% in the best ones) when predicting the popularity of future posts, while using only about 7% of the total number of parameters of LPLM and providing interpretable representations that offer insight into real-world events, like the GameStop short squeeze of 2021
翻訳日:2022-11-02 12:40:00 公開日:2022-11-01
# 順序に敏感な神経構成解析

Order-sensitive Neural Constituency Parsing ( http://arxiv.org/abs/2211.00421v1 )

ライセンス: Link先を確認
Zhicheng Wang, Tianyu Shi, Liyin Xiao, Cong Liu(参考訳) 本稿では,従来のニューラルスパンベースckyデコーダによる構成解析を改良した新しいアルゴリズムを提案する。 従来のスパンベースのデコードとは対照的に,スパンがスコアの和のみに基づいて結合される場合,スパンの組み合わせスコアが順序に敏感なベースからより注意深く導出される順序に敏感な戦略を導入する。 このデコーダは,低レベルスパンと高レベルスパンの組み合わせに対する粒度スコアリングスキームの決定において,既存のスパンベースのデコーダに対する一般化と見なすことができ,低レベルスパンの順序を重視し,順序に敏感なスパンスコアと順序に敏感な組合せ文法規則スコアを用いて予測精度を向上させる。 我々は,GPU並列性を利用した復号化戦略を実装し,最先端のスパンベースパーサと同等の復号化速度を実現する。 これまでの最先端モデルをベースラインとして追加データなしで使用することにより,penn treebankデータセットのf1スコアを0.26%,china treebankデータセットを0.35%改善した。

We propose a novel algorithm that improves on the previous neural span-based CKY decoder for constituency parsing. In contrast to the traditional span-based decoding, where spans are combined only based on the sum of their scores, we introduce an order-sensitive strategy, where the span combination scores are more carefully derived from an order-sensitive basis. Our decoder can be regarded as a generalization over existing span-based decoder in determining a finer-grain scoring scheme for the combination of lower-level spans into higher-level spans, where we emphasize on the order of the lower-level spans and use order-sensitive span scores as well as order-sensitive combination grammar rule scores to enhance prediction accuracy. We implement the proposed decoding strategy harnessing GPU parallelism and achieve a decoding speed on par with state-of-the-art span-based parsers. Using the previous state-of-the-art model without additional data as our baseline, we outperform it and improve the F1 score on the Penn Treebank Dataset by 0.26% and on the Chinese Treebank Dataset by 0.35%.
翻訳日:2022-11-02 12:39:37 公開日:2022-11-01
# 野生における解釈可能性:GPT-2小種の間接物体識別回路

Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small ( http://arxiv.org/abs/2211.00593v1 )

ライセンス: Link先を確認
Kevin Wang, Alexandre Variengien, Arthur Conmy, Buck Shlegeris and Jacob Steinhardt(参考訳) 機械的解釈可能性の研究は、内部コンポーネントの観点から機械学習モデルの振る舞いを説明することを目指している。 しかし、ほとんどの以前の研究は、小さなモデルにおける単純な振る舞いにフォーカスするか、より広いストロークを持つ大きなモデルで複雑な振る舞いを記述するかのどちらかである。 本稿では,このギャップを,間接オブジェクト識別 (IOI) と呼ばれる自然言語処理をGPT-2小で行う方法を説明することによって,橋渡しする。 26個の注意ヘッドを7つの主クラスに分類し, 因果的介入に依拠した解釈可能性アプローチを組み合わせることで考察した。 我々の知る限り、この調査は言語モデルにおいて「野生」の自然な振る舞いをリバースエンジニアリングする最大のエンドツーエンドの試みである。 説明の信頼性を,不完全性,完全性,最小性という3つの定量的基準を用いて評価した。 これらの基準は私たちの説明を支持していますが、理解の欠如も指摘しています。 私たちの研究は、大規模なMLモデルの機械的理解が実現可能であることを示し、より大きなモデルとより複雑なタスクの両方に理解を拡大する機会を開く。

Research in mechanistic interpretability seeks to explain behaviors of machine learning models in terms of their internal components. However, most previous work either focuses on simple behaviors in small models, or describes complicated behaviors in larger models with broad strokes. In this work, we bridge this gap by presenting an explanation for how GPT-2 small performs a natural language task called indirect object identification (IOI). Our explanation encompasses 26 attention heads grouped into 7 main classes, which we discovered using a combination of interpretability approaches relying on causal interventions. To our knowledge, this investigation is the largest end-to-end attempt at reverse-engineering a natural behavior "in the wild" in a language model. We evaluate the reliability of our explanation using three quantitative criteria--faithfulness, completeness and minimality. Though these criteria support our explanation, they also point to remaining gaps in our understanding. Our work provides evidence that a mechanistic understanding of large ML models is feasible, opening opportunities to scale our understanding to both larger models and more complex tasks.
翻訳日:2022-11-02 12:39:16 公開日:2022-11-01
# プロレベルの囲碁AIに対抗策

Adversarial Policies Beat Professional-Level Go AIs ( http://arxiv.org/abs/2211.00241v1 )

ライセンス: Link先を確認
Tony Tong Wang, Adam Gleave, Nora Belrose, Tom Tseng, Joseph Miller, Michael D Dennis, Yawen Duan, Viktor Pogrebniak, Sergey Levine, Stuart Russell(参考訳) 我々は,現在最先端の囲碁AIシステムであるKataGoを,凍ったKataGoの被害者と対戦する敵政策を訓練することによって攻撃する。 我々の攻撃は、検索なしのKataGoに対する99%の勝利率、そして、KataGoが超人に近いほど十分な検索を使用する場合の50%の勝利率を達成した。 私たちの知る限りでは、これは、トップヒューマンプロフェッショナルのレベルでプレーするGo AIに対する、最初のエンドツーエンドの攻撃の成功です。 特に、対戦相手は、カタゴより囲碁を上手に弾くことを学ぶことで勝てない ― 実際、対戦相手は人間のアマチュアに簡単に打ち負かされる。 その代わり、敵に有利な地点でカタゴを騙して早期に終了させることで勝利する。 その結果,プロレベルのaiシステムであっても,驚くべき障害モードを回避できることが分かった。 例えば、ゲームはhttps://goattack.alignmentfund.org/を参照。

We attack the state-of-the-art Go-playing AI system, KataGo, by training an adversarial policy that plays against a frozen KataGo victim. Our attack achieves a >99% win-rate against KataGo without search, and a >50% win-rate when KataGo uses enough search to be near-superhuman. To the best of our knowledge, this is the first successful end-to-end attack against a Go AI playing at the level of a top human professional. Notably, the adversary does not win by learning to play Go better than KataGo -- in fact, the adversary is easily beaten by human amateurs. Instead, the adversary wins by tricking KataGo into ending the game prematurely at a point that is favorable to the adversary. Our results demonstrate that even professional-level AI systems may harbor surprising failure modes. See https://goattack.alignmentfund.org/ for example games.
翻訳日:2022-11-02 12:38:57 公開日:2022-11-01
# SDCL:中国語スペルチェックのための自己拡張コントラスト学習

SDCL: Self-Distillation Contrastive Learning for Chinese Spell Checking ( http://arxiv.org/abs/2210.17168v2 )

ライセンス: Link先を確認
Xiaotian Zhang, Hang Yan, Sun Yu, Xipeng Qiu(参考訳) ホモホンの曖昧さのため、中国語のスペルチェック(csc)は広く応用されている。 既存のシステムは、通常、テキストエンコーディングにBERTを使用する。 しかし、CSCは音声情報とグラフ情報の両方を考慮する必要がある。 CSCタスクにBERTを適用するために,トークンレベルの自己蒸留コントラスト学習手法を提案する。 不正な文と対応する正しい文の両方を bert でエンコードする。 そして、比較学習損失を用いて、不正なトークンの隠れ状態が正しい文のそれに近いように規則化する。 3つのCSCデータセットに対して,本手法がベースラインよりも大幅に改善できることを確認した。

Due to the ambiguity of homophones, Chinese Spell Checking (CSC) has widespread applications. Existing systems typically utilize BERT for text encoding. However, CSC requires the model to account for both phonetic and graphemic information. To adapt BERT to the CSC task, we propose a token-level self-distillation contrastive learning method. We employ BERT to encode both the corrupted and corresponding correct sentence. Then, we use contrastive learning loss to regularize corrupted tokens' hidden states to be closer to counterparts in the correct sentence. On three CSC datasets, we confirmed our method provides a significant improvement above baselines.
翻訳日:2022-11-02 10:29:04 公開日:2022-11-01
# 変動低減データ共有によるロバストデータ評価

Robust Data Valuation via Variance Reduced Data Shapley ( http://arxiv.org/abs/2210.16835v2 )

ライセンス: Link先を確認
Mengmeng Wu, Ruoxi Jia, Changle Lin, Wei Huang, Xiangyu Chang(参考訳) データバリュエーション、特にアルゴリズム予測と意思決定におけるデータ価値の定量化は、データ取引シナリオにおいて根本的な問題である。 最も広く使われている方法は、データシャプリーを定義し、置換サンプリングアルゴリズムを用いて近似することである。 本研究では,データマーケットプレースの発展を妨げる置換サンプリングの大規模な推定分散を補うために,分散低減データ共有(VRDS)と呼ばれる階層化サンプリングを用いたより堅牢なデータ評価手法を提案する。 理論的には、階層化の方法、各層で採取されたサンプル数、vrdのサンプル複雑性分析などを示す。 最後に、VRDSの有効性は、異なるタイプのデータセットとデータ削除アプリケーションで示される。

Data valuation, especially quantifying data value in algorithmic prediction and decision-making, is a fundamental problem in data trading scenarios. The most widely used method is to define the data Shapley and approximate it by means of the permutation sampling algorithm. To make up for the large estimation variance of the permutation sampling that hinders the development of the data marketplace, we propose a more robust data valuation method using stratified sampling, named variance reduced data Shapley (VRDS for short). We theoretically show how to stratify, how many samples are taken at each stratum, and the sample complexity analysis of VRDS. Finally, the effectiveness of VRDS is illustrated in different types of datasets and data removal applications.
翻訳日:2022-11-02 10:28:52 公開日:2022-11-01
# 複数攻撃の有無を考慮したアンサンブルネットワークによる高スペクトル対向ロバスト性の改善

Improving Hyperspectral Adversarial Robustness using Ensemble Networks in the Presences of Multiple Attacks ( http://arxiv.org/abs/2210.16346v2 )

ライセンス: Link先を確認
Nicholas Soucy and Salimeh Yasaei Sekeh(参考訳) ハイパースペクトル画像のセマンティックセグメンテーション(HSI)は近年,ディープラーニングRGB分類モデルからの知識を取り入れて大きな進歩を遂げている。 分類モデルと同様に、セグメンテーションモデルは敵の例に対して脆弱であり、それらに対抗するために敵の訓練を必要とする。 敵対的ロバストネスに対する従来のアプローチは、攻撃されたデータに対する単一のネットワークのトレーニングや再トレーニングに重点を置いているが、複数の攻撃が存在する場合には、各攻撃で個別に訓練されたネットワークと比較してパフォーマンスが低下する。 この課題に対処するため,ネットワーク全体のロバスト化を図り,データタイプ毎の重みを最適に保持する統一モデルの下で,攻撃型検出と敵のロバスト性に着目したADE-Net(Adversarial Discriminator Ensemble Network)を提案する。 提案手法では,攻撃型別データを特定の攻撃経験アンサンブルネットワークに分離するために識別器ネットワークを用いる。 このアプローチでは,複数の攻撃が混在すると同時に,テスト中に攻撃タイプをラベル付けすることが可能である。 ADE-Netは、HSI Indian Pines, Kennedy Space, Houstonのデータセットに対して、複数の攻撃を交互に訓練した単一のネットワークである。

Semantic segmentation of hyperspectral images (HSI) has seen great strides in recent years by incorporating knowledge from deep learning RGB classification models. Similar to their classification counterparts, semantic segmentation models are vulnerable to adversarial examples and need adversarial training to counteract them. Traditional approaches to adversarial robustness focus on training or retraining a single network on attacked data, however, in the presence of multiple attacks these approaches decrease the performance compared to networks trained individually on each attack. To combat this issue we propose an Adversarial Discriminator Ensemble Network (ADE-Net) which focuses on attack type detection and adversarial robustness under a unified model to preserve per data-type weight optimally while robustifiying the overall network. In the proposed method, a discriminator network is used to separate data by attack type into their specific attack-expert ensemble network. Our approach allows for the presence of multiple attacks mixed together while also labeling attack types during testing. We experimentally show that ADE-Net outperforms the baseline, which is a single network adversarially trained under a mix of multiple attacks, for HSI Indian Pines, Kennedy Space, and Houston datasets.
翻訳日:2022-11-02 10:28:39 公開日:2022-11-01
# モーダル論理による統計的因果関係の定式化

Formalizing Statistical Causality via Modal Logic ( http://arxiv.org/abs/2210.16751v2 )

ライセンス: Link先を確認
Yusuke Kawamoto, Tetsuya Sato, Kohei Suenaga(参考訳) 統計的因果関係を記述・説明するための形式言語を提案する。 具体的には、確率変数に対する因果効果を特定するための統計的因果言語(StaCL)を定義する。 staclは、クリプケモデルにおいて、異なる可能な世界における確率分布間の因果特性を表現するために介入のためにモード演算子を組み込んでいる。 確率分布,介入,因果述語に対する公理を StaCL 式を用いて定式化する。 これらの公理はパールのdo-calculusの規則を導出するのに十分表現的である。 最後に,StaCLが統計的因果推論の正しさの証明と説明に利用できることを示す。

We propose a formal language for describing and explaining statistical causality. Concretely, we define Statistical Causality Language (StaCL) for specifying causal effects on random variables. StaCL incorporates modal operators for interventions to express causal properties between probability distributions in different possible worlds in a Kripke model. We formalize axioms for probability distributions, interventions, and causal predicates using StaCL formulas. These axioms are expressive enough to derive the rules of Pearl's do-calculus. Finally, we demonstrate by examples that StaCL can be used to prove and explain the correctness of statistical causal inference.
翻訳日:2022-11-02 10:28:14 公開日:2022-11-01
# 観測可能な完全平衡

Observable Perfect Equilibrium ( http://arxiv.org/abs/2210.16506v2 )

ライセンス: Link先を確認
Sam Ganzfried(参考訳) ナッシュ均衡はゲーム理論の中心的な概念として現れてきたが、多くの重要なゲームにはナッシュ均衡がいくつか含まれており、実際の戦略エージェントを作成するためにそれらの間の選択方法を決定する必要がある。 いくつかのナッシュ均衡改善の概念が提案され、シーケンシャル不完全情報ゲームのために研究され、最も顕著なのはトレムリングハンド完全均衡、準完全均衡、そして最近の片側準完全均衡である。 これらの概念は、任意の小さな誤りに対して頑健であり、常に存在することが保証されているが、不完全な情報の連続的なゲームにおいて強力なエージェントを開発するための正しい概念ではないと主張する。 我々は、可観測完全均衡(observable perfect equilibrium)と呼ばれる拡張形式のゲームに対して、解が公然と観測可能な作用確率(相手プレイヤーによって観測できないかもしれない全ての作用確率)の反動に対して頑健であるような新しい平衡改善概念を定義する。 可観測完全均衡(Observable perfect equilibrium)は、相手が観測された誤りに対して可能な限り合理的にプレイしているという仮定を正しく捉える(ただし、以前の解の概念はそうではない)。 我々は観測可能な完全平衡が常に存在することを証明し、それが以前の無制限ポーカーの広範囲な改良とは異なる解決策をもたらすことを証明している。 観測可能な完全均衡は、人工知能に興味を持つ多くの重要な不完全情報ゲームをモデリングするための有用な均衡洗練概念であることを期待している。

While Nash equilibrium has emerged as the central game-theoretic solution concept, many important games contain several Nash equilibria and we must determine how to select between them in order to create real strategic agents. Several Nash equilibrium refinement concepts have been proposed and studied for sequential imperfect-information games, the most prominent being trembling-hand perfect equilibrium, quasi-perfect equilibrium, and recently one-sided quasi-perfect equilibrium. These concepts are robust to certain arbitrarily small mistakes, and are guaranteed to always exist; however, we argue that neither of these is the correct concept for developing strong agents in sequential games of imperfect information. We define a new equilibrium refinement concept for extensive-form games called observable perfect equilibrium in which the solution is robust over trembles in publicly-observable action probabilities (not necessarily over all action probabilities that may not be observable by opposing players). Observable perfect equilibrium correctly captures the assumption that the opponent is playing as rationally as possible given mistakes that have been observed (while previous solution concepts do not). We prove that observable perfect equilibrium is always guaranteed to exist, and demonstrate that it leads to a different solution than the prior extensive-form refinements in no-limit poker. We expect observable perfect equilibrium to be a useful equilibrium refinement concept for modeling many important imperfect-information games of interest in artificial intelligence.
翻訳日:2022-11-02 10:28:05 公開日:2022-11-01
# 教師付きコントラスト学習を用いた音響エコーキャンセラのための適応型音声品質認識複合ニューラルネットワーク

Adaptive Speech Quality Aware Complex Neural Network for Acoustic Echo Cancellation with Supervised Contrastive Learning ( http://arxiv.org/abs/2210.16791v2 )

ライセンス: Link先を確認
Bozhong Liu, Xiaoxi Yu, Hantao Huang(参考訳) 音響エコーキャンセリング(AEC)は、マイクロホン信号からエコー、残響、不要な付加音を除去し、ニアエンド話者の音声の品質を維持するように設計されている。 本稿では,適応型音声品質複雑なニューラルネットワークを提案する。 具体的には,特徴抽出,音響分離,マスク最適化に着目し,異なる段階の複雑なモジュール化ニューラルネットワークを提案する。 さらに、コントラスト学習フレームワークと新たな音声品質認識損失関数を採用し、さらに性能を向上させる。 このモデルは、事前訓練に72時間、微調整に72時間で訓練される。 提案したモデルは最先端の性能より優れている。

Acoustic echo cancellation (AEC) is designed to remove echoes, reverberation, and unwanted added sounds from the microphone signal while maintaining the quality of the near-end speaker's speech. This paper proposes adaptive speech quality complex neural networks to focus on specific tasks for real-time acoustic echo cancellation. In specific, we propose a complex modularize neural network with different stages to focus on feature extraction, acoustic separation, and mask optimization receptively. Furthermore, we adopt the contrastive learning framework and novel speech quality aware loss functions to further improve the performance. The model is trained with 72 hours for pre-training and then 72 hours for fine-tuning. The proposed model outperforms the state-of-the-art performance.
翻訳日:2022-11-02 10:27:42 公開日:2022-11-01