このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221202となっている論文です。

PDF登録状況(公開日: 20221202)

TitleAuthorsAbstract論文公表日・翻訳日
# Bosonic Käskit

Bosonic Qiskit ( http://arxiv.org/abs/2209.11153v2 )

ライセンス: Link先を確認
Timothy J Stavenger, Eleanor Crane, Kevin Smith, Christopher T Kang, Steven M Girvin, Nathan Wiebe(参考訳) The practical benefits of hybrid quantum information processing hardware that contains continuous-variable objects (bosonic modes such as mechanical or electromagnetic oscillators) in addition to traditional (discrete-variable) qubits have recently been demonstrated by experiments with bosonic codes that reach the break-even point for quantum error correction and by efficient Gaussian boson sampling simulation of the Franck-Condon spectra of triatomic molecules that is well beyond the capabilities of current qubit-only hardware. このC2QA(Co-Design Center for Quantum Advantage)プロジェクトの目標は、そのようなハードウェアで可能な基本的な操作と測定の在庫を含むハイブリッド量子ビット/ボソニックモードシステムのための命令セットアーキテクチャ(ISA)を開発することである。 対応する抽象機械モデル(AMM)には、ハードウェアのゲート、測定、時間進化に関連する適切なエラーモデルの記述も含まれている。 この情報はQiskitの拡張として実装されている。 Qiskitは、Python 3.7+のシステム上で量子回路の量子状態をシミュレートし、IBM Quantum Lab内のプロトタイプハードウェア上で同じ回路を実行するためのオープンソースソフトウェア開発ツールキット(SDK)である。 本稿では,既存のQiskitソフトウェア開発キットを用いて,ハイブリッド量子ビット/ボソニックシステムのシミュレーションを可能にするBosonic Qiskitソフトウェアを紹介する。 この実装は、新しいハイブリッドシステムのシミュレーション、提案された物理システムの検証、現在構築されている以上のモデリングシステムに使用することができる。 また,jaynes-cummingsモデル,bosonic hubbardモデル,wigner関数とアニメーションのプロット,wigner関数を用いた最大推定値の計算など,ソフトウェアに含まれるチュートリアルやユースケースについても紹介する。

The practical benefits of hybrid quantum information processing hardware that contains continuous-variable objects (bosonic modes such as mechanical or electromagnetic oscillators) in addition to traditional (discrete-variable) qubits have recently been demonstrated by experiments with bosonic codes that reach the break-even point for quantum error correction and by efficient Gaussian boson sampling simulation of the Franck-Condon spectra of triatomic molecules that is well beyond the capabilities of current qubit-only hardware. The goal of this Co-design Center for Quantum Advantage (C2QA) project is to develop an instruction set architecture (ISA) for hybrid qubit/bosonic mode systems that contains an inventory of the fundamental operations and measurements that are possible in such hardware. The corresponding abstract machine model (AMM) would also contain a description of the appropriate error models associated with the gates, measurements and time evolution of the hardware. This information has been implemented as an extension of Qiskit. Qiskit is an opensource software development toolkit (SDK) for simulating the quantum state of a quantum circuit on a system with Python 3.7+ and for running the same circuits on prototype hardware within the IBM Quantum Lab. We introduce the Bosonic Qiskit software to enable the simulation of hybrid qubit/bosonic systems using the existing Qiskit software development kit. This implementation can be used for simulating new hybrid systems, verifying proposed physical systems, and modeling systems larger than can currently be constructed. We also cover tutorials and example use cases included within the software to study Jaynes- Cummings models, bosonic Hubbard models, plotting Wigner functions and animations, and calculating maximum likelihood estimations using Wigner functions.
翻訳日:2023-01-25 18:00:24 公開日:2022-12-02
# 長距離自由フェルミオン:リーブ-ロビンソン結合、クラスタリング特性、位相相

Long-Range Free Fermions: Lieb-Robinson Bound, Clustering Properties, and Topological Phases ( http://arxiv.org/abs/2210.05389v2 )

ライセンス: Link先を確認
Zongping Gong, Tommaso Guaita, J. Ignacio Cirac(参考訳) 我々は任意の次元の格子上に存在する自由フェルミオンを考える。 我々は、このパワーが空間的次元(すなわち、単一粒子エネルギーが有界であることが保証される)よりも大きい状態に焦点を当て、それらの平衡特性と非平衡特性に関する包括的制約を包括的に与える。 まず、空間的尾において最適であるリーブ・ロビンソン境界を導出する。 この境界は、その変数がエネルギースペクトルの外側にあるとき、グリーン関数に対して本質的に同じパワー則を持つクラスタリング特性を意味する。 基底状態相関関数のクラスタリング特性は広く信じられている(しかし、この体制では証明されていない)。 最後に、これらの結果が長距離自由フェルミオン系の位相相に与える影響について論じ、ハミルトニアンと状態に基づく定義の同値性を正当化し、空間次元よりも大きい減衰力を持つ系への短距離位相分類の拡張について論じる。 さらに、全ての短距離位相位相位相は、このパワーがより小さくなるたびに統一されると主張する。

We consider free fermions living on lattices in arbitrary dimensions, where hopping amplitudes follow a power-law decay with respect to the distance. We focus on the regime where this power is larger than the spatial dimension (i.e., where the single particle energies are guaranteed to be bounded) for which we provide a comprehensive series of fundamental constraints on their equilibrium and nonequilibrium properties. First we derive a Lieb-Robinson bound which is optimal in the spatial tail. This bound then implies a clustering property with essentially the same power law for the Green's function, whenever its variable lies outside the energy spectrum. The widely believed (but yet unproven in this regime) clustering property for the ground-state correlation function follows as a corollary among other implications. Finally, we discuss the impact of these results on topological phases in long-range free-fermion systems: they justify the equivalence between Hamiltonian and state-based definitions and the extension of the short-range phase classification to systems with decay power larger than the spatial dimension. Additionally, we argue that all the short-range topological phases are unified whenever this power is allowed to be smaller.
翻訳日:2023-01-22 22:30:45 公開日:2022-12-02
# シングルモードおよびマルチモードのゴテスマン・キタエフ・プレスキル符号に対する安定化器サブシステム分解

Stabilizer subsystem decompositions for single- and multi-mode Gottesman-Kitaev-Preskill codes ( http://arxiv.org/abs/2210.14919v2 )

ライセンス: Link先を確認
Mackenzie H. Shaw, Andrew C. Doherty, Arne L. Grimsmo(参考訳) Gottesman-Kitaev-Preskill (GKP) 誤り訂正符号は1つ以上のボゾンモードで有限次元の論理空間を符号化しており、近年は閉じ込められたイオンと超伝導マイクロ波空洞で実証されている。 本研究では、GKP符号に対する新しいサブシステム分解を導入し、量子安定化器符号に対する通常のアプローチに類似した安定化器サブシステム分解と呼ぶ。 この分解は、非論理安定器サブシステム上の部分トレースが論理状態の理想的な復号と等価であるという定義性を有する。 本稿では,GKP符号の分解の間を移動する変換の集合を用いて,サブシステム分解の任意の状態を分解する方法を説明する。 GKP符号の便利な理論的ビューを提供する以外に、そのような分解は実用的にも有用である。 我々は、単一モードGKP符号に作用する雑音を効率的にシミュレートするために安定化器サブシステム分解を用い、従来のフォックベースシミュレーションとは対照的に、損失やデフォーカスのような現実的なノイズチャネルに対して本質的に大きな光子数を考えることができる。

The Gottesman-Kitaev-Preskill (GKP) error correcting code encodes a finite dimensional logical space in one or more bosonic modes, and has recently been demonstrated in trapped ions and superconducting microwave cavities. In this work we introduce a new subsystem decomposition for GKP codes that we call the stabilizer subsystem decomposition, analogous to the usual approach to quantum stabilizer codes. The decomposition has the defining property that a partial trace over the non-logical stabilizer subsystem is equivalent to an ideal decoding of the logical state. We describe how to decompose arbitrary states across the subsystem decomposition using a set of transformations that move between the decompositions of different GKP codes. Besides providing a convenient theoretical view on GKP codes, such a decomposition is also of practical use. We use the stabilizer subsystem decomposition to efficiently simulate noise acting on single-mode GKP codes, and in contrast to more conventional Fock basis simulations, we are able to to consider essentially arbitrarily large photon numbers for realistic noise channels such as loss and dephasing.
翻訳日:2023-01-21 13:05:13 公開日:2022-12-02
# 量子コンピュータにおける衝突子の実現 - ビッグデータのための量子機械学習の課題に対処する

Fitting a Collider in a Quantum Computer: Tackling the Challenges of Quantum Machine Learning for Big Datasets ( http://arxiv.org/abs/2211.03233v2 )

ライセンス: Link先を確認
Miguel Ca\c{c}ador Peixoto, Nuno Filipe Castro, Miguel Crispim Rom\~ao, Maria Gabriela Jord\~ao Oliveira, In\^es Ochoa(参考訳) 現在の量子系は、大きなデータセットの処理や高エネルギー物理学の典型的な高次元性に重大な制限がある。 本研究では, この課題に対処するため, 特徴およびデータプロトタイプの選択手法について検討した。 グリッド検索を行い、量子機械学習モデルをトレーニングし、データセットの縮小と完全の両方でトレーニングされた古典的な浅層機械学習手法に対してベンチマークを行った。 量子アルゴリズムの性能は、大規模なデータセットを使用しても、古典的なアルゴリズムに匹敵することがわかった。

Current quantum systems have significant limitations affecting the processing of large datasets and high dimensionality typical of high energy physics. In this work, feature and data prototype selection techniques were studied to tackle this challenge. A grid search was performed and quantum machine learning models were trained and benchmarked against classical shallow machine learning methods, trained both in the reduced and the complete datasets. The performance of the quantum algorithms was found to be comparable to the classical ones, even when using large datasets.
翻訳日:2023-01-20 04:22:08 公開日:2022-12-02
# マトリックス生成物状態を有する量子多体スカーレッド固有状態の抽出

Extracting Quantum Many-body Scarred Eigenstates with Matrix Product States ( http://arxiv.org/abs/2211.05140v2 )

ライセンス: Link先を確認
Shun-Yao Zhang, Dong Yuan, Thomas Iadecola, Shenglong Xu and Dong-Ling Deng(参考訳) 量子多体散乱系は、熱の海に浸漬された非熱的励起固有状態を持つ。 これらの特別な固有状態の正確な表現が知られていない場合、指数関数的に多くの熱近傍と区別することが計算上要求される。 本稿では,DMRG-Sと呼ばれる行列生成物状態(MPS)アルゴリズムを提案する。 この手法を用いて,80地点までのrydberg-blockaded chainのscarred eigenstatesを求め,熱力学的極限におけるn-eel状態の安定性に関する長引く問題に対処するための有限スケール研究を行う。 また,本手法は,事前知識を必要とせず,目標エネルギー近傍の散乱固有状態に対して,正確なMPS表現を得るための体系的な方法も提供する。 特に、速度論的に制約されたスピンおよびクロックモデルにおいて、正確なMPS表現を持つ新しいスカーレッド固有状態がいくつか見つかる。

Quantum many-body scarred systems host nonthermal excited eigenstates immersed in a sea of thermal ones. In cases where exact expressions for these special eigenstates are not known, it is computationally demanding to distinguish them from their exponentially many thermal neighbors. We propose a matrix-product-state (MPS) algorithm, dubbed DMRG-S, to extract such states at system sizes far beyond the scope of exact diagonalization. Using this technique, we obtain scarred eigenstates in Rydberg-blockaded chains of up to 80 sites and perform a finite-size scaling study to address the lingering question of the stability for the N\'eel state revivals in the thermodynamic limit. Our method also provides a systematic way to obtain exact MPS representations for scarred eigenstates near the target energy without a priori knowledge. In particular, we find several new scarred eigenstates with exact MPS representations in kinetically constrained spin and clock models.
翻訳日:2023-01-19 20:30:12 公開日:2022-12-02
# 対称展開を持つ回転対称ボゾン符号の量子誤差緩和

Quantum error mitigation for rotation symmetric bosonic codes with symmetry expansion ( http://arxiv.org/abs/2211.06164v2 )

ライセンス: Link先を確認
Suguru Endo, Yasunari Suzuki, Kento Tsubouchi, Rui Asaoka, Kaoru Yamamoto, Yuichiro Matsuzaki, Yuuki Tokunaga(参考訳) 回転対称ボソニック符号(英: rotation symmetric bosonic code、RSBC)は、猫符号や二項符号のような回転対称性を持つ実用ボソニック符号の統一的な枠組みである。 猫符号は、符号化された量子ビットのコヒーレンス時間が未符号化の量子ビットのコヒーレンス時間を超え、その点にほぼ近づいた二項符号を達成できるが、実用的な量子コンピューティングでは、状態準備忠実性は改善されなければならない。 この問題に関して,本システム固有の対称性を活用し,測定結果を後処理することにより,ノイズのない対称部分空間に仮想的に状態を投影する量子誤差緩和のクラスである対称性拡張の枠組みについて検討する。 対称性拡張は測定直前の量子状態の誤差緩和に限られているが、状態生成のための対称性拡張の一般化に成功した。 本手法の実装には,ボソニックコード状態とアンシラキュービット間の分散相互作用を通じて,アンシラキュービットと2つの制御回転ゲートのみを用いる。 興味深いことに、この手法によりRSBC状態は、例えばコヒーレントな状態からのみ仮想的に準備できる。 また,ローテーションボゾン符号の対称性が測定精度の低いため利用できない場合,従来の対称性拡張プロトコルを用いて計算精度を向上させることについても論じる。 誤差緩和状態と理想状態との間のトレース距離と量子誤差緩和のサンプリングコストに関する包括的・数値的な議論を行い、対称性拡大が光子損失の影響を劇的に抑制することを示した。 我々の新しい誤差軽減手法は、短期ボゾン量子コンピューティングパラダイムにおける計算精度を大幅に向上させる。

The rotation symmetric bosonic code (RSBC) is a unified framework of practical bosonic codes that have rotation symmetries, such as cat codes and binomial codes. While cat codes achieve the break-even point in which the coherence time of the encoded qubits exceeds that of unencoded qubits, with binomial codes nearly approaching that point, the state preparation fidelity needs to be still improved for practical quantum computing. Concerning this problem, we investigate the framework of symmetry expansion, a class of quantum error mitigation that virtually projects the state onto the noise-free symmetric subspace by exploiting the system's intrinsic symmetries and post-processing of measurement outcomes. Although symmetry expansion has been limited to error mitigation of quantum states immediately before measurement, we successfully generalize symmetry expansion for state preparation. To implement our method, we use an ancilla qubit and only two controlled-rotation gates via dispersive interactions between the bosonic code states and the ancilla qubit. Interestingly, this method also allows us to virtually prepare the RSBC states only from easy-to-prepare states, e.g., coherent states. We also discuss that the conventional symmetry expansion protocol can be applied to improve the computation fidelity when the symmetries of rotation bosonic codes are unavailable due to low measurement fidelity. By giving comprehensive analytical and numerical arguments regarding the trace distance between the error-mitigated state and the ideal state and the sampling cost of quantum error mitigation, we show that symmetry expansion dramatically suppresses the effect of photon loss. Our novel error mitigation method will significantly enhance computation accuracy in the near-term bosonic quantum computing paradigm.
翻訳日:2023-01-19 18:37:44 公開日:2022-12-02
# 周期駆動超低温原子を用いた非可換キラルスピン液体の工学と探索

Engineering and probing non-Abelian chiral spin liquids using periodically driven ultracold atoms ( http://arxiv.org/abs/2211.09777v2 )

ライセンス: Link先を確認
Bo-Ye Sun, Nathan Goldman, Monika Aidelsburger, Marin Bukov(参考訳) 量子シミュレータを用いた非可換キラルスピン液体の実現と探索を目的として,周期(フロッケ)駆動に基づく寒冷原子を用いたキタエフのハニカムモデルの実装法を提案する。 実効的なハミルトニアンを逆周波数展開における主次数に導出し、実効的なマヨラナと渦の自由度を混ぜることなくスペクトルの位相的ギャップを開くことを示した。 我々は、マヨルダナフェルミオンの物理を探索する課題に対処し、元の合成スピン自由度にのみアクセスする。 具体的には,Floquetドライブの存在下でのギャップ分光とエッジクエンチを用いて,キラルスピン液体相の性質を検出することを提案する。 その結果得られるキラルエッジ信号は、中性マヨラナ電流に関連する熱ホール効果と関連しており、現実的に準備された状態に対して頑健であることが判明した。 フロッケ工学と強い相互作用を組み合わせることで、量子シミュレータを用いた非可換励起と量子化熱輸送の将来研究への道を開く。

We propose a scheme to implement Kitaev's honeycomb model with cold atoms, based on a periodic (Floquet) drive, in view of realizing and probing non-Abelian chiral spin liquids using quantum simulators. We derive the effective Hamiltonian to leading order in the inverse-frequency expansion, and show that the drive opens up a topological gap in the spectrum without mixing the effective Majorana and vortex degrees of freedom. We address the challenge of probing the physics of Majorana fermions, while having only access to the original composite spin degrees of freedom. Specifically, we propose to detect the properties of the chiral spin liquid phase using gap spectroscopy and edge quenches in the presence of the Floquet drive. The resulting chiral edge signal, which relates to the thermal Hall effect associated with neutral Majorana currents, is found to be robust for realistically-prepared states. By combining strong interactions with Floquet engineering, our work paves the way for future studies of non-Abelian excitations and quantized thermal transport using quantum simulators.
翻訳日:2023-01-19 06:40:58 公開日:2022-12-02
# 非定常ポンピングカルシウム原子の超ラジアントパルスによる周波数測定:量子測定バックアクションの役割

Frequency Measurement with Superradiant Pulses of Incoherently Pumped Calcium Atoms: Role of Quantum Measurement Backaction ( http://arxiv.org/abs/2211.13068v2 )

ライセンス: Link先を確認
Huihui Yu, Yuan Zhang, Qilong Wu, Chongxin Shan, Klaus M{\o}lmer(参考訳) 最近の実験では、光学格子時計系におけるコヒーレン励起ストロンチウム原子からの超ラジカルパルスを用いたヘテロダイン検出に基づく周波数測定が実証されている。 本稿では,カルシウム原子からの超ラジアントパルスのヘテロダイン検出を行い,それに対応する原子アンサンブルダイナミクスを,超ラジアントディッケ状態における集団スピンベクトルの回転と非コヒーレント量子ジャンプの観点から理論的に解析する。 量子計測のバックアクションが放射場と集合スピンベクトルダイナミクスに与える影響を考察し,周波数測定のモデル化において重要な役割を担っていることを実証する。 我々は、定常超放射光信号を用いた周波数測定のモデル化にも適用可能な確率平均場理論を開発し、原子アンサンブルの力学における量子測定効果を探索する。

A recent experiment demonstrated heterodyne detection-based frequency measurements with superradiant pulses from coherently pumped strontium atoms in an optical lattice clock system, while another experiment has analyzed the statistics of superradiant pulses from incoherently pumped calcium atoms in a similar system. In this article, we propose to perform heterodyne detection of the superradiant pulses from the calcium atoms, and analyze theoretically the corresponding atomic ensemble dynamics in terms of the rotation of a collective spin vector and the incoherent quantum jumps among superradiant Dicke states. We examine the effect of quantum measurement backaction on the emitted field and the collective spin vector dynamics, and we demonstrate that it plays an essential role in the modelling of the frequency measurements. We develop a stochastic mean field theory, which is also applicable to model frequency measurements with steady-state superradiance signals, and to explore quantum measurement effects in the dynamics of atomic ensembles.
翻訳日:2023-01-19 01:33:02 公開日:2022-12-02
# 摂動ハミルトン進化下における量子トモグラフィーと誤差のスクランブル -カオスの量子的シグネチャ-

Quantum tomography under perturbed Hamiltonian evolution and scrambling of errors -- a quantum signature of chaos ( http://arxiv.org/abs/2211.11221v2 )

ライセンス: Link先を確認
Abinash Sahu, Naga Dileep Varikuti, and Vaibhav Madhok(参考訳) マルチボディカオス力学の量子シミュレーションは、量子情報の急激なスクランブルとシステム全体のエラーを引き起こすノイズの下でどのように振る舞うのか? 本研究のパラダイムとして連続計測量子トモグラフィーを用いる。 測定記録は、量子キックトップのフロッケマップの繰り返し適用下で進化するエルミート可観測体の期待値の列として生成される。 興味深いことに、リコンストラクションの忠実度は、カオスの度合いや力学の摂動の強さに関わらず、最初は増加する。 ランダム状態の場合、測定記録がランダムな初期観測値から得られた場合、得られた忠実度のその後の低下は、力学におけるカオスの度合いと逆相関する。 さらに重要なことは、量子トモグラフィーの性能に接続することで演算子に対するLoschmidtエコーの操作的解釈を与えることである。 カオスのシグネチャとして機能し,エラーの拡散を定量化する,乱れと乱れのない2つの演算子間の時間外のコリレータ(otoc)であるエラーのスクランブルをキャプチャする量を定義する。 この結果から,ロシミットエコーとOTOCが捉えた誤差のスクランブルの基本的な関係だけでなく,そのようなリンクが量子情報処理に有効であることを示す。

How do quantum simulations of many-body chaotic dynamics behave under noise that will lead to a rapid scrambling of quantum information as well as errors across the system? We employ continuous measurement quantum tomography as a paradigm to study this question. The measurement record is generated as a sequence of expectation values of a Hermitian observable evolving under the repeated application of the Floquet map of the quantum kicked top. Interestingly, we find that the reconstruction fidelity initially increases regardless of the degree of chaos or the strength of perturbations in the dynamics. For random states, when the measurement record is obtained from a random initial observable, the subsequent drop in the fidelity obtained is inversely correlated to the degree of chaos in the dynamics. More importantly, this also gives us an operational interpretation of Loschmidt echo for operators by connecting it to the performance of quantum tomography. We define a quantity to capture the scrambling of errors, an out-of-time-ordered correlator (OTOC) between two operators under perturbed and unperturbed system dynamics that serves as a signature of chaos and quantifies the spread of errors. Our results demonstrate not only a fundamental link between Loschmidt echo and scrambling of errors as captured by OTOCs but that such a link can have operational consequences in quantum information processing.
翻訳日:2023-01-17 23:33:35 公開日:2022-12-02
# 第一世代商用量子ネットワークのアーキテクチャ

Architecture of a First-Generation Commercial Quantum Network ( http://arxiv.org/abs/2211.14871v2 )

ライセンス: Link先を確認
Duncan Earl, K Karunaratne, Jason Schaake, Ryan Strum, Patrick Swingle, Ryan Wilson(参考訳) 第一世代の商用量子ネットワークにおけるアーキテクチャと短期ユースケースについて述べる。 ネットワークの運用と管理に必要なハードウェアとソフトウェアの基本要素を定義します。 最後に、このネットワークの構成を短期消費者アプリケーションに適用し、量子情報科学コミュニティの幅広い技術的目標をどのように支援できるかを提案する。

We present the architecture and near-term use cases for a first-generation commercial quantum network. We define the foundational hardware and software elements required to operate and manage the network. Finally, we discuss the configuration of this network for near-term consumer applications and propose how the network can support the broader technical goals of the quantum information science community.
翻訳日:2023-01-17 15:16:58 公開日:2022-12-02
# 2体クーロン問題と$g^{(2)}$代数(水素原子についての再検討)

Two-body Coulomb problem and $g^{(2)}$ algebra (once again about the Hydrogen atom) ( http://arxiv.org/abs/2212.03108v1 )

ライセンス: Link先を確認
Alexander V Turbiner and Adrian M Escobar Ruiz(参考訳) 水素原子を例にとると、3次元系の対称性が $o(2) \oplus z_2$ であれば、変数 $(r, \rho, \varphi)$ は変数 $\varphi$ の分離を許容し、固有関数は2つの変数 $(r, \rho^2)$ の直交多項式の新しい族を定義する。 これらの多項式は代数 $gl(2) \ltimes {\it r}^3 \in g^{(2)}$ の有限次元表現と関係しており、これは行上の 3 体の $g_2$ 有理可積分系の隠れ代数として現れる(ウルフモデル)。 すなわち、これらの多項式は水素原子に対するゼーマン効果の研究に現れる。

Taking the Hydrogen atom as an example it is shown that if the symmetry of the three-dimensional system is $O(2) \oplus Z_2$, the variables $(r, \rho, \varphi)$ allow a separation of variable $\varphi$ and the eigenfunctions define a new family of orthogonal polynomials in two variables, $(r, \rho^2)$. These polynomials are related with the finite-dimensional representations of the algebra $gl(2) \ltimes {\it R}^3 \in g^{(2)}$, which occurs as the hidden algebra of the $G_2$ rational integrable system of 3 bodies on the line (the Wolfes model). Namely, those polynomials occur in the study of the Zeeman effect on Hydrogen atom.
翻訳日:2023-01-09 23:07:47 公開日:2022-12-02
# グループ型トーリック符号

Groupoid Toric Codes ( http://arxiv.org/abs/2212.01021v1 )

ライセンス: Link先を確認
Pramod Padmanabhan, Indrajit Jana(参考訳) トーリック符号は、向き付けられた2次元格子上の有限群のゲージ理論として構築することができる。 ここでは、すべての射が逆元を持つ圏である群群に属するゲージ場を持つ類似モデルを構築する。 任意の群群に対して一貫した系を構築し、アーベルの$\mathbb{z}_2$ toric符号の類似と見なすことのできる最も単純な例を解析できることを示す。 フラクトンのような機能を持ち、広い基底状態の縮退や、非移動性か制限された移動性を持つ励起を含む、正確に解決可能なモデルがいくつかあります。 我々は、基底状態の縮退度が2\times 2^{n_v}$となる可能性について詳細に研究し、ここでは$n_v$は格子内の頂点の数である。 この縮退の起源は、縮約ループと非縮約ループの両方でサポートされているループ作用素に遡ることができる。 特に、トーラス上の同じ方向に沿って異なる非可縮なループは、異なる基底状態をもたらす。 これは、このコードでエンコードできる論理量子ビットの数が指数関数的に増加することである。 さらに、この系の顔励起は分解され、格子の特定の方向に沿ってエネルギーコストなしで自由に動くが、他の方向にはエネルギーコストが発生する。 これにより、基底状態の縮退に寄与するループ演算子の種類に制限が課される。 頂点励起は不動である。 結果は、アーベルの$\mathbb{z}_n$ toric符号の群状アナログにも拡張される。

The toric code can be constructed as a gauge theory of finite groups on oriented two dimensional lattices. Here we construct analogous models with the gauge fields belonging to groupoids, which are categories where every morphism has an inverse. We show that a consistent system can be constructed for an arbitrary groupoid and analyze the simplest example that can be seen as the analog of the Abelian $\mathbb{Z}_2$ toric code. We find several exactly solvable models that have fracton-like features which include an extensive ground state degeneracy and excitations that are either immobile or have restricted mobility. Among the possibilities we study in detail the one where the ground state degeneracy scales as $2\times 2^{N_v}$, where $N_v$ is the number of vertices in the lattice. The origin of this degeneracy can be traced to loop operators supported on both contractible and non-contractible loops. In particular, different non-contractible loops, along the same direction on a torus, result in different ground states. This is an exponential increase in the number of logical qubits that can be encoded in this code. Moreover the face excitations in this system are deconfined, free to move without an energy cost along certain directions of the lattice, whereas in certain other directions their movement incurs an energy cost. This places a restriction on the types of loop operators that contribute to the ground state degeneracy. The vertex excitations are immobile. The results are also extended to the groupoid analogs of Abelian $\mathbb{Z}_N$ toric codes.
翻訳日:2023-01-09 23:07:14 公開日:2022-12-02
# 逆数量子仮説の有限繰り返し試験

Finitely Repeated Adversarial Quantum Hypothesis Testing ( http://arxiv.org/abs/2212.02314v1 )

ライセンス: Link先を確認
Yinan Hu, Quanyan Zhu(参考訳) 有限サンプルサイズの設定の下で、量子仮説テストフレームワークに基づく受動的量子検出器を定式化する。 特に、受動量子検出器の性能の基本的な限界を漸近的に活用する。 攻撃者が分離可能な最適戦略を採用するという仮定の下では、最悪のケースの平均誤差境界は繰り返し観測される回数で指数関数的に0に収束し、量子サノフの定理の変種となる。 誤り率の一般減衰結果を数値的に表現し,「ナイーブ」検出器は,無限に多くの量子状態が与えられた場合,指数関数的にゼロに崩壊するが,そのミス率は量子非逆数よりもずっと遅い速度でゼロに崩壊する。 最後に,量子レーダによる検出を事例として定式化する。

We formulate a passive quantum detector based on a quantum hypothesis testing framework under the setting of finite sample size. In particular, we exploit the fundamental limits of performance of the passive quantum detector asymptotically. Under the assumption that the attacker adopts separable optimal strategies, we derive that the worst-case average error bound converges to zero exponentially in terms of the number of repeated observations, which serves as a variation of quantum Sanov's theorem. We illustrate the general decaying results of miss rate numerically, depicting that the `naive' detector manages to achieve a miss rate and a false alarm rate both exponentially decaying to zero given infinitely many quantum states, although the miss rate decays to zero at a much slower rate than a quantum non-adversarial counterpart. Finally we adopt our formulations upon a case study of detection with quantum radars.
翻訳日:2023-01-09 22:56:38 公開日:2022-12-02
# 小動物生体磁気応用

Small animal biomagnetism applications ( http://arxiv.org/abs/2212.03101v1 )

ライセンス: Link先を確認
Kasper Jensen, Bo Hjorth Bentzen, Eugene S. Polzik(参考訳) ヒトの脳、神経系、心臓の機能は電気信号の伝導に基づいている。 これらの電気信号はまた、人体の外側に広がる磁場を生み出す。 超伝導量子干渉デバイス磁力計や光学ポンピング磁力計などの高感度磁力計は、人体の外側に配置され、これらの生体磁場を検出し、脳活動、神経インパルス、心臓活動などの非侵襲的な測定を行うことができる。 動物モデルは、疾患の診断や薬物検査など、医学研究で広く使われている。 光ポンピング磁気センサを用いた動物モデルにおける生体磁気記録の話題を概観し, カエル坐骨神経と摘出モルモット心臓の心臓拍動における神経インパルスの検出実験を行った。

The functioning of the human brain, nervous system and heart is based on the conduction of electrical signals. These electrical signals also create magnetic fields which extend outside the human body. Highly sensitive magnetometers, such as superconducting quantum interference device magnetometers or optically pumped magnetometers, placed outside the human body can detect these biomagnetic fields and provide non-invasive measurements of e.g. brain activity, nerve impulses, and cardiac activity. Animal models are used widely in medical research, including for disease diagnostics and for drugs testing. We review the topic of biomagnetic recordings on animal models using optically pumped magnetometers, and present our experiments on detecting nerve impulses in the frog sciatic nerve and the heart beat in an isolated guinea pig heart.
翻訳日:2023-01-09 22:55:39 公開日:2022-12-02
# 光ツイーザーは単一原子を投げ、キャッチする

Optical tweezers throw and catch single atoms ( http://arxiv.org/abs/2212.01037v1 )

ライセンス: Link先を確認
Hansub Hwang, Andrew Byun, Juyoung Park, Sylvain de Leseleuc, and Jaewook Ahn(参考訳) ある場所から別の場所へ移動可能な単一の原子は、同時に量子通信や量子コンピューティングに使用できる空飛ぶ量子メモリを可能にする。 ガイド原子(例えば光ツイーザー)は部分解を提供するが、誘導手段と相互作用する場合、飛行量子ビットの利点は失われる可能性がある。 ここでは、誘導されるのではなく、代わりに光ツイーザーによって投げられ、捕獲される自由飛行する原子を実験的に提案する。 実験では、40マイクロケルビン温度の冷たい原子は、走行距離が12.6マイクロメートル以上で自由飛行速度が0.65m/sまで上昇し、94(3)%の輸送効率で放出される。 この性能は基本的に制限されていないが、現在の光学式ツイーザーの設定により、潜在的な深さと幅が制限されている。 本稿では,光学式ツイーザによる原子輸送,飛行型原子による原子配置,光学式ツイーザからの原子散乱など,原子の実証実験を行う。 本研究は、単原子低エネルギー衝突などの基礎研究だけでなく、非光子量子通信やフライング量子ビットベースの量子コンピューティングにも、飛行原子の応用の可能性を提案する。

Single atoms movable from one place to another would enable a flying quantum memory that can be used for quantum communication and quantum computing at the same time. Guided atoms, e.g., by optical tweezers, provide a partial solution, but the benefit of flying qubits could be lost if they still interact with the guiding means. Here we propose and experimentally demonstrate freely-flying atoms that are not guided but are instead thrown and caught by optical tweezers. In experiments, cold atoms at 40 micro Kelvin temperature are thrown up to a free-flying speed of 0.65 m/s over a travel distance of 12.6 micrometer at a transportation efficiency of 94(3)%, even in the presence of other optical tweezers or atoms en route. This performance is not fundamentally limited but by current settings of optical tweezers with limited potential depth and width. We provide a set of proof-of-principle flying atom demonstrations, which include atom transport through optical tweezers, atom arrangements by flying atoms, and atom scattering off optical tweezers. Our study suggests possible applications of flying atoms, not only in fundamental studies such as single-atom low-energy collisions, but also non-photon quantum communication and flying-qubit-based quantum computing.
翻訳日:2023-01-09 22:39:31 公開日:2022-12-02
# 光子支援準粒子トンネル法による超伝導量子リセットの初期実験結果

Initial experimental results on a superconducting-qubit reset based on photon-assisted quasiparticle tunneling ( http://arxiv.org/abs/2212.01065v1 )

ライセンス: Link先を確認
V. A. Sevriuk, W. Liu, J. R\"onkk\"o, H. Hsu, F. Marxer, T. F. M\"orstedt, M. Partanen, J. R\"abin\"a, M. Venkatesh, J. Hotari, L. Gr\"onberg, J. Heinsoo, T. Li, J. Tuorila, K.W. Chan, J. Hassel, K. Y. Tan, M. M\"ott\"onen(参考訳) 本稿では、量子回路冷凍機(QCR)に基づく量子ビットリセット方式に関する最近の結果を示す。 特に, 超伝導体-絶縁体-金属-絶縁体-超伝導接合体を介し, 量子ビットのエネルギー緩和時間を制御するために, 光子支援準粒子トンネルを用いる。 実験では,分散読み出しを用いたトランスモン量子ビットを用いた。 QCRは、通常の金属島を介して量子ビットに容量的に結合する。 2-350 nsの範囲での持続時間と様々な振幅を有する高速四角形qcr制御電圧パルスを用いて、リセット時間と忠実度を最適化した。 その結果、第1励起状態から始まる80-nsパルスで約97%の量子基底状態の確率に達する。 クビット状態確率は平均的な読み出し信号から抽出され、キャリブレーションはラビ振動に基づいており、クビットの残留熱人口を区別しない。

We present here our recent results on qubit reset scheme based on a quantum-circuit refrigerator (QCR). In particular, we use the photon-assisted quasiparticle tunneling through a superconductor--insulator--normal-metal--insulator--superconductor junction to controllably decrease the energy relaxation time of the qubit during the QCR operation. In our experiment, we use a transmon qubit with dispersive readout. The QCR is capacitively coupled to the qubit through its normal-metal island. We employ rapid, square-shaped QCR control voltage pulses with durations in the range of 2--350 ns and a variety of amplitudes to optimize the reset time and fidelity. Consequently, we reach a qubit ground-state probability of roughly 97% with 80-ns pulses starting from the first excited state. The qubit state probability is extracted from averaged readout signal, where the calibration is based of the Rabi oscillations, thus not distinguishing the residual thermal population of the qubit.
翻訳日:2023-01-09 22:39:08 公開日:2022-12-02
# 結晶のディラック・フォックモデルに対する最小化器の存在

Existence of minimizers for the Dirac-Fock Model of Crystals ( http://arxiv.org/abs/2212.01142v1 )

ライセンス: Link先を確認
Isabelle Catto (CEREMADE), Long Meng (CERMICS), Eric Paturel (LMJL), Eric S\'er\'e (CEREMADE)(参考訳) 非相対論的結晶の基底状態に関する数学や物理学の文献には多くの異なるモデルが存在するが、相対論的ケースはそれほど研究されておらず、結晶の完全な相対論的処理に関する数学的結果も認識していない。 本稿では,周期密度行列を用いて結晶の平均場相対論的エネルギーを提案する。 このモデルは、原子と分子のディラック・フォック基底状態(dirac-fock ground state)の定義と、結晶の非相対論的ハーツリー・フォックモデル(hartree-fock model)の両方から着想を得ている。 細胞当たりの電子数が大きすぎない場合、基底状態の存在を証明する。

Whereas many different models exist in the mathematical and physics literature for ground-states of non-relativistic crystals, the relativistic case has been much less studied and we are not aware of any mathematical result on a fully relativistic treatment of crystals. In this paper, we introduce a mean-field relativistic energy for crystals in terms of periodic density matrices. This model is inspired both from a recent definition of the Dirac-Fock ground state for atoms and molecules, due to one of us, and from the non-relativistic Hartree-Fock model for crystals. We prove existence of a ground-state when the number of electrons per cell is not too large.
翻訳日:2023-01-09 22:38:52 公開日:2022-12-02
# 絡み合いを解消した量子スイッチの容量領域について

On the Capacity Region of a Quantum Switch with Entanglement Purification ( http://arxiv.org/abs/2212.01463v1 )

ライセンス: Link先を確認
Nitish K. Panigrahy, Thirupathaiah Vasantam, Don Towsley, Leandros Tassiulas(参考訳) 量子スイッチは将来の絡み合い分布ネットワークの不可欠なコンポーネントとして想定される。 エンタングルメントスワッピングやエンタングルメント浄化といった量子演算をすることで、エンドユーザに高品質なエンタングルメント配信サービスを提供することができる。 本研究では、ノイズチャネル伝送と不完全な量子演算の下での量子スイッチの容量領域を特徴付ける。 キャパシティ領域をチャネルとネットワークパラメータ(リンクと絡み合いが成功確率を切り替える)、絡み合いの浄化率、およびアプリケーションレベルパラメータ(忠実度閾値を目標とする)の関数として表現する。 特に、一連の要求レートがスイッチの容量領域に属するかどうかを検証するために必要な条件を提供する。 これらの条件を用いて、線形最適化問題の集合を解いて、達成可能な最大エンド・ツー・エンドのユーザ絡み合い生成スループットを求める。 最大重みのスケジューリングポリシを開発し,すべての要求到着率の切り替えを安定させることを実証する。 スケジューリングポリシーを開発する際には,異なる種類の浄化プロトコルの条件付き収率分布を計算するための新しい結果も生成する。 数値実験により,リンクレベルの絡み合いの浄化と絡み合いの交換は,絡み合いの交換とエンドツーエンドの絡み合いの浄化よりも大きな容量領域を提供することがわかった。 この研究で得られた結論は、その後の量子スイッチ設計に有用なガイドラインを与えることができる。

Quantum switches are envisioned to be an integral component of future entanglement distribution networks. They can provide high quality entanglement distribution service to end-users by performing quantum operations such as entanglement swapping and entanglement purification. In this work, we characterize the capacity region of such a quantum switch under noisy channel transmissions and imperfect quantum operations. We express the capacity region as a function of the channel and network parameters (link and entanglement swap success probability), entanglement purification yield and application level parameters (target fidelity threshold). In particular, we provide necessary conditions to verify if a set of request rates belong to the capacity region of the switch. We use these conditions to find the maximum achievable end-to-end user entanglement generation throughput by solving a set of linear optimization problems. We develop a max-weight scheduling policy and prove that the policy stabilizes the switch for all feasible request arrival rates. As we develop scheduling policies, we also generate new results for computing the conditional yield distribution of different classes of purification protocols. From numerical experiments, we discover that performing link-level entanglement purification followed by entanglement swaps provides a larger capacity region than doing entanglement swaps followed by end-to-end entanglement purification. The conclusions obtained in this work can yield useful guidelines for subsequent quantum switch designs.
翻訳日:2023-01-09 22:38:16 公開日:2022-12-02
# 非エルミート多体系における波束と絡み合いダイナミクス

Wave-packet and entanglement dynamics in a non-Hermitian many-body system ( http://arxiv.org/abs/2212.01001v1 )

ライセンス: Link先を確認
Takahiro Orito, Ken-Ichiro Imura(参考訳) いわゆるHano-Nelson型の非エルミートハミルトニアンによって記述される1次元量子系の静的および動的性質、非対称(あるいは非相互)ホッピングを持つ密結合モデルについて研究する。 このモデルの静的な性質は、複雑なスペクトル、皮膚効果、トポロジカルな解釈など、多くの研究がなされている。 障害や粒子間相互作用の影響は、特に共存する場合は理解できない。 ここでは、その力学特性にも注目し、ウェーブパックとエントロピー(entropy)ダイナミクスのユニークな特徴を明らかにする。 改良された数値に基づく最新の(オリジナル)結果(これには、より大きなシステムサイズである$l$がアクセス可能になる)が示されている。

The static and dynamical properties of a one-dimensional quantum system described by a non-Hermitian Hamiltonian of the so-called Hatano-Nelson type; a tight-binding model with asymmetric (or non-reciprocal) hopping, are studied. The static properties of the model have been much studied; the complex spectrum, skin effect and its topological interpretation, etc. Effects of disorder and inter-particle interaction, especially, when they coexist, may be less understood. Here, we will also focus on its dynamical properties and reveal some unique features in the wave-packet and entanglement (entropy) dynamics. For that some latest (original) results based on improved numerics (with this a system of larger system size $L$ becomes accessible) are shown.
翻訳日:2023-01-09 20:12:46 公開日:2022-12-02
# 量子ネットワーク:理論から実践へ

Quantum NETwork: from theory to practice ( http://arxiv.org/abs/2212.01226v1 )

ライセンス: Link先を確認
Kun Fang, Jingtian Zhao, Xiufan Li, Yifei Li, and Runyao Duan(参考訳) 量子インターネットは、データ伝送の効率、ネットワークサービスのセキュリティ、情報処理の能力など、様々な面でその古典的なものを上回る量子革命の究極の段階として考えられている。 国家安全保障とデジタル経済に対する破壊的な影響を考えると、スケーラブルな量子ネットワークの構築に向けた世界的な競争はすでに始まっている。 国立政府、産業参加者、研究機関の協力により、量子ネットワークの発展は近年急速に進み、最初の原始量子ネットワークが普及した。 本研究では,理論と実験の両方の観点から,量子ネットワークの分野の最新のレビューを提供することを目標とし,グローバルな量子インターネットの確立に必要なビルディングブロックの理解を深めることを目的とする。 また、新しい量子ネットワークツールキットを導入し、革新的なアイデアの探索と評価を容易にする。 特に、デュアル量子コンピューティングエンジンを提供し、量子回路と測定ベースのモデルの両方でシミュレーションをサポートする。 また、量子ネットワークプロトコルを量子回路にマッピングし、実世界の量子ハードウェアデバイス上でエミュレーションを可能にするコンパイルスキームも含まれている。 我々は、micius量子衛星実験のシミュレーション、リソース管理を伴う4層量子ネットワークアーキテクチャのテスト、chshゲームの量子エミュレーションなど、いくつかの特徴あるデモで、このツールキットのパワーを紹介している。 この研究が量子ネットワークの最先端の開発をより深く理解し、その過程でさらなる貢献を行うために必要なツールを提供することを願っている。

The quantum internet is envisioned as the ultimate stage of the quantum revolution, which surpasses its classical counterpart in various aspects, such as the efficiency of data transmission, the security of network services, and the capability of information processing. Given its disruptive impact on the national security and the digital economy, a global race to build scalable quantum networks has already begun. With the joint effort of national governments, industrial participants and research institutes, the development of quantum networks has advanced rapidly in recent years, bringing the first primitive quantum networks within reach. In this work, we aim to provide an up-to-date review of the field of quantum networks from both theoretical and experimental perspectives, contributing to a better understanding of the building blocks required for the establishment of a global quantum internet. We also introduce a newly developed quantum network toolkit to facilitate the exploration and evaluation of innovative ideas. Particularly, it provides dual quantum computing engines, supporting simulations in both the quantum circuit and measurement-based models. It also includes a compilation scheme for mapping quantum network protocols onto quantum circuits, enabling their emulations on real-world quantum hardware devices. We showcase the power of this toolkit with several featured demonstrations, including a simulation of the Micius quantum satellite experiment, a testing of a four-layer quantum network architecture with resource management, and a quantum emulation of the CHSH game. We hope this work can give a better understanding of the state-of-the-art development of quantum networks and provide the necessary tools to make further contributions along the way.
翻訳日:2023-01-09 20:12:32 公開日:2022-12-02
# 光メカニカルインダクタンスを用いた単一スピン読み出しと量子センシング

Single-Spin Readout and Quantum Sensing using Optomechanically-Induced Transparency ( http://arxiv.org/abs/2212.01481v1 )

ライセンス: Link先を確認
Martin Koppenh\"ofer, Carl Padgett, Jeffrey V. Cady, Viraj Dharod, Hyunseok Oh, Ania C. Bleszynski Jayich, and A. A. Clerk(参考訳) 固体スピン欠陥は、様々なセンサーターゲットのための量子センサーを約束している。 これらの欠陥のいくつかは、ホスト材料に歪みを生じさせる。 このひずみ結合を光学力学的に誘起される透過性測定により機械的に媒介する単発スピン読み出しに利用することを提案する。 驚くべきことに、ダイヤモンド中の負電荷のシリコン空隙欠陥の測定時間は、単発光蛍光読み出しのそれよりも桁違いに短い。

Solid-state spin defects are promising quantum sensors for a large variety of sensing targets. Some of these defects couple appreciably to strain in the host material. We propose to use this strain coupling for mechanically-mediated dispersive single-shot spin readout by an optomechanically-induced transparency measurement. Surprisingly, the estimated measurement times for negatively-charged silicon-vacancy defects in diamond are an order of magnitude shorter than those for single-shot optical fluorescence readout.
翻訳日:2023-01-09 20:12:08 公開日:2022-12-02
# 有界絡みローレンツは不変か?

Is bound entanglement Lorentz invariant? ( http://arxiv.org/abs/2212.01286v1 )

ライセンス: Link先を確認
Pawe{\l} Caban and Beatrix C. Hiesmayr(参考訳) 境界エンタングルメントは、自由エンタングルメントとは対照的に、2つの局所観測者が測定を行い、古典的なコミュニケーションを活用することにより、最大エンタングルド状態に蒸留することはできない。 本稿では, 相対論的オブザーバが分離可能, 束縛, 自由絡み合う状態に対して, ブーストしないオブザーバと同じ方法で分類するかどうかを問う。 驚いたことに、これはそうではない。 そして、与えられた慣性基準枠内の系が分割モータ対スピンに対して分離可能であるとしても、そうである。 詳しくは、スピン状態が最初は絡み合っている場合、スピン状態が絡み合っているか、分離可能か、あるいは自由絡み合っているかを観察する観察者もいる。 これはまた、絡み合う性質の一般的な測度を見つけるのが難しい理由を説明する。

Bound entanglement, in contrast to free entanglement, cannot be distilled into maximally entangled states by two local observers applying measurements and utilizing classical communication. In this paper we ask whether a relativistic observer classifies states according to being separable, bound or free entangled in the same manner as an unboosted observer. Surprisingly, this turns out not to be the case. And that even if the system in a given inertial frame of reference is separable with respect to the partition momenta versus spins. In detail, we show that if the spin state is initially bound entangled, some boosted observers observe their spin states to be either bound entangled, separable or free entangled. This also explains why a general measure of the entanglement property is difficult to find.
翻訳日:2023-01-09 19:36:42 公開日:2022-12-02
# 漸近的最適ゲート数を持つ対角ユニタリ行列の自動深さ最適化量子回路合成

Automatic Depth-Optimized Quantum Circuit Synthesis for Diagonal Unitary Matrices with Asymptotically Optimal Gate Count ( http://arxiv.org/abs/2212.01002v1 )

ライセンス: Link先を確認
Shihao Zhang, Kai Huang and Lvzhou Li(参考訳) 現在のノイズの多い中間規模量子(NISQ)デバイスは、ノイズの存在に制約されているため、浅い深さの小さな回路しか実行できない:量子ゲートはエラー率を持ち、量子状態はデコヒーレンスにより脆弱である。 したがって、特定のタスクのために量子回路を設計する際に深さ/ゲート数を最適化することが非常に重要である。 対角ユニタリ行列は、多くの量子アルゴリズムや量子コンピューティング手順の重要な構成要素として知られている。 以前の研究は、原始ゲート集合 $\{\text{CNOT}, R_Z\}$ 上の対角ユニタリ行列の合成について議論した。 しかし、既存の合成法は回路深さを最適化していないため、この問題はまだ完全には理解されていない。 本稿では,任意の対角ユニタリ行列に対する量子回路を自動生成する深度最適化合成アルゴリズムを提案する。 特に、漸近的に最適なゲート数を確保するだけでなく、前の方法と比べて回路の深さを半減する。 技術的には、回路の深さを減らすのに適した一様回路書き換え規則を見つける。 合成アルゴリズムの性能を理論的に解析し, 2つの例による評価により実験的に検証した。 まず,最大16キュービットのランダム対角ユニタリ行列を合成するウェルチ法に対して,約50%の深さ低減を実現した。 第2に、特定の量子近似最適化アルゴリズム(qaoa)回路の対角部を最大14キュービットで合成するための平均22.05\%の深さ低減を達成する。

Current noisy intermediate-scale quantum (NISQ) devices can only execute small circuits with shallow depth, as they are still constrained by the presence of noise: quantum gates have error rates and quantum states are fragile due to decoherence. Hence, it is of great importance to optimize the depth/gate-count when designing quantum circuits for specific tasks. Diagonal unitary matrices are well-known to be key building blocks of many quantum algorithms or quantum computing procedures. Prior work has discussed the synthesis of diagonal unitary matrices over the primitive gate set $\{\text{CNOT}, R_Z\}$. However, the problem has not yet been fully understood, since the existing synthesis methods have not optimized the circuit depth. In this paper, we propose a depth-optimized synthesis algorithm that automatically produces a quantum circuit for any given diagonal unitary matrix. Specially, it not only ensures the asymptotically optimal gate-count, but also nearly halves the total circuit depth compared with the previous method. Technically, we discover a uniform circuit rewriting rule well-suited for reducing the circuit depth. The performance of our synthesis algorithm is both theoretically analyzed and experimentally validated by evaluations on two examples. First, we achieve a nearly 50\% depth reduction over Welch's method for synthesizing random diagonal unitary matrices with up to 16 qubits. Second, we achieve an average of 22.05\% depth reduction for resynthesizing the diagonal part of specific quantum approximate optimization algorithm (QAOA) circuits with up to 14 qubits.
翻訳日:2023-01-09 19:27:12 公開日:2022-12-02
# 誤差増幅を用いた任意角単一ビットゲートの駆動非線形性の校正

Calibration of Drive Non-Linearity for Arbitrary-Angle Single-Qubit Gates Using Error Amplification ( http://arxiv.org/abs/2212.01077v1 )

ライセンス: Link先を確認
Stefania Laz\u{a}r, Quentin Ficheux, Johannes Herrmann, Ants Remm, Nathan Lacroix, Christoph Hellings, Francois Swiadek, Dante Colao Zanuz, Graham J. Norris, Mohsen Bahrami Panah, Alexander Flasby, Michael Kerschbaum, Jean-Claude Besse, Christopher Eichler, Andreas Wallraff(参考訳) 高忠実度操作を実行する能力は、量子デバイスを大量の量子ビットにスケールアップするために不可欠である。 しかし、制御ライン内の非線形成分に由来する信号歪みは、単一ビットゲートの性能を制限することができる。 本研究では,プログラムパルスの振幅と量子ビット駆動速度の非線形スケーリングから生じる小さな単一量子ビット回転誤差を特徴付け,補正するために,誤差増幅に基づく測定を行う。 われわれのハードウェアと15-nsのパルスでは、回転角は線形モデルから最大数度ずれる。 purity benchmarkingを使用することで、制御エラーが2\times 10^{-4}$に達することが分かり、これはゲートエラー全体の半分を占める。 クロスエントロピーベンチマークを用いて、コヒーレンス制限誤差が2\times 10^{-4}$で6\times 10^{-5}$未満の任意の角度のシングルキュービットゲートを示す。 これらの誤差の正確な大きさは我々の設定に特有であるが、提案手法は任意の非線形性源に適用できる。 提案手法は,コヒーレンス時間の改善や回路設計,修正されていない場合のリーク緩和などとは無関係に,単一キュービットゲートの忠実性に限界を課していることを示す。

The ability to execute high-fidelity operations is crucial to scaling up quantum devices to large numbers of qubits. However, signal distortions originating from non-linear components in the control lines can limit the performance of single-qubit gates. In this work, we use a measurement based on error amplification to characterize and correct the small single-qubit rotation errors originating from the non-linear scaling of the qubit drive rate with the amplitude of the programmed pulse. With our hardware, and for a 15-ns pulse, the rotation angles deviate by up to several degrees from a linear model. Using purity benchmarking, we find that control errors reach $2\times 10^{-4}$, which accounts for half of the total gate error. Using cross-entropy benchmarking, we demonstrate arbitrary-angle single-qubit gates with coherence-limited errors of $2\times 10^{-4}$ and leakage below $6\times 10^{-5}$. While the exact magnitude of these errors is specific to our setup, the presented method is applicable to any source of non-linearity. Our work shows that the non-linearity of qubit drive line components imposes a limit on the fidelity of single-qubit gates, independent of improvements in coherence times, circuit design, or leakage mitigation when not corrected for.
翻訳日:2023-01-09 19:26:47 公開日:2022-12-02
# 非最大エンタングルチャネルを用いた決定論的遠隔状態調整

Deterministic joint remote state preparation with a non-maximally entangled channel ( http://arxiv.org/abs/2212.01092v1 )

ライセンス: Link先を確認
Xuanxuan Xin and Shiwen He and Yongxing Li and Chong Li(参考訳) 理想的な決定論的量子通信タスクは、最大絡み合ったチャネルを必要とする。 現実には、最大エンタングルドチャネルは様々なデコヒーレンス機構のために必然的に非最大エンタングルドチャネルに分解され、量子通信の性能が著しく低下する。 従来のエンタングルメント精製や蒸留により最大エンタングル化チャネルを再構築する代わりに,脱生成非エンタングル化状態を直接使用する新しい決定論的ジョイント遠隔状態形成スキームを考案した。 非極大のハイパーエンタングル量子チャネルによる2次元量子状態の決定論的遠隔合成のためのプロトコルが補助quditsの助けを借りて考案された。 そして、それを一般化して高次元量子状態を忠実に準備する。 共有の絡み合いがどんなに弱かったとしても、コミュニケーションの成功確率は存在すればすぐに100%維持される。 この研究は、実用的な量子通信ネットワークを構築するためのイデオロギーを提供する。

Ideal deterministic quantum communication tasks require maximally entangled channels. The reality is that the maximally entangled channel is inevitably degraded to a non-maximally entangled one because of various decoherence mechanisms, seriously deteriorating the performance of quantum communication. Instead of adopting traditional entanglement purification or distillation to rebuild maximally entangled channels, we have designed a novel deterministic joint remote state preparation scheme using the degenerated non-maximally entangled state directly. A protocol for deterministic joint remote preparation of a two-dimensional quantum state via a non-maximally hyperentangled quantum channel has been devised with the help of auxiliary qudits. Then we generalize it to prepare a high-dimensional quantum state faithfully. No matter how weak the shared entanglement is, the success probability of communication is maintained at 100% as soon as it exists. This investigation provides an ideology for the construction of practical quantum communication networks.
翻訳日:2023-01-09 19:26:08 公開日:2022-12-02
# 産業量子鍵分布のための非対称適応LDPC情報調整

Asymmetric adaptive LDPC-based information reconciliation for industrial quantum key distribution ( http://arxiv.org/abs/2212.01121v1 )

ライセンス: Link先を確認
Nikolay Borisov, Ivan Petrov and Andrey Tayduganov(参考訳) 我々は,非対称なLDPCに基づく情報和解手法を開発し,現状のチャネル状態に適応し,資源制約のあるQKDシステムにおいて,より良い性能とスケーラビリティを実現する。 新たな方式は、LDPC符号の利点、優先誤差率推定、レート適応およびブラインド情報照合技術を組み合わせたものである。 実産業用QKDセットアップを用いた非対称および対称誤差補正方式の性能の比較を行った。 提案した非対称アルゴリズムは高いスループットを達成し、広い範囲の誤り率で対称アルゴリズムに非常に近い秘密鍵レートを提供する。 したがって、本手法は、高い鍵レート、制限された古典チャネル容量、非対称な計算資源割り当てを持つアプリケーションに対して特に効率的であることが判明した。

We develop a new approach for asymmetric LDPC-based information reconciliation in order to adapt to the current channel state and achieve better performance and scalability in practical resource-constrained QKD systems. The new scheme combines the advantages of LDPC codes, a priori error rate estimation, rate-adaptive and blind information reconciliation techniques. We compare the performance of several asymmetric and symmetric error correction schemes using real industrial QKD setup. The proposed asymmetric algorithm achieves significantly higher throughput, providing a secret key rate very close to the symmetric one in a wide range of error rates. Thus, our approach turns out to be particularly efficient for applications with high key rates, limited classical channel capacity and asymmetric computational resource allocation.
翻訳日:2023-01-09 19:25:48 公開日:2022-12-02
# 近似量子回路切断

Approximate Quantum Circuit Cutting ( http://arxiv.org/abs/2212.01270v1 )

ライセンス: Link先を確認
Daniel Chen, Betis Baheri, Vipin Chaudhary, Qiang Guan, Ning Xie, Shuai Xu(参考訳) 現在の量子ハードウェアは、ノイズと限定量子ビット数による信頼性と適用性に欠ける。 量子回路切断(Quantum circuit cutting)は、大きな量子回路を、手前の限られた量子資源に適した大きさの小さなサブ回路に分割する技法である。 しかし、回路切断に関わる古典的な後処理は、一般的に切断数と量子数で指数関数的に増加する。 本稿では,近似回路再構成の概念を紹介する。 マルコフ連鎖モンテカルロ(mcmc)のようなサンプリングに基づく手法を用いて、再構成時に確率の高いビット列を確率的に選択する。 これにより、全確率分布を再構成する際の過剰な計算を避けることができる。 以上の結果から,NISQ時代以降の高速かつ信頼性の高い回路再構築には,サンプリング方式による後処理が大きな可能性を秘めていることがわかった。

Current and imminent quantum hardware lacks reliability and applicability due to noise and limited qubit counts. Quantum circuit cutting -- a technique dividing large quantum circuits into smaller subcircuits with sizes appropriate for the limited quantum resource at hand -- is used to mitigate these problems. However, classical postprocessing involved in circuit cutting generally grows exponentially with the number of cuts and quantum counts. This article introduces the notion of approximate circuit reconstruction. Using a sampling-based method like Markov Chain Monte Carlo (MCMC), we probabilistically select bit strings of high probability upon reconstruction. This avoids excessive calculations when reconstructing the full probability distribution. Our results show that such a sampling-based postprocessing method holds great potential for fast and reliable circuit reconstruction in the NISQ era and beyond.
翻訳日:2023-01-09 19:25:34 公開日:2022-12-02
# 位相空間圧縮による猫状態の量子干渉の保護

Protecting the quantum interference of cat states by phase-space compression ( http://arxiv.org/abs/2212.01271v1 )

ライセンス: Link先を確認
Xiaozhou Pan, Jonathan Schwinger, Ni-Ni Huang, Pengtao Song, Weipin Chua, Fumiya Hanamura, Atharv Joshi, Fernando Valadares, Radim Filip, and Yvonne Y. Gao(参考訳) キャット状態は相空間干渉特性を持ち、量子力学の基本原理を理解し、重要な量子情報処理タスクを実行するための理想的な候補である。 しかし、光子損失の影響を受けやすいため、量子非ガウス的特徴は必然的に減少する。 ここでは、猫状態の位相空間分布を圧縮することにより、これらの非ガウス的特徴を光子損失から保護する。 回路QED装置におけるエコー条件変位演算に基づく決定論的手法により,この圧縮を実現する。 本研究では,高線形ボソニックモードで頑健な非ガウス連続可変資源状態を生成し,その位相空間分布を操作し,光子損失に対する耐性を高めるための多用途手法を提案する。 圧縮された猫状態は、量子基礎と量子メトロロジーに関する新たな洞察を得ることと、量子誤差補正のために本質的により保護されたボソニック符号語を開発するための魅力的な手段を提供する。

Cat states, with their unique phase-space interference properties, are ideal candidates for understanding fundamental principles of quantum mechanics and performing key quantum information processing tasks. However, they are highly susceptible to photon loss, which inevitably diminishes their quantum non-Gaussian features. Here, we protect these non-Gaussian features against photon loss by compressing the phase-space distribution of a cat state. We achieve this compression with a deterministic technique based on the echo conditional displacement operation in a circuit QED device. We present a versatile technique for creating robust non-Gaussian continuous-variable resource states in a highly linear bosonic mode and manipulating their phase-space distribution to achieve enhanced resilience against photon loss. Compressed cat states offer an attractive avenue for obtaining new insights into quantum foundations and quantum metrology, and for developing inherently more protected bosonic codewords for quantum error correction.
翻訳日:2023-01-09 19:25:24 公開日:2022-12-02
# RFold:シンプルで効果的なRNA二次構造予測を目指して

RFold: Towards Simple yet Effective RNA Secondary Structure Prediction ( http://arxiv.org/abs/2212.14041v1 )

ライセンス: Link先を確認
Cheng Tan, Zhangyang Gao, Stan Z. Li(参考訳) リボ核酸(RNA)の二次構造は、その第3次構造よりも安定しており、細胞内でアクセスしやすく、機能的な予測に不可欠である。 ディープラーニングはこの分野で有望な結果を示しているが、現在の方法は、一般化が不十分な後処理ステップか、複雑さの高い前処理ステップのいずれかに悩まされている。 本研究は、単純で効果的なRNA二次構造予測であるRFoldをエンドツーエンドに提示する。 RFoldは複雑な後処理ステップを置き換えるために新しいRow-Col SoftmaxとRow-Col Argmax関数を導入した。 さらに、RFoldは、事前処理ステップで手作りの機能を設計する代わりに、アテンションマップを情報表現として採用している。 RFoldは最先端手法の約8倍の競争性能と推論効率を達成できることを示した。 コードとColabのデモは \href{github.com/A4Bio/RFold}{github.com/A4Bio/RFold} で公開されている。

The secondary structure of ribonucleic acid (RNA) is more stable and accessible in the cell than its tertiary structure, making it essential in functional prediction. Though deep learning has shown promising results in this field, current methods suffer from either the post-processing step with a poor generalization or the pre-processing step with high complexity. In this work, we present RFold, a simple yet effective RNA secondary structure prediction in an end-to-end manner. RFold introduces novel Row-Col Softmax and Row-Col Argmax functions to replace the complicated post-processing step while the output is guaranteed to be valid. Moreover, RFold adopts attention maps as informative representations instead of designing hand-crafted features in the pre-processing step. Extensive experiments demonstrate that RFold achieves competitive performance and about eight times faster inference efficiency than the state-of-the-art method. The code and Colab demo are available in \href{github.com/A4Bio/RFold}{github.com/A4Bio/RFold}.
翻訳日:2023-01-09 19:07:54 公開日:2022-12-02
# NETpred:複数接続市場指標のネットワークベースモデリングと予測

NETpred: Network-based modeling and prediction of multiple connected market indices ( http://arxiv.org/abs/2212.05916v1 )

ライセンス: Link先を確認
Alireza Jafari and Saman Haratizadeh(参考訳) 市場予測は金融決定を支持する上で大きな役割を果たす。 この領域における新たなアプローチは、次の市場指標変動を予測するためにグラフィカルモデリングと分析を使用することである。 この領域における重要な問題のひとつは、インデックス変動を予測するために半教師付きGNNによって効果的に使用できるデータの適切なグラフィカルモデルを構築する方法である。 本稿では,複数の関連指標とその株価を表す新しい不均一グラフを,複数のストック・インデックス関係尺度を用いて生成するnetpredという枠組みを提案する。 そして、州空間の異なる部分をカバーし、価格の動きを正確に予測できる様々な代表ノード群を徹底的に選択する。 初期予測ラベルをそのようなノードに割り当てることにより、NETpredは、後続のGCNモデルを半教師付き学習プロセスでうまくトレーニングできることを保証する。 得られたモデルを使用して、最終的に集約されたストックラベルを予測し、グラフ内のすべてのインデックスノードのラベルを推測する。 総合的な実験の結果,netpredは,既知のデータセットの異なるf-score測定値において,最先端のベースラインのパフォーマンスを3%-5%向上させることがわかった。

Market prediction plays a major role in supporting financial decisions. An emerging approach in this domain is to use graphical modeling and analysis to for prediction of next market index fluctuations. One important question in this domain is how to construct an appropriate graphical model of the data that can be effectively used by a semi-supervised GNN to predict index fluctuations. In this paper, we introduce a framework called NETpred that generates a novel heterogeneous graph representing multiple related indices and their stocks by using several stock-stock and stock-index relation measures. It then thoroughly selects a diverse set of representative nodes that cover different parts of the state space and whose price movements are accurately predictable. By assigning initial predicted labels to such a set of nodes, NETpred makes sure that the subsequent GCN model can be successfully trained using a semi-supervised learning process. The resulting model is then used to predict the stock labels which are finally aggregated to infer the labels for all the index nodes in the graph. Our comprehensive set of experiments shows that NETpred improves the performance of the state-of-the-art baselines by 3%-5% in terms of F-score measure on different well-known data sets.
翻訳日:2022-12-18 18:59:16 公開日:2022-12-02
# 多元関係グラフ表現のための擬リーマン埋め込みモデル

Pseudo-Riemannian Embedding Models for Multi-Relational Graph Representations ( http://arxiv.org/abs/2212.03720v1 )

ライセンス: Link先を確認
Saee Paliwal, Angus Brayne, Benedek Fabian, Maciej Wiatrak, Aaron Sim(参考訳) 本稿では、単関係の擬リーマングラフ埋め込みモデルを多元関係ネットワークへ一般化し、多様体変換として関係を符号化する典型的なアプローチがリーマンから擬リーマンの場合へ変換することを示す。 さらに、関係を多時間多様体の分離時空部分多様体として構成し、擬リーマン埋め込みモデルとそのウィック回転リーマン多様体の間の補間を考える。 平坦なローレンツ多様体に着目し,これらの拡張をリンク予測のタスクで検証し,生物学的領域における知識グラフの完成と知識発見の両方での使用を実証する。

In this paper we generalize single-relation pseudo-Riemannian graph embedding models to multi-relational networks, and show that the typical approach of encoding relations as manifold transformations translates from the Riemannian to the pseudo-Riemannian case. In addition we construct a view of relations as separate spacetime submanifolds of multi-time manifolds, and consider an interpolation between a pseudo-Riemannian embedding model and its Wick-rotated Riemannian counterpart. We validate these extensions in the task of link prediction, focusing on flat Lorentzian manifolds, and demonstrate their use in both knowledge graph completion and knowledge discovery in a biological domain.
翻訳日:2022-12-11 12:51:03 公開日:2022-12-02
# Comic:(Multi-)Omicsデータを用いたエンドツーエンド学習のための畳み込みカーネルネットワーク

COmic: Convolutional Kernel Networks for Interpretable End-to-End Learning on (Multi-)Omics Data ( http://arxiv.org/abs/2212.02504v1 )

ライセンス: Link先を確認
Jonas C. Ditz, Bernhard Reuter, Nico Pfeifer(参考訳) モチベーション:近年の技術進歩に伴い、利用可能なオミクスデータセットのサイズは着実に増加している。 このサンプルサイズの増加は、医療における関連する予測タスクのパフォーマンス向上に有効だが、大規模なデータセットに最適化されたモデルは、通常はブラックボックスとして動作する。 医療のようなリスクの高いシナリオでは、ブラックボックスモデルを使うことは安全性とセキュリティの問題を引き起こす。 予測に影響を及ぼす分子要因や表現型についての説明がなければ、医療提供者はモデルに盲目的に信頼するしかない。 我々は,新しいタイプの人工ニューラルネットワーク,Convolutional Omics Kernel Networks (COmic)を提案する。 畳み込み型カーネルネットワークと経路誘導型カーネルを組み合わせることで、数百から数十万のサンプルから数百から数十万のオミックデータセットの堅牢で解釈可能なエンドツーエンド学習を可能にする。 さらに、COmicはマルチオミクスデータに容易に適応できる。 結果:6種類の乳癌コホートに対するCOmicの性能評価を行った。 さらに、METABRICコホートを用いて、マルチオミクスデータに基づいてCOmicモデルを訓練する。 私たちのモデルは、どちらのタスクでも、競合他社よりも優れています。 経路誘起ラプラシア核の使用がニューラルネットワークのブラックボックスの性質をいかに開放するかを示し、その結果、内在的に解釈可能なモデルとなり、 \textit{post-hoc} の説明モデルが不要になることを示す。

Motivation: The size of available omics datasets is steadily increasing with technological advancement in recent years. While this increase in sample size can be used to improve the performance of relevant prediction tasks in healthcare, models that are optimized for large datasets usually operate as black boxes. In high stakes scenarios, like healthcare, using a black-box model poses safety and security issues. Without an explanation about molecular factors and phenotypes that affected the prediction, healthcare providers are left with no choice but to blindly trust the models. We propose a new type of artificial neural networks, named Convolutional Omics Kernel Networks (COmic). By combining convolutional kernel networks with pathway-induced kernels, our method enables robust and interpretable end-to-end learning on omics datasets ranging in size from a few hundred to several hundreds of thousands of samples. Furthermore, COmic can be easily adapted to utilize multi-omics data. Results: We evaluate the performance capabilities of COmic on six different breast cancer cohorts. Additionally, we train COmic models on multi-omics data using the METABRIC cohort. Our models perform either better or similar to competitors on both tasks. We show how the use of pathway-induced Laplacian kernels opens the black-box nature of neural networks and results in intrinsically interpretable models that eliminate the need for \textit{post-hoc} explanation models.
翻訳日:2022-12-07 17:53:58 公開日:2022-12-02
# CloudSatとGPMデータを用いた受動マイクロ波沈殿検索のためのディープラーニングアーキテクチャ

A Deep Learning Architecture for Passive Microwave Precipitation Retrievals using CloudSat and GPM Data ( http://arxiv.org/abs/2212.02236v1 )

ライセンス: Link先を確認
Reyhaneh Rahimi, Sajad Vahedizadeh, Ardeshir Ebtehaj(参考訳) 本稿では, 降水の受動的マイクロ波検索のために, 一連の高密度深層ニューラルネットワークを用いたアルゴリズムを提案する。 ニューラルネットワークは、グローバル降水測定(gpm)マイクロ波撮像装置(gmi)からの輝度温度と、gpmに搭載された2周波降水レーダ(dpr)からのアクティブな沈降検索と、{cloudsat}プロファイリングレーダ(cpr)からの輝度温度の一致から学習する。 このアルゴリズムは、まず降水の発生と位相を検出し、その後その速度を推定し、その結果を雲のミクロフィジカル特性に関連するパラメータを含むいくつかの重要な補助情報に調整する。 その結果,DPR降雪とCPR降雪は検出確率0.95以上で再現可能である一方で,誤報の確率は0.08以下と0.03以下であることが示唆された。 降水の発生を条件として,dpr (cpr) データを用いた降水率の推定における不偏根平均二乗誤差は,海と陸上で0.8 (0.1) mm/hr以下である。 方法論的発展の他に、ERA5の再分析と公式のGPM製品と比較すると、地球規模の衛星降雪回収の不確実性は引き続き大きいが、降雨量には十分な一致がある。 また, cprの能動降雪データにより, 全球降雪の受動マイクロ波推定が向上するのに対し, 現在のcpr降雪検索は検出にのみ用いるべきであり, 速度の推定は行わないことが示唆された。

This paper presents an algorithm that relies on a series of dense and deep neural networks for passive microwave retrieval of precipitation. The neural networks learn from coincidences of brightness temperatures from the Global Precipitation Measurement (GPM) Microwave Imager (GMI) with the active precipitating retrievals from the Dual-frequency Precipitation Radar (DPR) onboard GPM as well as those from the {CloudSat} Profiling Radar (CPR). The algorithm first detects the precipitation occurrence and phase and then estimates its rate, while conditioning the results to some key ancillary information including parameters related to cloud microphysical properties. The results indicate that we can reconstruct the DPR rainfall and CPR snowfall with a detection probability of more than 0.95 while the probability of a false alarm remains below 0.08 and 0.03, respectively. Conditioned to the occurrence of precipitation, the unbiased root mean squared error in estimation of rainfall (snowfall) rate using DPR (CPR) data is less than 0.8 (0.1) mm/hr over oceans and land. Beyond methodological developments, comparing the results with ERA5 reanalysis and official GPM products demonstrates that the uncertainty in global satellite snowfall retrievals continues to be large while there is a good agreement among rainfall products. Moreover, the results indicate that CPR active snowfall data can improve passive microwave estimates of global snowfall while the current CPR rainfall retrievals should only be used for detection and not estimation of rates.
翻訳日:2022-12-06 19:36:10 公開日:2022-12-02
# 少ないデータと低品質データから縮小モデルを学ぶためのロールアウトによる演算子推論

Operator inference with roll outs for learning reduced models from scarce and low-quality data ( http://arxiv.org/abs/2212.01418v1 )

ライセンス: Link先を確認
Wayne Isaac Tan Uy and Dirk Hartmann and Benjamin Peherstorfer(参考訳) データ駆動モデリングは、計算科学と工学の重要な構成要素となっている。 しかし、科学や工学で利用可能なデータは通常、ノイズによって汚染され、測定エラーやその他の摂動によって影響を受けるため、システムのダイナミクスを学ぶことは困難である。 本研究では,演算子推論によるデータ駆動モデリングと,神経常微分方程式のロールアウトによる動的トレーニングを組み合わせることを提案する。 ロールアウトによるオペレータ推論は、従来のオペレータ推論の解釈可能性、スケーラビリティ、構造保存を継承し、複数ステップにわたるロールアウトによる動的トレーニングを活用して、低品質でノイズの多いデータから学ぶための安定性と堅牢性を向上させる。 浅海波と表面準地磁気力学を記述したデータを用いた数値実験により, ロールアウトによる演算子推論は, データが短時間でサンプリングされ, 最大10%のノイズで汚染された場合でも, 訓練軌道からの予測モデルを提供することを示した。

Data-driven modeling has become a key building block in computational science and engineering. However, data that are available in science and engineering are typically scarce, often polluted with noise and affected by measurement errors and other perturbations, which makes learning the dynamics of systems challenging. In this work, we propose to combine data-driven modeling via operator inference with the dynamic training via roll outs of neural ordinary differential equations. Operator inference with roll outs inherits interpretability, scalability, and structure preservation of traditional operator inference while leveraging the dynamic training via roll outs over multiple time steps to increase stability and robustness for learning from low-quality and noisy data. Numerical experiments with data describing shallow water waves and surface quasi-geostrophic dynamics demonstrate that operator inference with roll outs provides predictive models from training trajectories even if data are sampled sparsely in time and polluted with noise of up to 10%.
翻訳日:2022-12-06 19:30:00 公開日:2022-12-02
# 物理統計的生成逆学習を用いた極端降雨のダウンスケーリング

Downscaling Extreme Rainfall Using Physical-Statistical Generative Adversarial Learning ( http://arxiv.org/abs/2212.01446v1 )

ライセンス: Link先を確認
Anamitra Saha, Sai Ravela(参考訳) 気候の変化に伴う極端な気象現象のリスクのモデル化は、効果的な適応と緩和戦略を開発する上で不可欠である。 利用可能な低解像度の気候モデルは異なるシナリオを捉えるが、緩和と適応のための正確なリスク評価は通常解決できない詳細を要求することが多い。 そこで我々は,降雨の詳細な空間的詳細を知るために,物理と統計を生成フレームワークに組み込んだ動的データ駆動型ダウンスケーリング(スーパーレゾリューション)手法を開発した。 本手法は, 粗解(0.25^{\circ} \times 0.25^{\circ}$)の気候モデルを高分解能(0.01^{\circ} \times 0.01^{\circ}$)の降雨場に変換する。 その結果, 降雨量は空間場とそのリスク分布とよく一致していた。

Modeling the risk of extreme weather events in a changing climate is essential for developing effective adaptation and mitigation strategies. Although the available low-resolution climate models capture different scenarios, accurate risk assessment for mitigation and adaption often demands detail that they typically cannot resolve. Here, we develop a dynamic data-driven downscaling (super-resolution) method that incorporates physics and statistics in a generative framework to learn the fine-scale spatial details of rainfall. Our method transforms coarse-resolution ($0.25^{\circ} \times 0.25^{\circ}$) climate model outputs into high-resolution ($0.01^{\circ} \times 0.01^{\circ}$) rainfall fields while efficaciously quantifying uncertainty. Results indicate that the downscaled rainfall fields closely match observed spatial fields and their risk distributions.
翻訳日:2022-12-06 19:29:43 公開日:2022-12-02
# 資源・データ利用によるDNN圧縮と協調訓練のマッチング

Matching DNN Compression and Cooperative Training with Resources and Data Availability ( http://arxiv.org/abs/2212.02304v1 )

ライセンス: Link先を確認
Francesco Malandrino and Giuseppe Di Giacomo and Armin Karamzade and Marco Levorato and Carla Fabiana Chiasserini(参考訳) 機械学習(ml)を持続可能とし、関連するデータが存在する多様なデバイス上で動作させるには、必要な学習品質と時間パフォーマンスを満足しつつ、必要に応じてmlモデルを圧縮することが不可欠である。 しかしながら、MLモデルがどの程度圧縮されるべきで、そのトレーニングがどこで実行されるかは、モデル自体、利用可能なノードのリソース、そのようなノードが所有するデータに依存するため、決定が難しい。 既存の研究はそれぞれの側面に個別に焦点を合わせているが、そのような決定をどう共同で行うかは考慮していない。 本研究では,DNNのトレーニングに重点を置いたネットワークシステムをモデル化し,上記の多次元問題を形式化し,NPの硬さを考慮し,PACTアルゴリズムを用いて解く近似動的プログラミング問題を定式化する。 重要なのは、pactは学習プロセスを表す時間展開グラフと、トレーニング決定の結果として期待される損失進化を予測するためのデータ駆動および理論的アプローチを活用することだ。 我々は PACT の解が所望の最適値に近づくことができることを証明し、時間的複雑性の増大を犠牲にして、そのような複雑さが多項式であることを証明する。 数値的な結果は、最も不利な設定でも、pactは最先端の代替案よりも優れており、最適なエネルギーコストと密接に一致することを示している。

To make machine learning (ML) sustainable and apt to run on the diverse devices where relevant data is, it is essential to compress ML models as needed, while still meeting the required learning quality and time performance. However, how much and when an ML model should be compressed, and {\em where} its training should be executed, are hard decisions to make, as they depend on the model itself, the resources of the available nodes, and the data such nodes own. Existing studies focus on each of those aspects individually, however, they do not account for how such decisions can be made jointly and adapted to one another. In this work, we model the network system focusing on the training of DNNs, formalize the above multi-dimensional problem, and, given its NP-hardness, formulate an approximate dynamic programming problem that we solve through the PACT algorithmic framework. Importantly, PACT leverages a time-expanded graph representing the learning process, and a data-driven and theoretical approach for the prediction of the loss evolution to be expected as a consequence of training decisions. We prove that PACT's solutions can get as close to the optimum as desired, at the cost of an increased time complexity, and that, in any case, such complexity is polynomial. Numerical results also show that, even under the most disadvantageous settings, PACT outperforms state-of-the-art alternatives and closely matches the optimal energy cost.
翻訳日:2022-12-06 19:21:04 公開日:2022-12-02
# Meta-Shop:中小企業向けの改善アイテム

Meta-Shop: Improving Item Advertisement For Small Businesses ( http://arxiv.org/abs/2212.01414v1 )

ライセンス: Link先を確認
Yang Shi, Guannan Liang, Young-joo Chung(参考訳) 本稿では,中小企業向け商品広告について検討する。 このアプリケーションは、ビジネスが要求する特定のアイテムに対して見込み客を推薦する。 分析の結果,既存Recommender Systems (RS) は,販売履歴の少ない中小企業では有効ではないことがわかった。 rsのトレーニングサンプルは、販売が十分な人気企業に対して高いバイアスを負い、中小企業の広告パフォーマンスを低下させる可能性がある。 中小企業や店舗の広告パフォーマンスを改善するメタラーニングベースのRSを提案する。 Meta-Shopは高度なメタ学習最適化フレームワークを活用し、ショップレベルのレコメンデーションのためのモデルを構築する。 また、大きな店舗と小さな店舗の間で知識を統合し、伝達し、その結果、小さな店舗でより良い特徴を学ぶ。 実世界のEコマースデータセットと公開ベンチマークデータセットの実験を行った。 Meta-Shopは生産ベースラインと最先端RSモデルを上回った。 具体的には、他のrsモデルと比較してrecall@1mの16.6%、ndcg@3の40.4%の相対的な改善を達成した。

In this paper, we study item advertisements for small businesses. This application recommends prospective customers to specific items requested by businesses. From analysis, we found that the existing Recommender Systems (RS) were ineffective for small/new businesses with a few sales history. Training samples in RS can be highly biased toward popular businesses with sufficient sales and can decrease advertising performance for small businesses. We propose a meta-learning-based RS to improve advertising performance for small/new businesses and shops: Meta-Shop. Meta-Shop leverages an advanced meta-learning optimization framework and builds a model for a shop-level recommendation. It also integrates and transfers knowledge between large and small shops, consequently learning better features in small shops. We conducted experiments on a real-world E-commerce dataset and a public benchmark dataset. Meta-Shop outperformed a production baseline and the state-of-the-art RS models. Specifically, it achieved up to 16.6% relative improvement of Recall@1M and 40.4% relative improvement of nDCG@3 for user recommendations to new shops compared to the other RS models.
翻訳日:2022-12-06 18:55:22 公開日:2022-12-02
# MeshDQN:計算流体力学におけるメッシュ改善のための深層強化学習フレームワーク

MeshDQN: A Deep Reinforcement Learning Framework for Improving Meshes in Computational Fluid Dynamics ( http://arxiv.org/abs/2212.01428v1 )

ライセンス: Link先を確認
Cooper Lorsung, Amir Barati Farimani(参考訳) メッシュは、計算流体力学(CFD)の安定かつ正確なシミュレーションに必要な重要なプロセスである。 メッシュ生成はcfdパイプラインのボトルネックになることが多い。 適応的なメッシュ技術により、メッシュが自動的に更新され、目の前の問題に対する正確なソリューションが生成される。 従来のアダプティブメッシュ技術では、ソルバから追加機能を必要とするか、多くのトレーニングシミュレーションが必要になる。 現在の機械学習技術は、しばしばデータ生成のトレーニングにかなりの計算コストを必要とし、トレーニングデータフローレシエーションの範囲に制限される。 MeshDQNは、目標特性計算を保存しつつ、繰り返し粗いメッシュに対する汎用的な深層強化学習フレームワークとして開発されている。 グラフニューラルネットワークに基づくディープQネットワークを使用して、除去のためのメッシュ頂点を選択し、ソリューション補間を使用して、改善プロセスの各ステップで高価なシミュレーションをバイパスする。 MeshDQNは、メッシュ粗大化の前に単一のシミュレーションを必要とすると同時に、フロー状態やメッシュタイプ、あるいはソルバに関する仮定は必要とせず、CFDパイプラインでメッシュを直接修正する機能のみを必要とする。 meshdqnは2d翼のメッシュの改善に成功している。

Meshing is a critical, but user-intensive process necessary for stable and accurate simulations in computational fluid dynamics (CFD). Mesh generation is often a bottleneck in CFD pipelines. Adaptive meshing techniques allow the mesh to be updated automatically to produce an accurate solution for the problem at hand. Existing classical techniques for adaptive meshing require either additional functionality out of solvers, many training simulations, or both. Current machine learning techniques often require substantial computational cost for training data generation, and are restricted in scope to the training data flow regime. MeshDQN is developed as a general purpose deep reinforcement learning framework to iteratively coarsen meshes while preserving target property calculation. A graph neural network based deep Q network is used to select mesh vertices for removal and solution interpolation is used to bypass expensive simulations at each step in the improvement process. MeshDQN requires a single simulation prior to mesh coarsening, while making no assumptions about flow regime, mesh type, or solver, only requiring the ability to modify meshes directly in a CFD pipeline. MeshDQN successfully improves meshes for two 2D airfoils.
翻訳日:2022-12-06 18:55:04 公開日:2022-12-02
# 機械学習による風車性能とウェイクインタラクションのモデル化

Modeling Wind Turbine Performance and Wake Interactions with Machine Learning ( http://arxiv.org/abs/2212.01483v1 )

ライセンス: Link先を確認
C. Moss, R. Maulik, G.V. Iungo(参考訳) 異なる機械学習モデル (ML) は、沿岸風力発電所で収集された気象データとSCADAに基づいて訓練され、風速、乱流強度、タービンおよび風力発電所での風速および大気条件の予測のための忠実度と精度で評価される。 データ品質管理および前処理のためのml法を調査中のデータセットに適用し、標準統計法を上回った。 DNNフィルタと組み合わせた線形補間モデル、ガウス過程、ディープニューラルネットワーク(DNN)、サポートベクターマシンからなるハイブリッドモデルは、風力タービンパワーキャプチャーの高精度なモデリングを実現する。 風力発電所上空の風速の進化と運転タービンに関連する影響をDNNモデルで捉えることにより, 流入する自由流風速と乱流強度を$TI$に改良した。 これにより、自由流条件から各タービン位置における風速予測モデルと電力捕獲予測モデルとを組み合わせることにより、農業レベルのモデリングが達成される一方で、動力捕獲予測モデルを用いてタービンレベルのモデリングを実現する。 これらのモデルを組み合わせることで、電力捕獲性能が期待できる結果が得られ、風力発電のモデリングと診断における将来の取り組みが期待できる。 MLモデルのトレーニングには計算コストがかかるが、トレーニングされたモデルを用いて風力ファーム全体をシミュレートするには、一般的な現代のラップトップコンピュータではほんの数秒しかかからず、計算コストは、他の利用可能なミッドファイドリティシミュレーション手法よりも依然として低い。

Different machine learning (ML) models are trained on SCADA and meteorological data collected at an onshore wind farm and then assessed in terms of fidelity and accuracy for predictions of wind speed, turbulence intensity, and power capture at the turbine and wind farm levels for different wind and atmospheric conditions. ML methods for data quality control and pre-processing are applied to the data set under investigation and found to outperform standard statistical methods. A hybrid model, comprised of a linear interpolation model, Gaussian process, deep neural network (DNN), and support vector machine, paired with a DNN filter, is found to achieve high accuracy for modeling wind turbine power capture. Modifications of the incoming freestream wind speed and turbulence intensity, $TI$, due to the evolution of the wind field over the wind farm and effects associated with operating turbines are also captured using DNN models. Thus, turbine-level modeling is achieved using models for predicting power capture while farm-level modeling is achieved by combining models predicting wind speed and $TI$ at each turbine location from freestream conditions with models predicting power capture. Combining these models provides results consistent with expected power capture performance and holds promise for future endeavors in wind farm modeling and diagnostics. Though training ML models is computationally expensive, using the trained models to simulate the entire wind farm takes only a few seconds on a typical modern laptop computer, and the total computational cost is still lower than other available mid-fidelity simulation approaches.
翻訳日:2022-12-06 18:54:45 公開日:2022-12-02
# ClipFace: テキストガイドによる3Dモデル編集

ClipFace: Text-guided Editing of Textured 3D Morphable Models ( http://arxiv.org/abs/2212.01406v1 )

ライセンス: Link先を確認
Shivangi Aneja, Justus Thies, Angela Dai, Matthias Nie{\ss}ner(参考訳) ClipFaceはテクスチャ化された顔の3次元形態素モデルのテキスト誘導編集のための新しい自己教師型アプローチである。 具体的には,ユーザフレンドリーな言語プロンプトを用いて,表情の制御と3d顔の出現を可能にする。 制御性やテクスチャの表現性に制限がある3次元形態素モデルの幾何学的表現性を生かし,表現的,テクスチャ的,明瞭な顔を3次元で合成する自己教師付き生成モデルを開発した。 我々は,実RGB画像のコレクションに対する差別化レンダリングによって誘導される,対向的な自己指導訓練により,3次元顔の質の高いテクスチャ生成を可能にする。 制御可能な編集と操作は、3D形態素モデルのテクスチャと表現を適応させる言語プロンプトによって与えられる。 この目的のために,形態素モデルのテクスチャと表現潜在符号の両方を予測するニューラルネットワークを提案する。 我々のモデルは、事前訓練されたCLIPモデルに基づいて、差別化可能なレンダリングと損失を利用して、自己教師型で訓練される。 トレーニング後、我々のモデルはUV空間における顔のテクスチャと、表情の幾何学的変化とテクスチャ的変化を1つの前方通過で捉えるための表現パラメータを共同で予測する。 さらに,与えられたアニメーションシーケンスに対して,時間変化するテクスチャを生成する手法の適用性を示す。

We propose ClipFace, a novel self-supervised approach for text-guided editing of textured 3D morphable model of faces. Specifically, we employ user-friendly language prompts to enable control of the expressions as well as appearance of 3D faces. We leverage the geometric expressiveness of 3D morphable models, which inherently possess limited controllability and texture expressivity, and develop a self-supervised generative model to jointly synthesize expressive, textured, and articulated faces in 3D. We enable high-quality texture generation for 3D faces by adversarial self-supervised training, guided by differentiable rendering against collections of real RGB images. Controllable editing and manipulation are given by language prompts to adapt texture and expression of the 3D morphable model. To this end, we propose a neural network that predicts both texture and expression latent codes of the morphable model. Our model is trained in a self-supervised fashion by exploiting differentiable rendering and losses based on a pre-trained CLIP model. Once trained, our model jointly predicts face textures in UV-space, along with expression parameters to capture both geometry and texture changes in facial expressions in a single forward pass. We further show the applicability of our method to generate temporally changing textures for a given animation sequence.
翻訳日:2022-12-06 18:26:29 公開日:2022-12-02
# 模倣学習と力制御を用いた汎用ロボット協調アセンブリ

Generalizable Human-Robot Collaborative Assembly Using Imitation Learning and Force Control ( http://arxiv.org/abs/2212.01434v1 )

ライセンス: Link先を確認
Devesh K. Jha, Siddarth Jain, Diego Romeres, William Yerazunis and Daniel Nikovski(参考訳) ロボットは私たちの日常生活におけるプレゼンスを着実に増加させており、そこでは人間と一緒に働き、産業用フロア、オフィス、そして家庭で様々なタスクをこなすことができる。 自動組立はロボットの重要な応用の1つであり、次世代の組立システムは協調的な人間-ロボットシステムを作ることでより効率的になるかもしれない。 しかし、コラボレーティブロボットは数十年前から存在するが、真のコラボレーティブシステムへの応用は限られている。 これは、人間の行動の不確実性や不正確性、相互作用中の安全性の確保などに関して、真に協調的な人間ロボットシステムが操作を調整する必要があるためである。 本稿では,ロボットが人間の操作によって生じる不確実性に適応できるように,実演から学び,ポーズ推定を用いたロボット協調組立システムを提案する。 デモからの学習は、深層学習に基づく視覚システムから異なる目標地点のポーズ推定に基づいて、ロボットの動き軌跡を生成するために使用される。 提案システムは, ロボット組立シナリオにおいて, 物理的6DoFマニピュレータを用いて実証する。 実験により,初期および最終目標位置の変化に対するシステムの動作の一般化に成功したことを示す。

Robots have been steadily increasing their presence in our daily lives, where they can work along with humans to provide assistance in various tasks on industry floors, in offices, and in homes. Automated assembly is one of the key applications of robots, and the next generation assembly systems could become much more efficient by creating collaborative human-robot systems. However, although collaborative robots have been around for decades, their application in truly collaborative systems has been limited. This is because a truly collaborative human-robot system needs to adjust its operation with respect to the uncertainty and imprecision in human actions, ensure safety during interaction, etc. In this paper, we present a system for human-robot collaborative assembly using learning from demonstration and pose estimation, so that the robot can adapt to the uncertainty caused by the operation of humans. Learning from demonstration is used to generate motion trajectories for the robot based on the pose estimate of different goal locations from a deep learning-based vision system. The proposed system is demonstrated using a physical 6 DoF manipulator in a collaborative human-robot assembly scenario. We show successful generalization of the system's operation to changes in the initial and final goal locations through various experiments.
翻訳日:2022-12-06 18:19:58 公開日:2022-12-02
# 機械学習システムの能力測定と信頼性の強化

Measuring Competency of Machine Learning Systems and Enforcing Reliability ( http://arxiv.org/abs/2212.01415v1 )

ライセンス: Link先を確認
M. Planer, J. M. Sierchio, for BAE Systems(参考訳) 機械学習エージェントの能力に及ぼす環境条件の影響とリアルタイム能力評価がMLエージェントの信頼性に与える影響について検討する。 本研究では、視覚画像を利用した畳み込みニューラルネットワークにおいて、エージェントがオペレーターに期待できる行動の判断を可能にするmlエージェントの戦略や性能に影響を与える条件の表現を学習し、シミュレーションされた自動運転車の障害物回避タスクを支援する。

We explore the impact of environmental conditions on the competency of machine learning agents and how real-time competency assessments improve the reliability of ML agents. We learn a representation of conditions which impact the strategies and performance of the ML agent enabling determination of actions the agent can make to maintain operator expectations in the case of a convolutional neural network that leverages visual imagery to aid in the obstacle avoidance task of a simulated self-driving vehicle.
翻訳日:2022-12-06 18:00:53 公開日:2022-12-02
# 共同信頼区間を用いた多症例における異種治療効果の同定

Identifying Heterogeneous Treatment Effects in Multiple Outcomes using Joint Confidence Intervals ( http://arxiv.org/abs/2212.01437v1 )

ライセンス: Link先を確認
Peniel N. Argaw, Elizabeth Healey, Isaac S. Kohane(参考訳) 不均一治療効果(HTEs)はランダム化制御試験(RCTs)において一般的に同定される。 類似した治療効果を有する患者のサブグループを特定することは、精密医療を進めるための臨床研究に高い関心を寄せている。 多くの場合、RCT中に複数の臨床結果が測定され、それぞれが潜在的に不均一な効果を持つ。 近年,HTEからサブグループを特定することへの関心が高まっているが,複数の結果が得られた環境でのツール開発にはあまり注目されていない。 本研究では,共変量空間を分割し,共同CIに基づいて複数の結果にまたがる部分群を同定する枠組みを提案する。 我々は,2つの結果が存在する合成データと半合成データを用いてアルゴリズムを検証し,HTEを同時に取得できることを実証した。

Heterogeneous treatment effects (HTEs) are commonly identified during randomized controlled trials (RCTs). Identifying subgroups of patients with similar treatment effects is of high interest in clinical research to advance precision medicine. Often, multiple clinical outcomes are measured during an RCT, each having a potentially heterogeneous effect. Recently there has been high interest in identifying subgroups from HTEs, however, there has been less focus on developing tools in settings where there are multiple outcomes. In this work, we propose a framework for partitioning the covariate space to identify subgroups across multiple outcomes based on the joint CIs. We test our algorithm on synthetic and semi-synthetic data where there are two outcomes, and demonstrate that our algorithm is able to capture the HTE in both outcomes simultaneously.
翻訳日:2022-12-06 18:00:45 公開日:2022-12-02
# SMARTQUERY:ハイブリッド不確実性低減によるグラフニューラルネットワークのアクティブラーニングフレームワーク

SMARTQUERY: An Active Learning Framework for Graph Neural Networks through Hybrid Uncertainty Reduction ( http://arxiv.org/abs/2212.01440v1 )

ライセンス: Link先を確認
Xiaoting Li, Yuhang Wu, Vineeth Rakesh, Yusan Lin, Hao Yang, Fei Wang(参考訳) グラフニューラルネットワークは、表現学習で大きな成功を収めている。 しかし、性能向上にはコストがかかり、総合的なラベル付きデータをトレーニングのために取得することは違法にコストがかかる。 アクティブラーニングは、未探索のデータ空間を探索し、モデルのパフォーマンス向上を最大化するためにデータの選択を優先することでこの問題を軽減する。 本稿では,ハイブリッド不確実性低減関数を用いて,ラベル付きノードの少ないグラフニューラルネットワークを学習するためのフレームワークであるsmartqueryを提案する。 これは2つの重要なステップを使って達成される。 (a)多様な明示的なグラフ情報を活用して多段階能動グラフ学習フレームワークの設計 b) 既知のラベルを効率的に活用して暗黙の埋め込み情報を評価するためにラベル伝播を導入する。 3つのネットワークデータセットに関する包括的な実験セットを用いて、非常に少ないラベル付きデータ(クラス毎に最大5つのラベル付きノード)の最先端データに対する、この手法の競合性能を実証する。

Graph neural networks have achieved significant success in representation learning. However, the performance gains come at a cost; acquiring comprehensive labeled data for training can be prohibitively expensive. Active learning mitigates this issue by searching the unexplored data space and prioritizing the selection of data to maximize model's performance gain. In this paper, we propose a novel method SMARTQUERY, a framework to learn a graph neural network with very few labeled nodes using a hybrid uncertainty reduction function. This is achieved using two key steps: (a) design a multi-stage active graph learning framework by exploiting diverse explicit graph information and (b) introduce label propagation to efficiently exploit known labels to assess the implicit embedding information. Using a comprehensive set of experiments on three network datasets, we demonstrate the competitive performance of our method against state-of-the-arts on very few labeled data (up to 5 labeled nodes per class).
翻訳日:2022-12-06 18:00:33 公開日:2022-12-02
# 人間らしく数える:物体の類似性をモデル化する人類の群集

Counting Like Human: Anthropoid Crowd Counting on Modeling the Similarity of Objects ( http://arxiv.org/abs/2212.02248v1 )

ライセンス: Link先を確認
Qi Wang, Juncheng Wang, Junyu Gao, Yuan Yuan, Xuelong Li(参考訳) 主流の群集計数法は密度マップを回帰し、それを統合して計数結果を得る。 1つの頭部に対する密度表現は隣接する分布と一致するため、同一のカテゴリオブジェクトに異種値を埋め込むが、人間の数え上げは不変な特徴、すなわちオブジェクトとの類似性をモデル化する。 そこで我々は,合理的かつ人為的な集団カウントフレームワークを提案する。 まず、スカラー数を監視信号として活用し、同様の問題に対するグローバルかつ暗黙的なガイダンスを提供する。 次に、大きなカーネルcnnを用いて、不変知識をまずモデル化し、類似性を比較するためのスライドを行う人間のパラダイムを模倣する。 その後、事前訓練された並列パラメータのパラメータ再パラメータ化が、類似性比較における内部クラス分散に係わる。 最後に, 長距離依存性に対する類似性モデリングを容易にするために, ランダムスケーリングパッチ(rsy)を提案する。 クラウドカウントにおける5つの挑戦的ベンチマークに関する大規模な実験は、提案したフレームワークが最先端を達成することを示す。

The mainstream crowd counting methods regress density map and integrate it to obtain counting results. Since the density representation to one head accords to its adjacent distribution, it embeds the same category objects with variant values, while human beings counting models the invariant features namely similarity to objects. Inspired by this, we propose a rational and anthropoid crowd counting framework. To begin with, we leverage counting scalar as supervision signal, which provides global and implicit guidance to similar matters. Then, the large kernel CNN is utilized to imitate the paradigm of human beings which models invariant knowledge firstly and slides to compare similarity. Later, re-parameterization on pre-trained paralleled parameters is presented to cater to the inner-class variance on similarity comparison. Finally, the Random Scaling patches Yield (RSY) is proposed to facilitate similarity modeling on long distance dependencies. Extensive experiments on five challenging benchmarks in crowd counting show the proposed framework achieves state-of-the-art.
翻訳日:2022-12-06 17:44:03 公開日:2022-12-02
# 歩行者社会行動辞書の学習

Learning a Pedestrian Social Behavior Dictionary ( http://arxiv.org/abs/2212.01426v1 )

ライセンス: Link先を確認
Faith Johnson, Kristin Dana(参考訳) 歩行者の行動パターンを理解することは、人間同士をナビゲートできる自律的なエージェントを構築する上で重要な要素である。 歩行者行動の学習辞書を探索し,歩行者軌跡のセマンティックな記述を求める。 辞書学習の指導方法は、歩行者の行動が未熟である可能性があり、手動で行動ラベルを生成するプロセスが違法に時間を要するため、実用的ではない。 代わりに、特定の空間で観察される歩行者行動の分類を作成するために、新しい教師なしの枠組みを利用する。 まず,教師なしクラスタリングによって解釈可能な歩行者行動辞書を作成できる軌道潜在空間を学習する。 本稿では,空間利用パターンの可視化と行動分布の計算に,歩行者行動マップを構築するための辞書の有用性を示す。 これらの挙動ラベルを条件付けして, 簡便かつ効果的な軌道予測を行う。 多くの軌道解析手法はRNNやトランスフォーマーに依存しているが、我々は軽量で低パラメータなアプローチを開発し、ETHおよびUCYデータセットのSOTAに匹敵する結果を示す。

Understanding pedestrian behavior patterns is a key component to building autonomous agents that can navigate among humans. We seek a learned dictionary of pedestrian behavior to obtain a semantic description of pedestrian trajectories. Supervised methods for dictionary learning are impractical since pedestrian behaviors may be unknown a priori and the process of manually generating behavior labels is prohibitively time consuming. We instead utilize a novel, unsupervised framework to create a taxonomy of pedestrian behavior observed in a specific space. First, we learn a trajectory latent space that enables unsupervised clustering to create an interpretable pedestrian behavior dictionary. We show the utility of this dictionary for building pedestrian behavior maps to visualize space usage patterns and for computing the distributions of behaviors. We demonstrate a simple but effective trajectory prediction by conditioning on these behavior labels. While many trajectory analysis methods rely on RNNs or transformers, we develop a lightweight, low-parameter approach and show results comparable to SOTA on the ETH and UCY datasets.
翻訳日:2022-12-06 16:58:56 公開日:2022-12-02
# セマンティック画像合成のためのクラス特異的GAN制御の探索

Discovering Class-Specific GAN Controls for Semantic Image Synthesis ( http://arxiv.org/abs/2212.01455v1 )

ライセンス: Link先を確認
Edgar Sch\"onfeld, Julio Borges, Vadim Sushko, Bernt Schiele, Anna Khoreva(参考訳) 従来の研究は、非条件画像合成のためのGANの潜時空間構造を広範囲に研究し、解釈可能な潜時方向の教師なし発見による生成画像のグローバルな編集を可能にした。 しかし, セマンティック画像合成(SIS)のための条件付きGANの遅延方向の発見はいまだ発見されていない。 この作業では、特にこのギャップに対処することに重点を置いています。 本稿では,事前訓練されたSISモデルの潜時空間における空間的不整合クラス固有方向を求めるための新しい最適化手法を提案する。 提案手法によって検出される潜伏方向は,内部構造やテクスチャ,色など,セマンティッククラスの局所的な外観を効果的に制御できることを示す。 様々なデータセット上で発見されたGAN制御の視覚的検査と定量的評価により,本手法は,クラス固有の編集のための特異かつ意味論的に意味のある潜在方向の多種多様なセットを探索することを示した。

Prior work has extensively studied the latent space structure of GANs for unconditional image synthesis, enabling global editing of generated images by the unsupervised discovery of interpretable latent directions. However, the discovery of latent directions for conditional GANs for semantic image synthesis (SIS) has remained unexplored. In this work, we specifically focus on addressing this gap. We propose a novel optimization method for finding spatially disentangled class-specific directions in the latent space of pretrained SIS models. We show that the latent directions found by our method can effectively control the local appearance of semantic classes, e.g., changing their internal structure, texture or color independently from each other. Visual inspection and quantitative evaluation of the discovered GAN controls on various datasets demonstrate that our method discovers a diverse set of unique and semantically meaningful latent directions for class-specific edits.
翻訳日:2022-12-06 16:58:38 公開日:2022-12-02
# 複数ラベル分類のためのアンタングル付きラベル表現の学習

Learning Disentangled Label Representations for Multi-label Classification ( http://arxiv.org/abs/2212.01461v1 )

ライセンス: Link先を確認
Jian Jia, Fei He, Naiyu Gao, Xiaotang Chen, Kaiqi Huang(参考訳) マルチラベル分類には様々な方法が提案されているが、ほとんどのアプローチは単一ラベル(複数クラス)分類の特徴学習機構、すなわち複数のラベルを分類するための共有画像特徴の学習に引き続き従っている。 しかし、このOne-Shared-Feature-for-Multiple-Labels (OFML) メカニズムは識別ラベルの特徴を学習するのに役立ちません。 まず,ofml機構の劣りは,クロスエントロピー損失の最小化という文脈において,最適な学習画像特徴が複数の分類器と高い類似性を維持できないことを数学的に証明した。 ofml機構の限界に対処するために,one-specific-feature-for-one-label (ofol) 機構を導入し,各ラベルの異種表現を学ぶための新しい異種ラベル特徴学習(dlfl)フレームワークを提案する。 フレームワークの特異性は、学習可能なセマンティッククエリとSSCA(Semantic Spatial Cross-Attention)モジュールを含む機能不整合モジュールにある。 具体的には、学習可能なセマンティッククエリは、同一ラベルの異なる画像間のセマンティック一貫性を維持する。 SSCAモジュールは、ラベル関連空間領域をローカライズし、位置領域の特徴を対応するラベル特徴に集約して特徴不絡を実現する。 我々は,3つのタスクからなる8つのデータセット,iie,複数ラベル分類,歩行者属性認識,連続多ラベル学習の最先端性能を達成した。

Although various methods have been proposed for multi-label classification, most approaches still follow the feature learning mechanism of the single-label (multi-class) classification, namely, learning a shared image feature to classify multiple labels. However, we find this One-shared-Feature-for-Multiple-Labels (OFML) mechanism is not conducive to learning discriminative label features and makes the model non-robustness. For the first time, we mathematically prove that the inferiority of the OFML mechanism is that the optimal learned image feature cannot maintain high similarities with multiple classifiers simultaneously in the context of minimizing cross-entropy loss. To address the limitations of the OFML mechanism, we introduce the One-specific-Feature-for-One-Label (OFOL) mechanism and propose a novel disentangled label feature learning (DLFL) framework to learn a disentangled representation for each label. The specificity of the framework lies in a feature disentangle module, which contains learnable semantic queries and a Semantic Spatial Cross-Attention (SSCA) module. Specifically, learnable semantic queries maintain semantic consistency between different images of the same label. The SSCA module localizes the label-related spatial regions and aggregates located region features into the corresponding label feature to achieve feature disentanglement. We achieve state-of-the-art performance on eight datasets of three tasks, \ie, multi-label classification, pedestrian attribute recognition, and continual multi-label learning.
翻訳日:2022-12-06 16:58:22 公開日:2022-12-02
# シーンの可塑性の予測

Prediction of Scene Plausibility ( http://arxiv.org/abs/2212.01470v1 )

ライセンス: Link先を確認
Or Nachmias, Ohad Fried and Ariel Shamir(参考訳) 2D画像から3D世界を理解するには、シーン内のオブジェクトの検出とセグメンテーション以上のものが必要になる。 また、シーン要素の構造と配置の解釈も含んでいる。 このような理解は、しばしば物理的世界とその限界を認識することや、どのように類似した場面が配置されているかに関する事前知識に根ざしている。 本研究では,ニューラルネットワーク(あるいは他の)シーン理解アルゴリズムに対して,新たな課題を提起する。 プラウサビリティは、物理的性質と機能的配置と典型的な配置の両方で定義できる。 したがって,実世界においてある場面に遭遇する確率として,可能性を定義する。 可視・可視の両方のシーンを含む合成画像のデータセットを構築し、可視性を認識し理解するタスクにおいて、様々な視覚モデルの成功をテストする。

Understanding the 3D world from 2D images involves more than detection and segmentation of the objects within the scene. It also includes the interpretation of the structure and arrangement of the scene elements. Such understanding is often rooted in recognizing the physical world and its limitations, and in prior knowledge as to how similar typical scenes are arranged. In this research we pose a new challenge for neural network (or other) scene understanding algorithms - can they distinguish between plausible and implausible scenes? Plausibility can be defined both in terms of physical properties and in terms of functional and typical arrangements. Hence, we define plausibility as the probability of encountering a given scene in the real physical world. We build a dataset of synthetic images containing both plausible and implausible scenes, and test the success of various vision models in the task of recognizing and understanding plausibility.
翻訳日:2022-12-06 16:57:47 公開日:2022-12-02
# narrasum: 物語要約のための大規模データセット

NarraSum: A Large-Scale Dataset for Abstractive Narrative Summarization ( http://arxiv.org/abs/2212.01476v1 )

ライセンス: Link先を確認
Chao Zhao, Faeze Brahman, Kaiqiang Song, Wenlin Yao, Dian Yu, Snigdha Chaturvedi(参考訳) 物語の要約は、最も健全な出来事とキャラクターを記述するための物語の蒸留版を作ることを目的としている。 物語の要約は、出来事の因果関係と性格行動を理解する必要があるため、難しい。 この方向の研究を促進するために,大規模な物語要約データセットであるNarraSumを提案する。 122kの物語文書を収録し、様々なジャンルの映画やテレビ番組の筋書きや、それらに対応する抽象要約から収集する。 実験の結果,NarraSumにおける人間と最先端の要約モデルの間には大きなパフォーマンスギャップが存在することがわかった。 このデータセットは、今後の要約研究や、自然言語の理解と生成に関する広範な研究を促進することを願っている。 データセットはhttps://github.com/zhaochaocs/narrasumで入手できる。

Narrative summarization aims to produce a distilled version of a narrative to describe its most salient events and characters. Summarizing a narrative is challenging as it requires an understanding of event causality and character behaviors. To encourage research in this direction, we propose NarraSum, a large-scale narrative summarization dataset. It contains 122K narrative documents, which are collected from plot descriptions of movies and TV episodes with diverse genres, and their corresponding abstractive summaries. Experiments show that there is a large performance gap between humans and the state-of-the-art summarization models on NarraSum. We hope that this dataset will promote future research in summarization, as well as broader studies of natural language understanding and generation. The dataset is available at https://github.com/zhaochaocs/narrasum.
翻訳日:2022-12-06 16:32:10 公開日:2022-12-02
# 健康要因の社会的要因探索のための臨床ソーシャルワークノートのトピックモデリング

Topic Modeling on Clinical Social Work Notes for Exploring Social Determinants of Health Factors ( http://arxiv.org/abs/2212.01462v1 )

ライセンス: Link先を確認
Shenghuan Sun, Travis Zack, Madhumita Sushil, Atul J. Butte(参考訳) 健康の社会的決定因子(SDoH)を研究するほとんどの研究は、電子カルテ(EMR)の医師注記や構造化要素に焦点を当てている。 社会的・経済的要因を改良する役割を持つソーシャルワーカーによる臨床ノートは、SDoHに関するより豊富なデータソースを提供する可能性があると仮定する。 我々は,ソーシャルワークノートの膨大なコホートの中で,ロバストな議論トピックを特定するためのトピックモデリングの実施を試みた。 カリフォルニア大学サンフランシスコ校の181,644人の患者から、多種多様で身元不明の医療ソーシャルワークノートのコーパスを採取した。 単語頻度解析とLDA(Latent Dirichlet Allocation)のトピックモデリング分析を用いて,このコーパスを特徴付け,議論の潜在的トピックを特定した。 単語頻度分析では、特定のICD10章に関連する医学用語と非医学用語の両方が同定された。 ldaのトピックモデリング分析は、金融状況、虐待歴、社会支援、死亡リスク、精神健康など、健康リスク要因の社会的決定要因に関する11のトピックを抽出した。 さらに、トピックモデリングアプローチでは、さまざまな種類の社会作業ノートと、異なる種類の疾患や状態の患者間での変動を捉えた。 ソーシャルワークノートには、個人のSDoHについて、豊かで、ユニークで、その他に持続不可能な情報が含まれていることを実証した。

Most research studying social determinants of health (SDoH) has focused on physician notes or structured elements of the electronic medical record (EMR). We hypothesize that clinical notes from social workers, whose role is to ameliorate social and economic factors, might provide a richer source of data on SDoH. We sought to perform topic modeling to identify robust topics of discussion within a large cohort of social work notes. We retrieved a diverse, deidentified corpus of 0.95 million clinical social work notes from 181,644 patients at the University of California, San Francisco. We used word frequency analysis and Latent Dirichlet Allocation (LDA) topic modeling analysis to characterize this corpus and identify potential topics of discussion. Word frequency analysis identified both medical and non-medical terms associated with specific ICD10 chapters. The LDA topic modeling analysis extracted 11 topics related to social determinants of health risk factors including financial status, abuse history, social support, risk of death, and mental health. In addition, the topic modeling approach captured the variation between different types of social work notes and across patients with different types of diseases or conditions. We demonstrated that social work notes contain rich, unique, and otherwise unobtainable information on an individual's SDoH.
翻訳日:2022-12-06 16:20:35 公開日:2022-12-02
# タンパク質残基接触マップ予測のための多スケールグラフニューラルネットワーク

Multiscale Graph Neural Networks for Protein Residue Contact Map Prediction ( http://arxiv.org/abs/2212.02251v1 )

ライセンス: Link先を確認
Kuang Liu, Rajiv K. Kalia, Xinlian Liu, Aiichiro Nakano, Ken-ichi Nomura, Priya Vashishta, Rafael Zamora-Resendizc(参考訳) 機械学習(ML)は、タンパク質の構造解析に革命をもたらしており、タンパク質のアミノ酸配列に従ってアミノ酸残基が近接しているタンパク質残基接触マップを予測する重要なサブプロブレムを含む。 近年のMLベースのタンパク質接触予測の進歩にもかかわらず、幅広い距離(通常、短距離、中距離、長距離の接触に分類される)の接触を予測することは課題である。 本稿では,RNNを含む標準パイプラインを3つのGNNで拡張し,それぞれ短距離,中距離,長距離の残差接触の予測能力を向上する,マルチスケールグラフニューラルネットワーク(GNN)に基づくアプローチを提案する。 ProteinNetデータセットの試験結果から,従来手法に対するマルチスケール RNN+GNN アプローチを用いた全領域の接触精度が向上し,特に長距離接触予測の難しさが示された。

Machine learning (ML) is revolutionizing protein structural analysis, including an important subproblem of predicting protein residue contact maps, i.e., which amino-acid residues are in close spatial proximity given the amino-acid sequence of a protein. Despite recent progresses in ML-based protein contact prediction, predicting contacts with a wide range of distances (commonly classified into short-, medium- and long-range contacts) remains a challenge. Here, we propose a multiscale graph neural network (GNN) based approach taking a cue from multiscale physics simulations, in which a standard pipeline involving a recurrent neural network (RNN) is augmented with three GNNs to refine predictive capability for short-, medium- and long-range residue contacts, respectively. Test results on the ProteinNet dataset show improved accuracy for contacts of all ranges using the proposed multiscale RNN+GNN approach over the conventional approach, including the most challenging case of long-range contact prediction.
翻訳日:2022-12-06 16:13:56 公開日:2022-12-02
# 無許可ドローン検出:実験とプロトタイプ

Unauthorized Drone Detection: Experiments and Prototypes ( http://arxiv.org/abs/2212.01436v1 )

ライセンス: Link先を確認
Muhammad Asif Khan, Hamid Menouar, Osama Muhammad Khalid, and Adnan Abu-Dayya(参考訳) 無人航空機(無人航空機)の増加は、公共のプライバシー、重要なインフラ、サイバーセキュリティにいくつかの脅威をもたらす。 したがって、ここ数年で無人ドローンの発見に注目が集まっている重要な問題である。 本稿では,室内環境と屋外環境の両方において,その効果を評価するための3つのドローン検出手法(音響検出,高周波検出,視覚検出)の実験研究について述べる。 そこで,本研究では,ドローンの受信信号強度インジケータ(rssi)の2段階検証と,ドローンの位置座標から生成した暗号鍵を用いて,認可されたドローンの存在下で無許可のドローンを確実に検出する暗号化方式を提案する。

The increase in the number of unmanned aerial vehicles a.k.a. drones pose several threats to public privacy, critical infrastructure and cyber security. Hence, detecting unauthorized drones is a significant problem which received attention in the last few years. In this paper, we present our experimental work on three drone detection methods (i.e., acoustic detection, radio frequency (RF) detection, and visual detection) to evaluate their efficacy in both indoor and outdoor environments. Owing to the limitations of these schemes, we present a novel encryption-based drone detection scheme that uses a two-stage verification of the drone's received signal strength indicator (RSSI) and the encryption key generated from the drone's position coordinates to reliably detect an unauthorized drone in the presence of authorized drones.
翻訳日:2022-12-06 16:12:30 公開日:2022-12-02
# アンタングル変換器を用いたオンデバイス音声認識の連続学習

Continual Learning for On-Device Speech Recognition using Disentangled Conformers ( http://arxiv.org/abs/2212.01393v1 )

ライセンス: Link先を確認
Anuj Diwan, Ching-Feng Yeh, Wei-Ning Hsu, Paden Tomasello, Eunsol Choi, David Harwath, Abdelrahman Mohamed(参考訳) 音声認識研究は静的データセットのトレーニングと評価に焦点を当てている。 しかし、音声モデルはますますパーソナルデバイスに配備されるようになり、そのようなモデルはユーザー固有の分布シフトに遭遇する。 この実世界のシナリオをシミュレートするために、libricontinualは、librivoxオーディオブックから派生した話者固有のドメイン適応のための連続学習ベンチマークであり、118個の個々の話者に対応するデータと、異なる大きさの話者毎に6つの列車分割を含む。 さらに、現在の音声認識モデルや連続学習アルゴリズムは、計算効率に最適化されていない。 汎用学習アルゴリズムNetAugをASRに適用し、Disconformer(Disentangled Conformer)と呼ばれる新しいConformer変異体を作成する。 このアルゴリズムは、汎用使用のための凍結された「コア」ネットワークと、話者固有のチューニングのための調整可能な「オーグメント」ネットワークからなるasrモデルを生成する。 このようなモデルを用いて,DistangledCLと呼ばれる計算効率の高い連続学習アルゴリズムを提案する。 実験の結果,DisConformer モデルは一般 ASR,すなわち LibriSpeech (15.58% rel) のベースラインよりも有意に優れていた。 話者固有のlibricontinualでは、トレーニング可能なパラメータマッチングベースライン(テストでは20.65%)を大きく上回り、一部の設定では、完全に微調整されたベースラインにさえ匹敵する。

Automatic speech recognition research focuses on training and evaluating on static datasets. Yet, as speech models are increasingly deployed on personal devices, such models encounter user-specific distributional shifts. To simulate this real-world scenario, we introduce LibriContinual, a continual learning benchmark for speaker-specific domain adaptation derived from LibriVox audiobooks, with data corresponding to 118 individual speakers and 6 train splits per speaker of different sizes. Additionally, current speech recognition models and continual learning algorithms are not optimized to be compute-efficient. We adapt a general-purpose training algorithm NetAug for ASR and create a novel Conformer variant called the DisConformer (Disentangled Conformer). This algorithm produces ASR models consisting of a frozen 'core' network for general-purpose use and several tunable 'augment' networks for speaker-specific tuning. Using such models, we propose a novel compute-efficient continual learning algorithm called DisentangledCL. Our experiments show that the DisConformer models significantly outperform baselines on general ASR i.e. LibriSpeech (15.58% rel. WER on test-other). On speaker-specific LibriContinual they significantly outperform trainable-parameter-matched baselines (by 20.65% rel. WER on test) and even match fully finetuned baselines in some settings.
翻訳日:2022-12-06 15:54:21 公開日:2022-12-02
# Thread with Caution:オンラインディスカッションでユーザーの評価と緊張緩和を積極的に支援

Thread With Caution: Proactively Helping Users Assess and Deescalate Tension in Their Online Discussions ( http://arxiv.org/abs/2212.01401v1 )

ライセンス: Link先を確認
Jonathan P. Chang, Charlotte Schluger, Cristian Danescu-Niculescu-Mizil(参考訳) インキュビティはオンラインの議論プラットフォームにとって依然として大きな課題であり、意図に富んだユーザー同士の会話でさえ、しばしば非現実的な行動に陥る可能性がある。 従来、プラットフォームはモデレーターに依存して、アルゴリズムによる支援の有無に関わらず、コメントの削除やユーザの禁止といった修正措置を講じてきた。 本研究では,会話における既存の緊張感に対する意識を積極的に高め,さらにエスカレーションを避けるために回答の起草を積極的に行うことによって,ユーザを直接力づける補完的パラダイムを提案する。 このパラダイムの概念の実証として,このようなプロアクティブな情報をユーザに直接提供するアルゴリズムツールを設計し,一般的な議論プラットフォームでユーザ調査を行う。 調査とランダム化制御実験を組み合わせた混合手法を用いて, 被験者が情報をどのように活用し, 反応するかに関する質的, 定量的な知見を明らかにする。 ほとんどの参加者は、この積極的なパラダイムを見つけることは価値があると報告し、そうでなければ見逃したかもしれない緊張を特定するのに役立ち、彼ら自身の回答をさらに反映させ、修正するよう促す。 これらの効果は、ツールが無効になっている制御条件に対して、会話が非現実的な行動に脱線するリスクがあると警告すると、参加者がどのように回答をドラフトするかの比較によって裏付けられる。 これらの予備的な発見は、このユーザー中心のパラダイムの可能性を強調し、将来の実装の具体的な方向性を示している。

Incivility remains a major challenge for online discussion platforms, to such an extent that even conversations between well-intentioned users can often derail into uncivil behavior. Traditionally, platforms have relied on moderators to -- with or without algorithmic assistance -- take corrective actions such as removing comments or banning users. In this work we propose a complementary paradigm that directly empowers users by proactively enhancing their awareness about existing tension in the conversation they are engaging in and actively guides them as they are drafting their replies to avoid further escalation. As a proof of concept for this paradigm, we design an algorithmic tool that provides such proactive information directly to users, and conduct a user study in a popular discussion platform. Through a mixed methods approach combining surveys with a randomized controlled experiment, we uncover qualitative and quantitative insights regarding how the participants utilize and react to this information. Most participants report finding this proactive paradigm valuable, noting that it helps them to identify tension that they may have otherwise missed and prompts them to further reflect on their own replies and to revise them. These effects are corroborated by a comparison of how the participants draft their reply when our tool warns them that their conversation is at risk of derailing into uncivil behavior versus in a control condition where the tool is disabled. These preliminary findings highlight the potential of this user-centered paradigm and point to concrete directions for future implementations.
翻訳日:2022-12-06 15:45:58 公開日:2022-12-02
# 複合トークン:視覚言語表現学習のためのチャネル融合

Compound Tokens: Channel Fusion for Vision-Language Representation Learning ( http://arxiv.org/abs/2212.01447v1 )

ライセンス: Link先を確認
Maxwell Mbabilla Aladago and AJ Piergiovanni(参考訳) 本稿では,視覚質問応答や視覚情報を含む複数の質問応答タスクに対して,視覚的表現と言語表現を融合する効果的な手法を提案する。 ユニモーダル表現を結合したり、クロス・アテンションのみを使用する以前の作品とは対照的に、チャンネル融合によってマルチモーダル表現を構成する。 チャネルをfusingすることで、モデルは標準的なメソッドと比較してトークンをより効果的に調整することができる。 複合トークンと呼ばれるこれらのマルチモーダル表現は、クロスアテンショントランスフォーマー層で生成される。 まず、視覚トークンは、相互接続によって互換性のあるテキストトークンを取得するためのクエリとして使用される。 次に視覚トークンとクエリされたテキストトークンをチャネル次元に沿ってチェーンします。 結果表現を複合トークンと呼びます。 第2の複合トークン群は、テキストトークンがクロスアテンション層へのクエリとして機能する類似プロセスを用いて生成される。 我々は、複合トークンを全て結合して、マルチモーダルエンコーダでさらに処理する。 オープンボキャブラリー設定におけるエンコーダ・デコーダビジョン言語モデルを用いた複合トークンの有効性を実証する。 複合トークンは、GQA、VQA2.0、SNLI-VEを含む様々な質問応答タスクで高い競争性能を達成する。

We present an effective method for fusing visual-and-language representations for several question answering tasks including visual question answering and visual entailment. In contrast to prior works that concatenate unimodal representations or use only cross-attention, we compose multimodal representations via channel fusion. By fusing on the channels, the model is able to more effectively align the tokens compared to standard methods. These multimodal representations, which we call compound tokens are generated with cross-attention transformer layers. First, vision tokens are used as queries to retrieve compatible text tokens through cross-attention. We then chain the vision tokens and the queried text tokens along the channel dimension. We call the resulting representations compound tokens. A second group of compound tokens are generated using an analogous process where the text tokens serve as queries to the cross-attention layer. We concatenate all the compound tokens for further processing with multimodal encoder. We demonstrate the effectiveness of compound tokens using an encoder-decoder vision-language model trained end-to-end in the open-vocabulary setting. Compound Tokens achieve highly competitive performance across a range of question answering tasks including GQA, VQA2.0, and SNLI-VE.
翻訳日:2022-12-06 15:45:32 公開日:2022-12-02
# PGFed:フェデレートラーニングのための各クライアントのグローバルオブジェクトをパーソナライズ

PGFed: Personalize Each Client's Global Objective for Federated Learning ( http://arxiv.org/abs/2212.01448v1 )

ライセンス: Link先を確認
Jun Luo, Matias Mendieta, Chen Chen, Shandong Wu(参考訳) 不均一なデータに対する従来のフェデレート学習(FL)の中間的性能は、単一グローバルコンセンサスモデルを訓練する従来のFLとは異なり、異なるクライアントに対して異なるモデルが許可されている。 しかしながら、既存のほとんどのパーソナライズされたflアルゴリズムでは、フェデレーション全体の共同知識は、モデル集約や正規化のような方法でクライアントに暗黙的に渡されただけだった。 この暗黙的な知識伝達は、各クライアントの他のクライアントに対する経験的リスクの潜在的価値を最大化するのに失敗する。 そこで本研究では,個人化グローバルフェデレーション・ラーニング(pgfed)を提案する。このフレームワークは,自己と他のクライアントの経験的リスクを明確かつ適応的に集約することで,各クライアントが自身のグローバル目標をパーソナライズできる,新たなパーソナライズされたflフレームワークである。 o(n^2)$)の通信オーバーヘッドと潜在的なプライバシー漏洩を避けるため、各クライアントのリスクは、他のクライアントの適応リスクアグリゲーションに対する一階近似によって推定される。 PGFedの上にPGFedMoと呼ばれるモーメントアップグレードを開発し、クライアントの経験的リスクをより効率的に活用する。 ベンチマークデータセットによる異なるフェデレートされた設定下での広範な実験では、比較した最先端の代替よりもPGFが一貫した改善が見られた。

The mediocre performance of conventional federated learning (FL) over heterogeneous data has been facilitating personalized FL solutions, where, unlike conventional FL which trains a single global consensus model, different models are allowed for different clients. However, in most existing personalized FL algorithms, the collaborative knowledge across the federation was only implicitly passed to the clients in ways such as model aggregation or regularization. We observed that this implicit knowledge transfer fails to maximize the potential value of each client's empirical risk toward other clients. Based on our observation, in this work, we propose Personalized Global Federated Learning (PGFed), a novel personalized FL framework that enables each client to personalize its own global objective by explicitly and adaptively aggregating the empirical risks of itself and other clients. To avoid massive ($O(N^2)$) communication overhead and potential privacy leakage, each client's risk is estimated through a first-order approximation for other clients' adaptive risk aggregation. On top of PGFed, we develop a momentum upgrade, dubbed PGFedMo, to more efficiently utilize clients' empirical risks. Our extensive experiments under different federated settings with benchmark datasets show consistent improvements of PGFed over the compared state-of-the-art alternatives.
翻訳日:2022-12-06 15:45:15 公開日:2022-12-02
# 不完全ラベルを用いた集団密度推定

Crowd Density Estimation using Imperfect Labels ( http://arxiv.org/abs/2212.01450v1 )

ライセンス: Link先を確認
Muhammad Asif Khan, Hamid Menouar, and Ridha Hamila(参考訳) 人口密度推定法は, ヘッドアノテートされた群集画像から深層学習モデルを学習し, 群集密度を推定する手法として最も広く用いられている手法の1つである。 通常、モデルの学習性能はアノテーションの精度に大きく影響され、不正確なアノテーションは、予測中の局所化やエラーのカウントにつながる可能性がある。 完全なラベル付きデータセットを使用して、群衆のカウントにかなりの量の作業が存在しているが、アノテーションのエラーがモデルの精度に与える影響についての研究は行われていない。 本稿では,不完全なラベル(ノイズとラベルの欠落)が群集数精度に与える影響について検討する。 本研究では,ディープラーニングモデル(アノテータと呼ばれる)を用いて不完全なラベルを自動的に生成し,新たな群衆カウントモデル(ターゲットモデル)を学習するシステムを提案する。 2つの群集計数モデルと2つのベンチマークデータセットの解析により,提案手法は,群集モデルのアノテーションエラーに対する頑健性を示す完全ラベルで訓練されたモデルに近い精度が得られることを示した。

Density estimation is one of the most widely used methods for crowd counting in which a deep learning model learns from head-annotated crowd images to estimate crowd density in unseen images. Typically, the learning performance of the model is highly impacted by the accuracy of the annotations and inaccurate annotations may lead to localization and counting errors during prediction. A significant amount of works exist on crowd counting using perfectly labelled datasets but none of these explore the impact of annotation errors on the model accuracy. In this paper, we investigate the impact of imperfect labels (both noisy and missing labels) on crowd counting accuracy. We propose a system that automatically generates imperfect labels using a deep learning model (called annotator) which are then used to train a new crowd counting model (target model). Our analysis on two crowd counting models and two benchmark datasets shows that the proposed scheme achieves accuracy closer to that of the model trained with perfect labels showing the robustness of crowd models to annotation errors.
翻訳日:2022-12-06 15:38:48 公開日:2022-12-02
# CLIP: 少ないデータでより速くトレーニングする

CLIP: Train Faster with Less Data ( http://arxiv.org/abs/2212.01452v1 )

ライセンス: Link先を確認
Muhammad Asif Khan, Ridha Hamila, and Hamid Menouar(参考訳) ディープラーニングモデルは、トレーニングに膨大なデータを必要とします。 しかし、最近では機械学習がモデル中心からデータ中心のアプローチにシフトしている。 データ中心のアプローチでは、モデルアーキテクチャを再設計するのではなく、データの品質を洗練・改善し、モデルの学習性能を改善することに重点を置いています。 本稿では,CLIP(Criculum Learning with Iterative Data Pruning)を提案する。 CLIPは、カリキュラム学習とデータセットプルーニングという2つのデータ中心のアプローチを組み合わせて、モデルの学習精度と収束速度を改善する。 提案手法は,最小限のサンプルを反復的に除去し,カリキュラム学習における有効データセットのサイズを段階的に削減する。 群集密度推定モデルを用いて行った広範囲な実験は、収束時間を短縮し一般化を改善することにより、この2つのアプローチの背後にある概念を検証する。 我々の知る限り、カリキュラム学習における組込みプロセスとしてのデータプルーニングの考え方は新しくない。

Deep learning models require an enormous amount of data for training. However, recently there is a shift in machine learning from model-centric to data-centric approaches. In data-centric approaches, the focus is to refine and improve the quality of the data to improve the learning performance of the models rather than redesigning model architectures. In this paper, we propose CLIP i.e., Curriculum Learning with Iterative data Pruning. CLIP combines two data-centric approaches i.e., curriculum learning and dataset pruning to improve the model learning accuracy and convergence speed. The proposed scheme applies loss-aware dataset pruning to iteratively remove the least significant samples and progressively reduces the size of the effective dataset in the curriculum learning training. Extensive experiments performed on crowd density estimation models validate the notion behind combining the two approaches by reducing the convergence time and improving generalization. To our knowledge, the idea of data pruning as an embedded process in curriculum learning is novel.
翻訳日:2022-12-06 15:38:33 公開日:2022-12-02
# 大規模言語モデルにおける事象知識 : 不可能と不可能とのギャップ

Event knowledge in large language models: the gap between the impossible and the unlikely ( http://arxiv.org/abs/2212.01488v1 )

ライセンス: Link先を確認
Carina Kauf, Anna A. Ivanova, Giulia Rambelli, Emmanuele Chersoni, Jingyuan S. She, Zawad Chowdhury, Evelina Fedorenko, Alessandro Lenci(参考訳) 人々は常に言語を使って世界について学ぶ。 計算言語学者はこの事実を利用して、言語コーパスから共起に基づく知識を取得する大きな言語モデル(LLM)を構築している。 LLMは多くのタスクにおいて素晴らしいパフォーマンスを達成するが、彼らの世界知識の堅牢性は疑問視されている。 LLMは現実世界の出来事に関する一般的な知識を取得するだろうか? 最小文対 (n=1215) のキュレートされた集合を用いて, LLM が有意な事象記述を生成できるかどうかを検証した。 LLMは、可能なイベントと不可能なイベントを体系的に区別する(ラップトップとラップトップが購入した)が、ありそうもないイベントを区別する際には人間のパフォーマンスに欠ける(乳母は少年と乳母を指導した)。 フォローアップ分析では、 i) LLMスコアは、可視性と表面レベルの文特徴の両方によって駆動される。 (ii) llmは、構文的文の変種(アクティブとパッシブ)にまたがるが、意味的文の変種(synonymous sentences)ではよくない。 (iii)地中ラベルからのllm偏差が、クラウドソーシングされた人的判断と一致しているもの、 (4)中級LCM層に明示的な事象可視性情報が出現し,以降も高い状態が続く。 総じて,LLMの事象知識のギャップを明らかにし,その限界を一般化された知識基盤として強調した。 本研究は,言語知識と知的システムにおける世界知識の根本的な相違を反映して,不可能事象と不可避事象の差分性能は一時的な逆転ではなく,LLMの本質的特性である,と推測する。

People constantly use language to learn about the world. Computational linguists have capitalized on this fact to build large language models (LLMs) that acquire co-occurrence-based knowledge from language corpora. LLMs achieve impressive performance on many tasks, but the robustness of their world knowledge has been questioned. Here, we ask: do LLMs acquire generalized knowledge about real-world events? Using curated sets of minimal sentence pairs (n=1215), we tested whether LLMs are more likely to generate plausible event descriptions compared to their implausible counterparts. We found that LLMs systematically distinguish possible and impossible events (The teacher bought the laptop vs. The laptop bought the teacher) but fall short of human performance when distinguishing likely and unlikely events (The nanny tutored the boy vs. The boy tutored the nanny). In follow-up analyses, we show that (i) LLM scores are driven by both plausibility and surface-level sentence features, (ii) LLMs generalize well across syntactic sentence variants (active vs passive) but less well across semantic sentence variants (synonymous sentences), (iii) some, but not all LLM deviations from ground-truth labels align with crowdsourced human judgments, and (iv) explicit event plausibility information emerges in middle LLM layers and remains high thereafter. Overall, our analyses reveal a gap in LLMs' event knowledge, highlighting their limitations as generalized knowledge bases. We conclude by speculating that the differential performance on impossible vs. unlikely events is not a temporary setback but an inherent property of LLMs, reflecting a fundamental difference between linguistic knowledge and world knowledge in intelligent systems.
翻訳日:2022-12-06 15:19:20 公開日:2022-12-02
# PROB:オープンワールドオブジェクト検出のための確率的対象性

PROB: Probabilistic Objectness for Open World Object Detection ( http://arxiv.org/abs/2212.01424v1 )

ライセンス: Link先を確認
Orr Zohar, Kuan-Chieh Wang, Serena Yeung(参考訳) Open World Object Detection (OWOD)は、従来のオブジェクト検出(OD)ベンチマークと現実世界におけるオブジェクト検出のギャップを埋める、新しくて困難なコンピュータビジョンタスクである。 表示/ラベル付きオブジェクトの検出と分類に加えて、OWODアルゴリズムは、新しい/未知のオブジェクトを検出することが期待されている。 標準odでは、ラベル付きオブジェクトと重複しないオブジェクトの提案は、自動的にバックグラウンドとして分類される。 したがって、ODメソッドをOWODに適用するだけで、未知のオブジェクトがバックグラウンドとして予測されるため失敗する。 未知のオブジェクトを検出するという課題は、未知のオブジェクトとバックグラウンドのオブジェクトの提案を区別する監督の欠如に起因する。 従来のOWOD法では, 疑似ラベルを用いた監視を行おうとしているが, 未知の物体検出はいまだに少ない。 確率的/生成的モデルは、この挑戦の解決策を提供するかもしれない。 本稿では, 対象度推定のための新しい確率的フレームワークを提案する。このフレームワークでは, 組込み特徴空間における既知対象の確率分布推定と対象度推定の最大化を交互に行う。 Probabilistic Objectness変換器をベースとしたオープンワールド検出器 PROBは、私たちのフレームワークを従来のオブジェクト検出モデルに統合し、オープンワールド設定に適応します。 OWODベンチマークに関する総合的な実験によると、POWBは未知のオブジェクト検出(\sim 2\times$ unknown recall)と既知のオブジェクト検出(\sim 10\%$ mAP)の両方において、既存のOWODメソッドよりも優れている。 私たちのコードはhttps://github.com/orrzohar/PROB.comで公開されます。

Open World Object Detection (OWOD) is a new and challenging computer vision task that bridges the gap between classic object detection (OD) benchmarks and object detection in the real world. In addition to detecting and classifying seen/labeled objects, OWOD algorithms are expected to detect novel/unknown objects - which can be classified and incrementally learned. In standard OD, object proposals not overlapping with a labeled object are automatically classified as background. Therefore, simply applying OD methods to OWOD fails as unknown objects would be predicted as background. The challenge of detecting unknown objects stems from the lack of supervision in distinguishing unknown objects and background object proposals. Previous OWOD methods have attempted to overcome this issue by generating supervision using pseudo-labeling - however, unknown object detection has remained low. Probabilistic/generative models may provide a solution for this challenge. Herein, we introduce a novel probabilistic framework for objectness estimation, where we alternate between probability distribution estimation and objectness likelihood maximization of known objects in the embedded feature space - ultimately allowing us to estimate the objectness probability of different proposals. The resulting Probabilistic Objectness transformer-based open-world detector, PROB, integrates our framework into traditional object detection models, adapting them for the open-world setting. Comprehensive experiments on OWOD benchmarks show that PROB outperforms all existing OWOD methods in both unknown object detection ($\sim 2\times$ unknown recall) and known object detection ($\sim 10\%$ mAP). Our code will be made available upon publication at https://github.com/orrzohar/PROB.
翻訳日:2022-12-06 15:11:22 公開日:2022-12-02
# ロジット補正によるスプリアス相関の回避

Avoiding spurious correlations via logit correction ( http://arxiv.org/abs/2212.01433v1 )

ライセンス: Link先を確認
Sheng Liu, Xu Zhang, Nitesh Sekhar, Yue Wu, Prateek Singhal, Carlos Fernandez-Granda(参考訳) 経験的リスク最小化(ERM)で訓練された機械学習モデルは、しばしばクラスラベルと突発的に相関する可能性のある属性に依存している。 このようなモデルは通常、そのような相関を欠いたデータの推論中に性能が低下する。 本研究では,学習データの大部分に潜在的に刺激的な相関が存在する状況について考察する。 従来の手法とは対照的に,ERMモデル出力を用いて試料を急激な相関関係なく検出し,加湿あるいはアップサンプル化を行う手法では,軟質マックスクロスエントロピー損失の簡易かつ効果的な改善であるロジット補正(LC)損失を提案し,試料ロジットの補正を行う。 LC損失の最小化はグループバランス精度の最大化と同等であり,提案したLCは相関関係の負の影響を軽減することができる。 広範な実験結果から,提案するlc損失はsoeソリューションを高いマージンで上回り,平均5.5%の絶対的改善率で上回り,スプリアス属性ラベルにアクセスできないことが判明した。 lcはまた、属性ラベルを使用するoracleメソッドと競合する。 コードはhttps://github.com/shengliu66/LCで入手できる。

Empirical studies suggest that machine learning models trained with empirical risk minimization (ERM) often rely on attributes that may be spuriously correlated with the class labels. Such models typically lead to poor performance during inference for data lacking such correlations. In this work, we explicitly consider a situation where potential spurious correlations are present in the majority of training data. In contrast with existing approaches, which use the ERM model outputs to detect the samples without spurious correlations, and either heuristically upweighting or upsampling those samples; we propose the logit correction (LC) loss, a simple yet effective improvement on the softmax cross-entropy loss, to correct the sample logit. We demonstrate that minimizing the LC loss is equivalent to maximizing the group-balanced accuracy, so the proposed LC could mitigate the negative impacts of spurious correlations. Our extensive experimental results further reveal that the proposed LC loss outperforms the SoTA solutions on multiple popular benchmarks by a large margin, an average 5.5% absolute improvement, without access to spurious attribute labels. LC is also competitive with oracle methods that make use of the attribute labels. Code is available at https://github.com/shengliu66/LC.
翻訳日:2022-12-06 15:01:57 公開日:2022-12-02
# twitterのデータ分析:izmir地震の事例

Twitter Data Analysis: Izmir Earthquake Case ( http://arxiv.org/abs/2212.01453v1 )

ライセンス: Link先を確認
\"Ozg\"ur Agrali, Hakan S\"ok\"un, Enis Karaarslan(参考訳) T\"urkiye"は断層線上に位置し、地震は大規模で小さな規模で起こることが多い。 災害時の情報収集には効果的な解決策が必要である。 ソーシャルメディアを使って世論の洞察を得ることができる。 この知見は、公共関係や災害管理に利用することができる。 本研究では,2020年10月に発生したイズミル地震のTwitter投稿を分析した。 我々は、この分析を時間的社会的推論に利用できるかどうか疑問に思う。 この分析にはデータマイニングと自然言語処理(NLP)手法が用いられている。 NLPは感情分析やトピックモデリングに使われる。 latent dirichlet allocation (lda) アルゴリズムはトピックモデリングに使用される。 感情分析にはトランスフォーマーアーキテクチャを用いたトランスフォーマー(bert)モデルからの双方向エンコーダ表現を用いた。 被災者の希望を共有し,地震後の支援活動に貢献することを目的とした。 ユーザは、有能な機関や組織から声を聞きたいと願った。 提案手法は有効である。 今後の研究も議論されている。

T\"urkiye is located on a fault line; earthquakes often occur on a large and small scale. There is a need for effective solutions for gathering current information during disasters. We can use social media to get insight into public opinion. This insight can be used in public relations and disaster management. In this study, Twitter posts on Izmir Earthquake that took place on October 2020 are analyzed. We question if this analysis can be used to make social inferences on time. Data mining and natural language processing (NLP) methods are used for this analysis. NLP is used for sentiment analysis and topic modelling. The latent Dirichlet Allocation (LDA) algorithm is used for topic modelling. We used the Bidirectional Encoder Representations from Transformers (BERT) model working with Transformers architecture for sentiment analysis. It is shown that the users shared their goodwill wishes and aimed to contribute to the initiated aid activities after the earthquake. The users desired to make their voices heard by competent institutions and organizations. The proposed methods work effectively. Future studies are also discussed.
翻訳日:2022-12-06 15:01:34 公開日:2022-12-02
# Lov\'asz局所補題を用いたマルコフランダムフィールドによる組合せ構造学習

Learning Combinatorial Structures via Markov Random Fields with Sampling through Lov\'asz Local Lemma ( http://arxiv.org/abs/2212.00296v2 )

ライセンス: Link先を確認
Nan Jiang, Yi Gu, Yexiang Xue(参考訳) 組合せ構造を学習するための生成モデルは、多くの応用において変換的影響を持つ。 しかし、既存のアプローチは効率的で正確な学習結果を提供していない。 組合せ制約を受ける学習対象の勾配推定の非常に難解な性質のためである。 既存の勾配推定法は指数時間/メモリ空間に容易に適用でき、不適切な近似による巨大な推定誤差を生じさせる。 Lov\'asz Local Lemma (LLL) に基づくニューラルネットワークである NEural Lovasz Sampler (Nelson) を開発した。 制約付きマルコフ確率場モデル(mrf)の特定の条件下での分布から組合せ制約を満たすサンプルを生成することが保証される。 さらに,制約付きmrf(nelson-cd)を用いた完全微分可能なコントラスト・ダイバージェンスに基づく学習フレームワークを提案する。 一方、nelson-cdは完全に微分可能であり、gpuの並列計算能力を利用することができ、非常に効率が良い。 3つの実世界の組合せ問題の実験結果から、ネルソンは100%有効な構造を作り出すことを学んでいることが分かる。 対照的に、ベースラインは大規模なデータセットにタイムアウトするか、有効な構造を生成できないかのいずれかである。 さらに,log-likelihoodやmap scoreなど,さまざまな学習指標のベースラインを上回っている。

Generative models for learning combinatorial structures have transformative impacts in many applications. However, existing approaches fail to offer efficient and accurate learning results. Because of the highly intractable nature of the gradient estimation of the learning objective subject to combinatorial constraints. Existing gradient estimation methods would easily run into exponential time/memory space, or incur huge estimation errors due to improper approximation. We develop NEural Lovasz Sampler (Nelson), a neural network based on Lov\'asz Local Lemma (LLL). We show it guarantees to generate samples satisfying combinatorial constraints from the distribution of the constrained Markov Random Fields model (MRF) under certain conditions. We further present a fully differentiable contrastive-divergence-based learning framework on constrained MRF (Nelson-CD). Meanwhile, Nelson-CD being fully differentiable allows us to take advantage of the parallel computing power of GPUs, resulting in great efficiency. Experimental results on three real-world combinatorial problems reveal that Nelson learns to generate 100% valid structures. In comparison, baselines either time out on large-size data sets or fail to generate valid structures, whereas Nelson scales much better with problem size. In addition, Nelson outperforms baselines in various learning metrics, such as log-likelihood and MAP scores.
翻訳日:2022-12-06 14:52:25 公開日:2022-12-02
# 不確かさキャンセラによる適応ロバストモデル予測制御

Adaptive Robust Model Predictive Control via Uncertainty Cancellation ( http://arxiv.org/abs/2212.01371v1 )

ライセンス: Link先を確認
Rohan Sinha, James Harrison, Spencer M. Richards, and Marco Pavone(参考訳) そこで本研究では,非線形成分を付加的に線形とする離散時間系の力学の不確かさを補う学習ベースのロバスト予測制御アルゴリズムを提案する。 このようなシステムは通常、未知の環境の非線形効果を名目システム上でモデル化する。 従来の学習に基づく予測制御アルゴリズムが安全性を保証するのに苦戦する状況である大規模不確実性の存在下で、古典的適応制御の先駆的な「推定・回避」制御法に触発された非線形フィードバックポリシーのクラスを最適化する。 頑健な適応型MPCにおける従来の研究とは対照的に、我々の手法は関数近似を通じてオンラインに学習された事前未知の力学における構造(すなわち数値予測)を活用できる。 提案手法は, 動的関数から加法的不確定関数を直接キャンセルできない場合でも, 状態制約と入力制約を持つシステムに典型的な非線形適応制御手法を拡張する。 確率の高い持続的制約満足度を通してシステムの安全性を証明するために,同時代の統計的推定手法を適用した。 さらに,制御設計の仮定を満たすために,校正モデルの事前学習を行うベイズメタ学習アルゴリズムを提案する。 最後に,本手法が既存の手法よりも重要な未知ダイナミクス条件に対応できることを示すとともに,ベイズメタラーニングを用いることにより,より迅速にテスト環境に適応できることを示す。

We propose a learning-based robust predictive control algorithm that compensates for significant uncertainty in the dynamics for a class of discrete-time systems that are nominally linear with an additive nonlinear component. Such systems commonly model the nonlinear effects of an unknown environment on a nominal system. We optimize over a class of nonlinear feedback policies inspired by certainty equivalent "estimate-and-cancel" control laws pioneered in classical adaptive control to achieve significant performance improvements in the presence of uncertainties of large magnitude, a setting in which existing learning-based predictive control algorithms often struggle to guarantee safety. In contrast to previous work in robust adaptive MPC, our approach allows us to take advantage of structure (i.e., the numerical predictions) in the a priori unknown dynamics learned online through function approximation. Our approach also extends typical nonlinear adaptive control methods to systems with state and input constraints even when we cannot directly cancel the additive uncertain function from the dynamics. We apply contemporary statistical estimation techniques to certify the system's safety through persistent constraint satisfaction with high probability. Moreover, we propose using Bayesian meta-learning algorithms that learn calibrated model priors to help satisfy the assumptions of the control design in challenging settings. Finally, we show in simulation that our method can accommodate more significant unknown dynamics terms than existing methods and that the use of Bayesian meta-learning allows us to adapt to the test environments more rapidly.
翻訳日:2022-12-05 18:03:54 公開日:2022-12-02
# 最適化の解関数について:普遍近似と被覆数境界

On Solution Functions of Optimization: Universal Approximation and Covering Number Bounds ( http://arxiv.org/abs/2212.01314v1 )

ライセンス: Link先を確認
Ming Jin, Vanshaj Khattar, Harshal Kaushik, Bilgehan Sel, and Ruoxi Jia(参考訳) 凸最適化解関数の表現性と学習性とその多層アーキテクチャ拡張について検討する。 The main results are: \emph{(1)} the class of solution functions of linear programming (LP) and quadratic programming (QP) is a universal approximant for the $C^k$ smooth model class or some restricted Sobolev space, and we characterize the rate-distortion, \emph{(2)} the approximation power is investigated through a viewpoint of regression error, where information about the target function is provided in terms of data observations, \emph{(3)} compositionality in the form of a deep architecture with optimization as a layer is shown to reconstruct some basic functions used in numerical analysis without error, which implies that \emph{(4)} a substantial reduction in rate-distortion can be achieved with a universal network architecture, and \emph{(5)} we discuss the statistical bounds of empirical covering numbers for LP/QP, as well as a generic optimization problem (possibly nonconvex) by exploiting tame geometry. 以上より,解関数の近似および学習理論特性の第一に厳密な解析を行い,アルゴリズム設計と性能保証に寄与することを示す。

We study the expressibility and learnability of convex optimization solution functions and their multi-layer architectural extension. The main results are: \emph{(1)} the class of solution functions of linear programming (LP) and quadratic programming (QP) is a universal approximant for the $C^k$ smooth model class or some restricted Sobolev space, and we characterize the rate-distortion, \emph{(2)} the approximation power is investigated through a viewpoint of regression error, where information about the target function is provided in terms of data observations, \emph{(3)} compositionality in the form of a deep architecture with optimization as a layer is shown to reconstruct some basic functions used in numerical analysis without error, which implies that \emph{(4)} a substantial reduction in rate-distortion can be achieved with a universal network architecture, and \emph{(5)} we discuss the statistical bounds of empirical covering numbers for LP/QP, as well as a generic optimization problem (possibly nonconvex) by exploiting tame geometry. Our results provide the \emph{first rigorous analysis of the approximation and learning-theoretic properties of solution functions} with implications for algorithmic design and performance guarantees.
翻訳日:2022-12-05 18:02:25 公開日:2022-12-02
# 視聴覚映像要約における音声の役割

Role of Audio in Audio-Visual Video Summarization ( http://arxiv.org/abs/2212.01040v1 )

ライセンス: Link先を確認
Ibrahim Shoer, Berkay Kopru, Engin Erzin(参考訳) ビデオ要約は、効率的なビデオ表現、検索、ブラウジングのために注目を集め、ボリュームやトラフィック急増の問題を緩和する。 ビデオ要約は主に圧縮にビジュアルチャネルを使用するが、近年ではオーディオ・ビジュアル・モデリングの利点が出現している。 音声チャネルからの情報は、ビデオコンテンツにおける音声と視覚の相関の結果である。 本研究では,GRUとアテンションベースネットワークを融合した4種類の音声・視覚情報の統合を目的とした,新しい音声・視覚映像要約フレームワークを提案する。 さらに,映像要約作業における音声の役割をより深く理解し説明するために,CCAを用いた新たな説明可能性手法について検討した。 視聴覚映像要約のためのF1スコアとKendall-tauスコアの改善を実現するTVSumデータセットの実験的検討 さらに,TVSum と COGNIMUSE のデータセットを音声-視覚CCA を正・負の相関ビデオとして分割することで,音声-視覚ビデオ要約のための正の相関ビデオよりも高い性能向上が得られる。

Video summarization attracts attention for efficient video representation, retrieval, and browsing to ease volume and traffic surge problems. Although video summarization mostly uses the visual channel for compaction, the benefits of audio-visual modeling appeared in recent literature. The information coming from the audio channel can be a result of audio-visual correlation in the video content. In this study, we propose a new audio-visual video summarization framework integrating four ways of audio-visual information fusion with GRU-based and attention-based networks. Furthermore, we investigate a new explainability methodology using audio-visual canonical correlation analysis (CCA) to better understand and explain the role of audio in the video summarization task. Experimental evaluations on the TVSum dataset attain F1 score and Kendall-tau score improvements for the audio-visual video summarization. Furthermore, splitting video content on TVSum and COGNIMUSE datasets based on audio-visual CCA as positively and negatively correlated videos yields a strong performance improvement over the positively correlated videos for audio-only and audio-visual video summarization.
翻訳日:2022-12-05 18:02:10 公開日:2022-12-02
# アンサンブルガウス過程回帰による経験的資産価格設定

Empirical Asset Pricing via Ensemble Gaussian Process Regression ( http://arxiv.org/abs/2212.01048v1 )

ライセンス: Link先を確認
Damir Filipovi\'c and Puneet Pasricha(参考訳) 本稿では,Gaussian Process Regression(GPR)に基づくアンサンブル学習手法を提案する。 我々のアンサンブル学習アプローチは、GPR推論に固有の計算複雑性を著しく減らし、一般のオンライン学習タスクに役立てる。 1962年から2016年にかけて、米国株の大断面に関する実証分析を行った。 この手法が既存の機械学習モデルを統計的および経済的に、予測分類ポートフォリオのr$-squaredおよびsharpe比で支配していることがわかりました。 本稿では,gprのベイズ的性質を活かし,期待株価の予測的不確実性分布に関して平均分散最適ポートフォリオを導入する。 これは不確実な逆投資家にアピールし、S&P500を上回る等級と重み付き予測のポートフォリオを著しく上回っている。

We introduce an ensemble learning method based on Gaussian Process Regression (GPR) for predicting conditional expected stock returns given stock-level and macro-economic information. Our ensemble learning approach significantly reduces the computational complexity inherent in GPR inference and lends itself to general online learning tasks. We conduct an empirical analysis on a large cross-section of US stocks from 1962 to 2016. We find that our method dominates existing machine learning models statistically and economically in terms of out-of-sample $R$-squared and Sharpe ratio of prediction-sorted portfolios. Exploiting the Bayesian nature of GPR, we introduce the mean-variance optimal portfolio with respect to the predictive uncertainty distribution of the expected stock returns. It appeals to an uncertainty averse investor and significantly dominates the equal- and value-weighted prediction-sorted portfolios, which outperform the S&P 500.
翻訳日:2022-12-05 18:01:07 公開日:2022-12-02
# Trusted Research Environmentsの安全な機械学習モデルリリース:AI-SDCパッケージ

Safe machine learning model release from Trusted Research Environments: The AI-SDC package ( http://arxiv.org/abs/2212.01233v1 )

ライセンス: Link先を確認
Jim Smith, Richard Preen, Andrew McCarthy, Alba Crespi Boixander, James Liley and Simon Rogers(参考訳) 我々は、公開前に機密データに基づいてトレーニングされた機械学習(ML)モデルの統計開示制御(SDC)を容易にするために、オープンソースのPythonツールの統合スイートであるAI-SDCを紹介する。 AIとSDCの組み合わせ (i)訓練体制による開示の脆弱性を評価することにより、一般的なMLモデルを拡張してアンテホットなSDCを提供するSafeModelパッケージ。 二 訓練後の様々なシミュレート攻撃を通じて、モデルの経験的開示リスクを厳格に評価することにより、後発sdcを提供する攻撃パッケージ。 AI-SDCのコードとドキュメントはMITライセンスでhttps://github.com/AI-SDC/AI-SDCで入手できる。

We present AI-SDC, an integrated suite of open source Python tools to facilitate Statistical Disclosure Control (SDC) of Machine Learning (ML) models trained on confidential data prior to public release. AI-SDC combines (i) a SafeModel package that extends commonly used ML models to provide ante-hoc SDC by assessing the vulnerability of disclosure posed by the training regime; and (ii) an Attacks package that provides post-hoc SDC by rigorously assessing the empirical disclosure risk of a model through a variety of simulated attacks after training. The AI-SDC code and documentation are available under an MIT license at https://github.com/AI-SDC/AI-SDC.
翻訳日:2022-12-05 18:00:53 公開日:2022-12-02
# 定量的情報フローを用いたペアワイズ因果発見の初期成績

Initial Results for Pairwise Causal Discovery Using Quantitative Information Flow ( http://arxiv.org/abs/2212.01279v1 )

ライセンス: Link先を確認
Felipe Giori and Flavio Figueiredo(参考訳) 対因果発見は、変数の対から因果関係、反因果関係、結合関係、独立関係を決定するタスクである。 ここ数年、この挑戦的なタスクは、タスクの解決を目的とした新しい機械学習モデルの発見だけでなく、変数の因果方向の学習が機械学習全体にとってどのように役立つかについての議論も進められてきた。 本稿では,システムから攻撃者への情報の漏えい量を測定するために通常用いられる量的情報フロー(qif)が,課題の特徴として有望な結果を示すことを示す。 特に実世界のデータセットを用いた実験は、QIFが芸術の状況と統計的に結びついていることを示している。 最初の結果は、QIFが因果関係と、その限界とどう関係しているかについて、さらなる質問を動機付けています。

Pairwise Causal Discovery is the task of determining causal, anticausal, confounded or independence relationships from pairs of variables. Over the last few years, this challenging task has promoted not only the discovery of novel machine learning models aimed at solving the task, but also discussions on how learning the causal direction of variables may benefit machine learning overall. In this paper, we show that Quantitative Information Flow (QIF), a measure usually employed for measuring leakages of information from a system to an attacker, shows promising results as features for the task. In particular, experiments with real-world datasets indicate that QIF is statistically tied to the state of the art. Our initial results motivate further inquiries on how QIF relates to causality and what are its limitations.
翻訳日:2022-12-05 18:00:43 公開日:2022-12-02
# CT-DQN:制御学習による深部強化学習

CT-DQN: Control-Tutored Deep Reinforcement Learning ( http://arxiv.org/abs/2212.01343v1 )

ライセンス: Link先を確認
Francesco De Lellis, Marco Coraggio, Giovanni Russo, Mirco Musolesi, Mario di Bernardo(参考訳) 制御のための深層強化学習における大きな課題の1つは、ポリシーを学ぶための広範なトレーニングの必要性である。 そこで本研究では,制御チュータ,すなわち外因性制御則を活用した深層強化学習アルゴリズムであるct-dqnアルゴリズムの設計を行い,学習時間を短縮する。 チューターはシステムの動力学に関する知識を前提にすることなく、システムの近似モデルを用いて設計することができる。 単独で使用すれば、制御目標を達成することは期待できない。 学習中、チューターは時折行動を示し、部分的に探検を導く。 我々は,OpenAI Gymの逆振り子,月面着陸機,カーレースの3つのシナリオに対するアプローチを検証する。 我々は,CT-DQNが従来の関数近似解に対して,より優れたあるいは同等のデータ効率を実現することができることを示した。

One of the major challenges in Deep Reinforcement Learning for control is the need for extensive training to learn the policy. Motivated by this, we present the design of the Control-Tutored Deep Q-Networks (CT-DQN) algorithm, a Deep Reinforcement Learning algorithm that leverages a control tutor, i.e., an exogenous control law, to reduce learning time. The tutor can be designed using an approximate model of the system, without any assumption about the knowledge of the system's dynamics. There is no expectation that it will be able to achieve the control objective if used stand-alone. During learning, the tutor occasionally suggests an action, thus partially guiding exploration. We validate our approach on three scenarios from OpenAI Gym: the inverted pendulum, lunar lander, and car racing. We demonstrate that CT-DQN is able to achieve better or equivalent data efficiency with respect to the classic function approximation solutions.
翻訳日:2022-12-05 18:00:29 公開日:2022-12-02
# 無線システムにおけるディジタル双対制御・監視・データ収集のためのベイズ的フレームワーク

A Bayesian Framework for Digital Twin-Based Control, Monitoring, and Data Collection in Wireless Systems ( http://arxiv.org/abs/2212.01351v1 )

ライセンス: Link先を確認
Clement Ruah, Osvaldo Simeone, Bashir Al-Hashimi(参考訳) 製造部門と航空宇宙部門で一般的に採用されているデジタルツイン(dt)プラットフォームは、ソフトウェアベースの「オープン」通信システムを制御、監視、分析するための有望なパラダイムと見なされている。 特にDTプラットフォームは、通信システムのための人工知能(AI)ソリューションをテストするサンドボックスを提供しており、物理的ツイン(PT)上のフィールドにおけるデータ収集とテストアルゴリズムの必要性を低減させる可能性がある。 DTシステムのデプロイにおける重要な課題は、DTにおける仮想制御の最適化、監視、分析が安全で信頼性の高いものであることを保証することである。 この課題に対処するため,本論文では,PTからDTで利用可能なデータ量と品質の制限に起因するDTにおけるモデル不確実性の定量化と説明を目的とした一般ベイズフレームワークを提案する。 提案フレームワークでは,マルチエージェント強化学習(marl)による制御,異常検出のためのpt監視,予測,データ収集最適化,反事実分析などのコアdt機能を実現するために,通信システムのベイズモデルを構築した。 提案手法の適用例を示すために,共通受信機に通知する複数のセンシングデバイスを包含するケーススタディシステムを具体的に検討する。 実験により,提案したベイズフレームワークの有効性を,標準頻繁なモデルベースソリューションと比較して検証した。

Commonly adopted in the manufacturing and aerospace sectors, digital twin (DT) platforms are increasingly seen as a promising paradigm to control, monitor, and analyze software-based, "open", communication systems. Notably, DT platforms provide a sandbox in which to test artificial intelligence (AI) solutions for communication systems, potentially reducing the need to collect data and test algorithms in the field, i.e., on the physical twin (PT). A key challenge in the deployment of DT systems is to ensure that virtual control optimization, monitoring, and analysis at the DT are safe and reliable, avoiding incorrect decisions caused by "model exploitation". To address this challenge, this paper presents a general Bayesian framework with the aim of quantifying and accounting for model uncertainty at the DT that is caused by limitations in the amount and quality of data available at the DT from the PT. In the proposed framework, the DT builds a Bayesian model of the communication system, which is leveraged to enable core DT functionalities such as control via multi-agent reinforcement learning (MARL), monitoring of the PT for anomaly detection, prediction, data-collection optimization, and counterfactual analysis. To exemplify the application of the proposed framework, we specifically investigate a case-study system encompassing multiple sensing devices that report to a common receiver. Experimental results validate the effectiveness of the proposed Bayesian framework as compared to standard frequentist model-based solutions.
翻訳日:2022-12-05 18:00:14 公開日:2022-12-02
# 転送学習による公平な生成モデル

Fair Generative Models via Transfer Learning ( http://arxiv.org/abs/2212.00926v1 )

ライセンス: Link先を確認
Christopher TH Teo, Milad Abdollahzadeh, Ngai-Man Cheung(参考訳) この仕事は、公正な生成モデルに対処する。 データセットバイアスは、深層生成モデルにおける不公平の主な原因である。 以前の研究は、小さな偏りのない参照データセットで大きく偏りのあるデータセットを強化することを提案した。 この設定の下で、生成したサンプルの最先端の品質と公平性を達成する弱い教師付きアプローチが提案されている。 この設定に基づいて、我々は単純だが効果的なアプローチを提案する。 具体的には,まず,公平な生成モデルを学ぶためのトランスファー学習手法であるfairtlを提案する。 FairTLの下では、利用可能な大きなバイアス付きデータセットで生成モデルを事前訓練し、その後、小さなバイアスなし参照データセットを使用してモデルを適応する。 大規模な(バイアスのある)データセットのおかげで,事前トレーニング中に表現型サンプル生成を学習できることが分かりました。 この知識は、適応中にターゲットモデルに転送され、小さな参照データセットの公平な分布を捉えることも学習される。 次に、fairtl++を提案し、fairtlで改善するための2つのイノベーションを紹介します。 (i)複数のフィードバックと (二)リニアプロービング、ファインチューニング(LP-FT) さらに一歩進めて、事前トレーニングされた(潜在的にバイアスのある)モデルのみが利用可能だが、モデルの事前トレーニングに使用されたデータセットがアクセス不能である場合に、代替的で困難なセットアップを検討する。 提案した FairTL と FairTL++ は,この設定下でも有効であることを示す。 以前の作業では、大きく偏ったデータセットへのアクセスが必要であり、このより困難なセットアップを処理できないことに注意する。 大規模な実験により、fairTLとfairTL++は、生成されたサンプルの品質と公平性の両方において最先端を実現している。 コードと追加リソースは bearwithchris.github.io/fairtl/ にある。

This work addresses fair generative models. Dataset biases have been a major cause of unfairness in deep generative models. Previous work had proposed to augment large, biased datasets with small, unbiased reference datasets. Under this setup, a weakly-supervised approach has been proposed, which achieves state-of-the-art quality and fairness in generated samples. In our work, based on this setup, we propose a simple yet effective approach. Specifically, first, we propose fairTL, a transfer learning approach to learn fair generative models. Under fairTL, we pre-train the generative model with the available large, biased datasets and subsequently adapt the model using the small, unbiased reference dataset. We find that our fairTL can learn expressive sample generation during pre-training, thanks to the large (biased) dataset. This knowledge is then transferred to the target model during adaptation, which also learns to capture the underlying fair distribution of the small reference dataset. Second, we propose fairTL++, where we introduce two additional innovations to improve upon fairTL: (i) multiple feedback and (ii) Linear-Probing followed by Fine-Tuning (LP-FT). Taking one step further, we consider an alternative, challenging setup when only a pre-trained (potentially biased) model is available but the dataset that was used to pre-train the model is inaccessible. We demonstrate that our proposed fairTL and fairTL++ remain very effective under this setup. We note that previous work requires access to the large, biased datasets and is incapable of handling this more challenging setup. Extensive experiments show that fairTL and fairTL++ achieve state-of-the-art in both quality and fairness of generated samples. The code and additional resources can be found at bearwithchris.github.io/fairTL/.
翻訳日:2022-12-05 17:53:48 公開日:2022-12-02
# 適応型フェデレーション学習の高速化

Faster Adaptive Federated Learning ( http://arxiv.org/abs/2212.00974v1 )

ライセンス: Link先を確認
Xidong Wu, Feihu Huang, Zhengmian Hu, Heng Huang(参考訳) 分散学習は分散データの出現とともに注目を集めている。 非凸分散問題に対して広範なフェデレーション学習アルゴリズムが提案されているが、実際には、モデルやデータセットのサイズが増加し続け、SGDベースのモデル更新による適応性の欠如など、大規模なトレーニングイテレーションが収束するなど、多くの課題に直面している。 一方、連合学習における適応的手法の研究は乏しく、既存の研究には完全な理論的収束保証がないか、サンプルの複雑さが遅いかがある。 本稿では,クロスサイロflにおける運動量に基づく分散低減手法に基づく効率的な適応アルゴリズム(fafed)を提案する。 まず,fl設定における適応アルゴリズムの設計方法について検討する。 反例を提供することにより、flと適応法の単純な組み合わせが発散をもたらすことを証明した。 さらに,本手法の収束解析を行い,このアルゴリズムが最もよく知られたサンプルである$O(\epsilon^{-3})$と$O(\epsilon^{-2})$の通信ラウンドに到達した最初の適応FLアルゴリズムであることを証明した。 異種データを用いた言語モデリングタスクと画像分類タスクの実験結果から,アルゴリズムの有効性が示された。

Federated learning has attracted increasing attention with the emergence of distributed data. While extensive federated learning algorithms have been proposed for the non-convex distributed problem, the federated learning in practice still faces numerous challenges, such as the large training iterations to converge since the sizes of models and datasets keep increasing, and the lack of adaptivity by SGD-based model updates. Meanwhile, the study of adaptive methods in federated learning is scarce and existing works either lack a complete theoretical convergence guarantee or have slow sample complexity. In this paper, we propose an efficient adaptive algorithm (i.e., FAFED) based on the momentum-based variance reduced technique in cross-silo FL. We first explore how to design the adaptive algorithm in the FL setting. By providing a counter-example, we prove that a simple combination of FL and adaptive methods could lead to divergence. More importantly, we provide a convergence analysis for our method and prove that our algorithm is the first adaptive FL algorithm to reach the best-known samples $O(\epsilon^{-3})$ and $O(\epsilon^{-2})$ communication rounds to find an $\epsilon$-stationary point without large batches. The experimental results on the language modeling task and image classification task with heterogeneous data demonstrate the efficiency of our algorithms.
翻訳日:2022-12-05 17:53:24 公開日:2022-12-02
# 忘れられた熱帯病に対する機械学習の適用の進展と課題

Progress and Challenges for the Application of Machine Learning for Neglected Tropical Diseases ( http://arxiv.org/abs/2212.01027v1 )

ライセンス: Link先を確認
Chung Yuen Khew, Rahmad Akbar, Norfarhan Mohd. Assaad(参考訳) ネグレクト熱帯病(NTD)は、東南アジアや西太平洋地域の国々の個体の生活に影響を与え続けている。 これらの病気は長い間存在し、低所得国や中所得国(開発途上国)の人々に深刻な健康問題や経済的な衰退を引き起こしてきた。 世界の人口の17億人が毎年1人以上のNTDを患っており、約5人に1人がNTDのリスクにさらされている。 健康や社会的影響に加えて、ntdは患者や近親者に大きな経済的負担を負い、途上国だけで労働生産性を低下させることで数十億ドルの損失を負っている。 NTDに対するコントロールと根絶、あるいは排除の取り組みを改善する必要がある。 これは、機械学習ツールを使用して監視、予測、検出プログラムを改善し、これらの病原体に対する新しい治療法の発見を通じてNTDと戦うことで達成できる。 本稿では、NTDに対する機械学習ツールの適用状況と、NTDの監視、管理、治療の最先端化に向けた課題について概観する。

Neglected tropical diseases (NTDs) continue to affect the livelihood of individuals in countries in the Southeast Asia and Western Pacific region. These diseases have been long existing and have caused devastating health problems and economic decline to people in low- and middle-income (developing) countries. An estimated 1.7 billion of the world's population suffer one or more NTDs annually, this puts approximately one in five individuals at risk for NTDs. In addition to health and social impact, NTDs inflict significant financial burden to patients, close relatives, and are responsible for billions of dollars lost in revenue from reduced labor productivity in developing countries alone. There is an urgent need to better improve the control and eradication or elimination efforts towards NTDs. This can be achieved by utilizing machine learning tools to better the surveillance, prediction and detection program, and combat NTDs through the discovery of new therapeutics against these pathogens. This review surveys the current application of machine learning tools for NTDs and the challenges to elevate the state-of-the-art of NTDs surveillance, management, and treatment.
翻訳日:2022-12-05 17:53:02 公開日:2022-12-02
# フェデレーション・マルチタスク学習におけるエネルギー・通信効率トレードオフについて

On the Energy and Communication Efficiency Tradeoffs in Federated and Multi-Task Learning ( http://arxiv.org/abs/2212.01049v1 )

ライセンス: Link先を確認
Stefano Savazzi, Vittorio Rampa, Sanaz Kianoush and Mehdi Bennis(参考訳) フェデレートラーニング(FL)の最近の進歩は、ネットワークデバイス間の協調を利用して、複数の学習タスクを同時に解決するための新しい戦略設計への道を開いた。 マルチタスク学習(MTL)は、従来の伝達学習手法と比較して、タスク間の共通性を利用して効率を向上させる。 複数のタスクを共同で学習することで、エネルギーフットプリントの大幅な削減が可能になる。 本稿では,MAML(Model-Agnostic Meta-Learning)パラダイムによって駆動され,分散無線ネットワークに実装されるMTLプロセスのエネルギーコストについて,初めて考察する。 論文は、自律エージェントが異なるが関連するタスクを学習する、クラスタ化されたマルチタスクネットワークの設定をターゲットにしている。 MTLプロセスは、新しいタスクの学習に迅速に適応できるメタモデルの最適化と、学習したメタモデルをエージェントに転送し、特定のタスクに合わせて調整するタスク固有のモデル適応ステージの2段階で行われる。 本研究は, ロボット環境におけるマルチタスク強化学習(RL)の設定を考慮し, MTLエネルギーバランスに影響を与える主な要因を分析する。 その結果,MAML法は誘導伝達を伴わない従来の手法に比べて,少なくとも2倍のエネルギー請求を削減できることがわかった。 さらに, 無線ネットワークにおける最適エネルギーバランスは, アップリンク/ダウンリンクおよびサイドリンク通信効率に依存することを示した。

Recent advances in Federated Learning (FL) have paved the way towards the design of novel strategies for solving multiple learning tasks simultaneously, by leveraging cooperation among networked devices. Multi-Task Learning (MTL) exploits relevant commonalities across tasks to improve efficiency compared with traditional transfer learning approaches. By learning multiple tasks jointly, significant reduction in terms of energy footprints can be obtained. This article provides a first look into the energy costs of MTL processes driven by the Model-Agnostic Meta-Learning (MAML) paradigm and implemented in distributed wireless networks. The paper targets a clustered multi-task network setup where autonomous agents learn different but related tasks. The MTL process is carried out in two stages: the optimization of a meta-model that can be quickly adapted to learn new tasks, and a task-specific model adaptation stage where the learned meta-model is transferred to agents and tailored for a specific task. This work analyzes the main factors that influence the MTL energy balance by considering a multi-task Reinforcement Learning (RL) setup in a robotized environment. Results show that the MAML method can reduce the energy bill by at least 2 times compared with traditional approaches without inductive transfer. Moreover, it is shown that the optimal energy balance in wireless networks depends on uplink/downlink and sidelink communication efficiencies.
翻訳日:2022-12-05 17:52:43 公開日:2022-12-02
# 制約付き線形逆問題に対する高速アルゴリズム

Fast Algorithm for Constrained Linear Inverse Problems ( http://arxiv.org/abs/2212.01068v1 )

ライセンス: Link先を確認
Mohammed Rayyan Sheriff, Floor Fenne Redel, Peyman Mohajerin Esfahani(参考訳) 制約付き線形逆問題 (LIP) を考えると、ある原子ノルム($\ell_1 $ や核ノルムなど)は二次的制約の対象として最小化される。 通常、そのようなコスト関数は微分不可能であり、実際に存在する高速な最適化手法には適用できない。 凸正則性を改善した制約付きLIPの2つの等価な再構成を提案する。 (i)滑らかな凸最小化問題、及び (ii) 強い凸 min-max 問題。 これらの問題は、より優れた \mmode{O \left( \nicefrac{1}{k^2} \right) } 理論収束を保証する既存の加速度に基づく凸最適化法を適用することで解決できる。 しかし、これらの改定の効用を完全に活用するために、LIPの改定を解決するために最適化されたFast Linear Inverse Problem Solver (FLIPS) と呼ばれる新しいアルゴリズムも提供する。 画像処理タスクで発生するスパース符号化問題に対してFLIPSの性能を示す。 この設定では、FLIPSはシャンブル・ポックとC-SALSAのアルゴリズムよりも一貫して優れており、文献上では最も優れた手法である。

We consider the constrained Linear Inverse Problem (LIP), where a certain atomic norm (like the $\ell_1 $ and the Nuclear norm) is minimized subject to a quadratic constraint. Typically, such cost functions are non-differentiable which makes them not amenable to the fast optimization methods existing in practice. We propose two equivalent reformulations of the constrained LIP with improved convex regularity: (i) a smooth convex minimization problem, and (ii) a strongly convex min-max problem. These problems could be solved by applying existing acceleration based convex optimization methods which provide better \mmode{ O \left( \nicefrac{1}{k^2} \right) } theoretical convergence guarantee. However, to fully exploit the utility of these reformulations, we also provide a novel algorithm, to which we refer as the Fast Linear Inverse Problem Solver (FLIPS), that is tailored to solve the reformulation of the LIP. We demonstrate the performance of FLIPS on the sparse coding problem arising in image processing tasks. In this setting, we observe that FLIPS consistently outperforms the Chambolle-Pock and C-SALSA algorithms--two of the current best methods in the literature.
翻訳日:2022-12-05 17:52:22 公開日:2022-12-02
# Anomaly-aware Contrastive Alignmentによるクロスドメイングラフ異常検出

Cross-Domain Graph Anomaly Detection via Anomaly-aware Contrastive Alignment ( http://arxiv.org/abs/2212.01096v1 )

ライセンス: Link先を確認
Qizhou Wang, Guansong Pang, Mahsa Salehi, Wray Buntine, Christopher Leckie(参考訳) クロスドメイングラフ異常検出(CD-GAD)は、ラベル付き異常ノードと正規ノードを持つ補助的な関連するソースグラフを用いて、非競合対象グラフの異常ノードを検出する問題を記述する。 異常検出における悪名高い偽陽性問題に対処するための有望なアプローチを示すが、この研究ではほとんど研究されていない。 文献には多くの領域適応法があるが、異常の未知分布やグラフデータに埋め込まれた複雑なノード関係のため、GADに適応することは困難である。 そこで本研究では,GADのための新しいドメイン適応手法であるAnomaly-aware ContrastivealignedmenT (ACT)を導入する。 ACTは共同で最適化するように設計されています。 (i)対象グラフにおけるノードの正規表現の教師なしコントラスト学習 (ii)これらの対照的なノード表現と、ソースグラフのラベル付き正規ノードの表現とを整合させる一方、ソースグラフのラベル付き異常ノードから正常ノードの表現のかなりの偏差を強制する1つのクラスアライメント。 これにより、ACTは、異常なインフォームド知識をソースグラフから効果的に転送し、異常分布の仕様なしでターゲットグラフ上のGADの正規クラスの複雑なノード関係を学習する。 8つのCD-GAD設定に対する広範囲な実験により、ACTは10種類の最先端GAD法で検出性能を大幅に向上することを示した。 コードはhttps://github.com/qz-wang/actで入手できる。

Cross-domain graph anomaly detection (CD-GAD) describes the problem of detecting anomalous nodes in an unlabelled target graph using auxiliary, related source graphs with labelled anomalous and normal nodes. Although it presents a promising approach to address the notoriously high false positive issue in anomaly detection, little work has been done in this line of research. There are numerous domain adaptation methods in the literature, but it is difficult to adapt them for GAD due to the unknown distributions of the anomalies and the complex node relations embedded in graph data. To this end, we introduce a novel domain adaptation approach, namely Anomaly-aware Contrastive alignmenT (ACT), for GAD. ACT is designed to jointly optimise: (i) unsupervised contrastive learning of normal representations of nodes in the target graph, and (ii) anomaly-aware one-class alignment that aligns these contrastive node representations and the representations of labelled normal nodes in the source graph, while enforcing significant deviation of the representations of the normal nodes from the labelled anomalous nodes in the source graph. In doing so, ACT effectively transfers anomaly-informed knowledge from the source graph to learn the complex node relations of the normal class for GAD on the target graph without any specification of the anomaly distributions. Extensive experiments on eight CD-GAD settings demonstrate that our approach ACT achieves substantially improved detection performance over 10 state-of-the-art GAD methods. Code is available at https://github.com/QZ-WANG/ACT.
翻訳日:2022-12-05 17:52:03 公開日:2022-12-02
# RNNモデルにおける行動分析のための匿名システムログの評価

Assessing Anonymized System Logs Usefulness for Behavioral Analysis in RNN Models ( http://arxiv.org/abs/2212.01101v1 )

ライセンス: Link先を確認
Tom Richard Vargis, Siavash Ghiasvand(参考訳) システムログは、コンピュータシステムの振る舞いを分析するためのデータ監視の一般的なソースである。 現代のコンピューティングシステムの複雑さと収集されたモニタリングデータの大規模化のため、自動解析機構が必要である。 この課題に対処するために、多くの機械学習とディープラーニング手法が提案されている。 しかし、システムに機密データが存在するため、分析とストレージは深刻なプライバシー上の懸念を引き起こす。 匿名化手法は分析の前にモニタリングデータのクリーン化に使用できる。 しかし、匿名化されたシステムログは一般に、行動分析の大部分に十分な有用性を提供していない。 PaRSのようなコンテンツ対応匿名化機構は、匿名化後もシステムログの相関を保っている。 本稿では,parsを用いて匿名化したtaurus hpcクラスタから抽出した匿名化システムログを,ニューラルネットワークモデルを用いた行動解析に有用性を評価する。

System logs are a common source of monitoring data for analyzing computing systems' behavior. Due to the complexity of modern computing systems and the large size of collected monitoring data, automated analysis mechanisms are required. Numerous machine learning and deep learning methods are proposed to address this challenge. However, due to the existence of sensitive data in system logs their analysis and storage raise serious privacy concerns. Anonymization methods could be used to clean the monitoring data before analysis. However, anonymized system logs, in general, do not provide adequate usefulness for the majority of behavioral analysis. Content-aware anonymization mechanisms such as PaRS preserve the correlation of system logs even after anonymization. This work evaluates the usefulness of anonymized system logs taken from the Taurus HPC cluster anonymized using PaRS, for behavioral analysis via recurrent neural network models.
翻訳日:2022-12-05 17:51:39 公開日:2022-12-02
# 分散型臨床機械学習における非iid問題の生成的データ拡張

Generative Data Augmentation for Non-IID Problem in Decentralized Clinical Machine Learning ( http://arxiv.org/abs/2212.01109v1 )

ライセンス: Link先を確認
Zirui Wang, Shaoming Duan, Chengyue Wu, Wenhao Lin, Xinyu Zha, Peiyi Han, Chuanyi Liu(参考訳) Swarm Learning(SL)は、将来有望な分散機械学習パラダイムであり、臨床応用で高いパフォーマンスを達成した。 SLはエッジコンピューティングとブロックチェーンベースのピアツーピアネットワークを組み合わせることで、フェデレートラーニングにおける中心構造の問題を解決する。 参加者間での独立および同一分散(IID)データの仮定には有望な結果があるが、非IIDデータの程度が増加するにつれて、SLは性能劣化に悩まされる。 この問題に対処するために,SL-GAN と呼ばれるスワム学習における生成的拡張フレームワークを提案し,参加者から合成データを生成することにより,非IID データを増強する。 SL-GANは発生器と識別器を局所的に訓練し、SLネットワーク内のランダムに選択されたコーディネータを介して定期的に集約する。 標準仮定の下では、確率近似を用いてSL-GANの収束を理論的に証明する。 実験の結果、SL-GANは結核、白血病、COVID-19を含む3つの実世界の臨床データセットにおいて最先端の手法より優れていることが示された。

Swarm learning (SL) is an emerging promising decentralized machine learning paradigm and has achieved high performance in clinical applications. SL solves the problem of a central structure in federated learning by combining edge computing and blockchain-based peer-to-peer network. While there are promising results in the assumption of the independent and identically distributed (IID) data across participants, SL suffers from performance degradation as the degree of the non-IID data increases. To address this problem, we propose a generative augmentation framework in swarm learning called SL-GAN, which augments the non-IID data by generating the synthetic data from participants. SL-GAN trains generators and discriminators locally, and periodically aggregation via a randomly elected coordinator in SL network. Under the standard assumptions, we theoretically prove the convergence of SL-GAN using stochastic approximations. Experimental results demonstrate that SL-GAN outperforms state-of-art methods on three real world clinical datasets including Tuberculosis, Leukemia, COVID-19.
翻訳日:2022-12-05 17:51:28 公開日:2022-12-02
# Ripple:教育における生年数モデルの概念的解釈

Ripple: Concept-Based Interpretation for Raw Time Series Models in Education ( http://arxiv.org/abs/2212.01133v1 )

ライセンス: Link先を確認
Mohammad Asadi, Vinitra Swamy, Jibril Frej, Julien Vignoud, Mirko Marras, Tanja K\"aser(参考訳) 時系列は、教育予測タスクにおける最も一般的な入力データ形式である。 時系列データを用いた研究の大半は、予測性能と解釈可能性のために専門家が設計した手作りの特徴に焦点を当てている。 しかし、これらの特徴の抽出は人間やコンピュータにとって労働集約的である。 本稿では,グラフニューラルネットワークを用いた不規則な多変量時系列モデリングを用いて,手作りの特徴と比較して,生の時系列クリックストリームと同等あるいは優れた精度を実現する手法を提案する。 さらに, 生の時系列モデルにおいて概念活性化ベクトルを解釈可能性として拡張する。 学習領域におけるこれらの進歩を分析し,下流の介入と指導支援に対する学生の早期成績予測の課題に対処した。 6つの行動次元上の数百万の相互作用を持つ23のMOOCに関する実験分析は、我々のアプローチで設計したモデルが可能であることを示している。 (i)特徴抽出を行わず、最先端の教育時系列ベースラインを破る (二)パーソナライズされた介入に対する解釈可能な洞察を提供する。 ソースコード: https://github.com/epfl-ml4ed/ripple/

Time series is the most prevalent form of input data for educational prediction tasks. The vast majority of research using time series data focuses on hand-crafted features, designed by experts for predictive performance and interpretability. However, extracting these features is labor-intensive for humans and computers. In this paper, we propose an approach that utilizes irregular multivariate time series modeling with graph neural networks to achieve comparable or better accuracy with raw time series clickstreams in comparison to hand-crafted features. Furthermore, we extend concept activation vectors for interpretability in raw time series models. We analyze these advances in the education domain, addressing the task of early student performance prediction for downstream targeted interventions and instructional support. Our experimental analysis on 23 MOOCs with millions of combined interactions over six behavioral dimensions show that models designed with our approach can (i) beat state-of-the-art educational time series baselines with no feature extraction and (ii) provide interpretable insights for personalized interventions. Source code: https://github.com/epfl-ml4ed/ripple/.
翻訳日:2022-12-05 17:51:13 公開日:2022-12-02
# Gibbs-Helmholtz Graph Neural Network:無限希釈における活動係数の温度依存性の把握

Gibbs-Helmholtz Graph Neural Network: capturing the temperature dependency of activity coefficients at infinite dilution ( http://arxiv.org/abs/2212.01199v1 )

ライセンス: Link先を確認
Edgar Ivan Sanchez Medina, Steffen Linke, Martin Stoll, Kai Sundmacher(参考訳) 混合物中の化合物の物理化学的性質(無限希釈時の活性係数$\gamma_{ij}^\infty$など)の正確な予測は、新規で持続可能な化学プロセスの開発に不可欠である。 本研究では,以前に提案したGNNモデルの性能を$\gamma_{ij}^\infty$の予測のために解析し,9種類の等温線研究におけるいくつかの力学モデルと比較する。 さらに,Gibs-Helmholtz Graph Neural Network (GH-GNN)モデルを構築し,温度の異なる分子系の$\ln \gamma_{ij}^\infty$を予測する。 本手法は,Gibs-Helmholtz 由来の表現の単純さと,分散および水素結合効果を捉えるための明示的な分子および分子間記述子を含む一連のグラフニューラルネットワークを組み合わせる。 実験によって決定された$\ln \gamma_{ij}^\infty$データを用いて1032の溶質と866の溶媒を含む40,219の2値系をトレーニングし、UNIFAC-Dortmundモデルと比較して総合的に優れた性能を示した。 本稿では,GH-GNNの性能を連続的かつ離散的に解析し,モデルの適用性領域と予測精度を示す。 一般に、GH-GNNは、溶質溶剤系と同一の組み合わせを持つ少なくとも25の系がトレーニングセットに含まれており、0.35以上の類似度指標が存在する場合、外挿二元系に対して正確な予測を行うことができる。 このモデルとその適用性ドメインレコメンデーションはhttps://github.com/edgarsmdn/GH-GNNでオープンソース化されている。

The accurate prediction of physicochemical properties of chemical compounds in mixtures (such as the activity coefficient at infinite dilution $\gamma_{ij}^\infty$) is essential for developing novel and more sustainable chemical processes. In this work, we analyze the performance of previously-proposed GNN-based models for the prediction of $\gamma_{ij}^\infty$, and compare them with several mechanistic models in a series of 9 isothermal studies. Moreover, we develop the Gibbs-Helmholtz Graph Neural Network (GH-GNN) model for predicting $\ln \gamma_{ij}^\infty$ of molecular systems at different temperatures. Our method combines the simplicity of a Gibbs-Helmholtz-derived expression with a series of graph neural networks that incorporate explicit molecular and intermolecular descriptors for capturing dispersion and hydrogen bonding effects. We have trained this model using experimentally determined $\ln \gamma_{ij}^\infty$ data of 40,219 binary-systems involving 1032 solutes and 866 solvents, overall showing superior performance compared to the popular UNIFAC-Dortmund model. We analyze the performance of GH-GNN for continuous and discrete inter/extrapolation and give indications for the model's applicability domain and expected accuracy. In general, GH-GNN is able to produce accurate predictions for extrapolated binary-systems if at least 25 systems with the same combination of solute-solvent chemical classes are contained in the training set and a similarity indicator above 0.35 is also present. This model and its applicability domain recommendations have been made open-source at https://github.com/edgarsmdn/GH-GNN.
翻訳日:2022-12-05 17:50:57 公開日:2022-12-02
# 断層画像再構成のためのハイブリッド断熱量子コンピューティング -- 機会と限界

Hybrid adiabatic quantum computing for tomographic image reconstruction -- opportunities and limitations ( http://arxiv.org/abs/2212.01312v1 )

ライセンス: Link先を確認
Merlin A. Nau, A. Hans Vija, Wesley Gohn, Maximilian P. Reymann and Andreas K. Maier(参考訳) 本研究の目的は,少ない測定値と低信号-雑音比で断層像を再構成することである。 臨床画像では、患者の快適さを改善し、放射線曝露を減らすのに役立つ。 量子コンピューティングが進歩するにつれて、断熱量子コンピュータと関連するハイブリッド手法を用いて再構成問題を解くことを提案する。 画像再構成は逆問題である。 提案手法は, 画像サイズ, ノイズ量, および計測された投影データの過小評価を行う。 次に,32ピクセルから32ピクセルまで再構成した2値および整数値画像を示す。 提案手法は従来の再構成アルゴリズムと競合し,ノイズに対する頑健性やプロジェクションの少ない再現性に優れる。 我々は,ハイブリッド量子コンピューティングがトモグラフィ再構成における実際の応用の成熟度に達すると仮定する。 最後に,アルゴリズムの問題点の大きさと解釈可能性に関する現在の制限を指摘する。

Our goal is to reconstruct tomographic images with few measurements and a low signal-to-noise ratio. In clinical imaging, this helps to improve patient comfort and reduce radiation exposure. As quantum computing advances, we propose to use an adiabatic quantum computer and associated hybrid methods to solve the reconstruction problem. Tomographic reconstruction is an ill-posed inverse problem. We test our reconstruction technique for image size, noise content, and underdetermination of the measured projection data. We then present the reconstructed binary and integer-valued images of up to 32 by 32 pixels. The demonstrated method competes with traditional reconstruction algorithms and is superior in terms of robustness to noise and reconstructions from few projections. We postulate that hybrid quantum computing will soon reach maturity for real applications in tomographic reconstruction. Finally, we point out the current limitations regarding the problem size and interpretability of the algorithm.
翻訳日:2022-12-05 17:44:59 公開日:2022-12-02
# 重みとアクティベーション量子化を用いた学習画像圧縮のためのデバイス相互運用性

Device Interoperability for Learned Image Compression with Weights and Activations Quantization ( http://arxiv.org/abs/2212.01330v1 )

ライセンス: Link先を確認
Esin Koyuncu, Timofey Solovyev, Elena Alshina and Andr\'e Kaup(参考訳) 学習ベースの画像圧縮は、HEVCやVVCといった従来の画像コーデックをコーディング性能で上回るレベルまで改善された。 優れた圧縮性能に加えて、圧縮コーデックをデプロイするにはデバイス間の相互運用性が不可欠である。 本稿では,最先端画像圧縮ネットワークのデバイス間相互運用性問題を解決する手法を提案する。 エントロピーパラメータを出力するエントロピーネットワークに量子化を実装した。 本稿では,クロスプラットフォームのエンコーディングとデコードを確実にし,浮動小数点モデル結果から0.3%のbdレートの小さな性能偏差で高速に実装できる簡単な手法を提案する。

Learning-based image compression has improved to a level where it can outperform traditional image codecs such as HEVC and VVC in terms of coding performance. In addition to good compression performance, device interoperability is essential for a compression codec to be deployed, i.e., encoding and decoding on different CPUs or GPUs should be error-free and with negligible performance reduction. In this paper, we present a method to solve the device interoperability problem of a state-of-the-art image compression network. We implement quantization to entropy networks which output entropy parameters. We suggest a simple method which can ensure cross-platform encoding and decoding, and can be implemented quickly with minor performance deviation, of 0.3% BD-rate, from floating point model results.
翻訳日:2022-12-05 17:44:47 公開日:2022-12-02
# ドメイン知識に基づく音楽埋め込み空間とシンボリック音楽モデリングのための新しい注意機構

A Domain-Knowledge-Inspired Music Embedding Space and a Novel Attention Mechanism for Symbolic Music Modeling ( http://arxiv.org/abs/2212.00973v1 )

ライセンス: Link先を確認
Z. Guo, J. Kang, D. Herremans(参考訳) 自然言語領域におけるトランスフォーマーアーキテクチャの成功に続いて、最近はシンボリック音楽領域にトランスフォーマーのようなアーキテクチャが広く適用されている。 しかし、シンボリック音楽とテキストは2つの異なるモダリティである。 シンボリック音楽は、絶対的な属性(例えばピッチ)と相対的な属性(例えばピッチ間隔)の両方を含む複数の属性を含む。 これらの相対特性は音楽のモチーフの人間の知覚を形成する。 しかし、これらの重要な相対的属性は、主に既存の記号的音楽モデリング手法では無視されているが、主な理由は、記号的音楽トークンの絶対的および相対的埋め込みを効率的に表現できる、音楽的に意味のある埋め込み空間がないことである。 本稿では,絶対属性と相対属性の両方を組み込むことができるバイアス調整正弦波符号化に基づくシンボリック音楽の基本音楽埋め込み(fme)と,基本音楽特性(例えば,翻訳不変性)を明示的に保存する手法を提案する。 また,提案したFMEを利用して,音楽領域の知識を記号的音楽モデリングに活用できるように,相対指数,ピッチ,オンセット埋め込み(RIPOアテンション)に基づく新たなアテンション機構を提案する。 実験結果から,FME と RIPO に着目した RIPO 変圧器は,メロディ完了作業において最先端の変圧器(音楽変圧器,線形変圧器)よりも優れていた。 さらに、RIPO変換器を下流音楽生成タスクで使用すると、悪名高い再生現象がもはや存在しないことに気付き、RIPO変換器が生成した音楽は、主観的・客観的評価において、最先端の変換器モデルによって生成された音楽より優れる。

Following the success of the transformer architecture in the natural language domain, transformer-like architectures have been widely applied to the domain of symbolic music recently. Symbolic music and text, however, are two different modalities. Symbolic music contains multiple attributes, both absolute attributes (e.g., pitch) and relative attributes (e.g., pitch interval). These relative attributes shape human perception of musical motifs. These important relative attributes, however, are mostly ignored in existing symbolic music modeling methods with the main reason being the lack of a musically-meaningful embedding space where both the absolute and relative embeddings of the symbolic music tokens can be efficiently represented. In this paper, we propose the Fundamental Music Embedding (FME) for symbolic music based on a bias-adjusted sinusoidal encoding within which both the absolute and the relative attributes can be embedded and the fundamental musical properties (e.g., translational invariance) are explicitly preserved. Taking advantage of the proposed FME, we further propose a novel attention mechanism based on the relative index, pitch and onset embeddings (RIPO attention) such that the musical domain knowledge can be fully utilized for symbolic music modeling. Experiment results show that our proposed model: RIPO transformer which utilizes FME and RIPO attention outperforms the state-of-the-art transformers (i.e., music transformer, linear transformer) in a melody completion task. Moreover, using the RIPO transformer in a downstream music generation task, we notice that the notorious degeneration phenomenon no longer exists and the music generated by the RIPO transformer outperforms the music generated by state-of-the-art transformer models in both subjective and objective evaluations.
翻訳日:2022-12-05 17:44:18 公開日:2022-12-02
# ソヌス・テクセレ! 映画適応化による書籍の自動集音構造

Sonus Texere! Automated Dense Soundtrack Construction for Books using Movie Adaptations ( http://arxiv.org/abs/2212.01033v1 )

ライセンス: Link先を確認
Jaidev Shriram and Makarand Tapaswi and Vinoo Alluri(参考訳) 音楽の聴き方と同じように、読書は没入的な体験であり、読者を感情的な旅に乗せながら輸送する。 補完音楽への聴取は、特に音楽がスタイリスティックに結合し、感情的に関係がある場合に、読書体験を増幅する可能性がある。 そこで本研究では,本を読む時間の全期間にわたって高品質のインストゥルメンタル・ミュージックを奏でることのできる,本のための高密度なサウンドトラックを構築するための最初の完全自動手法を提案する。 本研究では,章中のシーンの文脈と情緒的構成を決定する,ユニークなテキスト処理と音楽織りパイプラインを用いている。 これにより、本書の映画化のサウンドトラックから関連する抜粋を識別し、再生することができる。 本書のサウンドトラックは、映画の作曲家の職人技に頼って、専門家が作ったモチーフやその他のシーン固有の音楽的特徴を含む。 我々はこのアプローチの設計判断を知覚研究を通じて検証する。 本書のサウンドトラックは,不断・スタイル整合性音楽による没入感の向上と,高精度な感情認識とシーンコンテキスト認識による感情状態の向上により,その読書体験を大幅に向上させた。

Reading, much like music listening, is an immersive experience that transports readers while taking them on an emotional journey. Listening to complementary music has the potential to amplify the reading experience, especially when the music is stylistically cohesive and emotionally relevant. In this paper, we propose the first fully automatic method to build a dense soundtrack for books, which can play high-quality instrumental music for the entirety of the reading duration. Our work employs a unique text processing and music weaving pipeline that determines the context and emotional composition of scenes in a chapter. This allows our method to identify and play relevant excerpts from the soundtrack of the book's movie adaptation. By relying on the movie composer's craftsmanship, our book soundtracks include expert-made motifs and other scene-specific musical characteristics. We validate the design decisions of our approach through a perceptual study. Our readers note that the book soundtrack greatly enhanced their reading experience, due to high immersiveness granted via uninterrupted and style-consistent music, and a heightened emotional state attained via high precision emotion and scene context recognition.
翻訳日:2022-12-05 17:43:44 公開日:2022-12-02
# Olive Branch Learning:宇宙空間統合ネットワークのためのトポロジ対応フェデレーションラーニングフレームワーク

Olive Branch Learning: A Topology-Aware Federated Learning Framework for Space-Air-Ground Integrated Network ( http://arxiv.org/abs/2212.01215v1 )

ライセンス: Link先を確認
Qingze Fang and Zhiwei Zhai and Shuai Yu and Qiong Wu and Xiaowen Gong and Xu Chen(参考訳) 次世代モバイル通信システムにおいて鍵となる技術であるSAGINは、特に、さまざまなデータ駆動人工知能(AI)サービスをサポートするために、リモートモノのインターネット(IoRT)デバイスによって大量の情報データが収集される遠隔地において、世界中のユーザのためのデータ伝送を容易にする。 しかし、SAGINの助けを借りてAIモデルをトレーニングすることは、高度に制約されたネットワークトポロジ、非効率なデータ転送、プライバシー問題といった課題に直面している。 これらの課題に対処するために,我々はまず,SAGINのための新しいトポロジ対応フェデレーション学習フレームワーク,すなわちOlive Branch Learning (OBL)を提案する。 Specifically, the IoRT devices in the ground layer leverage their private data to perform model training locally, while the air nodes in the air layer and the ring-structured low earth orbit (LEO) satellite constellation in the space layer are in charge of model aggregation (synchronization) at different scales.To further enhance communication efficiency and inference performance of OBL, an efficient Communication and Non-IID-aware Air node-Satellite Assignment (CNASA) algorithm is designed by taking the data class distribution of the air nodes as well as their geographic locations into account. さらに、OBLフレームワークとCNASAアルゴリズムを拡張し、より複雑なマルチ軌道衛星ネットワークに適応する。 我々はOBLフレームワークの収束を分析し、CNASAアルゴリズムがグローバルモデルの高速収束に寄与していると結論付けた。 現実的なデータセットに基づく大規模な実験は、ベンチマークポリシーよりもアルゴリズムの優れた性能を裏付ける。

The space-air-ground integrated network (SAGIN), one of the key technologies for next-generation mobile communication systems, can facilitate data transmission for users all over the world, especially in some remote areas where vast amounts of informative data are collected by Internet of remote things (IoRT) devices to support various data-driven artificial intelligence (AI) services. However, training AI models centrally with the assistance of SAGIN faces the challenges of highly constrained network topology, inefficient data transmission, and privacy issues. To tackle these challenges, we first propose a novel topology-aware federated learning framework for the SAGIN, namely Olive Branch Learning (OBL). Specifically, the IoRT devices in the ground layer leverage their private data to perform model training locally, while the air nodes in the air layer and the ring-structured low earth orbit (LEO) satellite constellation in the space layer are in charge of model aggregation (synchronization) at different scales.To further enhance communication efficiency and inference performance of OBL, an efficient Communication and Non-IID-aware Air node-Satellite Assignment (CNASA) algorithm is designed by taking the data class distribution of the air nodes as well as their geographic locations into account. Furthermore, we extend our OBL framework and CNASA algorithm to adapt to more complex multi-orbit satellite networks. We analyze the convergence of our OBL framework and conclude that the CNASA algorithm contributes to the fast convergence of the global model. Extensive experiments based on realistic datasets corroborate the superior performance of our algorithm over the benchmark policies.
翻訳日:2022-12-05 17:43:24 公開日:2022-12-02
# 翻訳特徴の混合に対するオフ・ザ・グリッド予測と検証

Off-the-grid prediction and testing for mixtures of translated features ( http://arxiv.org/abs/2212.01169v1 )

ライセンス: Link先を確認
Cristina Butucea (CREST), Jean-Fran\c{c}ois Delmas (CERMICS), Anne Dutfoy (EDF R&D), Cl\'ement Hardy (CERMICS)(参考訳) 付加的なガウス雑音過程で信号(離散あるいは連続)が観測されるモデルを考える。 信号は有限だが多くの変換された特徴の線形結合から発行される。 これらの特徴は、その位置によって継続的にパラメータ化され、いくつかのスケールパラメータに依存する。 まず、スケールパラメータが変化する可能性があることを考慮し、グリッド外推定器の過去の予測結果を拡張する。 予測境界は類似しているが、これらの境界を達成するために、2つの連続する特徴点間の最小距離を改善する。 次に,モデルの適合性テストを提案し,テストリスクの非漸近上限と2つの識別可能な信号間の最小分離率を与える。 特に,本試験は信号検出の枠組みを包含する。 我々は、線形係数の2ノルムとして表される最小エネルギー上の上限を推定し、ノイズのある信号の検知に成功した。 本稿では,古典的高次元回帰モデルの非線形拡張について考察する。 この枠組みでは,特徴の固定辞書に付随する高次元線形モデルにおいて,信号検出のための最小分離率の上限値と,最小分離率の上限値(対数係数まで)が一致していることが判明した。 また, 観測信号の特徴が与えられた有限集合に属するかどうかを, 線形係数は変化するがヌル仮説の下では反対符号に変化しないという仮定の下で検証する手法を提案する。 テストリスクに対する非漸近的な上限が与えられる。 本稿では,実線上のガウス的特徴を持つスパイクスデコンボリューションモデルと,トーラス上の圧縮センシング文献でよく使用されるディリクレカーネルについて述べる。

We consider a model where a signal (discrete or continuous) is observed with an additive Gaussian noise process. The signal is issued from a linear combination of a finite but increasing number of translated features. The features are continuously parameterized by their location and depend on some scale parameter. First, we extend previous prediction results for off-the-grid estimators by taking into account here that the scale parameter may vary. The prediction bounds are analogous, but we improve the minimal distance between two consecutive features locations in order to achieve these bounds. Next, we propose a goodness-of-fit test for the model and give non-asymptotic upper bounds of the testing risk and of the minimax separation rate between two distinguishable signals. In particular, our test encompasses the signal detection framework. We deduce upper bounds on the minimal energy, expressed as the 2-norm of the linear coefficients, to successfully detect a signal in presence of noise. The general model considered in this paper is a non-linear extension of the classical high-dimensional regression model. It turns out that, in this framework, our upper bound on the minimax separation rate matches (up to a logarithmic factor) the lower bound on the minimax separation rate for signal detection in the high dimensional linear model associated to a fixed dictionary of features. We also propose a procedure to test whether the features of the observed signal belong to a given finite collection under the assumption that the linear coefficients may vary, but do not change to opposite signs under the null hypothesis. A non-asymptotic upper bound on the testing risk is given. We illustrate our results on the spikes deconvolution model with Gaussian features on the real line and with the Dirichlet kernel, frequently used in the compressed sensing literature, on the torus.
翻訳日:2022-12-05 17:42:58 公開日:2022-12-02
# FECAM:時系列予測のための周波数強調チャネルアテンション機構

FECAM: Frequency Enhanced Channel Attention Mechanism for Time Series Forecasting ( http://arxiv.org/abs/2212.01209v1 )

ライセンス: Link先を確認
Maowei Jiang, Pengyu Zeng, Kai Wang, Huan Liu, Wenbo Chen, Haoran Liu(参考訳) 時系列予測は、現実の情報が様々なシナリオ(エネルギー、天気、交通、経済、地震警報など)にあるため、長年にわたる課題である。 しかし、いくつかの主流予測モデル予測結果は、真実から劇的に脱線している。 私たちは、モデルが実世界のデータセットに豊富に含まれている周波数情報をキャプチャする能力が欠如しているのが理由だと考えています。 現在、主流周波数情報抽出手法はフーリエ変換(ft)に基づくものである。 しかし、ギブス現象によりFTの使用が問題となる。 列の両側の値が著しく異なる場合、振動近似が両側で観測され、高周波ノイズが導入される。 そこで本研究では,gibbs現象として定義されるフーリエ変換中に発生する高周波ノイズを本質的に回避する離散コサイン変換に基づくチャネル間の周波数相互依存性を適応的にモデル化する新しい周波数拡張チャネル注意を提案する。 本稿では,このネットワークが6つの実世界のデータセットをまたいで極めて効果的に一般化し,最先端のパフォーマンスを実現することを示すとともに,周波数拡張チャネルアテンション機構モジュールを異なるネットワークに柔軟に適用できることを示す。 このモジュールは、LSTMで35.99%のMSE、改革派で10.01%、インフォーマーで8.71%、オートフォーマーで8.29%、トランスフォーマーで8.06%、わずか数行のコードで、既存の主流ネットワークの予測能力を向上させることができる。 私たちのコードとデータはhttps://github.com/Zero-coder/FECAMで公開されています。

Time series forecasting is a long-standing challenge due to the real-world information is in various scenario (e.g., energy, weather, traffic, economics, earthquake warning). However some mainstream forecasting model forecasting result is derailed dramatically from ground truth. We believe it's the reason that model's lacking ability of capturing frequency information which richly contains in real world datasets. At present, the mainstream frequency information extraction methods are Fourier transform(FT) based. However, use of FT is problematic due to Gibbs phenomenon. If the values on both sides of sequences differ significantly, oscillatory approximations are observed around both sides and high frequency noise will be introduced. Therefore We propose a novel frequency enhanced channel attention that adaptively modelling frequency interdependencies between channels based on Discrete Cosine Transform which would intrinsically avoid high frequency noise caused by problematic periodity during Fourier Transform, which is defined as Gibbs Phenomenon. We show that this network generalize extremely effectively across six real-world datasets and achieve state-of-the-art performance, we further demonstrate that frequency enhanced channel attention mechanism module can be flexibly applied to different networks. This module can improve the prediction ability of existing mainstream networks, which reduces 35.99% MSE on LSTM, 10.01% on Reformer, 8.71% on Informer, 8.29% on Autoformer, 8.06% on Transformer, etc., at a slight computational cost ,with just a few line of code. Our codes and data are available at https://github.com/Zero-coder/FECAM.
翻訳日:2022-12-05 17:35:58 公開日:2022-12-02
# DeepFT:自己監督型ディープサロゲートモデルを用いたフォールトトレラントエッジコンピューティング

DeepFT: Fault-Tolerant Edge Computing using a Self-Supervised Deep Surrogate Model ( http://arxiv.org/abs/2212.01302v1 )

ライセンス: Link先を確認
Shreshth Tuli and Giuliano Casale and Ludmila Cherkasova and Nicholas R. Jennings(参考訳) レイテンシクリティカルなAIアプリケーションの出現は、エッジコンピューティングパラダイムの進化に支えられている。 しかし、エッジソリューションは通常リソース制約があり、オーバーロード条件が存在する場合の計算能力と通信能力の増大とアプリケーション動作の不良により信頼性が低下する。 障害予測のために大量のログデータをマイニングすることは可能だが、トレーニングのためにこのデータをラベル付けすることは手動のプロセスであり、自動化の限界要因である。 このため、多くの企業は教師なしフォールトトレランスモデルに頼っている。 しかし、この種の障害モデルは、非定常ワークロードや多様なホスト特性に適応する必要がある場合、精度を失う可能性がある。 これに対応するために,DeepFTと呼ばれる新しいモデリング手法を提案し,タスクスケジューリングとマイグレーション決定を最適化することにより,システム過負荷とその悪影響を積極的に回避する。 DeepFTはディープサロゲートモデルを使用してシステム内の障害を正確に予測し、診断し、コシミュレートベースの自己教師付き学習により、不安定な環境でモデルを動的に適応する。 モデルサイズがアクティブなタスクやホスト数の増加に対して,ユニットあたりわずか3~1%のスケールアップに留まり,高度にスケーラブルなソリューションを提供する。 defogベンチマークによるraspberry-piベースのエッジクラスタでの広範な実験は、deepftがフォールト検出とqosメトリクスにおいて最先端のベースラインメソッドを上回ることができることを示している。 具体的には、DeepFTは障害検出の最高スコアを与え、サービス期限違反を最大37\%削減し、レスポンスタイムを最大9%改善する。

The emergence of latency-critical AI applications has been supported by the evolution of the edge computing paradigm. However, edge solutions are typically resource-constrained, posing reliability challenges due to heightened contention for compute and communication capacities and faulty application behavior in the presence of overload conditions. Although a large amount of generated log data can be mined for fault prediction, labeling this data for training is a manual process and thus a limiting factor for automation. Due to this, many companies resort to unsupervised fault-tolerance models. Yet, failure models of this kind can incur a loss of accuracy when they need to adapt to non-stationary workloads and diverse host characteristics. To cope with this, we propose a novel modeling approach, called DeepFT, to proactively avoid system overloads and their adverse effects by optimizing the task scheduling and migration decisions. DeepFT uses a deep surrogate model to accurately predict and diagnose faults in the system and co-simulation based self-supervised learning to dynamically adapt the model in volatile settings. It offers a highly scalable solution as the model size scales by only 3 and 1 percent per unit increase in the number of active tasks and hosts. Extensive experimentation on a Raspberry-Pi based edge cluster with DeFog benchmarks shows that DeepFT can outperform state-of-the-art baseline methods in fault-detection and QoS metrics. Specifically, DeepFT gives the highest F1 scores for fault-detection, reducing service deadline violations by up to 37\% while also improving response time by up to 9%.
翻訳日:2022-12-05 17:35:33 公開日:2022-12-02
# 強化学習によるモノポール跳躍系の機械的パラメータの選択

Selecting Mechanical Parameters of a Monopode Jumping System with Reinforcement Learning ( http://arxiv.org/abs/2212.01303v1 )

ライセンス: Link先を確認
Andrew Albright, Joshua Vaughan(参考訳) 脚付きシステムは車輪付きシステムに比べて多くの利点がある。 例えば、極端に不均一な地形をもっと簡単に移動できる。 しかし、特にシステムの非線形性をモデル化する上での困難さという欠点もある。 レッグド・ロコモティブ・システムにおける柔軟な部品の使用は効率や走行速度などの性能向上をもたらすことが研究で示されている。 フレキシブルシステムのモデリングでは困難が伴うため、強化学習などの制御手法を用いて制御戦略を定義することができる。 さらに、強化学習は、制御入力にマッチするシステムの機械的パラメータの学習を課題とする。 本研究は,ポゴスティックジャンプシステムの設計パラメータを求めるために強化学習を展開させる場合,エージェントが学習する設計はエージェントに提供される設計空間内で最適であることを示す。

Legged systems have many advantages when compared to their wheeled counterparts. For example, they can more easily navigate extreme, uneven terrain. However, there are disadvantages as well, particularly the difficulty seen in modeling the nonlinearities of the system. Research has shown that using flexible components within legged locomotive systems improves performance measures such as efficiency and running velocity. Because of the difficulties encountered in modeling flexible systems, control methods such as reinforcement learning can be used to define control strategies. Furthermore, reinforcement learning can be tasked with learning mechanical parameters of a system to match a control input. It is shown in this work that when deploying reinforcement learning to find design parameters for a pogo-stick jumping system, the designs the agents learn are optimal within the design space provided to the agents.
翻訳日:2022-12-05 17:35:07 公開日:2022-12-02
# 第一原理から知性のエコシステムを設計する

Designing Ecosystems of Intelligence from First Principles ( http://arxiv.org/abs/2212.01354v1 )

ライセンス: Link先を確認
Karl J Friston, Maxwell J D Ramstead, Alex B Kiefer, Alexander Tschantz, Christopher L Buckley, Mahault Albarracin, Riddhi J Pitliya, Conor Heins, Brennan Klein, Beren Millidge, Dalton A R Sakthivadivel, Toby St Clere Smithe, Magnus Koudahl, Safae Essafi Tremblay, Capm Petersen, Kaiser Fung, Jason G Fox, Steven Swanson, Dan Mapes, Gabriel Ren\'e(参考訳) このホワイトペーパーは、今後10年間(そしてそれ以降)、人工知能の分野での研究と開発に関するビジョンを述べている。 そのデノベーションは自然と合成の感覚作りのサイバー物理的なエコシステムであり、人間は「共有知性」と呼ばれる「統合的参加者」(\unicode{x2014}$ What we called 'shared intelligence')である。 このビジョンは、知能の物理として読むことができ、自己組織化の物理から継承される適応行動の定式化であるアクティブ推論(active inference)を前提としている。 この文脈では、知性は知覚された世界$\unicode{x2014}$ の生成モデルに対する証拠を蓄積する能力として理解する。 形式的には、これは(ベイジアン)モデル証拠の最大化、すなわち推論、学習、モデル選択など、いくつかの尺度で更新された信念によるものである。 操作的には、この自己随伴は因子グラフ上の(可変)メッセージパッシングまたは信念伝達によって実現することができる。 重要なことに、アクティブな推論は知的システムの実在的な命令、すなわち好奇心や不確実性の解決を前提としている。 この命令はエージェントのアンサンブルにおける信念の共有を下書きし、各エージェントの生成的世界モデルの特定の側面(すなわち要因)が共通基盤または参照の枠組みを提供する。 アクティブ推論は、信念共有のこのエコロジーにおいて基礎的な役割を果たす。$\unicode{x2014}$leading to a formal account of collective intelligence that rests on shared narratives and goals。 また、このような知性のエコシステムを実現するために開発され、共有の超空間モデリング言語とトランザクションプロトコルの開発を動機づける通信プロトコルの種類も考慮し、最初の$\unicode{x2014}$とkey$\unicode{x2014}$stepをそのような生態学に向けて検討する。

This white paper lays out a vision of research and development in the field of artificial intelligence for the next decade (and beyond). Its denouement is a cyber-physical ecosystem of natural and synthetic sense-making, in which humans are integral participants$\unicode{x2014}$what we call ''shared intelligence''. This vision is premised on active inference, a formulation of adaptive behavior that can be read as a physics of intelligence, and which inherits from the physics of self-organization. In this context, we understand intelligence as the capacity to accumulate evidence for a generative model of one's sensed world$\unicode{x2014}$also known as self-evidencing. Formally, this corresponds to maximizing (Bayesian) model evidence, via belief updating over several scales: i.e., inference, learning, and model selection. Operationally, this self-evidencing can be realized via (variational) message passing or belief propagation on a factor graph. Crucially, active inference foregrounds an existential imperative of intelligent systems; namely, curiosity or the resolution of uncertainty. This same imperative underwrites belief sharing in ensembles of agents, in which certain aspects (i.e., factors) of each agent's generative world model provide a common ground or frame of reference. Active inference plays a foundational role in this ecology of belief sharing$\unicode{x2014}$leading to a formal account of collective intelligence that rests on shared narratives and goals. We also consider the kinds of communication protocols that must be developed to enable such an ecosystem of intelligences and motivate the development of a shared hyper-spatial modeling language and transaction protocol, as a first$\unicode{x2014}$and key$\unicode{x2014}$step towards such an ecology.
翻訳日:2022-12-05 17:34:56 公開日:2022-12-02
# 全変分画像復調のための量子中央フィルタ

Quantum median filter for Total Variation image denoising ( http://arxiv.org/abs/2212.01041v1 )

ライセンス: Link先を確認
Simone De Santis, Damiana Lazzaro, Riccardo Mengoni, Serena Morigi(参考訳) 量子コンピューティングと呼ばれるこの新しいコンピューティングパラダイムでは、世界中の研究者が、知識伝達の難しいプロセスを通じて、画像処理のための量子回路を設計する第一歩を踏み出している。 この取り組みは量子画像処理と呼ばれ、量子コンピュータの強力な並列コンピューティング能力によって推進される新しい研究分野である。 この研究はこの方向に進み、量子環境におけるトータル・バラツキ(tv)モデルのような強力な画像デノイジング手法の挑戦的な開発を提案している。 提案する量子テレビについて述べるとともに,そのサブコンポーネントを解析する。 量子デバイスにおける現在の能力の自然な限界にもかかわらず、実験結果は従来の変分テレビに比べて競争的異化性能を示している。

In this new computing paradigm, named quantum computing, researchers from all over the world are taking their first steps in designing quantum circuits for image processing, through a difficult process of knowledge transfer. This effort is named Quantum Image Processing, an emerging research field pushed by powerful parallel computing capabilities of quantum computers. This work goes in this direction and proposes the challenging development of a powerful method of image denoising, such as the Total Variation (TV) model, in a quantum environment. The proposed Quantum TV is described and its sub-components are analysed. Despite the natural limitations of the current capabilities of quantum devices, the experimental results show a competitive denoising performance compared to the classical variational TV counterpart.
翻訳日:2022-12-05 17:34:05 公開日:2022-12-02
# 深層学習を用いたrgb-dによる階段自動登山の階段検出

RGB-D based Stair Detection using Deep Learning for Autonomous Stair Climbing ( http://arxiv.org/abs/2212.01098v1 )

ライセンス: Link先を確認
Chen Wang, Zhongcai Pei, Shuang Qiu, Zhiyong Tang(参考訳) 階段は都市環境における一般的な建物構造であり、階段検出は自律移動ロボットの環境認識の重要な部分である。 既存のアルゴリズムの多くは、双眼鏡センサーからの視覚情報を効果的に組み合わせ、夜間および極めてファジィな視覚手がかりの場合の信頼性の高い検出を困難にしている。 これらの問題を解決するために,RGBマップと深度マップの両方の入力を持つニューラルネットワークアーキテクチャを提案する。 具体的には、RGBマップと深度マップの相補関係をネットワークに学習させ、RGBマップと深度マップの情報を異なるシーンで効果的に組み合わせる選択モジュールを設計する。 また,検出結果を完全に活用し,階段の幾何パラメータを求めるために,検出結果の処理後のラインクラスタリングアルゴリズムも設計した。 データセットを用いた実験では,従来の5.64%と7.97%のディープラーニング法と比較して,精度と再現性が向上した。 また,本手法は検出速度も極めて高速であり,高解像度の軽量バージョンでは毎秒300フレーム以上の処理が可能であり,ほとんどのリアルタイム検出シーンのニーズを満たすことができる。

Stairs are common building structures in urban environment, and stair detection is an important part of environment perception for autonomous mobile robots. Most existing algorithms have difficulty combining the visual information from binocular sensors effectively and ensuring reliable detection at night and in the case of extremely fuzzy visual clues. To solve these problems, we propose a neural network architecture with inputs of both RGB map and depth map. Specifically, we design the selective module which can make the network learn the complementary relationship between RGB map and depth map and effectively combine the information from RGB map and depth map in different scenes. In addition, we also design a line clustering algorithm for the post-processing of detection results, which can make full use of the detection results to obtain the geometric parameters of stairs. Experiments on our dataset show that our method can achieve better accuracy and recall compared with the previous state-of-the-art deep learning method, which are 5.64% and 7.97%, respectively. Our method also has extremely fast detection speed, and a lightweight version can achieve 300 + frames per second with the same resolution, which can meet the needs of most real-time detection scenes.
翻訳日:2022-12-05 17:33:52 公開日:2022-12-02
# SLMT-Net:クロスモーダルMR画像合成のための自己教師付き学習ベースマルチスケールトランスネットワーク

SLMT-Net: A Self-supervised Learning based Multi-scale Transformer Network for Cross-Modality MR Image Synthesis ( http://arxiv.org/abs/2212.01108v1 )

ライセンス: Link先を確認
Yonghao Li, Tao Zhou, Kelei He, Yi Zhou, Dinggang Shen(参考訳) 磁気共鳴(MR)画像合成は、既存の画像から欠落したモダリティを作り出すことを目的としている。 現在、深層ニューラルネットワークに基づくいくつかの手法が、教師付き学習方法でソースモダリティとターゲットモダリティの両方を用いて開発されている。 しかし,既存の手法の有効性を阻害する大量の完全ペアマルチモーダルトレーニングデータを得ることは依然として困難である。 本稿では,クロスモダリティmr画像合成のための自己教師あり学習型マルチスケールトランスフォーマーネットワーク (slmt-net) を提案する。 事前学習段階において,画像再構成とエッジ生成を同時に行うことにより,文脈情報とエッジ情報を保持するエッジ保存マスク自動エンコーダ(edge-mae)を提案する。 さらに、再構成画像と接地構造との差を計測することにより、その再構成難易度について入力パッチを別々に扱うパッチワイズロスを提案する。 この場合、Edge-MAEは大量の未ペアマルチモーダルデータをフル活用して効率的な特徴表現を学習できる。 微調整の段階では,マルチスケールトランスフォーマーU-Net(MT-UNet)を用いて目標モダリティ画像の合成を行い,DSFモジュールを用いて事前学習したEdge-MAEのエンコーダから抽出したマルチスケール機能を完全に統合する。 さらに,事前学習されたエンコーダを特徴整合性モジュールとして使用し,合成画像の高レベル特徴と基底真理との差を測定する。 実験結果は,slmt-netの有効性を示し,トレーニングセットが部分的に非ペア化されている場合,高品質な画像を確実に合成できることを示す。 私たちのコードはhttps://github.com/lyhkevin/SLMT-Net.comで公開されます。

Cross-modality magnetic resonance (MR) image synthesis aims to produce missing modalities from existing ones. Currently, several methods based on deep neural networks have been developed using both source- and target-modalities in a supervised learning manner. However, it remains challenging to obtain a large amount of completely paired multi-modal training data, which inhibits the effectiveness of existing methods. In this paper, we propose a novel Self-supervised Learning-based Multi-scale Transformer Network (SLMT-Net) for cross-modality MR image synthesis, consisting of two stages, \ie, a pre-training stage and a fine-tuning stage. During the pre-training stage, we propose an Edge-preserving Masked AutoEncoder (Edge-MAE), which preserves the contextual and edge information by simultaneously conducting the image reconstruction and the edge generation. Besides, a patch-wise loss is proposed to treat the input patches differently regarding their reconstruction difficulty, by measuring the difference between the reconstructed image and the ground-truth. In this case, our Edge-MAE can fully leverage a large amount of unpaired multi-modal data to learn effective feature representations. During the fine-tuning stage, we present a Multi-scale Transformer U-Net (MT-UNet) to synthesize the target-modality images, in which a Dual-scale Selective Fusion (DSF) module is proposed to fully integrate multi-scale features extracted from the encoder of the pre-trained Edge-MAE. Moreover, we use the pre-trained encoder as a feature consistency module to measure the difference between high-level features of the synthesized image and the ground truth one. Experimental results show the effectiveness of the proposed SLMT-Net, and our model can reliably synthesize high-quality images when the training set is partially unpaired. Our code will be publicly available at https://github.com/lyhkevin/SLMT-Net.
翻訳日:2022-12-05 17:33:31 公開日:2022-12-02
# 偏光スマートフォン画像からの高精細顔画像

High-Res Facial Appearance Capture from Polarized Smartphone Images ( http://arxiv.org/abs/2212.01160v1 )

ライセンス: Link先を確認
Dejan Azinovi\'c, Olivier Maury, Christophe Hery, Mathias Nie{\ss}ner and Justus Thies(参考訳) 本稿では,RGB画像から高品質な顔のテクスチャ再構築手法を提案する。 具体的には、フラッシュライトを偏光光源に変換し、カメラの上に偏光フィルタを追加する。 この設定を利用して、偏光と平行偏光で被写体の顔をキャプチャする。 それぞれの被写体について,光分極の異なるフラッシュ照明下の暗環境において,修正したスマートフォンを用いて2つの短いシーケンスを記録した。 これらの観測に基づいて,動き構造を用いて顔の表面メッシュを再構築する。 次に、カメラと光コロケーションを微分可能なレンダラ内で活用し、分析合成手法を用いて顔のテクスチャを最適化する。 本手法は粗大な最適化手法を用いて高分解能な正規テクスチャ,拡散アルベド,スペクトルアルベドを最適化する。 最適化されたテクスチャを標準的なレンダリングパイプラインで使用することで、新しい環境で高品質なフォトリアリスティックな3dデジタル人間を合成できることを示す。

We propose a novel method for high-quality facial texture reconstruction from RGB images using a novel capturing routine based on a single smartphone which we equip with an inexpensive polarization foil. Specifically, we turn the flashlight into a polarized light source and add a polarization filter on top of the camera. Leveraging this setup, we capture the face of a subject with cross-polarized and parallel-polarized light. For each subject, we record two short sequences in a dark environment under flash illumination with different light polarization using the modified smartphone. Based on these observations, we reconstruct an explicit surface mesh of the face using structure from motion. We then exploit the camera and light co-location within a differentiable renderer to optimize the facial textures using an analysis-by-synthesis approach. Our method optimizes for high-resolution normal textures, diffuse albedo, and specular albedo using a coarse-to-fine optimization scheme. We show that the optimized textures can be used in a standard rendering pipeline to synthesize high-quality photo-realistic 3D digital humans in novel environments.
翻訳日:2022-12-05 17:32:58 公開日:2022-12-02
# マルチサンプルハイパーネットによるParetoフロントエンド学習の改善

Improving Pareto Front Learning via Multi-Sample Hypernetworks ( http://arxiv.org/abs/2212.01130v1 )

ライセンス: Link先を確認
Long Phi Hoang, Dung Duy Le, Tuan Anh Tran, Thang Tran Ngoc(参考訳) パレートフロントラーニング(PFL)は、最近、与えられたトレードオフベクトルからパレートフロントの解へのマッピング関数を得るための効果的なアプローチとして導入され、多目的最適化(MOO)問題を解く。 対立する目標間の固有のトレードオフのため、pflは多くのシナリオにおいて柔軟なアプローチを提供しており、意思決定者は1つのparetoソリューションの好みを別々に指定できず、状況に応じてそれらを切り替えなければならない。 しかし、既存のPFL法は最適化過程における解間の関係を無視し、得られたフロントの品質を損なう。 この問題を解決するために,多種多様なトレードオフ選好から複数のソリューションを生成し,これらのソリューションによって定義されたハイパーボリューム指標を最大化することによりパレートフロントの品質を高めるために,ハイパーネットワークを用いた新しいPFLフレームワークである‘ourmodel’を提案する。 複数のMOO機械学習タスクの実験結果から,提案手法がParetoフロントのトレードオフ生成におけるベースラインを大幅に上回っていることが示された。

Pareto Front Learning (PFL) was recently introduced as an effective approach to obtain a mapping function from a given trade-off vector to a solution on the Pareto front, which solves the multi-objective optimization (MOO) problem. Due to the inherent trade-off between conflicting objectives, PFL offers a flexible approach in many scenarios in which the decision makers can not specify the preference of one Pareto solution over another, and must switch between them depending on the situation. However, existing PFL methods ignore the relationship between the solutions during the optimization process, which hinders the quality of the obtained front. To overcome this issue, we propose a novel PFL framework namely \ourmodel, which employs a hypernetwork to generate multiple solutions from a set of diverse trade-off preferences and enhance the quality of the Pareto front by maximizing the Hypervolume indicator defined by these solutions. The experimental results on several MOO machine learning tasks show that the proposed framework significantly outperforms the baselines in producing the trade-off Pareto front.
翻訳日:2022-12-05 17:27:03 公開日:2022-12-02
# 疲労強度推定におけるロバスト性

Robustness in Fatigue Strength Estimation ( http://arxiv.org/abs/2212.01136v1 )

ライセンス: Link先を確認
Dorina Weichert, Alexander Kister, Sebastian Houben, Gunar Ernis, Stefan Wrobel(参考訳) 疲労強度推定はコストのかかる手作業による材料特性評価プロセスであり、標準化された実験と分析手順に従っている。 本稿では, 疲労強度推定のためのモジュール型機械学習によるアプローチについて検討し, 実験回数を削減し, 全体としての実験コストを削減できることを示した。 その高い可能性にもかかわらず、新しいアプローチを実生活の実験室に導入するには、理論的な定義とシミュレーション以上のことが必要である。 そこで,本研究では,前処理と特定負荷の離散化に対するアプローチの堅牢性について検討する。 我々は、その適用性と最先端手法に対する有利な振る舞いを特定し、コストのかかる実験の数を減少させる可能性がある。

Fatigue strength estimation is a costly manual material characterization process in which state-of-the-art approaches follow a standardized experiment and analysis procedure. In this paper, we examine a modular, Machine Learning-based approach for fatigue strength estimation that is likely to reduce the number of experiments and, thus, the overall experimental costs. Despite its high potential, deployment of a new approach in a real-life lab requires more than the theoretical definition and simulation. Therefore, we study the robustness of the approach against misspecification of the prior and discretization of the specified loads. We identify its applicability and its advantageous behavior over the state-of-the-art methods, potentially reducing the number of costly experiments.
翻訳日:2022-12-05 17:26:44 公開日:2022-12-02
# 多変量EMA時系列データに基づくクラスタリング個人

Clustering individuals based on multivariate EMA time-series data ( http://arxiv.org/abs/2212.01159v1 )

ライセンス: Link先を確認
Mandani Ntekouli, Gerasimos Spanakis, Lourens Waldorp, Anne Roefs(参考訳) 精神病理学の分野では、エコロジー・モメンタリー・アセスメント(EMA)の方法論的進歩は、時間集約的、反復的、個人内測定の新たな機会を提供する。 このように、大量のデータが利用可能となり、さらに精神障害を探求する手段となっている。 その結果、データ特性を理解し、基礎となる複雑な心理的プロセスに関する隠れた有意義な関係を明らかにするために、高度な機械学習(ML)手法が必要である。 MLはクラスタリングを通じて、異なる個人のデータにおける類似したパターンの識別を容易にする。 本稿では,個人の多変量時系列(mts)データを複数のグループにクラスタリングする。 クラスタリングは教師なしの問題であるため、結果のグループ化が成功するかどうかを評価するのは困難である。 そこで本研究では,異なる距離尺度に基づいて異なるクラスタリング手法を調査し,クラスタの安定性と品質を評価する。 これらのクラスタリングステップは、33の個人と15の変数を含む現実世界のEMAデータセットに説明されている。 評価を通じて、カーネルベースのクラスタリング手法の結果は、データ中の有意義なグループを特定することに有望であるように思われる。 したがって、EMAデータの効率的な表現はクラスタリングにおいて重要な役割を果たす。

In the field of psychopathology, Ecological Momentary Assessment (EMA) methodological advancements have offered new opportunities to collect time-intensive, repeated and intra-individual measurements. This way, a large amount of data has become available, providing the means for further exploring mental disorders. Consequently, advanced machine learning (ML) methods are needed to understand data characteristics and uncover hidden and meaningful relationships regarding the underlying complex psychological processes. Among other uses, ML facilitates the identification of similar patterns in data of different individuals through clustering. This paper focuses on clustering multivariate time-series (MTS) data of individuals into several groups. Since clustering is an unsupervised problem, it is challenging to assess whether the resulting grouping is successful. Thus, we investigate different clustering methods based on different distance measures and assess them for the stability and quality of the derived clusters. These clustering steps are illustrated on a real-world EMA dataset, including 33 individuals and 15 variables. Through evaluation, the results of kernel-based clustering methods appear promising to identify meaningful groups in the data. So, efficient representations of EMA data play an important role in clustering.
翻訳日:2022-12-05 17:26:33 公開日:2022-12-02
# エントロピー正規化強化学習における逆整形と構成のための先行解の利用

Utilizing Prior Solutions for Reward Shaping and Composition in Entropy-Regularized Reinforcement Learning ( http://arxiv.org/abs/2212.01174v1 )

ライセンス: Link先を確認
Jacob Adamczyk, Argenis Arriojas, Stas Tiomkin, Rahul V. Kulkarni(参考訳) 強化学習(rl)では、以前に解決したタスクから事前知識を活用することで、エージェントは新しい問題を解決することができる。 場合によっては、これらの新しい問題は、以前解決された原始的タスク(タスク合成)の解を構成することで、概ね解決することができる。 さもなくば、事前知識は、最適なポリシーを変更せずに、より迅速な学習(reward shaping)を可能にする方法で、新しい問題の報酬関数を調整するために使うことができる。 本研究では,エントロピー規則化RLにおける報酬形成とタスク構成のための一般的なフレームワークを開発する。 そこで我々は,2つのエントロピー正則なRL問題に対する最適ソフト値関数を,異なる報酬関数と動的に結合する正確な関係を導出する。 エントロピー規則化RLにおいて、導出関係が報酬形成の一般的な結果をもたらすことを示す。 次に、この手法を一般化し、エントロピー規則化RLにおける複数のタスクの構成に対して最適な値関数を接続する正確な関係を導出する。 これらの理論的な貢献を、報酬形成とタスク構成が様々な環境での学習を高速化することを示す実験で検証する。

In reinforcement learning (RL), the ability to utilize prior knowledge from previously solved tasks can allow agents to quickly solve new problems. In some cases, these new problems may be approximately solved by composing the solutions of previously solved primitive tasks (task composition). Otherwise, prior knowledge can be used to adjust the reward function for a new problem, in a way that leaves the optimal policy unchanged but enables quicker learning (reward shaping). In this work, we develop a general framework for reward shaping and task composition in entropy-regularized RL. To do so, we derive an exact relation connecting the optimal soft value functions for two entropy-regularized RL problems with different reward functions and dynamics. We show how the derived relation leads to a general result for reward shaping in entropy-regularized RL. We then generalize this approach to derive an exact relation connecting optimal value functions for the composition of multiple tasks in entropy-regularized RL. We validate these theoretical contributions with experiments showing that reward shaping and task composition lead to faster learning in various settings.
翻訳日:2022-12-05 17:26:15 公開日:2022-12-02
# 概念ドリフトによる学習における決定境界と損失の変化について

On the Change of Decision Boundaries and Loss in Learning with Concept Drift ( http://arxiv.org/abs/2212.01223v1 )

ライセンス: Link先を確認
Fabian Hinder, Valerie Vaquet, Johannes Brinkrolf, Barbara Hammer(参考訳) 概念ドリフトの概念は、観測データを生成する分布が時間とともに変化する現象を指す。 ドリフトが存在する場合、機械学習モデルは不正確になり、調整が必要である。 ドリフト学習のための多くの技術は、モデル一般化誤差を近似し、ドリフト検出とモデル更新をトリガーする量としてインターリーブテストトレイン誤差(ITTE)に依存している。 本研究では,この手順がどの程度数学的に正当化されるかを検討する。 より正確には、ITTEの変化は、実際のドリフトの存在、すなわち、変化した後部の存在と、最適性の仮定の下でのトレーニング結果の変化とを関連付ける。 我々は、いくつかの学習アルゴリズム、モデル、データセットの実証的な証拠により、理論的発見を支持する。

The notion of concept drift refers to the phenomenon that the distribution generating the observed data changes over time. If drift is present, machine learning models may become inaccurate and need adjustment. Many technologies for learning with drift rely on the interleaved test-train error (ITTE) as a quantity which approximates the model generalization error and triggers drift detection and model updates. In this work, we investigate in how far this procedure is mathematically justified. More precisely, we relate a change of the ITTE to the presence of real drift, i.e., a changed posterior, and to a change of the training result under the assumption of optimality. We support our theoretical findings by empirical evidence for several learning algorithms, models, and datasets.
翻訳日:2022-12-05 17:25:56 公開日:2022-12-02
# 強化学習によるクラウドコンピューティングのエンドツーエンド予測制御の高速化

Predict-and-Critic: Accelerated End-to-End Predictive Control for Cloud Computing through Reinforcement Learning ( http://arxiv.org/abs/2212.01348v1 )

ライセンス: Link先を確認
Kaustubh Sridhar, Vikramank Singh, Balakrishnan Narayanaswamy, Abishek Sankararaman(参考訳) クラウドコンピューティングは、スケールの経済を通じてコスト削減を約束します。 この約束を実現するために、クラウドコンピューティングベンダは通常、顧客のワークロードを共有ハードウェアに詰め込む、シーケンシャルなリソース割り当て問題を解決する。 仮想マシン(VM)は、共有物理インフラから論理的にユーザー計算を抽象化するのに役立つため、現代のクラウドコンピューティングの基盤を形成する。 伝統的に、VMのパッケージング問題は需要予測によって解決され、続いてモデル予測制御(MPC)の最適化が今後行われる。 予測によりパラメータ化されたソフト制約を持つMILPとして,産業用VMパッケージ問題の近似定式化を導入する。 近年,最適化問題を通じて意思決定コストをバックプロパゲーションすることにより,予測モデルのエンドツーエンドトレーニングを行うための予測最適化(pno)が提案されている。 しかし、PnOはクラウドコンピューティングで広く使われている大きな予測の地平までスケールできない。 この問題に対処するために,強化学習を活用することでPnOを2段階の地平線で上回り,PnC(Predict-and-Critic)フレームワークを提案する。 pncは、最適化問題 \emph{and from the future} を通じて意思決定のコストをバックプロパゲーションすることで、長い地平線を越えるコストを近似する予測モデルと端末q関数を共同で訓練する。 端末 q 関数は pno に必要な多段地平線よりもずっと小さい二段地平線最適化問題を解くことができる。 PnO と PnC フレームワークを2つのデータセット,3つのワークロード,そして最適化問題でモデル化されていない障害で評価する。 pncは,最適化問題は現実の完全な表現ではない場合でも,pnoよりも決定品質が著しく向上することがわかった。 また,MILPのソフト制約を固化させ,制約を緩和することで,PnOおよびPnCの判定品質が向上することがわかった。

Cloud computing holds the promise of reduced costs through economies of scale. To realize this promise, cloud computing vendors typically solve sequential resource allocation problems, where customer workloads are packed on shared hardware. Virtual machines (VM) form the foundation of modern cloud computing as they help logically abstract user compute from shared physical infrastructure. Traditionally, VM packing problems are solved by predicting demand, followed by a Model Predictive Control (MPC) optimization over a future horizon. We introduce an approximate formulation of an industrial VM packing problem as an MILP with soft-constraints parameterized by the predictions. Recently, predict-and-optimize (PnO) was proposed for end-to-end training of prediction models by back-propagating the cost of decisions through the optimization problem. But, PnO is unable to scale to the large prediction horizons prevalent in cloud computing. To tackle this issue, we propose the Predict-and-Critic (PnC) framework that outperforms PnO with just a two-step horizon by leveraging reinforcement learning. PnC jointly trains a prediction model and a terminal Q function that approximates cost-to-go over a long horizon, by back-propagating the cost of decisions through the optimization problem \emph{and from the future}. The terminal Q function allows us to solve a much smaller two-step horizon optimization problem than the multi-step horizon necessary in PnO. We evaluate PnO and the PnC framework on two datasets, three workloads, and with disturbances not modeled in the optimization problem. We find that PnC significantly improves decision quality over PnO, even when the optimization problem is not a perfect representation of reality. We also find that hardening the soft constraints of the MILP and back-propagating through the constraints improves decision quality for both PnO and PnC.
翻訳日:2022-12-05 17:25:33 公開日:2022-12-02
# 計算最適化ニューラルスケーリング則の情報理論解析

An Information-Theoretic Analysis of Compute-Optimal Neural Scaling Laws ( http://arxiv.org/abs/2212.01365v1 )

ライセンス: Link先を確認
Hong Jun Jeon, Benjamin Van Roy(参考訳) 大規模ニューラルネットワークにおけるモデルとトレーニングデータセットサイズ間の計算-最適トレードオフについて検討する。 以上の結果から,チンチラの実験的解析が支持する線形関係が示唆された。 その研究は、MassiveTextコーパス(gopher)に基づいてトレーニングされたトランスフォーマーベースの大規模言語モデルの研究であるが、数理理論の発展の出発点として、シグモダル出力ユニットとReLUアクティベーションユニットの単一の隠蔽層を持つニューラルネットワークに基づく、より単純な学習モデルとデータ生成プロセスに焦点を当てる。 モデルとデータセットの大きさの関数として,最小情報理論上達成可能な期待誤差の上限を定式化する。 そして、この境界を最小化する計算の割り当てを導出する。 本稿では,この近似が漸近線形計算-最適スケーリングを正しく同定することを示す実験結果を示す。 この近似は新たな洞察を生み出すこともできる。 特に、入力空間の次元や潜在空間の複雑さが大きくなるにつれて、例えば、トークンの長い履歴を言語モデルへの入力として取り込む場合のように、計算予算の大部分をデータセットのトレーニングではなく、学習モデルの成長に割り当てるべきである。

We study the compute-optimal trade-off between model and training data set sizes for large neural networks. Our result suggests a linear relation similar to that supported by the empirical analysis of Chinchilla. While that work studies transformer-based large language models trained on the MassiveText corpus (gopher), as a starting point for development of a mathematical theory, we focus on a simpler learning model and data generating process, each based on a neural network with a sigmoidal output unit and single hidden layer of ReLU activation units. We establish an upper bound on the minimal information-theoretically achievable expected error as a function of model and data set sizes. We then derive allocations of computation that minimize this bound. We present empirical results which suggest that this approximation correctly identifies an asymptotic linear compute-optimal scaling. This approximation can also generate new insights. Among other things, it suggests that, as the input space dimension or latent space complexity grows, as might be the case for example if a longer history of tokens is taken as input to a language model, a larger fraction of the compute budget should be allocated to growing the learning model rather than training data set.
翻訳日:2022-12-05 17:24:47 公開日:2022-12-02
# ブラックボックス時間グラフニューラルネットワークの説明限界について

On the Limit of Explaining Black-box Temporal Graph Neural Networks ( http://arxiv.org/abs/2212.00952v1 )

ライセンス: Link先を確認
Minh N. Vu, My T. Thai(参考訳) TGNN(Temporal Graph Neural Network)は、時間発展するグラフ関連タスクをモデル化する能力のため、近年注目を集めている。 グラフニューラルネットワークと同様に、ブラックボックスの性質から、tgnnによる予測を解釈することも非自明である。 GNNにおけるこの問題に対処する主要なアプローチは、摂動に基づく説明法と呼ばれるモデル入力の摂動に関するモデルの応答を分析することである。 これらの手法はモデルの内部アクセスを必要としないため便利で柔軟性があるが、内部アクセスの欠如により予測の重要な情報が明らかにできないだろうか? この質問に動機づけられて、本研究は摂動に基づく説明法のいくつかのクラスの限界を研究する。 特に、TGNNの特定のインスタンスを構築することで、 (i)ノード摂動は、予測を行う経路を確実に特定できない。 (ii)エッジ摂動は、予測に寄与する全てのノードを決定する上で信頼できない。 3) ノードとエッジの摂動はTGNNの時間的集約を実行するグラフのコンポーネントを確実に識別するのに役立ちません。

Temporal Graph Neural Network (TGNN) has been receiving a lot of attention recently due to its capability in modeling time-evolving graph-related tasks. Similar to Graph Neural Networks, it is also non-trivial to interpret predictions made by a TGNN due to its black-box nature. A major approach tackling this problems in GNNs is by analyzing the model' responses on some perturbations of the model's inputs, called perturbation-based explanation methods. While these methods are convenient and flexible since they do not need internal access to the model, does this lack of internal access prevent them from revealing some important information of the predictions? Motivated by that question, this work studies the limit of some classes of perturbation-based explanation methods. Particularly, by constructing some specific instances of TGNNs, we show (i) node-perturbation cannot reliably identify the paths carrying out the prediction, (ii) edge-perturbation is not reliable in determining all nodes contributing to the prediction and (iii) perturbing both nodes and edges does not reliably help us identify the graph's components carrying out the temporal aggregation in TGNNs.
翻訳日:2022-12-05 17:16:19 公開日:2022-12-02
# al-igan:tbm操作データに基づくトンネル地質復元のためのアクティブラーニングフレームワーク

AL-iGAN: An Active Learning Framework for Tunnel Geological Reconstruction Based on TBM Operational Data ( http://arxiv.org/abs/2212.00965v1 )

ライセンス: Link先を確認
Hao Wang, Lixue Liu, Xueguan Song, Chao Zhang, Dacheng Tao(参考訳) トンネルボーリングマシン (tbm) の地下プロジェクトにおいて, トンネル内に分布する岩石-土砂タイプの正確な記述は, 施工リスク(表面沈下や地すべりなど)を低減し, 施工効率を向上させる。 本稿では,TBM運用データに基づくトンネル地質復元のためのアクティブラーニングフレームワークAL-iGANを提案する。 このフレームワークは、tbmの運用データをラベル付けし、新しいトレーニングサンプルを作成するために新しい掘削場所を推奨するアクティブラーニング技術の使用と、新しいサンプルを使用して復元性能を向上させるために重みを段階的に更新できる地質学的再構築のためのインクリメンタル生成逆ネットワーク(igan-gr)である。 また,提案手法の有効性を検証する数値実験を行った。

In tunnel boring machine (TBM) underground projects, an accurate description of the rock-soil types distributed in the tunnel can decrease the construction risk ({\it e.g.} surface settlement and landslide) and improve the efficiency of construction. In this paper, we propose an active learning framework, called AL-iGAN, for tunnel geological reconstruction based on TBM operational data. This framework contains two main parts: one is the usage of active learning techniques for recommending new drilling locations to label the TBM operational data and then to form new training samples; and the other is an incremental generative adversarial network for geological reconstruction (iGAN-GR), whose weights can be incrementally updated to improve the reconstruction performance by using the new samples. The numerical experiment validate the effectiveness of the proposed framework as well.
翻訳日:2022-12-05 17:16:03 公開日:2022-12-02
# ベイズ物理学インフォームドニューラルネットワークによる野火のデータの同化と時空間モデリング

Bayesian Physics Informed Neural Networks for Data Assimilation and Spatio-Temporal Modelling of Wildfires ( http://arxiv.org/abs/2212.00970v1 )

ライセンス: Link先を確認
Joel Janek Dabrowski, Daniel Edward Pagendam, James Hilton, Conrad Sanderson, Daniel MacKinlay, Carolyn Huston, Andrew Bolt, Petra Kuhnert(参考訳) 本研究では,山火事前モデリング問題に物理情報ニューラルネットワーク(PINN)を適用した。 PINNは、微分方程式をニューラルネットワークの最適化損失関数に統合し、ニューラルネットワークを誘導して問題の物理学を学ぶアプローチである。 ハミルトン・ヤコビ偏微分方程式(hamilton-jacobi partial differential equation)は、ゼロレベル集合の火前部をモデル化する方程式である。 この結果、PINNは、時空間ドメインを介して伝播するファイアフロントをシミュレートする。 我々は,外部条件(風など)の極端に変化した火災の物理的特性を学習するPINNの機敏さを実証し,この手法がPINNの解の連続性を促進することを示す。 さらに,データ同化と不確実性定量化が山火事のピンにどのように組み込まれるかを示す。 これは、レベルセット方程式の標準解法であるレベルセット法が、自然にこの機能を提供していないため、ワイルドファイアモデリングに重要な貢献である。

We apply Physics Informed Neural Networks (PINNs) to the problem of wildfire fire-front modelling. The PINN is an approach that integrates a differential equation into the optimisation loss function of a neural network to guide the neural network to learn the physics of a problem. We apply the PINN to the level-set equation, which is a Hamilton-Jacobi partial differential equation that models a fire-front with the zero-level set. This results in a PINN that simulates a fire-front as it propagates through a spatio-temporal domain. We demonstrate the agility of the PINN to learn physical properties of a fire under extreme changes in external conditions (such as wind) and show that this approach encourages continuity of the PINN's solution across time. Furthermore, we demonstrate how data assimilation and uncertainty quantification can be incorporated into the PINN in the wildfire context. This is significant contribution to wildfire modelling as the level-set method -- which is a standard solver to the level-set equation -- does not naturally provide this capability.
翻訳日:2022-12-05 17:15:43 公開日:2022-12-02
# 特徴空間シーケンスの発見と解析によるクラスタリング

Clustering through Feature Space Sequence Discovery and Analysis ( http://arxiv.org/abs/2212.00996v1 )

ライセンス: Link先を確認
Shi Guobin(参考訳) 事前知識のない高次元データパターンの特定は、データサイエンスの重要な課題である。 本稿では,反復なく特徴空間内の各点を動的に探索し,有向ハミルトン経路を求める,データ変換からシーケンス解析まで,単純かつ効率的なnoparametricアルゴリズムを提案する。 変化点解析理論に基づき、経路に対応する配列をいくつかの断片に切り分けてクラスタリングを実現する。 4次元から20531次元の異なる分野の実世界のデータセットに対する実験により、本研究の手法が堅牢であり、結果解析に視覚的解釈性があることが確認された。

Identifying high-dimensional data patterns without a priori knowledge is an important task of data science. This paper proposes a simple and efficient noparametric algorithm: Data Convert to Sequence Analysis, DCSA, which dynamically explore each point in the feature space without repetition, and a Directed Hamilton Path will be found. Based on the change point analysis theory, The sequence corresponding to the path is cut into several fragments to achieve clustering. The experiments on real-world datasets from different fields with dimensions ranging from 4 to 20531 confirm that the method in this work is robust and has visual interpretability in result analysis.
翻訳日:2022-12-05 17:15:25 公開日:2022-12-02
# クープマン演算子理論に基づく訓練ニューラルネットワークのクレジット割り当て

Credit Assignment for Trained Neural Networks Based on Koopman Operator Theory ( http://arxiv.org/abs/2212.00998v1 )

ライセンス: Link先を確認
Zhen Liang, Changyuan Zhao, Wanwei Liu, Bai Xue, Wenjing Yang and Zhengbin Pang(参考訳) ニューラルネットワークのクレジット割り当て問題は、最終的な出力に対する各ネットワークコンポーネントのクレジットを評価することを指す。 トレーニングされていないニューラルネットワークでは、トレーニングフェーズにおけるパラメータ更新とモデル革命に大きな貢献をしている。 トレーニングされたニューラルネットワークのこの問題は、稀な注目を集めているが、ニューラルネットワークのパッチ、仕様、検証において、ますます重要な役割を果たす。 本稿では,コープマン作用素理論に基づいて,訓練ニューラルネットワークのクレジット割当問題に対する線形ダイナミクスの別の視点を提案する。 ニューラルネットワークをサブダイナミックス系列の構成として用いた場合、ステップ遅延埋め込みを用いて各コンポーネントのスナップショットをキャプチャし、確立したマッピングを可能な限り正確に特徴付ける。 埋設時に発生する寸法差問題を回避するため, 最小線形次元アライメントと呼ばれる補助線形層の組成と分解を厳密な形式的保証で慎重に設計する。 その後、各成分はクープマン作用素によって近似され、後方伝播と同様、ヤコビ行列とその対応する行列式を導出する。 次に、各ネットワークコンポーネントのクレジット割り当てに対して代数的解釈可能性を持つ計量を定義する。 さらに,典型的なニューラルネットワークを用いた実験により,提案手法の有効性が示された。

Credit assignment problem of neural networks refers to evaluating the credit of each network component to the final outputs. For an untrained neural network, approaches to tackling it have made great contributions to parameter update and model revolution during the training phase. This problem on trained neural networks receives rare attention, nevertheless, it plays an increasingly important role in neural network patch, specification and verification. Based on Koopman operator theory, this paper presents an alternative perspective of linear dynamics on dealing with the credit assignment problem for trained neural networks. Regarding a neural network as the composition of sub-dynamics series, we utilize step-delay embedding to capture snapshots of each component, characterizing the established mapping as exactly as possible. To circumvent the dimension-difference problem encountered during the embedding, a composition and decomposition of an auxiliary linear layer, termed minimal linear dimension alignment, is carefully designed with rigorous formal guarantee. Afterwards, each component is approximated by a Koopman operator and we derive the Jacobian matrix and its corresponding determinant, similar to backward propagation. Then, we can define a metric with algebraic interpretability for the credit assignment of each network component. Moreover, experiments conducted on typical neural networks demonstrate the effectiveness of the proposed method.
翻訳日:2022-12-05 17:15:13 公開日:2022-12-02
# テンソル化オートエンコーダによる表現学習の改善

Improved Representation Learning Through Tensorized Autoencoders ( http://arxiv.org/abs/2212.01046v1 )

ライセンス: Link先を確認
Pascal Mattia Esser, Satyaki Mukherjee, Mahalakshmi Sabanayagam, Debarghya Ghoshdastidar(参考訳) 表現学習における中心的な問題は、何が良いあるいは有意義な表現を構成するかである。 この研究で、異なる手段と共分散によってクラスタを特徴付けることのできる、固有のクラスタ構造を持つデータを考えると、それらのデータ構造も埋め込みで表現されるべきである、と論じる。 オートエンコーダ(AE)は、教師なし表現学習において広く使われているが、データの単一の表現を得るため、この条件を埋め込みに満たさない。 これを克服するために,任意のaeアーキテクチャをテンソル化バージョン(tae)に拡張して,クラスタ割り当てを同時に学習しながらクラスタ固有の組込みを学習可能にするメタアルゴリズムを提案する。 線形設定のために、TAEが標準AEによって回収されたデータ全体の原理成分とは対照的に、異なるクラスタの原理成分を復元できることを証明した。 我々は、これを植木モデルで検証し、一般に非線形および畳み込みAEは、AEのテンソル化がクラスタリングおよびデノイズ化タスクに有用であることを示す。

The central question in representation learning is what constitutes a good or meaningful representation. In this work we argue that if we consider data with inherent cluster structures, where clusters can be characterized through different means and covariances, those data structures should be represented in the embedding as well. While Autoencoders (AE) are widely used in practice for unsupervised representation learning, they do not fulfil the above condition on the embedding as they obtain a single representation of the data. To overcome this we propose a meta-algorithm that can be used to extend an arbitrary AE architecture to a tensorized version (TAE) that allows for learning cluster-specific embeddings while simultaneously learning the cluster assignment. For the linear setting we prove that TAE can recover the principle components of the different clusters in contrast to principle component of the entire data recovered by a standard AE. We validated this on planted models and for general, non-linear and convolutional AEs we empirically illustrate that tensorizing the AE is beneficial in clustering and de-noising tasks.
翻訳日:2022-12-05 17:14:56 公開日:2022-12-02
# VeriX: ディープニューラルネットワークの検証可能な説明可能性を目指して

VeriX: Towards Verified Explainability of Deep Neural Networks ( http://arxiv.org/abs/2212.01051v1 )

ライセンス: Link先を確認
Min Wu, Haoze Wu, Clark Barrett(参考訳) 安全クリティカルなアプリケーションにおける機械学習モデルの検証可能な説明可能性への第一歩であるverixを提案する。 特に、我々の音と最適説明は、有界摂動に対する予測不変性を保証することができる。 制約解法と特徴感度ランキングを利用してこれらの説明を効率的に計算する。 画像認識ベンチマークのアプローチと、自律航空機タクシーの現実シナリオを評価した。

We present VeriX, a first step towards verified explainability of machine learning models in safety-critical applications. Specifically, our sound and optimal explanations can guarantee prediction invariance against bounded perturbations. We utilise constraint solving techniques together with feature sensitivity ranking to efficiently compute these explanations. We evaluate our approach on image recognition benchmarks and a real-world scenario of autonomous aircraft taxiing.
翻訳日:2022-12-05 17:14:39 公開日:2022-12-02
# リモートセンシングにおける生成推論統合ラベル雑音ロバスト深画像表現学習

Generative Reasoning Integrated Label Noise Robust Deep Image Representation Learning in Remote Sensing ( http://arxiv.org/abs/2212.01261v1 )

ライセンス: Link先を確認
Gencer Sumbul and Beg\"um Demir(参考訳) 深層学習に基づく画像表現学習(irl)手法の開発は,リモートセンシング(rs)画像理解の文脈において大きな注目を集めている。 これらの手法の多くは、大量の注釈付き訓練画像の可用性と品質を必要としており、収集には時間と費用がかかる。 ラベリングコストを削減するために、公開可能なテーママップ、自動ラベリング手順、クラウドソースデータを使用することができる。 しかしながら、このようなアプローチは、トレーニングデータにラベルノイズを含めるリスクを増大させる。 既存の方法と同様に差別的推論が採用される場合、ノイズラベルが過度に適合する可能性がある。 これにより、準最適学習手順が導かれ、RS画像の特徴が不正確になる。 本稿では、RSにおいてはじめて、生成的推論統合型ラベル頑健な表現学習(GRID)手法を提案する。 GRIDはノイズラベル下でのIRLの識別的および生成的推論の相補的特性をモデル化することを目的としている。 そこで我々はまず,変分オートエンコーダを用いて生成的推論を識別的推論に統合する。 これにより、ノイズラベルによるトレーニングサンプルの自動検出が可能となる。 そして,ラベルノイズによる頑健なハイブリッド表現学習戦略を通じて,これらのサンプルのIRLの学習手順全体を,識別的推論により生成的推論と他のサンプルの学習手法によって調整する。 本手法は,IRL法とは独立にトレーニング中のノイズラベルの干渉を防止しつつ,識別的画像表現を学習する。 したがって、既存の手法とは異なり、GRIDはアノテーションの種類、ラベルノイズ、ニューラルネットワーク、損失または学習タスクに依存しないので、様々なRS画像理解問題に利用できる。 実験の結果, GRID は最先端手法と比較して有効であった。

The development of deep learning based image representation learning (IRL) methods has attracted great attention in the context of remote sensing (RS) image understanding. Most of these methods require the availability of a high quantity and quality of annotated training images, which can be time-consuming and costly to gather. To reduce labeling costs, publicly available thematic maps, automatic labeling procedures or crowdsourced data can be used. However, such approaches increase the risk of including label noise in training data. It may result in overfitting on noisy labels when discriminative reasoning is employed as in most of the existing methods. This leads to sub-optimal learning procedures, and thus inaccurate characterization of RS images. In this paper, as a first time in RS, we introduce a generative reasoning integrated label noise robust representation learning (GRID) approach. GRID aims to model the complementary characteristics of discriminative and generative reasoning for IRL under noisy labels. To this end, we first integrate generative reasoning into discriminative reasoning through a variational autoencoder. This allows our approach to automatically detect training samples with noisy labels. Then, through our label noise robust hybrid representation learning strategy, GRID adjusts the whole learning procedure for IRL of these samples through generative reasoning and that of the other samples through discriminative reasoning. Our approach learns discriminative image representations while preventing interference of noisy labels during training independently from the IRL method. Thus, unlike the existing methods, GRID does not depend on the type of annotation, label noise, neural network, loss or learning task, and thus can be utilized for various RS image understanding problems. Experimental results show the effectiveness of GRID compared to state-of-the-art methods.
翻訳日:2022-12-05 17:09:41 公開日:2022-12-02
# MIC:コンテキスト拡張ドメイン適応のためのマスク付き画像整合性

MIC: Masked Image Consistency for Context-Enhanced Domain Adaptation ( http://arxiv.org/abs/2212.01322v1 )

ライセンス: Link先を確認
Lukas Hoyer, Dengxin Dai, Haoran Wang, Luc Van Gool(参考訳) unsupervised domain adaptation(uda)では、ソースデータ(例えばsynthetic)に基づいてトレーニングされたモデルは、ターゲットのアノテーションにアクセスせずにターゲットデータ(例えば実世界)に適応される。 従来のUDA手法は、視覚的外観が類似したクラスと競合することが多いが、外観の違いを学習するための基礎的な真実は存在しない。 この問題に対処するために、ターゲット領域の空間的コンテキスト関係を頑健な視覚認識のための追加の手がかりとして学習することにより、UDAを強化するMasked Image Consistency (MIC)モジュールを提案する。 MICは、ランダムパッチが保持されないマスクされたターゲット画像の予測と、指数移動平均教師による完全な画像に基づいて生成された擬似ラベルとの一貫性を強制する。 一貫性損失を最小限に抑えるために、ネットワークは、そのコンテキストからマスキングされた領域の予測を推測することを学ぶ必要がある。 シンプルで普遍的な概念のため、MICは画像分類、セマンティックセグメンテーション、オブジェクト検出など、さまざまな視覚認識タスクにまたがる様々なUDAメソッドに統合することができる。 MICは、合成からリアルタイム、日夜、クリア・ツー・リバース・ウェザーUDAの様々な認識タスクにおいて、最先端の性能を著しく向上させる。 例えば、MICは、GTA-to-Cityscapes と VisDA-2017 の75.9 mIoU と92.8%という前例のない UDA のパフォーマンスを達成した。 実装はhttps://github.com/lhoyer/micで利用可能である。

In unsupervised domain adaptation (UDA), a model trained on source data (e.g. synthetic) is adapted to target data (e.g. real-world) without access to target annotation. Most previous UDA methods struggle with classes that have a similar visual appearance on the target domain as no ground truth is available to learn the slight appearance differences. To address this problem, we propose a Masked Image Consistency (MIC) module to enhance UDA by learning spatial context relations of the target domain as additional clues for robust visual recognition. MIC enforces the consistency between predictions of masked target images, where random patches are withheld, and pseudo-labels that are generated based on the complete image by an exponential moving average teacher. To minimize the consistency loss, the network has to learn to infer the predictions of the masked regions from their context. Due to its simple and universal concept, MIC can be integrated into various UDA methods across different visual recognition tasks such as image classification, semantic segmentation, and object detection. MIC significantly improves the state-of-the-art performance across the different recognition tasks for synthetic-to-real, day-to-nighttime, and clear-to-adverse-weather UDA. For instance, MIC achieves an unprecedented UDA performance of 75.9 mIoU and 92.8% on GTA-to-Cityscapes and VisDA-2017, respectively, which corresponds to an improvement of +2.1 and +3.0 percent points over the previous state of the art. The implementation is available at https://github.com/lhoyer/MIC.
翻訳日:2022-12-05 17:09:17 公開日:2022-12-02
# 未知のマンハッタンフレームを持つマンハッタンシーンのニューラルラジアンス場

Neural Radiance Fields for Manhattan Scenes with Unknown Manhattan Frame ( http://arxiv.org/abs/2212.01331v1 )

ライセンス: Link先を確認
Nikola Popovic, Danda Pani Paudel, Luc Van Gool(参考訳) 暗黙的ニューラルフィールド表現を用いた新しいビュー合成と3次元モデリングは、マルチビューカメラの校正に非常に有効であることが示されている。 このような表現は、追加の幾何学的および意味的監督の恩恵を受けることが知られている。 追加の監視を利用する既存の方法の多くは、高密度のピクセルワイドラベルや、ローカライズされたシーン先行を必要とする。 これらの手法は、シーンの説明の観点で提供される高レベルな曖昧なシーン優先の恩恵を受けることができない。 本研究では,マンハッタンのシーンの幾何学的前兆を利用して,暗黙の神経放射場表現を改善することを目的とする。 より正確には、マンハッタンであるシーンの知識(調査中)だけが、マンハッタンの座標系が不明な、追加情報なしで知られていると仮定する。 このようなハイレベルな事前処理は、暗黙の神経野で明示的に導かれる表面正規化を自己監督するために用いられる。 我々のモデリングにより、派生正規化をグループ化し、その直交性制約を自己スーパービジョンに活用することができる。 様々な屋内シーンのデータセットを徹底的に実験した結果,提案手法が確立したベースラインよりも有益であることが示された。

Novel view synthesis and 3D modeling using implicit neural field representation are shown to be very effective for calibrated multi-view cameras. Such representations are known to benefit from additional geometric and semantic supervision. Most existing methods that exploit additional supervision require dense pixel-wise labels or localized scene priors. These methods cannot benefit from high-level vague scene priors provided in terms of scenes' descriptions. In this work, we aim to leverage the geometric prior of Manhattan scenes to improve the implicit neural radiance field representations. More precisely, we assume that only the knowledge of the scene (under investigation) being Manhattan is known - with no additional information whatsoever - with an unknown Manhattan coordinate frame. Such high-level prior is then used to self-supervise the surface normals derived explicitly in the implicit neural fields. Our modeling allows us to group the derived normals, followed by exploiting their orthogonality constraints for self-supervision. Our exhaustive experiments on datasets of diverse indoor scenes demonstrate the significant benefit of the proposed method over the established baselines.
翻訳日:2022-12-05 17:08:39 公開日:2022-12-02
# 行動認識における伝達学習の源としての映像ベースポーズ推定データ

Video-based Pose-Estimation Data as Source for Transfer Learning in Human Activity Recognition ( http://arxiv.org/abs/2212.01353v1 )

ライセンス: Link先を確認
Shrutarv Awasthi, Fernando Moya Rueda, Gernot A. Fink(参考訳) オンボディデバイスを用いたヒューマンアクティビティ認識(HAR)は、制約のない環境での特定の人間の行動を特定する。 HARは人間の動きの相互および内部のばらつきのために困難であり、さらに、オンボディデバイスからの注釈付きデータセットは少ない。 この問題は、記録、高価なアノテーション、人間の活動の標準的な定義の欠如など、データ生成の難しさが主な原因である。 前回の研究では、少ないデータでシナリオに対処するための優れた戦略として、転送学習が示されている。 しかし、アノテートされたオンボディデバイスデータセットの不足は残る。 本稿では,人間の位置推定のためのビデオデータセットから,人間の関節のアノテートされたピクセル座標のシーケンスを展開し,人間のポーズ推定を行う,トランスファーラーニング学習のソースとしてヒューマン・ポーズ推定を意図したデータセットを提案する。 4つのベンチマークビデオベースのソースデータセットで、深いアーキテクチャを事前トレーニングします。 最後に、HAR性能を向上させる3つのオンボディデバイスデータセットに対して評価を行う。

Human Activity Recognition (HAR) using on-body devices identifies specific human actions in unconstrained environments. HAR is challenging due to the inter and intra-variance of human movements; moreover, annotated datasets from on-body devices are scarce. This problem is mainly due to the difficulty of data creation, i.e., recording, expensive annotation, and lack of standard definitions of human activities. Previous works demonstrated that transfer learning is a good strategy for addressing scenarios with scarce data. However, the scarcity of annotated on-body device datasets remains. This paper proposes using datasets intended for human-pose estimation as a source for transfer learning; specifically, it deploys sequences of annotated pixel coordinates of human joints from video datasets for HAR and human pose estimation. We pre-train a deep architecture on four benchmark video-based source datasets. Finally, an evaluation is carried out on three on-body device datasets improving HAR performance.
翻訳日:2022-12-05 17:08:24 公開日:2022-12-02
# d2df2wod:プログレッシブドメイン適応による弱教師付き物体検出のための学習オブジェクトの提案

D2DF2WOD: Learning Object Proposals for Weakly-Supervised Object Detection via Progressive Domain Adaptation ( http://arxiv.org/abs/2212.01376v1 )

ライセンス: Link先を確認
Yuting Wang, Ricardo Guerrero, Vladimir Pavlovic(参考訳) 弱教師付きオブジェクト検出(WSOD)モデルは、正確だが高価なオブジェクトローカライゼーションラベルの代わりに画像レベルのアノテーションを活用する。 これはしばしば、サブ標準オブジェクトの検出と推論時のローカライゼーションにつながる。 そこで本稿では,d2df2wodを提案する。d2df2wodは,画像レベルラベルのみが使用可能な自然画像ターゲットドメインを補完するために,合成データを利用した合成オブジェクト検出フレームワークである。 ウォームアップドメイン適応段階において、モデルは完全に教師付きオブジェクト検出器(fsod)を学習し、対象ドメイン内のオブジェクト提案の精度を向上させるとともに、ターゲットドメイン固有かつ検出対応の提案機能を学習する。 メインのWSODステージでは、WSODモデルはターゲットドメインに特別に調整されます。 WSODモデルの特徴抽出器とオブジェクト提案生成器は、細調整されたFSODモデルに基づいて構築される。 d2df2wodを5つのデュアルドメインイメージベンチマークでテストした。 その結果,本手法は最先端手法と比較してオブジェクト検出と局所化を一貫して改善することがわかった。

Weakly-supervised object detection (WSOD) models attempt to leverage image-level annotations in lieu of accurate but costly-to-obtain object localization labels. This oftentimes leads to substandard object detection and localization at inference time. To tackle this issue, we propose D2DF2WOD, a Dual-Domain Fully-to-Weakly Supervised Object Detection framework that leverages synthetic data, annotated with precise object localization, to supplement a natural image target domain, where only image-level labels are available. In its warm-up domain adaptation stage, the model learns a fully-supervised object detector (FSOD) to improve the precision of the object proposals in the target domain, and at the same time learns target-domain-specific and detection-aware proposal features. In its main WSOD stage, a WSOD model is specifically tuned to the target domain. The feature extractor and the object proposal generator of the WSOD model are built upon the fine-tuned FSOD model. We test D2DF2WOD on five dual-domain image benchmarks. The results show that our method results in consistently improved object detection and localization compared with state-of-the-art methods.
翻訳日:2022-12-05 17:08:09 公開日:2022-12-02
# LatentSwap3D: 3D画像のセマンティック編集

LatentSwap3D: Semantic Edits on 3D Image GANs ( http://arxiv.org/abs/2212.01381v1 )

ライセンス: Link先を確認
Enis Simsar and Alessio Tonioni and Evin P{\i}nar \"Ornek and Federico Tombari(参考訳) 最近の3D対応のGANは、オブジェクトのポーズと外観を乱すためにボリュームレンダリング技術に依存しており、潜在コードからのシングルビュー2D画像ではなく、事実上3Dボリューム全体を生成している。 複雑な画像編集タスクは、標準の2DベースのGAN(例えばStyleGANモデル)で潜在次元の操作として実行できる。 しかし、我々の知る限りでは、同様の性質は3次元GANモデルに対して部分的にのみ検討されている。 本研究の目的は,既存の手法の限界を示すことによって,このギャップを埋めることと,事前学習された3D対応GANの潜在空間における属性編集を可能にするモデルに依存しないアプローチであるLatentSwap3Dを提案することである。 まず,対象属性を制御するモデルの潜在空間における最も関連性の高い次元を,ランダムな森林分類器の特徴重要度に頼って同定する。 次に、変換を適用するために、編集中の画像の最も関連する潜在次元のトップkを、所望の属性を示す画像に置き換える。 その単純さにもかかわらず、LatntSwap3Dは不整合な方法で顕著なセマンティックな編集を提供し、定性的かつ定量的に代替アプローチより優れている。 我々は, pi-GAN, GIRAFFE, StyleSDF, MVCGAN, EG3D, VolumeGAN, FFHQ, AFHQ, Cats, MetFaces, CompCarsといった多種多様な3D生成モデルに対して, セマンティックな編集アプローチを示す。 プロジェクトページは \url{https://enisimsar.github.io/latentswap3d/} で確認できる。

Recent 3D-aware GANs rely on volumetric rendering techniques to disentangle the pose and appearance of objects, de facto generating entire 3D volumes rather than single-view 2D images from a latent code. Complex image editing tasks can be performed in standard 2D-based GANs (e.g., StyleGAN models) as manipulation of latent dimensions. However, to the best of our knowledge, similar properties have only been partially explored for 3D-aware GAN models. This work aims to fill this gap by showing the limitations of existing methods and proposing LatentSwap3D, a model-agnostic approach designed to enable attribute editing in the latent space of pre-trained 3D-aware GANs. We first identify the most relevant dimensions in the latent space of the model controlling the targeted attribute by relying on the feature importance ranking of a random forest classifier. Then, to apply the transformation, we swap the top-K most relevant latent dimensions of the image being edited with an image exhibiting the desired attribute. Despite its simplicity, LatentSwap3D provides remarkable semantic edits in a disentangled manner and outperforms alternative approaches both qualitatively and quantitatively. We demonstrate our semantic edit approach on various 3D-aware generative models such as pi-GAN, GIRAFFE, StyleSDF, MVCGAN, EG3D and VolumeGAN, and on diverse datasets, such as FFHQ, AFHQ, Cats, MetFaces, and CompCars. The project page can be found: \url{https://enisimsar.github.io/latentswap3d/}.
翻訳日:2022-12-05 17:07:33 公開日:2022-12-02
# 情報検索ベンチマークにおけるダウンストリームタスク精度の超越

Moving Beyond Downstream Task Accuracy for Information Retrieval Benchmarking ( http://arxiv.org/abs/2212.01340v1 )

ライセンス: Link先を確認
Keshav Santhanam, Jon Saad-Falcon, Martin Franz, Omar Khattab, Avirup Sil, Radu Florian, Md Arafat Sultan, Salim Roukos, Matei Zaharia, Christopher Potts(参考訳) ニューラル・インフォメーション・検索(IR)システムは近年急速に進歩している。 今日、人気のあるirベンチマークのほとんどはダウンストリームタスクの正確性にのみ焦点を合わせており、それによって効率と品質をトレードオフするシステムが生み出すコストを隠蔽している。 レイテンシ、ハードウェアコスト、その他の効率性の考慮は、ユーザ対応設定におけるIRシステムのデプロイにおいて最重要である。 そこで,irベンチマークは,精度の指標だけでなく,クエリ待ち時間や再現可能なハードウェア設定のコスト予算といった効率上の考慮も含むように評価手法を構築した。 一般的なIRベンチマークMS MARCOとXOR-TyDiでは、これらの効率の考慮事項の選択と測定方法によって、IRシステムの最良の選択がどう変化するかを示す。 将来のベンチマークでは、これらのガイドラインがより包括的なIR評価に採用されることを願っている。

Neural information retrieval (IR) systems have progressed rapidly in recent years, in large part due to the release of publicly available benchmarking tasks. Unfortunately, some dimensions of this progress are illusory: the majority of the popular IR benchmarks today focus exclusively on downstream task accuracy and thus conceal the costs incurred by systems that trade away efficiency for quality. Latency, hardware cost, and other efficiency considerations are paramount to the deployment of IR systems in user-facing settings. We propose that IR benchmarks structure their evaluation methodology to include not only metrics of accuracy, but also efficiency considerations such as a query latency and the corresponding cost budget for a reproducible hardware setting. For the popular IR benchmarks MS MARCO and XOR-TyDi, we show how the best choice of IR system varies according to how these efficiency considerations are chosen and weighed. We hope that future benchmarks will adopt these guidelines toward more holistic IR evaluation.
翻訳日:2022-12-05 17:07:04 公開日:2022-12-02
# 長期画像分類のための複合バッチ正規化

Compound Batch Normalization for Long-tailed Image Classification ( http://arxiv.org/abs/2212.01007v1 )

ライセンス: Link先を確認
Lechao Cheng, Chaowei Fang, Dingwen Zhang, Guanbin Li, Gang Huang(参考訳) データ再サンプリング、再重み付け、マージン調整といった堅牢なトレーニングアルゴリズムを用いて、長期データ分布下でのイメージ分類ニューラルネットワークの学習において、重要な進歩があった。 しかし、これらの手法は特徴正規化に対するデータ不均衡の影響を無視している。 統計とアフィンパラメータの推定における多数クラス(ヘッドクラス)の優位性は、少ない頻度のカテゴリで内部共変量シフトを引き起こす。 この課題を軽減するために,ガウス混合に基づく複合バッチ正規化法を提案する。 機能空間をより包括的にモデル化し、ヘッドクラスの優位を減らすことができる。 さらに、複数のガウス分布の統計パラメータを推定するために、移動平均ベース期待最大化(em)アルゴリズムが用いられる。 しかし、EMアルゴリズムは初期化に敏感であり、複数のガウス成分が多数派クラスに集中し続けるような局所的なミニマでは簡単に立ち往生する。 この問題に対処するため,我々は,クラス認識分割特徴正規化を用いて推定ガウス分布の多様化を行い,ガウス成分がより包括的に低頻度クラスのトレーニングサンプルに適合することを可能にするデュアルパス学習フレームワークを開発した。 一般的なデータセットに対する大規模な実験により、提案手法は、長い尾画像分類における既存の手法よりも優れていることを示した。

Significant progress has been made in learning image classification neural networks under long-tail data distribution using robust training algorithms such as data re-sampling, re-weighting, and margin adjustment. Those methods, however, ignore the impact of data imbalance on feature normalization. The dominance of majority classes (head classes) in estimating statistics and affine parameters causes internal covariate shifts within less-frequent categories to be overlooked. To alleviate this challenge, we propose a compound batch normalization method based on a Gaussian mixture. It can model the feature space more comprehensively and reduce the dominance of head classes. In addition, a moving average-based expectation maximization (EM) algorithm is employed to estimate the statistical parameters of multiple Gaussian distributions. However, the EM algorithm is sensitive to initialization and can easily become stuck in local minima where the multiple Gaussian components continue to focus on majority classes. To tackle this issue, we developed a dual-path learning framework that employs class-aware split feature normalization to diversify the estimated Gaussian distributions, allowing the Gaussian components to fit with training samples of less-frequent classes more comprehensively. Extensive experiments on commonly used datasets demonstrated that the proposed method outperforms existing methods on long-tailed image classification.
翻訳日:2022-12-05 17:00:16 公開日:2022-12-02
# トランスベース学習最適化

Transformer-Based Learned Optimization ( http://arxiv.org/abs/2212.01055v1 )

ライセンス: Link先を確認
Erik G\"artner, Luke Metz, Mykhaylo Andriluka, C. Daniel Freeman, Cristian Sminchisescu(参考訳) 本稿では,学習最適化への新しいアプローチを提案する。 本稿では,ニューラルネットワークを用いたオプティマイザの更新ステップの計算について述べる。 次に、最適化器のパラメータをトレーニング最適化タスクのセットで学習し、最小化を効率的に行う。 我々の主なイノベーションは、古典的なbfgsアルゴリズムにインスパイアされた学習オプティマイザのための新しいニューラルネットワークアーキテクチャを提案することです。 BFGSと同様に、プレコンディショニング行列をランクワン更新の和として推定するが、トランスフォーマーベースのニューラルネットワークを用いてこれらの更新をステップ長と方向とともに予測する。 近年のいくつかの学習された最適化手法とは対照的に,我々の定式化により,対象問題のパラメータ空間の異なる次元にまたがる条件付けが可能となった。 提案手法は,従来最適化アルゴリズムの評価に用いられてきた客観的関数のベンチマークや,3次元関節運動の物理に基づく再構成の現実の課題に対して,その利点を実証する。

In this paper, we propose a new approach to learned optimization. As common in the literature, we represent the computation of the update step of the optimizer with a neural network. The parameters of the optimizer are then learned on a set of training optimization tasks, in order to perform minimisation efficiently. Our main innovation is to propose a new neural network architecture for the learned optimizer inspired by the classic BFGS algorithm. As in BFGS, we estimate a preconditioning matrix as a sum of rank-one updates but use a transformer-based neural network to predict these updates jointly with the step length and direction. In contrast to several recent learned optimization approaches, our formulation allows for conditioning across different dimensions of the parameter space of the target problem while remaining applicable to optimization tasks of variable dimensionality without retraining. We demonstrate the advantages of our approach on a benchmark composed of objective functions traditionally used for evaluation of optimization algorithms, as well as on the real world-task of physics-based reconstruction of articulated 3D human motion.
翻訳日:2022-12-05 16:59:53 公開日:2022-12-02
# 単一画像超解像のためのグローバル学習型注意

Global Learnable Attention for Single Image Super-Resolution ( http://arxiv.org/abs/2212.01057v1 )

ライセンス: Link先を確認
Jian-Nan Su, Min Gan, Guang-Yong Chen, Jia-Li Yin, and C. L. Philip Chen(参考訳) 自己相似性は、単一画像超解像(SISR)における非局所的なテクスチャの探索に有用である。 研究者は通常、非局所的なテクスチャの重要性は類似性のスコアと肯定的に関連していると仮定する。 本稿では,重傷を負った問合せテクスチャを修復する場合,目標に近い類似度の低い非局所テクスチャが,類似度の高いテクスチャよりも正確でリッチなディテールを提供できることを発見した。 これらの場合、低相似性は劣るという意味ではなく、通常異なるスケールや向きによって引き起こされる。 そこで本研究では,非局所的なテクスチャの類似度スコアを,ドット生成物のような固定された類似度スコア関数を使用するのではなく,適応的に修正するグローバル学習型注意(GLA)を提案する。 提案したGLAは、低相似性で非局所的なテクスチャを探索できるが、より正確なディテールで損傷したテクスチャを修復することができる。 さらに,GLAの事前処理手法としてSuper-Bit Locality-Sensitive Hashing(SB-LSH)を提案する。 SB-LSHでは、画像サイズに関して、GLAの計算複雑性は二次的から漸近的へと減少する。 さらに、提案したGLAは、効率的な汎用ビルディングブロックとして既存のディープSISRモデルに統合することができる。 GLAに基づいて、異なる劣化型(例えば、ぼかしやノイズ)のSISRタスクの最先端性能を実現するためのDLSN(Deep Learnable similarity Network)を構築した。 私たちのコードと事前トレーニングされたDLSNは、バリデーションのためにGitHub{\dag}にアップロードされました。

Self-similarity is valuable to the exploration of non-local textures in single image super-resolution (SISR). Researchers usually assume that the importance of non-local textures is positively related to their similarity scores. In this paper, we surprisingly found that when repairing severely damaged query textures, some non-local textures with low-similarity which are closer to the target can provide more accurate and richer details than the high-similarity ones. In these cases, low-similarity does not mean inferior but is usually caused by different scales or orientations. Utilizing this finding, we proposed a Global Learnable Attention (GLA) to adaptively modify similarity scores of non-local textures during training instead of only using a fixed similarity scoring function such as the dot product. The proposed GLA can explore non-local textures with low-similarity but more accurate details to repair severely damaged textures. Furthermore, we propose to adopt Super-Bit Locality-Sensitive Hashing (SB-LSH) as a preprocessing method for our GLA. With the SB-LSH, the computational complexity of our GLA is reduced from quadratic to asymptotic linear with respect to the image size. In addition, the proposed GLA can be integrated into existing deep SISR models as an efficient general building block. Based on the GLA, we constructed a Deep Learnable Similarity Network (DLSN), which achieves state-of-the-art performance for SISR tasks of different degradation types (e.g. blur and noise). Our code and a pre-trained DLSN have been uploaded to GitHub{\dag} for validation.
翻訳日:2022-12-05 16:59:36 公開日:2022-12-02
# 画像スプライシングローカライゼーションのためのマルチストリームフュージョンネットワーク

A Multi-Stream Fusion Network for Image Splicing Localization ( http://arxiv.org/abs/2212.01128v1 )

ライセンス: Link先を確認
Maria Siopi and Giorgos Kordopatis-Zilos and Polychronis Charitidis and Ioannis Kompatsiaris and Symeon Papadopoulos(参考訳) 本稿では,RGB画像と他の手作りの法医学的信号とを並行して処理するマルチストリームネットワークアーキテクチャを用いて,画像スプライシングローカライズの問題に対処する。 rgb画像のみを使用する従来の方法や、複数の信号をチャネル毎にスタックする手法とは異なり、複数のエンコーダストリームからなるエンコーダ-デコーダアーキテクチャを提案する。 各ストリームには、改ざんされた画像または手作りの信号が供給され、それらを別々に処理し、関連する情報をそれぞれ独立して取得する。 最後に、複数のストリームから抽出された特徴をアーキテクチャのボトルネックに融合し、出力ローカライゼーションマップを生成するデコーダネットワークに伝播する。 DCTとSplicebusterの2つの手作りアルゴリズムを実験した。 提案手法は,3つの公開鑑識データセット上でベンチマークを行い,いくつかの競合手法との競合性能を示し,casia上の0.898 aucなど,最先端の成果を得る。

In this paper, we address the problem of image splicing localization with a multi-stream network architecture that processes the raw RGB image in parallel with other handcrafted forensic signals. Unlike previous methods that either use only the RGB images or stack several signals in a channel-wise manner, we propose an encoder-decoder architecture that consists of multiple encoder streams. Each stream is fed with either the tampered image or handcrafted signals and processes them separately to capture relevant information from each one independently. Finally, the extracted features from the multiple streams are fused in the bottleneck of the architecture and propagated to the decoder network that generates the output localization map. We experiment with two handcrafted algorithms, i.e., DCT and Splicebuster. Our proposed approach is benchmarked on three public forensics datasets, demonstrating competitive performance against several competing methods and achieving state-of-the-art results, e.g., 0.898 AUC on CASIA.
翻訳日:2022-12-05 16:59:07 公開日:2022-12-02
# ファウショットセグメンテーションのための新しいクラスの識別可能性の活性化

Activating the Discriminability of Novel Classes for Few-shot Segmentation ( http://arxiv.org/abs/2212.01131v1 )

ライセンス: Link先を確認
Dianwen Mei, Wei Zhuo, Jiandong Tian, Guangming Lu, Wenjie Pei(参考訳) 数発のセグメンテーションで既存の手法が驚くほど成功したにもかかわらず、依然として2つの重要な課題がある。 まず,新しい授業が常に背景として扱われるように,新しい授業の特徴学習を基礎授業の訓練中に抑制する。 したがって、新しいクラスのセマンティクスは十分に学ばない。 第二に、既存のメソッドのほとんどが、サポートの不足による代表バイアスから生じるクエリとサポートの間のセマンティクスギャップを考慮できていない。 これら2つの課題を回避すべく,特徴符号化段階と予測段階の両方において,新規クラスの識別性を明示的に活性化する。 特徴エンコーディングの段階では,まずsemantic-preserving feature learning module (spfl) を設計し,入力画像全体,特に新しいクラスに属する背景に含まれている潜在意味性を保持する。 セグメンテーションの予測段階では,クエリ画像の信頼度の高い画素を用いて自らを洗練し,クエリ画像への適応を容易にし,サポート・クエリ・セマンティクスギャップを橋渡しできる自己改良型オンラインフォアグラウンド・バックグラウンド分類器(srofb)を学習する。 pascal-5$^i$とcoco-20$^i$データセットに関する広範な実験は、これら2つの新しい設計の量的および質的利点を示している。

Despite the remarkable success of existing methods for few-shot segmentation, there remain two crucial challenges. First, the feature learning for novel classes is suppressed during the training on base classes in that the novel classes are always treated as background. Thus, the semantics of novel classes are not well learned. Second, most of existing methods fail to consider the underlying semantic gap between the support and the query resulting from the representative bias by the scarce support samples. To circumvent these two challenges, we propose to activate the discriminability of novel classes explicitly in both the feature encoding stage and the prediction stage for segmentation. In the feature encoding stage, we design the Semantic-Preserving Feature Learning module (SPFL) to first exploit and then retain the latent semantics contained in the whole input image, especially those in the background that belong to novel classes. In the prediction stage for segmentation, we learn an Self-Refined Online Foreground-Background classifier (SROFB), which is able to refine itself using the high-confidence pixels of query image to facilitate its adaptation to the query image and bridge the support-query semantic gap. Extensive experiments on PASCAL-5$^i$ and COCO-20$^i$ datasets demonstrates the advantages of these two novel designs both quantitatively and qualitatively.
翻訳日:2022-12-05 16:58:50 公開日:2022-12-02
# リモートセンシング画像のマルチラベル分類のための深層能動学習

Deep Active Learning for Multi-Label Classification of Remote Sensing Images ( http://arxiv.org/abs/2212.01165v1 )

ライセンス: Link先を確認
Lars M\"ollenbrok and Beg\"um Demir(参考訳) 深層ニューラルネットワーク(DNN)の使用は、最近、リモートセンシング(RS)画像のマルチラベル分類(MLC)フレームワークにおいて大きな注目を集めている。 dnnの多数のパラメータを最適化するには、複数のラベルでアノテートされた信頼性の高いトレーニングイメージがしばしば必要となる。 しかし、大規模なトレーニングセットの収集には時間がかかり、複雑でコストがかかる。 本稿では,データ要求型DNNのアノテーション処理を最小化するために,RS画像のMDCに対するDNNの文脈におけるアクティブラーニング(AL)のためのクエリ関数をいくつか提示する。 単一ラベル分類やセマンティクスセグメンテーション問題のために定義されたalクエリ関数とは異なり,本論文で提示される各クエリ関数は2つの基準の評価に基づいている。 一 複数ラベルの不確実性 ii)マルチラベルの多様性。 マルチラベル不確実性基準は、各画像に複数のラベルを正しく割り当てる際のDNNの信頼性に関連付けられる。 マルチラベルの不確実性を評価するため、我々はLC問題に3つの戦略を提示し、適応する。 一 複数レーベルの損失発注の学習 二 複数ラベル予測の時間的不一致の測定、及び 三 近似勾配埋め込みの大きさを測定すること。 マルチラベル多様性基準(multi-label diversity criterion)は、冗長性を減らすために可能な限り多様な不確定な画像を選択することを目的としている。 この基準を評価するために、クラスタリングベースの戦略を利用する。 上記の不確実性戦略とクラスタリングに基づく多様性戦略をそれぞれ組み合わせ、3つの異なるクエリ関数を生成する。 2つのベンチマークアーカイブで得られた実験結果は、我々のクエリ関数が、LCのコンテキストにおいてALプロセスの各イテレーションにおいて、非常に情報性の高いサンプル群を選択できることを示している。

The use of deep neural networks (DNNs) has recently attracted great attention in the framework of the multi-label classification (MLC) of remote sensing (RS) images. To optimize the large number of parameters of DNNs a high number of reliable training images annotated with multi-labels is often required. However, the collection of a large training set is time-consuming, complex and costly. To minimize annotation efforts for data-demanding DNNs, in this paper we present several query functions for active learning (AL) in the context of DNNs for the MLC of RS images. Unlike the AL query functions defined for single-label classification or semantic segmentation problems, each query function presented in this paper is based on the evaluation of two criteria: i) multi-label uncertainty; and ii) multi-label diversity. The multi-label uncertainty criterion is associated to the confidence of the DNNs in correctly assigning multi-labels to each image. To assess the multi-label uncertainty, we present and adapt to the MLC problems three strategies: i) learning multi-label loss ordering; ii) measuring temporal discrepancy of multi-label prediction; and iii) measuring magnitude of approximated gradient embedding. The multi-label diversity criterion aims at selecting a set of uncertain images that are as diverse as possible to reduce the redundancy among them. To assess this criterion we exploit a clustering based strategy. We combine each of the above-mentioned uncertainty strategy with the clustering based diversity strategy, resulting in three different query functions. Experimental results obtained on two benchmark archives show that our query functions result in the selection of a highly informative set of samples at each iteration of the AL process in the context of MLC.
翻訳日:2022-12-05 16:58:26 公開日:2022-12-02
# diffrf:レンダリング誘導3次元放射拡散

DiffRF: Rendering-Guided 3D Radiance Field Diffusion ( http://arxiv.org/abs/2212.01206v1 )

ライセンス: Link先を確認
Norman M\"uller, Yawar Siddiqui, Lorenzo Porzi, Samuel Rota Bul\`o, Peter Kontschieder, Matthias Nie{\ss}ner(参考訳) 本稿では,拡散確率モデルに基づく3次元放射場合成の新しい手法であるDiffRFを紹介する。 既存の拡散法は画像,潜伏符号,あるいは点クラウドデータに対して動作するが,我々は初めて体積放射場を直接生成する。 この目的のために,明示的なボクセルグリッド表現を直接操作する3次元分数モデルを提案する。 しかし、ポーズされた画像の集合から生成される放射光場は曖昧であり、アーティファクトを含んでいるため、基底真理放射光場サンプルを得るのは非自明である。 この課題に対処するために,デノイジングの定式化とレンダリングロスを組み合わせることで,フローティングアーティファクトのようなエラーを再現しようとするのではなく,優れた画質を優先したデノイジンの事前学習を可能にします。 2d-diffusionモデルとは対照的に,多視点整合前処理を学習し,自由視点合成と正確な形状生成を可能にする。 3D GANと比較して、拡散に基づくアプローチは自然に、仮面完成や単視点3D合成のような条件付き生成を可能にする。

We introduce DiffRF, a novel approach for 3D radiance field synthesis based on denoising diffusion probabilistic models. While existing diffusion-based methods operate on images, latent codes, or point cloud data, we are the first to directly generate volumetric radiance fields. To this end, we propose a 3D denoising model which directly operates on an explicit voxel grid representation. However, as radiance fields generated from a set of posed images can be ambiguous and contain artifacts, obtaining ground truth radiance field samples is non-trivial. We address this challenge by pairing the denoising formulation with a rendering loss, enabling our model to learn a deviated prior that favours good image quality instead of trying to replicate fitting errors like floating artifacts. In contrast to 2D-diffusion models, our model learns multi-view consistent priors, enabling free-view synthesis and accurate shape generation. Compared to 3D GANs, our diffusion-based approach naturally enables conditional generation such as masked completion or single-view 3D synthesis at inference time.
翻訳日:2022-12-05 16:58:03 公開日:2022-12-02
# 参照基準と非参照基準を用いた画像分類タスクにおけるFEMとMLFEMAI記述器の評価

Evaluation of FEM and MLFEM AI-explainers in Image Classification tasks with reference-based and no-reference metrics ( http://arxiv.org/abs/2212.01222v1 )

ライセンス: Link先を確認
A. Zhukov, J. Benois-Pineau, R. Giot(参考訳) AIの最も一般的な方法とアルゴリズムは、ほとんどの場合、ブラックボックスである。 ブラックボックスは(衝撃の程度という意味で)重要でない問題に対する許容できる解決策であるが、他の問題には致命的な欠陥がある。 そのため、その説明ツールが急速に開発されている。 彼らの品質評価は、まだオープンな研究課題である。 本稿では,画像と映像の分類タスクにおけるCNNの説明を目的とした,ポストホックな説明器FEMとMLFEMを提案する。 また、参照ベースおよび参照なしメトリクスによる評価も提案する。 基準に基づく指標はピアソン相関係数(Pearson correlation coefficient)であり、説明地図と地上の真実の間で計算される類似性は、精神視覚実験により得られた迷路固定密度マップによって表される。 非参照計量として、Alvarez-Melis と Jaakkola によって提案された「安定」計量を用いる。 我々は,その動作,参照ベースメトリクスとのコンセンサスについて検討し,入力画像にいくつかの劣化がある場合,基準ベースメトリクスと一致していることを示す。 そのため、真理が得られていない場合、説明者の質を評価するために使用できる。

The most popular methods and algorithms for AI are, for the vast majority, black boxes. Black boxes can be an acceptable solution to unimportant problems (in the sense of the degree of impact) but have a fatal flaw for the rest. Therefore the explanation tools for them have been quickly developed. The evaluation of their quality remains an open research question. In this technical report, we remind recently proposed post-hoc explainers FEM and MLFEM which have been designed for explanations of CNNs in image and video classification tasks. We also propose their evaluation with reference-based and no-reference metrics. The reference-based metrics are Pearson Correlation coefficient and Similarity computed between the explanation maps and the ground truth, which is represented by Gaze Fixation Density Maps obtained due to a psycho-visual experiment. As a no-reference metric we use "stability" metric, proposed by Alvarez-Melis and Jaakkola. We study its behaviour, consensus with reference-based metrics and show that in case of several kind of degradations on input images, this metric is in agreement with reference-based ones. Therefore it can be used for evaluation of the quality of explainers when the ground truth is not available.
翻訳日:2022-12-05 16:57:45 公開日:2022-12-02
# BEV-SAN:スライス注意ネットワークによる正確なBEV 3Dオブジェクト検出

BEV-SAN: Accurate BEV 3D Object Detection via Slice Attention Networks ( http://arxiv.org/abs/2212.01231v1 )

ライセンス: Link先を確認
Xiaowei Chi, Jiaming Liu, Ming Lu, Rongyu Zhang, Zhaoqing Wang, Yandong Guo, and Shanghang Zhang(参考訳) Bird's-Eye-View (BEV) 3D Object Detectionは自律運転システムにとって重要なマルチビュー技術である。 近年,カメラ機能抽出,BEV機能構築,タスクヘッドという3つの重要な要素からなる類似のパラダイムに従って,多くの作業が提案されている。 3つのコンポーネントのうち、BEVの機能構成は2Dタスクと比較してBEV固有のものである。 既存の方法は、BEV機能を構築するために、マルチビューカメラ機能をフラット化されたグリッドに集約する。 しかし、bev空間を高さ次元に沿って平坦化することは、異なる高さの情報的特徴を強調しない。 例えば、障壁は高い高さにあり、トラックは高い高さにある。 本稿では,BEVスライス注意ネットワーク (BEV-SAN) という新しい手法を提案する。 bev空間を平坦化する代わりに、まず高さ次元に沿ってサンプルを採取し、グローバルおよびローカルなbevスライスを構築する。 そして、カメラ特徴からBEVスライスの特徴を集約し、アテンション機構によりマージする。 最後に、ローカルおよびグローバルなBEV機能を変換器で融合し、タスクヘッドの最終的な特徴マップを生成する。 ローカルなBEVスライスの目的は、情報的高さを強調することである。 そこで本研究では,LiDARの統計的分布を利用して局所スライスの高さを推定する,LiDAR誘導サンプリング手法を提案する。 均一サンプリングと比較して、LiDAR誘導サンプリングはより情報的な高さを決定することができる。 BEV-SANの有効性を示すための詳細な実験を行った。 コードはリリースされる。

Bird's-Eye-View (BEV) 3D Object Detection is a crucial multi-view technique for autonomous driving systems. Recently, plenty of works are proposed, following a similar paradigm consisting of three essential components, i.e., camera feature extraction, BEV feature construction, and task heads. Among the three components, BEV feature construction is BEV-specific compared with 2D tasks. Existing methods aggregate the multi-view camera features to the flattened grid in order to construct the BEV feature. However, flattening the BEV space along the height dimension fails to emphasize the informative features of different heights. For example, the barrier is located at a low height while the truck is located at a high height. In this paper, we propose a novel method named BEV Slice Attention Network (BEV-SAN) for exploiting the intrinsic characteristics of different heights. Instead of flattening the BEV space, we first sample along the height dimension to build the global and local BEV slices. Then, the features of BEV slices are aggregated from the camera features and merged by the attention mechanism. Finally, we fuse the merged local and global BEV features by a transformer to generate the final feature map for task heads. The purpose of local BEV slices is to emphasize informative heights. In order to find them, we further propose a LiDAR-guided sampling strategy to leverage the statistical distribution of LiDAR to determine the heights of local slices. Compared with uniform sampling, LiDAR-guided sampling can determine more informative heights. We conduct detailed experiments to demonstrate the effectiveness of BEV-SAN. Code will be released.
翻訳日:2022-12-05 16:57:26 公開日:2022-12-02
# CC-3DT:クロスカメラフュージョンによるパノラマ3次元物体追跡

CC-3DT: Panoramic 3D Object Tracking via Cross-Camera Fusion ( http://arxiv.org/abs/2212.01247v1 )

ライセンス: Link先を確認
Tobias Fischer, Yung-Hsu Yang, Suryansh Kumar, Min Sun, Fisher Yu(参考訳) あらゆる時間に他の交通参加者の3D位置と軌跡を追跡するために、現代の自動運転車は車両の全周囲をカバーする複数のカメラを備えている。 しかし、カメラベースの3Dオブジェクト追跡手法では、単一カメラの設定を最適化し、マルチカメラ設定でのポストホック融合を優先する。 本論文では,パノラマ的3次元物体追跡のための手法であるcc-3dtを提案する。 特に,複数のカメラからの3d検出を結合前に融合させ,アイデンティティスイッチを大幅に削減し,動作モデリングを改善した。 大規模運転データセットを用いた実験により,結合前の融合はポストホック融合よりも大きな改善率をもたらすことが示された。 我々は,競合するNuScenes 3Dトラッキングベンチマークにおいて,AMOTAにおける平均多対象追跡精度(AMOTA)が12.6%向上した新たな最先端技術を設定した。

To track the 3D locations and trajectories of the other traffic participants at any given time, modern autonomous vehicles are equipped with multiple cameras that cover the vehicle's full surroundings. Yet, camera-based 3D object tracking methods prioritize optimizing the single-camera setup and resort to post-hoc fusion in a multi-camera setup. In this paper, we propose a method for panoramic 3D object tracking, called CC-3DT, that associates and models object trajectories both temporally and across views, and improves the overall tracking consistency. In particular, our method fuses 3D detections from multiple cameras before association, reducing identity switches significantly and improving motion modeling. Our experiments on large-scale driving datasets show that fusion before association leads to a large margin of improvement over post-hoc fusion. We set a new state-of-the-art with 12.6% improvement in average multi-object tracking accuracy (AMOTA) among all camera-based methods on the competitive NuScenes 3D tracking benchmark, outperforming previously published methods by 6.5% in AMOTA with the same 3D detector.
翻訳日:2022-12-05 16:57:04 公開日:2022-12-02
# 従来のcmosセンサを用いたサブmm精度単発tofセンシング

Single-shot ToF sensing with sub-mm precision using conventional CMOS sensors ( http://arxiv.org/abs/2212.00928v1 )

ライセンス: Link先を確認
Manuel Ballester, Heming Wang, Jiren Li, Oliver Cossairt, Florian Willomitzer(参考訳) 動的物体の高精度な3次元計測を目的とした,新しい単発干渉計ToFカメラを提案する。 カメラの概念は、サブミリメートルの深さ精度で光学的に粗い表面を持つ物体の深度マップを検索する技術であるSynthetic Wavelength Interferometryに基づいている。 従来のToFカメラとは対照的に、当社のデバイスは市販のCCD/CMOS検出器のみを使用し、そのネイティブチップ解像度(理論上は20Mp以上)で動作する。 さらに,被写体のフル3次元モデルを得ることができ,被写体の動きに対してカメラが頑丈になるため,被写体の露出の時間的シーケンスや時間的照度変調(振幅や周波数変調など)は不要である。 本稿では,新しいカメラの概念を紹介し,システムの性能を示す最初の測定結果を示す。 2mp以上の雲の解像度(使用済み検出器の解像度)と最大サブミリの深さの精度を持つ小型(cmサイズ)物体の3次元計測を行った。 また、「単発3Dビデオ」の買収や、最初のシングルショット「Non-Line-of-Sight」測定も報告した。 この技術は,ar/vr,産業検査,医用画像,および霧や人間の組織などの散乱媒体によるイメージングなど,ダイナミックな物体移動を伴う高精度な応用に非常に有益である。

We present a novel single-shot interferometric ToF camera targeted for precise 3D measurements of dynamic objects. The camera concept is based on Synthetic Wavelength Interferometry, a technique that allows retrieval of depth maps of objects with optically rough surfaces at submillimeter depth precision. In contrast to conventional ToF cameras, our device uses only off-the-shelf CCD/CMOS detectors and works at their native chip resolution (as of today, theoretically up to 20 Mp and beyond). Moreover, we can obtain a full 3D model of the object in single-shot, meaning that no temporal sequence of exposures or temporal illumination modulation (such as amplitude or frequency modulation) is necessary, which makes our camera robust against object motion. In this paper, we introduce the novel camera concept and show first measurements that demonstrate the capabilities of our system. We present 3D measurements of small (cm-sized) objects with > 2 Mp point cloud resolution (the resolution of our used detector) and up to sub-mm depth precision. We also report a "single-shot 3D video" acquisition and a first single-shot "Non-Line-of-Sight" measurement. Our technique has great potential for high-precision applications with dynamic object movement, e.g., in AR/VR, industrial inspection, medical imaging, and imaging through scattering media like fog or human tissue.
翻訳日:2022-12-05 16:51:28 公開日:2022-12-02
# ObjectStitch: ジェネレーティブなオブジェクトコンポジション

ObjectStitch: Generative Object Compositing ( http://arxiv.org/abs/2212.00932v1 )

ライセンス: Link先を確認
Yizhi Song, Zhifei Zhang, Zhe Lin, Scott Cohen, Brian Price, Jianming Zhang, Soo Ye Kim, Daniel Aliaga(参考訳) 2次元画像に基づくオブジェクト合成は、一般的に色調和、幾何補正、影生成などの複数の処理段階を伴って現実的な結果を生成するため、難しい問題である。 さらに、構成のためのトレーニングデータペアの注釈付けには、専門家によるかなりの手作業が必要で、スケーラビリティはほとんどありません。 そこで本研究では,近年の生成モデルの発展に伴い,条件拡散モデルのパワーを生かして,オブジェクト合成のための自己教師付きフレームワークを提案する。 私たちのフレームワークは、オブジェクト合成タスクを統一モデルで包括的に扱うことができ、生成したオブジェクトのビュー、幾何、色、シャドーを、手動のラベリングを必要とせずに変換できます。 入力対象の特徴を保存するために,分類的意味論とオブジェクトの外観の維持を支援するコンテンツ適応器を導入する。 ジェネレータの忠実性を改善するために、データ拡張法がさらに採用される。 本手法は,様々な実世界画像に対するユーザスタディにおいて,合成結果画像のリアリズムと忠実性の両方において,関連するベースラインを上回っている。

Object compositing based on 2D images is a challenging problem since it typically involves multiple processing stages such as color harmonization, geometry correction and shadow generation to generate realistic results. Furthermore, annotating training data pairs for compositing requires substantial manual effort from professionals, and is hardly scalable. Thus, with the recent advances in generative models, in this work, we propose a self-supervised framework for object compositing by leveraging the power of conditional diffusion models. Our framework can hollistically address the object compositing task in a unified model, transforming the viewpoint, geometry, color and shadow of the generated object while requiring no manual labeling. To preserve the input object's characteristics, we introduce a content adaptor that helps to maintain categorical semantics and object appearance. A data augmentation method is further adopted to improve the fidelity of the generator. Our method outperforms relevant baselines in both realism and faithfulness of the synthesized result images in a user study on various real-world images.
翻訳日:2022-12-05 16:51:05 公開日:2022-12-02
# StructVPR:視覚的位置認識のための重み付きサンプルを用いた構造知識

StructVPR: Distill Structural Knowledge with Weighting Samples for Visual Place Recognition ( http://arxiv.org/abs/2212.00937v1 )

ライセンス: Link先を確認
Yanqing Shen, Sanping Zhopu, Jingwen Fu, Ruotong Wang, Shitao Chen and Nanning Zheng(参考訳) 視覚的位置認識(VPR)は通常、特定の画像検索問題と見なされる。 既存のトレーニングフレームワークによって制限された多くのディープラーニングベースの研究は、RGBイメージから十分に安定したグローバルな特徴を抽出することができず、パフォーマンス向上のために空間構造情報を活用するために時間を要する再分類ステップに依存している。 本稿では,VPRのための新しいトレーニングアーキテクチャであるStructVPRを提案し,RGBグローバル機能における構造的知識を高め,常に変化する環境における特徴安定性を向上させる。 具体的には、StructVPRは、CNNネットワークに入力される構造的知識のより決定的な源としてセグメンテーション画像を使用し、オンラインセグメンテーションやセグブランチの推論を避けるために知識蒸留を適用している。 全ての試料が高品質で有用な知識を含んでいるわけではなく、蒸留の性能を損なうものもあれば、試料を分割し、各試料の蒸留損失を測り、予想される知識を正確に増強する。 最後に、StructVPRは、グローバル検索のみを使用して、いくつかのベンチマークで印象的なパフォーマンスを実現し、さらに大きなマージンで多くの2段階アプローチを上回ります。 さらに,計算コストを低く抑えつつ,最先端の性能を実現する。

Visual place recognition (VPR) is usually considered as a specific image retrieval problem. Limited by existing training frameworks, most deep learning-based works cannot extract sufficiently stable global features from RGB images and rely on a time-consuming re-ranking step to exploit spatial structural information for better performance. In this paper, we propose StructVPR, a novel training architecture for VPR, to enhance structural knowledge in RGB global features and thus improve feature stability in a constantly changing environment. Specifically, StructVPR uses segmentation images as a more definitive source of structural knowledge input into a CNN network and applies knowledge distillation to avoid online segmentation and inference of seg-branch in testing. Considering that not all samples contain high-quality and helpful knowledge, and some even hurt the performance of distillation, we partition samples and weigh each sample's distillation loss to enhance the expected knowledge precisely. Finally, StructVPR achieves impressive performance on several benchmarks using only global retrieval and even outperforms many two-stage approaches by a large margin. After adding additional re-ranking, ours achieves state-of-the-art performance while maintaining a low computational cost.
翻訳日:2022-12-05 16:50:47 公開日:2022-12-02
# bimオブジェクト分類のための幾何関係深層学習フレームワーク

A Geometric-Relational Deep Learning Framework for BIM Object Classification ( http://arxiv.org/abs/2212.00942v1 )

ライセンス: Link先を確認
Hairong Luo, Ge Gao, Han Huang, Ziyi Ke, Cheng Peng, Ming Gu(参考訳) 相互運用性問題はビルディング情報モデリング(BIM)において重要な問題である。 オブジェクトタイプは、スキャン・トゥ・BIMやコードコンプライアンス・チェックのような複数のBIMアプリケーションで必要とされる重要な意味情報の一種であり、BIMデータを交換したり、他のドメインのソフトウェアを使ってモデルを作成する際にも悩まされます。 深層学習で補うことができる。 現在の深層学習法は主に分類のためのBIMオブジェクトの形状情報から学習し、BIMコンテキストに固有の関係情報を未使用のまま残している。 この問題に対処するために,二分岐幾何関係深層学習フレームワークを提案する。 従来の幾何学的分類法を関係情報で強化する。 また,オブジェクトに関する幾何学的情報と関係情報の両方を含むbimオブジェクトデータセットifcnet++を提案する。 実験により, 異なる幾何学的手法に柔軟に適用できることを示した。 リレーショナル機能は一般的な幾何学的学習手法のボーナスとして機能し、その分類性能が明らかに向上し、チェックモデルのマニュアル作業が軽減され、リッチなBIMモデルの実用的価値が向上する。

Interoperability issue is a significant problem in Building Information Modeling (BIM). Object type, as a kind of critical semantic information needed in multiple BIM applications like scan-to-BIM and code compliance checking, also suffers when exchanging BIM data or creating models using software of other domains. It can be supplemented using deep learning. Current deep learning methods mainly learn from the shape information of BIM objects for classification, leaving relational information inherent in the BIM context unused. To address this issue, we introduce a two-branch geometric-relational deep learning framework. It boosts previous geometric classification methods with relational information. We also present a BIM object dataset IFCNet++, which contains both geometric and relational information about the objects. Experiments show that our framework can be flexibly adapted to different geometric methods. And relational features do act as a bonus to general geometric learning methods, obviously improving their classification performance, thus reducing the manual labor of checking models and improving the practical value of enriched BIM models.
翻訳日:2022-12-05 16:50:25 公開日:2022-12-02
# UIU-Net:赤外線小物体検出のためのU-NetのU-Net

UIU-Net: U-Net in U-Net for Infrared Small Object Detection ( http://arxiv.org/abs/2212.00968v1 )

ライセンス: Link先を確認
Xin Wu and Danfeng Hong and Jocelyn Chanussot(参考訳) 学習に基づく赤外小物体検出手法は現在、分類バックボーンネットワークに大きく依存している。 これは、ネットワークの深さが増加するにつれて、小さなオブジェクトの損失と特徴の区別可能性の制限をもたらす傾向がある。 さらに、赤外線画像中の小さな物体は、しばしば明るく暗く現われ、正確な物体コントラスト情報を得るために厳しい要求を受ける。 そこで本稿では,UIU-Netの簡易かつ効果的なフレームワークであるUIU-Netを提案する。 名前が示すように、UIU-Netは小さなU-Netを大きなU-Netバックボーンに組み込み、オブジェクトのマルチレベルおよびマルチスケールの表現学習を可能にする。 さらに、UIU-Netはゼロからトレーニングすることができ、学習した機能はグローバルとローカルのコントラスト情報を効果的に強化することができる。 より具体的には、UIU-Netモデルは、分解能維持深度監視(RM-DS)モジュールとインタラクティブクロスアテンション(IC-A)モジュールの2つのモジュールに分けられる。 RM-DSは、Residual Uブロックを深い監視ネットワークに統合し、グローバルコンテキスト情報を学習しながら、深いマルチスケールの解像度維持機能を生成する。 さらに、IC-Aは、低レベルの詳細と高レベルの意味的特徴の間のローカルコンテキスト情報を符号化する。 SIRSTとSyntheticの2つの赤外線単一フレーム画像データセットに対して行われた大規模な実験は、提案したUIU-Netの有効性と優位性を示している。 提案したUIU-Netは、ATR地上/空中ビデオシーケンスデータセットなど、ビデオシーケンス赤外線小オブジェクトデータセットの強力な一般化性能も提供する。 この作業のコードは、 \url{https://github.com/danfenghong/IEEE_TIP_UIU-Net} で公開されている。

Learning-based infrared small object detection methods currently rely heavily on the classification backbone network. This tends to result in tiny object loss and feature distinguishability limitations as the network depth increases. Furthermore, small objects in infrared images are frequently emerged bright and dark, posing severe demands for obtaining precise object contrast information. For this reason, we in this paper propose a simple and effective ``U-Net in U-Net'' framework, UIU-Net for short, and detect small objects in infrared images. As the name suggests, UIU-Net embeds a tiny U-Net into a larger U-Net backbone, enabling the multi-level and multi-scale representation learning of objects. Moreover, UIU-Net can be trained from scratch, and the learned features can enhance global and local contrast information effectively. More specifically, the UIU-Net model is divided into two modules: the resolution-maintenance deep supervision (RM-DS) module and the interactive-cross attention (IC-A) module. RM-DS integrates Residual U-blocks into a deep supervision network to generate deep multi-scale resolution-maintenance features while learning global context information. Further, IC-A encodes the local context information between the low-level details and high-level semantic features. Extensive experiments conducted on two infrared single-frame image datasets, i.e., SIRST and Synthetic datasets, show the effectiveness and superiority of the proposed UIU-Net in comparison with several state-of-the-art infrared small object detection methods. The proposed UIU-Net also produces powerful generalization performance for video sequence infrared small object datasets, e.g., ATR ground/air video sequence dataset. The codes of this work are available openly at \url{https://github.com/danfenghong/IEEE_TIP_UIU-Net}.
翻訳日:2022-12-05 16:50:07 公開日:2022-12-02
# 実世界の継続的な環境変化に対するクラウド・デバイス協調型適応

Cloud-Device Collaborative Adaptation to Continual Changing Environments in the Real-world ( http://arxiv.org/abs/2212.00972v1 )

ライセンス: Link先を確認
Yulu Gan, Mingjie Pan, Rongyu Zhang, Zijian Ling, Lingran Zhao, Jiaming Liu, Shanghang Zhang(参考訳) 実世界の環境の変化に直面すると、クライアントデバイス上の軽量モデルは、分散シフト下での深刻なパフォーマンス低下に苦しむ。 既存のデバイスモデルの主な制限は、(1)デバイスの計算限界によって更新できないこと、(2)軽量モデルの限定的な一般化能力である。 一方、最近の大規模モデルでは、計算の制約が低かったためクライアントデバイスにデプロイできないが、クラウド上で強力な一般化能力を示している。 デバイスモデルが環境の変化に対応するために,クラウドとデバイス間の協調を奨励し,デバイスモデルの一般化を改善する,クラウドデバイス協調型継続的適応の新しい学習パラダイムを提案する。 このパラダイムに基づいて、クラウド上の大規模モデルの一般化能力をデバイスモデルに転送する、不確実性に基づく教師学生モデル(U-VPA)を提案する。 具体的には、まず不確実性誘導サンプリング(ugs)を設計して、挑戦的なデータを連続的に表示し、最も分散的なサンプルをデバイスからクラウドに送信する。 そこで本研究では,選択したサンプルをより分散シフトで処理するために,不確実性誘導更新(vplu)を用いた視覚的プロンプト学習戦略を提案する。 我々は、デバイスに視覚的プロンプトを送信し、それらを入力データと結合させ、デバイステスト分布をクラウドトレーニング分布に近づける。 連続的な環境変化を伴う2つのオブジェクト検出データセットについて広範な実験を行う。 提案するU-VPA教師学生フレームワークは,従来の最先端テスト時間適応とデバイスクラウド協調手法より優れていた。 コードとデータセットがリリースされる。

When facing changing environments in the real world, the lightweight model on client devices suffers from severe performance drops under distribution shifts. The main limitations of the existing device model lie in (1) unable to update due to the computation limit of the device, (2) the limited generalization ability of the lightweight model. Meanwhile, recent large models have shown strong generalization capability on the cloud while they can not be deployed on client devices due to poor computation constraints. To enable the device model to deal with changing environments, we propose a new learning paradigm of Cloud-Device Collaborative Continual Adaptation, which encourages collaboration between cloud and device and improves the generalization of the device model. Based on this paradigm, we further propose an Uncertainty-based Visual Prompt Adapted (U-VPA) teacher-student model to transfer the generalization capability of the large model on the cloud to the device model. Specifically, we first design the Uncertainty Guided Sampling (UGS) to screen out challenging data continuously and transmit the most out-of-distribution samples from the device to the cloud. Then we propose a Visual Prompt Learning Strategy with Uncertainty guided updating (VPLU) to specifically deal with the selected samples with more distribution shifts. We transmit the visual prompts to the device and concatenate them with the incoming data to pull the device testing distribution closer to the cloud training distribution. We conduct extensive experiments on two object detection datasets with continually changing environments. Our proposed U-VPA teacher-student framework outperforms previous state-of-the-art test time adaptation and device-cloud collaboration methods. The code and datasets will be released.
翻訳日:2022-12-05 16:49:37 公開日:2022-12-02
# スパースSPN:スパースキーポイントからの深さ補完

Sparse SPN: Depth Completion from Sparse Keypoints ( http://arxiv.org/abs/2212.00987v1 )

ライセンス: Link先を確認
Yuqun Wu, Jae Yong Lee, Derek Hoiem(参考訳) 私たちの長期的な目標は、画像ベースの深度補完を使用して、SfMやSLAMなど、スパーポイントクラウドから3Dモデルを簡単に作成することです。 奥行きの完成には多くの進歩があった。 しかし、現在のほとんどの研究は、Lidarやランダムな均一サンプリングのような既知の深さの十分に分散したサンプルを仮定し、キーポイントのような不均一なサンプルでは、大きなアンサンプされた領域のためにうまく動作しない。 この問題に対処するため、CSPNをマルチスケールの予測と拡張カーネルで拡張し、キーポイントサンプリング深度をはるかに改善する。 また、NYUv2でトレーニングされたモデルが、スパースSfM点を完結させることで、驚くほど良い点雲をETH3D上で生成することを示した。

Our long term goal is to use image-based depth completion to quickly create 3D models from sparse point clouds, e.g. from SfM or SLAM. Much progress has been made in depth completion. However, most current works assume well distributed samples of known depth, e.g. Lidar or random uniform sampling, and perform poorly on uneven samples, such as from keypoints, due to the large unsampled regions. To address this problem, we extend CSPN with multiscale prediction and a dilated kernel, leading to much better completion of keypoint-sampled depth. We also show that a model trained on NYUv2 creates surprisingly good point clouds on ETH3D by completing sparse SfM points.
翻訳日:2022-12-05 16:49:10 公開日:2022-12-02
# カモフラージュ物体検出のための特徴集約と伝播ネットワーク

Feature Aggregation and Propagation Network for Camouflaged Object Detection ( http://arxiv.org/abs/2212.00990v1 )

ライセンス: Link先を確認
Tao Zhou, Yi Zhou, Chen Gong, Jian Yang, Yu Zhang(参考訳) camouflaged object detection (cod) は環境に埋め込まれたcamouflaged objectsの検出/配信を目的としている。 いくつかのcod手法が開発されているが、フォアグラウンドオブジェクトと背景の類似性のため、まだ不十分な性能に苦しめられている。 本稿では,カモフラージュ物体検出のためのFAP-Net(Feature Aggregation and Propagation Network)を提案する。 具体的には,境界特性を明示的にモデル化する境界誘導モジュール (BGM) を提案する。 カモフラージュされたオブジェクトのスケール変動を捉えるために,各レイヤからのマルチスケール情報を特徴付けるマルチスケール特徴集合モジュール (MFAM) を提案し,集約された特徴表現を得る。 さらに,クロスレベル核融合・伝播モジュール (CFPM) を提案する。 CFPMにおいて、特徴融合部は、隣接する層からの特徴を効果的に統合してクロスレベル相関を利用することができ、特徴伝搬部は、エンコーダからゲートユニットを介してデコーダネットワークに貴重なコンテキスト情報を送信することができる。 最後に、リッチなコンテキスト情報をキャプチャするために、クロスレベル機能を効果的に融合し、伝播できる統一的でエンドツーエンドのトレーニング可能なフレームワークを定式化します。 3つのベンチマークカモフラージュデータセットに関する広範な実験は、fap-netが他の最先端codモデルよりも優れていることを示している。 さらに,本モデルは,ポリプ分割タスクに拡張可能であり,比較結果は,セグメント分割におけるモデルの有効性をさらに検証する。 ソースコードと結果はhttps://github.com/taozh2017/fapnetで公開される。

Camouflaged object detection (COD) aims to detect/segment camouflaged objects embedded in the environment, which has attracted increasing attention over the past decades. Although several COD methods have been developed, they still suffer from unsatisfactory performance due to the intrinsic similarities between the foreground objects and background surroundings. In this paper, we propose a novel Feature Aggregation and Propagation Network (FAP-Net) for camouflaged object detection. Specifically, we propose a Boundary Guidance Module (BGM) to explicitly model the boundary characteristic, which can provide boundary-enhanced features to boost the COD performance. To capture the scale variations of the camouflaged objects, we propose a Multi-scale Feature Aggregation Module (MFAM) to characterize the multi-scale information from each layer and obtain the aggregated feature representations. Furthermore, we propose a Cross-level Fusion and Propagation Module (CFPM). In the CFPM, the feature fusion part can effectively integrate the features from adjacent layers to exploit the cross-level correlations, and the feature propagation part can transmit valuable context information from the encoder to the decoder network via a gate unit. Finally, we formulate a unified and end-to-end trainable framework where cross-level features can be effectively fused and propagated for capturing rich context information. Extensive experiments on three benchmark camouflaged datasets demonstrate that our FAP-Net outperforms other state-of-the-art COD models. Moreover, our model can be extended to the polyp segmentation task, and the comparison results further validate the effectiveness of the proposed model in segmenting polyps. The source code and results will be released at https://github.com/taozh2017/FAPNet.
翻訳日:2022-12-05 16:48:54 公開日:2022-12-02
# オブジェクト検出、シーケンスアライメント、フォーカスされた反復探索による平面コンプライアンス制御

Planogram Compliance Control via Object Detection, Sequence Alignment, and Focused Iterative Search ( http://arxiv.org/abs/2212.01004v1 )

ライセンス: Link先を確認
M. Erkin Y\"ucel and Cem \"Unsalan(参考訳) スマート小売店舗は私たちの生活の現実になりつつある。 いくつかのコンピュータビジョンとセンサーベースのシステムは、そのような複雑で自動化された操作を実現するために協力している。 さらに、小売業界には、パターン認識とコンピュータビジョン手法の助けを借りて解決できる、オープンで困難な問題がいくつかある。 対処すべき重要な問題は、計画図コンプライアンス制御である。 本研究では,新しい解法を提案する。 提案手法は,オブジェクト検出,計画図コンプライアンス制御,集中的かつ反復的な探索手順に基づく。 物体検出ステップは、局所特徴抽出および暗黙の形状モデル形成により形成される。 計画図コンプライアンス制御ステップは、修正されたニードルマン・ウォンシュアルゴリズムを介してシーケンスアライメントによって形成される。 集中的で反復的な検索ステップは、オブジェクト検出とプラングラムコンプライアンス制御ステップのパフォーマンスを改善することを目的としている。 2つの異なるデータセットで3つのステップをすべてテストしました。 これらの結果をもとに,提案手法の長所と短所を要約した。

Smart retail stores are becoming the fact of our lives. Several computer vision and sensor based systems are working together to achieve such a complex and automated operation. Besides, the retail sector already has several open and challenging problems which can be solved with the help of pattern recognition and computer vision methods. One important problem to be tackled is the planogram compliance control. In this study, we propose a novel method to solve it. The proposed method is based on object detection, planogram compliance control, and focused and iterative search steps. The object detection step is formed by local feature extraction and implicit shape model formation. The planogram compliance control step is formed by sequence alignment via the modified Needleman-Wunsch algorithm. The focused and iterative search step aims to improve the performance of the object detection and planogram compliance control steps. We tested all three steps on two different datasets. Based on these tests, we summarize the key findings as well as strengths and weaknesses of the proposed method.
翻訳日:2022-12-05 16:48:26 公開日:2022-12-02
# FedCoCo: デバイス上でのビジュアル表現学習のためのメモリ効率の良いフェデレーション自己管理フレームワーク

FedCoCo: A Memory Efficient Federated Self-supervised Framework for On-Device Visual Representation Learning ( http://arxiv.org/abs/2212.01006v1 )

ライセンス: Link先を確認
Jiahe Shi, Yawen Wu, Dewen Zeng, Jingtong Hu, Yiyu Shi(参考訳) エッジデバイスの普及により、エッジで生成されるラベルなしデータの量が増加している。 エッジデバイスにデプロイされるディープラーニングモデルは、これらのラベルのないデータから学び、精度を継続的に改善する必要がある。 自己教師付き表現学習は、集中型ラベルなしデータを用いて有望なパフォーマンスを達成した。 しかし、プライバシー保護に対する意識の高まりにより、エッジデバイス上の分散ラベルなしイメージデータの集中化が制限される。 プライバシ保護による分散機械学習を可能にするために、フェデレーション学習が広く採用されているが、ストリーミングデータを効率的に選択するためのデータ選択方法がないため、従来のフェデレーション学習フレームワークでは、エッジ上の限られたストレージリソースを備えた、膨大な量の分散非ラベルデータの処理に失敗している。 これらの課題に対処するため、FedCoCoと呼ばれるCoreset選択を備えたFederated On-Device Contrastive Learningフレームワークを提案し、各デバイス上のリプレイバッファに最も代表的なサンプルで構成されるコアセットを自動的に選択する。 各クライアントは生データを共有せず、優れた視覚的表現を学習しているため、データのプライバシは保持される。 視覚表現学習における提案手法の有効性と意義を実証する実験を行った。

The ubiquity of edge devices has led to a growing amount of unlabeled data produced at the edge. Deep learning models deployed on edge devices are required to learn from these unlabeled data to continuously improve accuracy. Self-supervised representation learning has achieved promising performances using centralized unlabeled data. However, the increasing awareness of privacy protection limits centralizing the distributed unlabeled image data on edge devices. While federated learning has been widely adopted to enable distributed machine learning with privacy preservation, without a data selection method to efficiently select streaming data, the traditional federated learning framework fails to handle these huge amounts of decentralized unlabeled data with limited storage resources on edge. To address these challenges, we propose a Federated on-device Contrastive learning framework with Coreset selection, which we call FedCoCo, to automatically select a coreset that consists of the most representative samples into the replay buffer on each device. It preserves data privacy as each client does not share raw data while learning good visual representations. Experiments demonstrate the effectiveness and significance of the proposed method in visual representation learning.
翻訳日:2022-12-05 16:48:12 公開日:2022-12-02
# 単言語データによる同時機械翻訳の改善

Improving Simultaneous Machine Translation with Monolingual Data ( http://arxiv.org/abs/2212.01188v1 )

ライセンス: Link先を確認
Hexuan Deng, Liang Ding, Xuebo Liu, Meishan Zhang, Dacheng Tao, Min Zhang(参考訳) 同時機械翻訳(SiMT)は通常、全文ニューラルネットワーク翻訳(NMT)モデルからシーケンスレベルの知識蒸留(Seq-KD)によって行われる。 しかし、NMTとSiMTの間には依然として大きなパフォーマンスギャップがある。 本研究では,Sq-KD で蒸留した外部モノリンガルデータとバイリンガルデータを組み合わせて,SiMT の学生を訓練する SiMT の改善のためにモノリンガルデータを活用することを提案する。 En-Zh と En-Ja のニュースドメインコーパスに関する予備実験では、モノリンガルデータが翻訳品質(例えば En-Zh の +3.15 BLEU)を大幅に改善できることを示した。 本稿では,人間の同時通訳者の行動に触発されて,チャンク長と単調性を考慮した新しいsimt単言語サンプリング戦略を提案する。 実験の結果,simt-hallucinationの重要な問題を回避し,ランダムサンプリング戦略(および従来のnmt単言語サンプリング戦略)を一貫して上回っており,スケーラビリティが向上した。 en-zh と en-ja のランダムサンプリングに対する平均で +0.72 bleu 改善を達成している。 データとコードはhttps://github.com/hexuandeng/Mono4SiMTで見ることができる。

Simultaneous machine translation (SiMT) is usually done via sequence-level knowledge distillation (Seq-KD) from a full-sentence neural machine translation (NMT) model. However, there is still a significant performance gap between NMT and SiMT. In this work, we propose to leverage monolingual data to improve SiMT, which trains a SiMT student on the combination of bilingual data and external monolingual data distilled by Seq-KD. Preliminary experiments on En-Zh and En-Ja news domain corpora demonstrate that monolingual data can significantly improve translation quality (e.g., +3.15 BLEU on En-Zh). Inspired by the behavior of human simultaneous interpreters, we propose a novel monolingual sampling strategy for SiMT, considering both chunk length and monotonicity. Experimental results show that our sampling strategy consistently outperforms the random sampling strategy (and other conventional typical NMT monolingual sampling strategies) by avoiding the key problem of SiMT -- hallucination, and has better scalability. We achieve +0.72 BLEU improvements on average against random sampling on En-Zh and En-Ja. Data and codes can be found at https://github.com/hexuandeng/Mono4SiMT.
翻訳日:2022-12-05 16:41:56 公開日:2022-12-02
# 文字レベル翻訳のためのサブワード限定ダウンサンプリング

Subword-Delimited Downsampling for Better Character-Level Translation ( http://arxiv.org/abs/2212.01304v1 )

ライセンス: Link先を確認
Lukas Edman, Antonio Toral, Gertjan van Noord(参考訳) サブワードレベルのモデルはNLPにおいて支配的なパラダイムとなっている。 しかし、キャラクタレベルモデルは個々のキャラクタを個別に見る利点があり、モデルにより詳細な情報を提供し、最終的により良いモデルにつながる可能性がある。 近年の研究では、文字レベルモデルはサブワードモデルと競合するが、時間と計算の面ではコストがかかることが示されている。 ダウンサンプリングコンポーネントを持つキャラクタレベルのモデルは、これを緩和するが、特に機械翻訳のコストがかかる。 本研究は,従来のダウンサンプリング手法の問題点を分析し,サブワードから情報を得る新しいダウンサンプリング手法を提案する。 この新たなダウンサンプリング手法は、既存のダウンサンプリング手法よりも優れており、ダウンサンプリング文字は品質を犠牲にすることなく実行可能であるだけでなく、翻訳用のサブワードモデルと比較して有望なパフォーマンスをもたらす。

Subword-level models have been the dominant paradigm in NLP. However, character-level models have the benefit of seeing each character individually, providing the model with more detailed information that ultimately could lead to better models. Recent works have shown character-level models to be competitive with subword models, but costly in terms of time and computation. Character-level models with a downsampling component alleviate this, but at the cost of quality, particularly for machine translation. This work analyzes the problems of previous downsampling methods and introduces a novel downsampling method which is informed by subwords. This new downsampling method not only outperforms existing downsampling methods, showing that downsampling characters can be done without sacrificing quality, but also leads to promising performance compared to subword models for translation.
翻訳日:2022-12-05 16:41:36 公開日:2022-12-02
# 他のリビジョンタスクからの編集場所学習による反復的テキストリビジョンの改善

Improving Iterative Text Revision by Learning Where to Edit from Other Revision Tasks ( http://arxiv.org/abs/2212.01350v1 )

ライセンス: Link先を確認
Zae Myung Kim, Wanyu Du, Vipul Raheja, Dhruv Kumar, Dongyeop Kang(参考訳) 反復的テキストリビジョンは文法的誤りの修正、読みやすさの向上や文脈的適切性の向上、文書全体の文構造の再編成によってテキスト品質を改善する。 最近の研究は、反復的テキストリビジョンのための正確で堅牢なシステムを構築するのではなく、人間によるテキストからの反復的リビジョンプロセスにおける様々な種類の編集の理解と分類に重点を置いている。 本研究は,編集対象の編集可能なスパンを明示的に検出し,検出した編集スパンを修正するためのリビジョンモデルを指示することにより,有用な編集を反復的に生成するエンド・ツー・エンドテキストリビジョンシステムの構築を目的とする。 他の関連するテキスト編集NLPタスクからのデータセットの活用と編集可能なスパンの仕様が組み合わさって、経験的結果や人間の評価によって実証されたように、反復的テキスト修正のプロセスをより正確にモデル化する。 本システムは,文法的誤り訂正,テキスト簡易化,文の融合,スタイル転送など,従来のテキスト修正タスクおよびその他の標準テキスト修正タスクのベースラインを大きく上回っている。 広範囲な質的・定量的解析により,編集意図と書字品質,反復的テキスト修正の計算モデルの改善を両立させる。

Iterative text revision improves text quality by fixing grammatical errors, rephrasing for better readability or contextual appropriateness, or reorganizing sentence structures throughout a document. Most recent research has focused on understanding and classifying different types of edits in the iterative revision process from human-written text instead of building accurate and robust systems for iterative text revision. In this work, we aim to build an end-to-end text revision system that can iteratively generate helpful edits by explicitly detecting editable spans (where-to-edit) with their corresponding edit intents and then instructing a revision model to revise the detected edit spans. Leveraging datasets from other related text editing NLP tasks, combined with the specification of editable spans, leads our system to more accurately model the process of iterative text refinement, as evidenced by empirical results and human evaluations. Our system significantly outperforms previous baselines on our text revision tasks and other standard text revision tasks, including grammatical error correction, text simplification, sentence fusion, and style transfer. Through extensive qualitative and quantitative analysis, we make vital connections between edit intentions and writing quality, and better computational modeling of iterative text revisions.
翻訳日:2022-12-05 16:41:22 公開日:2022-12-02
# SimpleMindが深層ニューラルネットワークに思考機能を追加

SimpleMind adds thinking to deep neural networks ( http://arxiv.org/abs/2212.00951v1 )

ライセンス: Link先を確認
Youngwon Choi, M. Wasil Wahi-Anwar, Matthew S. Brown(参考訳) ディープニューラルネットワーク(DNN)はデータのパターンを検出し、多くのコンピュータビジョンアプリケーションで汎用性と強力なパフォーマンスを示している。 しかし、DNNだけでは、単純で常識的な概念に反する明らかな誤りに陥り、明確な知識を使って探索と意思決定を導く能力に制限がある。 全体的なDNNパフォーマンス指標は良いかもしれないが、これらの明らかなエラーは説明可能性の欠如と相まって、医療画像解析などの重要なタスクに広く採用されることを防いでいる。 本稿では,医療画像理解に焦点を当てた認知AIのためのオープンソースソフトウェアフレームワークであるSimpleMindを紹介する。 画像オブジェクト間の期待される特性と関係を直感的な形で記述する知識ベースを作成することができる。 The SimpleMind framework brings thinking to DNNs by: (1) providing methods for reasoning with the knowledge base about image content, such as spatial inferencing and conditional reasoning to check DNN outputs; (2) applying process knowledge, in the form of general-purpose software agents, that are chained together to accomplish image preprocessing, DNN prediction, and result post-processing, and (3) performing automatic co-optimization of all knowledge base parameters to adapt agents to specific problems. SimpleMindは、複数の検出されたオブジェクトを推論して一貫性を確保し、DNN出力間のクロスチェックを提供する。 このマシン推論は、解釈可能なモデルと説明可能な決定を通じて、DNNの信頼性と信頼性を向上させる。 SimpleMindがディープニューラルネットワークをどのようにサポートし、Cognitive AIフレームワークに組み込むかを示すサンプルアプリケーションを提供している。

Deep neural networks (DNNs) detect patterns in data and have shown versatility and strong performance in many computer vision applications. However, DNNs alone are susceptible to obvious mistakes that violate simple, common sense concepts and are limited in their ability to use explicit knowledge to guide their search and decision making. While overall DNN performance metrics may be good, these obvious errors, coupled with a lack of explainability, have prevented widespread adoption for crucial tasks such as medical image analysis. The purpose of this paper is to introduce SimpleMind, an open-source software framework for Cognitive AI focused on medical image understanding. It allows creation of a knowledge base that describes expected characteristics and relationships between image objects in an intuitive human-readable form. The SimpleMind framework brings thinking to DNNs by: (1) providing methods for reasoning with the knowledge base about image content, such as spatial inferencing and conditional reasoning to check DNN outputs; (2) applying process knowledge, in the form of general-purpose software agents, that are chained together to accomplish image preprocessing, DNN prediction, and result post-processing, and (3) performing automatic co-optimization of all knowledge base parameters to adapt agents to specific problems. SimpleMind enables reasoning on multiple detected objects to ensure consistency, providing cross checking between DNN outputs. This machine reasoning improves the reliability and trustworthiness of DNNs through an interpretable model and explainable decisions. Example applications are provided that demonstrate how SimpleMind supports and improves deep neural networks by embedding them within a Cognitive AI framework.
翻訳日:2022-12-05 16:40:58 公開日:2022-12-02
# 不完全情報に基づく知識グラフの品質評価

Knowledge Graph Quality Evaluation under Incomplete Information ( http://arxiv.org/abs/2212.00994v1 )

ライセンス: Link先を確認
Xiaodong Li, Chenxin Zou, Yi Cai, Yuelong Zhu(参考訳) 知識グラフ(KG)の効用はその性質に依存する。 品質の悪いKGは、適用性が少ないだけでなく、予期せぬエラーを引き起こす。 したがって、kgsの品質評価は重要かつ不可欠である。 既存の手法は、多くの品質次元を設計し、評価のためにKGの詳細(生データやグラフ構造)に基づいて対応する次元のメトリクスを計算する。 しかし、2つの大きな問題がある。 一方で、詳細を公開情報として捉え、生のデータとグラフ構造を公開している。 これらの詳細は、商業的プライバシ等を実際に含んでいるため、厳密である。 一方、既存の手法は、KGsの実践性よりもKGsの知識の量に焦点を当てている。 上記の問題に対処するため,不完全情報(QEII)に基づく知識グラフ品質評価フレームワークを提案する。 品質評価問題を敵ゲームに変換し、勝者と敗者に応じて相対的な品質を評価する。 ゲーム参加者はkgであり、敵対的なゲームプレイは質問と回答(q&a)である。 QEIIでは、各KGに対して質問モデルと回答モデルを生成し、訓練する。 kg の質問モデルは、まず、ある数の質問を他の kg に尋ねる。 そして、他のKGの回答モデルによって返される回答を評価し、パーセンテージスコアを出力する。 相対的品質は、知識を適用する能力を測定するスコアによって評価される。 Q&Aメッセージは、生のデータやグラフ構造を公開せずに、KGが交換する唯一の情報である。 2組のKGの実験結果から、QEIIはベースラインと比較して、不完全な情報の下での第三者評価者の観点から合理的な品質評価を実現することを示した。

Utilities of knowledge graphs (KGs) depend on their qualities. A KG that is of poor quality not only has little applicability but also leads to some unexpected errors. Therefore, quality evaluation for KGs is crucial and indispensable. Existing methods design many quality dimensions and calculate metrics in the corresponding dimensions based on details (i.e., raw data and graph structures) of KGs for evaluation. However, there are two major issues. On one hand, they consider the details as public information, which exposes the raw data and graph structures. These details are strictly confidential because they involve commercial privacy or others in practice. On the other hand, the existing methods focus on how much knowledge KGs have rather than KGs' practicability. To address the above problems, we propose a knowledge graph quality evaluation framework under incomplete information (QEII). The quality evaluation problem is transformed into an adversarial game, and the relative quality is evaluated according to the winner and loser. Participants of the game are KGs, and the adversarial gameplay is to question and answer (Q&A). In the QEII, we generate and train a question model and an answer model for each KG. The question model of a KG first asks a certain number of questions to the other KG. Then it evaluates the answers returned by the answer model of the other KG and outputs a percentage score. The relative quality is evaluated by the scores, which measures the ability to apply knowledge. Q&A messages are the only information that KGs exchange, without exposing any raw data and graph structure. Experimental results on two pairs of KGs demonstrate that, comparing with baselines, the QEII realizes a reasonable quality evaluation from the perspective of third-party evaluators under incomplete information.
翻訳日:2022-12-05 16:40:34 公開日:2022-12-02
# 強化学習を用いたSTLに基づくフィードバック制御器の合成

STL-Based Synthesis of Feedback Controllers Using Reinforcement Learning ( http://arxiv.org/abs/2212.01022v1 )

ライセンス: Link先を確認
Nikhil Kumar Singh and Indranil Saha(参考訳) 深層強化学習(drl)は、未知のダイナミクスを持つ複雑なシステムに対するフィードバックコントローラ(agents)の合成に使用される可能性がある。 これらのシステムは多種多様な安全性と生活性を満たすことが期待されている。 RLでは、報酬関数はこれらのエージェントの望ましい振る舞いを特定する上で重要な役割を果たす。 しかし、複雑な時相論理仕様を満たすためにRLエージェントの報酬関数を設計する問題は、文献ではあまり注目されていない。 そこで我々は,サイバー物理システムの振る舞いを特定するために広く利用されている時間論理であるSignal Temporal Logic (STL) の定量的意味を利用して,リアルタイムに報酬を生成する体系的な方法を提案する。 本稿では,いくつかの望ましい特性を有するstlのための新しい量的意味論を提案する。 我々は,stlを用いた強化学習機構をいくつかの複雑な連続制御ベンチマークで評価し,stlのセマンティクスと,制御エージェントの合成における有効性について比較した。 実験結果は,強化学習による複雑な連続力学系に対するフィードバックコントローラの合成に最も適した新しい意味論を確立した。

Deep Reinforcement Learning (DRL) has the potential to be used for synthesizing feedback controllers (agents) for various complex systems with unknown dynamics. These systems are expected to satisfy diverse safety and liveness properties best captured using temporal logic. In RL, the reward function plays a crucial role in specifying the desired behaviour of these agents. However, the problem of designing the reward function for an RL agent to satisfy complex temporal logic specifications has received limited attention in the literature. To address this, we provide a systematic way of generating rewards in real-time by using the quantitative semantics of Signal Temporal Logic (STL), a widely used temporal logic to specify the behaviour of cyber-physical systems. We propose a new quantitative semantics for STL having several desirable properties, making it suitable for reward generation. We evaluate our STL-based reinforcement learning mechanism on several complex continuous control benchmarks and compare our STL semantics with those available in the literature in terms of their efficacy in synthesizing the controller agent. Experimental results establish our new semantics to be the most suitable for synthesizing feedback controllers for complex continuous dynamical systems through reinforcement learning.
翻訳日:2022-12-05 16:40:08 公開日:2022-12-02
# qff: ニューラルフィールド表現のための量子化フーリエ特徴

QFF: Quantized Fourier Features for Neural Field Representations ( http://arxiv.org/abs/2212.00914v1 )

ライセンス: Link先を確認
Jae Yong Lee, Yuqun Wu, Chuhang Zou, Shenlong Wang, Derek Hoiem(参考訳) 多層パーセプトロン(MLP)は高い周波数をゆっくりと学習する。 近年のアプローチでは,空間的ビンの特徴を符号化して学習の速度を向上するが,モデルサイズが大きくなり連続性が失われる。 代わりに、位置符号化によく使用されるフーリエ特徴のビンに特徴をエンコードすることを提案する。 これらを量子フーリエ特徴(Quantized Fourier Features, QFF)と呼ぶ。 自然のマルチレゾリューションと周期表現として、qffを用いた実験では、モデルサイズが小さくなり、トレーニングが速くなり、ニューラルイメージ表現(nir)、ニューラルラジアンスフィールド(nerf)、サイン付き距離関数(sdf)モデリングなど、いくつかのアプリケーションで品質の高いアウトプットが得られることを示した。 QFFは簡単にコーディングでき、高速に計算でき、多くのニューラルネットワーク表現に加えてシンプルなドロップインとして機能する。

Multilayer perceptrons (MLPs) learn high frequencies slowly. Recent approaches encode features in spatial bins to improve speed of learning details, but at the cost of larger model size and loss of continuity. Instead, we propose to encode features in bins of Fourier features that are commonly used for positional encoding. We call these Quantized Fourier Features (QFF). As a naturally multiresolution and periodic representation, our experiments show that using QFF can result in smaller model size, faster training, and better quality outputs for several applications, including Neural Image Representations (NIR), Neural Radiance Field (NeRF) and Signed Distance Function (SDF) modeling. QFF are easy to code, fast to compute, and serve as a simple drop-in addition to many neural field representations.
翻訳日:2022-12-05 16:39:13 公開日:2022-12-02
# ドメイン適応意味セグメンテーションのための幾何認識ネットワーク

Geometry-Aware Network for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2212.00920v1 )

ライセンス: Link先を確認
Yinghong Liao, Wending Zhou, Xu Yan, Shuguang Cui, Yizhou Yu, Zhen Li(参考訳) 合成(ソース)データと実際のシーン(ターゲット)データとの差異の測定と緩和は、ドメイン適応意味セグメンテーションの核となる問題である。 近年の研究では、幾何学的および意味的な知識伝達を強化するために、ソース領域に深度情報を導入しているが、2次元推定深度に基づいて位置や形状を含む固有3D情報を抽出することはできない。 本研究では,よりコンパクトな3次元幾何点雲表現を利用して領域ギャップを縮小する,ドメイン適応のための幾何認識ネットワーク(GANDA)を提案する。 特に,まずソース領域からの補助的な深度監視を利用して,対象領域の深度予測を行い,構造・テクスチャのゆがみを実現する。 深度推定の他に、RGB-D画像から生成された点雲上の3次元トポロジーを明示的に利用して、ターゲット領域における座標色展開と擬似ラベル改善を行う。 さらに,対象領域における2次元分類器の改良を目的として,ソースからターゲットへのドメイン不変幾何適応を行い,2次元意味的および3次元幾何学的セグメンテーション結果を2領域に統一する。 GANDAは既存のUDAフレームワークのプラグインとプレイです。 その結果,GTA5->CityscapesおよびSynTHIA->Cityscapesにおいて,我々のモデルが現状よりも優れていることが示された。

Measuring and alleviating the discrepancies between the synthetic (source) and real scene (target) data is the core issue for domain adaptive semantic segmentation. Though recent works have introduced depth information in the source domain to reinforce the geometric and semantic knowledge transfer, they cannot extract the intrinsic 3D information of objects, including positions and shapes, merely based on 2D estimated depth. In this work, we propose a novel Geometry-Aware Network for Domain Adaptation (GANDA), leveraging more compact 3D geometric point cloud representations to shrink the domain gaps. In particular, we first utilize the auxiliary depth supervision from the source domain to obtain the depth prediction in the target domain to accomplish structure-texture disentanglement. Beyond depth estimation, we explicitly exploit 3D topology on the point clouds generated from RGB-D images for further coordinate-color disentanglement and pseudo-labels refinement in the target domain. Moreover, to improve the 2D classifier in the target domain, we perform domain-invariant geometric adaptation from source to target and unify the 2D semantic and 3D geometric segmentation results in two domains. Note that our GANDA is plug-and-play in any existing UDA framework. Qualitative and quantitative results demonstrate that our model outperforms state-of-the-arts on GTA5->Cityscapes and SYNTHIA->Cityscapes.
翻訳日:2022-12-05 16:38:56 公開日:2022-12-02
# ナビゲーションのためのプライベートマルチパーティパーセプション

Private Multiparty Perception for Navigation ( http://arxiv.org/abs/2212.00912v1 )

ライセンス: Link先を確認
Hui Lu, Mia Chiquier, Carl Vondrick(参考訳) 本稿では,複数のカメラを接続し,同時にプライバシーを保ちながら,散らかった環境をナビゲートする枠組みを提案する。 大きな環境での閉塞や障害物は、単一のカメラビューから完全に観測できないため、ナビゲーションエージェントにとって困難な状況であることが多い。 環境の複数のカメラビューを考慮し,ナビゲーションにのみ使用可能なマルチビューシーン表現を学習し,一方が出力タスクを超えるものを推論することを確実に防止する。 公開する新しいナビゲーションデータセットでは、プライベートなマルチパーティ表現が複雑なシーンや障害物をナビゲートし、プライバシを共同保存することを可能にする。 我々のアプローチは、任意の数のカメラ視点にスケールする。 ナビゲーションなど多くのアプリケーションにとって,プライバシを保護するビジュアル表現の開発がますます重要になっている,と私たちは信じています。

We introduce a framework for navigating through cluttered environments by connecting multiple cameras together while simultaneously preserving privacy. Occlusions and obstacles in large environments are often challenging situations for navigation agents because the environment is not fully observable from a single camera view. Given multiple camera views of an environment, our approach learns to produce a multiview scene representation that can only be used for navigation, provably preventing one party from inferring anything beyond the output task. On a new navigation dataset that we will publicly release, experiments show that private multiparty representations allow navigation through complex scenes and around obstacles while jointly preserving privacy. Our approach scales to an arbitrary number of camera viewpoints. We believe developing visual representations that preserve privacy is increasingly important for many applications such as navigation.
翻訳日:2022-12-05 16:33:04 公開日:2022-12-02
# 現実世界のオブジェクトにナビゲートする

Navigating to Objects in the Real World ( http://arxiv.org/abs/2212.00922v1 )

ライセンス: Link先を確認
Theophile Gervet, Soumith Chintala, Dhruv Batra, Jitendra Malik, Devendra Singh Chaplot(参考訳) セマンティックナビゲーションは、私たちの家、学校、病院のような制御されていない環境にモバイルロボットを展開するために必要です。 深度センサを用いた幾何学的マップを構築し、点目標に到達する計画である空間ナビゲーションのための古典的なパイプラインの意味理解の欠如に応えて、多くの学習ベースのアプローチが提案されている。 広く、エンドツーエンドの学習アプローチはセンサ入力をディープニューラルネットワークによるアクションにリアクティブにマッピングする一方で、モジュール学習のアプローチは、学習に基づくセマンティックセンシングと探索による古典的なパイプラインを強化する。 しかし、学習した視覚ナビゲーションポリシーはシミュレーションで主に評価されている。 異なる方法のクラスがロボットでどの程度うまく機能するのか? 本研究では,従来経験のない6つの家庭を対象とした古典的,モジュール的,エンド・ツー・エンドの学習手法を比較し,意味的視覚ナビゲーション手法に関する大規模な実証的研究を行った。 モジュラー学習は実世界ではうまく機能し、90%の成功率に達しています。 対照的に、エンド・ツー・エンドの学習は、シミュレーションと現実の間の画像領域の差が大きいため、77%のシミュレーションから23%の実際の成功率へと低下する。 実践者にとって、モジュラー学習はオブジェクトへのナビゲートのための信頼性の高いアプローチであることを示す。 研究者のために、今日のシミュレータが信頼性の高い評価ベンチマークになることを妨げる2つの重要な問題、すなわち(a)画像のsim-to-realギャップと(b)シミュレーションと現実世界のエラーモードの切り離しを識別し、具体的なステップを提案する。

Semantic navigation is necessary to deploy mobile robots in uncontrolled environments like our homes, schools, and hospitals. Many learning-based approaches have been proposed in response to the lack of semantic understanding of the classical pipeline for spatial navigation, which builds a geometric map using depth sensors and plans to reach point goals. Broadly, end-to-end learning approaches reactively map sensor inputs to actions with deep neural networks, while modular learning approaches enrich the classical pipeline with learning-based semantic sensing and exploration. But learned visual navigation policies have predominantly been evaluated in simulation. How well do different classes of methods work on a robot? We present a large-scale empirical study of semantic visual navigation methods comparing representative methods from classical, modular, and end-to-end learning approaches across six homes with no prior experience, maps, or instrumentation. We find that modular learning works well in the real world, attaining a 90% success rate. In contrast, end-to-end learning does not, dropping from 77% simulation to 23% real-world success rate due to a large image domain gap between simulation and reality. For practitioners, we show that modular learning is a reliable approach to navigate to objects: modularity and abstraction in policy design enable Sim-to-Real transfer. For researchers, we identify two key issues that prevent today's simulators from being reliable evaluation benchmarks - (A) a large Sim-to-Real gap in images and (B) a disconnect between simulation and real-world error modes - and propose concrete steps forward.
翻訳日:2022-12-05 16:32:52 公開日:2022-12-02
# 脳病変セグメンテーションにおけるCNN構成の選択についての検討

Investigating certain choices of CNN configurations for brain lesion segmentation ( http://arxiv.org/abs/2212.01235v1 )

ライセンス: Link先を確認
Masoomeh Rahimpour, Ahmed Radwan, Henri Vandermeulen, Stefan Sunaert, Karolien Goffin, Michel Koole(参考訳) 脳腫瘍イメージングは、長年にわたり、非侵襲的な腫瘍の検出と診断を行う臨床ルーチンの一部であった。 腫瘍の分節は、腫瘍の増殖や収縮を経時的に追跡し、疾患の進行や治療反応をモニターできるので、脳原発の腫瘍を管理する上で重要なステップである。 さらに、放射能などのさらなる定量的分析を容易にする。 深層学習モデル、特にcnnは、脳腫瘍のセグメンテーションを含む医療画像解析の多くの応用において選択される方法論である。 本研究では,MRIを用いた脳腫瘍のセグメンテーションのためのCNNモデルの設計について検討した。 2つの一般的なCNNアーキテクチャ(DeepMedicとU-Net)は、学習率、バッチサイズ、損失関数、オプティマイザといった重要なパラメータの影響を評価するために使用された。 異なる構成を用いたcnnモデルの性能をbrats 2018データセットで評価し、最もパフォーマンスの高いモデルを決定する。 次に,モデルの一般化能力を社内データセットを用いて評価した。 すべての実験において、U-NetはDeepMedicよりも高いDSCを達成した。 しかし, FLAIR シークエンスデータと T1w シークエンスデータを用いた腫瘍コアセグメンテーションでは, 差は統計的に有意であった。 AdamとSGDはどちらも0.001に設定され、それぞれU-NetとDeepMedicアーキテクチャを使ってCNNモデルをトレーニングする際に最も高いセグメンテーションDSCを提供した。 異なる正規化アプローチを用いた場合,有意差は認められなかった。 損失関数の面では、重み付け項を0.5に設定したソフトディスとクロスエントロピー損失の重み付けの組み合わせにより、DeepMedicモデルとU-Netモデルのセグメンテーション性能とトレーニング安定性が改善された。

Brain tumor imaging has been part of the clinical routine for many years to perform non-invasive detection and grading of tumors. Tumor segmentation is a crucial step for managing primary brain tumors because it allows a volumetric analysis to have a longitudinal follow-up of tumor growth or shrinkage to monitor disease progression and therapy response. In addition, it facilitates further quantitative analysis such as radiomics. Deep learning models, in particular CNNs, have been a methodology of choice in many applications of medical image analysis including brain tumor segmentation. In this study, we investigated the main design aspects of CNN models for the specific task of MRI-based brain tumor segmentation. Two commonly used CNN architectures (i.e. DeepMedic and U-Net) were used to evaluate the impact of the essential parameters such as learning rate, batch size, loss function, and optimizer. The performance of CNN models using different configurations was assessed with the BraTS 2018 dataset to determine the most performant model. Then, the generalization ability of the model was assessed using our in-house dataset. For all experiments, U-Net achieved a higher DSC compared to the DeepMedic. However, the difference was only statistically significant for whole tumor segmentation using FLAIR sequence data and tumor core segmentation using T1w sequence data. Adam and SGD both with the initial learning rate set to 0.001 provided the highest segmentation DSC when training the CNN model using U-Net and DeepMedic architectures, respectively. No significant difference was observed when using different normalization approaches. In terms of loss functions, a weighted combination of soft Dice and cross-entropy loss with the weighting term set to 0.5 resulted in an improved segmentation performance and training stability for both DeepMedic and U-Net models.
翻訳日:2022-12-05 16:32:24 公開日:2022-12-02
# 単極データからの高速非剛性放射場

Fast Non-Rigid Radiance Fields from Monocularized Data ( http://arxiv.org/abs/2212.01368v1 )

ライセンス: Link先を確認
Moritz Kappel, Vladislav Golyanik, Susana Castillo, Christian Theobalt, Marcus Magnor(参考訳) シングルビューコレクションからの動的シーンの3次元再構成と新しいビュー合成が注目されている。 既存の研究は、合成セットアップと前方向きの現実世界データに対して印象的な結果を示しているが、新しいビューを生成するためのトレーニング速度と角度範囲は著しく制限されている。 本稿では,これらの制約に対処し,不規則に変形するシーンのフル360{\deg}新しいビュー合成法を提案する。 私たちのメソッドのコアは次のとおりです。 1 訓練時及び推論時における加速のための空間的・時間的情報の処理を分離する効率的な変形モジュール 2) 高速ハッシュ符号化ニューラルラディアンス場としての正準シーンを表す静的モジュール。 我々は,全半球からランダムにサンプリングされた時間フレーム当たりの単一分子ビューからの効率的な再構成を可能にする,確立された合成D-NeRFベンチマークに対する提案手法の評価を行った。 この入力形式を単精度データと呼ぶ。 実世界のシナリオの実用性を証明するため,同期マルチビューリグから単一フレームをサンプリングして,人間俳優と12のチャレンジシーケンスを記録した。 いずれの場合も,従来手法(日数ではなく分単位)よりもかなり高速に学習でき,新規ビュー生成に対して高い視精度が得られた。 私たちのソースコードとデータは、プロジェクトページhttps://graphics.tu-bs.de/publications/kappel2022fastで閲覧できます。

3D reconstruction and novel view synthesis of dynamic scenes from collections of single views recently gained increased attention. Existing work shows impressive results for synthetic setups and forward-facing real-world data, but is severely limited in the training speed and angular range for generating novel views. This paper addresses these limitations and proposes a new method for full 360{\deg} novel view synthesis of non-rigidly deforming scenes. At the core of our method are: 1) An efficient deformation module that decouples the processing of spatial and temporal information for acceleration at training and inference time; and 2) A static module representing the canonical scene as a fast hash-encoded neural radiance field. We evaluate the proposed approach on the established synthetic D-NeRF benchmark, that enables efficient reconstruction from a single monocular view per time-frame randomly sampled from a full hemisphere. We refer to this form of inputs as monocularized data. To prove its practicality for real-world scenarios, we recorded twelve challenging sequences with human actors by sampling single frames from a synchronized multi-view rig. In both cases, our method is trained significantly faster than previous methods (minutes instead of days) while achieving higher visual accuracy for generated novel views. Our source code and data is available at our project page https://graphics.tu-bs.de/publications/kappel2022fast.
翻訳日:2022-12-05 16:31:51 公開日:2022-12-02
# プログラミングは難しい -- あるいは少なくともかつては - 教育の機会とaiコード生成の課題

Programming Is Hard -- Or at Least It Used to Be: Educational Opportunities And Challenges of AI Code Generation ( http://arxiv.org/abs/2212.01020v1 )

ライセンス: Link先を確認
Brett A. Becker and Paul Denny and James Finnie-Ansley and Andrew Luxton-Reilly and James Prather and Eddie Antonio Santos(参考訳) 入門プログラミングシーケンスは、コンピューティング教育における多くの研究の焦点となっている。 実行可能で自由に利用できるai駆動コード生成ツールが最近登場し、この領域ですぐに得られる機会と課題がいくつかある。 このポジションペーパーでは、コミュニティは、どのような機会を利用できるか、どのように活用すべきかを素早く決定し、また、どのように克服するか、その他の課題を緩和するかを議論する。 これらのツールの有効性と普及が、迅速で意図的で協調的な努力を伴わずに、急速に進展し続けると仮定すると、教育者は、どのような機会が生まれるか、どんな課題が耐えられるか、という利点を失うだろう。 本稿では,この議論をコンピューティング教育コミュニティに展開することを目的とする。

The introductory programming sequence has been the focus of much research in computing education. The recent advent of several viable and freely-available AI-driven code generation tools present several immediate opportunities and challenges in this domain. In this position paper we argue that the community needs to act quickly in deciding what possible opportunities can and should be leveraged and how, while also working on how to overcome or otherwise mitigate the possible challenges. Assuming that the effectiveness and proliferation of these tools will continue to progress rapidly, without quick, deliberate, and concerted efforts, educators will lose advantage in helping shape what opportunities come to be, and what challenges will endure. With this paper we aim to seed this discussion within the computing education community.
翻訳日:2022-12-05 16:31:31 公開日:2022-12-02
# unikgqa:知識グラフを用いたマルチホップ質問応答の統一検索と推論

UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question Answering Over Knowledge Graph ( http://arxiv.org/abs/2212.00959v1 )

ライセンス: Link先を確認
Jinhao Jiang, Kun Zhou, Wayne Xin Zhao and Ji-Rong Wen(参考訳) KGQA(Multi-hop Question Answering over Knowledge Graph)は、大規模知識グラフ(KG)上の自然言語質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。 既存の研究は通常、2段階のアプローチを採用しており、まず質問に関連する比較的小さなサブグラフを検索し、そのサブグラフの推論を行い、答えのエンティティを正確に見つける。 これら2つの段階は極めて関連が高いが、以前の研究では検索モデルや推論モデルの開発に全く異なる技術的ソリューションを採用しており、タスクの本質における関連性を無視している。 本稿では、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。 モデルアーキテクチャにおいて、UniKGQAは、質問関係のセマンティックマッチングのための事前訓練された言語モデル~(PLM)に基づくセマンティックマッチングモジュールと、KGのエッジに沿ったマッチング情報を伝播するマッチング情報伝搬モジュールから構成される。 パラメータ学習のために,検索モデルと推論モデルの両方に対する質問関係マッチングに基づく事前学習タスクを設計し,検索および推論指向の微調整戦略を提案する。 従来の研究と比較して,本手法はより統一され,検索段階と推論段階が密接に関連している。 マルチホップKGQAタスクにおいて,3つのベンチマークデータセットの大規模な実験を行い,本手法の有効性を実証した。 私たちのコードとデータはhttps://github.com/RUCAIBox/UniKGQA.comで公開されています。

Multi-hop Question Answering over Knowledge Graph~(KGQA) aims to find the answer entities that are multiple hops away from the topic entities mentioned in a natural language question on a large-scale Knowledge Graph (KG). To cope with the vast search space, existing work usually adopts a two-stage approach: it firstly retrieves a relatively small subgraph related to the question and then performs the reasoning on the subgraph to accurately find the answer entities. Although these two stages are highly related, previous work employs very different technical solutions for developing the retrieval and reasoning models, neglecting their relatedness in task essence. In this paper, we propose UniKGQA, a novel approach for multi-hop KGQA task, by unifying retrieval and reasoning in both model architecture and parameter learning. For model architecture, UniKGQA consists of a semantic matching module based on a pre-trained language model~(PLM) for question-relation semantic matching, and a matching information propagation module to propagate the matching information along the edges on KGs. For parameter learning, we design a shared pre-training task based on question-relation matching for both retrieval and reasoning models, and then propose retrieval- and reasoning-oriented fine-tuning strategies. Compared with previous studies, our approach is more unified, tightly relating the retrieval and reasoning stages. Extensive experiments on three benchmark datasets have demonstrated the effectiveness of our method on the multi-hop KGQA task. Our codes and data are publicly available at https://github.com/RUCAIBox/UniKGQA.
翻訳日:2022-12-05 16:30:56 公開日:2022-12-02
# プロンプト学習による伝播構造によるゼロショット騒音検出

Zero-Shot Rumor Detection with Propagation Structure via Prompt Learning ( http://arxiv.org/abs/2212.01117v1 )

ライセンス: Link先を確認
Hongzhan Lin, Pengyao Yi, Jing Ma, Haiyun Jiang, Ziyang Luo, Shuming Shi, Ruifang Liu(参考訳) 噂の広まりと破壊的な出来事は、ソーシャルメディア時代の真実を著しく妨げている。 以前の研究では、注釈付きリソースがないため、マイノリティ言語で提示される噂は検出しにくいことが示されている。 さらに、昨日のニュースに関わらない予期せぬ破壊的な出来事は、データリソースの不足を悪化させる。 本研究では,異なるドメインで発生する噂や異なる言語で提示される噂を早期に検出するためのゼロショットフレームワークを提案する。 より具体的には,まずソーシャルメディア上で拡散する噂を多様な伝搬スレッドとして表現し,その上で,プロンプトと噂データの両方に対する言語に依存しない文脈表現を学習するための階層的なプロンプトエンコーディング機構を設計する。 ドメイン適応をさらに強化するため,伝播スレッドからドメイン不変な構造特徴をモデル化し,コミュニティ応答の構造的位置表現を組み込む。 さらに、モデルトレーニングを改善するために、新しい仮想応答拡張法が使用される。 3つの実世界のデータセットで行った広範囲な実験により,提案モデルが最先端の手法よりも優れた性能を実現し,早期の噂検出に優れた能力を示すことを示した。

The spread of rumors along with breaking events seriously hinders the truth in the era of social media. Previous studies reveal that due to the lack of annotated resources, rumors presented in minority languages are hard to be detected. Furthermore, the unforeseen breaking events not involved in yesterday's news exacerbate the scarcity of data resources. In this work, we propose a novel zero-shot framework based on prompt learning to detect rumors falling in different domains or presented in different languages. More specifically, we firstly represent rumor circulated on social media as diverse propagation threads, then design a hierarchical prompt encoding mechanism to learn language-agnostic contextual representations for both prompts and rumor data. To further enhance domain adaptation, we model the domain-invariant structural features from the propagation threads, to incorporate structural position representations of influential community response. In addition, a new virtual response augmentation method is used to improve model training. Extensive experiments conducted on three real-world datasets demonstrate that our proposed model achieves much better performance than state-of-the-art methods and exhibits a superior capacity for detecting rumors at early stages.
翻訳日:2022-12-05 16:30:28 公開日:2022-12-02
# sumren: ニュースの出来事に関する報告されたスピーチを要約する

SumREN: Summarizing Reported Speech about Events in News ( http://arxiv.org/abs/2212.01146v1 )

ライセンス: Link先を確認
Revanth Gangi Reddy, Heba Elfardy, Hou Pong Chan, Kevin Small, Heng Ji(参考訳) ニュース記事の主目的はイベントの事実記録を確立することであり、指定されたイベントの詳細(例えば、5 Ws; Who, What, Where, When and Why)とそれに対する人々の反応(すなわち、報告された声明)の両方を伝えることでしばしば達成される。 しかし、ニュース要約に関する既存の作業は、ほとんどがイベントの詳細に焦点を当てている。 そこで本研究では,各話者の反応を,各事象に対する報告文で表されるように要約する新しい課題を提案する。 そこで我々は,132件の出来事を議論する633のニュース記事から得られた,様々な公開人物の報告文の745の要約からなる,新しい多文書要約ベンチマークSUMRENを作成する。 本稿では,BART などの小型モデルによる GPT-3 レベルの性能向上を支援するため,タスクの自動銀トレーニングデータ生成手法を提案する。 最後に,ベースラインクエリ指向の要約アプローチよりも抽象的かつ事実的な要約を生成するために経験的に示す,報告音声要約のためのパイプラインベースのフレームワークを提案する。

A primary objective of news articles is to establish the factual record for an event, frequently achieved by conveying both the details of the specified event (i.e., the 5 Ws; Who, What, Where, When and Why regarding the event) and how people reacted to it (i.e., reported statements). However, existing work on news summarization almost exclusively focuses on the event details. In this work, we propose the novel task of summarizing the reactions of different speakers, as expressed by their reported statements, to a given event. To this end, we create a new multi-document summarization benchmark, SUMREN, comprising 745 summaries of reported statements from various public figures obtained from 633 news articles discussing 132 events. We propose an automatic silver training data generation approach for our task, which helps smaller models like BART achieve GPT-3 level performance on this task. Finally, we introduce a pipeline-based framework for summarizing reported speech, which we empirically show to generate summaries that are more abstractive and factual than baseline query-focused summarization approaches.
翻訳日:2022-12-05 16:30:08 公開日:2022-12-02
# トラクタニューラルネットワークにおけるベクトル記号有限状態機械

Vector Symbolic Finite State Machines in Attractor Neural Networks ( http://arxiv.org/abs/2212.01196v1 )

ライセンス: Link先を確認
Madison Cotteret, Hugh Greatorex, Martin Ziegler, Elisabetta Chicca(参考訳) ホップフィールドアトラクタネットワークは、人間のメモリの堅牢な分散モデルである。 本研究では,アトラクタネットワークが任意の有限状態マシン(FSM)を実装し,状態と刺激を高次元のランダム双極ベクトルで表現し,すべての状態遷移をアトラクタネットワークのダイナミクスによって実行する構成規則を提案する。 数値シミュレーションは、実装可能なfsmの最大サイズの観点から、モデルがアトラクタネットワークのサイズで線形であることを示す。 モデルが不正確でノイズの多い重み付けに頑健であることを示し、高密度だが信頼性の低いデバイスによる実装の候補となる。 任意のFSMをエミュレートできるアトラクタネットワークを付与することにより、生物学的ニューラルネットワークにおいてFSMが分散計算プリミティブとして存在することを示す。

Hopfield attractor networks are robust distributed models of human memory. We propose construction rules such that an attractor network may implement an arbitrary finite state machine (FSM), where states and stimuli are represented by high-dimensional random bipolar vectors, and all state transitions are enacted by the attractor network's dynamics. Numerical simulations show the capacity of the model, in terms of the maximum size of implementable FSM, to be linear in the size of the attractor network. We show that the model is robust to imprecise and noisy weights, and so a prime candidate for implementation with high-density but unreliable devices. By endowing attractor networks with the ability to emulate arbitrary FSMs, we propose a plausible path by which FSMs may exist as a distributed computational primitive in biological neural networks.
翻訳日:2022-12-05 16:23:45 公開日:2022-12-02
# 一般化マルチモーダル多目的最適化のための共進化フレームワーク

Coevolutionary Framework for Generalized Multimodal Multi-objective Optimization ( http://arxiv.org/abs/2212.01219v1 )

ライセンス: Link先を確認
Wenhua Li, Xingyi Yao, Kaiwen Li, Rui Wang, Tao Zhang(参考訳) ほとんどのマルチモーダル多目的進化アルゴリズム(MMEA)は、マルチモーダル多目的最適化問題(MMOP)に対して全グローバルパレート最適集合(PS)を求める。 しかし、現実世界の問題では、意思決定者(DM)もローカルPSに興味を持っているかもしれない。 また、グローバルPSとローカルPSの両方を検索することは、一般化MMOPと見なされるMMOPを扱うという観点でより一般的である。 さらに、最先端のMMEAは、高次元MMOPにあまり収束しない。 そこで本研究では,マルチモーダル多目的最適化のための新しい共進化フレームワークcomeaを提案し,グローバルpsとローカルpssの双方をよりよく獲得し,同時に高次元mmopsを扱う際の収束性能を向上させる。 具体的には、CoMMEAは検索プロセスに2つのアーカイブを導入し、効果的な知識伝達を通じてそれらを同時に進化させる。 収束アーカイブはCoMMEAを支援し、パレート最適前線(PF)に素早く接近する。 収束解の知識は、局所収束指標と$\epsilon$-dominance-based methodを用いてグローバルおよびローカルPSを効果的に取得する多様性アーカイブに転送される。 実験結果から,CoMMEAは,54の複合MMOP上での7つの最先端MMEAと比較して競争力があることがわかった。

Most multimodal multi-objective evolutionary algorithms (MMEAs) aim to find all global Pareto optimal sets (PSs) for a multimodal multi-objective optimization problem (MMOP). However, in real-world problems, decision makers (DMs) may be also interested in local PSs. Also, searching for both global and local PSs is more general in view of dealing with MMOPs, which can be seen as a generalized MMOP. In addition, the state-of-the-art MMEAs exhibit poor convergence on high-dimension MMOPs. To address the above two issues, in this study, a novel coevolutionary framework termed CoMMEA for multimodal multi-objective optimization is proposed to better obtain both global and local PSs, and simultaneously, to improve the convergence performance in dealing with high-dimension MMOPs. Specifically, the CoMMEA introduces two archives to the search process, and coevolves them simultaneously through effective knowledge transfer. The convergence archive assists the CoMMEA to quickly approaching the Pareto optimal front (PF). The knowledge of the converged solutions is then transferred to the diversity archive which utilizes the local convergence indicator and the $\epsilon$-dominance-based method to obtain global and local PSs effectively. Experimental results show that CoMMEA is competitive compared to seven state-of-the-art MMEAs on fifty-four complex MMOPs.
翻訳日:2022-12-05 16:23:29 公開日:2022-12-02
# 時間論理特性の学習 : 最近の2つの方法の概要

Learning Temporal Logic Properties: an Overview of Two Recent Methods ( http://arxiv.org/abs/2212.00916v1 )

ライセンス: Link先を確認
Jean-Rapha\"el Gaglione, Rajarshi Roy, Nasim Baharisangari, Daniel Neider, Zhe Xu, Ufuk Topcu(参考訳) 線形時相論理(ltl)の公式を正または負とラベルづけされた例から学ぶと、システムの振る舞いの記述を推測する応用が見つかる。 2つの異なる問題設定の例からLTL式を学習する2つの方法を要約する。 最初の方法は、例のラベル付けにおいてノイズを仮定する。 そのため、ほとんどの例と一致しなければならないが、すべての例とは一致しないLTL式を推論する問題を定義する。 第2の方法は、正の例のみを与える場合に有意義なLTL式を推測する他の問題を考える。 したがって、第1の方法はノイズに対するロバスト性に対処し、第2の方法は推論された公式の簡潔さと特異性(すなわち言語極小性)のバランスに対処する。 要約した手法では、上記の問題を解決するアルゴリズムや、信号時相論理や決定論的有限オートマトンなどの時間的特性の他の記述を推測するアルゴリズムが提案されている。

Learning linear temporal logic (LTL) formulas from examples labeled as positive or negative has found applications in inferring descriptions of system behavior. We summarize two methods to learn LTL formulas from examples in two different problem settings. The first method assumes noise in the labeling of the examples. For that, they define the problem of inferring an LTL formula that must be consistent with most but not all of the examples. The second method considers the other problem of inferring meaningful LTL formulas in the case where only positive examples are given. Hence, the first method addresses the robustness to noise, and the second method addresses the balance between conciseness and specificity (i.e., language minimality) of the inferred formula. The summarized methods propose different algorithms to solve the aforementioned problems, as well as to infer other descriptions of temporal properties, such as signal temporal logic or deterministic finite automata.
翻訳日:2022-12-05 16:22:44 公開日:2022-12-02
# 侵入検知のためのハイブリッドディープラーニング異常検出フレームワーク

A Hybrid Deep Learning Anomaly Detection Framework for Intrusion Detection ( http://arxiv.org/abs/2212.00966v1 )

ライセンス: Link先を確認
Rahul Kale, Zhi Lu, Kar Wai Fok, Vrizlynn L. L. Thing(参考訳) ユーザーの重要かつ機密性の高いデータを侵害するサイバー侵入攻撃は、特に日常生活とインターネットのつながりが高まるにつれて、ボリュームと強度が増大している。 このような侵入攻撃の大きな量と複雑さは、従来の防御技術の有効性を阻害している。 同時に、コンピュータビジョンにおける機械学習手法の顕著なパフォーマンス、特にディープラーニングは、侵入検知をさらに強化し自動化するために、サイバーセキュリティコミュニティから研究の関心を集めている。 しかしながら、高価なデータラベリングと異常データの制限は、完全に監視された方法で侵入検知器を訓練することを困難にしている。 したがって,教師なし異常検出に基づく侵入検出も重要な特徴である。 本稿では,3段階のディープラーニング異常検出に基づくネットワーク侵入攻撃検出フレームワークを提案する。 このフレームワークは、教師なし(K平均クラスタリング)、半教師付き(GANomaly)、および教師付き学習(CNN)アルゴリズムの統合を含む。 次に、NSL-KDD、CIC-IDS2018、TON_IoTの3つのベンチマークデータセット上で、実装したフレームワークの性能を評価した。

Cyber intrusion attacks that compromise the users' critical and sensitive data are escalating in volume and intensity, especially with the growing connections between our daily life and the Internet. The large volume and high complexity of such intrusion attacks have impeded the effectiveness of most traditional defence techniques. While at the same time, the remarkable performance of the machine learning methods, especially deep learning, in computer vision, had garnered research interests from the cyber security community to further enhance and automate intrusion detections. However, the expensive data labeling and limitation of anomalous data make it challenging to train an intrusion detector in a fully supervised manner. Therefore, intrusion detection based on unsupervised anomaly detection is an important feature too. In this paper, we propose a three-stage deep learning anomaly detection based network intrusion attack detection framework. The framework comprises an integration of unsupervised (K-means clustering), semi-supervised (GANomaly) and supervised learning (CNN) algorithms. We then evaluated and showed the performance of our implemented framework on three benchmark datasets: NSL-KDD, CIC-IDS2018, and TON_IoT.
翻訳日:2022-12-05 16:22:26 公開日:2022-12-02
# GANを用いた半教師付き学習による不均衡データセットのフェイク検出

Fake detection in imbalance dataset by Semi-supervised learning with GAN ( http://arxiv.org/abs/2212.01071v1 )

ライセンス: Link先を確認
Jinus Bordbar, Saman Ardalan, Mohammadreza Mohammadrezaie, Mohammad Ebrahim Shiri(参考訳) ソーシャルメディアが急速に成長するにつれ、ハラスメントが広まり、研究者の間では偽の発見が魅力的な分野と見なされる。 多数のノードを持つデータのグラフ性は、データセットの分散度や不均衡クラスとして行列にかなりの量の無関係な特徴を含む、さまざまな障害を引き起こした。 これらの問題に対処するために、自動エンコーダと半教師付き学習とSGANと呼ばれるGANアルゴリズムを組み合わせた。 本稿では,より少ないラベルを配置し,SGANを分類器として適用する。 その結果,100個のラベル付きサンプルを用いた偽アカウント検出では,精度が91\%に達していた。

As social media grows faster, harassment becomes more prevalent which leads to considered fake detection a fascinating field among researchers. The graph nature of data with the large number of nodes caused different obstacles including a considerable amount of unrelated features in matrices as high dispersion and imbalance classes in the dataset. To deal with these issues Auto-encoders and a combination of semi-supervised learning and the GAN algorithm which is called SGAN were used. This paper is deploying a smaller number of labels and applying SGAN as a classifier. The result of this test showed that the accuracy had reached 91\% in detecting fake accounts using only 100 labeled samples.
翻訳日:2022-12-05 16:22:11 公開日:2022-12-02
# ニューラルネットワークにおけるハミルトン多様体の同定

Identifying Hamiltonian manifold in neural networks ( http://arxiv.org/abs/2212.01168v1 )

ライセンス: Link先を確認
Yeongwoo Song, Hawoong Jeong(参考訳) 深層学習を通じて物理法則を学ぶ最近の研究は、ニューラルネットワークに物理プライオリティや帰納バイアスを導入することによって、与えられたシステムの共有表現を見つけることを試みる。 しかし、これらのアプローチのほとんどは、ある特定の物理システムに訓練されたあるニューラルネットワークが、異なる物理法則によって制御された別のシステムに容易に適応できないような、システム固有の方法で問題に取り組む。 本研究では,メタラーニングアルゴリズムを用いて,ハミルトン方程式を表すニューラルネットワークの一般多様体を同定する。 物理法則の異なる5つの力学系からなるデータセットを用いてモデルをメタトレーニングした。 数段の勾配ステップでメタトレーニングモデルが,メタトレーニングの段階では見つからなかった物理系に順応することを示した。 メタトレーニングモデルでは,様々な力学系にまたがるニューラルネットワークにおけるハミルトン方程式の表現が,それぞれ異なる物理法則で制御されていることが示唆された。

Recent studies to learn physical laws via deep learning attempt to find the shared representation of the given system by introducing physics priors or inductive biases to the neural network. However, most of these approaches tackle the problem in a system-specific manner, in which one neural network trained to one particular physical system cannot be easily adapted to another system governed by a different physical law. In this work, we use a meta-learning algorithm to identify the general manifold in neural networks that represents Hamilton's equation. We meta-trained the model with the dataset composed of five dynamical systems each governed by different physical laws. We show that with only a few gradient steps, the meta-trained model adapts well to the physical system which was unseen during the meta-training phase. Our results suggest that the meta-trained model can craft the representation of Hamilton's equation in neural networks which is shared across various dynamical systems with each governed by different physical laws.
翻訳日:2022-12-05 16:22:00 公開日:2022-12-02
# ニューロシンボリックモデルの自然拘束に対する保証的適合性

Guaranteed Conformance of Neurosymbolic Models to Natural Constraints ( http://arxiv.org/abs/2212.01346v1 )

ライセンス: Link先を確認
Kaustubh Sridhar, Souradeep Dutta, James Weimer, Insup Lee(参考訳) ディープニューラルネットワークは、特に力学系のモデルとして、ロボット工学と制御応用の幅広い部分のワークホースとして登場した。 このようなデータ駆動モデルは、自律システムの設計と検証に使用される。 これは、データを活用して治療を個別化できる医療システムのモデリングに特に有用である。 安全クリティカルな応用においては、データ駆動モデルは自然科学の確立した知識に適合することが重要である。 このような知識は、しばしば利用可能であり、しばしば(おそらくブラックボックスの)モデル$m$に蒸留される。 例えば、f1レーシングカーの一輪車モデルである。 この観点からは、以下の問題を考える: モデル $m$ と状態遷移データセットは、$m$ から境界距離を保ちながら、システムモデルを最もよく近似したい。 この適合性を保証する方法を提案する。 最初のステップは、成長するニューラルガスのアイデアを使って、データセットをメモリと呼ばれるいくつかの代表的なサンプルに抽出することです。 次に、これらの記憶を用いて、入力が特定のサブセットから引き出されるとき、状態空間を非結合なサブセットに分割し、ニューラルネットワークによって尊重されるべき境界を計算する。 これは保証された適合性のシンボリックラッパーとして機能する。 理論的には、これは近似誤差を限定的に増加させるだけであり、メモリ数を増やすことで制御できる。 カーモデル, ドローン, 人工膵の3つのケーススタディにおいて, 拘束されたニューロシンボリックモデルは, ラグランジアンおよびバニラ訓練法と比較して, オーダー・オブ・マグニチュードの改善を伴うM$モデル(それぞれ様々な制約を符号化する)に適合することを示した。

Deep neural networks have emerged as the workhorse for a large section of robotics and control applications, especially as models for dynamical systems. Such data-driven models are in turn used for designing and verifying autonomous systems. This is particularly useful in modeling medical systems where data can be leveraged to individualize treatment. In safety-critical applications, it is important that the data-driven model is conformant to established knowledge from the natural sciences. Such knowledge is often available or can often be distilled into a (possibly black-box) model $M$. For instance, the unicycle model for an F1 racing car. In this light, we consider the following problem - given a model $M$ and state transition dataset, we wish to best approximate the system model while being bounded distance away from $M$. We propose a method to guarantee this conformance. Our first step is to distill the dataset into few representative samples called memories, using the idea of a growing neural gas. Next, using these memories we partition the state space into disjoint subsets and compute bounds that should be respected by the neural network, when the input is drawn from a particular subset. This serves as a symbolic wrapper for guaranteed conformance. We argue theoretically that this only leads to bounded increase in approximation error; which can be controlled by increasing the number of memories. We experimentally show that on three case studies (Car Model, Drones, and Artificial Pancreas), our constrained neurosymbolic models conform to specified $M$ models (each encoding various constraints) with order-of-magnitude improvements compared to the augmented Lagrangian and vanilla training methods.
翻訳日:2022-12-05 16:21:28 公開日:2022-12-02
# ゼロショット・キュリキュラによる自動走行のための合成オフポリティ体験の埋め込み

Embedding Synthetic Off-Policy Experience for Autonomous Driving via Zero-Shot Curricula ( http://arxiv.org/abs/2212.01375v1 )

ライセンス: Link先を確認
Eli Bronstein, Sirish Srinivasan, Supratik Paul, Aman Sinha, Matthew O'Kelly, Payam Nikdel, Shimon Whiteson(参考訳) MLベースのモーションプランニングは、複雑な振る舞いを示し、新しい環境に自動的に適応するエージェントを作成するための有望なアプローチである。 自動運転の文脈では、利用可能なすべてのトレーニングデータを平等に扱うことが一般的である。 しかしながら、このアプローチでは、安全クリティカルな設定で堅牢に動作しないエージェントを生成するため、トレーニングセットにより多くのデータを追加するだけでは対処できない問題が発生します。 本研究では,公道に配備された自動運転車群から収集したデータをもとに,運転状況の難しさを予測する手法を提案する。 次に,この難易度スコアをゼロショット転送に使用して,模倣学習に基づく計画エージェントのカリキュラムを生成することを実証する。 非バイアスのトレーニングデータセット全体のトレーニングと比較して、難しい運転シナリオの優先順位付けは衝突を15%減らし、クローズドループ評価においてルートアテンデンスを14%増加させ、トレーニングデータの10%しか使用していないことを示す。

ML-based motion planning is a promising approach to produce agents that exhibit complex behaviors, and automatically adapt to novel environments. In the context of autonomous driving, it is common to treat all available training data equally. However, this approach produces agents that do not perform robustly in safety-critical settings, an issue that cannot be addressed by simply adding more data to the training set - we show that an agent trained using only a 10% subset of the data performs just as well as an agent trained on the entire dataset. We present a method to predict the inherent difficulty of a driving situation given data collected from a fleet of autonomous vehicles deployed on public roads. We then demonstrate that this difficulty score can be used in a zero-shot transfer to generate curricula for an imitation-learning based planning agent. Compared to training on the entire unbiased training dataset, we show that prioritizing difficult driving scenarios both reduces collisions by 15% and increases route adherence by 14% in closed-loop evaluation, all while using only 10% of the training data.
翻訳日:2022-12-05 16:20:56 公開日:2022-12-02
# スパース可変独立による安定学習

Stable Learning via Sparse Variable Independence ( http://arxiv.org/abs/2212.00992v1 )

ライセンス: Link先を確認
Han Yu, Peng Cui, Yue He, Zheyan Shen, Yong Lin, Renzhe Xu, Xingxuan Zhang(参考訳) 共変量シフト一般化の問題は集中的な研究の注目を集めている。 従来の安定学習アルゴリズムでは、トレーニングデータに関する明示的なドメイン情報がない場合、サンプル再重み付け方式を用いて共変分をデコレーションする。 しかし、有限なサンプルでは、不安定な変数を取り除くために完全な独立性を保証する望ましい重みを達成することは困難である。 さらに、安定変数内のデコレーションは、効果的なサンプルサイズが過度に減少するため、学習モデルのばらつきをもたらす可能性がある。 これらのアルゴリズムが動作するには、膨大なサンプルサイズが必要である。 本稿では,理論的な正当化とともに,共変量シフト一般化問題に対するSVI(Sparse Variable Independence)を提案する。 本稿では,従来手法の有限サンプル設定下でのサンプル再重み付けの不完全さを補うために,スパーシティ制約を導入する。 さらに, 独立性に基づくサンプル再重み付けとスパーシティに基づく変数選択を反復的に組み合わせ, 安定変数間の相関を回避し, 有効サンプルサイズを増加させて分散インフレーションを緩和する。 合成および実世界の両方のデータセットの実験は、SVIによってもたらされた共変量シフト一般化性能の改善を示す。

The problem of covariate-shift generalization has attracted intensive research attention. Previous stable learning algorithms employ sample reweighting schemes to decorrelate the covariates when there is no explicit domain information about training data. However, with finite samples, it is difficult to achieve the desirable weights that ensure perfect independence to get rid of the unstable variables. Besides, decorrelating within stable variables may bring about high variance of learned models because of the over-reduced effective sample size. A tremendous sample size is required for these algorithms to work. In this paper, with theoretical justification, we propose SVI (Sparse Variable Independence) for the covariate-shift generalization problem. We introduce sparsity constraint to compensate for the imperfectness of sample reweighting under the finite-sample setting in previous methods. Furthermore, we organically combine independence-based sample reweighting and sparsity-based variable selection in an iterative way to avoid decorrelating within stable variables, increasing the effective sample size to alleviate variance inflation. Experiments on both synthetic and real-world datasets demonstrate the improvement of covariate-shift generalization performance brought by SVI.
翻訳日:2022-12-05 16:15:00 公開日:2022-12-02
# オンライン学習におけるルートsgdアルゴリズムの共分散推定

Covariance Estimators for the ROOT-SGD Algorithm in Online Learning ( http://arxiv.org/abs/2212.01259v1 )

ライセンス: Link先を確認
Yiling Luo, Xiaoming Huo, Yajun Mei(参考訳) オンライン学習は多くの統計的および機械学習問題で自然に発生する。 オンライン学習で最も広く使われている方法は確率的一階アルゴリズムである。 このうち、最近開発されたアルゴリズムであるRecursive One-Over-T SGD (ROOT-SGD)がある。 ROOT-SGDは非漸近的に速い速度で収束し、その推定器は正規分布にさらに収束する。 しかし、この正規分布は漸近共分散を持たないため、不確かさを測定するために直接適用することはできない。 このギャップを埋めるために, ROOT-SGDの漸近共分散に対する2つの推定器を開発した。 共分散推定器はROOT-SGDの統計的推定に有用である。 最初の推定者はプラグインのアイデアを採用しています。 漸近的共分散の式における未知の成分について、経験的相違と置換する。 プラグイン推定器は$\mathcal{o}(1/\sqrt{t})$で収束し、ここで$t$はサンプルサイズである。 素早く収束するにもかかわらず、プラグイン推定器は損失関数のヘシアンに依存する限界があり、場合によっては利用できないこともある。 2つ目の推定器は、前述の制限を克服するヘッセン自由推定器です。 ヘッセンフリー推定器はランダムスケーリング手法を用いており、真の共分散の漸近的に一貫した推定器であることを示す。

Online learning naturally arises in many statistical and machine learning problems. The most widely used methods in online learning are stochastic first-order algorithms. Among this family of algorithms, there is a recently developed algorithm, Recursive One-Over-T SGD (ROOT-SGD). ROOT-SGD is advantageous in that it converges at a non-asymptotically fast rate, and its estimator further converges to a normal distribution. However, this normal distribution has unknown asymptotic covariance; thus cannot be directly applied to measure the uncertainty. To fill this gap, we develop two estimators for the asymptotic covariance of ROOT-SGD. Our covariance estimators are useful for statistical inference in ROOT-SGD. Our first estimator adopts the idea of plug-in. For each unknown component in the formula of the asymptotic covariance, we substitute it with its empirical counterpart. The plug-in estimator converges at the rate $\mathcal{O}(1/\sqrt{t})$, where $t$ is the sample size. Despite its quick convergence, the plug-in estimator has the limitation that it relies on the Hessian of the loss function, which might be unavailable in some cases. Our second estimator is a Hessian-free estimator that overcomes the aforementioned limitation. The Hessian-free estimator uses the random-scaling technique, and we show that it is an asymptotically consistent estimator of the true covariance.
翻訳日:2022-12-05 16:14:41 公開日:2022-12-02
# 離散確率測度上のガウス過程の回帰:ユークリッドとワッサースタイン二乗指数核の非定常関係について

Gaussian Process regression over discrete probability measures: on the non-stationarity relation between Euclidean and Wasserstein Squared Exponential Kernels ( http://arxiv.org/abs/2212.01310v1 )

ライセンス: Link先を確認
Antonio Candelieri, Andrea Ponti, Francesco Archetti(参考訳) ガウス過程回帰(gaussian process regression)は、多くの現実の応用でうまく適用されたカーネル法である。 近年、この手法を確率測度からなる非ユークリッド入力空間に拡張することへの関心が高まっている。 適切な距離 -- ワッサースタイン距離 -- を用いて正定値カーネルを定義することができるが、ガウス過程モデルを学習するための一般的な手順は、ユークリッド入力空間の場合よりも早く頻繁に発生する数値的問題によって失敗する可能性があり、本論文で示されるように、通常のように人工的なノイズ(ナゲット効果)を加えることで回避できない。 本稿では、ワッサーシュタイン型二乗指数核とユークリッド型指数核の非定常性関係であるこれらの問題の主な原因を明らかにする。 関連する結果として、ガウス過程モデル(英語版)は入力空間をユークリッドと仮定して学習され、その後、発見された関係に基づく代数変換を用いて確率測度よりも非定常かつワッサーシュタインに基づくガウス過程モデルに変換する。 この代数変換はリーマン多様体に属するデータの場合の対数展開写像よりも単純であり、最近ワッサーシュタイン距離を持つ入力空間の擬リーマン構造を考えるために拡張された。

Gaussian Process regression is a kernel method successfully adopted in many real-life applications. Recently, there is a growing interest on extending this method to non-Euclidean input spaces, like the one considered in this paper, consisting of probability measures. Although a Positive Definite kernel can be defined by using a suitable distance -- the Wasserstein distance -- the common procedure for learning the Gaussian Process model can fail due to numerical issues, arising earlier and more frequently than in the case of an Euclidean input space and, as demonstrated in this paper, that cannot be avoided by adding artificial noise (nugget effect) as usually done. This paper uncovers the main reason of these issues, that is a non-stationarity relationship between the Wasserstein-based squared exponential kernel and its Euclidean-based counterpart. As a relevant result, the Gaussian Process model is learned by assuming the input space as Euclidean and then an algebraic transformation, based on the uncovered relation, is used to transform it into a non-stationary and Wasserstein-based Gaussian Process model over probability measures. This algebraic transformation is simpler than log-exp maps used in the case of data belonging to Riemannian manifolds and recently extended to consider the pseudo-Riemannian structure of an input space equipped with the Wasserstein distance.
翻訳日:2022-12-05 16:14:20 公開日:2022-12-02
# キュード音声認識のための相互学習

Cross-Modal Mutual Learning for Cued Speech Recognition ( http://arxiv.org/abs/2212.01083v1 )

ライセンス: Link先を確認
Lei Liu and Li Liu(参考訳) 自動キュード音声認識(acsr)は視覚コミュニケーションのためのインテリジェントなヒューマンマシンインタフェースを提供し、キュード音声(cs)システムは唇の動きと手のジェスチャーを利用して聴覚障害者のための音声言語をコードする。 以前のACSRアプローチでは、しばしば直接的特徴結合を主融合パラダイムとして利用する。 しかし、CS における非同期なモダリティ (\textit{i.e.}, lip, hand shape, hand position) は特徴連結の干渉を引き起こす可能性がある。 この課題に対処するために,マルチモーダルインタラクションを促進するトランスフォーマーに基づく相互学習フレームワークを提案する。 ヴァニラ・セルフ・アテンションと比較して,本モデルは異なるモダリティのモダリティ固有の情報をモダリティ不変コードブックに通すように強制し,各モダリティのトークンに対する言語表現を照合する。 次に、共有言語知識を用いてマルチモーダルシーケンスを再同期する。 さらに,中国語のための大規模マルチスピーカCSデータセットを構築した。 我々の知る限り、これは中国語におけるACSRに関する最初の研究である。 様々な言語(中国語、フランス語、イギリス英語)に対して大規模な実験が行われる。 その結果,本モデルは最先端技術よりも高い認識性能を示すことがわかった。

Automatic Cued Speech Recognition (ACSR) provides an intelligent human-machine interface for visual communications, where the Cued Speech (CS) system utilizes lip movements and hand gestures to code spoken language for hearing-impaired people. Previous ACSR approaches often utilize direct feature concatenation as the main fusion paradigm. However, the asynchronous modalities (\textit{i.e.}, lip, hand shape and hand position) in CS may cause interference for feature concatenation. To address this challenge, we propose a transformer based cross-modal mutual learning framework to prompt multi-modal interaction. Compared with the vanilla self-attention, our model forces modality-specific information of different modalities to pass through a modality-invariant codebook, collating linguistic representations for tokens of each modality. Then the shared linguistic knowledge is used to re-synchronize multi-modal sequences. Moreover, we establish a novel large-scale multi-speaker CS dataset for Mandarin Chinese. To our knowledge, this is the first work on ACSR for Mandarin Chinese. Extensive experiments are conducted for different languages (\textit{i.e.}, Chinese, French, and British English). Results demonstrate that our model exhibits superior recognition performance to the state-of-the-art by a large margin.
翻訳日:2022-12-05 16:13:56 公開日:2022-12-02
# SolarDK:高解像度都市ソーラーパネル画像分類とローカライゼーションデータセット

SolarDK: A high-resolution urban solar panel image classification and localization dataset ( http://arxiv.org/abs/2212.01260v1 )

ライセンス: Link先を確認
Maxim Khomiakov, Julius Holbech Radzikowski, Carl Anton Schmidt, Mathias Bonde S{\o}rensen, Mads Andersen, Michael Riis Andersen and Jes Frellsen(参考訳) 太陽パネルアレイを空中画像から分類する研究機関が増えているが、まだ多くの公開ベンチマークデータセットは存在しない。 本稿では,デンマークにおけるソーラーパネルアレイの分類とローカライズのための2つのベンチマークデータセットについて紹介する。 我々は,新しいベンチマークデータセットにおける先行研究の結果について検討し,最近の研究と同様の手法を用いて,微調整モデルの結果を提示する。 さらに、新しいアーキテクチャのモデルをトレーニングし、いくつかのシナリオでデータセットにベンチマークベースラインを提供します。 これらのデータセットのリリースは、航空画像からソーラーパネルアレイを識別およびマッピングするために、地域とグローバルの両方の地理空間領域における将来の研究を改善するだろうと考えています。 データはhttps://osf.io/aj539/でアクセスできる。

The body of research on classification of solar panel arrays from aerial imagery is increasing, yet there are still not many public benchmark datasets. This paper introduces two novel benchmark datasets for classifying and localizing solar panel arrays in Denmark: A human annotated dataset for classification and segmentation, as well as a classification dataset acquired using self-reported data from the Danish national building registry. We explore the performance of prior works on the new benchmark dataset, and present results after fine-tuning models using a similar approach as recent works. Furthermore, we train models of newer architectures and provide benchmark baselines to our datasets in several scenarios. We believe the release of these datasets may improve future research in both local and global geospatial domains for identifying and mapping of solar panel arrays from aerial imagery. The data is accessible at https://osf.io/aj539/.
翻訳日:2022-12-05 16:13:37 公開日:2022-12-02
# AGO: グラフ最適化の制約を取り除き,モバイルAI推論性能を高める

AGO: Boosting Mobile AI Inference Performance by Removing Constraints on Graph Optimization ( http://arxiv.org/abs/2212.01005v1 )

ライセンス: Link先を確認
Zhiying Xu, Hongding Peng, Wei Wang(参考訳) 従来のディープラーニングコンパイラはグラフ生成のヒューリスティックスに依存しており、グラフ最適化に余分な制約を課している。 本稿では,このような制約を取り除き,深層モデルの推論性能を高めるために任意の構造を持つグラフ最適化フレームワークを提案する。 複雑な部分グラフに対する新たな最適化機会を創出するために,複数の複雑な演算子を効果的に縫合して性能を向上する集中型演算子融合を提案する。 さらに,各サブグラフの任意の構造を許容するグラフ分割方式を設計し,生成したサブグラフ間の非巡回性を保証した。 さらに,複雑な部分グラフ上での効率的なパフォーマンスチューニングを実現するため,異なるシステムコンポーネントを編成する新たな分母調整機構を考案した。 ニューラルネットワークやモバイルデバイスに関する広範な実験を通じて,最先端の深層コンパイラと比較して,推論性能を最大3.3倍向上させることができることを示す。

Traditional deep learning compilers rely on heuristics for subgraph generation, which impose extra constraints on graph optimization, e.g., each subgraph can only contain at most one complex operator. In this paper, we propose AGO, a framework for graph optimization with arbitrary structures to boost the inference performance of deep models by removing such constraints. To create new optimization opportunities for complicated subgraphs, we propose intensive operator fusion, which can effectively stitch multiple complex operators together for better performance. Further, we design a graph partitioning scheme that allows an arbitrary structure for each subgraph while guaranteeing the acyclic property among all generated subgraphs. Additionally, to enable efficient performance tuning on complicated subgraphs, we devise a novel divide-and-conquer tuning mechanism to orchestrate different system components. Through extensive experiments on various neural networks and mobile devices, we show that our system can improve the inference performance by up to 3.3x when compared with state-of-the-art deep compilers.
翻訳日:2022-12-05 16:13:25 公開日:2022-12-02
# ソフトコレクト:ソフト検出による音声認識のための誤り補正

SoftCorrect: Error Correction with Soft Detection for Automatic Speech Recognition ( http://arxiv.org/abs/2212.01039v1 )

ライセンス: Link先を確認
Yichong Leng, Xu Tan, Wenjie Liu, Kaitao Song, Rui Wang, Xiang-Yang Li, Tao Qin, Edward Lin, Tie-Yan Liu(参考訳) 自動音声認識(ASR)における誤り訂正は,ASRモデルにより生成された文中の誤り語を訂正することを目的としている。 最近のASRモデルは、通常、単語誤り率(WER)が低いため、本来正しいトークンに影響を与えるのを避けるため、誤り訂正モデルは不正な単語を修正するだけでよい。 前回のエラー訂正では、ターゲットソースの注意を通して暗黙的にエラーワードを検出するか、ctc(connectionist temporal classification)の損失を検出するか、特定の削除/置換/停止エラーを明示的に特定する。 しかし、暗黙的エラー検出は、どのトークンが誤りであるかを明確に示さず、明示的なエラー検出は、検出精度の低下に苦しむ。 本稿では,明示的および暗黙的エラー検出の限界を回避するため,ソフトエラー検出機構を用いたソフト補正を提案する。 具体的には、専用言語モデルによって生成された確率でトークンが正しいか否かを最初に検出し、検出された不正トークンのみを複製してデコーダがエラートークンの修正に集中させる制約付きCTC損失を設計する。 暗黙的なエラー検出とCTC損失と比較すると、SoftCorrectは、どの単語が誤りであるかを明示的な信号を提供するため、すべてのトークンを複製する必要はなく、不正なトークンのみを複製する必要はない。 aishell-1とaidatatangデータセットの実験では、softcorrectがそれぞれ26.1%と9.4%のcer削減を達成し、従来よりも大きなマージンを誇りながら、並列生成の高速さを享受している。

Error correction in automatic speech recognition (ASR) aims to correct those incorrect words in sentences generated by ASR models. Since recent ASR models usually have low word error rate (WER), to avoid affecting originally correct tokens, error correction models should only modify incorrect words, and therefore detecting incorrect words is important for error correction. Previous works on error correction either implicitly detect error words through target-source attention or CTC (connectionist temporal classification) loss, or explicitly locate specific deletion/substitution/insertion errors. However, implicit error detection does not provide clear signal about which tokens are incorrect and explicit error detection suffers from low detection accuracy. In this paper, we propose SoftCorrect with a soft error detection mechanism to avoid the limitations of both explicit and implicit error detection. Specifically, we first detect whether a token is correct or not through a probability produced by a dedicatedly designed language model, and then design a constrained CTC loss that only duplicates the detected incorrect tokens to let the decoder focus on the correction of error tokens. Compared with implicit error detection with CTC loss, SoftCorrect provides explicit signal about which words are incorrect and thus does not need to duplicate every token but only incorrect tokens; compared with explicit error detection, SoftCorrect does not detect specific deletion/substitution/insertion errors but just leaves it to CTC loss. Experiments on AISHELL-1 and Aidatatang datasets show that SoftCorrect achieves 26.1% and 9.4% CER reduction respectively, outperforming previous works by a large margin, while still enjoying fast speed of parallel generation.
翻訳日:2022-12-05 16:13:10 公開日:2022-12-02
# cold fusion: 分散マルチタスクの微調整のための協調学習

ColD Fusion: Collaborative Descent for Distributed Multitask Finetuning ( http://arxiv.org/abs/2212.01378v1 )

ライセンス: Link先を確認
Shachar Don-Yehiya, Elad Venezian, Colin Raffel, Noam Slonim, Yoav Katz, Leshem Choshen(参考訳) 事前トレーニングは、計算、データサイズ、データの多様性によく対応している。 教師付きデータセットの混合上でマルチタスク学習がトレーニングされ、自己教師付きプリトレーニングと比較してパフォーマンスが向上する。 これまでは、大規模なマルチタスク学習では、混合中のすべてのデータセットと、十分なリソースしか利用できない重い計算リソースを同時にアクセスする必要がありました。 本稿では,マルチタスク学習のメリットを享受しながら分散計算を活用し,通信の制限とデータの共有を必要としない手法であるcold fusionを提案する。 結果として、ColD Fusionは相乗的ループを作成でき、微調整されたモデルを再利用して、ベースとした事前訓練されたモデルを継続的に改善することができる。 ColD Fusionは、モデルを生成することでマルチタスク事前学習に匹敵する利点をもたらすことを示す。 (a)マルチタスクでトレーニングしたすべてのデータセットに対して、強力なパフォーマンスを実現し、 (b)未発見のデータセットを微調整する出発点として適しています。 ColD FusionはRoBERTaや過去のマルチタスクモデルよりも優れています。 具体的には、35の多様なデータセットでトレーニングとテストを行う場合、ColD Fusionベースのモデルはアーキテクチャの変更なしにRoBERTaを平均2.45ポイント上回る。

Pretraining has been shown to scale well with compute, data size and data diversity. Multitask learning trains on a mixture of supervised datasets and produces improved performance compared to self-supervised pretraining. Until now, massively multitask learning required simultaneous access to all datasets in the mixture and heavy compute resources that are only available to well-resourced teams. In this paper, we propose ColD Fusion, a method that provides the benefits of multitask learning but leverages distributed computation and requires limited communication and no sharing of data. Consequentially, ColD Fusion can create a synergistic loop, where finetuned models can be recycled to continually improve the pretrained model they are based on. We show that ColD Fusion yields comparable benefits to multitask pretraining by producing a model that (a) attains strong performance on all of the datasets it was multitask trained on and (b) is a better starting point for finetuning on unseen datasets. We find ColD Fusion outperforms RoBERTa and even previous multitask models. Specifically, when training and testing on 35 diverse datasets, ColD Fusion-based model outperforms RoBERTa by 2.45 points in average without any changes to the architecture.
翻訳日:2022-12-05 16:12:00 公開日:2022-12-02
# SARAS-Net:変更検出のためのスケールと関係性を考慮したシームズネットワーク

SARAS-Net: Scale and Relation Aware Siamese Network for Change Detection ( http://arxiv.org/abs/2212.01287v1 )

ライセンス: Link先を確認
Chao-Peng Chen, Jun-Wei Hsieh, Ping-Yang Chen, Yi-Kuan Hsieh, Bor-Shiun Wang(参考訳) 変更検出(cd)は、異なるタイミングで2つの画像の差を見つけ、その領域が変化したか否かを表す変更マップを出力することを目的としている。 変更マップを生成するためのより良い結果を得るために、多くの最先端(sota)メソッドは、強力な識別能力を持つディープラーニングモデルを設計する。 しかし、空間情報を無視し、オブジェクト間の変更をスケーリングし、ぼやけたり、境界を間違えたりするため、これらの手法はパフォーマンスを低下させます。 これらに加えて、2つの異なる画像のインタラクティブな情報を無視する。 これらの問題を緩和するため,我々はSARAS-Net(Scale and Relation-Aware Siamese Network)を提案する。 本稿では,シーン変化の検出をより効果的に行うために,関係認識,スケール認識,クロストランスフォーマの3つのモジュールを提案する。 我々のモデルを検証するために、LEVIR-CD、WHU-CD、DSFINの3つの公開データセットを検証し、SoTAの精度を得た。 私たちのコードはhttps://github.com/f64051041/SARAS-Netで利用可能です。

Change detection (CD) aims to find the difference between two images at different times and outputs a change map to represent whether the region has changed or not. To achieve a better result in generating the change map, many State-of-The-Art (SoTA) methods design a deep learning model that has a powerful discriminative ability. However, these methods still get lower performance because they ignore spatial information and scaling changes between objects, giving rise to blurry or wrong boundaries. In addition to these, they also neglect the interactive information of two different images. To alleviate these problems, we propose our network, the Scale and Relation-Aware Siamese Network (SARAS-Net) to deal with this issue. In this paper, three modules are proposed that include relation-aware, scale-aware, and cross-transformer to tackle the problem of scene change detection more effectively. To verify our model, we tested three public datasets, including LEVIR-CD, WHU-CD, and DSFIN, and obtained SoTA accuracy. Our code is available at https://github.com/f64051041/SARAS-Net.
翻訳日:2022-12-05 16:05:28 公開日:2022-12-02
# 探索サンプリングによる知的局所化による逆学習の高速化

Accelerating Inverse Learning via Intelligent Localization with Exploratory Sampling ( http://arxiv.org/abs/2212.01016v1 )

ライセンス: Link先を確認
Jiaxin Zhang, Sirui Bi, Victor Fung(参考訳) 科学のためのAI」の分野において、逆問題の解決は、材料と薬物発見における長年にわたる課題であり、そこでは、望ましい性質のセットが与えられた隠された構造を決定することが目的である。 近年、逆問題の解法として深部生成モデルが提案されているが、現在は高価なフォワード演算子を使用し、正確な解の正確な局所化と、解の欠如なしにパラメータ空間の完全な探索に苦労している。 本研究では,深い可逆モデルからの確率的推論と高速勾配降下による決定論的最適化を活用し,逆学習プロセスを高速化する新しい手法(ipage)を提案する。 対象特性が与えられると、学習可能な可逆モデルがパラメータ空間の後方に作用し、これらの後方サンプルをインテリジェントな事前初期化として識別し、探索空間を狭めることができる。 次に局所領域内の逆解を校正するために勾配降下を行う。 一方、すべての可能なソリューションをよりよく探索し、捕獲するために、スペース充填サンプリングが潜水空間に課される。 提案手法は,3つのベンチマークタスクと,量子化学および添加物製造による実世界の応用による2つのデータセットを用いて評価し,いくつかの最先端のベースライン手法と比較して優れた性能を実現する。 iPageのコードはhttps://github.com/jxzhangjhu/MatDesINNeで入手できる。

In the scope of "AI for Science", solving inverse problems is a longstanding challenge in materials and drug discovery, where the goal is to determine the hidden structures given a set of desirable properties. Deep generative models are recently proposed to solve inverse problems, but these currently use expensive forward operators and struggle in precisely localizing the exact solutions and fully exploring the parameter spaces without missing solutions. In this work, we propose a novel approach (called iPage) to accelerate the inverse learning process by leveraging probabilistic inference from deep invertible models and deterministic optimization via fast gradient descent. Given a target property, the learned invertible model provides a posterior over the parameter space; we identify these posterior samples as an intelligent prior initialization which enables us to narrow down the search space. We then perform gradient descent to calibrate the inverse solutions within a local region. Meanwhile, a space-filling sampling is imposed on the latent space to better explore and capture all possible solutions. We evaluate our approach on three benchmark tasks and two created datasets with real-world applications from quantum chemistry and additive manufacturing, and find our method achieves superior performance compared to several state-of-the-art baseline methods. The iPage code is available at https://github.com/jxzhangjhu/MatDesINNe.
翻訳日:2022-12-05 16:04:57 公開日:2022-12-02
# flow to control:lossless primitive discoveryによるオフライン強化学習

Flow to Control: Offline Reinforcement Learning with Lossless Primitive Discovery ( http://arxiv.org/abs/2212.01105v1 )

ライセンス: Link先を確認
Yiqin Yang, Hao Hu, Wenzhe Li, Siyuan Li, Jun Yang, Qianchuan Zhao, Chongjie Zhang(参考訳) オフライン強化学習(RL)により、エージェントはログデータから効果的に学習することができる。 これまでの研究では、ログデータの繰り返しおよび時間的に拡張された構造から原始的なスキルを抽出することで、より良い学習が得られることが示されている。 しかし、これらの手法はプリミティブがオリジナルのポリシー空間を復元する限られた表現能力を持つ場合、特にオフライン環境では大きな影響を受ける。 本稿では、オフライン階層学習の性能を定量的に評価し、損失のないプリミティブの学習の重要性を強調する。 この目的のために,低レベルポリシの表現として \emph{flow} に基づく構造を用いることを提案する。 これにより、ポリシー空間全体を回復する表現能力を保ちながら、データセットの振る舞いを忠実に表現することができます。 このような損失のないプリミティブは、階層ポリシーのパフォーマンスを劇的に改善できることを示します。 標準D4RLベンチマーク実験の結果,提案手法はポリシーの表現能力に優れ,多くのタスクにおいて優れた性能を発揮することが示された。

Offline reinforcement learning (RL) enables the agent to effectively learn from logged data, which significantly extends the applicability of RL algorithms in real-world scenarios where exploration can be expensive or unsafe. Previous works have shown that extracting primitive skills from the recurring and temporally extended structures in the logged data yields better learning. However, these methods suffer greatly when the primitives have limited representation ability to recover the original policy space, especially in offline settings. In this paper, we give a quantitative characterization of the performance of offline hierarchical learning and highlight the importance of learning lossless primitives. To this end, we propose to use a \emph{flow}-based structure as the representation for low-level policies. This allows us to represent the behaviors in the dataset faithfully while keeping the expression ability to recover the whole policy space. We show that such lossless primitives can drastically improve the performance of hierarchical policies. The experimental results and extensive ablation studies on the standard D4RL benchmark show that our method has a good representation ability for policies and achieves superior performance in most tasks.
翻訳日:2022-12-05 16:04:34 公開日:2022-12-02
# MHCCL:多変量時系列の階層的クラスタワイドコントラスト学習

MHCCL: Masked Hierarchical Cluster-wise Contrastive Learning for Multivariate Time Series ( http://arxiv.org/abs/2212.01141v1 )

ライセンス: Link先を確認
Qianwen Meng, Hangwei Qian, Yong Liu, Yonghui Xu, Zhiqi Shen, Lizhen Cui(参考訳) 未ラベルの時系列データから意味豊かな表現を学習することは、分類や予測といった下流のタスクに不可欠である。 対照的な学習は、最近、専門家のアノテーションがない場合に有望な表現学習能力を示している。 しかし、既存の対照的なアプローチは一般的に各インスタンスを独立に扱い、同じ意味論を共有する偽の負のペアを生み出す。 この問題に対処するために,多変量時系列の複数の潜在パーティションからなる階層構造から得られた意味情報を利用する,マスケッド階層クラスタ単位のコントラスト学習モデルであるMHCCLを提案する。 細粒度クラスタリングが高純度を維持しつつ、粗粒度が高レベルのセマンティクスを反映しているという観察に動機づけられ、クラスタリング階層から複数の粒度情報を取り入れることで偽陰性をフィルタリングし、正を補う新しい下方マスキング戦略を提案する。 加えて、mhcclで新しい上向きマスキング戦略が設計され、各パーティションのクラスタの異常を取り除き、プロトタイプを洗練し、階層的クラスタリングプロセスを高速化し、クラスタリング品質を向上させる。 広帯域多変量時系列データセットの実験的評価を行う。 その結果,教師なし時系列表現学習における最先端手法よりもmhcclが優れていることが示された。

Learning semantic-rich representations from raw unlabeled time series data is critical for downstream tasks such as classification and forecasting. Contrastive learning has recently shown its promising representation learning capability in the absence of expert annotations. However, existing contrastive approaches generally treat each instance independently, which leads to false negative pairs that share the same semantics. To tackle this problem, we propose MHCCL, a Masked Hierarchical Cluster-wise Contrastive Learning model, which exploits semantic information obtained from the hierarchical structure consisting of multiple latent partitions for multivariate time series. Motivated by the observation that fine-grained clustering preserves higher purity while coarse-grained one reflects higher-level semantics, we propose a novel downward masking strategy to filter out fake negatives and supplement positives by incorporating the multi-granularity information from the clustering hierarchy. In addition, a novel upward masking strategy is designed in MHCCL to remove outliers of clusters at each partition to refine prototypes, which helps speed up the hierarchical clustering process and improves the clustering quality. We conduct experimental evaluations on seven widely-used multivariate time series datasets. The results demonstrate the superiority of MHCCL over the state-of-the-art approaches for unsupervised time series representation learning.
翻訳日:2022-12-05 16:04:14 公開日:2022-12-02
# FedALA: 個人化フェデレーション学習のための適応的ローカルアグリゲーション

FedALA: Adaptive Local Aggregation for Personalized Federated Learning ( http://arxiv.org/abs/2212.01197v1 )

ライセンス: Link先を確認
Jianqing Zhang, Yang Hua, Hao Wang, Tao Song, Zhengui Xue, Ruhui Ma, Haibing Guan(参考訳) 連合学習(FL)における重要な課題は、各クライアントにおけるグローバルモデルの一般化を損なう統計的不均一性である。 そこで本研究では,クライアントモデルのグローバルモデルにおける所望情報をパーソナライズしたflで捉えることで,適応局所アグリゲーション(fedala)を用いたフェデレート学習を提案する。 fedalaの重要なコンポーネントはadaptive local aggregation(ala)モジュールで、ダウンロードされたグローバルモデルとローカルモデルを各クライアントのローカル目標に向けて適応的に集約し、各イテレーションでトレーニングする前にローカルモデルを初期化することができる。 FedALAの有効性を評価するため、コンピュータビジョンと自然言語処理領域における5つのベンチマークデータセットを用いて広範な実験を行った。 FedALAは11の最先端のベースラインを最大3.27%の精度で上回っている。 さらに、ALAモジュールを他のフェデレーション学習手法に適用し、テスト精度を最大24.19%向上させる。

A key challenge in federated learning (FL) is the statistical heterogeneity that impairs the generalization of the global model on each client. To address this, we propose a method Federated learning with Adaptive Local Aggregation (FedALA) by capturing the desired information in the global model for client models in personalized FL. The key component of FedALA is an Adaptive Local Aggregation (ALA) module, which can adaptively aggregate the downloaded global model and local model towards the local objective on each client to initialize the local model before training in each iteration. To evaluate the effectiveness of FedALA, we conduct extensive experiments with five benchmark datasets in computer vision and natural language processing domains. FedALA outperforms eleven state-of-the-art baselines by up to 3.27% in test accuracy. Furthermore, we also apply ALA module to other federated learning methods and achieve up to 24.19% improvement in test accuracy.
翻訳日:2022-12-05 16:03:24 公開日:2022-12-02
# 低リソース手話翻訳への取り組み: UPC at WMT-SLT 22

Tackling Low-Resourced Sign Language Translation: UPC at WMT-SLT 22 ( http://arxiv.org/abs/2212.01140v1 )

ライセンス: Link先を確認
Laia Tarr\'es, Gerard I. G\`allego, Xavier Gir\'o-i-Nieto, Jordi Torres(参考訳) 本稿では, カタルーニャ大学(universitat polit\`ecnica de catalunya) において, 機械翻訳2022手話翻訳に関するワークショップ, 特に手話による手話翻訳作業のために開発されたシステムについて述べる。 Fairseqモデリングツールキットで実装されたTransformerモデルを使用する。 PHOENIX-14Tデータセットを用いて,語彙サイズ,データ拡張手法,モデルの事前学習実験を行った。 本システムは,テストセットに対して0.50 bleuスコアを取得し,主催者のベースラインを0.38 bleu改善する。 我々は,ベースラインとシステムの両方について,結果の貧弱さを指摘し,その結果の信頼性の欠如を指摘した。

This paper describes the system developed at the Universitat Polit\`ecnica de Catalunya for the Workshop on Machine Translation 2022 Sign Language Translation Task, in particular, for the sign-to-text direction. We use a Transformer model implemented with the Fairseq modeling toolkit. We have experimented with the vocabulary size, data augmentation techniques and pretraining the model with the PHOENIX-14T dataset. Our system obtains 0.50 BLEU score for the test set, improving the organizers' baseline by 0.38 BLEU. We remark the poor results for both the baseline and our system, and thus, the unreliability of our findings.
翻訳日:2022-12-05 15:57:21 公開日:2022-12-02
# 畳み込みと自己注意融合に基づくダンファン壁画の輪郭形成ネットワーク

Dunhuang murals contour generation network based on convolution and self-attention fusion ( http://arxiv.org/abs/2212.00935v1 )

ライセンス: Link先を確認
Baokai Liu, Fengjie He, Shiqiang Du, Kaiwu Zhang, Jianhua Wang(参考訳) ダンフアン壁画(dunhuang murals)は、中国様式と民族様式のコレクションであり、自給自足の中国式仏教美術を形成している。 歴史的、文化的な価値と研究がとても高い。 その中でも、ダンファン壁画のラインは非常に一般的で表現力豊かなものである。 キャラクターの独特の性格と複雑な内面の感情を反映している。 そのため、壁画の輪郭図はダンフアン文化の研究にとって非常に重要である。 ダンファン壁画の輪郭生成は、コンピュータビジョンの重要な分野である画像エッジ検出に属し、画像中の有意な輪郭情報を抽出することを目的としている。 畳み込みに基づく深層学習ネットワークは,画像の文脈的特徴と意味的特徴を探索することにより,画像エッジ抽出において良好な結果を得た。 しかし、受容領域の拡大に伴い、いくつかの局所的な詳細情報が失われる。 このため、壁画の合理的な輪郭図を作成することは不可能である。 本稿では,ダンファン壁画の線画を生成するために,自己注意と畳み込みを組み合わせた新しいエッジ検出器を提案する。 既存のエッジ検出法と比較して, 特徴マップの局所的特徴と大域的特徴を融合させるために, 新たな残余自己結合・畳み込み混合モジュール (ramix) を提案する。 第2に、浅層から深層へのリッチエッジ特徴情報を効率的に伝播する新しいバックボーン抽出ネットワークを設計する。 既存の手法と比較して,提案手法がよりシャープでリッチなエッジマップを生成することができることを示す。 さらに,Dunhuangの壁画データセットを用いたテストにより,本手法が極めて競争力のある性能を実現することを示す。

Dunhuang murals are a collection of Chinese style and national style, forming a self-contained Chinese-style Buddhist art. It has very high historical and cultural value and research significance. Among them, the lines of Dunhuang murals are highly general and expressive. It reflects the character's distinctive character and complex inner emotions. Therefore, the outline drawing of murals is of great significance to the research of Dunhuang Culture. The contour generation of Dunhuang murals belongs to image edge detection, which is an important branch of computer vision, aims to extract salient contour information in images. Although convolution-based deep learning networks have achieved good results in image edge extraction by exploring the contextual and semantic features of images. However, with the enlargement of the receptive field, some local detail information is lost. This makes it impossible for them to generate reasonable outline drawings of murals. In this paper, we propose a novel edge detector based on self-attention combined with convolution to generate line drawings of Dunhuang murals. Compared with existing edge detection methods, firstly, a new residual self-attention and convolution mixed module (Ramix) is proposed to fuse local and global features in feature maps. Secondly, a novel densely connected backbone extraction network is designed to efficiently propagate rich edge feature information from shallow layers into deep layers. Compared with existing methods, it is shown on different public datasets that our method is able to generate sharper and richer edge maps. In addition, testing on the Dunhuang mural dataset shows that our method can achieve very competitive performance.
翻訳日:2022-12-05 15:56:34 公開日:2022-12-02
# QC-StyleGAN --品質制御可能な画像生成と操作

QC-StyleGAN -- Quality Controllable Image Generation and Manipulation ( http://arxiv.org/abs/2212.00981v1 )

ライセンス: Link先を確認
Dat Viet Thanh Nguyen, Phong Tran The, Tan M. Dinh, Cuong Pham and Anh Tuan Tran(参考訳) 高品質な画像生成モデル、特にStyleGANファミリーの導入は、画像の合成と操作に強力なツールを提供する。 しかし、既存のモデルは所望の出力として高品質(HQ)データに基づいて構築されており、操作に共通する低品質(LQ)画像には適さない。 本研究では,制御可能な画質の画像を生成可能な新しいGAN構造を提案することにより,このギャップを埋める。 ネットワークは、様々な画像劣化を合成し、品質制御コードを介してシャープ画像を復元することができる。 提案するQC-StyleGANは,GANインバージョンと操作技術を適用して,LQ画像を直接編集する。 また、ノイズ、ぼかし、圧縮アーティファクト、およびそれらの混合物を含む様々な劣化を処理できる画像復元ソリューションを無償で提供する。 最後に, 画像劣化合成, 転写, 補間など, 多数の応用例を示す。

The introduction of high-quality image generation models, particularly the StyleGAN family, provides a powerful tool to synthesize and manipulate images. However, existing models are built upon high-quality (HQ) data as desired outputs, making them unfit for in-the-wild low-quality (LQ) images, which are common inputs for manipulation. In this work, we bridge this gap by proposing a novel GAN structure that allows for generating images with controllable quality. The network can synthesize various image degradation and restore the sharp image via a quality control code. Our proposed QC-StyleGAN can directly edit LQ images without altering their quality by applying GAN inversion and manipulation techniques. It also provides for free an image restoration solution that can handle various degradations, including noise, blur, compression artifacts, and their mixtures. Finally, we demonstrate numerous other applications such as image degradation synthesis, transfer, and interpolation.
翻訳日:2022-12-05 15:56:10 公開日:2022-12-02
# ランダム温度スケーリングによる顔認識モデルのトレーニングと推論の改善

Improving Training and Inference of Face Recognition Models via Random Temperature Scaling ( http://arxiv.org/abs/2212.01015v1 )

ライセンス: Link先を確認
Lei Shang, Mouxiao Huang, Wu Shi, Yuchen Liu, Yang Liu, Fei Wang, Baigui Sun, Xuansong Xie, Yu Qiao(参考訳) データ不確実性は、顔認識(FR)の画像でよく見られる。 しかし、ディープラーニングアルゴリズムは、不確実または無関係な入力であっても、高い信頼性で予測を行うことが多い。 直感的には、FRアルゴリズムは不確実性の推定とアウト・オブ・ディストリビューション(OOD)サンプルの検出の両方から恩恵を受けることができる。 現在の分類モデルの確率論的視点から、温度スカラーはソフトマックス関数に暗黙的に付加される不確実性雑音の尺度である。 一方、データセット内の画像の不確実性は、以前の分布に従うべきである。 本研究では, 不確実性モデリングとfrの統一フレームワークであるランダム温度スケーリング(rts)を提案し, 信頼性の高いfrアルゴリズムを学習する。 RTSの利点は2つある。 1) トレーニング段階では, クリーンでノイズの多いサンプルの学習強度を安定性と精度に調整することができる。 2)試験段階では,ラベルを付加することなく,不確実性,低品質,さらにはOODサンプルの検出に信頼性のスコアを与えることができる。 FRベンチマークの大規模な実験により、OOD検出指標として機能するRTSのばらつきの大きさは、入力画像の不確かさと密接に関連していることが示された。 RTSはFRとOODの両方検出タスクで最高のパフォーマンスを達成することができる。 さらに、RTSでトレーニングされたモデルは、ノイズのあるデータセットで堅牢に実行できる。 提案するモジュールは軽量であり、モデルに無視可能な計算コストを追加するのみである。

Data uncertainty is commonly observed in the images for face recognition (FR). However, deep learning algorithms often make predictions with high confidence even for uncertain or irrelevant inputs. Intuitively, FR algorithms can benefit from both the estimation of uncertainty and the detection of out-of-distribution (OOD) samples. Taking a probabilistic view of the current classification model, the temperature scalar is exactly the scale of uncertainty noise implicitly added in the softmax function. Meanwhile, the uncertainty of images in a dataset should follow a prior distribution. Based on the observation, a unified framework for uncertainty modeling and FR, Random Temperature Scaling (RTS), is proposed to learn a reliable FR algorithm. The benefits of RTS are two-fold. (1) In the training phase, it can adjust the learning strength of clean and noisy samples for stability and accuracy. (2) In the test phase, it can provide a score of confidence to detect uncertain, low-quality and even OOD samples, without training on extra labels. Extensive experiments on FR benchmarks demonstrate that the magnitude of variance in RTS, which serves as an OOD detection metric, is closely related to the uncertainty of the input image. RTS can achieve top performance on both the FR and OOD detection tasks. Moreover, the model trained with RTS can perform robustly on datasets with noise. The proposed module is light-weight and only adds negligible computation cost to the model.
翻訳日:2022-12-05 15:55:55 公開日:2022-12-02
# 雑音ラベル学習のためのモデルとデータ合意

Model and Data Agreement for Learning with Noisy Labels ( http://arxiv.org/abs/2212.01054v1 )

ライセンス: Link先を確認
Yuhang Zhang, Weihong Deng, Xingchen Cui, Yunfeng Yin, Hongzhi Shi, Dongchao Wen(参考訳) ノイズの多いラベルによる学習は、野放しのオープンワールドデータセットに対して堅牢なモデルであることから、実践的なディープラーニングにとって重要なトピックである。 最先端のノイズラベル学習アプローチであるJoCoRは、ノイズラベルの比率が大きい場合に失敗する。 また,低損失サンプルを選択すると,ノイズサンプルが誤って小損失サンプルとして選択されると,再度選択される可能性が高くなる。 本稿では,モデルとデータの両方の観点から,ノイズラベル学習における誤りの蓄積に対処する。 本稿では,よりロバストな損失関数と未選択サンプルからのより多くの情報を活用するために平均点アンサンブルを導入する。 さらに,フリップ画像が元の画像と同じ意味を持つため,フリップ画像の損失値に応じて小さなサンプルを選択することで,データの観点から誤差の蓄積を低減する。 cifar-10, cifar-100, large-scale clothing1mを広範囲に実験した結果, ラベルノイズのレベルが異なる, 最先端の雑音ラベル学習法を上回った。 また,提案手法を他の雑音ラベル学習手法とシームレスに組み合わせることで,その性能を向上し,他のタスクによく対応させることができる。 コードはhttps://github.com/zyh-uaiaaaa/MDA-noisy-label-learningで入手できる。

Learning with noisy labels is a vital topic for practical deep learning as models should be robust to noisy open-world datasets in the wild. The state-of-the-art noisy label learning approach JoCoR fails when faced with a large ratio of noisy labels. Moreover, selecting small-loss samples can also cause error accumulation as once the noisy samples are mistakenly selected as small-loss samples, they are more likely to be selected again. In this paper, we try to deal with error accumulation in noisy label learning from both model and data perspectives. We introduce mean point ensemble to utilize a more robust loss function and more information from unselected samples to reduce error accumulation from the model perspective. Furthermore, as the flip images have the same semantic meaning as the original images, we select small-loss samples according to the loss values of flip images instead of the original ones to reduce error accumulation from the data perspective. Extensive experiments on CIFAR-10, CIFAR-100, and large-scale Clothing1M show that our method outperforms state-of-the-art noisy label learning methods with different levels of label noise. Our method can also be seamlessly combined with other noisy label learning methods to further improve their performance and generalize well to other tasks. The code is available in https://github.com/zyh-uaiaaaa/MDA-noisy-label-learning.
翻訳日:2022-12-05 15:55:35 公開日:2022-12-02
# ストレートスルー勾配とソフトスレッディングはスパーストレーニングに必要か?

Are Straight-Through gradients and Soft-Thresholding all you need for Sparse Training? ( http://arxiv.org/abs/2212.01076v1 )

ライセンス: Link先を確認
Antoine Vanderschueren and Christophe De Vleeschouwer(参考訳) ニューラルネットワークをトレーニングするとき、重みをゼロにすることは、推論の計算複雑性を減らすのに役立ちます。 トレーニング中に急激な重みの不連続を生じさせることなく,ネットワーク内の疎度比を漸進的に向上させるため,ソフトスレッディングとストレートスルー勾配推定を組み合わせることで,ゼロトレッディング版を更新する。 本手法は, ストレートスルー/ソフトスレッショルド/スパーストレーニングのためのST-3と命名され, 1回のトレーニングサイクルにおいて, 間隔比を徐々に増大させると, 精度/スパース性および精度/FLOPSトレードオフの両面からSoA結果を得る。 特に、その単純さにもかかわらず、st-3は最も最近の方法と比較し、微分可能な定式化や生体インスパイアされた神経再生原理を採用する。 これは、有効スパーシフィケーションの鍵となる要素は、重み付けにゼロ状態を越えてスムーズに進化できる自由を与えつつ、スパーシフィケーション比を徐々に増加させる能力であることを示唆している。 ソースコードと重みはhttps://github.com/vanderschuea/stthreeで利用可能

Turning the weights to zero when training a neural network helps in reducing the computational complexity at inference. To progressively increase the sparsity ratio in the network without causing sharp weight discontinuities during training, our work combines soft-thresholding and straight-through gradient estimation to update the raw, i.e. non-thresholded, version of zeroed weights. Our method, named ST-3 for straight-through/soft-thresholding/sparse-training, obtains SoA results, both in terms of accuracy/sparsity and accuracy/FLOPS trade-offs, when progressively increasing the sparsity ratio in a single training cycle. In particular, despite its simplicity, ST-3 favorably compares to the most recent methods, adopting differentiable formulations or bio-inspired neuroregeneration principles. This suggests that the key ingredients for effective sparsification primarily lie in the ability to give the weights the freedom to evolve smoothly across the zero state while progressively increasing the sparsity ratio. Source code and weights available at https://github.com/vanderschuea/stthree
翻訳日:2022-12-05 15:55:11 公開日:2022-12-02
# 3D-TOGO:テキストガイド型クロスカテゴリ3Dオブジェクト生成を目指して

3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation ( http://arxiv.org/abs/2212.01103v1 )

ライセンス: Link先を確認
Zutao Jiang, Guangsong Lu, Xiaodan Liang, Jihua Zhu, Wei Zhang, Xiaojun Chang, Hang Xu(参考訳) テキストガイドによる3dオブジェクト生成は、ユーザー定義のキャプションで記述された3dオブジェクトを生成することを目的としています。 この困難な課題を解決するために、いくつかの作品が費やされてきたが、これらの作品は、テクスチャが無く、フォトリアリスティックなビューのレンダリングに後処理を必要とする、明示的な3d表現(例えばメッシュ)を利用するか、全てのケースで個別の時間消費最適化を必要とする。 本稿では,テキスト対ビュー生成モジュールとviews-to-3d生成モジュールを統合した新しい3d-togoモデルを用いて,汎用的なテキスト誘導型クロスカテゴリオブジェクト生成を実現する最初の試みを行う。 テキスト・ツー・ビュー生成モジュールは、入力キャプションが与えられたターゲット3Dオブジェクトの異なるビューを生成するように設計されている。 より優れたビュー一貫性とキャプション類似性を実現するために,事前指導,キャプション指導,コントラスト学習を提案する。 一方、ビュー・トゥ・3D生成モジュールに対して画素NeRFモデルを採用し、予め生成されたビューから暗黙的な3Dニューラル表現を得る。 我々の3D-TOGOモデルでは,各キャプションの時間的最適化を必要とせず,テクスチャのよいニューラルラディアンスフィールドの形で3Dオブジェクトを生成する。 また、3d-togoは、入力キャプションで生成された3dオブジェクトのカテゴリ、色、形状を制御できる。 最大3Dオブジェクトデータセット(つまりABO)の大規模な実験を行い、3D-TOGOがテキストNeRFやドリームフィールドに比べてPSNR、SSIM、LPIPS、CLIPスコアといった98のカテゴリにわたる入力キャプションに基づいて高品質な3Dオブジェクトを生成できることを検証する。

Text-guided 3D object generation aims to generate 3D objects described by user-defined captions, which paves a flexible way to visualize what we imagined. Although some works have been devoted to solving this challenging task, these works either utilize some explicit 3D representations (e.g., mesh), which lack texture and require post-processing for rendering photo-realistic views; or require individual time-consuming optimization for every single case. Here, we make the first attempt to achieve generic text-guided cross-category 3D object generation via a new 3D-TOGO model, which integrates a text-to-views generation module and a views-to-3D generation module. The text-to-views generation module is designed to generate different views of the target 3D object given an input caption. prior-guidance, caption-guidance and view contrastive learning are proposed for achieving better view-consistency and caption similarity. Meanwhile, a pixelNeRF model is adopted for the views-to-3D generation module to obtain the implicit 3D neural representation from the previously-generated views. Our 3D-TOGO model generates 3D objects in the form of the neural radiance field with good texture and requires no time-cost optimization for every single caption. Besides, 3D-TOGO can control the category, color and shape of generated 3D objects with the input caption. Extensive experiments on the largest 3D object dataset (i.e., ABO) are conducted to verify that 3D-TOGO can better generate high-quality 3D objects according to the input captions across 98 different categories, in terms of PSNR, SSIM, LPIPS and CLIP-score, compared with text-NeRF and Dreamfields.
翻訳日:2022-12-05 15:54:48 公開日:2022-12-02
# DWRSeg:リアルタイムセマンティックセグメンテーションのための拡張ワイド残差ネットワーク

DWRSeg: Dilation-wise Residual Network for Real-time Semantic Segmentation ( http://arxiv.org/abs/2212.01173v1 )

ライセンス: Link先を確認
Haoran Wei, Xu Liu, Shouchun Xu, Zhongjian Dai, Yaping Dai, Xiangyang Xu(参考訳) リアルタイムセマンティクスセグメンテーションは、インテリジェントな自動車シナリオにおいて重要な役割を果たす。 近年,リアルタイムセマンティックセグメンテーションタスクにおける特徴抽出を容易にするために,多次元受容場からの情報を組み込んだネットワークが多数存在する。 しかし、これらの手法はより文脈情報を引き出すために大量の受容フィールドを優先的に採用し、結果として非効率な特徴抽出に繋がる可能性がある。 我々は,リアルタイムタスクにおける効率的な特徴抽出の要求を考える上で,精巧な受容野が重要であると信じている。 そこで我々はDWRSeg(Dilation-wise Residual segmentation, DWRSeg)と呼ばれる,異なる段階の受容場サイズを持つ効率的かつ効率的なアーキテクチャを提案する。 建築には (i)ネットワークの高レベルにおける受容野の異なるスケールに基づいて特徴を抽出するための拡張的残差(dwr)モジュール (ii)低段から特徴を抽出するために逆ボトルネック構造を用いる簡易な逆残差(sir)モジュール 3) 簡易な完全畳み込みネットワーク(FCN)型デコーダを用いて, マルチスケール特徴写像を集約し, 予測を生成する。 CityscapesとCamVidデータセットの大規模な実験は、より軽量なだけでなく、精度と推論速度の間の最先端のトレードオフを達成して、我々の手法の有効性を実証している。 事前トレーニングやトレーニングのトリックを使わずに、nvidia geforce gtx 1080 tiカードで319.5 fpsの速度でcityscapesテストセットで72.7%miouを達成しました。 コードとトレーニングされたモデルは公開されている。

Real-time semantic segmentation has played an important role in intelligent vehicle scenarios. Recently, numerous networks have incorporated information from multi-size receptive fields to facilitate feature extraction in real-time semantic segmentation tasks. However, these methods preferentially adopt massive receptive fields to elicit more contextual information, which may result in inefficient feature extraction. We believe that the elaborated receptive fields are crucial, considering the demand for efficient feature extraction in real-time tasks. Therefore, we propose an effective and efficient architecture termed Dilation-wise Residual segmentation (DWRSeg), which possesses different sets of receptive field sizes within different stages. The architecture involves (i) a Dilation-wise Residual (DWR) module for extracting features based on different scales of receptive fields in the high level of the network; (ii) a Simple Inverted Residual (SIR) module that uses an inverted bottleneck structure to extract features from the low stage; and (iii) a simple fully convolutional network (FCN)-like decoder for aggregating multiscale feature maps to generate the prediction. Extensive experiments on the Cityscapes and CamVid datasets demonstrate the effectiveness of our method by achieving a state-of-the-art trade-off between accuracy and inference speed, in addition to being lighter weight. Without using pretraining or resorting to any training trick, we achieve 72.7% mIoU on the Cityscapes test set at a speed of 319.5 FPS on one NVIDIA GeForce GTX 1080 Ti card, which is significantly faster than existing methods. The code and trained models are publicly available.
翻訳日:2022-12-05 15:54:15 公開日:2022-12-02
# ネストされた名前付きエンティティ認識

Few-Shot Nested Named Entity Recognition ( http://arxiv.org/abs/2212.00953v1 )

ライセンス: Link先を確認
Hong Ming, Jiaoyun Yang, Lili Jiang, Yan Pan, Ning An(参考訳) Named Entity Recognition (NER)は広く研究されているタスクであるが、特にネスト構造を持つエンティティでは、少数のラベル付きデータを持つエンティティの推論が難しい。 フラットなエンティティと異なり、エンティティとそのネストされたエンティティは、類似したセマンティックな特徴表現を持つ傾向があり、いくつかのショット設定で異なるエンティティカテゴリを分類することの難しさが大幅に増加する。 これまでの研究は、数発の学習という文脈でネストされた構造を論じてきたが、私たちの知る限り、この論文は、数発のネストされたNERタスクを研究することに特化した初めてのものである。 文脈依存を利用してネストしたエンティティを区別し,bcl(biaffine-based contrastive learning)フレームワークを提案する。 まず、各エンティティのコンテキストスパン依存表現を、意味表現のみを学習するのではなく、学習するためのBiaffineスパン表現モジュールを設計する。 次にこれら2つの表現を残留接続でマージし、ネストされたエンティティを区別する。 最後に、より大きなマージン境界とより一般化されたドメイン転送学習能力に対する表現分布を調整するための対比学習フレームワークを構築した。 我々は,英語,ドイツ語,ロシア語のネストNERデータセットについて実験を行った。 その結果、BCLはF1スコアで1ショットと5ショットのタスクで3つのベースラインモデルを上回った。

While Named Entity Recognition (NER) is a widely studied task, making inferences of entities with only a few labeled data has been challenging, especially for entities with nested structures. Unlike flat entities, entities and their nested entities are more likely to have similar semantic feature representations, drastically increasing difficulties in classifying different entity categories in the few-shot setting. Although prior work has briefly discussed nested structures in the context of few-shot learning, to our best knowledge, this paper is the first one specifically dedicated to studying the few-shot nested NER task. Leveraging contextual dependency to distinguish nested entities, we propose a Biaffine-based Contrastive Learning (BCL) framework. We first design a Biaffine span representation module for learning the contextual span dependency representation for each entity span rather than only learning its semantic representation. We then merge these two representations by the residual connection to distinguish nested entities. Finally, we build a contrastive learning framework to adjust the representation distribution for larger margin boundaries and more generalized domain transfer learning ability. We conducted experimental studies on three English, German, and Russian nested NER datasets. The results show that the BCL outperformed three baseline models on the 1-shot and 5-shot tasks in terms of F1 score.
翻訳日:2022-12-05 15:47:43 公開日:2022-12-02
# 質問応答のための関係認識言語グラフ変換

Relation-aware Language-Graph Transformer for Question Answering ( http://arxiv.org/abs/2212.00975v1 )

ライセンス: Link先を確認
Jinyoung Park, Hyeong Kyu Choi, Juyeon Ko, Hyeonjin Park, Ji-Hoon Kim, Jisu Jeong, Kyungmin Kim, Hyunwoo J. Kim(参考訳) 質問回答(QA)は自然言語の文脈を推論するタスクであり、関連する多くの作業は、言語モデル(LM)をグラフニューラルネットワーク(GNN)で拡張し、知識グラフ(KG)情報をエンコードする。 しかし、既存のGNNベースのQAモジュールの多くは、KGのリッチリレーショナル情報を活用せず、LMとKG間の限られた情報相互作用に依存している。 これらの問題に対処するために,言語とグラフを統一的に関連づける質問応答変換器(QAT)を提案する。 具体的には、QATはメタパストークンを構築し、多様な構造的および意味的関係に基づいて関係中心の埋め込みを学習する。 そこで,我々のRelation-Aware Self-Attentionモジュールは,異なるモダリティの関連エンティティ間の情報交換をガイドするクロスモーダル相対位置バイアスを通じて,様々なモダリティを包括的に統合する。 我々は,CommonsenseQA や OpenBookQA などの常識質問応答データセットと医療質問応答データセット MedQA-USMLE に対するQAT の有効性を検証する。 すべてのデータセットにおいて,本手法は最先端の性能を実現する。 私たちのコードはhttp://github.com/mlvlab/qatで利用可能です。

Question Answering (QA) is a task that entails reasoning over natural language contexts, and many relevant works augment language models (LMs) with graph neural networks (GNNs) to encode the Knowledge Graph (KG) information. However, most existing GNN-based modules for QA do not take advantage of rich relational information of KGs and depend on limited information interaction between the LM and the KG. To address these issues, we propose Question Answering Transformer (QAT), which is designed to jointly reason over language and graphs with respect to entity relations in a unified manner. Specifically, QAT constructs Meta-Path tokens, which learn relation-centric embeddings based on diverse structural and semantic relations. Then, our Relation-Aware Self-Attention module comprehensively integrates different modalities via the Cross-Modal Relative Position Bias, which guides information exchange between relevant entities of different modalities. We validate the effectiveness of QAT on commonsense question answering datasets like CommonsenseQA and OpenBookQA, and on a medical question answering dataset, MedQA-USMLE. On all the datasets, our method achieves state-of-the-art performance. Our code is available at http://github.com/mlvlab/QAT.
翻訳日:2022-12-05 15:47:18 公開日:2022-12-02
# パラメータ効率の良い微調整のための自己教師付きモデルプライミングの汎用フレームワーク

General Framework for Self-Supervised Model Priming for Parameter-Efficient Fine-tuning ( http://arxiv.org/abs/2212.01032v1 )

ライセンス: Link先を確認
Shih-Cheng Huang, Shih-Heng Wang, Min-Han Shih, Saurav Sahay, Hung-yi Lee(参考訳) 最近、学習済み言語モデルを下流タスクに適応させるためのパラメータ効率の高いメソッド(プロンプトやアダプタなど)が人気である。 しかし、障害はこれらの方法が完全な可能性に達するのを防ぐ。 例えば、2つの重要な課題は、少数ショット適応とクロスタスク一般化能力である。 これらの課題に対処するために,パラメータ効率の高い手法の少数ショット適応とクロスドメイン一般化能力を高めるための汎用フレームワークを提案する。 本フレームワークでは,パラメータ効率向上のための自己教師型モデルを用いて,下流の諸課題に迅速に適応する。 パラメータ効率の高い手法の真の一般化能力を評価するために,160種類のNLPタスクを含む数ショットのクロスドメインベンチマーク実験を行った。 実験結果から, PLM の調整を余分なトレーニングタスクのみで行うと, 最高の性能が得られることがわかった。 また,数ショットのクロスドメインシナリオ下で,パラメータ効率の異なる手法を包括的に分析する。

Parameter-efficient methods (like Prompt or Adapters) for adapting pre-trained language models to downstream tasks have been popular recently. However, hindrances still prevent these methods from reaching their full potential. For example, two significant challenges are few-shot adaptation and cross-task generalization ability. To tackle these issues, we propose a general framework to enhance the few-shot adaptation and cross-domain generalization ability of parameter-efficient methods. In our framework, we prime the self-supervised model for parameter-efficient methods to rapidly adapt to various downstream few-shot tasks. To evaluate the authentic generalization ability of these parameter-efficient methods, we conduct experiments on a few-shot cross-domain benchmark containing 160 diverse NLP tasks. The experiment result reveals that priming by tuning PLM only with extra training tasks leads to the best performance. Also, we perform a comprehensive analysis of various parameter-efficient methods under few-shot cross-domain scenarios.
翻訳日:2022-12-05 15:46:54 公開日:2022-12-02
# salience-aware graph learningによるマルチホップファクト検証の忠実な根拠の検討

Exploring Faithful Rationale for Multi-hop Fact Verification via Salience-Aware Graph Learning ( http://arxiv.org/abs/2212.01060v1 )

ライセンス: Link先を確認
Jiasheng Si, Yingjie Zhu, Deyu Zhou(参考訳) マルチホップ事実検証モデルの不透明性は説明可能性に対する命令的要件を課す。 一つの実現可能な方法は、入力のサブセットである合理性を抽出することであり、そこでは、除去されたときに予測性能が劇的に低下する。 説明はできるが、マルチホップ事実検証のための最も合理的な抽出法は、それぞれの証拠の中の意味情報を個別に探索し、異なる証拠間のトポロジ的情報相互作用を無視している。 直感的には、忠実な理性は、多重ホップ推論プロセスを通じて他の理性を引き出すことができる相補的な情報を持つ。 このような欠点に対処するために,グラフ畳み込みネットワーク(gcn)に基づくグラフ学習を用いて,説明可能な多重ホップ事実検証をサブグラフ抽出として提案する。 特に、gcnはエビデンス表現を学ぶために複数のエビデンスにトポロジカルな相互作用情報を組み込むのに使われている。 一方、ノイズのある証拠の影響を軽減するために、サリエンス対応グラフ摂動がGCNのメッセージパッシングに誘導される。 さらに,3つの診断特性を持つマルチタスクモデルは,明示的なアノテーションを伴わずに説明の質を向上させるために精巧に設計されている。 FEVEROUSベンチマークの実験結果から,従来の最先端手法に比べて有理抽出と事実検証の両面で有意な向上を示した。

The opaqueness of the multi-hop fact verification model imposes imperative requirements for explainability. One feasible way is to extract rationales, a subset of inputs, where the performance of prediction drops dramatically when being removed. Though being explainable, most rationale extraction methods for multi-hop fact verification explore the semantic information within each piece of evidence individually, while ignoring the topological information interaction among different pieces of evidence. Intuitively, a faithful rationale bears complementary information being able to extract other rationales through the multi-hop reasoning process. To tackle such disadvantages, we cast explainable multi-hop fact verification as subgraph extraction, which can be solved based on graph convolutional network (GCN) with salience-aware graph learning. In specific, GCN is utilized to incorporate the topological interaction information among multiple pieces of evidence for learning evidence representation. Meanwhile, to alleviate the influence of noisy evidence, the salience-aware graph perturbation is induced into the message passing of GCN. Moreover, the multi-task model with three diagnostic properties of rationale is elaborately designed to improve the quality of an explanation without any explicit annotations. Experimental results on the FEVEROUS benchmark show significant gains over previous state-of-the-art methods for both rationale extraction and fact verification.
翻訳日:2022-12-05 15:46:40 公開日:2022-12-02
# ハイブリッド潜在変数を用いた多種多様・関連性・コヒーレントなオープンドメイン対話生成に向けて

Towards Diverse, Relevant and Coherent Open-Domain Dialogue Generation via Hybrid Latent Variables ( http://arxiv.org/abs/2212.01145v1 )

ライセンス: Link先を確認
Bin Sun, Yitong Li, Fei Mi, Weichao Wang, Yiwei Li, Kan Li(参考訳) 連続変数または離散変数を用いた条件変動モデルは、オープンドメイン対話応答生成に強力である。 しかし、従来の研究では、連続的潜在変数は生成した応答の一貫性を減少させる傾向がある。 本稿では,離散的潜在変数がより多様な表現を取り込むのに困難であることを見出した。 これらの問題に対処するために、連続変数と離散変数の両方の利点を組み合わせて、Hybrid Latent Variable (HLV)法を提案する。 具体的には、HLVは離散潜伏変数を通して応答のグローバルな意味を制約し、連続潜伏変数による応答を豊かにする。 そこで我々は,関連性と一貫性を維持しつつ,生成した応答を多様化する。 さらに, HLV と変換器を併用して対話生成を行うための条件付きハイブリッド変分変換器 (CHVT) を提案する。 微粒な記号レベルの意味情報と付加的なガウス混合によって連続変数の分布を構築し、多様な表現を生成する。 一方、関連性と一貫性を維持するため、離散潜在変数は自己分離訓練によって最適化される。 2つの対話生成データセット(DailyDialogとOpensubtitles)の実験結果から、CHVTは従来の変圧器による多様性、妥当性、コヒーレンスメトリクスよりも優れていることが示された。 さらに,事前学習した2つの対話モデル(PLATOとBART-base)にHLVを適用する利点を示す。

Conditional variational models, using either continuous or discrete latent variables, are powerful for open-domain dialogue response generation. However, previous works show that continuous latent variables tend to reduce the coherence of generated responses. In this paper, we also found that discrete latent variables have difficulty capturing more diverse expressions. To tackle these problems, we combine the merits of both continuous and discrete latent variables and propose a Hybrid Latent Variable (HLV) method. Specifically, HLV constrains the global semantics of responses through discrete latent variables and enriches responses with continuous latent variables. Thus, we diversify the generated responses while maintaining relevance and coherence. In addition, we propose Conditional Hybrid Variational Transformer (CHVT) to construct and to utilize HLV with transformers for dialogue generation. Through fine-grained symbolic-level semantic information and additive Gaussian mixing, we construct the distribution of continuous variables, prompting the generation of diverse expressions. Meanwhile, to maintain the relevance and coherence, the discrete latent variable is optimized by self-separation training. Experimental results on two dialogue generation datasets (DailyDialog and Opensubtitles) show that CHVT is superior to traditional transformer-based variational mechanism w.r.t. diversity, relevance and coherence metrics. Moreover, we also demonstrate the benefit of applying HLV to fine-tuning two pre-trained dialogue models (PLATO and BART-base).
翻訳日:2022-12-05 15:46:15 公開日:2022-12-02
# 共同オープン知識ベース標準化とリンク

Joint Open Knowledge Base Canonicalization and Linking ( http://arxiv.org/abs/2212.01207v1 )

ライセンス: Link先を確認
Yinan Liu and Wei Shen and Yuanfei Wang and Jianyong Wang and Zhenglu Yang and Xiaojie Yuan(参考訳) オープンインフォメーション抽出(OIE)手法は、大量のオープンナレッジベース(OKB)を構成する大量のOIEトリプル(名詞句、関係句、名詞句)をテキストから抽出する。 しかし、OKBの名詞句(NPs)と関係句(RPs)は正規化されておらず、しばしば異なるパラフレーズのテキスト変種に現れ、冗長で曖昧な事実をもたらす。 この問題に対処するためには、OKB正準化(英語版)(NPとRPを正準化形式に変換する)とOKBリンク(英語版)(NPとRPを対応するエンティティとリンクする、DBPediaなど)という2つの関連するタスクがある。 これら2つのタスクは密結合であり、一方のタスクはもう一方のタスクから著しく恩恵を受ける可能性がある。 しかし、これまでは孤立して研究されてきた。 本稿では,okbの正準化とリンクの課題を初めて検討し,それらを相互に強化するための因子グラフモデルに基づく新しいフレームワークjoclを提案する。 JOCLは両方のタスクから異なる信号を組み合わせるのに十分な柔軟性があり、新しい信号に合うように拡張することができる。 2つの大規模OIEトリプルデータセットに関する徹底的な実験的研究により、我々のフレームワークは平均F1(精度)でOKB標準化(OKBリンク)タスクのベースラインメソッドを全て上回っていることが示された。

Open Information Extraction (OIE) methods extract a large number of OIE triples (noun phrase, relation phrase, noun phrase) from text, which compose large Open Knowledge Bases (OKBs). However, noun phrases (NPs) and relation phrases (RPs) in OKBs are not canonicalized and often appear in different paraphrased textual variants, which leads to redundant and ambiguous facts. To address this problem, there are two related tasks: OKB canonicalization (i.e., convert NPs and RPs to canonicalized form) and OKB linking (i.e., link NPs and RPs with their corresponding entities and relations in a curated Knowledge Base (e.g., DBPedia). These two tasks are tightly coupled, and one task can benefit significantly from the other. However, they have been studied in isolation so far. In this paper, we explore the task of joint OKB canonicalization and linking for the first time, and propose a novel framework JOCL based on factor graph model to make them reinforce each other. JOCL is flexible enough to combine different signals from both tasks, and able to extend to fit any new signals. A thorough experimental study over two large scale OIE triple data sets shows that our framework outperforms all the baseline methods for the task of OKB canonicalization (OKB linking) in terms of average F1 (accuracy).
翻訳日:2022-12-05 15:45:47 公開日:2022-12-02
# 法的プロンプト: 言語モデルに弁護士のように考えることを教える

Legal Prompting: Teaching a Language Model to Think Like a Lawyer ( http://arxiv.org/abs/2212.01326v1 )

ライセンス: Link先を確認
Fangyi Yu, Lee Quartey, Frank Schilder(参考訳) ゼロまたは少数ショットのプロンプトアプローチが可能な大規模言語モデルは、プロンプトエンジニアリングの新しい研究領域を生み出している。 最近の進歩は、例えば、Chain-of-Thought(CoT)プロンプトは算術や常識タスクを大幅に改善できることを示している。 このようなアプローチが法的な推論課題と公平に合致し、ゼロショット/フェウショットおよび微調整アプローチをテストするための日本の司法試験に基づいて、コリテーターの補足課題を受講する方法について検討する。 以上の結果から, IRAC (Issue, Rule, Application, Conclusion) などの特定の法的推論手法から導出されるプロンプトにより, CoT のプロンプトと微調整が改善を示す一方で, 最良の結果が得られた。 実験結果から,2021年の最高精度を0.7037から0.8148に改善し,0.6789の2022の最高精度を0.7431で上回った。

Large language models that are capable of zero or few-shot prompting approaches have given rise to the new research area of prompt engineering. Recent advances showed that for example Chain-of-Thought (CoT) prompts can improve arithmetic or common sense tasks significantly. We explore how such approaches fair with legal reasoning tasks and take the COLIEE entailment task based on the Japanese Bar exam for testing zero-shot/few-shot and fine-tuning approaches. Our findings show that while CoT prompting and fine-tuning with explanations approaches show improvements, the best results are produced by prompts that are derived from specific legal reasoning techniques such as IRAC (Issue, Rule, Application, Conclusion). Based on our experiments we improve the 2021 best result from 0.7037 accuracy to 0.8148 accuracy and beat the 2022 best system of 0.6789 accuracy with an accuracy of 0.7431.
翻訳日:2022-12-05 15:45:21 公開日:2022-12-02
# スパイキングニューラルネットワークにおけるイベントプロップによる正確な勾配学習の強化

Loss shaping enhances exact gradient learning with EventProp in Spiking Neural Networks ( http://arxiv.org/abs/2212.01232v1 )

ライセンス: Link先を確認
Thomas Nowotny, James P. Turner, James C. Knight(参考訳) Wunderlich氏とPehle氏は最近の論文で、正確な勾配の勾配勾配によるニューラルネットワークのトレーニングを可能にするEventPropアルゴリズムを紹介した。 本稿では、より広範な損失関数をサポートするEventPropの拡張と、疎性を利用したGPU拡張ニューロンネットワークフレームワークの実装について述べる。 GPUアクセラレーションにより、より難しい学習ベンチマークでEventPropを広範囲にテストできます。 eventpropはいくつかのタスクでうまく機能するが、学習が遅かったり、完全に失敗したりする問題もある。 そこで本研究では,これらの問題を詳細に分析し,スパイク生成やスパイク削除による損失変化に関する情報を提供しない損失関数の正確な勾配の利用に関係していることを発見した。 タスクと損失関数の詳細に応じて、eventpropで正確な勾配を降下すると重要なスパイクが削除され、不注意に損失が増加し、分類精度が低下し、学習が失敗する。 他の状況では、追加のスパイクを作成することの利点に関する知識の欠如は、以前のレイヤへの勾配フローの欠如につながり、学習を遅くする。 最終的に、これらの問題の解法を ‘loss shaping' という形で初めて可視化し、積分損失に適切な重み付け関数を導入し、出力層から以前の層への勾配フローを増加させる。

In a recent paper Wunderlich and Pehle introduced the EventProp algorithm that enables training spiking neural networks by gradient descent on exact gradients. In this paper we present extensions of EventProp to support a wider class of loss functions and an implementation in the GPU enhanced neuronal networks framework which exploits sparsity. The GPU acceleration allows us to test EventProp extensively on more challenging learning benchmarks. We find that EventProp performs well on some tasks but for others there are issues where learning is slow or fails entirely. Here, we analyse these issues in detail and discover that they relate to the use of the exact gradient of the loss function, which by its nature does not provide information about loss changes due to spike creation or spike deletion. Depending on the details of the task and loss function, descending the exact gradient with EventProp can lead to the deletion of important spikes and so to an inadvertent increase of the loss and decrease of classification accuracy and hence a failure to learn. In other situations the lack of knowledge about the benefits of creating additional spikes can lead to a lack of gradient flow into earlier layers, slowing down learning. We eventually present a first glimpse of a solution to these problems in the form of `loss shaping', where we introduce a suitable weighting function into an integral loss to increase gradient flow from the output layer towards earlier layers.
翻訳日:2022-12-05 15:39:37 公開日:2022-12-02
# 効率的なビデオテキスト検索のためのマスキングコントラスト事前学習

Masked Contrastive Pre-Training for Efficient Video-Text Retrieval ( http://arxiv.org/abs/2212.00986v1 )

ライセンス: Link先を確認
Fangxun Shu, Biaolong Chen, Yue Liao, Ke Gao, Shuwen Xiao, Wenyu Sun, Xiaobo Li, Yousong Zhu, Jinqiao Wang and Si Liu(参考訳) ビデオテキスト検索タスクに対して,ビデオ言語事前学習(VidLP)フレームワークであるMasked Contrastive Video-Language Pretraining(MAC)を提案する。 我々のMACは,VidLPモデルにおける映像表現の空間的・時間的冗長性をマスクサンプリング機構により低減し,事前学習効率を向上させることを目的としている。 従来の時空間サンプリングと比較して,空間領域の高比をランダムにマスキングし,空間サンプリングとしてエンコーダに可視領域を供給することを提案する。 同様に,テキスト入力のためのマスクサンプリング技術も採用している。 mae のマスキング予測パラダイムを盲目的に適用する代わりに,効率的なビデオテキストアライメントのためのマスキング予測パラダイムを提案する。 モチベーションは、ビデオテキスト検索タスクが低レベルリコンストラクションよりも高レベルアライメントに依存しており、マスキングモデリングとのマルチモーダルアライメントは、不完全で不安定な入力から堅牢で一般的なマルチモーダル表現を学ぶことを奨励している。 これらの設計を結合することで、FLOP(60%オフ)の削減、事前トレーニング(3倍)の高速化、性能向上など、効率的なエンドツーエンドの事前トレーニングが可能になる。 我々のMACは、MSR-VTT、DiDeMo、ActivityNetなど、様々なビデオテキスト検索データセットの最先端結果を達成する。 私たちのアプローチは入力モダリティに全能的です。 最小限の変更で、画像テキスト検索タスクの競合的な結果が得られる。

We present a simple yet effective end-to-end Video-language Pre-training (VidLP) framework, Masked Contrastive Video-language Pretraining (MAC), for video-text retrieval tasks. Our MAC aims to reduce video representation's spatial and temporal redundancy in the VidLP model by a mask sampling mechanism to improve pre-training efficiency. Comparing conventional temporal sparse sampling, we propose to randomly mask a high ratio of spatial regions and only feed visible regions into the encoder as sparse spatial sampling. Similarly, we adopt the mask sampling technique for text inputs for consistency. Instead of blindly applying the mask-then-prediction paradigm from MAE, we propose a masked-then-alignment paradigm for efficient video-text alignment. The motivation is that video-text retrieval tasks rely on high-level alignment rather than low-level reconstruction, and multimodal alignment with masked modeling encourages the model to learn a robust and general multimodal representation from incomplete and unstable inputs. Coupling these designs enables efficient end-to-end pre-training: reduce FLOPs (60% off), accelerate pre-training (by 3x), and improve performance. Our MAC achieves state-of-the-art results on various video-text retrieval datasets, including MSR-VTT, DiDeMo, and ActivityNet. Our approach is omnivorous to input modalities. With minimal modifications, we achieve competitive results on image-text retrieval tasks.
翻訳日:2022-12-05 15:39:00 公開日:2022-12-02
# AGRO:ロバスト最適化のためのエラープロングループの逆発見

AGRO: Adversarial Discovery of Error-prone groups for Robust Optimization ( http://arxiv.org/abs/2212.00921v1 )

ライセンス: Link先を確認
Bhargavi Paranjape, Pradeep Dasigi, Vivek Srikumar, Luke Zettlemoyer and Hannaneh Hajishirzi(参考訳) 経験的リスク最小化(ERM)によって訓練されたモデルは、ラベルとタスク非依存の入力特徴の間の急激な相関に依存することが知られており、結果として分布シフトへの一般化が不十分である。 群分散ロバスト最適化(G-DRO)は、トレーニングデータ上の一連の事前定義されたグループに対する最悪の損失を最小限に抑えることでこの問題を軽減することができる。 G-DROは相関が保たない最悪のグループの性能を向上させる。 しかしながら、G-DROは、スプリアス相関と関連する最悪の群が事前に知られていると仮定し、潜在的に未知のスプリアス相関を持つ新しいタスクに適用することは困難である。 AGRO -- Adversarial Group discovery for Distributionally Robust Optimization - エラーが発生しやすいグループを共同で識別し、精度を向上するエンドツーエンドアプローチを提案する。 AGROはG-DROを逆スライシングモデルで装備し、トレーニング例のためのグループ割り当てを見つけ、発見されたグループに対する最悪の損失を最大化する。 WILDSベンチマークでは、AGROはG-DROで使用されるグループ発見手法と比較して、既知の最悪のグループの平均モデル性能が8%向上する。 AGROはまた、SST2、QQP、MS-COCOのアウトオブディストリビューション性能も改善している。 ARGOグループの人間による評価は、モデルエラーにつながる、明確に定義された、しかし以前には未検討の急激な相関を含んでいることを示している。

Models trained via empirical risk minimization (ERM) are known to rely on spurious correlations between labels and task-independent input features, resulting in poor generalization to distributional shifts. Group distributionally robust optimization (G-DRO) can alleviate this problem by minimizing the worst-case loss over a set of pre-defined groups over training data. G-DRO successfully improves performance of the worst-group, where the correlation does not hold. However, G-DRO assumes that the spurious correlations and associated worst groups are known in advance, making it challenging to apply it to new tasks with potentially multiple unknown spurious correlations. We propose AGRO -- Adversarial Group discovery for Distributionally Robust Optimization -- an end-to-end approach that jointly identifies error-prone groups and improves accuracy on them. AGRO equips G-DRO with an adversarial slicing model to find a group assignment for training examples which maximizes worst-case loss over the discovered groups. On the WILDS benchmark, AGRO results in 8% higher model performance on average on known worst-groups, compared to prior group discovery approaches used with G-DRO. AGRO also improves out-of-distribution performance on SST2, QQP, and MS-COCO -- datasets where potential spurious correlations are as yet uncharacterized. Human evaluation of ARGO groups shows that they contain well-defined, yet previously unstudied spurious correlations that lead to model errors.
翻訳日:2022-12-05 15:38:12 公開日:2022-12-02
# セマンティック・ロール・ラベルリングと定義モデリング--自然言語を用いて述語構造を記述する

Semantic Role Labeling Meets Definition Modeling: Using Natural Language to Describe Predicate-Argument Structures ( http://arxiv.org/abs/2212.01094v1 )

ライセンス: Link先を確認
Simone Conia and Edoardo Barba and Alessandro Scir\`e and Roberto Navigli(参考訳) 過去および現在における意味的役割ラベリング(srl)の一般的な特徴の1つは、前定義された言語インベントリから引き出された離散的なラベルに依存して述語的感覚とその議論を分類することである。 しかし、そうはならないと我々は主張する。 本稿では,srlの一般化した定式化を,離散ラベルではなく自然言語定義を用いた述語構造記述のタスクとして導入する手法を提案する。 我々の新しい定式化は、解釈可能性と柔軟性を最優先する第一歩を踏み出したが、PropBankスタイルおよびFrameNetスタイル、依存性ベースおよびスパンベースSRLの実験と分析は、解釈可能な出力を持つ柔軟なモデルが必ずしも性能を犠牲にしないことを示す。 私たちは研究目的でソフトウェアをhttps://github.com/sapienzanlp/dsrlでリリースします。

One of the common traits of past and present approaches for Semantic Role Labeling (SRL) is that they rely upon discrete labels drawn from a predefined linguistic inventory to classify predicate senses and their arguments. However, we argue this need not be the case. In this paper, we present an approach that leverages Definition Modeling to introduce a generalized formulation of SRL as the task of describing predicate-argument structures using natural language definitions instead of discrete labels. Our novel formulation takes a first step towards placing interpretability and flexibility foremost, and yet our experiments and analyses on PropBank-style and FrameNet-style, dependency-based and span-based SRL also demonstrate that a flexible model with an interpretable output does not necessarily come at the expense of performance. We release our software for research purposes at https://github.com/SapienzaNLP/dsrl.
翻訳日:2022-12-05 15:37:47 公開日:2022-12-02
# 非パラメトリックマスキング言語モデリング

Nonparametric Masked Language Modeling ( http://arxiv.org/abs/2212.01349v1 )

ライセンス: Link先を確認
Sewon Min, Weijia Shi, Mike Lewis, Xilun Chen, Wen-tau Yih, Hannaneh Hajishirzi, Luke Zettlemoyer(参考訳) 既存の言語モデル(lms)は有限の語彙よりもソフトマックスでトークンを予測するため、希少なトークンやフレーズの予測が困難になる。 NPMは,このソフトマックスを参照コーパス内の各フレーズの非パラメトリック分布に置き換える最初の非パラメトリックマスク付き言語モデルである。 そこで本研究では,npmをコントラスト目標と全コーパス検索に対するバッチ内近似を用いて効率的に訓練できることを示す。 9つのクローズドセットタスクと7つのオープンセットタスクのゼロショット評価は、npmが検索と生成のアプローチの有無に関わらず、はるかに大きなパラメトリックモデルを上回ることを示している。 特に、希少なパターン(単語の感覚や事実)の扱いや、希少な、あるいはほとんど見えない単語(例えば、非ラテン文字)の予測に優れている。 モデルとコードはgithub.com/facebookresearch/NPMで公開しています。

Existing language models (LMs) predict tokens with a softmax over a finite vocabulary, which can make it difficult to predict rare tokens or phrases. We introduce NPM, the first nonparametric masked language model that replaces this softmax with a nonparametric distribution over every phrase in a reference corpus. We show that NPM can be efficiently trained with a contrastive objective and an in-batch approximation to full corpus retrieval. Zero-shot evaluation on 9 closed-set tasks and 7 open-set tasks demonstrates that NPM outperforms significantly larger parametric models, either with or without a retrieve-and-generate approach. It is particularly better on dealing with rare patterns (word senses or facts), and predicting rare or nearly unseen words (e.g., non-Latin script). We release the model and code at github.com/facebookresearch/NPM.
翻訳日:2022-12-05 15:37:28 公開日:2022-12-02
# PASTA:Syn-to-Real領域一般化のための比例振幅スペクトルトレーニング強化

PASTA: Proportional Amplitude Spectrum Training Augmentation for Syn-to-Real Domain Generalization ( http://arxiv.org/abs/2212.00979v1 )

ライセンス: Link先を確認
Prithvijit Chattopadhyay, Kartik Sarangmath, Vivek Vijaykumar, Judy Hoffman(参考訳) 合成データは、タスク用のラベル付き現実世界データを大量に使用できない設定のために、安価で価値あるトレーニングデータを約束する。 しかし、合成データで訓練されたモデルは、実世界のデータでは著しく劣っている。 本稿では,本論文で提案する比例振幅スペクトルトレーニング強化法(pasta)により,合成から実への(syn-to-real)一般化性能を向上させるための簡易かつ効果的な拡張戦略を提案する。 PASTAはフーリエ領域の合成画像の振幅スペクトルを摂動させ、拡張ビューを生成する。 我々は、高周波成分が低周波成分よりも比較的摂動されるように、振幅スペクトルを構造的に摂動するようにPASTAを設計する。 意味セグメンテーション(gtav から real へ)、オブジェクト検出(sim10k から real へ)、オブジェクト認識(visda-c syn から real へ)のタスクでは、syn-to-real シフトの合計で、pasta がより複雑な最先端の一般化メソッドよりも優れていることが分かる。

Synthetic data offers the promise of cheap and bountiful training data for settings where lots of labeled real-world data for tasks is unavailable. However, models trained on synthetic data significantly underperform on real-world data. In this paper, we propose Proportional Amplitude Spectrum Training Augmentation (PASTA), a simple and effective augmentation strategy to improve out-of-the-box synthetic-to-real (syn-to-real) generalization performance. PASTA involves perturbing the amplitude spectrums of the synthetic images in the Fourier domain to generate augmented views. We design PASTA to perturb the amplitude spectrums in a structured manner such that high-frequency components are perturbed relatively more than the low-frequency ones. For the tasks of semantic segmentation (GTAV to Real), object detection (Sim10K to Real), and object recognition (VisDA-C Syn to Real), across a total of 5 syn-to-real shifts, we find that PASTA outperforms more complex state-of-the-art generalization methods while being complementary to the same.
翻訳日:2022-12-05 15:37:12 公開日:2022-12-02
# グラフコントラスト学習のためのスペクトル特徴拡張とその応用

Spectral Feature Augmentation for Graph Contrastive Learning and Beyond ( http://arxiv.org/abs/2212.01026v1 )

ライセンス: Link先を確認
Yifei Zhang, Hao Zhu, Zixing Song, Piotr Koniusz, Irwin King(参考訳) 拡張(グラフエッジの摂動、画像作物)は、コントラスト学習(cl)の効率を高めるが、特徴レベルの拡張は、もう1つの可能性があり、相補的であるが、十分に研究されていない戦略である。 そこで本稿では,グラフ(および画像)のコントラスト学習のための新しいスペクトル特徴論を提案する。 この目的のために、各データビューに対して、特徴マップ毎の低ランク近似を推定し、その近似をその近似から減算して補数を得る。 これは、2つの価値ある副産物(単に1つまたは2つのイテレーションで)を楽しむ非標準のパワーイテレーションシステムである不完全パワーイテレーションによって実現される。 (i)特徴マップのスペクトルを部分的にバランスさせ、 (ii)特徴写像の特異値の再均衡(スペクトル拡大)に雑音を注入する。 2つのビューに対して、これらの再バランス特徴写像をアライメントし、改良されたアライメントステップは、両方のビューの行列のより支配的な特異値よりも焦点を合わせることができるが、スペクトル拡張はスペクトル角アライメントに影響を与えない(特異ベクトルは摂動しない)。 我々は以下の分析形式を導出する。 (i)そのスペクトルバランス効果を捉えるための不完全なパワーイテレーション (ii)ノイズによって暗黙的に強調される特異値のばらつき。 また、スペクトル拡大により一般化境界が向上することを示す。 グラフ/画像データセットを用いた実験では,スペクトル特徴拡張がベースラインよりも優れており,他の拡張戦略と相補的であり,様々なコントラスト損失と互換性があることが示された。

Although augmentations (e.g., perturbation of graph edges, image crops) boost the efficiency of Contrastive Learning (CL), feature level augmentation is another plausible, complementary yet not well researched strategy. Thus, we present a novel spectral feature argumentation for contrastive learning on graphs (and images). To this end, for each data view, we estimate a low-rank approximation per feature map and subtract that approximation from the map to obtain its complement. This is achieved by the proposed herein incomplete power iteration, a non-standard power iteration regime which enjoys two valuable byproducts (under mere one or two iterations): (i) it partially balances spectrum of the feature map, and (ii) it injects the noise into rebalanced singular values of the feature map (spectral augmentation). For two views, we align these rebalanced feature maps as such an improved alignment step can focus more on less dominant singular values of matrices of both views, whereas the spectral augmentation does not affect the spectral angle alignment (singular vectors are not perturbed). We derive the analytical form for: (i) the incomplete power iteration to capture its spectrum-balancing effect, and (ii) the variance of singular values augmented implicitly by the noise. We also show that the spectral augmentation improves the generalization bound. Experiments on graph/image datasets show that our spectral feature augmentation outperforms baselines, and is complementary with other augmentation strategies and compatible with various contrastive losses.
翻訳日:2022-12-05 15:36:36 公開日:2022-12-02
# 音声処理のためのトポロジカルデータ解析

Topological Data Analysis for Speech Processing ( http://arxiv.org/abs/2211.17223v2 )

ライセンス: Link先を確認
Eduard Tulchinskii, Kristian Kuznetsov, Laida Kushnareva, Daniil Cherniavskii, Serguei Barannikov, Irina Piontkovskaya, Sergey Nikolenko, Evgeny Burnaev(参考訳) 音声分類問題と事前訓練された音声モデル HuBERT のイントロスペクションにトポロジカルデータ解析(TDA)を適用した。 この目的のために,トランスフォーマーアテンションマップと埋め込みから派生した位相的および代数的特徴をいくつか紹介する。 このような特徴の上に構築された単純な線形分類器が,微調整された分類ヘッドよりも優れていることを示す。 特に、私たちは4つの一般的なデータセットで約9\%$精度と$5\%$ errの改善を達成しました。 また,音声トランスフォーマーヘッドの機能的役割をトポロジカルな特徴から明らかにできることを示す。例えば,下流の微調整をすることなく,サンプルソース(自然/合成)と音声のペアを区別できるヘッドを見出した。 以上の結果から,TDAは音声解析,特に構造予測を必要とするタスクにおいて,有望な新しいアプローチであることが示された。 追加、tdaの紹介、その他の追加資料はここで入手できる。 https://topohubert.github.io/speech-topology-webpages/

We apply topological data analysis (TDA) to speech classification problems and to the introspection of a pretrained speech model, HuBERT. To this end, we introduce a number of topological and algebraic features derived from Transformer attention maps and embeddings. We show that a simple linear classifier built on top of such features outperforms a fine-tuned classification head. In particular, we achieve an improvement of about $9\%$ accuracy and $5\%$ ERR on four common datasets; on CREMA-D, the proposed feature set reaches a new state of the art performance with accuracy $80.155$. We also show that topological features are able to reveal functional roles of speech Transformer heads; e.g., we find the heads capable to distinguish between pairs of sample sources (natural/synthetic) or voices without any downstream fine-tuning. Our results demonstrate that TDA is a promising new approach for speech analysis, especially for tasks that require structural prediction. Appendices, an introduction to TDA, and other additional materials are available here - https://topohubert.github.io/speech-topology-webpages/
翻訳日:2022-12-05 13:27:45 公開日:2022-12-02
# インターリービングを用いた単発正規表現に対する耐雑音性差分学習手法

A Noise-tolerant Differentiable Learning Approach for Single Occurrence Regular Expression with Interleaving ( http://arxiv.org/abs/2212.00373v2 )

ライセンス: Link先を確認
Rongzhen Ye, Tianqu Zhuang, Hai Wan, Jianfeng Du, Weilin Luo, Pingjia Liang(参考訳) 本研究では,音のある文字列の集合からインターリービング(SOIRE)を用いて単一発生正規表現を学習する問題について検討する。 SOIREはインターリービングを完全にサポートし、実際に使用される正規表現の大部分をカバーする。 SOIREの学習は、重い計算を必要とし、テキスト文字列は実際にはノイズを含むため、難しい。 従来の研究のほとんどは制限されたSOIREしか学習せず、ノイズの多いデータでは堅牢ではない。 これらの課題に対処するために,SOIREのためのSOIREDLを用いた雑音耐性微分学習手法を提案する。 ニューラルネットワークの設計により,ニューラルネットワークが学習するパラメータ集合の特定の割当が,有界サイズに対して1対1に対応することを理論的に証明し,ソワールマッチングをシミュレートする。 この対応に基づき、最も近い忠実な符号化を探索することにより、ニューラルネットワークのパラメータセットの割り当てからターゲットSOIREを解釈する。 実験結果から,SOIREDLは特にノイズの多いデータにおいて,最先端のアプローチよりも優れていた。

We study the problem of learning a single occurrence regular expression with interleaving (SOIRE) from a set of text strings possibly with noise. SOIRE fully supports interleaving and covers a large portion of regular expressions used in practice. Learning SOIREs is challenging because it requires heavy computation and text strings usually contain noise in practice. Most of the previous studies only learn restricted SOIREs and are not robust on noisy data. To tackle these issues, we propose a noise-tolerant differentiable learning approach SOIREDL for SOIRE. We design a neural network to simulate SOIRE matching and theoretically prove that certain assignments of the set of parameters learnt by the neural network, called faithful encodings, are one-to-one corresponding to SOIREs for a bounded size. Based on this correspondence, we interpret the target SOIRE from an assignment of the set of parameters of the neural network by exploring the nearest faithful encodings. Experimental results show that SOIREDL outperforms the state-of-the-art approaches, especially on noisy data.
翻訳日:2022-12-05 13:27:27 公開日:2022-12-02
# 合成データを用いた点雲中の人間の3次元セグメンテーション

3D Segmentation of Humans in Point Clouds with Synthetic Data ( http://arxiv.org/abs/2212.00786v2 )

ライセンス: Link先を確認
Ay\c{c}a Takmaz, Jonas Schult, Irem Kaftan, Mertcan Ak\c{c}ay, Bastian Leibe, Robert Sumner, Francis Engelmann, Siyu Tang(参考訳) 3D屋内シーンにおける人間のセグメンテーションは、人間中心のロボット工学とAR/VR応用の台頭によってますます重要になっている。 この方向では、3次元人間の意味、インスタンス、マルチヒューマンボディパートセグメンテーションのタスクを探求する。 ポイントクラウド(または深度マップ)で人間を直接分割しようとする試みはほとんどないが、これは主に3dシーンと対話する人間のトレーニングデータがないためである。 この課題に対処し、リアルな3Dシーンで仮想人間を合成するためのフレームワークを提案する。 合成点雲データは、画像に比べて実深度と合成深度の領域ギャップが小さいため、魅力的である。 合成データと実データの組み合わせを用いて異なるトレーニングスキームを解析した結果,プリトレーニングのための合成データが様々なセグメンテーションタスクとモデルの性能を向上させることがわかった。 さらに、上記すべてのセグメンテーションタスクを統一的に実行する3次元多人数身体部分セグメンテーションのための最初のエンドツーエンドモデルであるhuman3dを提案する。 注目すべきは、Human3Dは従来のタスク固有の最先端の手法よりも優れています。 最後に、EgoBodyのテストシーンで人間が手動でアノテートして、提案したトレーニングスキームとセグメンテーションモデルを比較した。

Segmenting humans in 3D indoor scenes has become increasingly important with the rise of human-centered robotics and AR/VR applications. In this direction, we explore the tasks of 3D human semantic-, instance- and multi-human body-part segmentation. Few works have attempted to directly segment humans in point clouds (or depth maps), which is largely due to the lack of training data on humans interacting with 3D scenes. We address this challenge and propose a framework for synthesizing virtual humans in realistic 3D scenes. Synthetic point cloud data is attractive since the domain gap between real and synthetic depth is small compared to images. Our analysis of different training schemes using a combination of synthetic and realistic data shows that synthetic data for pre-training improves performance in a wide variety of segmentation tasks and models. We further propose the first end-to-end model for 3D multi-human body-part segmentation, called Human3D, that performs all the above segmentation tasks in a unified manner. Remarkably, Human3D even outperforms previous task-specific state-of-the-art methods. Finally, we manually annotate humans in test scenes from EgoBody to compare the proposed training schemes and segmentation models.
翻訳日:2022-12-05 13:27:12 公開日:2022-12-02
# 拡張ビューを用いたマルチスケールコントラスト学習ネットワークによるグラフ異常検出

Graph Anomaly Detection via Multi-Scale Contrastive Learning Networks with Augmented View ( http://arxiv.org/abs/2212.00535v2 )

ライセンス: Link先を確認
Jingcan Duan, Siwei Wang, Pei Zhang, En Zhu, Jingtao Hu, Hu Jin, Yue Liu, Zhibin Dong(参考訳) グラフ異常検出(GAD)は、グラフベースの機械学習において重要なタスクであり、多くの現実世界のアプリケーションに広く応用されている。 GADの主な目標は、グラフデータセットから異常ノードをキャプチャすることであり、これは明らかにほとんどのノードから逸脱している。 最近の手法は、GAD、すなわちノード-サブグラフとノード-ノードコントラストの様々なコントラスト戦略に注意を払っている。 しかし、通常のサブグラフ対と異常なサブグラフ対がGADの埋め込みや構造において異なる振る舞いをするサブグラフ-サブグラフ比較情報を無視し、サブ最適タスク性能をもたらす。 本稿では,提案するマルチビューマルチスケールコントラスト学習フレームワークにおいて,まず,サブグラフとサブグラフのコントラストを併用した上で,上記の考え方を実現する。 具体的には、元の入力グラフを第1のビューとみなし、エッジ修正によるグラフ拡張による第2のビューを生成する。 サブグラフ対の類似性を最大化するためのガイダンスにより、提案したサブグラフ-サブグラフコントラストは、構造の変化にもかかわらずより堅牢なサブグラフ埋め込みに寄与する。 さらに,提案したサブグラフ・サブグラフのコントラストは,GAD性能向上のためのノード・サブグラフとノード・ノード・コントラストのコントラストとよく一致している。 また,様々なグラフ拡張手法が検出性能に与える影響について十分な実験を行った。 総合的な実験結果から,本手法の最先端手法との比較と,GADタスクに対する多視点サブグラフペアコントラスト戦略の有効性が明らかとなった。

Graph anomaly detection (GAD) is a vital task in graph-based machine learning and has been widely applied in many real-world applications. The primary goal of GAD is to capture anomalous nodes from graph datasets, which evidently deviate from the majority of nodes. Recent methods have paid attention to various scales of contrastive strategies for GAD, i.e., node-subgraph and node-node contrasts. However, they neglect the subgraph-subgraph comparison information which the normal and abnormal subgraph pairs behave differently in terms of embeddings and structures in GAD, resulting in sub-optimal task performance. In this paper, we fulfill the above idea in the proposed multi-view multi-scale contrastive learning framework with subgraph-subgraph contrast for the first practice. To be specific, we regard the original input graph as the first view and generate the second view by graph augmentation with edge modifications. With the guidance of maximizing the similarity of the subgraph pairs, the proposed subgraph-subgraph contrast contributes to more robust subgraph embeddings despite of the structure variation. Moreover, the introduced subgraph-subgraph contrast cooperates well with the widely-adopted node-subgraph and node-node contrastive counterparts for mutual GAD performance promotions. Besides, we also conduct sufficient experiments to investigate the impact of different graph augmentation approaches on detection performance. The comprehensive experimental results well demonstrate the superiority of our method compared with the state-of-the-art approaches and the effectiveness of the multi-view subgraph pair contrastive strategy for the GAD task.
翻訳日:2022-12-05 13:26:53 公開日:2022-12-02
# EBHI-Seg : 新しい内視鏡生検組織学的ヘマトキシリンとエオシン画像データセット

EBHI-Seg: A Novel Enteroscope Biopsy Histopathological Haematoxylin and Eosin Image Dataset for Image Segmentation Tasks ( http://arxiv.org/abs/2212.00532v2 )

ライセンス: Link先を確認
Liyu Shi, Xiaoyan Li, Weiming Hu, Haoyuan Chen, Jing Chen, Zizhen Fan, Minghe Gao, Yujie Jing, Guotao Lu, Deguo Ma, Zhiyu Ma, Qingtao Meng, Dechao Tang, Hongzan Sun, Marcin Grzegorzek, Shouliang Qi, Yueyang Teng, Chen Li(参考訳) 背景と目的:大腸癌は一般的な致死性悪性腫瘍であり、男性では4番目に多く、女性では3番目に多いがんである。 早期のがんのタイムリーな検出は、疾患の治療に不可欠である。 現在、直腸癌の病理組織学的画像分割のためのデータセットが不足しており、コンピュータ技術が診断に役立っている場合、しばしば評価精度を損なう。 方法: 本研究は, 画像分割作業 (ebhi-seg) のための, 新たに利用可能な腸鏡生検組織学的ヘマトキシリンおよびエオシン画像データセットを提供した。 EBHI-Segの有効性と拡張性を示すため,古典的な機械学習手法とディープラーニング手法を用いてEBHI-Segの実験結果を評価した。 結果: EBHI-Segを用いた場合, 深層学習法は画像分割性能が優れていた。 古典的機械学習法におけるサイス評価基準の最大精度は0.948であり、深層学習法におけるサイス評価基準は0.965である。 結論: この公開データセットは,6種類の腫瘍分化段階と対応する基底真理像の5,170枚の画像を含む。 このデータセットは、大腸癌の診断のための新しいセグメンテーションアルゴリズムを研究者に提供することができる。

Background and Purpose: Colorectal cancer is a common fatal malignancy, the fourth most common cancer in men, and the third most common cancer in women worldwide. Timely detection of cancer in its early stages is essential for treating the disease. Currently, there is a lack of datasets for histopathological image segmentation of rectal cancer, which often hampers the assessment accuracy when computer technology is used to aid in diagnosis. Methods: This present study provided a new publicly available Enteroscope Biopsy Histopathological Hematoxylin and Eosin Image Dataset for Image Segmentation Tasks (EBHI-Seg). To demonstrate the validity and extensiveness of EBHI-Seg, the experimental results for EBHI-Seg are evaluated using classical machine learning methods and deep learning methods. Results: The experimental results showed that deep learning methods had a better image segmentation performance when utilizing EBHI-Seg. The maximum accuracy of the Dice evaluation metric for the classical machine learning method is 0.948, while the Dice evaluation metric for the deep learning method is 0.965. Conclusion: This publicly available dataset contained 5,170 images of six types of tumor differentiation stages and the corresponding ground truth images. The dataset can provide researchers with new segmentation algorithms for medical diagnosis of colorectal cancer, which can be used in the clinical setting to help doctors and patients.
翻訳日:2022-12-05 13:26:25 公開日:2022-12-02
# サプライチェーンロジスティクス応用のための量子ニューラルネットワーク

Quantum Neural Networks for a Supply Chain Logistics Application ( http://arxiv.org/abs/2212.00576v2 )

ライセンス: Link先を確認
Randall Correll (1), Sean J. Weinberg (1), Fabio Sanches (1), Takanori Ide (2) and Takafumi Suzuki (3) ((1) QC Ware Corp Palo Alto, (2) AISIN CORPORATION Tokyo, (3) Aisin Technical Research Center, Tokyo)(参考訳) 実用用途に適したサイズの問題インスタンスは、(ほぼ)純粋量子アルゴリズムを用いて、ノイズの多い中間スケール量子(NISQ)期間に対処することができない。 しかし、ハイブリッド古典量子アルゴリズムは、はるかに大きな問題インスタンスで優れたパフォーマンスを達成する可能性がある。 複数のトラックと複雑な需要構造を備えたサプライチェーンロジスティクスのための車両ルーティングという,重要な問題に関する1つのハイブリッドアルゴリズムについて検討する。 量子回路を組み込んだニューラルネットワークによる強化学習を用いる。 このようなニューラルネットワークでは、NISQハードウェアの量子ビット数を制限するために、高次元特徴ベクトルをより小さなベクトルに投影する必要がある。 しかし,従来の機械学習においても,このようなプロジェクションは自然で望ましいというマルチヘッドアテンション機構を用いている。 我々は、自動車部門における企業のトラック運行のロジスティクスからのデータを検討し、トラックの小さなチームに分解して方法論を適用し、人間のトラック配置に匹敵する結果を得る。

Problem instances of a size suitable for practical applications are not likely to be addressed during the noisy intermediate-scale quantum (NISQ) period with (almost) pure quantum algorithms. Hybrid classical-quantum algorithms have potential, however, to achieve good performance on much larger problem instances. We investigate one such hybrid algorithm on a problem of substantial importance: vehicle routing for supply chain logistics with multiple trucks and complex demand structure. We use reinforcement learning with neural networks with embedded quantum circuits. In such neural networks, projecting high-dimensional feature vectors down to smaller vectors is necessary to accommodate restrictions on the number of qubits of NISQ hardware. However, we use a multi-head attention mechanism where, even in classical machine learning, such projections are natural and desirable. We consider data from the truck routing logistics of a company in the automotive sector, and apply our methodology by decomposing into small teams of trucks, and we find results comparable to human truck assignment.
翻訳日:2022-12-05 13:26:00 公開日:2022-12-02
# launchpad: オフラインおよびオンラインrlメソッドによるスケジュール学習

Launchpad: Learning to Schedule Using Offline and Online RL Methods ( http://arxiv.org/abs/2212.00639v2 )

ライセンス: Link先を確認
Vanamala Venkataswamy, Jake Grigsby, Andrew Grimshaw, Yanjun Qi(参考訳) 深層強化学習アルゴリズムはいくつかの課題領域で成功している。 古典的なオンラインrlジョブスケジューラは効率的なスケジューリング戦略を学習するが、環境を探索しランダムに初期化されたdnnポリシーから適応するには数千の時間を要する。 既存のRLスケジューラは、歴史的データから学び、カスタムヒューリスティックポリシーを改善することの重要性を見落としている。 オフライン強化学習は、オンライン環境相互作用のない事前記録データセットからポリシー最適化の見通しを示す。 データ駆動学習の成功に続いて、我々は2つのRL手法を探求する。 1) 行動のクローニングと 2) 環境と対話することなくログデータからポリシーを学習することを目的としたオフラインRL。 これらの手法は、データ収集と安全性のコスト、特に実世界のRL応用に関連する問題に対処する。 データ駆動RL法は良い結果をもたらすが,その性能は過去のデータセットの品質に大きく依存していることを示す。 最後に、エージェントを事前訓練するために事前専門家によるデモンストレーションを効果的に取り入れることで、ランダム探索フェーズを短縮し、オンライントレーニングで合理的なポリシーを学ぶことを実証する。 私たちはOffline RLをローンチパッドとして利用し、Oracleやヒューリスティックなポリシーを使って収集された以前の経験から効果的なスケジューリングポリシーを学びます。 このようなフレームワークは、履歴データセットからの事前トレーニングに有効であり、オンラインデータ収集による継続的改善に適している。

Deep reinforcement learning algorithms have succeeded in several challenging domains. Classic Online RL job schedulers can learn efficient scheduling strategies but often takes thousands of timesteps to explore the environment and adapt from a randomly initialized DNN policy. Existing RL schedulers overlook the importance of learning from historical data and improving upon custom heuristic policies. Offline reinforcement learning presents the prospect of policy optimization from pre-recorded datasets without online environment interaction. Following the recent success of data-driven learning, we explore two RL methods: 1) Behaviour Cloning and 2) Offline RL, which aim to learn policies from logged data without interacting with the environment. These methods address the challenges concerning the cost of data collection and safety, particularly pertinent to real-world applications of RL. Although the data-driven RL methods generate good results, we show that the performance is highly dependent on the quality of the historical datasets. Finally, we demonstrate that by effectively incorporating prior expert demonstrations to pre-train the agent, we short-circuit the random exploration phase to learn a reasonable policy with online training. We utilize Offline RL as a launchpad to learn effective scheduling policies from prior experience collected using Oracle or heuristic policies. Such a framework is effective for pre-training from historical datasets and well suited to continuous improvement with online data collection.
翻訳日:2022-12-05 13:25:46 公開日:2022-12-02
# p(expression|grammar):確率的文脈自由文法による代数表現を導出する確率

P(Expression|Grammar): Probability of deriving an algebraic expression with a probabilistic context-free grammar ( http://arxiv.org/abs/2212.00751v2 )

ライセンス: Link先を確認
Urh Primo\v{z}i\v{c} and Ljup\v{c}o Todorovski and Matej Petkovi\'c(参考訳) 確率論的文脈自由文法は、機械学習とシンボリック回帰における生成モデルとしての使用の長期記録を持つ。 記号回帰に使用すると、代数的表現を生成する。 後者は文法から導出される文字列の同値類として定義し、与えられた文法で与えられた式を導出する確率を計算する問題に対処する。 その問題は一般に決定不能であることを示す。 次に、ある表現の確率を計算するアルゴリズムが存在する線形式、多項式式、有理式を生成するための特定の文法を示す。 これらの文法に対して、任意の精度で正確な確率と効率的な近似を計算するアルゴリズムを設計する。

Probabilistic context-free grammars have a long-term record of use as generative models in machine learning and symbolic regression. When used for symbolic regression, they generate algebraic expressions. We define the latter as equivalence classes of strings derived by grammar and address the problem of calculating the probability of deriving a given expression with a given grammar. We show that the problem is undecidable in general. We then present specific grammars for generating linear, polynomial, and rational expressions, where algorithms for calculating the probability of a given expression exist. For those grammars, we design algorithms for calculating the exact probability and efficient approximation with arbitrary precision.
翻訳日:2022-12-05 13:25:22 公開日:2022-12-02
# 身体的参照表現接地のためのレイアウト対応ドリーム

Layout-aware Dreamer for Embodied Referring Expression Grounding ( http://arxiv.org/abs/2212.00171v2 )

ライセンス: Link先を確認
Mingxiao Li, Zehao Wang, Tinne Tuytelaars, Marie-Francine Moens(参考訳) 本研究では,エージェントが未確認環境をナビゲートし,簡潔な高レベル自然言語命令によって記述されたリモートオブジェクトをローカライズする必要があるという,身体的参照表現接地の問題について検討する。 このような状況に直面すると、人間は目的地がどのようなものであるかを想像し、キッチンよりも寝室の近くで浴室が見つかる可能性が高いなど、環境レイアウトに関する事前の知識に基づいて環境を探索する傾向がある。 layout-aware dreamer (lad) と呼ばれる自律エージェントを設計し、この認知的意思決定プロセスを模倣する2つの新しいモジュール、つまりlayout learnerとgoal dreamerを設計した。 レイアウト学習者は、粗いレイアウト推定のための経路に沿って隣り合う未探索領域の部屋カテゴリ分布を推定し、エージェントへの部屋間遷移のレイアウト共通感覚を効果的に導入する。 効果的な環境探索を学ぶために、目標夢想家(goal dreamer)は、事前に目的地を想像する。 我々のエージェントは、REVERIEデータセットの公開リーダボード上で、ナビゲーション成功(SR)を4.02%改善し、リモートグラウンド成功(RGS)を3.43%改善した未確認テスト環境に挑戦する上で、新しい最先端のパフォーマンスを達成する。 コードはhttps://github.com/zehao-wang/LADで公開されている。

In this work, we study the problem of Embodied Referring Expression Grounding, where an agent needs to navigate in a previously unseen environment and localize a remote object described by a concise high-level natural language instruction. When facing such a situation, a human tends to imagine what the destination may look like and to explore the environment based on prior knowledge of the environmental layout, such as the fact that a bathroom is more likely to be found near a bedroom than a kitchen. We have designed an autonomous agent called Layout-aware Dreamer (LAD), including two novel modules, that is, the Layout Learner and the Goal Dreamer to mimic this cognitive decision process. The Layout Learner learns to infer the room category distribution of neighboring unexplored areas along the path for coarse layout estimation, which effectively introduces layout common sense of room-to-room transitions to our agent. To learn an effective exploration of the environment, the Goal Dreamer imagines the destination beforehand. Our agent achieves new state-of-the-art performance on the public leaderboard of the REVERIE dataset in challenging unseen test environments with improvement in navigation success (SR) by 4.02% and remote grounding success (RGS) by 3.43% compared to the previous state-of-the-art. The code is released at https://github.com/zehao-wang/LAD
翻訳日:2022-12-05 13:19:14 公開日:2022-12-02
# CRO-SLに基づく新しい確率論的動的多手法アンサンブル

New Probabilistic-Dynamic Multi-Method Ensembles for Optimization based on the CRO-SL ( http://arxiv.org/abs/2212.00742v2 )

ライセンス: Link先を確認
Jorge P\'erez-Aracil and Carlos Camacho-G\'omez and Eugenio Lorente-Ramos and Cosmin M. Marina and Sancho Salcedo-Sanz(参考訳) 本稿では,基盤層(cro-sl)アルゴリズムを用いたサンゴ礁最適化に基づくマルチメソッドアンサンブルを作成するための新しい確率的動的(適応的)戦略を提案する。 CRO-SLは進化に基づくアンサンブルアプローチであり、単一の集団内で異なる探索手順を組み合わせることができる。 本稿では,アルゴリズム改善のための2つの確率的戦略について考察する。 まず, CRO-SL (PCRO-SL) を各個体に関連付けることで, CRO-SL 集団の基質を置換する確率的 CRO-SL (PCRO-SL) を定義した。 各タグは、再生フェーズで個人を変更する異なる演算子を表す。 アルゴリズムの各世代において、タグは、同じ確率で個人にランダムに割り当てられ、この方法で、元のCRO-SLよりも特定の個人への異なる演算子の適用に、より強い変化を伴うアンサンブルを得る。 本論文で議論されている2つ目の戦略は動的確率的 cro-sl (dpcro-sl) であり,各基板で生成する解の質に応じてタグ割り当ての確率を変化させる手法である。 したがって、探索過程における最善の基板は、探索中に性能を低下させた基板よりも高い確率で割り当てられる。 ベンチマーク関数や風車レイアウト最適化の実際の応用など,様々な最適化問題において提案する確率的および動的アンサンブルの性能を,既存のアルゴリズムとの比較により検証した。

In this paper we propose new probabilistic and dynamic (adaptive) strategies to create multi-method ensembles based on the Coral Reefs Optimization with Substrate Layers (CRO-SL) algorithm. The CRO-SL is an evolutionary-based ensemble approach, able to combine different search procedures within a single population. In this work we discuss two different probabilistic strategies to improve the algorithm. First, we defined the Probabilistic CRO-SL (PCRO-SL), which substitutes the substrates in the CRO-SL population by {\em tags} associated with each individual. Each tag represents a different operator which will modify the individual in the reproduction phase. In each generation of the algorithm, the tags are randomly assigned to the individuals with a similar probability, obtaining this way an ensemble with a more intense change in the application of different operators to a given individual than the original CRO-SL. The second strategy discussed in this paper is the Dynamical Probabilistic CRO-SL (DPCRO-SL), in which the probability of tag assignment is modified during the evolution of the algorithm, depending on the quality of the solutions generated in each substrate. Thus, the best substrates in the search process will be assigned with a higher probability that those which showed a worse performance during the search. We test the performance of the proposed probabilistic and dynamic ensembles in different optimization problems, including benchmark functions and a real application of wind turbines layout optimization, comparing the results obtained with that of existing algorithms in the literature.
翻訳日:2022-12-05 13:18:47 公開日:2022-12-02
# エコー状態ネットワークにおける適切な直交分解の検討

Investigation of Proper Orthogonal Decomposition for Echo State Networks ( http://arxiv.org/abs/2211.17179v2 )

ライセンス: Link先を確認
Jean Panaioti Jordanou, Eric Aislan Antonelo, Eduardo Camponogara, Eduardo Gildin(参考訳) エコー状態ネットワーク(英: echo state networks、esn)は、時系列および非線形力学系を表現する有望な結果をもたらす再帰ニューラルネットワークの一種である。 非常に効率的なトレーニング手順を備えているが、ESNのようなReservoir Computingの戦略では、高階ネットワーク、すなわち多数の層を使用する必要がある。 これは時間の計算をよりコストのかかるものにするだけでなく、モデル予測制御(MPC)や他の最適制御問題にESNを適用する際の堅牢性の問題を引き起こす可能性がある。 このような回避策の1つは、適切な直交分解(POD)とその変種(POD-DEIM)のようなモデル次数削減戦略により、既に訓練された高次元ESNと等価な下位次数表現を見つけることである。 本研究の目的は,Echo State NetworksにおけるPOD手法の性能を調査・解析し,その有効性を評価することである。 そこで我々は,POD-Reduced Networkのメモリ容量(MC)を,元の(全順序)ENSと比較して評価した。 また,narma10差分式と2つの井戸と1つのライザーを含む油プラットフォームという2つの異なる数値実験を行った。 その結果,オリジナルのESNとPODを再現したESNとの比較では性能がほとんど損なわれず,PODを再現したESNの性能は同一サイズの通常のESNよりも優れていた。 また、元のESNと比較して約80\%のスピードアップを実現しました。

Echo State Networks (ESN) are a type of Recurrent Neural Networks that yields promising results in representing time series and nonlinear dynamic systems. Although they are equipped with a very efficient training procedure, Reservoir Computing strategies, such as the ESN, require the use of high order networks, i.e. large number of layers, resulting in number of states that is magnitudes higher than the number of model inputs and outputs. This not only makes the computation of a time step more costly, but also may pose robustness issues when applying ESNs to problems such as Model Predictive Control (MPC) and other optimal control problems. One such way to circumvent this is through Model Order Reduction strategies such as the Proper Orthogonal Decomposition (POD) and its variants (POD-DEIM), whereby we find an equivalent lower order representation to an already trained high dimension ESN. The objective of this work is to investigate and analyze the performance of POD methods in Echo State Networks, evaluating their effectiveness. To this end, we evaluate the Memory Capacity (MC) of the POD-reduced network in comparison to the original (full order) ENS. We also perform experiments on two different numerical case studies: a NARMA10 difference equation and an oil platform containing two wells and one riser. The results show that there is little loss of performance comparing the original ESN to a POD-reduced counterpart, and also that the performance of a POD-reduced ESN tend to be superior to a normal ESN of the same size. Also we attain speedups of around $80\%$ in comparison to the original ESN.
翻訳日:2022-12-05 13:18:25 公開日:2022-12-02
# 水中物体検出のためのマルチビームフォワード・ソナー付きデータセット

A Dataset with Multibeam Forward-Looking Sonar for Underwater Object Detection ( http://arxiv.org/abs/2212.00352v2 )

ライセンス: Link先を確認
Kaibing Xie (1), Jian Yang (1), Kang Qiu (1) ((1) Peng Cheng Laboratory, Shenzhen, China)(参考訳) マルチビーム前方ソナー (MFLS) は水中検出において重要な役割を担っている。 MFLSを用いた水中物体検出の研究にはいくつかの課題がある。 まず、研究には利用可能なデータセットがない。 第二に、ソナー画像は一般的にピクセルレベルで処理され、人間の視覚的習慣のセクター表現に変換されるが、人工知能(AI)分野の研究には不利である。 これらの課題に向けて,Tritech Gemini 1200ikソナーを用いて9000枚以上のMFLS画像からなる,水中音響目標検出(UATD)データセットを提案する。 本データセットは,対象対象物10種類(キューブ,シリンダ,タイヤなど)の注釈付きソナー画像の生データを提供する。 データは湖と浅い水から収集された。 UATDの実用性を検証するため、このデータセットを最先端検出器に適用し、その精度と効率のベンチマークを行う。

Multibeam forward-looking sonar (MFLS) plays an important role in underwater detection. There are several challenges to the research on underwater object detection with MFLS. Firstly, the research is lack of available dataset. Secondly, the sonar image, generally processed at pixel level and transformed to sector representation for the visual habits of human beings, is disadvantageous to the research in artificial intelligence (AI) areas. Towards these challenges, we present a novel dataset, the underwater acoustic target detection (UATD) dataset, consisting of over 9000 MFLS images captured using Tritech Gemini 1200ik sonar. Our dataset provides raw data of sonar images with annotation of 10 categories of target objects (cube, cylinder, tyres, etc). The data was collected from lake and shallow water. To verify the practicality of UATD, we apply the dataset to the state-of-the-art detectors and provide corresponding benchmarks for its accuracy and efficiency.
翻訳日:2022-12-05 13:17:58 公開日:2022-12-02
# 分散最適化による継続的学習:CoCoAは忘れているか?

Continual Learning with Distributed Optimization: Does CoCoA Forget? ( http://arxiv.org/abs/2211.16994v2 )

ライセンス: Link先を確認
Martin Hellkvist and Ay\c{c}a \"Oz\c{c}elikkale and Anders Ahl\'en(参考訳) タスクが順次到着し,前回見たタスクのパフォーマンス低下を伴わずに新たに到着したタスクをうまく実行することを目的とした,連続学習問題に焦点を当てた。 中央集権的設定に着目した連続学習文学とは対照的に,分散推定フレームワークについて検討する。 分散学習アルゴリズムCoCoAについて検討する。 過パラメータ化の場合の反復に対する閉形式式を導出する。 本稿では,問題のオーバー/アンダーパラメトリゼーションに基づくアルゴリズムの収束と誤差性能について述べる。 以上の結果から,CoCoAは課題の列を通じて連続的な学習を行うことが可能であること,すなわち,一度に1つのタスクにのみアクセスすることで,以前に学習したタスクを忘れることなく新しいタスクを学習できることが示唆された。

We focus on the continual learning problem where the tasks arrive sequentially and the aim is to perform well on the newly arrived task without performance degradation on the previously seen tasks. In contrast to the continual learning literature focusing on the centralized setting, we investigate the distributed estimation framework. We consider the well-established distributed learning algorithm CoCoA. We derive closed form expressions for the iterations for the overparametrized case. We illustrate the convergence and the error performance of the algorithm based on the over/under-parametrization of the problem. Our results show that depending on the problem dimensions and data generation assumptions, CoCoA can perform continual learning over a sequence of tasks, i.e., it can learn a new task without forgetting previously learned tasks, with access only to one task at a time.
翻訳日:2022-12-05 13:17:44 公開日:2022-12-02