このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221015となっている論文です。

PDF登録状況(公開日: 20221015)

TitleAuthorsAbstract論文公表日・翻訳日
# パロンド列を持つ離散時間量子ウォークによる高エンタングル状態の生成

Generating highly entangled states via discrete-time quantum walks with Parrondo sequences ( http://arxiv.org/abs/2008.00909v3 )

ライセンス: Link先を確認
Dinesh Kumar Panda, B. Varun Govind, Colin Benjamin(参考訳) 量子エンタングルメントは、量子情報処理に複数の応用がある。 初期条件に依存しない高度に絡み合った状態を生成する手法の開発が不可欠である。 本稿では,離散時間量子ウォークによる高度に絡み合った状態の生成を目標とする。 本稿では,2つのコインのうち1つのみを用いて生成した状態よりも,一般により絡み合った状態を生成する決定論的パロンド列を提案する。 いくつかのパロンド列は、使用した初期状態の位相に依存しない高い絡み合い状態を生成し、場合によっては最大絡み合い状態につながることを示す。 少数の時間ステップと多数の時間ステップの漸近限界に対して,parrondoシーケンスを研究した。

Quantum entanglement has multiple applications in quantum information processing. Developing methods to generate highly entangled states independent of initial conditions is an essential task. Herein we aim to generate highly entangled states via discrete-time quantum walks. We propose deterministic Parrondo sequences that generate states that are generally much more entangled than states produced by sequences using only one of the two coins. We show that some Parrondo sequences generate highly entangled states, which are independent of the phase of the initial state used and further lead to maximally entangled states in some cases. We study Parrondo sequences for a small number of time steps and the asymptotic limit of a large number of time steps.
翻訳日:2023-05-07 06:37:39 公開日:2022-10-15
# 大きな量子ビット系に対する量子性の効率的な基準

Efficient criteria of quantumness for a large system of qubits ( http://arxiv.org/abs/2108.13554v2 )

ライセンス: Link先を確認
Shohei Watabe, Michael Zach Serikow, Shiro Kawabata, and Alexandre Zagoskin(参考訳) 量子コンピュータや量子アニールなどの大規模量子システムをモデル化し評価するには、そのようなシステムの「量子性」を定量化する必要がある。 本稿では,その量子度を特徴付けるために使用可能な,大規模部分量子コヒーレント系の基本パラメータの無次元結合について論じる。 解析的および数値計算に基づいて、断熱進化中の量子ビット系、すなわちアクセシビリティ指数に対してそのような数を提案する。 これをD-Wave One超伝導量子アニール装置のケースに適用すると、その動作が量子領域内にうまく収まることが分かる。

In order to model and evaluate large-scale quantum systems, e.g. quantum computer and quantum annealer, it is necessary to quantify the ``quantumness" of such systems. In this paper, we discuss the dimensionless combinations of basic parameters of large, partially quantum coherent systems, which could be used to characterize their degree of quantumness. Based on analytical and numerical calculations, we suggest one such number for a system of qubits undergoing adiabatic evolution, i.e., the accessibility index. Applying it to the case of D-Wave One superconducting quantum annealing device, we find that its operation as described falls well within the quantum domain.
翻訳日:2023-03-16 18:43:43 公開日:2022-10-15
# エネルギー拘束型LOCC支援ボソニックデファスティングチャネルの量子容量

Energy-constrained LOCC-assisted quantum capacity of bosonic dephasing channel ( http://arxiv.org/abs/2111.04173v3 )

ライセンス: Link先を確認
Amir Arqand, Laleh Memarzadeh, Stefano Mancini(参考訳) 入力状態にエネルギーを制約したボソニックデファスティングチャネルのLOCC支援量子容量について検討する。 我々は、エネルギー制約されたLOCC補助量子容量の上限であるチャネルの正方形絡みに焦点をあてて分析を開始する。 二重最適化(密度行列の集合とスキャッシングチャネルの等方性拡張)により、チャネルのエネルギー制約付き量子絡み合いの計算が困難であるので、まずその上界を導出し、次に、その境界がボソニックデファスティングチャネルのエネルギー制約型LOCC支援量子容量に対してどれほどきつくかについて議論する。 最適入力状態がフォック基底において対角的であることを証明する。 さらに, 汎用チャネルの場合, 最適スキャッシングチャネルは, チャネル系環境出力の対称量子マルコフ連鎖インデューサ(SQMCI)チャネルの集合に属し, その集合が空でないことを証明した。 議論を支持することによって、これは代わりにボソニック・デファスメント・チャンネルの場合であると推測する。 したがって、SQMCIではないが対称な2つのスキャッシングチャネルの明示的な例を分析する。 これらを通して,音パラメータの異なる量子容量のボソニックデファスリングチャネルのエネルギー制約型LOCC支援量子容量に対して,明らかな上界と下界を導出した。 上界と下界の違いは10^{-1}$のオーダーのほとんどであるため、境界はタイトであると結論付ける。 したがって, ボソニックデファッシングチャネルのlocc支援量子容量を非常によく推定できる。

We study the LOCC-assisted quantum capacity of bosonic dephasing channel with energy constraint on input states. We start our analysis by focusing on the energy-constrained squashed entanglement of the channel, which is an upper bound for the energy-constrained LOCC-assisted quantum capacity. As computing energy-constrained squashed entanglement of the channel is challenging due to a double optimization (over the set of density matrices and the isometric extensions of a squashing channel), we first derive an upper bound for it, and then we discuss how tight that bound is for energy-constrained LOCC-assisted quantum capacity of bosonic dephasing channel. We prove that the optimal input state is diagonal in the Fock basis. Furthermore, we prove that for a generic channel, the optimal squashing channel belongs to the set of symmetric quantum Markov chain inducer (SQMCI) channels of the channel system-environment output, provided that such a set is non-empty. With supporting arguments, we conjecture that this is instead the case for the bosonic dephasing channel. Hence, for it we analyze two explicit examples of squashing channels which are not SQMCI, but are symmetric. Through them, we derive explicit upper and lower bounds for the energy-constrained LOCC-assisted quantum capacity of the bosonic dephasing channel in terms of its quantum capacity with different noise parameters. As the difference between upper and lower bounds is at most of the order $10^{-1}$, we conclude that the bounds are tight. Hence we provide a very good estimation of the LOCC-assisted quantum capacity of the bosonic dephasing channel.
翻訳日:2023-03-08 22:25:32 公開日:2022-10-15
# 高次元多入力量子ランダムアクセス符号と相互偏差ベース

High-dimensional multi-input quantum random access codes and mutually unbiased bases ( http://arxiv.org/abs/2111.08890v6 )

ライセンス: Link先を確認
Rui-Heng Miao, Zhao-Di Liu, Yong-Nan Sun, Chen-Xi Ning, Chuan-Feng Li and Guang-Can Guo(参考訳) 量子ランダムアクセス符号(quantum random access codes, qracs)は、量子情報処理タスクに幅広い応用がある量子リソースとプロトコルの利点を示すための基本的なツールである。 しかし、高次元 $(d)$ multi-input $(n)$ $n^{(d)}\rightarrow1$ QRACs の調査と応用は依然として不足している。 ここでは、$n^{(d)}\rightarrow1$ QRACsの最大成功確率を求める一般的な方法を提案する。 特に、測定ベースが相互に偏りのないベース(mubs)である場合、最大成功確率が3^{(d)}\rightarrow1$ qracsとなる解析解を与える。 解析解に基づいて、MUBsと$n^{(d)}\rightarrow1$ QRACsの関係を示す。 まず,MUBs (OI-MUBs) の操作不等式を,次元$d$が素電力であるときに探索する手法を提案する。 第二に、理論上は、一般的に使われているガロア MUB が、最適な測定基準に関する従来の予想に従ってブレークスルーを示す$n^{(d)}\rightarrow1$ QRACs の最大成功確率を得る最適測定基準ではないことを証明している。 さらに,軌道角運動量の高忠実度量子状態に基づき,次元11までの2入力および3入力qracを実験的に達成した。 実験により, OI-MUBsは$d=5$である。 その結果、量子力学と量子ネットワーク符号化の基礎的性質を調べるための代替手段が開かれた。

Quantum random access codes (QRACs) provide a basic tool for demonstrating the advantages of quantum resources and protocols, which have a wide range of applications in quantum information processing tasks. However, the investigation and application of high-dimensional $(d)$ multi-input $(n)$ $n^{(d)}\rightarrow1$ QRACs are still lacking. Here, we present a general method to find the maximum success probability of $n^{(d)}\rightarrow1$ QRACs. In particular, we give the analytical solution for maximum success probability of $3^{(d)}\rightarrow1$ QRACs when measurement bases are mutually unbiased bases (MUBs). Based on the analytical solution, we show the relationship between MUBs and $n^{(d)}\rightarrow1$ QRACs. First, we provide a systematic method of searching for the operational inequivalence of MUBs (OI-MUBs) when the dimension $d$ is a prime power. Second, we theoretically prove that, surprisingly, the commonly used Galois MUBs are not the optimal measurement bases to obtain the maximum success probability of $n^{(d)}\rightarrow1$ QRACs, which indicates a breakthrough according to the traditional conjecture regarding the optimal measurement bases. Furthermore, based on high-fidelity high-dimensional quantum states of orbital angular momentum, we experimentally achieve two-input and three-input QRACs up to dimension 11. We experimentally confirm the OI-MUBs when $d=5$. Our results open alternative avenues for investigating the foundational properties of quantum mechanics and quantum network coding.
翻訳日:2023-03-07 22:01:13 公開日:2022-10-15
# 光メカニカル量子インターコネクションのパラメトリック増幅

Parametric Amplification of an Optomechanical Quantum Interconnect ( http://arxiv.org/abs/2202.12291v3 )

ライセンス: Link先を確認
Huo Chen, Marti Vives and Mekena Metcalf(参考訳) 超伝導量子ビットを光ファイバに接続するには、マイクロ波光子の光子への変換が必要である。 現代の実験では、マイクロ波共振器とメカニカル発振器のフォノンモードを介する光共振器との間に強い結合性を示す。 このパラダイム変換実験は、電磁共振器上の一定の駆動振幅を持つ理論的効率によって制限される。 マイクロ波共振器と光共振器にパラメトリック駆動を加えることで、加算ノイズの低いレベルを維持しながら、量子トランスデューサを通して変換された信号が増幅される。 本稿では,量子光学の入出力形式に基づく駆動レーザの時間依存制御のための理論的枠組みを提案し,制御信号がシステムをパラメトリックに駆動する場合の変換効率とノイズを解析的に解く。 その結果, トランスダクション効率が向上し, 現在のトランスダクション実験に関連するパラメータの変動が低くなった。

Connecting superconducting qubits to optical fiber necessitates the conversion of microwave photons to optical photons. Modern experimental demonstrations exhibit strong coupling between a microwave resonator and an optical cavity mediated through phononic modes in a mechanical oscillator. This paradigmatic transduction experiment is bounded by a theoretical efficiency with constant driving amplitudes on the electromagnetic resonators. By adding a parametric drive to the microwave resonator and optical cavity we discover the converted signal through the quantum transducer is amplified, while maintaining a lower level of the added noise. We propose a theoretical framework for time-dependent control of the driving lasers based on the input-output formalism of quantum optics, and solve analytically the transduction efficiency and added noise when the control signals parametrically drive the system. Our results show better transduction efficiency and lower added noise in varying parameter regimes relevant to current transduction experiments.
翻訳日:2023-02-24 01:24:53 公開日:2022-10-15
# ドメイン適応は個別の公平性を満たす。 そして彼らは仲良くなる

Domain Adaptation meets Individual Fairness. And they get along ( http://arxiv.org/abs/2205.00504v2 )

ライセンス: Link先を確認
Debarghya Mukherjee, Felix Petersen, Mikhail Yurochkin, Yuekai Sun(参考訳) アルゴリズムバイアスの多くの例は分布シフトによって引き起こされる。 例えば、機械学習(ML)モデルは、トレーニングデータに不足している人口統計群に対して、しばしば悪化する。 本稿では,アルゴリズムフェアネスと分布シフトの関係を利用して,アルゴリズムフェアネスの介入が分布シフトを克服し,ドメイン適応手法(分布シフトを克服する)がアルゴリズムバイアスを軽減することを示す。 特に私たちが示すのは (i)個々フェアネスの適切な概念を強制することは、共変量シフト仮定の下でのmlモデルの分散精度を向上させることができ、その効果 (ii)個々のフェアネスを強制するために、ドメイン適応のための表現アライメント手法を適用することが可能である。 前者は、分布シフトを念頭に置いて介入が行われなかった場合、予想外である。 表現のアライメントは個々人のフェアネス文学では一般的なアプローチではないため、後者も予想外である。

Many instances of algorithmic bias are caused by distributional shifts. For example, machine learning (ML) models often perform worse on demographic groups that are underrepresented in the training data. In this paper, we leverage this connection between algorithmic fairness and distribution shifts to show that algorithmic fairness interventions can help ML models overcome distribution shifts, and that domain adaptation methods (for overcoming distribution shifts) can mitigate algorithmic biases. In particular, we show that (i) enforcing suitable notions of individual fairness (IF) can improve the out-of-distribution accuracy of ML models under the covariate shift assumption and that (ii) it is possible to adapt representation alignment methods for domain adaptation to enforce individual fairness. The former is unexpected because IF interventions were not developed with distribution shifts in mind. The latter is also unexpected because representation alignment is not a common approach in the individual fairness literature.
翻訳日:2023-02-19 16:35:01 公開日:2022-10-15
# コメント:2020年国勢調査開示回避システムにおける政策評価の本質的役割

Comment: The Essential Role of Policy Evaluation for the 2020 Census Disclosure Avoidance System ( http://arxiv.org/abs/2210.08383v1 )

ライセンス: Link先を確認
Christopher T. Kenny, Shiro Kuriwaki, Cory McCartan, Evan T. R. Rosenman, Tyler Simko, Kosuke Imai(参考訳) 差動的視点:アメリカ合衆国国勢調査局の差分プライバシーの使用を取り巻く認識的断絶」において、ボイドとサラシーは、公表された分析を含む国勢調査開示回避システム(das)の実証的評価は、2020年のdasが評価されたベンチマークデータがどのように人口数の基礎的真実であるかを認識できなかったと主張している。 本論では、分析の主目的である政策評価が、完全な根拠の真理を得ることなくまだ意味のあるものである理由を述べる。 また,1年間の国勢調査に特有な特徴を生かし,スワッピングによるブロックレベルの人口変動や,投票者ファイルの人種識別,地上の真実との比較の精度向上など,データの再制限を図った。 最後に,ベイジアン改良サーナジオコーディングに基づく個人人種の正確な統計的予測は,差分プライバシー違反ではないものの,国勢調査局が保護しようとした個人情報の開示リスクを大幅に高めることを示す。 我々は、政策立案者はデータユーティリティとプライバシ保護との間の重要なトレードオフに直面しなければならないと論じ、エピステマティックな断絶だけでは政策選択の相違を説明できないと結論付けた。

In "Differential Perspectives: Epistemic Disconnects Surrounding the US Census Bureau's Use of Differential Privacy," boyd and Sarathy argue that empirical evaluations of the Census Disclosure Avoidance System (DAS), including our published analysis, failed to recognize how the benchmark data against which the 2020 DAS was evaluated is never a ground truth of population counts. In this commentary, we explain why policy evaluation, which was the main goal of our analysis, is still meaningful without access to a perfect ground truth. We also point out that our evaluation leveraged features specific to the decennial Census and redistricting data, such as block-level population invariance under swapping and voter file racial identification, better approximating a comparison with the ground truth. Lastly, we show that accurate statistical predictions of individual race based on the Bayesian Improved Surname Geocoding, while not a violation of differential privacy, substantially increases the disclosure risk of private information the Census Bureau sought to protect. We conclude by arguing that policy makers must confront a key trade-off between data utility and privacy protection, and an epistemic disconnect alone is insufficient to explain disagreements between policy choices.
翻訳日:2023-02-19 11:42:46 公開日:2022-10-15
# 構成可能な有限サイズセキュリティ下での一方向ヘテロダインプロトコルのデータ後処理

Data post-processing for the one-way heterodyne protocol under composable finite-size security ( http://arxiv.org/abs/2205.10142v2 )

ライセンス: Link先を確認
Alexander George Mountogiannakis, Panagiotis Papanastasiou, Stefano Pirandola(参考訳) 実用的な連続可変(CV)量子鍵分布(QKD)プロトコルの性能は、量子チャネルの損失とノイズとは別に、最終的な秘密鍵の抽出につながる後処理ステップに大きく依存する。 重要なステップは和解プロセスであり、特に合成可能なフレームワークで有限サイズの効果を仮定する場合である。 本稿では,高信号対雑音比でヘテロダイン検出を行うガウス変調コヒーレント状態プロトコルに着目した。 量子通信をシミュレートし、パラメータ推定、誤り訂正(高速で非バイナリなパリティチェックコードを用いた)、プライバシ増幅を応用し、出力データを後処理する。 これにより、プロトコルの実用的な実装のパフォーマンスを研究し、上記のステップに関連付けられたパラメータを最適化できます。 また、上記のステップを実行するPythonライブラリも提示します。

The performance of a practical continuous-variable (CV) quantum key distribution (QKD) protocol depends significantly, apart from the loss and noise of the quantum channel, on the post-processing steps which lead to the extraction of the final secret key. A critical step is the reconciliation process, especially when one assumes finite-size effects in a composable framework. Here, we focus on the Gaussian-modulated coherent-state protocol with heterodyne detection in a high signal-to-noise ratio regime. We simulate the quantum communication process and we post-process the output data by applying parameter estimation, error correction (using high-rate, non-binary low-density parity-check codes), and privacy amplification. This allows us to study the performance for practical implementations of the protocol and optimize the parameters connected to the steps above. We also present an associated Python library performing the steps above.
翻訳日:2023-02-12 08:05:42 公開日:2022-10-15
# 決定理論に関連付けられた単純な量子モデル

A simple quantum model linked to a theory of decisions ( http://arxiv.org/abs/2206.04918v8 )

ライセンス: Link先を確認
Inge S. Helland(参考訳) この記事は、著者が近年量子論の基礎で行ってきた研究の要約と最後の議論と見なすことができる。 モデルとしての量子力学は、全く異なるより単純なモデルから特定の条件の下で従うことが示されている。 このモデルはオブザーバーの心、あるいは通信するオブザーバーのグループの合同心と結びついている。 このモデルは概念変数に基づいており、観察者(オブザーバーのグループ)がどの変数を測定するかを決定する必要があるという重要な側面がある。 そのモデルは、より一般的に決定論と結びついている。 結果はいくつかの角度から議論される。 特に、マクロな結果が簡潔に扱われる。

This article may be seen as a summary and a final discussion of the work that the author has done in recent years on the foundation of quantum theory. It is shown that quantum mechanics as a model follows under certain specific conditions from a quite different, much simpler model. This model is connected to the mind of an observer, or to the joint minds of a group of communicating observers. The model is based upon conceptual variables, and an important aspect is that an observer (a group of observers) must decide on which variable to measure. The model is then linked more generally to a theory of decisions. The results are discussed from several angles. In particular, macroscopic consequences are treated briefly.
翻訳日:2023-02-09 23:13:21 公開日:2022-10-15
# 携帯型高精度原子重力計の小型アクティブ振動分離と傾斜安定化

Compact active vibration isolation and tilt stabilization for a portable high-precision atomic gravimeter ( http://arxiv.org/abs/2206.06028v2 )

ライセンス: Link先を確認
Fong En Oon and Rainer Dumke(参考訳) 高精度原子重力計では、特定の自由落下原子核実験質量の2つの超微細な基底状態に対処するラマンレーザービームの逆反射鏡である重力参照を提供するために静止質量が必要である。 我々は縦軸の振動分離と水平面の2回転安定化を実現する反射鏡の小型能動フィードバック制御システムを構築した。 アクティブフィードバック制御は、周波数範囲0.03から10hzで最大300倍の縦振動を低減し、騒がしい実験室環境では約$\pm$ 1$\mu$radの傾動安定化を提供する。 このシステムは、ポータブル重力計の高精度重力測定を可能にし、感度は6.4\times 10^{-8}$ g/$\sqrt{\text{hz}}$であり、4000 sの積分時間後に2.8\times 10^{-9}$ gの解像度となる。

In high-precision atomic gravimeters, a rest mass is needed to provide a gravity reference, which is typically the retro-reflecting mirror of the Raman laser beams that addresses the two hyperfine ground states of the specific free-falling atomic test mass. We constructed a compact active feedback control system for the retro-reflecting mirror that provides vibration isolation in the vertical axis as well as two rotation stabilization in the horizontal plane. The active feedback control provides vertical vibration reduction of up to a factor of 300 in the frequency range of 0.03 to 10 Hz and tilt stabilization of approximately $\pm$ 1 $\mu$rad in the noisy lab environment. This system has enabled high-precision gravity measurements on a portable gravimeter with sensitivity reaching $6.4\times 10^{-8}$ g/$\sqrt{\text{Hz}}$ and resolution of $2.8\times 10^{-9}$ g after an integration time of 4000 s.
翻訳日:2023-02-09 12:47:35 公開日:2022-10-15
# 不定因果順序を用いた作業抽出の因果ゲーム

Causal games of work extraction with indefinite causal order ( http://arxiv.org/abs/2208.02550v4 )

ライセンス: Link先を確認
Gianluca Francica(参考訳) イベントの原因が必ずしも過去のイベントにあるとは限らない不定因果順序は、プロセスマトリックスフレームワークによって予測される。 根本的な問題は、これらの非分離因果構造が熱力学現象とどのように関係するかである。 ここでは,グローバルな相関関係と不明確な因果順序を生かして作業の抽出を最適化する2つの局所的なマックスウェル悪魔の存在を考慮し,この問題にアプローチする。 したがって、因果不等式が破られた場合、局所エネルギーを0に下げる確率がより大きいことが証明され、明確な因果順序に関してより平均的な作業が抽出できる。 しかし、非相互作用当事者にとって、抽出可能な作業は、決定因果順序よりも大きくはならないと考えられる。

An indefinite causal order, where the causes of events are not necessarily in past events, is predicted by the process matrix framework. A fundamental question is how these non-separable causal structures can be related to the thermodynamic phenomena. Here, we approach this problem by considering the existence of two cooperating local Maxwell's demons which try to exploit the presence of global correlations and indefinite causal order to optimize the extraction of work. Thus, we prove that it is possible to have a larger probability to lower the local energy to zero if causal inequalities are violated, and that can be extracted more average work with respect to a definite causal order. However, for non-interacting parties, for the system considered the work extractable cannot be larger than the definite causal order bound.
翻訳日:2023-02-02 07:21:39 公開日:2022-10-15
# デジタル量子シミュレータにおけるKardar-Parisi-Zhangスケーリングの証拠

Evidence of Kardar-Parisi-Zhang scaling on a digital quantum simulator ( http://arxiv.org/abs/2208.12243v3 )

ライセンス: Link先を確認
Nathan Keenan, Niall Robertson, Tara Murphy, Sergiy Zhuk and John Goold(参考訳) 多粒子シュリンガー方程式のユニタリ進化から流体力学的挙動がどのように現れるかを理解することは、非平衡統計力学の中心的な目的である。 本研究では,うるさい近距離量子デバイス上のスピン-$\frac{1}{2}$ xxzスピンチェーンの離散時間量子ダイナミクスのディジタルシミュレーションを実装し,等方点における高温輸送指数を抽出する。 ibmq-montreal $27$ qubitデバイスに特別に調整されたランダム回路によって生成された擬似ランダム状態を用いて、高温における関連するスピン相関関数の時間的減衰をシミュレートする。 その結果得られる出力は、非常に不均一な背景におけるスピン励起である。 その後の離散時間ダイナミクスから、等方点におけるカルダル・パリシ・ジャング(kardar-parisi-zhang、kpz)スケーリングと一致する異常な超拡散指数を抽出することができる。 さらに,スピン拡散の回復を積分可能性破壊ポテンシャルの適用によりシミュレートする。

Understanding how hydrodynamic behaviour emerges from the unitary evolution of the many-particle Schr\"odinger equation is a central goal of non-equilibrium statistical mechanics. In this work we implement a digital simulation of the discrete time quantum dynamics of a spin-$\frac{1}{2}$ XXZ spin chain on a noisy near-term quantum device, and we extract the high temperature transport exponent at the isotropic point. We simulate the temporal decay of the relevant spin correlation function at high temperature using a pseudo-random state generated by a random circuit that is specifically tailored to the ibmq-montreal $27$ qubit device. The resulting output is a spin excitation on a highly inhomogeneous background. From the subsequent discrete time dynamics on the device we are able to extract an anomalous super-diffusive exponent consistent with the conjectured Kardar-Parisi-Zhang (KPZ) scaling at the isotropic point. Furthermore we simulate the restoration of spin diffusion with the application of an integrability breaking potential.
翻訳日:2023-01-29 21:06:19 公開日:2022-10-15
# 超対称JT重力における複雑さの深夜成長の飽和について

On the saturation of late-time growth of complexity in supersymmetric JT gravity ( http://arxiv.org/abs/2209.02441v2 )

ライセンス: Link先を確認
Mohsen Alishahiha, Souvik Banerjee(参考訳) この研究では、arXiv:2205.01150で提案された修正レプリカのトリックを使用して、${\cal N} = 1$ および ${\cal N} = 2$ 超対称性を用いて、JT重力の複雑さの遅延時間挙動を計算する。 1$理論の${\cal n} = 1$ に対して、``quenched geodesic length' で定義される複雑さの後期の振る舞いを計算し、時間非依存な分散を伴う定数値に対して、時刻 $t \sim e^{s_0}$ での複雑性の期待飽和を得る。 ${\cal N} = 2$理論では、複雑性の遅延時間線形成長をもたらすディスクレベルで明らかに複雑性を計算します。 しかし,トランペット分割関数とスペクトル相関に対する非摂動補正を推測することにより,遅れ飽和の期待について考察する。 さらに,両理論の物質相関関数を計算した。

In this work we use the modified replica trick, proposed in arXiv:2205.01150, to compute the late time behaviour of complexity for JT gravity with ${\cal N} = 1$ and ${\cal N} = 2$ supersymmetries. For the ${\cal N} = 1$ theory, we compute the late time behaviour of complexity defined by the ``quenched geodesic length" and obtain the expected saturation of complexity at time $t \sim e^{S_0}$, to a constant value with time-independent variance. For the ${\cal N} = 2$ theory, we explicitly compute complexity at the disk level which yields the late-time linear growth of complexity. However, we comment on the expectation of the late-time saturation by speculating the trumpet partition function and the non-perturbative corrections to the spectral correlation, relevant for the late-time behaviour of complexity. Furthermore, we compute the matter correlation functions for both the theories.
翻訳日:2023-01-27 18:29:41 公開日:2022-10-15
# 2成分ガウス状態の絡み合い:単純基準とその幾何学的解釈

Entanglement of Bipartite Gaussian States: a Simple Criterion and its Geometric Interpretation ( http://arxiv.org/abs/2210.01735v2 )

ライセンス: Link先を確認
Maurice de Gosson(参考訳) WernerとWolfはPhysで証明している。 Rev. Lett. 86(16) (2001) bosonic continuous variable bipartite gaussian mixed quantum state が分離可能であるための非常にエレガントで十分な条件である。 しかし、この条件は実際に実施することは困難である。 本稿では,この状態の共分散行列のウィリアムソン対角化におけるシンプレクティック行列の計算のみを考慮に入れた簡易な条件を提案する。 我々の構成の主要なツールは、以前の研究で証明された観測であり、ウィグナー変換はシンプレクティックあるいは反シンプレクティック線型変換の下でのみ共変である。 また、「量子ブロブ」の直交射影の観点から、我々の状態の幾何学的解釈を与える。 .

Werner and Wolf have proven in Phys. Rev. Lett. 86(16) (2001) a very elegant necessary and sufficient condition for a bosonic continuous variable bipartite Gaussian mixed quantum state to be separable. This condition is, however, difficult to implement in practice. In the present Letter, we propose a simpler condition which only involves the calculation of the symplectic matrix in the Williamson diagonalization of the covariance matrix of the state under consideration. The main tool in our construction is the observation, proved in previous work, that the Wigner transform is covariant only under symplectic or antisymplectic linear transformations. We also give a geometric interpretation of our condition in terms of the orthogonal projections of "quantum blobs"..
翻訳日:2023-01-23 22:04:22 公開日:2022-10-15
# 量子多体状態のシュミット分解を効率的に表現するテンソルネットワーク

Tensor network efficiently representing Schmidt decomposition of quantum many-body states ( http://arxiv.org/abs/2210.08166v1 )

ライセンス: Link先を確認
Peng-Fei Zhou, Ying Lu, Jia-Hao Wang, Shi-Ju Ran(参考訳) 量子多体状態の絡み合いを達成する効率的な手法は、システムサイズ$n$と指数関数的にスケールするが、長い間懸念されてきた。 本稿では、非自明な二分割境界を持つ有限および無限大量子状態のシュミット分解を効率的に表現するシュミットテンソルネットワーク状態(schmidt-tns)を提案する。 鍵となる考え方は、シュミット係数(すなわち、絡み合いスペクトル)と分解における変換を線形スケールの複雑性を持つテンソルネットワーク(TN)に変換することである。 具体的には、変換は局所ユニタリによって生成されるTNとして記述され、シュミット係数は正定値行列積状態(MPS)に符号化される。 翻訳不変性は無限大の場合のTNとMPSに課すことができる。 Schmidt-TNSの妥当性は、擬一次元スピンモデルの基底状態と幾何学的フラストレーションをシミュレートすることによって示される。 その結果, 崩壊状態の絡み合いエントロピーが強い場合でも, シュミット係数を符号化するMPSは弱絡み合っていることがわかった。 これは、シュミット係数を符号化するためにMPSを使用する効率を正当化し、全状態サンプリングタスクで指数的なスピードアップを約束する。

Efficient methods to achieve the entanglement of a quantum many-body state, whose complexity generally scales exponentially with the system size $N$, have been long concerned. Here we propose the Schmidt tensor network state (Schmidt-TNS) that efficiently represents the Schmidt decomposition of finite- and even infinite-size quantum states with non-trivial bipartition boundary. The key idea is to represent the Schmidt coefficients (i.e., entanglement spectrum) and transformations in the decomposition to tensor networks (TN's) with linearly-scaled complexity versus $N$. Specifically, the transformations are written as the TN's formed by local unitaries, and the Schmidt coefficients are encoded in a positive-definite matrix product state (MPS). Translational invariance can be imposed on the TN's and MPS for the infinite-size cases. The validity of Schmidt-TNS is demonstrated by simulating the ground state of the quasi-one-dimensional spin model with geometrical frustration. Our results show that the MPS encoding the Schmidt coefficients is weakly entangled even when the entanglement entropy of the decomposed state is strong. This justifies the efficiency of using MPS to encode the Schmidt coefficients, and promises an exponential speedup on the full-state sampling tasks.
翻訳日:2023-01-22 11:49:10 公開日:2022-10-15
# 最小共通多重に対する量子セキュアマルチパーティ計算プロトコル

a quantum secure multiparty computation protocol for least common multiple ( http://arxiv.org/abs/2210.08165v1 )

ライセンス: Link先を確認
Zixian Li and Wenjie Liu(参考訳) 本稿では、ShorのQPA(quantum period-finding algorithm)に基づいて、最小多重(LCM)に対してセキュアなマルチパーティ計算(SMC)プロトコルを提案する。 我々のプロトコルは以下の原理に基づいている: 複数の周期関数の接続は周期関数であり、周期は全ての小さな周期のうち、正確には最も一般的でない多重である。 また,QPAは確率的アルゴリズムであるため,提案したLCMプロトコルの結果を検証するために,既存のセキュアなマルチパーティ量子和プロトコルに基づく一票制投票プロトコルを提案する。 セキュリティ分析により,提案プロトコルは高い確率でセキュアであり,計算量は多項式の複雑さに留まっていることがわかった。 本稿では,LCMの効率的かつセキュアなマルチパーティ計算の課題を解決し,量子計算の可能性を示す。

In this paper, we present a secure multiparty computation (SMC) protocol for least common multiple (LCM) based on Shor's quantum period-finding algorithm (QPA). Our protocol is based on the following principle: the connection of multiple periodic functions is also a periodic function whose period is exactly the least common multiple of all small periods. Since QPA is a probabilistic algorithm, we also propose a one-vote-down vote protocol based on the existing secure multi-party quantum summation protocol, which is used to verify the results of the proposed LCM protocol. Security analysis shows that under the semi-honest model, the proposed protocol is secure with high probability, while the computational consumption remains at polynomial complexity. The protocol proposed in this paper solves the problem of efficient and secure multiparty computation of LCM, demonstrating quantum computation potential.
翻訳日:2023-01-22 11:48:47 公開日:2022-10-15
# SACROCフィールドにおける飽和と圧力の時空間予測のための畳み込み長短期記憶(convLSTM)

Convolutional Long Short-Term Memory (convLSTM) for Spatio-Temporal Forecastings of Saturations and Pressure in the SACROC Field ( http://arxiv.org/abs/2212.00796v1 )

ライセンス: Link先を確認
Palash Panja, Wei Jia, Alec Nelson, Brian McPherson(参考訳) テキサス州のSACROC油田における時空間パラメータを予測するために,畳み込み長短期記憶(convLSTM)からなる機械学習アーキテクチャを開発した。 空間パラメータは、各月の終わりに30年(360ヶ月)に記録され、約83%(300ヶ月)がトレーニングに使用され、残りの17%(60ヶ月)がテストに使用される。 コンブLSTMモデルのサンプルは、入力として10連続フレームを選択し、出力として1フレームずつ前進させて10連続フレームを作成する。 個々のモデルは、石油、ガス、水の飽和度、およびネステロフ加速モーメント推定(Nadam)最適化アルゴリズムを用いて訓練される。 データ抽出、前処理、サンプル準備、トレーニング、機械学習モデルのテスト、エラー解析の全プロセスを理解するためのワークフローが提供される。 全体として、時空間予測のためのconvLSTMは、多孔質媒体における時空間パラメータの予測に有望な結果を示す。

A machine learning architecture composed of convolutional long short-term memory (convLSTM) is developed to predict spatio-temporal parameters in the SACROC oil field, Texas, USA. The spatial parameters are recorded at the end of each month for 30 years (360 months), approximately 83% (300 months) of which is used for training and the rest 17% (60 months) is kept for testing. The samples for the convLSTM models are prepared by choosing ten consecutive frames as input and ten consecutive frames shifted forward by one frame as output. Individual models are trained for oil, gas, and water saturations, and pressure using the Nesterov accelerated adaptive moment estimation (Nadam) optimization algorithm. A workflow is provided to comprehend the entire process of data extraction, preprocessing, sample preparation, training, testing of machine learning models, and error analysis. Overall, the convLSTM for spatio-temporal prediction shows promising results in predicting spatio-temporal parameters in porous media.
翻訳日:2023-01-22 11:46:55 公開日:2022-10-15
# 量子コンピュータ上の汚れたボソンをシミュレートする

Simulating dirty bosons on a quantum computer ( http://arxiv.org/abs/2210.08386v1 )

ライセンス: Link先を確認
Lindsay Bassman Oftelie, Roel Van Beeumen, Daan Camps, Wibe A. de Jong, Maxime Dupont(参考訳) 汚れたボソンの物理学は、量子系の障害と相互作用の興味深い相互作用を強調し、例えば、ランダムポテンシャルにおける超低温気体、ドープ量子磁石、アモルファス超伝導体を記述する上で中心的な役割を果たす。 ここでは, 量子コンピュータを用いて汚れた粒子の物理を1次元と2次元で解明する方法を示す。 具体的には,アディベート状態製剤を用いた障害誘発脱局在化遷移について検討する。 1次元では、量子回路は、現在利用可能な量子コンピュータ上で実行するのに十分な深さまで圧縮することができる。 2次元では、圧縮スキームはもはや適用されず、量子コンピュータの性能をエミュレートするために大規模な古典状態ベクトルシミュレーションを使用する必要がある。 さらに、ノイズ量子コンピュータのエミュレーションによる相互作用ボソンのシミュレートにより、シミュレートされたシステムの物理的特性に対する量子ハードウェアノイズの影響を研究することができた。 その結果, スケーリング則は, ノイズが観測可能度と強度, 回路深さ, 量子ビット数に対してどのように変化するかを制御することが示唆された。 さらに、雑音が非局在化位相と局所化位相に異なる影響を与えることを観察する。 ノイズがシミュレーションシステムの真の特性をどのように変化させるかを理解することは、ノイズの多い中間スケール量子デバイスを利用して汚れたボーソンをシミュレーションするために必要であり、凝縮物系全般にとって重要である。

The physics of dirty bosons highlights the intriguing interplay of disorder and interactions in quantum systems, playing a central role in describing, for instance, ultracold gases in a random potential, doped quantum magnets, and amorphous superconductors. Here, we demonstrate how quantum computers can be used to elucidate the physics of dirty bosons in one and two dimensions. Specifically, we explore the disorder-induced delocalized-to-localized transition using adiabatic state preparation. In one dimension, the quantum circuits can be compressed to small enough depths for execution on currently available quantum computers. In two dimensions, the compression scheme is no longer applicable, thereby requiring the use of large-scale classical state vector simulations to emulate quantum computer performance. In addition, simulating interacting bosons via emulation of a noisy quantum computer allowed us to study the effect of quantum hardware noise on the physical properties of the simulated system. Our results suggest that scaling laws control how noise modifies observables versus its strength, the circuit depth, and the number of qubits. Moreover, we observe that noise impacts the delocalized and localized phases differently. A better understanding of how noise alters the genuine properties of the simulated system is essential for leveraging noisy intermediate-scale quantum devices for simulation of dirty bosons, and indeed for condensed matter systems in general.
翻訳日:2023-01-22 11:46:36 公開日:2022-10-15
# マシンインテリジェンスを用いた量子鍵分布のための自己チューニング送信装置

Self-Tuning Transmitter for Quantum Key Distribution Using Machine Intelligence ( http://arxiv.org/abs/2210.08379v1 )

ライセンス: Link先を確認
Y.S. Lo, R.I. Woodward, T. Roger, V. Lovic, T.K. Para\"iso, I. De Marco, Z.L. Yuan, and A.J. Shields(参考訳) 量子技術の発展と性能は量子状態の性質に大きく依存しており、基礎となる全ての成分の駆動条件を注意深く最適化する必要がある。 量子鍵分布(QKD)において、パルスレーザーの光注入ロック(OIL)は、効率的なシステム設計による高速量子送信を実現するための有望な手法として最近示されている。 しかし、複雑なレーザーダイナミクスのため、このようなレーザーシステムのチューニングは困難かつ時間のかかる作業である。 ここでは,遺伝的アルゴリズムを用いて最適な動作状態に自動調整可能なOILベースのQKD送信機を実験的に実証する。 レーザ動作パラメータに関する最小限の知識から始めて、システムの位相コヒーレンスと量子ビット誤り率を、その状態と一致するレベルに自律的に最適化する。

The development and performance of quantum technologies heavily relies on the properties of the quantum states, which often require careful optimization of the driving conditions of all underlying components. In quantum key distribution (QKD), optical injection locking (OIL) of pulsed lasers has recently been shown as a promising technique to realize high-speed quantum transmitters with efficient system design. However, due to the complex underlying laser dynamics, tuning such laser system is both a challenging and time-consuming task. Here, we experimentally demonstrate an OIL-based QKD transmitter that can be automatically tuned to its optimum operating state by employing a genetic algorithm. Starting with minimal knowledge of the laser operating parameters, the phase coherence and the quantum bit error rate of the system are optimized autonomously to a level matching the state of the art.
翻訳日:2023-01-22 11:46:12 公開日:2022-10-15
# 離散格子の量子最適制御のためのメモリ効率の良い微分可能プログラミング

Memory-Efficient Differentiable Programming for Quantum Optimal Control of Discrete Lattices ( http://arxiv.org/abs/2210.08378v1 )

ライセンス: Link先を確認
Xian Wang, Paul Kairys, Sri Hari Krishna Narayanan, Jan H\"uckelheim, Paul Hovland(参考訳) 量子最適制御問題は典型的にはグレープなどの勾配に基づくアルゴリズムによって解決されるが、これは量子ビット数の増加に伴うストレージの指数関数的な増加とメモリ要求の線形成長に苦しむ。 離散格子にQOCを用いると、これらのメモリ要求が大きなモデルや長い時間スパンをシミュレートするための障壁であることが分かる。 我々は、適切な再計算コストでメモリ要求を大幅に削減する非標準微分可能プログラミングアプローチを採用している。 このアプローチはユニタリ行列の可逆性を利用してバックプロパゲーション中の計算を反転させる。 本稿では,この手法を実装した差別化プログラミングフレームワーク JAX で記述された QOC ソフトウェアを活用し,格子ゲージ理論の有効性を実証する。

Quantum optimal control problems are typically solved by gradient-based algorithms such as GRAPE, which suffer from exponential growth in storage with increasing number of qubits and linear growth in memory requirements with increasing number of time steps. Employing QOC for discrete lattices reveals that these memory requirements are a barrier for simulating large models or long time spans. We employ a nonstandard differentiable programming approach that significantly reduces the memory requirements at the cost of a reasonable amount of recomputation. The approach exploits invertibility properties of the unitary matrices to reverse the computation during back-propagation. We utilize QOC software written in the differentiable programming framework JAX that implements this approach, and demonstrate its effectiveness for lattice gauge theory.
翻訳日:2023-01-22 11:45:55 公開日:2022-10-15
# 量子ドットハイブリッド量子ビットのラッチリードアウト

Latched readout for the quantum dot hybrid qubit ( http://arxiv.org/abs/2210.08315v1 )

ライセンス: Link先を確認
J. Corrigan, J. P. Dodson, Brandur Thorgrimsson, Samuel F. Neyens, T. J. Knapp, Thomas McJunkin, S. N. Coppersmith, M. A. Eriksson(参考訳) 量子ドットハイブリッド量子ビットを読み出す第一の方法は、統合電荷検出ドットによって容易に検出される異なる電荷状態への論理基底の投影を含む。 しかし、最も単純な構成では、励起電荷状態は急速に減衰し、単発読み出しが困難になる。 ここでは,4,1)-(3,2)電荷配置の作業は,谷分割ではなく軌道分割によって読み出しウィンドウのサイズが決定されるため,通常の電荷配置よりも大きくて調整可能な,遅延された読み出しウィンドウを実現することを示す。

A primary method of reading out a quantum dot hybrid qubit involves projection of the logical basis onto distinct charge states that are readily detected by an integrated charge sensing dot. However, in the simplest configuration, the excited charge state decays rapidly, making single-shot readout challenging. Here, we demonstrate a readout procedure where the qubit excited state is latched to a metastable charge configuration whose lifetime is tunnel rate limited, persisting here as long as 2.5 ms. Additionally, we show that working in the (4,1)-(3,2) charge configuration enables a latched readout window that is larger and more tunable than typical charge configurations, because the size of the readout window is determined by an orbital splitting rather than a valley splitting.
翻訳日:2023-01-22 11:45:42 公開日:2022-10-15
# 量子ビットの大きい系に対するヒルベルト空間における連続的パーコレーション

Continuous percolation in a Hilbert space for a large system of qubits ( http://arxiv.org/abs/2210.08299v1 )

ライセンス: Link先を確認
Shohei Watabe, Michael Zach Serikow, Shiro Kawabata, and Alexandre Zagoskin(参考訳) パーコレーション理論の発展は歴史的に科学の様々な分野、特に統計物理学における多くの応用によって形成され、主にユークリッド空間の場合に制約された。 その中心的な概念の1つであるパーコレーション遷移は無限クラスターの出現によって定義されるため、n-量子ビット系のヒルベルト空間のようなコンパクト空間では使用できない。 ここでは、超球面を被覆するランダム空間の場合の一般化を提案し、 ``maximal cluster' の概念を導入する。 我々の数値計算では、超球半径と被覆密度の間の標準パワーロー関係を再現するが、量子ビットの数が増えるにつれて指数は急速に消滅する(つまりヒルベルト空間の指数関数的に増加する次元性は有限サイズの超球面による被覆を非効率にする)。 したがって、パーコレーション遷移はヒルベルト空間のランダムウォークモデルと比較して、マルチキュービット系の挙動の効率的なモデルではない。 しかし、コンパクトな距離空間におけるパーコレーション遷移への我々のアプローチは、他の文脈での厳密な処理に有用である。

The development of percolation theory was historically shaped by its numerous applications in various branches of science, in particular in statistical physics, and was mainly constrained to the case of Euclidean spaces. One of its central concepts, the percolation transition, is defined through the appearance of the infinite cluster, and therefore cannot be used in compact spaces, such as the Hilbert space of an N-qubit system. Here we propose its generalization for the case of a random space covering by hyperspheres, introducing the concept of a ``maximal cluster". Our numerical calculations reproduce the standard power-law relation between the hypersphere radius and the cover density, but show that as the number of qubits increases, the exponent quickly vanishes (i.e., the exponentially increasing dimensionality of the Hilbert space makes its covering by finite-size hyperspheres inefficient). Therefore the percolation transition is not an efficient model for the behavior of multiqubit systems, compared to the random walk model in the Hilbert space. However, our approach to the percolation transition in compact metric spaces may prove useful for its rigorous treatment in other contexts.
翻訳日:2023-01-22 11:45:30 公開日:2022-10-15
# 絡み合ったsegal-bargmann発振器のwehrlエントロピー

Wehrl entropy of entangled Segal-Bargmann oscillators ( http://arxiv.org/abs/2210.08253v1 )

ライセンス: Link先を確認
David Alonso L\'opez, Jose A. R. Cembranos, David D\'iaz-Guerra and Andr\'es M\'inguez S\'anchez(参考訳) この写本では、絡み合った振動子のWehrlエントロピーを研究する。 量子力学の位相空間の記述に関連するこの半古典エントロピーは不確実性関係の定式化や絡み合いの定量化に利用できる。 セガル・バルグマン空間に記述された2つの結合発振器の系に着目する。 与えられたガウス測度に関して可積分な正則函数のヒルベルト空間は、調和振動子を扱うのに特に便利である。 実際、ストーン・フォン・ノイマンの定理により、この空間においてラダー作用素形式と完全に対応して働くことができる。 さらに、フシミ擬確率分布は、セガル・バルグマン形式論の中で直接計算される。 フシミ関数が得られたら、Wehrlエントロピーと相互情報を分析する。

In this manuscript we study the Wehrl entropy of entangled oscillators. This semiclassical entropy associated with the phase-space description of quantum mechanics can be used for formulating uncertainty relations and for a quantification of entanglement. We focus on a system of two coupled oscillators described within its Segal-Bargmann space. This Hilbert space of holomorphic functions integrable with respect to a given Gaussian-like measure is particularly convenient to deal with harmonic oscillators. Indeed, the Stone-von Neumann theorem allows us to work in this space in a full correspondence with the ladder operators formalism. In addition, the Husimi pseudoprobability distribution is directly computed within the Segal-Bargmann formalism. Once we obtain the Husimi function, we analyze the Wehrl entropy and mutual information.
翻訳日:2023-01-22 11:45:06 公開日:2022-10-15
# エアリー型ビームのフラックス軌道解析

Flux trajectory analysis of Airy-type beams ( http://arxiv.org/abs/2210.08240v1 )

ライセンス: Link先を確認
A. S. Sanz(参考訳) エアリービーム(airy beams)は、自由空間における自己加速伝播に沿って形状不変性を示すことで知られているパルアキシャルヘルムホルツ方程式の解である。 これら2つの性質は、二乗可積分ではないという事実、すなわち無限エネルギーを持つという事実と関連している。 この欠点を回避するために、いわゆる有限エネルギーエアリー型ビームのファミリーが文献に提案されており、場合によっては実験室でも実装されている。 ここでは, 無限のエネルギービームと有限のエネルギービームが異なる挙動を示すメカニズムをよりよく理解するために, フラックス軌道の観点から, この種の構造光ビームの伝搬の解析を行う。 このように、ビームの最上部は、よく知られた加速項と明確に曖昧に関連付けられるが、ビームの後部は、特に大きな伝播距離において、流れの軌跡のほぼ均質な分布に対応する。 これは、隣接するローブ間(ビームの前部から後部への段階的に)の軌道を効果的に移動させることと関係しており、ビームの後部に沿って横流を浸透させることに繋がる。 これは、与えられた強度分布の軌跡に属する軌道が伝播に沿って同じままである理想的な空気状ビームに見られる状況とは対照的である。 この分析は、円形のエアリービームで観測されるオートフォーカス現象を動的に理解するために、有限エネルギーのエアリービームを用いて行ったヤングの実験の軌跡に基づく記述を補足する。

Airy beams are solutions to the paraxial Helmholtz equation known for exhibiting shape invariance along their self-accelerated propagation in free space. These two properties are associated with the fact that they are not square integrable, that is, they carry infinite energy. To circumvent this drawback, families of so-called finite-energy Airy-type beams have been proposed in the literature and, in some cases, also implemented in the laboratory. Here an analysis of the propagation of this type of structured light beams is presented from a flux trajectory perspective with the purpose to better understand the mechanisms that make infinite and finite energy beams to exhibit different behaviors. As it is shown, while the foremost part of the beam can be clearly and unambiguously associated with the well-known accelerating term, the rear part of the beam corresponds to a nearly homogeneous distribution of flow trajectories, particularly for large propagation distances. This is shown to be related with an effective transfer of trajectories between adjacent lobes (gradually, from the fore part of the beam to its rear part), which leads to smearing out the transverse flow along the rear part of the beam. This is sharp contrast with the situation found in ideal Airy beams, where trajectories belonging to a given lobe of the intensity distribution remain the same all along the propagation. The analysis is supplemented with an also trajectory-based description of Young's experiment performed with finite-energy Airy beams in order to provide a dynamical understanding of the autofocusing phenomenon observed with circular Airy beams.
翻訳日:2023-01-22 11:44:53 公開日:2022-10-15
# TopGen: 変分量子回路用トポロジー対応ボトムアップジェネレータ

TopGen: Topology-Aware Bottom-Up Generator for Variational Quantum Circuits ( http://arxiv.org/abs/2210.08190v1 )

ライセンス: Link先を確認
Jinglei Cheng, Hanrui Wang, Zhiding Liang, Yiyu Shi, Song Han, Xuehai Qian(参考訳) 変分量子アルゴリズム(VQA)は、短期デバイスに量子上の利点を示すことを約束している。 パラメータ化ゲートを持つ変分回路であるアンサッツの設計は、パラメータ最適化の基礎となるため、VQAにとって最重要となる。 NISQ(Noisy-Intermediate Scale Quantum)マシンのノイズが大きいため、アンザッツ設計プロセスにおける回路サイズと実機ノイズを考慮する必要がある。 残念なことに、ansatzの設計に関する最近の研究はノイズの影響を考慮せず、実際のデバイスは特定のノイズ情報を持たないブラックボックスとしてのみ扱う。 本研究では,ターゲットマシン上のキュービットトポロジに適した特定のアンサッツを設計し,ブラックボックスを開くことを提案する。 具体的には,トポロジ固有のansatzを生成するボトムアップ手法を提案する。 まず,高表現性や絡み合い能力などの望ましい特性を持つトポロジ互換サブ回路を生成する。 その後、サブ回路を結合して初期アンサッツを形成する。 さらに,サブ回路間の疎結合問題を解決するためにステッチング回路を提案し,その精度を向上させるために動的回路を成長させる。 この方法で構築されたアンサッツは非常に柔軟であるため、すべてのアンサッツ候補が事前定義された大きなアンサッツの厳密な部分集合である従来の最先端手法よりもはるかに大きな設計空間を探索することができる。 一般的なVQAアルゴリズムである量子ニューラルネットワーク(QNN)を用いて機械学習(ML)タスクをベンチマークする。 14のMLタスクの実験では、TopGenで検索したアンサッツは同じ性能で、回路深さとCNOTゲートの数を最大2 *と4 *に減らすことができる。 3つの実量子マシンの実験では、ベースラインよりも平均17%精度が向上した。

Variational Quantum Algorithms (VQA) are promising to demonstrate quantum advantages on near-term devices. Designing ansatz, a variational circuit with parameterized gates, is of paramount importance for VQA as it lays the foundation for parameter optimizations. Due to the large noise on Noisy-Intermediate Scale Quantum (NISQ) machines, considering circuit size and real device noise in the ansatz design process is necessary. Unfortunately, recent works on ansatz design either consider no noise impact or only treat the real device as a black box with no specific noise information. In this work, we propose to open the black box by designing specific ansatz tailored for the qubit topology on target machines. Specifically, we propose a bottom-up approach to generate topology-specific ansatz. Firstly, we generate topology-compatible sub-circuits with desirable properties such as high expressibility and entangling capability. Then, the sub-circuits are combined together to form an initial ansatz. We further propose circuits stitching to solve the sparse connectivity issue between sub-circuits, and dynamic circuit growing to improve the accuracy. The ansatz constructed with this method is highly flexible and thus we can explore a much larger design space than previous state-of-the-art method in which all ansatz candidates are strict subsets of a pre-defined large ansatz. We use a popular VQA algorithm - Quantum Neural Networks (QNN) for Machine Learning (ML) task as the benchmarks. Experiments on 14 ML tasks show that under the same performance, the TopGen-searched ansatz can reduce the circuit depth and the number of CNOT gates by up to 2 * and 4 * respectively. Experiments on three real quantum machines demonstrate on average 17% accuracy improvements over baselines.
翻訳日:2023-01-22 11:44:29 公開日:2022-10-15
# 不完全位相ランダム化によるデコイ状態量子鍵分布のセキュリティ

Security of decoy-state quantum key distribution with imperfect phase randomization ( http://arxiv.org/abs/2210.08183v1 )

ライセンス: Link先を確認
Guillermo Curr\'as-Lorenzo, Kiyoshi Tamaki, Marcos Curty(参考訳) 量子鍵分布(QKD)の性能は、光子数分割攻撃による多光子放射によって著しく制限されている。 最も効率的な解はデコイ状態法であり、全てのパルスの位相は独立で均一にランダムである。 しかし実際には、これらの位相はしばしば相関しており、特に高速システムではセキュリティの抜け穴が開いている。 ここでは, 理想的なシナリオに近いキーレートを提供する相関位相を持つデコイ状態QKDのセキュリティ証明を提供することにより, このプレス問題を解決する。 我々の研究は、実用的なレーザー源を用いた高性能QKDへの道を開いた。

The performance of quantum key distribution (QKD) is severely limited by multiphoton emissions, due to the photon-number splitting attack. The most efficient solution, the decoy-state method, requires that the phases of all transmitted pulses are independent and uniformly random. In practice, however, these phases are often correlated, especially in high-speed systems, which opens a security loophole. Here, we solve this pressing problem by providing a security proof for decoy-state QKD with correlated phases that provides key rates close to the ideal scenario. Our work paves the way towards high-performance QKD with practical laser sources.
翻訳日:2023-01-22 11:44:02 公開日:2022-10-15
# 胸部X線画像を用いた深部COVID-19分類法の検討

Exploration of Interpretability Techniques for Deep COVID-19 Classification using Chest X-ray Images ( http://arxiv.org/abs/2006.02570v3 )

ライセンス: Link先を確認
Soumick Chatterjee, Fatima Saad, Chompunuch Sarasaen, Suhita Ghosh, Valerie Krug, Rupali Khatun, Rahul Mishra, Nirja Desai, Petia Radeva, Georg Rose, Sebastian Stober, Oliver Speck, Andreas N\"urnberger(参考訳) 新型コロナウイルス(covid-19)の流行は世界全体に衝撃を与え、さまざまな分野に挑戦している。 感染拡大を制限する最も効果的な方法の1つは、感染した患者の早期かつ正確な診断である。 X線やCT(Computed Tomography)などの医用画像は、人工知能(AI)の可能性と相まって、診断プロセスにおいて医療スタッフを支援する上で重要な役割を担っている。 そこで本研究では,5種類の深層学習モデル(ResNet18,ResNet34,InceptionV3,InceptionResNetV2,DenseNet161)とそれらのエンサンブルを用いて,ケストX線画像を用いた新型コロナウイルス,肺炎球菌,健常者の分類を行った。 多発性病変の診断には多ラベル分類が有効であった。 まず, 各ネットワークの解釈可能性について, 局所的解釈可能性, サリエンシ, 入力X勾配, ガイド付きバックプロパゲーション, 集積勾配, ディープLIFTを用いて徹底的に検討し, グローバルな手法であるニューロン活性化プロファイルを用いて検討した。 新型コロナウイルスの分類モデルの平均Micro-F1スコアは0.66から0.875の範囲で、ネットワークモデルのアンサンブルは0.89である。 定性的な結果はResNetが最も解釈可能なモデルであることを示している。 本研究は、最適性能モデルを決定する前に、解釈可能性法を用いて異なるモデルを比較することの重要性を示す。

The outbreak of COVID-19 has shocked the entire world with its fairly rapid spread and has challenged different sectors. One of the most effective ways to limit its spread is the early and accurate diagnosis of infected patients. Medical imaging such as X-ray and Computed Tomography (CT) combined with the potential of Artificial Intelligence (AI) plays an essential role in supporting the medical staff in the diagnosis process. Thereby, five different deep learning models (ResNet18, ResNet34, InceptionV3, InceptionResNetV2, and DenseNet161) and their Ensemble have been used in this paper to classify COVID-19, pneumoni{\ae} and healthy subjects using Chest X-Ray images. Multi-label classification was performed to predict multiple pathologies for each patient, if present. Foremost, the interpretability of each of the networks was thoroughly studied using local interpretability methods - occlusion, saliency, input X gradient, guided backpropagation, integrated gradients, and DeepLIFT, and using a global technique - neuron activation profiles. The mean Micro-F1 score of the models for COVID-19 classifications ranges from 0.66 to 0.875, and is 0.89 for the Ensemble of the network models. The qualitative results depicted the ResNets to be the most interpretable models. This research demonstrates the importance of using interpretability methods to compare different models before making the decision regarding the best-performing model.
翻訳日:2022-11-25 17:53:04 公開日:2022-10-15
# 進化するソフトウェアシステムのバージョンシリーズ上でのコールグラフ進化分析

Call Graph Evolution Analytics over a Version Series of an Evolving Software System ( http://arxiv.org/abs/2210.08316v1 )

ライセンス: Link先を確認
Animesh Chaturvedi(参考訳) グラフ進化分析(Graph Evolution Analytics)は、ソフトウェアシステムのメンテナンスや進化において、ソフトウェアエンジニアを支援する。 本稿では,コールグラフecg = cg_1, cg_2, ... から情報を抽出するためのコールグラフ進化解析を提案する。 cg_n バージョンシリーズ vs = v_1, v_2, ... 進化するソフトウェアシステムのV_N。 これは、CGER(Call Graph Evolution Rules)とCGES(Call Graph Evolution Subgraphs)を使用して行われる。 関連ルールマイニングと同様に、cgerはシステム内の依存関係の共起を捉えるために使用される。 コールグラフのサブグラフパターンのように、CGESはコールグラフの進化における依存性パターンの進化を捉えるために使用される。 これらのパターンの進化に関するコールグラフ分析は、注意を必要とする潜在的な影響を受ける依存関係(あるいは手続き呼び出し)を識別することができる。 実験は、依存性進化管理をサポートするために、10の大規模進化システムのコールグラフで行われます。 Maven-Coreのバージョンシリーズのコールグラフの進化に関する詳細な研究結果についても検討する。

Call Graph evolution analytics can aid a software engineer when maintaining or evolving a software system. This paper proposes Call Graph Evolution Analytics to extract information from an evolving call graph ECG = CG_1, CG_2,... CG_N for their version series VS = V_1, V_2, ... V_N of an evolving software system. This is done using Call Graph Evolution Rules (CGERs) and Call Graph Evolution Subgraphs (CGESs). Similar to association rule mining, the CGERs are used to capture co-occurrences of dependencies in the system. Like subgraph patterns in a call graph, the CGESs are used to capture evolution of dependency patterns in evolving call graphs. Call graph analytics on the evolution in these patterns can identify potentially affected dependencies (or procedure calls) that need attention. The experiments are done on the evolving call graphs of 10 large evolving systems to support dependency evolution management. We also consider results from a detailed study for evolving call graphs of Maven-Core's version series.
翻訳日:2022-11-06 15:14:29 公開日:2022-10-15
# DF-GAN:テキスト・画像合成のためのシンプルで効果的なベースライン

DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis ( http://arxiv.org/abs/2008.05865v4 )

ライセンス: Link先を確認
Ming Tao, Hao Tang, Fei Wu, Xiao-Yuan Jing, Bing-Kun Bao, Changsheng Xu(参考訳) テキスト記述から高品質な現実的な画像を合成するのは難しい作業です。 既存のテキスト対画像生成広告ネットワークは一般にスタックアーキテクチャを採用しているが、バックボーンには3つの欠陥がある。 まず、スタックアーキテクチャは、異なる画像スケールのジェネレータ間の絡み合いを導入する。 第2に、既存の研究は、これらのネットワークの監督能力を制限するテキストイメージ意味一貫性のための敵対的学習における余分なネットワークの適用と修正を好んでいる。 第3に、従来の作品で広く採用されているクロスモーダル注意に基づくテキスト画像融合は、計算コストがかかるため、いくつかの特殊な画像スケールに制限されている。 そこで本研究では,DF-GAN(Deep Fusion Generative Adversarial Networks)を提案する。 具体的には、次のように提案する。 (i)高分解能画像を直接合成する新しい一段階のテキストから画像へのバックボーン。 二 余分なネットワークを導入することなく、テキスト画像の意味的一貫性を高める一方向出力と一致認識勾配ペナルティからなる新規な目標認識判別器 (iii)テキストと視覚機能の完全な融合を実現するために、融合プロセスを深くする新しい深層テキスト画像融合ブロック。 現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成に効率的であり,広く使用されているデータセットの性能向上を実現している。

Synthesizing high-quality realistic images from text descriptions is a challenging task. Existing text-to-image Generative Adversarial Networks generally employ a stacked architecture as the backbone yet still remain three flaws. First, the stacked architecture introduces the entanglements between generators of different image scales. Second, existing studies prefer to apply and fix extra networks in adversarial learning for text-image semantic consistency, which limits the supervision capability of these networks. Third, the cross-modal attention-based text-image fusion that widely adopted by previous works is limited on several special image scales because of the computational cost. To these ends, we propose a simpler but more effective Deep Fusion Generative Adversarial Networks (DF-GAN). To be specific, we propose: (i) a novel one-stage text-to-image backbone that directly synthesizes high-resolution images without entanglements between different generators, (ii) a novel Target-Aware Discriminator composed of Matching-Aware Gradient Penalty and One-Way Output, which enhances the text-image semantic consistency without introducing extra networks, (iii) a novel deep text-image fusion block, which deepens the fusion process to make a full fusion between text and visual features. Compared with current state-of-the-art methods, our proposed DF-GAN is simpler but more efficient to synthesize realistic and text-matching images and achieves better performance on widely used datasets.
翻訳日:2022-10-30 23:31:44 公開日:2022-10-15
# オリジナルのコブラの走行経路の制御

Controlling Travel Path of Original Cobra ( http://arxiv.org/abs/2210.10655v1 )

ライセンス: Link先を確認
Mriganka Basu RoyChowdhury, Arabin K Dey(参考訳) 本稿では,オリジナルCOBRAの直接近似であるカーネルベースのCOBRAを提案する。 本稿では,このカーネル近似に基づくCOBRAパラメータの新しいチューニング手法を提案する。 本稿では,提案アルゴリズムが他のCOBRAよりも精度が高く,Gridsearch COBRAよりも高速であることを示す。 我々は既存のCOBRAに対する提案手法を説明するために2つのデータセットを使用する。

In this paper we propose a kernel based COBRA which is a direct approximation of the original COBRA. We propose a novel tuning procedure for original COBRA parameters based on this kernel approximation. We show that our proposed algorithm provides much better accuracy than other COBRAs and faster than usual Gridsearch COBRA. We use two datasets to illustrate our proposed methodology over existing COBRAs.
翻訳日:2022-10-20 16:05:55 公開日:2022-10-15
# pogd: 新しい確率規則による勾配降下

POGD: Gradient Descent with New Stochastic Rules ( http://arxiv.org/abs/2210.10654v1 )

ライセンス: Link先を確認
Feihu Han, Sida Xing, Sui Yang Khoo(参考訳) 粒子最適化勾配降下(pogd)は、勾配降下に基づくアルゴリズムであるが、反復を達成するために粒子群最適化(pso)の原理を統合する。 実験から,このアルゴリズムは適応学習能力を有する。 本研究の目的は,目標値に達するための訓練速度と,局所的最小化防止能力に焦点をあてることである。 本稿では,MNISTとcifar-10データセットを用いた畳み込みニューラルネットワーク(CNN)画像分類により実験を行った。

There introduce Particle Optimized Gradient Descent (POGD), an algorithm based on the gradient descent but integrates the particle swarm optimization (PSO) principle to achieve the iteration. From the experiments, this algorithm has adaptive learning ability. The experiments in this paper mainly focus on the training speed to reach the target value and the ability to prevent the local minimum. The experiments in this paper are achieved by the convolutional neural network (CNN) image classification on the MNIST and cifar-10 datasets.
翻訳日:2022-10-20 15:03:24 公開日:2022-10-15
# アイテムポジションモデルと位置ベースモデルの補間による学習者ランクのオフ政治評価

Off-policy evaluation for learning-to-rank via interpolating the item-position model and the position-based model ( http://arxiv.org/abs/2210.09512v1 )

ライセンス: Link先を確認
Alexander Buchholz, Ben London, Giuseppe di Benedetto, Thorsten Joachims(参考訳) 産業推奨システムにとって重要なニーズは、製品にデプロイする前に、推奨ポリシーをオフラインで評価する能力である。 残念なことに、広く使用されているオフポリシー評価手法は、過度のバイアスにつながるユーザの振る舞いについて強い仮定をするか、仮定を少なくし、大きなばらつきに苦しむかのどちらかである。 そこで本稿では、位置ベースモデルとアイテムポジションモデルという、ランク付けのための最もポピュラーな2つのオフポリチック推定器の問題を緩和する新しい推定器を開発する。 特に、InterPOLと呼ばれる新しい推定器は、アイテムポジションモデルと比較して適応可能なバイアス分散トレードオフを提供しながら、潜在的に不特定な位置ベースモデルのバイアスに対処する。 提案手法は,理論的な議論と,新しい推定手法の性能を強調する経験的結果を提供する。

A critical need for industrial recommender systems is the ability to evaluate recommendation policies offline, before deploying them to production. Unfortunately, widely used off-policy evaluation methods either make strong assumptions about how users behave that can lead to excessive bias, or they make fewer assumptions and suffer from large variance. We tackle this problem by developing a new estimator that mitigates the problems of the two most popular off-policy estimators for rankings, namely the position-based model and the item-position model. In particular, the new estimator, called INTERPOL, addresses the bias of a potentially misspecified position-based model, while providing an adaptable bias-variance trade-off compared to the item-position model. We provide theoretical arguments as well as empirical results that highlight the performance of our novel estimation approach.
翻訳日:2022-10-19 16:18:30 公開日:2022-10-15
# PECNetのロバスト性の解析

Analyzing the Robustness of PECNet ( http://arxiv.org/abs/2210.09846v1 )

ライセンス: Link先を確認
Aryan Garg, Renu M. Rameshan(参考訳) 自動運転車の歩行者軌道予測システムであるPECNetの総合ロバスト性解析 データセット分析と分類のための新しいメトリクスが導入された。 システムの改善とテストには、ニュートン力学から深層強化学習に基づくシミュレーションまで、合成データ拡張技術が使用される。 FDEでは、ADEを妥協しながら、最先端の結果に対して9.5%の改善が見られた。 我々は,SIRENを用いた新しいアーキテクチャ変更を導入し,ロバスト性仮説を検証する。 また,同じタスクに対して,新たなマルチモーダルシステムを提案する。

Comprehensive robustness analysis of PECNet, a pedestrian trajectory prediction system for autonomous vehicles. A novel metric is introduced for dataset analysis and classification. Synthetic data augmentation techniques ranging from Newtonian mechanics to Deep Reinforcement Learning based simulations are used to improve and test the system. An improvement of 9.5% over state-of-the-art results is seen on the FDE while compromising ADE. We introduce novel architectural changes using SIRENs for higher precision results to validate our robustness hypotheses. Additionally, we diagrammatically propose a novel multi-modal system for the same task.
翻訳日:2022-10-19 13:12:20 公開日:2022-10-15
# 並列オンライン実験における公正効果の帰属

Fair Effect Attribution in Parallel Online Experiments ( http://arxiv.org/abs/2210.08338v1 )

ライセンス: Link先を確認
Alexander Buchholz, Vito Bellini, Giuseppe Di Benedetto, Yannik Stein, Matteo Ruffini, Fabian Moerchen(参考訳) A/Bテストは、オンラインサービスで導入された変更の影響を確実に識別する目的である。 オンラインプラットフォームでは,受信したユーザトラフィックを処理群と制御群でランダムに分割して,多数の実験を同時に実施することが一般的である。 異なるグループ間の完全なランダム化にもかかわらず、同時実験は相互に相互作用し、エンゲージメントメトリクスのような平均的な集団の結果に悪影響を及ぼす。 これらはグローバルに測定され、ユーザエクスペリエンス全体を保護するために監視される。 したがって、これらの相互作用効果を測定し、その全体的な影響を各実験者に公平に評価することが重要である。 シャプリー値に基づくコスト共有アプローチを提供することで,同時実験の効果を計測し,分離する手法を提案する。 また,因果推論技術を用いた条件付き平均処理効果に基づいて,共用効果を予測する対物的視点も提供する。 私たちのアプローチを実世界と合成データ実験で説明します。

A/B tests serve the purpose of reliably identifying the effect of changes introduced in online services. It is common for online platforms to run a large number of simultaneous experiments by splitting incoming user traffic randomly in treatment and control groups. Despite a perfect randomization between different groups, simultaneous experiments can interact with each other and create a negative impact on average population outcomes such as engagement metrics. These are measured globally and monitored to protect overall user experience. Therefore, it is crucial to measure these interaction effects and attribute their overall impact in a fair way to the respective experimenters. We suggest an approach to measure and disentangle the effect of simultaneous experiments by providing a cost sharing approach based on Shapley values. We also provide a counterfactual perspective, that predicts shared impact based on conditional average treatment effects making use of causal inference techniques. We illustrate our approach in real world and synthetic data experiments.
翻訳日:2022-10-18 22:14:54 公開日:2022-10-15
# オープンソースソフトウェア開発者のためのコードレコメンデーション

Code Recommendation for Open Source Software Developers ( http://arxiv.org/abs/2210.08332v1 )

ライセンス: Link先を確認
Yiqiao Jin, Yunsheng Bai, Yanqiao Zhu, Yizhou Sun, Wei Wang(参考訳) オープンソースソフトウェア(OSS)は、技術基盤の根幹を形成し、数百万人の人材を惹きつけている。 特に、OSS開発者に適切な開発タスクを推奨するために、開発者の関心事とプロジェクトコードのセマンティックな特徴の両方を考慮するのは困難で重要なことです。 本稿では,開発者のインタラクション履歴,ソースコードの意味的特徴,プロジェクトの階層的ファイル構造を考慮に入れて,今後の貢献行動を予測することを目的とした,新しいコード推薦問題を提案する。 システム内の複数のパーティ間の複雑な相互作用を考慮し,オープンソースソフトウェア開発者のための新しいグラフベースのコードレコメンデーションフレームワークであるCODERを提案する。 コーダーは、異種グラフを介して、ミクロなユーザ・コード間インタラクションとマクロなユーザ・プロジェクト間インタラクションを共同でモデル化し、さらに、プロジェクト階層を反映したファイル構造グラフの集約を通じて、2つのレベルの情報を橋渡しする。 さらに,信頼性の高いベンチマークの欠如により,将来研究を促進するために3つの大規模データセットを構築した。 大規模実験の結果,CODERフレームワークはプロジェクト内,クロスプロジェクト,コールドスタートレコメンデーションなど,様々な実験条件下で優れた性能を発揮することがわかった。 この作業が受け入れられ次第、データ検索のためのすべてのデータセット、コード、ユーティリティをリリースします。

Open Source Software (OSS) is forming the spines of technology infrastructures, attracting millions of talents to contribute. Notably, it is challenging and critical to consider both the developers' interests and the semantic features of the project code to recommend appropriate development tasks to OSS developers. In this paper, we formulate the novel problem of code recommendation, whose purpose is to predict the future contribution behaviors of developers given their interaction history, the semantic features of source code, and the hierarchical file structures of projects. Considering the complex interactions among multiple parties within the system, we propose CODER, a novel graph-based code recommendation framework for open source software developers. CODER jointly models microscopic user-code interactions and macroscopic user-project interactions via a heterogeneous graph and further bridges the two levels of information through aggregation on file-structure graphs that reflect the project hierarchy. Moreover, due to the lack of reliable benchmarks, we construct three large-scale datasets to facilitate future research in this direction. Extensive experiments show that our CODER framework achieves superior performance under various experimental settings, including intra-project, cross-project, and cold-start recommendation. We will release all the datasets, code, and utilities for data retrieval upon the acceptance of this work.
翻訳日:2022-10-18 22:11:10 公開日:2022-10-15
# 物理法学学習の well-definedness: the Uniqueness problem

Well-definedness of Physical Law Learning: The Uniqueness Problem ( http://arxiv.org/abs/2210.08342v1 )

ライセンス: Link先を確認
Philipp Scholl, Aras Bacho, Holger Boche, Gitta Kutyniok(参考訳) 物理法学学習は、機械学習技術を用いて支配方程式の導出を自動化するための曖昧な試みである。 しかし、現在の文献は、この目標を達成するための方法の開発にのみ焦点をあてており、現在理論的な基礎が欠落している。 したがって,本論文は,物理法則を学習するための包括的理論的枠組みを構築するための第一歩として機能する。 1つの重要な問題は、支配方程式が与えられたデータによって一意に決定されないという事実である。 我々は、物理法則を常微分方程式または偏微分方程式で記述する一般的な状況でこの問題を研究する。 微分方程式の様々なクラスに対して、与えられた関数クラスからの関数に対する必要条件と十分条件の両方を提供し、その現象を支配する微分方程式を一意的に決定する。 この結果を用いて、関数が微分方程式を一意に解くかどうかを決定する数値アルゴリズムを考案する。 最後に,我々のアルゴリズムが物理法則を学習するための一般的な手法と組み合わせることで,関数に関する知識を前提にせず,一意的な支配微分方程式が学習されることを保証し,信頼性を確保することを示す広範な数値実験を行った。

Physical law learning is the ambiguous attempt at automating the derivation of governing equations with the use of machine learning techniques. The current literature focuses however solely on the development of methods to achieve this goal, and a theoretical foundation is at present missing. This paper shall thus serve as a first step to build a comprehensive theoretical framework for learning physical laws, aiming to provide reliability to according algorithms. One key problem consists in the fact that the governing equations might not be uniquely determined by the given data. We will study this problem in the common situation of having a physical law be described by an ordinary or partial differential equation. For various different classes of differential equations, we provide both necessary and sufficient conditions for a function from a given function class to uniquely determine the differential equation which is governing the phenomenon. We then use our results to devise numerical algorithms to determine whether a function solves a differential equation uniquely. Finally, we provide extensive numerical experiments showing that our algorithms in combination with common approaches for learning physical laws indeed allow to guarantee that a unique governing differential equation is learnt, without assuming any knowledge about the function, thereby ensuring reliability.
翻訳日:2022-10-18 22:10:48 公開日:2022-10-15
# pdeベース制御のための多レベル強化学習フレームワーク

A multilevel reinforcement learning framework for PDE based control ( http://arxiv.org/abs/2210.08400v1 )

ライセンス: Link先を確認
Atish Dixit, Ahmed Elsheikh(参考訳) 強化学習(RL)は制御問題を解くための有望な方法である。 しかし、モデルフリーなRLアルゴリズムはサンプル非効率であり、最適な制御ポリシーを学ぶのに数百万のサンプルを必要としない。 rlにおける計算コストの主な源は遷移関数に対応しており、これはモデルダイナミクスによって決定される。 モデルダイナミクスが結合pdesで表現される場合、これは特に問題となる。 そのような場合、遷移関数は、しばしば上記のPDEの大規模離散化を解く。 本稿では, 粗いスケールの離散化に対応するサブレベルモデル(マルチレベルモデル)を活用することで, コストの低減を図るため, マルチレベルRLフレームワークを提案する。 これは、モンテカルロ推定に代えて、政策と/または価値ネットワークの目的関数の近似マルチレベルモンテカルロ推定を古典的な枠組みで定式化することによって行われる。 このフレームワークの実証として,ppo(proximal policy optimization)アルゴリズムの多レベルバージョンを提案する。 ここで、レベルは、選択されたシミュレーションベースの環境のグリッド忠実性を示す。 有限体積離散化を用いて解く確率的PDEを用いたシミュレーションベースの環境の2つの例を示す。 提案するケーススタディでは, 従来のPPOと比較して, 多レベルPPOを用いて, 相当量の計算貯蓄を観測した。

Reinforcement learning (RL) is a promising method to solve control problems. However, model-free RL algorithms are sample inefficient and require thousands if not millions of samples to learn optimal control policies. A major source of computational cost in RL corresponds to the transition function, which is dictated by the model dynamics. This is especially problematic when model dynamics is represented with coupled PDEs. In such cases, the transition function often involves solving a large-scale discretization of the said PDEs. We propose a multilevel RL framework in order to ease this cost by exploiting sublevel models that correspond to coarser scale discretization (i.e. multilevel models). This is done by formulating an approximate multilevel Monte Carlo estimate of the objective function of the policy and / or value network instead of Monte Carlo estimates, as done in the classical framework. As a demonstration of this framework, we present a multilevel version of the proximal policy optimization (PPO) algorithm. Here, the level refers to the grid fidelity of the chosen simulation-based environment. We provide two examples of simulation-based environments that employ stochastic PDEs that are solved using finite-volume discretization. For the case studies presented, we observed substantial computational savings using multilevel PPO compared to its classical counterpart.
翻訳日:2022-10-18 22:10:25 公開日:2022-10-15
# AMD-DBSCAN:超可変密度データセットのための適応多密度DBSCAN

AMD-DBSCAN: An Adaptive Multi-density DBSCAN for datasets of extremely variable density ( http://arxiv.org/abs/2210.08162v1 )

ライセンス: Link先を確認
Ziqing Wang, Zhirong Ye, Yuyang Du, Yi Mao, Yanying Liu, Ziling Wu, Jun Wang(参考訳) DBSCANは密度に基づくクラスタリングアルゴリズムで広く使われている。 しかし、マルチ密度クラスタリングの需要が高まっているため、従来のDSBCANはマルチ密度データセットに対して優れたクラスタリング結果を得ることができない。 本稿では,適応型マルチ密度DBSCANアルゴリズム(AMD-DBSCAN)を提案する。 AMD-DBSCANでは、クラスタリング結果と性能を決定する重要なパラメータである複数のパラメータペア(EpsとMinPts)を探索するために、改良されたパラメータ適応法が提案されている。 さらに、複雑な繰り返し初期化操作を避けるために、AMD-DBSCANには1つのハイパーパラメータが要求される。 さらに,各クラスタ間の密度差を測定するために,隣接個体数(vnn)のばらつきについて検討した。 実験の結果,従来の適応アルゴリズムと比較してアルゴリズムの複雑さが低いため,AMD-DBSCANは実行時間を平均75%削減できることがわかった。 さらに、AMD-DBSCANは、超可変密度のマルチ密度データセットの最先端設計よりも平均24.7%精度を向上し、単一密度のシナリオでは性能損失がない。

DBSCAN has been widely used in density-based clustering algorithms. However, with the increasing demand for Multi-density clustering, previous traditional DSBCAN can not have good clustering results on Multi-density datasets. In order to address this problem, an adaptive Multi-density DBSCAN algorithm (AMD-DBSCAN) is proposed in this paper. An improved parameter adaptation method is proposed in AMD-DBSCAN to search for multiple parameter pairs (i.e., Eps and MinPts), which are the key parameters to determine the clustering results and performance, therefore allowing the model to be applied to Multi-density datasets. Moreover, only one hyperparameter is required for AMD-DBSCAN to avoid the complicated repetitive initialization operations. Furthermore, the variance of the number of neighbors (VNN) is proposed to measure the difference in density between each cluster. The experimental results show that our AMD-DBSCAN reduces execution time by an average of 75% due to lower algorithm complexity compared with the traditional adaptive algorithm. In addition, AMD-DBSCAN improves accuracy by 24.7% on average over the state-of-the-art design on Multi-density datasets of extremely variable density, while having no performance loss in Single-density scenarios.
翻訳日:2022-10-18 21:59:29 公開日:2022-10-15
# 擬似ラベルは半スーパービジョンギブズアルゴリズムの一般化誤差にどのように影響するか?

How Does Pseudo-Labeling Affect the Generalization Error of the Semi-Supervised Gibbs Algorithm? ( http://arxiv.org/abs/2210.08188v1 )

ライセンス: Link先を確認
Haiyun He, Gholamali Aminian, Yuheng Bu, Miguel Rodrigues, Vincent Y. F. Tan(参考訳) 本稿では,Gibbsアルゴリズムによる擬似ラベル付き半教師付き学習(SSL)における予測一般化誤差(ゲンエラー)を正確に評価する。 この特徴は、出力仮説、擬ラベル付きデータセット、ラベル付きデータセットの間の対称性付きKL情報によって表現される。 これは、ゲンエラーの分布自由な上界と下界を得るために適用することができる。 その結果、擬似ラベル付きsslの一般化性能は、出力仮説と入力トレーニングデータ間の情報だけでなく、"em labeled}と"em pseudo-labeled"データサンプル間の情報「em shared」によっても影響を受けるという新たな知見が得られた。 理解を深めるために、平均推定とロジスティック回帰という2つの例をさらに探ります。 特に、ラベルなしデータとラベル付きデータの比率$\lambda$がどちらのシナリオでもgen-errorにどのように影響するかを分析する。 \lambda$が増加すると、平均推定のためのgen-errorは減少し、すべてのサンプルがラベル付けされたときよりも大きな値で飽和し、このギャップは解析によって定量化され、ラベル付きデータと擬似ラベル付きデータサンプルの間の \emph{cross-covariance} に依存する。 ロジスティック回帰では、元エラーと過剰リスクの分散成分も$\lambda$が増加するにつれて減少する。

This paper provides an exact characterization of the expected generalization error (gen-error) for semi-supervised learning (SSL) with pseudo-labeling via the Gibbs algorithm. This characterization is expressed in terms of the symmetrized KL information between the output hypothesis, the pseudo-labeled dataset, and the labeled dataset. It can be applied to obtain distribution-free upper and lower bounds on the gen-error. Our findings offer new insights that the generalization performance of SSL with pseudo-labeling is affected not only by the information between the output hypothesis and input training data but also by the information {\em shared} between the {\em labeled} and {\em pseudo-labeled} data samples. To deepen our understanding, we further explore two examples -- mean estimation and logistic regression. In particular, we analyze how the ratio of the number of unlabeled to labeled data $\lambda$ affects the gen-error under both scenarios. As $\lambda$ increases, the gen-error for mean estimation decreases and then saturates at a value larger than when all the samples are labeled, and the gap can be quantified {\em exactly} with our analysis, and is dependent on the \emph{cross-covariance} between the labeled and pseudo-labeled data sample. In logistic regression, the gen-error and the variance component of the excess risk also decrease as $\lambda$ increases.
翻訳日:2022-10-18 21:59:07 公開日:2022-10-15
# DI-NIDS:ドメイン不変ネットワーク侵入検知システム

DI-NIDS: Domain Invariant Network Intrusion Detection System ( http://arxiv.org/abs/2210.08252v1 )

ライセンス: Link先を確認
Siamak Layeghy, Mahsa Baktashmotlagh, Marius Portmann(参考訳) 機械学習に基づくネットワーク侵入検出システム(nidss)の性能は、トレーニングデータセットと特徴分布が著しく異なるネットワーク上にデプロイした場合、著しく低下する。 コンピュータビジョンなどの様々な応用において、トレーニングデータの分布とテストデータのギャップを軽減するためにドメイン適応技術が成功している。 しかし、ネットワーク侵入検出の場合、最先端のドメイン適応アプローチは、成功に至らなかった。 最近の研究によると、我々の研究結果と同様に、'unseen'テストデータセットがトレーニングデータセット分布に従わない場合、NIDSの性能は著しく低下する。 場合によっては、列車とテストデータセットを切り替えることにより、さらに深刻なものになる。 機械学習に基づくネットワーク侵入検出システムの汎用性を高めるために,複数のネットワークドメインから逆領域適応を用いたドメイン不変特徴抽出を行い,その異常,すなわち侵入を認識するための教師なし手法を適用する。 具体的には、ラベル付きソースドメイン上でドメイン逆ニューラルネットワークをトレーニングし、ドメイン不変性を抽出し、異常を検出するためにOne-Class SVM(OSVM)モデルをトレーニングする。 テスト時には、未ラベルのテストデータを特徴抽出ネットワークにフィードフォワードしてドメイン不変空間に投影し、抽出した特徴にOSVMを適用して侵入を検出するという最終目標を達成する。 NFv2-CIC-2018 と NFv2-UNSW-NB15 の NIDS ベンチマークデータセットに関する広範な実験により,提案手法は従来の手法に比べて優れたクロスドメイン性能を示した。

The performance of machine learning based network intrusion detection systems (NIDSs) severely degrades when deployed on a network with significantly different feature distributions from the ones of the training dataset. In various applications, such as computer vision, domain adaptation techniques have been successful in mitigating the gap between the distributions of the training and test data. In the case of network intrusion detection however, the state-of-the-art domain adaptation approaches have had limited success. According to recent studies, as well as our own results, the performance of an NIDS considerably deteriorates when the `unseen' test dataset does not follow the training dataset distribution. In some cases, swapping the train and test datasets makes this even more severe. In order to enhance the generalisibility of machine learning based network intrusion detection systems, we propose to extract domain invariant features using adversarial domain adaptation from multiple network domains, and then apply an unsupervised technique for recognising abnormalities, i.e., intrusions. More specifically, we train a domain adversarial neural network on labelled source domains, extract the domain invariant features, and train a One-Class SVM (OSVM) model to detect anomalies. At test time, we feedforward the unlabeled test data to the feature extractor network to project it into a domain invariant space, and then apply OSVM on the extracted features to achieve our final goal of detecting intrusions. Our extensive experiments on the NIDS benchmark datasets of NFv2-CIC-2018 and NFv2-UNSW-NB15 show that our proposed setup demonstrates superior cross-domain performance in comparison to the previous approaches.
翻訳日:2022-10-18 21:58:42 公開日:2022-10-15
# Modular Machine Learning-based elastoplasticity--限定データの文脈における一般化

Modular machine learning-based elastoplasticity: generalization in the context of limited data ( http://arxiv.org/abs/2210.08343v1 )

ライセンス: Link先を確認
Jan N. Fuhg, Craig M. Hamel, Kyle Johnson, Reese Jones, Nikolaos Bouklas(参考訳) パス依存プロセスを行う材料に対する正確な構成モデルの開発は、計算固体力学における複雑な課題である。 課題は、適切なモデル仮定と、データの可用性、検証、検証の両方の観点から生じる。 近年,機械学習の表現とアルゴリズムに依拠して,ユーザ・チョーセン機能形式を回避し,ストレス進化法を確立するためのデータ駆動モデリング手法が提案されている。 しかし、これらのアプローチは大量のデータを必要とするだけでなく、様々な複雑なロードパスで応力空間全体を探究するデータも必要である。 さらに、厳しい制約として必要な全ての熱力学原理を強制することは滅多にない。 したがって、特に低データまたは限られたデータレジームには適さないが、最初のものはデータを取得するコストから発生し、後者は、エンジニアリングアプリケーションで一般的に用いられるラベル付きデータを得るための実験的制限から生じる。 本研究では, モデルの各コンポーネントが, 利用可能な情報量や応答の複雑さに応じて, 古典的現象学またはデータ駆動モデルのいずれかに選択できる, エラスト塑性定式化のモジュラリティに依存することによって, 変動量のデータを扱うことができるハイブリッドフレームワークについて論じる。 本手法は, シミュレーションによる合成一軸データと, 構造材料の繰り返し実験データを用いて実験を行った。 発見された物質モデルは、よく補間できるだけでなく、トレーニングデータの領域外から熱力学的に一貫した方法で正確な外挿を可能にする。 有限要素シミュレーションへのこれらのモデルの実装に関するトレーニングの側面と詳細について論じ、分析する。

The development of accurate constitutive models for materials that undergo path-dependent processes continues to be a complex challenge in computational solid mechanics. Challenges arise both in considering the appropriate model assumptions and from the viewpoint of data availability, verification, and validation. Recently, data-driven modeling approaches have been proposed that aim to establish stress-evolution laws that avoid user-chosen functional forms by relying on machine learning representations and algorithms. However, these approaches not only require a significant amount of data but also need data that probes the full stress space with a variety of complex loading paths. Furthermore, they rarely enforce all necessary thermodynamic principles as hard constraints. Hence, they are in particular not suitable for low-data or limited-data regimes, where the first arises from the cost of obtaining the data and the latter from the experimental limitations of obtaining labeled data, which is commonly the case in engineering applications. In this work, we discuss a hybrid framework that can work on a variable amount of data by relying on the modularity of the elastoplasticity formulation where each component of the model can be chosen to be either a classical phenomenological or a data-driven model depending on the amount of available information and the complexity of the response. The method is tested on synthetic uniaxial data coming from simulations as well as cyclic experimental data for structural materials. The discovered material models are found to not only interpolate well but also allow for accurate extrapolation in a thermodynamically consistent manner far outside the domain of the training data. Training aspects and details of the implementation of these models into Finite Element simulations are discussed and analyzed.
翻訳日:2022-10-18 21:43:38 公開日:2022-10-15
# 1次法のスケッチ:低帯域チャネルと脆弱性の効率的なアルゴリズム

Sketching for First Order Method: Efficient Algorithm for Low-Bandwidth Channel and Vulnerability ( http://arxiv.org/abs/2210.08371v1 )

ライセンス: Link先を確認
Zhao Song, Yitan Wang, Zheng Yu, Lichen Zhang(参考訳) スケッチは、大規模機械学習における最も基本的なツールの1つである。 実行時とメモリの節約は、元の大きな問題を低次元にランダムに圧縮することで実現できる。 本稿では,分散エージェント間の通信コストを削減しつつ,アルゴリズムの収束が保証されるような,大規模分散学習環境における一階法のための新しいスケッチ手法を提案する。 高次元$d$ の勾配情報が与えられたとき、エージェントはスケッチ行列 $r\in \r^{s\times d}$ で処理された圧縮情報を $s\ll d$ で渡し、受信者は元の次元の情報をデスケッチ行列 $r^\top$ to ```recover'' でデ圧縮する。 このようなフレームワークを用いて,より少ない通信コストで連携学習を行うアルゴリズムを開発した。 しかし、このようなランダムなスケッチは、ローカルデータのプライバシーを直接保護しない。 また,特定の勾配攻撃法を提示することにより,スケッチ手法を適用して,勾配漏洩問題が存在することを示す。 そこで我々は,このアルゴリズムが勾配情報にランダムノイズを加えることで,通信効率と差分プライベートな第1次学習課題に対するアプローチを両立させることにより,そのアルゴリズムが微分プライベートになることを厳密に証明する。 私たちのスケッチは、他の学習設定にさらに一般化することができ、独立した興味を持つかもしれません。

Sketching is one of the most fundamental tools in large-scale machine learning. It enables runtime and memory saving via randomly compressing the original large problem onto lower dimensions. In this paper, we propose a novel sketching scheme for the first order method in large-scale distributed learning setting, such that the communication costs between distributed agents are saved while the convergence of the algorithms is still guaranteed. Given gradient information in a high dimension $d$, the agent passes the compressed information processed by a sketching matrix $R\in \R^{s\times d}$ with $s\ll d$, and the receiver de-compressed via the de-sketching matrix $R^\top$ to ``recover'' the information in original dimension. Using such a framework, we develop algorithms for federated learning with lower communication costs. However, such random sketching does not protect the privacy of local data directly. We show that the gradient leakage problem still exists after applying the sketching technique by showing a specific gradient attack method. As a remedy, we prove rigorously that the algorithm will be differentially private by adding additional random noises in gradient information, which results in a both communication-efficient and differentially private first order approach for federated learning tasks. Our sketching scheme can be further generalized to other learning settings and might be of independent interest itself.
翻訳日:2022-10-18 21:43:14 公開日:2022-10-15
# DyFEn: 支払いチャネルネットワークにおけるエージェントベースのフィー設定

DyFEn: Agent-Based Fee Setting in Payment Channel Networks ( http://arxiv.org/abs/2210.08197v1 )

ライセンス: Link先を確認
Kiana Asgari, Aida Afshar Mohammadian, Mojtaba Tefagh(参考訳) 近年,容易に利用できる学習環境の開発により,強化学習アルゴリズムの実装と再現可能なベンチマークが,これらのフレームワークを利用することで大幅に加速されている。 本稿では,オープンソースのリアルタイム金融ネットワークモデルであるDynamic Fee Learning Environment(DyFEn)を紹介する。 異なる強化学習技術を評価するためのテストベッドを提供することができる。 我々は,DyFEnの約束を説明するために,オフチェーン決済チャネルのマルチチャネル動的料金設定を同時に行うという課題を提示する。 この問題はbitcoin lightning networkでよく知られており、有効な解決策はない。 具体的には,この動的料金設定タスクにおいて広く用いられている深層強化学習手法について,実験のベースラインとして実験結果について報告する。 我々の知る限り、この研究は、物理シミュレーションやゲームプラットフォームに基づく他の多くのものとは異なり、ブロックチェーンと分散台帳技術のシミュレーションに基づく最初の仮想学習環境を提案する。

In recent years, with the development of easy to use learning environments, implementing and reproducible benchmarking of reinforcement learning algorithms has been largely accelerated by utilizing these frameworks. In this article, we introduce the Dynamic Fee learning Environment (DyFEn), an open-source real-world financial network model. It can provide a testbed for evaluating different reinforcement learning techniques. To illustrate the promise of DyFEn, we present a challenging problem which is a simultaneous multi-channel dynamic fee setting for off-chain payment channels. This problem is well-known in the Bitcoin Lightning Network and has no effective solutions. Specifically, we report the empirical results of several commonly used deep reinforcement learning methods on this dynamic fee setting task as a baseline for further experiments. To the best of our knowledge, this work proposes the first virtual learning environment based on a simulation of blockchain and distributed ledger technologies, unlike many others which are based on physics simulations or game platforms.
翻訳日:2022-10-18 21:32:55 公開日:2022-10-15
# MenuAI:トランスフォーマーを用いた深層学習モデルによるレストラン食品推薦システム

MenuAI: Restaurant Food Recommendation System via a Transformer-based Deep Learning Model ( http://arxiv.org/abs/2210.08266v1 )

ライセンス: Link先を確認
Xinwei Ju, Frank Po Wen Lo, Jianing Qiu, Peilun Shi, Jiachuan Peng, Benny Lo(参考訳) 食品推奨システムは食事選択のガイダンスを提供する効果的な技術として証明されており、特に慢性疾患患者にとって重要である。 書籍や映画などの他のマルチメディアレコメンデーションとは異なり、ユーザの食べ物の嗜好は時間とともに非常にダイナミックになるため、現在、食品レコメンデーションタスクはコンテキストに大きく依存している。 例えば、個人は1日早くにより多くのカロリーを摂取し、夕食の時間も少し減る傾向にある。 しかし、食品推奨に現在の文脈と栄養に関する知識を組み込もうとする研究は、まだ限られている。 そこで本稿では, 食事の栄養要求に応じて, 新規なレストラン料理推薦システムを提案する。 提案システムは,光文字認識(OCR)技術とトランスフォーマーに基づくディープラーニングモデルであるLearning to Rank(LTR)モデルを利用して,食品レコメンデーションを行う。 メニューの単一のrgbイメージが与えられると、システムは入力された検索キー(カロリー、タンパク質レベルなど)に基づいて料理をランク付けすることができる。 トランスの特性から,我々のシステムは目に見えない食器のランク付けも可能である。 MenuRank と呼ばれる自己構築型メニューデータセット上で,我々の手法を検証するための総合的な実験を行った。 77.2%から99.5%の精度の有望な結果は、食品推奨問題に対するltrモデルの大きな可能性を示している。

Food recommendation system has proven as an effective technology to provide guidance on dietary choices, and this is especially important for patients suffering from chronic diseases. Unlike other multimedia recommendations, such as books and movies, food recommendation task is highly relied on the context at the moment, since users' food preference can be highly dynamic over time. For example, individuals tend to eat more calories earlier in the day and eat a little less at dinner. However, there are still limited research works trying to incorporate both current context and nutritional knowledge for food recommendation. Thus, a novel restaurant food recommendation system is proposed in this paper to recommend food dishes to users according to their special nutritional needs. Our proposed system utilises Optical Character Recognition (OCR) technology and a transformer-based deep learning model, Learning to Rank (LTR) model, to conduct food recommendation. Given a single RGB image of the menu, the system is then able to rank the food dishes in terms of the input search key (e.g., calorie, protein level). Due to the property of the transformer, our system can also rank unseen food dishes. Comprehensive experiments are conducted to validate our methods on a self-constructed menu dataset, known as MenuRank dataset. The promising results, with accuracy ranging from 77.2% to 99.5%, have demonstrated the great potential of LTR model in addressing food recommendation problems.
翻訳日:2022-10-18 21:32:41 公開日:2022-10-15
# プラットフォームプロバイダによる早期検出のためのWebフィッシングキットの分類

Classification of Web Phishing Kits for early detection by platform providers ( http://arxiv.org/abs/2210.08273v1 )

ライセンス: Link先を確認
Andrea Venturi, Michele Colajanni, Marco Ramilli, Giorgio Valenziano Santangelo(参考訳) フィッシングキットは、悪質なwebサイトの構築を容易にするために、ダークサイドの専門家が犯罪者のコミュニティに提供するツールである。 これらのキットが高度に進化するにつれて、Webベースのサービスプロバイダは、継続的な複雑さに追従する必要がある。 本研究では,2000以上のフィッシングキットのコーパスを,その回避機能と難読化機能に応じて分類する。 我々は,キットのソースコードを初期決定論的に解析し,最も識別性の高い特徴と主要著者に関する情報を抽出する。 次に、この初期分類を教師付き機械学習モデルを通じて統合する。 第1ステップで達成した根拠のおかげで、トレーニング段階では見つからなかった新しい回避法と難読化技術を採用して、どの機械学習モデルでも適切に分類できるかどうかを実証できる。 異なるアルゴリズムを比較し,フィッシングキットが少量しか使用できない現実的な場合において,その頑健性を評価する。 本稿では,Web サービスプロバイダやアナリストが,プラットフォームにインストールされる可能性のあるフィッシングキットの早期検出機構とインテリジェンス操作を改善する上で,初期かつ重要なステップを示す。

Phishing kits are tools that dark side experts provide to the community of criminal phishers to facilitate the construction of malicious Web sites. As these kits evolve in sophistication, providers of Web-based services need to keep pace with continuous complexity. We present an original classification of a corpus of over 2000 recent phishing kits according to their adopted evasion and obfuscation functions. We carry out an initial deterministic analysis of the source code of the kits to extract the most discriminant features and information about their principal authors. We then integrate this initial classification through supervised machine learning models. Thanks to the ground-truth achieved in the first step, we can demonstrate whether and which machine learning models are able to suitably classify even the kits adopting novel evasion and obfuscation techniques that were unseen during the training phase. We compare different algorithms and evaluate their robustness in the realistic case in which only a small number of phishing kits are available for training. This paper represents an initial but important step to support Web service providers and analysts in improving early detection mechanisms and intelligence operations for the phishing kits that might be installed on their platforms.
翻訳日:2022-10-18 21:32:14 公開日:2022-10-15
# 深部強化運動計画におけるロボットナビゲーション予測戦略

Robot Navigation Anticipative Strategies in Deep Reinforcement Motion Planning ( http://arxiv.org/abs/2210.08280v1 )

ライセンス: Link先を確認
\'Oscar Gil, Alberto Sanfeliu(参考訳) ダイナミックな都市環境におけるロボットのナビゲーションには、自転車や歩行者などの動的物体との衝突を避け、人間に気付かせるための、詳細な予測戦略が必要である。 我々は,最大18km/h移動可能な移動物体の将来の動きを考慮した3つの動き計画戦略を開発し,解析した。 まず, DDPG(Deep Deterministic Policy Gradient)トレーニングと社会力モデル(Social Force Model, SFM)によるハイブリッド政策を用いて, 歩行者の多い4つの複雑な地図シナリオでシミュレーションを行った。 第2に,これらの予測戦略を,ハイブリッド動作計画法と動的ウィンドウアプローチを用いたrosナビゲーションスタック(ns-dwa)を用いた実生活実験に活用した。 シミュレーションと実生活実験の結果は、オープン環境や狭い空間との混合シナリオにおいて非常に良い結果を示す。

The navigation of robots in dynamic urban environments, requires elaborated anticipative strategies for the robot to avoid collisions with dynamic objects, like bicycles or pedestrians, and to be human aware. We have developed and analyzed three anticipative strategies in motion planning taking into account the future motion of the mobile objects that can move up to 18 km/h. First, we have used our hybrid policy resulting from a Deep Deterministic Policy Gradient (DDPG) training and the Social Force Model (SFM), and we have tested it in simulation in four complex map scenarios with many pedestrians. Second, we have used these anticipative strategies in real-life experiments using the hybrid motion planning method and the ROS Navigation Stack with Dynamic Windows Approach (NS-DWA). The results in simulations and real-life experiments show very good results in open environments and also in mixed scenarios with narrow spaces.
翻訳日:2022-10-18 21:31:55 公開日:2022-10-15
# MoRSE:検索・救助作業のための深層学習に基づくアームジェスチャ認識

MoRSE: Deep Learning-based Arm Gesture Recognition for Search and Rescue Operations ( http://arxiv.org/abs/2210.08307v1 )

ライセンス: Link先を確認
Panagiotis Kasnesis, Christos Chatzigeorgiou, Dimitrios G. Kogias, Charalampos Z. Patrikakis, Harris V. Georgiou and Aspasia Tzeletopoulou(参考訳) 捜索および救助活動における効率的かつ迅速な遠隔通信は、最初の応答者にとって命を救うことができる。 しかし、テキストに基づくコミュニケーションのフィールド上での操作においては、画像と音声はいくつかの災害シナリオには適さない。 本稿では,ディープラーニング(dl)モデルを用いて予め定義されたアームジェスチャのセットを認識し,最初の応答者間の遠隔通信を可能にする振動によってモースコードにマップする,スマートウォッチベースのアプリケーションを提案する。 モデル性能は,支配的な腕にスマートウォッチを装着した7人の被験者(クロスバリデーション)が行う4,200のジェスチャーを用いて評価した。 我々のDLモデルは畳み込みプーリングに頼り、既存のDLアプローチと一般的な機械学習分類器の性能を上回り、95%以上のジェスチャー認識精度を得る。 結果について議論し、今後の方向性を提供する。

Efficient and quick remote communication in search and rescue operations can be life-saving for the first responders. However, while operating on the field means of communication based on text, image and audio are not suitable for several disaster scenarios. In this paper, we present a smartwatch-based application, which utilizes a Deep Learning (DL) model, to recognize a set of predefined arm gestures, maps them into Morse code via vibrations enabling remote communication amongst first responders. The model performance was evaluated by training it using 4,200 gestures performed by 7 subjects (cross-validation) wearing a smartwatch on their dominant arm. Our DL model relies on convolutional pooling and surpasses the performance of existing DL approaches and common machine learning classifiers, obtaining gesture recognition accuracy above 95%. We conclude by discussing the results and providing future directions.
翻訳日:2022-10-18 21:31:40 公開日:2022-10-15
# 半パラメトリック二値応答モデルの分散推定と推定

Distributed Estimation and Inference for Semi-parametric Binary Response Models ( http://arxiv.org/abs/2210.08393v1 )

ライセンス: Link先を確認
Xi Chen and Wenbo Jing and Weidong Liu and Yichen Zhang(参考訳) 現代の技術の発展により、前例のないサイズのデータ収集が可能となり、多くの統計的な推定や推論問題に新たな課題が生じた。 本稿では,分散コンピューティング環境下での半パラメトリック二値選択モデルの最大スコア推定について検討する。 直感的な分割・対数推定器は計算コストが高く、目的関数の非滑らかな性質のため、機械数に対する非正規制約によって制限される。 1) 制約を緩和する目的を平滑化した後のワンショット除算器, (2) 反復平滑化により制約を完全に除去するマルチラウンド推定器を提案する。 複数の繰り返しに対する最適化誤差の超直線的改善を実現するために、逐次縮小帯域幅を持つカーネルスムーズな適応的な選択を指定する。 繰り返し毎の統計精度の向上が導出され、最適統計誤差率までの2次収束が確立される。 さらに,共変量シフトを伴うデータセットの不均一性を扱うための2つの一般化と,関心のパラメータがスパースな高次元問題を提案する。

The development of modern technology has enabled data collection of unprecedented size, which poses new challenges to many statistical estimation and inference problems. This paper studies the maximum score estimator of a semi-parametric binary choice model under a distributed computing environment without pre-specifying the noise distribution. An intuitive divide-and-conquer estimator is computationally expensive and restricted by a non-regular constraint on the number of machines, due to the highly non-smooth nature of the objective function. We propose (1) a one-shot divide-and-conquer estimator after smoothing the objective to relax the constraint, and (2) a multi-round estimator to completely remove the constraint via iterative smoothing. We specify an adaptive choice of kernel smoother with a sequentially shrinking bandwidth to achieve the superlinear improvement of the optimization error over the multiple iterations. The improved statistical accuracy per iteration is derived, and a quadratic convergence up to the optimal statistical error rate is established. We further provide two generalizations to handle the heterogeneity of datasets with covariate shift and high-dimensional problems where the parameter of interest is sparse.
翻訳日:2022-10-18 21:24:54 公開日:2022-10-15
# SOCIALMAPF : ソーシャルナビゲーションのための戦略エージェントを用いた最適かつ効率的なマルチエージェントパス探索

SOCIALMAPF: Optimal and Efficient Multi-Agent Path Finding with Strategic Agents for Social Navigation ( http://arxiv.org/abs/2210.08390v1 )

ライセンス: Link先を確認
Rohan Chandra, Rahul Maligi, Arya Anantula, Joydeep Biswas(参考訳) 我々は,戸口,狭い廊下,廊下交差点などの制約のある環境において,エージェントの個人的インセンティブを考慮したMAPF(SocialMAPF)の拡張を提案する。 例えば、SocialMAPFは、他のエージェントが食料品店に行くという急進的ではないインセンティブに対して、病院に急いでいるエージェントの急進的なインセンティブを正確に説明することができる。 提案手法は,個人的インセンティブを有するエージェントの最適かつ効率的な経路計画のオープンな問題に対処する。 社会MAPFを解決するために,紛争解決時に機構設計を用いてエージェントのプライベートローカルユーティリティとグローバルシステム目的を同時に最適化するアルゴリズムを提案する。 我々は,最適探索ベースMAPF技術がSocialMAPFにおける衝突や時間とゴールの増大につながることを示す広範囲な実験を行い,機構設計を用いた手法と比較した。 さらに,機構設計がエージェントユーティリティを最大化し,システム全体の時間とゴールを最小化するモデルを実証的に示す。 さらに,静的な障害物のある環境に配置することで,機構設計に基づく計画機能を示す。 結論として,私的インセンティブを持つエージェントを対象とした連続領域における運動計画の探索など,SocialMAPFの定式化を用いたいくつかの研究方向を概説する。

We propose an extension to the MAPF formulation, called SocialMAPF, to account for private incentives of agents in constrained environments such as doorways, narrow hallways, and corridor intersections. SocialMAPF is able to, for instance, accurately reason about the urgent incentive of an agent rushing to the hospital over another agent's less urgent incentive of going to a grocery store; MAPF ignores such agent-specific incentives. Our proposed formulation addresses the open problem of optimal and efficient path planning for agents with private incentives. To solve SocialMAPF, we propose a new class of algorithms that use mechanism design during conflict resolution to simultaneously optimize agents' private local utilities and the global system objective. We perform an extensive array of experiments that show that optimal search-based MAPF techniques lead to collisions and increased time-to-goal in SocialMAPF compared to our proposed method using mechanism design. Furthermore, we empirically demonstrate that mechanism design results in models that maximizes agent utility and minimizes the overall time-to-goal of the entire system. We further showcase the capabilities of mechanism design-based planning by successfully deploying it in environments with static obstacles. To conclude, we briefly list several research directions using the SocialMAPF formulation, such as exploring motion planning in the continuous domain for agents with private incentives.
翻訳日:2022-10-18 21:16:05 公開日:2022-10-15
# フィールドロボティクスにおける適応型実験設計のための意思決定支援システムの分類

Taxonomy of A Decision Support System for Adaptive Experimental Design in Field Robotics ( http://arxiv.org/abs/2210.08397v1 )

ライセンス: Link先を確認
Jason M. Gregory, Sarah Al-Hussaini, Ali-akbar Agha-mohammadi, Satyandra K. Gupta(参考訳) フィールドロボティクスにおける実験設計(experimental design in field robotics)は、実験者が構築された実験の形でロボットとの相互作用を通じてシステムの性能と限界について学習する適応型人間-ループ意思決定プロセスである。 これは、システムの複雑さ、非構造化環境での運用の必要性、および、実験コストを最小化しながら情報ゲインを最大化するための競合する目的のためである。 他分野の成功を踏まえ,人間の意思決定能力を増幅し,固有の欠点を克服し,フィールド実験において原則的意思決定を可能にするための意思決定支援システム(DSS)を提案する。 そこで本研究では,dsssの一般的な用語と6段階の分類法を提案する。 我々は、人工知能やインテリジェントdssを含むdss文献の例と傾向を用いて分類法を構築し、提示する。 最後に,実験設計のための次世代DSSを追求する上で,今後の研究における重要な技術的ギャップと機会を明らかにする。

Experimental design in field robotics is an adaptive human-in-the-loop decision-making process in which an experimenter learns about system performance and limitations through interactions with a robot in the form of constructed experiments. This can be challenging because of system complexity, the need to operate in unstructured environments, and the competing objectives of maximizing information gain while simultaneously minimizing experimental costs. Based on the successes in other domains, we propose the use of a Decision Support System (DSS) to amplify the human's decision-making abilities, overcome their inherent shortcomings, and enable principled decision-making in field experiments. In this work, we propose common terminology and a six-stage taxonomy of DSSs specifically for adaptive experimental design of more informative tests and reduced experimental costs. We construct and present our taxonomy using examples and trends from DSS literature, including works involving artificial intelligence and Intelligent DSSs. Finally, we identify critical technical gaps and opportunities for future research to direct the scientific community in the pursuit of next-generation DSSs for experimental design.
翻訳日:2022-10-18 21:15:44 公開日:2022-10-15
# 交互逆フィルタネットワークによるパンクロマティック・マルチスペクトル画像融合

Panchromatic and Multispectral Image Fusion via Alternating Reverse Filtering Network ( http://arxiv.org/abs/2210.08181v1 )

ライセンス: Link先を確認
Keyu Yan and Man Zhou and Jie Huang and Feng Zhao and Chengjun Xie and Chongyi Li and Danfeng Hong(参考訳) パンクロマティック(PAN)およびマルチスペクトル(MS)画像融合(Pan-Sharpening)は、空間領域内の低分解能(LR)マルチスペクトル(MS)画像を超解して、高分解能(HR)MS画像を生成し、対応する高分解能(PAN)画像に条件付けする。 本稿では,パンシャーピングのためのシンプルだが効果的な逆フィルタリングネットワークを提案する。 従来の逆フィルタリングに着想を得て,lr ms と hr ms を解釈可能な方法で融合させ,パンシャープ化を交互に反復的な逆フィルタリングプロセスとして定式化する。 十分に設計された事前と分解の前提を必要とする既存のモデル駆動の方法とは異なり、逆フィルタリングプロセスは事前に定義された正確な事前への依存を避ける。 距離空間上の縮尺写像による反復過程の安定性と収束を保証するため,特定のフィルタを使わずに学習可能なマルチスケールガウスカーネルモジュールを開発した。 このような定式化の理論的実現可能性を示す。 本手法の性能を徹底的に検証するため,多彩な場面での広範囲な実験を行った。

Panchromatic (PAN) and multi-spectral (MS) image fusion, named Pan-sharpening, refers to super-resolve the low-resolution (LR) multi-spectral (MS) images in the spatial domain to generate the expected high-resolution (HR) MS images, conditioning on the corresponding high-resolution PAN images. In this paper, we present a simple yet effective \textit{alternating reverse filtering network} for pan-sharpening. Inspired by the classical reverse filtering that reverses images to the status before filtering, we formulate pan-sharpening as an alternately iterative reverse filtering process, which fuses LR MS and HR MS in an interpretable manner. Different from existing model-driven methods that require well-designed priors and degradation assumptions, the reverse filtering process avoids the dependency on pre-defined exact priors. To guarantee the stability and convergence of the iterative process via contraction mapping on a metric space, we develop the learnable multi-scale Gaussian kernel module, instead of using specific filters. We demonstrate the theoretical feasibility of such formulations. Extensive experiments on diverse scenes to thoroughly verify the performance of our method, significantly outperforming the state of the arts.
翻訳日:2022-10-18 20:59:31 公開日:2022-10-15
# レンズレスカメラで撮影した映像のジェスチャー認識

Hand Gestures Recognition in Videos Taken with Lensless Camera ( http://arxiv.org/abs/2210.08233v1 )

ライセンス: Link先を確認
Yinger Zhang, Zhouyi Wu, Peiying Lin, Yang Pan, Yuting Wu, Liufang Zhang and Jiangtao Huangfu(参考訳) レンズレスカメラ(lensless camera)は、レンズの代わりにマスクを使用する撮像システムで、レンズカメラよりも薄く、軽く、安価である。 しかし、画像再構成には複雑な計算と時間が必要となる。 この研究はRaw3dNetというディープラーニングモデルを提案し、画像復元を必要とせず、レンズレスカメラで撮影した生のビデオから直接手の動きを認識する。 計算資源の保存に加えて、レコンストラクションフリー法はプライバシ保護を提供する。 raw3dnetは、レンズレスイメージングシステムにおける手のジェスチャー認識のための、新しいエンドツーエンドのディープニューラルネットワークモデルである。 レンズレスカメラで捉えた生のビデオに特化して作られ、時間的特徴と空間的特徴を適切に抽出し組み合わせることができる。 ネットワークは2つの段階から成り立っている。 1. 時間的畳み込みに先立って各フレームの空間的特徴を高める空間的特徴抽出器(SFE) 2. 映像ストリームの空間的・時間的畳み込みを実現する3D-ResNet 提案モデルは、レンズレス光学実験におけるケンブリッジハンドジェスチャデータセットで98.59%の精度を達成している。 さらに、物理的物体認識の可能性を評価する。 さらに,本研究では,クラウドコンピューティングのシナリオにおけるデータトラフィック削減の可能性を示唆し,元の生データのごく一部だけを用いて,精度よく認識できることを示す。

A lensless camera is an imaging system that uses a mask in place of a lens, making it thinner, lighter, and less expensive than a lensed camera. However, additional complex computation and time are required for image reconstruction. This work proposes a deep learning model named Raw3dNet that recognizes hand gestures directly on raw videos captured by a lensless camera without the need for image restoration. In addition to conserving computational resources, the reconstruction-free method provides privacy protection. Raw3dNet is a novel end-to-end deep neural network model for the recognition of hand gestures in lensless imaging systems. It is created specifically for raw video captured by a lensless camera and has the ability to properly extract and combine temporal and spatial features. The network is composed of two stages: 1. spatial feature extractor (SFE), which enhances the spatial features of each frame prior to temporal convolution; 2. 3D-ResNet, which implements spatial and temporal convolution of video streams. The proposed model achieves 98.59% accuracy on the Cambridge Hand Gesture dataset in the lensless optical experiment, which is comparable to the lensed-camera result. Additionally, the feasibility of physical object recognition is assessed. Furtherly, we show that the recognition can be achieved with respectable accuracy using only a tiny portion of the original raw data, indicating the potential for reducing data traffic in cloud computing scenarios.
翻訳日:2022-10-18 20:59:07 公開日:2022-10-15
# 動的点雲属性圧縮のための運動推定とフィルタ予測

Motion estimation and filtered prediction for dynamic point cloud attribute compression ( http://arxiv.org/abs/2210.08262v1 )

ライセンス: Link先を確認
Haoran Hong, Eduardo Pavez, Antonio Ortega, Ryosuke Watanabe, Keisuke Nonaka(参考訳) 点雲圧縮では、不規則な形状のため、時間的冗長性を利用した予測符号化が困難である。 本稿では,色属性圧縮のための効率的なブロックベースインターコーディング手法を提案する。 このスキームは、属性予測を改善するための整数精度運動推定と、適応グラフに基づくループ内フィルタリングスキームを含む。 ブロックをベースとした動き推定手法は、幾何特性と色属性を利用する最初の動き探索と、色予測誤差を最小化する動き補正からなる。 色予測をさらに改善するため、異なる精度で動き推定から計算した予測器からのノイズを適応的に除去できる頂点領域低パスグラフフィルタリング方式を提案する。 実験では,最先端の符号化手法よりも高い符号化効率を示す。

In point cloud compression, exploiting temporal redundancy for inter predictive coding is challenging because of the irregular geometry. This paper proposes an efficient block-based inter-coding scheme for color attribute compression. The scheme includes integer-precision motion estimation and an adaptive graph based in-loop filtering scheme for improved attribute prediction. The proposed block-based motion estimation scheme consists of an initial motion search that exploits geometric and color attributes, followed by a motion refinement that only minimizes color prediction error. To further improve color prediction, we propose a vertex-domain low-pass graph filtering scheme that can adaptively remove noise from predictors computed from motion estimation with different accuracy. Our experiments demonstrate significant coding gain over state-of-the-art coding methods.
翻訳日:2022-10-18 20:58:47 公開日:2022-10-15
# MIXER:不確実なペアワイド親和性のマルチ属性・マルチウェイ融合

MIXER: Multiattribute, Multiway Fusion of Uncertain Pairwise Affinities ( http://arxiv.org/abs/2210.08360v1 )

ライセンス: Link先を確認
Parker C. Lusk, Kaveh Fathian, Jonathan P. How(参考訳) 本稿では,不確定な対関係を直接処理できるマルチウェイ融合アルゴリズムを提案する。 最初のペアワイズ関係を必要とする既存の作業とは対照的に、ミキサーアルゴリズムはペアワイズアフィニティによって提供される追加情報を利用して精度を向上させる。 我々の主な貢献は、非二項親和性処理に特に適するマルチウェイ融合の定式化と、解が二項であると保証される新しい連続緩和であり、そのため、実現不可能を引き起こす可能性のある典型的な、潜在的に問題のある解双項化ステップを避けることである。 私たちの定式化の重要な洞察は、不一致、未決定、一致の3つのモードを可能にすることです。 この洞察をエクスプロイトすることで、複数の属性/情報ソースとの融合に有効な機能である、より多くの情報が手に入るまで、データペアの融合を遅らせることができる。 本研究では,典型的な合成データとベンチマークデータセットを用いたミキサーの評価を行い,多方向マッチングにおいて,特に観測冗長性の低い雑音環境において,その技術に対する精度が向上することを示す。 さらに,駐車場内の車両のrgbデータを収集し,複数の属性(色,視覚的外観,バウンディングボックス)を持つデータをミキサーが融合する能力を示す。 この困難なデータセットでは、mixerは74%のf1精度を達成し、次の最良のアルゴリズムよりも49倍高速である。

We present a multiway fusion algorithm capable of directly processing uncertain pairwise affinities. In contrast to existing works that require initial pairwise associations, our MIXER algorithm improves accuracy by leveraging the additional information provided by pairwise affinities. Our main contribution is a multiway fusion formulation that is particularly suited to processing non-binary affinities and a novel continuous relaxation whose solutions are guaranteed to be binary, thus avoiding the typical, but potentially problematic, solution binarization steps that may cause infeasibility. A crucial insight of our formulation is that it allows for three modes of association, ranging from non-match, undecided, and match. Exploiting this insight allows fusion to be delayed for some data pairs until more information is available, which is an effective feature for fusion of data with multiple attributes/information sources. We evaluate MIXER on typical synthetic data and benchmark datasets and show increased accuracy against the state of the art in multiway matching, especially in noisy regimes with low observation redundancy. Additionally, we collect RGB data of cars in a parking lot to demonstrate MIXER's ability to fuse data having multiple attributes (color, visual appearance, and bounding box). On this challenging dataset, MIXER achieves 74% F1 accuracy and is 49x faster than the next best algorithm, which has 42% accuracy.
翻訳日:2022-10-18 20:58:35 公開日:2022-10-15
# Variant Parallelism:IoTデバイス上での分散推論のための軽量な深層畳み込みモデル

Variant Parallelism: Lightweight Deep Convolutional Models for Distributed Inference on IoT Devices ( http://arxiv.org/abs/2210.08376v1 )

ライセンス: Link先を確認
Navidreza Asadi, Maziar Goudarzi(参考訳) リソースに制約のあるiotデバイスにモデルを分散する際に、リアルタイム推論の制限を満たすために一般的に使用される2つの主要なテクニックは、(1)モデル並列性(mp)と(2)クラス並列性(cp)である。 mpでは、デバイス間でかさばる中間データ(入力より桁違いに大きい順序)を送信すると、大きな通信オーバーヘッドがかかる。 CPはこの問題を解くが、サブモデルの数に制限がある。 さらに、どちらのソリューションもフォールトトレラントであり、エッジデバイスにデプロイすると問題が発生する。 本稿では,主モデルの異なる変種が生成され,別々のマシンにデプロイ可能な,アンサンブルに基づくディープラーニング分散手法である変分並列性(VP)を提案する。 我々は、オリジナルのモデルを中心に、より軽量なモデルのファミリーを設計し、それらを同時に訓練し、単一モデルよりも精度を向上させる。 5.8-7.1倍のパラメータ、4.3-31倍のマルチプリーアキュミュレーション(mac)、2.5-13.2倍の応答時間がmobilenetv2に比べて高い精度で達成できることを示した。 この手法はベースアーキテクチャのいくつかの変種を容易に生成する。 各変種は、MPで要求される浮動小数点値ではなく、トップkクラスを表す1 <= k <= (#classes/2) を出力する。 各変種はフルクラスの予測を提供するため,本手法は故障時にMPやCPと比較して高可用性を維持している。

Two major techniques are commonly used to meet real-time inference limitations when distributing models across resource-constrained IoT devices: (1) model parallelism (MP) and (2) class parallelism (CP). In MP, transmitting bulky intermediate data (orders of magnitude larger than input) between devices imposes huge communication overhead. Although CP solves this problem, it has limitations on the number of sub-models. In addition, both solutions are fault intolerant, an issue when deployed on edge devices. We propose variant parallelism (VP), an ensemble-based deep learning distribution method where different variants of a main model are generated and can be deployed on separate machines. We design a family of lighter models around the original model, and train them simultaneously to improve accuracy over single models. Our experimental results on six common mid-sized object recognition datasets demonstrate that our models can have 5.8-7.1x fewer parameters, 4.3-31x fewer multiply-accumulations (MACs), and 2.5-13.2x less response time on atomic inputs compared to MobileNetV2 while achieving comparable or higher accuracy. Our technique easily generates several variants of the base architecture. Each variant returns only 2k outputs 1 <= k <= (#classes/2), representing Top-k classes, instead of tons of floating point values required in MP. Since each variant provides a full-class prediction, our approach maintains higher availability compared with MP and CP in presence of failure.
翻訳日:2022-10-18 20:58:11 公開日:2022-10-15
# 特徴固定付きリニアビデオトランス

Linear Video Transformer with Feature Fixation ( http://arxiv.org/abs/2210.08164v1 )

ライセンス: Link先を確認
Kaiyue Lu, Zexiang Liu, Jianyuan Wang, Weixuan Sun, Zhen Qin, Dong Li, Xuyang Shen, Hui Deng, Xiaodong Han, Yuchao Dai, Yiran Zhong(参考訳) 視覚トランスフォーマーは、ソフトマックスアテンション機構によって引き起こされる二次的な複雑さに苦しめながら、ビデオ分類において素晴らしい性能を達成している。 注意計算におけるトークンの数を減らすことで計算コストを軽減する研究もあるが、複雑さは依然として二次的である。 もう一つの有望な方法は、線形の複雑さを持つが明確なパフォーマンス低下を示す、Softmaxの注意を線形の注意に置き換えることである。 このような線形注意の低下は、重要な特徴に対する注意集中の欠如によるものである。 そこで,線形注意を計算する前に,クエリとキーの特徴的重要性を再評価する機能固定モジュールを提案する。 具体的には、クエリ、キー、値を入力トークンの様々な潜在表現とみなし、Query-Key-Value情報を集約することで特徴固定率を学習する。 これは、機能の重要性を包括的に測定するのに役立ちます。 さらに,隣接トークンや時間トークンからの追加のガイダンスを活用し,地域連携による特徴の固定性を高める。 提案手法は, 線形アテンションベースラインを大幅に改善し, 3つの人気ビデオ分類ベンチマークにおいて, 線形ビデオ変換器の最先端性能を実現する。 パラメータが少なく、高い効率で、我々の性能はSoftmaxベースの二次変換器に匹敵する。

Vision Transformers have achieved impressive performance in video classification, while suffering from the quadratic complexity caused by the Softmax attention mechanism. Some studies alleviate the computational costs by reducing the number of tokens in attention calculation, but the complexity is still quadratic. Another promising way is to replace Softmax attention with linear attention, which owns linear complexity but presents a clear performance drop. We find that such a drop in linear attention results from the lack of attention concentration on critical features. Therefore, we propose a feature fixation module to reweight the feature importance of the query and key before computing linear attention. Specifically, we regard the query, key, and value as various latent representations of the input token, and learn the feature fixation ratio by aggregating Query-Key-Value information. This is beneficial for measuring the feature importance comprehensively. Furthermore, we enhance the feature fixation by neighborhood association, which leverages additional guidance from spatial and temporal neighbouring tokens. The proposed method significantly improves the linear attention baseline and achieves state-of-the-art performance among linear video Transformers on three popular video classification benchmarks. With fewer parameters and higher efficiency, our performance is even comparable to some Softmax-based quadratic Transformers.
翻訳日:2022-10-18 20:47:05 公開日:2022-10-15
# AIによるタイブレーク機構:チェスへの応用

AI-powered tiebreak mechanisms: An application to chess ( http://arxiv.org/abs/2210.08289v1 )

ライセンス: Link先を確認
Nejat Anbarci and Mehmet S. Ismail(参考訳) 本稿では,チェスなどのゲームにおける引き分けやトーナメントにおけるタイの場合において,AIシステムが審査役を務めることを提案する。 より具体的には、n$-person zero-sumゲームにおいて、aiベースのスコアリングメカニズムと「タイブレイク戦略耐性」の概念を導入する。 メカニズムをtiebreak strategyproof(tsp)と呼ぶのは、与えられたaiシステムに従って「最高の」アクションを選択することが、すべてのプレイヤーにとって常に最善の利益である場合である。 そこで,本研究では,チェスにおいて実践可能なスコアリング機構を導入し,tsp,すなわち,ゲームがタイブレイクに到達した場合のアドバンテージを高めるために,より悪質な動きを故意に行うことに関心がないことを示す。 言い換えれば、TSP機構はそのような戦略的操作に免疫を持つ。 また、現在の「スピードチェイス」タイブレークは、カルセンとカルアナの2018年の世界チェス選手権の例で、TSPや操作に免疫がないことも示しています。

In this paper, we propose that AI systems serve as a judge in the event of a draw in games such as chess and in the event of a tie in tournaments. More specifically, we introduce a family of AI-based scoring mechanisms and the concept of "tiebreak strategyproofness" in $n$-person zero-sum games. A mechanism is called tiebreak strategyproof (TSP) if it is always in the best interest of every player to choose the "best" action according to a given AI system. As such, we introduce a practicable scoring mechanism in chess and show that it is TSP, i.e., it is never in the interest of a player to deliberately play a worse move to increase their advantage in case the game goes to the tiebreak. In other words, TSP mechanisms are immune to such strategic manipulations. We also show that the current "speed-chess" tiebreaks are not TSP or immune to manipulation with an example from 2018 world chess championship between Carlsen and Caruana.
翻訳日:2022-10-18 20:39:34 公開日:2022-10-15
# 次世代人工知能に向けて:NeuroAI革命を触媒する

Toward Next-Generation Artificial Intelligence: Catalyzing the NeuroAI Revolution ( http://arxiv.org/abs/2210.08340v1 )

ライセンス: Link先を確認
Anthony Zador, Blake Richards, Bence \"Olveczky, Sean Escola, Yoshua Bengio, Kwabena Boahen, Matthew Botvinick, Dmitri Chklovskii, Anne Churchland, Claudia Clopath, James DiCarlo, Surya Ganguli, Jeff Hawkins, Konrad Koerding, Alexei Koulakov, Yann LeCun, Timothy Lillicrap, Adam Marblestone, Bruno Olshausen, Alexandre Pouget, Cristina Savin, Terrence Sejnowski, Eero Simoncelli, Sara Solla, David Sussillo, Andreas S. Tolias, Doris Tsao(参考訳) 神経科学は長年、人工知能(AI)の進歩の重要な要因であった。 我々は,AIの進歩を加速するためには,NeuroAIの基礎研究に投資する必要がある。

Neuroscience has long been an important driver of progress in artificial intelligence (AI). We propose that to accelerate progress in AI, we must invest in fundamental research in NeuroAI.
翻訳日:2022-10-18 20:39:18 公開日:2022-10-15
# エッジにおける分散cnn推定における分割戦略がエネルギー消費に及ぼす影響

The Effects of Partitioning Strategies on Energy Consumption in Distributed CNN Inference at The Edge ( http://arxiv.org/abs/2210.08392v1 )

ライセンス: Link先を確認
Erqian Tang, Xiaotian Guo, Todor Stefanov(参考訳) 今日では、リソースに制約のあるエッジデバイス(小さな移動ロボット、小さなIoTデバイスなど)を利用するAIアプリケーションは、大きなCNNを収容し実行するために単一のエッジデバイスの限られたリソースのために、エッジの分散システム上で畳み込みニューラルネットワーク(CNN)の推論を必要とする。 大きなcnnモデルを分割し、エッジにある複数のデバイスで分散cnn推論を実行するために使用できる4つの主要なパーティショニング戦略がある。 しかし、我々の知る限りでは、これらの4つの分割戦略がエッジデバイス当たりのエネルギー消費に与える影響についての研究は行われていない。 このような調査は、エッジでの分散推論のために大規模なcnnモデルがデプロイされた場合、デバイス毎のエネルギー消費を減らすために効果的に使用されるような分割戦略の可能性を明らかにするために重要である。 そこで本研究では,4つのパーティショニング戦略を用いた分散システムのエッジにおけるcnnモデル推論のデバイス毎のエネルギー消費量について検討・比較を行う。 本研究の目的は,分散システム上でCNN推論を行う場合,どのパーティショニング戦略(およびどの条件下でも)がエッジデバイス当たりのエネルギー消費を減少させる可能性が最も高いかを明らかにすることである。

Nowadays, many AI applications utilizing resource-constrained edge devices (e.g., small mobile robots, tiny IoT devices, etc.) require Convolutional Neural Network (CNN) inference on a distributed system at the edge due to limited resources of a single edge device to accommodate and execute a large CNN. There are four main partitioning strategies that can be utilized to partition a large CNN model and perform distributed CNN inference on multiple devices at the edge. However, to the best of our knowledge, no research has been conducted to investigate how these four partitioning strategies affect the energy consumption per edge device. Such an investigation is important because it will reveal the potential of these partitioning strategies to be used effectively for reduction of the per-device energy consumption when a large CNN model is deployed for distributed inference at the edge. Therefore, in this paper, we investigate and compare the per-device energy consumption of CNN model inference at the edge on a distributed system when the four partitioning strategies are utilized. The goal of our investigation and comparison is to find out which partitioning strategies (and under what conditions) have the highest potential to decrease the energy consumption per edge device when CNN inference is performed at the edge on a distributed system.
翻訳日:2022-10-18 20:39:15 公開日:2022-10-15
# 深い微分可能な論理ゲートネットワーク

Deep Differentiable Logic Gate Networks ( http://arxiv.org/abs/2210.08277v1 )

ライセンス: Link先を確認
Felix Petersen, Christian Borgelt, Hilde Kuehne, Oliver Deussen(参考訳) 近年,効率的なニューラルネットワークアーキテクチャの開発に注目が集まっている。 本研究では,論理ゲートの組み合わせを学習することで,機械学習タスクのための論理ゲートネットワークを探索する。 これらのネットワークは、非常に高速な実行を可能にする"AND"や"XOR"のような論理ゲートで構成されている。 論理ゲートネットワークの学習の難しさは、従来は微分不可能であり、勾配降下の訓練を許さないことである。 そこで本研究では,実数値論理と連続パラメータ化されたネットワーク緩和を併用した,差別化可能な論理ゲートネットワークを提案する。 その結果、離散化された論理ゲートネットワークは、1つのCPUコア上で毎秒100万イメージのMNISTを超える高速な推論速度を達成する。

Recently, research has increasingly focused on developing efficient neural network architectures. In this work, we explore logic gate networks for machine learning tasks by learning combinations of logic gates. These networks comprise logic gates such as "AND" and "XOR", which allow for very fast execution. The difficulty in learning logic gate networks is that they are conventionally non-differentiable and therefore do not allow training with gradient descent. Thus, to allow for effective training, we propose differentiable logic gate networks, an architecture that combines real-valued logics and a continuously parameterized relaxation of the network. The resulting discretized logic gate networks achieve fast inference speeds, e.g., beyond a million images of MNIST per second on a single CPU core.
翻訳日:2022-10-18 20:23:28 公開日:2022-10-15
# FedCross: マルチモデルクロスアグリゲーションによる正確なフェデレーション学習を目指して

FedCross: Towards Accurate Federated Learning via Multi-Model Cross Aggregation ( http://arxiv.org/abs/2210.08285v1 )

ライセンス: Link先を確認
Ming Hu, Peiheng Zhou, Zhihao Yue, Zhiwei Ling, Yihao Huang, Yang Liu, Mingsong Chen(参考訳) 分散データシナリオにおけるデータプライバシの保存における顕著なパフォーマンスのため、フェデレートラーニング(FL)は、データサイロ問題に対処するための有望な分散機械学習パラダイムとみなされてきた。 通常、従来のFLアプローチでは、1対マルチのトレーニングスキームを採用しており、クラウドサーバはモデルアグリゲーションのために、すべてのクライアントに対して単一のグローバルモデルのみを保持する。 しかし、このスキームは、局所モデルの互換性のないすべての収束方向を常に満たさない1つのグローバルモデルのみが、収束率と分類精度が低いため、分類性能に劣る。 そこで本稿では,提案する類似性に基づくマルチモデルクロスアグリゲーション法に基づいて,新しい複数対複数flトレーニング方式を採用するfeedcrossという効率的なflフレームワークを提案する。 従来のFL法とは異なり、各ラウンドのFL訓練では、FedCrossはモデル類似性のガイダンスの下で重み付き融合を行うために、小さな異なる中間モデルを使用する。 このようにして、FedCrossが使用する中間モデルは、クライアントの収束特性を十分に尊重することができ、クライアントの収束方向をチューニングする際の競合ははるかに少ない。 最後に、デプロイメント段階では、FedCrossは訓練済みの即時モデルでフェデレーション平均化を実行することで、すべてのクライアントのグローバルモデルを形成する。

Due to the remarkable performance in preserving data privacy for decentralized data scenarios, Federated Learning (FL) has been considered as a promising distributed machine learning paradigm to deal with data silos problems. Typically, conventional FL approaches adopts a one-to-multi training scheme, where the cloud server keeps only one single global model for all the involved clients for the purpose of model aggregation. However, this scheme suffers from inferior classification performance, since only one global model cannot always accommodate all the incompatible convergence directions of local models, resulting in a low convergence rate and classification accuracy. To address this issue, this paper presents an efficient FL framework named FedCross, which adopts a novel multi-to-multi FL training scheme based on our proposed similarity-based multi-model cross aggregation method. Unlike traditional FL methods, in each round of FL training, FedCross uses a small set of distinct intermediate models to conduct weighted fusion under the guidance of model similarities. In this way, the intermediate models used by FedCross can sufficiently respect the convergence characteristics of clients, thus leading to much fewer conflicts in tuning the convergence directions of clients. Finally, in the deployment stage, FedCross forms a global model for all the clients by performing the federated averaging on the trained immediate models.
翻訳日:2022-10-18 20:23:16 公開日:2022-10-15
# 非IIDデータに基づくビザンチンロバスト学習のための線形スカラー化

Linear Scalarization for Byzantine-robust learning on non-IID data ( http://arxiv.org/abs/2210.08287v1 )

ライセンス: Link先を確認
Latifa Errami, El Houcine Bergou(参考訳) 本研究では,クライアント間のデータが不均一である場合のビザンチン・ロバスト学習の問題点について検討する。 我々はSGDの収束を狙った中毒攻撃に焦点を当てる。 この問題は大きな注目を集めているが、主要なビザンツ防衛隊はIDDの仮定に頼っており、データ配信が非IIDで攻撃を受けなくても失敗する。 非iid設定におけるビザンチン攻撃を回避するために,リニアスカラー化(ls)を用いた電流防御法を提案する。 LS法は、疑わしい悪意のあるクライアントを罰するトレードオフベクトルを組み込んだものである。 経験的分析は、提案されたLS変異体がIID設定で実現可能であることを裏付ける。 軽度から強力な非IIDデータ分割の場合、LSは最先端のByzantine攻撃シナリオの下での現在のアプローチに匹敵する、あるいは優れています。

In this work we study the problem of Byzantine-robust learning when data among clients is heterogeneous. We focus on poisoning attacks targeting the convergence of SGD. Although this problem has received great attention; the main Byzantine defenses rely on the IID assumption causing them to fail when data distribution is non-IID even with no attack. We propose the use of Linear Scalarization (LS) as an enhancing method to enable current defenses to circumvent Byzantine attacks in the non-IID setting. The LS method is based on the incorporation of a trade-off vector that penalizes the suspected malicious clients. Empirical analysis corroborates that the proposed LS variants are viable in the IID setting. For mild to strong non-IID data splits, LS is either comparable or outperforming current approaches under state-of-the-art Byzantine attack scenarios.
翻訳日:2022-10-18 20:22:50 公開日:2022-10-15
# 不均衡および概念ドリフトデータストリームからのオンライン分類器学習における複数クラスの影響

The Influence of Multiple Classes on Learning Online Classifiers from Imbalanced and Concept Drifting Data Streams ( http://arxiv.org/abs/2210.08359v1 )

ライセンス: Link先を確認
Agnieszka Lipska and Jerzy Stefanowski(参考訳) 本研究の目的は,マルチクラス不均衡データストリームから様々なオンライン分類器を学習することの難しさに対する局所データ特性とドリフトの影響を実験的に研究することである。 まず,不均衡ストリームの文脈におけるデータ因子とドリフトの分類を行い,これらの因子とドリフトをモデル化する合成ストリームの生成法を紹介する。 人工的に生成されたデータストリームを用いた多くの実験の結果は、1つのマイノリティクラスを持つストリームよりも、多くのマイノリティクラス(境界線の例の種類)間で重なり合うことのずっと大きな役割を示している。 ストリームに稀な例が存在することは、最も難しい単一要因である。 分裂する少数民族の局所的な流れが第三の要因である。 バイナリストリームとは異なり、特殊な UOB と OOB の分類器は高い不均衡比でも十分に機能する。 すべての分類器にとって最も難しいのは、識別された因子のドリフトを同時に統合する複雑なシナリオであり、二進数よりも強いいくつかのマイノリティクラスの場合、評価指標が悪化する。 これはecmlpkdd2022のlidta'2022ワークショップで発表された短い論文の拡張版である。

This work is aimed at the experimental studying the influence of local data characteristics and drifts on the difficulties of learning various online classifiers from multi-class imbalanced data streams. Firstly we present a categorization of these data factors and drifts in the context of imbalanced streams, then we introduce the generators of synthetic streams that model these factors and drifts. The results of many experiments with synthetically generated data streams have shown a much greater role of the overlapping between many minority classes (the type of borderline examples) than for streams with one minority class. The presence of rare examples in the stream is the most difficult single factor. The local drift of splitting minority classes is the third influential factor. Unlike binary streams, the specialized UOB and OOB classifiers perform well enough for even high imbalance ratios. The most challenging for all classifiers are complex scenarios integrating the drifts of the identified factors simultaneously, which worsen the evaluation measures in the case of a several minority classes stronger than for binary ones. This is an extended version of the short paper presented at LIDTA'2022 workshop at ECMLPKDD2022.
翻訳日:2022-10-18 20:22:35 公開日:2022-10-15
# ニューラルネットワーク学習のためのデータ効率向上

Data-Efficient Augmentation for Training Neural Networks ( http://arxiv.org/abs/2210.08363v1 )

ライセンス: Link先を確認
Tian Yu Liu and Baharan Mirzasoleiman(参考訳) データ拡張は、多くのディープラーニングアプリケーションで最先端のパフォーマンスを達成するために不可欠である。 しかし、最も効果的な拡張技術は、中規模のデータセットでも計算的に禁止される。 そこで本研究では,拡張されたデータポイントのサブセットを選択するための厳密な手法を提案する。 まず,加法摂動としてモデル化されたデータ拡張は,ネットワークジャコビアンのより小さな特異値を相対的に拡大・摂動することで学習と一般化を改善し,その顕著な方向を維持していることを示す。 これにより、過剰フィッティングが防止され、情報を学ぶのが難しくなる。 そこで本研究では,学習データの小さな部分集合を反復的に抽出するフレームワークを提案する。 本手法により得られた拡張部分集合に対する確率勾配勾配は、完全に拡張されたデータと同様のトレーニングダイナミクスを持つことを示す。 実験により, CIFAR10では6.3倍, SVHNでは2.2倍の高速化を実現し, 各種サブセットサイズでベースラインを最大10%上回る性能を示した。 同様に、TinyImageNetとImageNetでは、ベースラインを最大8%上回り、様々なサブセットサイズで最大3.3倍のスピードアップを実現しています。 最後に、我々のCIFAR10のバージョンで、50%のサブセットのトレーニングと強化を行い、完全なデータセットを使用してラベルノイズがさらに優れていた。

Data augmentation is essential to achieve state-of-the-art performance in many deep learning applications. However, the most effective augmentation techniques become computationally prohibitive for even medium-sized datasets. To address this, we propose a rigorous technique to select subsets of data points that when augmented, closely capture the training dynamics of full data augmentation. We first show that data augmentation, modeled as additive perturbations, improves learning and generalization by relatively enlarging and perturbing the smaller singular values of the network Jacobian, while preserving its prominent directions. This prevents overfitting and enhances learning the harder to learn information. Then, we propose a framework to iteratively extract small subsets of training data that when augmented, closely capture the alignment of the fully augmented Jacobian with labels/residuals. We prove that stochastic gradient descent applied to the augmented subsets found by our approach has similar training dynamics to that of fully augmented data. Our experiments demonstrate that our method achieves 6.3x speedup on CIFAR10 and 2.2x speedup on SVHN, and outperforms the baselines by up to 10% across various subset sizes. Similarly, on TinyImageNet and ImageNet, our method beats the baselines by up to 8%, while achieving up to 3.3x speedup across various subset sizes. Finally, training on and augmenting 50% subsets using our method on a version of CIFAR10 corrupted with label noise even outperforms using the full dataset.
翻訳日:2022-10-18 20:22:14 公開日:2022-10-15
# 深層回帰学習

Deep Regression Unlearning ( http://arxiv.org/abs/2210.08196v1 )

ライセンス: Link先を確認
Ayush K Tarun, Vikram S Chundawat, Murari Mandal, Mohan Kankanhalli(参考訳) データ保護とプライバシ規制の導入により、機械学習システムにおいて、オンデマンドのデータ系統を削除することが重要になっている。 過去数年間、特定のトレーニングデータポイントの情報を効果的かつ効果的にモデルから取り除くために、機械学習の顕著な発展が見られた。 本研究では,回帰問題,特にディープラーニングモデルにおけるアンラーニングについて検討する。 分類学の未学習と単純な線形回帰の研究が盛んに行われている。 しかし、深い回帰モデルの未学習は、これまでほとんど未学習のままだった。 本稿では,プライバシ攻撃に対して十分に一般化し,堅牢な回帰学習手法を提案する。 本稿では,新しい軽量化プロセスを用いたブラインドスポットアンラーニング手法を提案する。 保持サンプルに部分的に露出したランダム初期化モデルと原モデルのコピーを併用して、私たちが忘れたいデータの保持と精査を希望するデータに関する知識を選択的にインプリントする。 また,回帰学習のためのガウス分布に基づく微調整法を提案する。 分類タスクにおけるアンラーニングのための既存の評価指標は、回帰アンラーニングに直接適用できない。 したがって、回帰タスクにこれらの指標を適用する。 我々は,非学習回帰モデルにおけるプライバシリークをチェックするために,メンバシップ推論攻撃を考案する。 コンピュータビジョン,自然言語処理,予測アプリケーションのための回帰タスクの実験を行う。 我々のディープレグレッションアンラーニング手法は、これらのデータセットとメトリクスすべてで優れたパフォーマンスを示します。

With the introduction of data protection and privacy regulations, it has become crucial to remove the lineage of data on demand in a machine learning system. In past few years, there has been notable development in machine unlearning to remove the information of certain training data points efficiently and effectively from the model. In this work, we explore unlearning in a regression problem, particularly in deep learning models. Unlearning in classification and simple linear regression has been investigated considerably. However, unlearning in deep regression models largely remain an untouched problem till now. In this work, we introduce deep regression unlearning methods that are well generalized and robust to privacy attacks. We propose the Blindspot unlearning method which uses a novel weight optimization process. A randomly initialized model, partially exposed to the retain samples and a copy of original model are used together to selectively imprint knowledge about the data that we wish to keep and scrub the information of the data we wish to forget. We also propose a Gaussian distribution based fine tuning method for regression unlearning. The existing evaluation metrics for unlearning in a classification task are not directly applicable for regression unlearning. Therefore, we adapt these metrics for regression task. We devise a membership inference attack to check the privacy leaks in the unlearned regression model. We conduct the experiments on regression tasks for computer vision, natural language processing and forecasting applications. Our deep regression unlearning methods show excellent performance across all of these datasets and metrics.
翻訳日:2022-10-18 20:14:58 公開日:2022-10-15
# Webからのアクティブラーニング

Active Learning from the Web ( http://arxiv.org/abs/2210.08205v1 )

ライセンス: Link先を確認
Ryoma Sato(参考訳) データのラベル付けは、機械学習パイプラインで最もコストのかかるプロセスの1つである。 アクティブラーニングはこの問題を緩和するための標準的なアプローチである。 プールベースのアクティブラーニングはまず、ラベル付きデータのプールを構築し、必要なラベルの総数を最小限に抑えるためにラベル付けするデータを反復的に選択する。 プールからデータを選択するための多くの効果的な基準が文献に提案されている。 しかし、プールの作り方はあまり研究されていない。 特に、ほとんどのメソッドはタスク固有のプールが無料で与えられると仮定している。 本稿では,このようなタスク固有のプールが常に利用可能であるとは限らないことを主張し,アクティブラーニングを適用したプールに対して,無数のラベルなしデータをweb上で使用することを提案する。 プールは非常に大きいため、多くのタスクに対して関連するデータがプールに存在する可能性が高いため、各タスクに対してプールを明示的に設計し、構築する必要はありません。 課題は、プールのサイズによって、全データの取得スコアを徹底的に計算できないことです。 本研究では,ユーザ側情報検索アルゴリズムを用いて,Webからの能動的学習の観点から情報検索を行う効率的なシーファリング手法を提案する。 実験では,オンラインFlickr環境をアクティブ学習のプールとして利用した。 このプールには100億以上の画像が含まれており、アクティブラーニングのための文献の既存のプールよりも数桁大きい。 提案手法は, 従来の未ラベルプールの手法よりも性能がよいことを確認した。

Labeling data is one of the most costly processes in machine learning pipelines. Active learning is a standard approach to alleviating this problem. Pool-based active learning first builds a pool of unlabelled data and iteratively selects data to be labeled so that the total number of required labels is minimized, keeping the model performance high. Many effective criteria for choosing data from the pool have been proposed in the literature. However, how to build the pool is less explored. Specifically, most of the methods assume that a task-specific pool is given for free. In this paper, we advocate that such a task-specific pool is not always available and propose the use of a myriad of unlabelled data on the Web for the pool for which active learning is applied. As the pool is extremely large, it is likely that relevant data exist in the pool for many tasks, and we do not need to explicitly design and build the pool for each task. The challenge is that we cannot compute the acquisition scores of all data exhaustively due to the size of the pool. We propose an efficient method, Seafaring, to retrieve informative data in terms of active learning from the Web using a user-side information retrieval algorithm. In the experiments, we use the online Flickr environment as the pool for active learning. This pool contains more than ten billion images and is several orders of magnitude larger than the existing pools in the literature for active learning. We confirm that our method performs better than existing approaches of using a small unlabelled pool.
翻訳日:2022-10-18 20:14:39 公開日:2022-10-15
# 非均一幾何グラフにおけるサンプリング密度の解法

Unveiling the Sampling Density in Non-Uniform Geometric Graphs ( http://arxiv.org/abs/2210.08219v1 )

ライセンス: Link先を確認
Raffaele Paolino, Aleksandar Bojchevski, Stephan G\"unnemann, Gitta Kutyniok, Ron Levie(参考訳) グラフを研究するための強力な枠組みは、これらのグラフを幾何学的グラフとみなすことである: ノードは基礎となる計量空間からランダムにサンプリングされ、その距離が指定された近傍半径以下であれば任意のノードが接続される。 現在、文献は主に一様サンプリングと一定の近傍半径に焦点を当てている。 しかし、実世界のグラフはサンプリング密度と近傍半径の両方が潜在空間上で変化するモデルによりより良く表現される可能性が高い。 例えば、ソーシャルネットワークのコミュニティは、密集したサンプル領域としてモデル化することができ、ハブは、より大きな近傍半径を持つノードとしてモデル化できる。 本研究では、グラフシフト作用素の導出を含む、この(より一般的な)モデルの(より一般的な)クラスを厳密に数学的に解析する。 重要な洞察は、非一様サンプリングによって生じる潜在的な歪みを避けるために、グラフシフト演算子は修正されるべきであるということである。 次に,未知のサンプリング密度を自己教師あり方式で推定する手法を開発した。 最後に,学習密度を用いたサンプルアプリケーションを提案する。 1) グラフシフト演算子を修正し、様々なタスクのパフォーマンスを改善する。 2)プールの改善,及び 3)ネットワークから知識を抽出する。 我々の実験結果は我々の理論を支持し、我々のモデルに強い証拠を与える。

A powerful framework for studying graphs is to consider them as geometric graphs: nodes are randomly sampled from an underlying metric space, and any pair of nodes is connected if their distance is less than a specified neighborhood radius. Currently, the literature mostly focuses on uniform sampling and constant neighborhood radius. However, real-world graphs are likely to be better represented by a model in which the sampling density and the neighborhood radius can both vary over the latent space. For instance, in a social network communities can be modeled as densely sampled areas, and hubs as nodes with larger neighborhood radius. In this work, we first perform a rigorous mathematical analysis of this (more general) class of models, including derivations of the resulting graph shift operators. The key insight is that graph shift operators should be corrected in order to avoid potential distortions introduced by the non-uniform sampling. Then, we develop methods to estimate the unknown sampling density in a self-supervised fashion. Finally, we present exemplary applications in which the learnt density is used to 1) correct the graph shift operator and improve performance on a variety of tasks, 2) improve pooling, and 3) extract knowledge from networks. Our experimental findings support our theory and provide strong evidence for our model.
翻訳日:2022-10-18 20:14:20 公開日:2022-10-15
# マルチバッチ強化学習における近似的後悔限界

Near-Optimal Regret Bounds for Multi-batch Reinforcement Learning ( http://arxiv.org/abs/2210.08238v1 )

ライセンス: Link先を確認
Zihan Zhang, Yuhang Jiang, Yuan Zhou and Xiangyang Ji(参考訳) 本稿では,有限水平マルコフ決定過程(MDPs)をモデルとした漸進的強化学習(RL)問題をバッチ数に制約を加えて検討する。 このマルチバッチ強化学習フレームワークは、エージェントがポリシーを事前に更新するための時間スケジュールを提供する必要があるが、エージェントがポリシーを適応的に変更することに苦しむようなシナリオに特に適している。 s$ state, $a$ actions and planning horizon $h$ の有限ホリゾン mdp が与えられると、$o\left(h+\log_2\log_2(k) \right)$k$ を用いた$k$エピソードで$\tilde{o}(\sqrt{sah^3k\ln(1/\delta)})$\footnote{$\tilde{o}(\cdot)$ 対数項$(s,a,h,k)$} の計算効率の高いアルゴリズムを設計する。 我々の知る限り、最初の$\tilde{O}(\sqrt{SAH^3K})$ regret bound with $O(H+\log_2\log_2(K))$ batch complexityである。 一方、$\tilde{o}(\mathrm{poly}(s,a,h)\sqrt{k})$ regretを達成するために、バッチの数は少なくとも$\omega\left(h/\log_a(k)+ \log_2\log_2(k) \right)$であり、これは我々の上限を対数項に一致する。 私たちの技術貢献は2つあります。 1) 未発見の状態を探索するための最適に近い設計計画 2)近似遷移モデルを用いてある方向を探索する計算効率のよいアルゴリズム。

In this paper, we study the episodic reinforcement learning (RL) problem modeled by finite-horizon Markov Decision Processes (MDPs) with constraint on the number of batches. The multi-batch reinforcement learning framework, where the agent is required to provide a time schedule to update policy before everything, which is particularly suitable for the scenarios where the agent suffers extensively from changing the policy adaptively. Given a finite-horizon MDP with $S$ states, $A$ actions and planning horizon $H$, we design a computational efficient algorithm to achieve near-optimal regret of $\tilde{O}(\sqrt{SAH^3K\ln(1/\delta)})$\footnote{$\tilde{O}(\cdot)$ hides logarithmic terms of $(S,A,H,K)$} in $K$ episodes using $O\left(H+\log_2\log_2(K) \right)$ batches with confidence parameter $\delta$. To our best of knowledge, it is the first $\tilde{O}(\sqrt{SAH^3K})$ regret bound with $O(H+\log_2\log_2(K))$ batch complexity. Meanwhile, we show that to achieve $\tilde{O}(\mathrm{poly}(S,A,H)\sqrt{K})$ regret, the number of batches is at least $\Omega\left(H/\log_A(K)+ \log_2\log_2(K) \right)$, which matches our upper bound up to logarithmic terms. Our technical contribution are two-fold: 1) a near-optimal design scheme to explore over the unlearned states; 2) an computational efficient algorithm to explore certain directions with an approximated transition model.
翻訳日:2022-10-18 20:14:02 公開日:2022-10-15
# 分子表現学習のためのサブ構造-原子交差注意

Substructure-Atom Cross Attention for Molecular Representation Learning ( http://arxiv.org/abs/2210.08243v1 )

ライセンス: Link先を確認
Jiye Kim, Seungbeom Lee, Dongwoo Kim, Sungsoo Ahn, Jaesik Park(参考訳) 分子表現のためのニューラルネットワークアーキテクチャの設計は、AIによる薬物発見と分子設計に不可欠である。 本研究では,分子表現学習のための新しい枠組みを提案する。 私たちの貢献は3倍です (a)分子のノード的特徴にサブ構造を組み込むことの有用性を示す。 (b)変圧器とグラフニューラルネットワークからなる2つの分岐ネットワークを、非対称な注意で融合するように設計すること。 (c)分子からヒューリスティックな特徴や計算的な情報を必要としないこと。 ChEMBLとPubChemデータベースから収集した180万の分子を用いて、ネットワークをトレーニングし、最小限の監督で分子の一般的な表現を学ぶ。 実験の結果,前訓練したネットワークは11個の下流タスクにおいて分子特性予測において競合性能を発揮できることがわかった。

Designing a neural network architecture for molecular representation is crucial for AI-driven drug discovery and molecule design. In this work, we propose a new framework for molecular representation learning. Our contribution is threefold: (a) demonstrating the usefulness of incorporating substructures to node-wise features from molecules, (b) designing two branch networks consisting of a transformer and a graph neural network so that the networks fused with asymmetric attention, and (c) not requiring heuristic features and computationally-expensive information from molecules. Using 1.8 million molecules collected from ChEMBL and PubChem database, we pretrain our network to learn a general representation of molecules with minimal supervision. The experimental results show that our pretrained network achieves competitive performance on 11 downstream tasks for molecular property prediction.
翻訳日:2022-10-18 20:13:14 公開日:2022-10-15
# 時系列予測のための極長短期記憶

Extreme-Long-short Term Memory for Time-series Prediction ( http://arxiv.org/abs/2210.08244v1 )

ライセンス: Link先を確認
Sida Xing, Feihu Han, Suiyang Khoo(参考訳) LSTM(Long Short-Term Memory)の出現は、従来のリカレントニューラルネットワーク(RNN)における勾配の消滅と爆発的勾配の問題を解決する。 LSTMは新しいタイプのRNNとして、テキスト予測、風速予測、EEG信号による抑うつ予測など様々な分野で広く使われている。 その結果,LSTMの効率性の向上は,他の応用分野の効率性向上に役立つことがわかった。 本稿では,高度LSTMアルゴリズムであるExtreme Long Short-Term Memory (E-LSTM)を提案する。 この「ゲート」はデータの一部を前処理し、lstmのセル更新で処理されたデータを伴い、より少ないトレーニングラウンドでより正確なデータを得るため、全体のトレーニング時間を短縮する。 本研究では,E-LSTMモデルを用いてテキスト予測を行う。 実験の結果、e-lstmは1回のトレーニングラウンドを行うのに時間がかかることがあったが、小さなデータセットでテストする場合、新しいe-lstmは7回目のlstmの結果を得るのに2つのエポックしか必要としなかった。 したがって、E-LSTMは従来のLSTMの高精度を維持しつつ、LSTMのトレーニング速度と全体的な効率を改善している。

The emergence of Long Short-Term Memory (LSTM) solves the problems of vanishing gradient and exploding gradient in traditional Recurrent Neural Networks (RNN). LSTM, as a new type of RNN, has been widely used in various fields, such as text prediction, Wind Speed Forecast, depression prediction by EEG signals, etc. The results show that improving the efficiency of LSTM can help to improve the efficiency in other application areas. In this paper, we proposed an advanced LSTM algorithm, the Extreme Long Short-Term Memory (E-LSTM), which adds the inverse matrix part of Extreme Learning Machine (ELM) as a new "gate" into the structure of LSTM. This "gate" preprocess a portion of the data and involves the processed data in the cell update of the LSTM to obtain more accurate data with fewer training rounds, thus reducing the overall training time. In this research, the E-LSTM model is used for the text prediction task. Experimental results showed that the E-LSTM sometimes takes longer to perform a single training round, but when tested on a small data set, the new E-LSTM requires only 2 epochs to obtain the results of the 7th epoch traditional LSTM. Therefore, the E-LSTM retains the high accuracy of the traditional LSTM, whilst also improving the training speed and the overall efficiency of the LSTM.
翻訳日:2022-10-18 20:13:02 公開日:2022-10-15
# 微分的個人学習者の校正について

A Closer Look at the Calibration of Differentially Private Learners ( http://arxiv.org/abs/2210.08248v1 )

ライセンス: Link先を確認
Hanlin Zhang, Xuechen Li, Prithviraj Sen, Salim Roukos, Tatsunori Hashimoto(参考訳) 本研究では,DP-SGDを訓練した分類器の校正を体系的に検討し,幅広い視覚・言語タスクにおける誤校正を観察する。 本研究は,dp-sgdのサンプル毎勾配クリッピングを悪用の主な原因としており,従来の差分プライバシーによる校正手法は,校正誤差の限界的な改善しか与えず,時には精度が大幅に低下することも示している。 解法として,温度スケーリングやプラットスケーリングといった後処理キャリブレーション手法の個人差が驚くほど有効であり,全体モデルに対する実用コストが無視できることを示した。 7つのタスク、温度スケーリング、DP-SGDによるプラットスケーリングにより、ドメイン内予測キャリブレーション誤差が平均3.1倍減少し、精度は少なくともわずかに低下する。

We systematically study the calibration of classifiers trained with differentially private stochastic gradient descent (DP-SGD) and observe miscalibration across a wide range of vision and language tasks. Our analysis identifies per-example gradient clipping in DP-SGD as a major cause of miscalibration, and we show that existing approaches for improving calibration with differential privacy only provide marginal improvements in calibration error while occasionally causing large degradations in accuracy. As a solution, we show that differentially private variants of post-processing calibration methods such as temperature scaling and Platt scaling are surprisingly effective and have negligible utility cost to the overall model. Across 7 tasks, temperature scaling and Platt scaling with DP-SGD result in an average 3.1-fold reduction in the in-domain expected calibration error and only incur at most a minor percent drop in accuracy.
翻訳日:2022-10-18 20:12:39 公開日:2022-10-15
# グラフニューラルネットワークの改良: 高周波ブースター

Improving Your Graph Neural Networks: A High-Frequency Booster ( http://arxiv.org/abs/2210.08251v1 )

ライセンス: Link先を確認
Jiaqi Sun, Lin Zhang, Shenglin Zhao, Yujiu Yang(参考訳) グラフニューラルネットワーク(gnns)は、グラフ構造化データの効率的な表現の学習を約束しており、その最も重要な応用の1つは半教師付きノード分類である。 しかし、このアプリケーションでは、過剰なスムースとヘテロフィリーという問題のためにGNNフレームワークは失敗する傾向にある。 最も人気のあるGNNはメッセージパッシングフレームワークに焦点を当てていることが知られており、近年の研究により、これらのGNNは信号処理の観点からローパスフィルタによってバウンドされることがしばしば示されている。 そこで我々は,gnnに高周波情報を組み込んで遺伝的問題を緩和する。 本稿では,元のグラフの補グラフにハイパスフィルタが組み込まれ,高周波数成分の効率向上を目的とした補完ラプラシアン正規化(CLAR)を提案する。 実験の結果、CLARはGNNが過剰な平滑化に取り組み、異種グラフの表現性を向上し、一般的なベースラインよりも最大3.6%改善し、トポロジカルロバスト性を確保することが示されている。

Graph neural networks (GNNs) hold the promise of learning efficient representations of graph-structured data, and one of its most important applications is semi-supervised node classification. However, in this application, GNN frameworks tend to fail due to the following issues: over-smoothing and heterophily. The most popular GNNs are known to be focused on the message-passing framework, and recent research shows that these GNNs are often bounded by low-pass filters from a signal processing perspective. We thus incorporate high-frequency information into GNNs to alleviate this genetic problem. In this paper, we argue that the complement of the original graph incorporates a high-pass filter and propose Complement Laplacian Regularization (CLAR) for an efficient enhancement of high-frequency components. The experimental results demonstrate that CLAR helps GNNs tackle over-smoothing, improving the expressiveness of heterophilic graphs, which adds up to 3.6% improvement over popular baselines and ensures topological robustness.
翻訳日:2022-10-18 20:12:20 公開日:2022-10-15
# 医療データに欠けている値を扱う:深層学習に基づくインプテーション手法の体系的レビュー

Handling missing values in healthcare data: A systematic review of deep learning-based imputation techniques ( http://arxiv.org/abs/2210.08258v1 )

ライセンス: Link先を確認
Mingxuan Liu, Siqi Li, Han Yuan, Marcus Eng Hock Ong, Yilin Ning, Feng Xie, Seyed Ehsan Saffari, Victor Volovici, Bibhas Chakraborty, Nan Liu(参考訳) 目的: 欠落した値の適切な処理は、信頼性の高い見積もりと決定を、特に臨床研究のような高度な分野に届けるのに重要である。 データの多様性と複雑さの増大により、多くの研究者がディープラーニング(DL)ベースの計算技術を開発した。 我々は,これらの手法の活用を,特にデータ型に焦点をあてて,様々な分野の医療研究者を支援するために,体系的なレビューを行った。 方法:2021年8月までに発行された論文に対して,5つのデータベース(MEDLINE,Web of Science, Embase, CINAHL, Scopus)を検索した。 我々は,健康データ型,モデルバックボーン(メインアーキテクチャ),インプット戦略,非DL手法との比較の4つの観点から,選択した出版物を評価した。 データ型に基づいて、DLモデルの採用を示すエビデンスマップを作成しました。 結果: 調査対象は64項目で, 表状静的(26.6%, 17/64), 時間的データ(37.5%, 24/64)が最も多かった。 モデルのbackbone(s)は、インプテーション戦略と同様に、データ型によって異なることが分かりました。 統合された」戦略、すなわち、下流のタスクと同時に解決される計算タスクは、表側時間(50%、12/24)とマルチモーダルデータ(71.4%、5/7)で人気があったが、他のデータ型には限られていた。 さらに, DL法は, 非DL法に比べ, ほとんどの研究において高い計算精度を示した。 結論:dlベースのインプテーションモデルは、対応する欠落パターンに対処するデータ型に基づいてカスタマイズすることができ、その「統合」戦略は、特にデータが複雑であるシナリオにおいてインプテーションの有効性を高めることができる。 将来の研究は、医療データ計算のためのDLベースのモデルの移植性と公正性に焦点を当てるかもしれない。

Objective: The proper handling of missing values is critical to delivering reliable estimates and decisions, especially in high-stakes fields such as clinical research. The increasing diversity and complexity of data have led many researchers to develop deep learning (DL)-based imputation techniques. We conducted a systematic review to evaluate the use of these techniques, with a particular focus on data types, aiming to assist healthcare researchers from various disciplines in dealing with missing values. Methods: We searched five databases (MEDLINE, Web of Science, Embase, CINAHL, and Scopus) for articles published prior to August 2021 that applied DL-based models to imputation. We assessed selected publications from four perspectives: health data types, model backbone (i.e., main architecture), imputation strategies, and comparison with non-DL-based methods. Based on data types, we created an evidence map to illustrate the adoption of DL models. Results: We included 64 articles, of which tabular static (26.6%, 17/64) and temporal data (37.5%, 24/64) were the most frequently investigated. We found that model backbone(s) differed among data types as well as the imputation strategy. The "integrated" strategy, that is, the imputation task being solved concurrently with downstream tasks, was popular for tabular temporal (50%, 12/24) and multi-modal data (71.4%, 5/7), but limited for other data types. Moreover, DL-based imputation methods yielded better imputation accuracy in most studies, compared with non-DL-based methods. Conclusion: DL-based imputation models can be customized based on data type, addressing the corresponding missing patterns, and its associated "integrated" strategy can enhance the efficacy of imputation, especially in scenarios where data is complex. Future research may focus on the portability and fairness of DL-based models for healthcare data imputation.
翻訳日:2022-10-18 20:12:02 公開日:2022-10-15
# マルチ購入による収益最大化のための製品ランク付け

Product Ranking for Revenue Maximization with Multiple Purchases ( http://arxiv.org/abs/2210.08268v1 )

ライセンス: Link先を確認
Renzhe Xu, Xingxuan Zhang, Bo Li, Yafeng Zhang, Xiaolong Chen, Peng Cui(参考訳) 収益を最大化するオンライン小売業者にとって、製品ランキングは重要な問題だ。 適切な製品ランキングアルゴリズムを設計するために、製品リストが提供される際に消費者の行動を特徴付ける様々な消費者選択モデルを提案する。 しかし、既存の作品では、各消費者が1つ以上の製品を購入するか、製品を購入した後も商品リストを見ることを想定しており、実際のシナリオでは一般的な慣習とは一致しない。 本稿では,各消費者が自由に複数の製品を購入できると仮定する。 消費者の視聴意欲と購入意欲をモデル化するために、ランダムな注意範囲と購入予算を設定し、購入した商品の最大額をそれぞれ決定する。 この設定で、オンライン小売業者が消費者の行動を正確にモデル化できる場合に、まず最適なランキングポリシーを設計する。 このポリシーに基づき、消費者の行動を推定し、オンライン設定で同時に収益を最大化する、$$\~O(\sqrt{T})$の多重購入型UPB(MPB-UCB)アルゴリズムをさらに発展させる。 合成データセットと半合成データセットの両方の実験により、提案アルゴリズムの有効性が証明された。

Product ranking is the core problem for revenue-maximizing online retailers. To design proper product ranking algorithms, various consumer choice models are proposed to characterize the consumers' behaviors when they are provided with a list of products. However, existing works assume that each consumer purchases at most one product or will keep viewing the product list after purchasing a product, which does not agree with the common practice in real scenarios. In this paper, we assume that each consumer can purchase multiple products at will. To model consumers' willingness to view and purchase, we set a random attention span and purchase budget, which determines the maximal amount of products that he/she views and purchases, respectively. Under this setting, we first design an optimal ranking policy when the online retailer can precisely model consumers' behaviors. Based on the policy, we further develop the Multiple-Purchase-with-Budget UCB (MPB-UCB) algorithms with $\~O(\sqrt{T})$ regret that estimate consumers' behaviors and maximize revenue simultaneously in online settings. Experiments on both synthetic and semi-synthetic datasets prove the effectiveness of the proposed algorithms.
翻訳日:2022-10-18 20:11:26 公開日:2022-10-15
# ProtoVAE: 信頼できる自己説明可能な原型変分モデル

ProtoVAE: A Trustworthy Self-Explainable Prototypical Variational Model ( http://arxiv.org/abs/2210.08151v1 )

ライセンス: Link先を確認
Srishti Gautam, Ahcene Boubekki, Stine Hansen, Suaiba Amina Salahuddin, Robert Jenssen, Marina MC H\"ohne, Michael Kampffmeyer(参考訳) 解釈可能なモデルの必要性は、自己説明可能な分類器の開発を促進する。 従来のアプローチは、多段階最適化スキームに基づいており、モデルの予測性能に影響を与えるか、あるいは、透明でない、信頼できる、あるいはデータの多様性を捉えない説明を生成する。 これらの欠点に対処するために,クラス固有のプロトタイプをエンドツーエンドで学習し,表現空間を正規化し,正規性制約を導入することで信頼性と多様性を強制する変分オートエンコーダベースのフレームワークであるProtoVAEを提案する。 最後に、モデルは、プロトタイプを直接決定プロセスに組み込むことで透明になるように設計されている。 従来の自己説明可能なアプローチと比較して、ProtoVAEの優位性を示し、予測性能を低下させることなく、信頼できる多様な説明を生成する能力を強調した。

The need for interpretable models has fostered the development of self-explainable classifiers. Prior approaches are either based on multi-stage optimization schemes, impacting the predictive performance of the model, or produce explanations that are not transparent, trustworthy or do not capture the diversity of the data. To address these shortcomings, we propose ProtoVAE, a variational autoencoder-based framework that learns class-specific prototypes in an end-to-end manner and enforces trustworthiness and diversity by regularizing the representation space and introducing an orthonormality constraint. Finally, the model is designed to be transparent by directly incorporating the prototypes into the decision process. Extensive comparisons with previous self-explainable approaches demonstrate the superiority of ProtoVAE, highlighting its ability to generate trustworthy and diverse explanations, while not degrading predictive performance.
翻訳日:2022-10-18 20:03:12 公開日:2022-10-15
# 正規化フローのための可逆モノトン作用素

Invertible Monotone Operators for Normalizing Flows ( http://arxiv.org/abs/2210.08176v1 )

ライセンス: Link先を確認
Byeongkeun Ahn, Chiyoon Kim, Youngjoon Hong, Hyunwoo J. Kim(参考訳) 単純分布を複素分布に伝達する可逆変換を学習することで流れモデルの確率分布を正規化する。 ResNetベースの正規化フローのアーキテクチャは結合モデルよりも柔軟であるため、近年はResNetベースの正規化フローが広く研究されている。 アーキテクチャの柔軟性にもかかわらず、現在のresnetベースのモデルは制約付きリプシッツ定数に苦しむことがよく知られている。 本稿では,単調作用素を用いたリプシッツ定数の問題を克服するための単調定式法を提案し,詳細な理論解析を行う。 さらに,勾配流を改善するために,CPila (Concatenated Pila) と呼ばれる活性化関数を構築した。 得られたモデルであるモノトンフローは、複数の密度推定ベンチマーク(mnist、cifar-10、imagenet32、imagenet64)において優れた性能を示す。 コードはhttps://github.com/mlvlab/MonotoneFlowsで入手できる。

Normalizing flows model probability distributions by learning invertible transformations that transfer a simple distribution into complex distributions. Since the architecture of ResNet-based normalizing flows is more flexible than that of coupling-based models, ResNet-based normalizing flows have been widely studied in recent years. Despite their architectural flexibility, it is well-known that the current ResNet-based models suffer from constrained Lipschitz constants. In this paper, we propose the monotone formulation to overcome the issue of the Lipschitz constants using monotone operators and provide an in-depth theoretical analysis. Furthermore, we construct an activation function called Concatenated Pila (CPila) to improve gradient flow. The resulting model, Monotone Flows, exhibits an excellent performance on multiple density estimation benchmarks (MNIST, CIFAR-10, ImageNet32, ImageNet64). Code is available at https://github.com/mlvlab/MonotoneFlows.
翻訳日:2022-10-18 20:02:57 公開日:2022-10-15
# ラベル相関グリッドによるラベル分布学習

Label distribution learning via label correlation grid ( http://arxiv.org/abs/2210.08184v1 )

ライセンス: Link先を確認
Qimeng Guo, Zhuoran Zheng, Xiuyi Jia, Liancheng Xu(参考訳) ラベル分布学習は、ラベル分布を介してインスタンスのポリセミーを特徴付けることができる。 しかし, 人工的・環境的要因によるラベル分布データを処理する場合には, ラベル空間にノイズや不確実性が生じうる。 この問題を緩和するために,ラベル関係の不確かさをモデル化する \textbf{l}abel \textbf{c}orrelation \textbf{g}rid (lcg) を提案する。 具体的には,ラベル間の関係を表現するためのトレーニングセット内のラベル空間の共分散行列を計算し,共分散行列の各要素に対する情報分布(ガウス分布関数)をモデル化してLCGを得る。 最後に,ネットワークはLCGを学習し,各インスタンスのラベル分布を正確に推定する。 さらに,モデル学習過程における正規化項としてラベル分布投影アルゴリズムを提案する。 大規模実験により,本手法の有効性が検証された。

Label distribution learning can characterize the polysemy of an instance through label distributions. However, some noise and uncertainty may be introduced into the label space when processing label distribution data due to artificial or environmental factors. To alleviate this problem, we propose a \textbf{L}abel \textbf{C}orrelation \textbf{G}rid (LCG) to model the uncertainty of label relationships. Specifically, we compute a covariance matrix for the label space in the training set to represent the relationships between labels, then model the information distribution (Gaussian distribution function) for each element in the covariance matrix to obtain an LCG. Finally, our network learns the LCG to accurately estimate the label distribution for each instance. In addition, we propose a label distribution projection algorithm as a regularization term in the model training process. Extensive experiments verify the effectiveness of our method on several real benchmarks.
翻訳日:2022-10-18 20:02:43 公開日:2022-10-15
# HP-GMN:異種グラフのためのグラフメモリネットワーク

HP-GMN: Graph Memory Networks for Heterophilous Graphs ( http://arxiv.org/abs/2210.08195v1 )

ライセンス: Link先を確認
Junjie Xu, Enyan Dai, Xiang Zhang, Suhang Wang(参考訳) グラフニューラルネットワーク(GNN)は、様々なグラフ問題において大きな成功を収めている。 しかし、ほとんどのGNNは、同じラベルを持つノードがグラフで接続されるホモフィリー仮定に基づくメッセージパッシングニューラルネットワーク(MPNN)である。 実世界の問題は、異なるラベルを持つノードがグラフで接続される異種問題をもたらす。 MPNNは、異なる分布からの情報を混在させ、グローバルなパターンを捉えるのが得意ではないため、異種問題に対処できない。 そこで本論文ではヘテロ親和性グラフ(HP-GMN)を用いた新しいグラフメモリネットワークモデルについて検討する。 hp-gmnでは、ローカル情報とグローバルパターンがローカル統計とメモリによって学習され、予測が容易になる。 さらに,記憶がグローバル情報を学ぶのに役立つ正規化項を提案する。 本手法がホモフィラスグラフとヘテロフィラスグラフの両方において最先端のパフォーマンスを実現することを示すために,広範な実験を行った。

Graph neural networks (GNNs) have achieved great success in various graph problems. However, most GNNs are Message Passing Neural Networks (MPNNs) based on the homophily assumption, where nodes with the same label are connected in graphs. Real-world problems bring us heterophily problems, where nodes with different labels are connected in graphs. MPNNs fail to address the heterophily problem because they mix information from different distributions and are not good at capturing global patterns. Therefore, we investigate a novel Graph Memory Networks model on Heterophilous Graphs (HP-GMN) to the heterophily problem in this paper. In HP-GMN, local information and global patterns are learned by local statistics and the memory to facilitate the prediction. We further propose regularization terms to help the memory learn global information. We conduct extensive experiments to show that our method achieves state-of-the-art performance on both homophilous and heterophilous graphs.
翻訳日:2022-10-18 20:02:26 公開日:2022-10-15
# フェイクニュース検出のための畳み込みニューラルネットワークとディープニューラルネットワークの組み合わせ

Combination Of Convolution Neural Networks And Deep Neural Networks For Fake News Detection ( http://arxiv.org/abs/2210.08331v1 )

ライセンス: Link先を確認
Zainab A. Jawad, Ahmed J. Obaid(参考訳) 現在、人々はソーシャルメディアで最新のニュースをフォローするのが好まれており、安価で簡単にアクセスでき、素早く普及している。 しかし、故意に偽情報を含む偽ニュースや信頼性の低い低品質ニュースを広めることができる。 偽ニュースの拡散は人や社会に悪影響を及ぼす可能性がある。 このような問題の深刻さを考えると、研究者たちは偽ニュースが出版前に偽ニュースを検知できるシステムを設計するために、偽ニュースが示す可能性のあるパターンや特徴を特定するために最善を尽くした。 本稿では,フェイクニュースチャレンジステージ#1(FNC-1)について述べるとともに,FNC-1データセットを用いたフェイクニュース検出システムの構築に向けた競争的試みの概要について述べる。 提案モデルはfnc-1データセットを用いて評価された。 競合するデータセットはオープンな問題であり、世界中の課題だと考えられている。 このシステムの手順は、ヘッドラインとボディテキスト列のテキストを異なる自然言語処理技術で処理することを意味する。 その後, 肘切り法を用いて抽出した特徴量を低減し, 軟質コサイン類似法を用いて各ペア間の類似性を求める。 新機能は、CNNとDNNのディープラーニングアプローチに組み込まれている。 提案システムは,不一致カテゴリを除くすべてのカテゴリを高精度に検出する。 その結果、システムは84.6パーセントの精度を達成し、このデータセットに関する他の競合研究に基づいて第2位に分類した。

Nowadays, People prefer to follow the latest news on social media, as it is cheap, easily accessible, and quickly disseminated. However, it can spread fake or unreliable, low-quality news that intentionally contains false information. The spread of fake news can have a negative effect on people and society. Given the seriousness of such a problem, researchers did their best to identify patterns and characteristics that fake news may exhibit to design a system that can detect fake news before publishing. In this paper, we have described the Fake News Challenge stage #1 (FNC-1) dataset and given an overview of the competitive attempts to build a fake news detection system using the FNC-1 dataset. The proposed model was evaluated with the FNC-1 dataset. A competitive dataset is considered an open problem and a challenge worldwide. This system's procedure implies processing the text in the headline and body text columns with different natural language processing techniques. After that, the extracted features are reduced using the elbow truncated method, finding the similarity between each pair using the soft cosine similarity method. The new feature is entered into CNN and DNN deep learning approaches. The proposed system detects all the categories with high accuracy except the disagree category. As a result, the system achieves up to 84.6 % accuracy, classifying it as the second ranking based on other competitive studies regarding this dataset.
翻訳日:2022-10-18 19:53:49 公開日:2022-10-15
# LAD:良性発作性頭位めまい症診断のためのハイブリッドディープラーニングシステム

LAD: A Hybrid Deep Learning System for Benign Paroxysmal Positional Vertigo Disorders Diagnostic ( http://arxiv.org/abs/2210.08282v1 )

ライセンス: Link先を確認
Trung Xuan Pham, Jin Woong Choi, Rusty John Lloyd Mina, Thanh Nguyen, Sultan Rizky Madjid, Chang Dong Yoo(参考訳) 本稿では,医療分野の医師がBPPV(Benign Paroxysmal Positional Vertigo)障害を効果的に診断することを目的としたハイブリッド深層学習システム「Look and Diagnose(LAD)」を紹介する。 ジックスハルパイクおよび側頭部回旋試験における患者の身体姿勢を考慮し、両眼の視覚情報をキャプチャしてladに供給し、患者が抱える可能性のある6つの疾患のうちの1つに分析・分類する。 The proposed system consists of two streams: (1) an RNN-based stream that takes raw RGB images of both eyes to extract visual features and optical flow of each eye followed by ternary classification to determine left/right posterior canal (PC) or other; and (2) pupil detector stream that detects the pupil when it is classified as Non-PC and classifies the direction and strength of the beating to categorize the Non-PC types into the remaining four classes: Geotropic BPPV (left and right) and Apogeotropic BPPV (left and right). 以上の結果より, BPPV障害を6種類の疾患に分類し, 検証セットで91%の精度で評価できることがわかった。 提案手法は,後門管疾患の93%,地すべり・ポジオトロピック障害の95%の精度で疾患の分類を成功させ,医療データを用いた研究の方向性を明らかにした。

Herein, we introduce "Look and Diagnose" (LAD), a hybrid deep learning-based system that aims to support doctors in the medical field in diagnosing effectively the Benign Paroxysmal Positional Vertigo (BPPV) disorder. Given the body postures of the patient in the Dix-Hallpike and lateral head turns test, the visual information of both eyes is captured and fed into LAD for analyzing and classifying into one of six possible disorders the patient might be suffering from. The proposed system consists of two streams: (1) an RNN-based stream that takes raw RGB images of both eyes to extract visual features and optical flow of each eye followed by ternary classification to determine left/right posterior canal (PC) or other; and (2) pupil detector stream that detects the pupil when it is classified as Non-PC and classifies the direction and strength of the beating to categorize the Non-PC types into the remaining four classes: Geotropic BPPV (left and right) and Apogeotropic BPPV (left and right). Experimental results show that with the patient's body postures, the system can accurately classify given BPPV disorder into the six types of disorders with an accuracy of 91% on the validation set. The proposed method can successfully classify disorders with an accuracy of 93% for the Posterior Canal disorder and 95% for the Geotropic and Apogeotropic disorder, paving a potential direction for research with the medical data.
翻訳日:2022-10-18 19:12:30 公開日:2022-10-15
# 変圧器による次元性低減

Transformer-based dimensionality reduction ( http://arxiv.org/abs/2210.08288v1 )

ライセンス: Link先を確認
Ruisheng Ran, Tianyu Gao, Bin Fang(参考訳) 近年、Transformerは非常に人気があり、機械学習(ML)、自然言語処理(NLP)、コンピュータビジョン(CV)などの分野で重要な役割を果たしている。 本稿では、視覚変換器(ViT)モデルに基づいて、新しい次元還元(DR)モデル、Transformer-DRを提案する。 データ可視化, 画像再構成, 顔認識から, 次元減少後のTransformer-DRの表現能力について検討し, 既存のDR法とTransformer-DR法の違いを理解するための代表DR法と比較した。 実験の結果, Transformer-DR は有効次元還元法であることがわかった。

Recently, Transformer is much popular and plays an important role in the fields of Machine Learning (ML), Natural Language Processing (NLP), and Computer Vision (CV), etc. In this paper, based on the Vision Transformer (ViT) model, a new dimensionality reduction (DR) model is proposed, named Transformer-DR. From data visualization, image reconstruction and face recognition, the representation ability of Transformer-DR after dimensionality reduction is studied, and it is compared with some representative DR methods to understand the difference between Transformer-DR and existing DR methods. The experimental results show that Transformer-DR is an effective dimensionality reduction method.
翻訳日:2022-10-18 19:12:07 公開日:2022-10-15
# 一般化Few-shot Semantic Segmentationの予測校正

Prediction Calibration for Generalized Few-shot Semantic Segmentation ( http://arxiv.org/abs/2210.08290v1 )

ライセンス: Link先を確認
Zhihe Lu, Sen He, Da Li, Yi-Zhe Song, Tao Xiang(参考訳) 汎用Few-shot Semantic Segmentation (GFSS) は、各画像ピクセルを、豊富なトレーニング例を持つベースクラスまたは新しいクラスに分割することを目的としている。 セマンティクスセグメンテーションfssは、セグメンテーションの新規クラスのみに限定されているため、gfssは実用的とはいえ、あまり研究されていない。 既存のGFSSへのアプローチは、新しく訓練された新しいクラス分類器と事前訓練されたベースクラス分類器を組み合わせて新しい分類器を形成する分類器パラメータ融合に基づいている。 トレーニングデータはベースクラスに支配されているため、このアプローチは必然的にベースクラスに偏っている。 本研究では,この問題に対処する新しい予測校正ネットワークPCNを提案する。 分類器パラメータを融合させる代わりに、基底と新しい分類器によって生成されるスコアを分離する。 融合スコアがベースクラスまたは新規クラスのいずれかに偏らないようにするため、新しいトランスベースキャリブレーションモジュールを導入する。 低レベル特徴は高レベル特徴よりも入力画像のエッジ情報を検出するのに有用であることが知られている。 そこで我々は,マルチレベル機能を用いて分類器の最終予測を導くクロスアテンションモジュールを構築する。 しかし、トランスフォーマーは計算的に要求される。 重要な点として,提案するクロスアテンションモジュールのトレーニングを画素レベルで扱いやすくするため,このモジュールは特徴中心のクロス共分散に基づいて設計され,推定時に一般化するようにエピソドリックに訓練されている。 PASCAL-$5^{i}$およびCOCO-$20^{i}$に対する大規模な実験は、PCNが最先端の代替品よりも大きなマージンで優れていることを示している。

Generalized Few-shot Semantic Segmentation (GFSS) aims to segment each image pixel into either base classes with abundant training examples or novel classes with only a handful of (e.g., 1-5) training images per class. Compared to the widely studied Few-shot Semantic Segmentation FSS, which is limited to segmenting novel classes only, GFSS is much under-studied despite being more practical. Existing approach to GFSS is based on classifier parameter fusion whereby a newly trained novel class classifier and a pre-trained base class classifier are combined to form a new classifier. As the training data is dominated by base classes, this approach is inevitably biased towards the base classes. In this work, we propose a novel Prediction Calibration Network PCN to address this problem. Instead of fusing the classifier parameters, we fuse the scores produced separately by the base and novel classifiers. To ensure that the fused scores are not biased to either the base or novel classes, a new Transformer-based calibration module is introduced. It is known that the lower-level features are useful of detecting edge information in an input image than higher-level features. Thus, we build a cross-attention module that guides the classifier's final prediction using the fused multi-level features. However, transformers are computationally demanding. Crucially, to make the proposed cross-attention module training tractable at the pixel level, this module is designed based on feature-score cross-covariance and episodically trained to be generalizable at inference time. Extensive experiments on PASCAL-$5^{i}$ and COCO-$20^{i}$ show that our PCN outperforms the state-the-the-art alternatives by large margins.
翻訳日:2022-10-18 19:11:55 公開日:2022-10-15
# アダプティブクロスと並列スーパービジョンによる立体内視鏡像のロバスト3次元再構成のための双方向半教師付きデュアルブランチCNN

Bidirectional Semi-supervised Dual-branch CNN for Robust 3D Reconstruction of Stereo Endoscopic Images via Adaptive Cross and Parallel Supervisions ( http://arxiv.org/abs/2210.08291v1 )

ライセンス: Link先を確認
Hongkuan Shi, Zhiwei Wang, Ying Zhou, Dun Li, Xin Yang, Qiang Li(参考訳) 教師-学生ネットワークによる半教師付き学習は、いくつかのラベル付きサンプルでモデルを効果的に訓練することができる。 学生モデルでは、教師の余分なラベル付きデータの予測から知識を抽出することができる。 しかし、このような知識の流れは通常一方向であり、パフォーマンスは教師モデルの品質に弱い。 本稿では,教師と学生の両方の役割を兼ね備えた,新しい双方向学習方式を提案することによって,ステレオ内視鏡画像の3次元再構築を活発に行うことを目的とする。 具体的には,二重分岐畳み込みニューラルネットワークを学習するために,適応クロス・スーパービジョン(acs)と適応パラレル・スーパービジョン(aps)という2つの自己スーパービジョンを導入する。 2つの枝は同じ位置で2つの異なる相違確率分布を予測し、その相違値として期待を出力する。 学習した知識は、分岐方向(ACSにおける分散誘導)と平行方向(APSにおける分散誘導)の2つの方向に沿って流れている。 さらに、各ブランチは、提供された監督を動的に洗練するための信頼性も学習する。 ACSでは、予測された相違が一様分布に軟化され、信頼性が低ければ低いほど分布は滑らかになる。 APSでは、信頼性の低い人の体重を下げることで誤った予測を抑える。 適応的な双方向学習では、2つのブランチは互いによく調整された監督を享受し、最終的には一貫したより正確な格差推定に収束する。 3つの公開データセットの実験結果は、平均的な相違誤差を少なくとも9.76%減少させた他の最先端技術よりも優れたパフォーマンスを示している。

Semi-supervised learning via teacher-student network can train a model effectively on a few labeled samples. It enables a student model to distill knowledge from the teacher's predictions of extra unlabeled data. However, such knowledge flow is typically unidirectional, having the performance vulnerable to the quality of teacher model. In this paper, we seek to robust 3D reconstruction of stereo endoscopic images by proposing a novel fashion of bidirectional learning between two learners, each of which can play both roles of teacher and student concurrently. Specifically, we introduce two self-supervisions, i.e., Adaptive Cross Supervision (ACS) and Adaptive Parallel Supervision (APS), to learn a dual-branch convolutional neural network. The two branches predict two different disparity probability distributions for the same position, and output their expectations as disparity values. The learned knowledge flows across branches along two directions: a cross direction (disparity guides distribution in ACS) and a parallel direction (disparity guides disparity in APS). Moreover, each branch also learns confidences to dynamically refine its provided supervisions. In ACS, the predicted disparity is softened into a unimodal distribution, and the lower the confidence, the smoother the distribution. In APS, the incorrect predictions are suppressed by lowering the weights of those with low confidence. With the adaptive bidirectional learning, the two branches enjoy well-tuned supervisions from each other, and eventually converge on a consistent and more accurate disparity estimation. The experimental results on three public datasets demonstrate our superior performance over other state-of-the-arts with a decrease of averaged disparity error by at least 9.76%.
翻訳日:2022-10-18 19:11:25 公開日:2022-10-15
# PointNeuron: 幾何学と点雲のトポロジー学習による3次元ニューロン再構成

PointNeuron: 3D Neuron Reconstruction via Geometry and Topology Learning of Point Clouds ( http://arxiv.org/abs/2210.08305v1 )

ライセンス: Link先を確認
Runkai Zhao, Heng Wang, Chaoyi Zhang, Weidong Cai(参考訳) 3次元顕微鏡画像からのデジタルニューロン再構築は、脳のコネクトロミクスとニューロン形態の研究に欠かせない技術である。 既存の再構成フレームワークでは、トレーシングアルゴリズムを適用する前に、畳み込みベースのセグメンテーションネットワークを使用して、ノイズの多い背景からニューロンを分割する。 追跡結果は、原画像の品質とセグメンテーション精度に敏感である。 本稿では,3次元ニューロン再構成のための新しい枠組みを提案する。 私たちの重要なアイデアは、点雲の幾何学的表現力を使って、ニューロンの内部構造情報をより深く探求することです。 提案するフレームワークでは,1つのグラフ畳み込みネットワークを用いてニューラルスケルトン点を予測し,もう1つはこれらの点の接続性を生成する。 予測点座標,半径,接続の解釈により,最終的にターゲットSWCファイルを生成する。 bigneuronプロジェクトからjanelia-flyデータセットで評価した結果,本フレームワークが競合ニューロンの再構成性能を発揮できることが確認された。 ポイントクラウドの幾何およびトポロジー学習は,心臓表面再構成などの3次元医用画像解析にさらに有用である。

Digital neuron reconstruction from 3D microscopy images is an essential technique for investigating brain connectomics and neuron morphology. Existing reconstruction frameworks use convolution-based segmentation networks to partition the neuron from noisy backgrounds before applying the tracing algorithm. The tracing results are sensitive to the raw image quality and segmentation accuracy. In this paper, we propose a novel framework for 3D neuron reconstruction. Our key idea is to use the geometric representation power of the point cloud to better explore the intrinsic structural information of neurons. Our proposed framework adopts one graph convolutional network to predict the neural skeleton points and another one to produce the connectivity of these points. We finally generate the target SWC file through the interpretation of the predicted point coordinates, radius, and connections. Evaluated on the Janelia-Fly dataset from the BigNeuron project, we show that our framework achieves competitive neuron reconstruction performance. Our geometry and topology learning of point clouds could further benefit 3D medical image analysis, such as cardiac surface reconstruction.
翻訳日:2022-10-18 19:10:57 公開日:2022-10-15
# dprotonet:推論モジュールと説明モジュールを分離することで、ニューラルネットワークの精度と解釈性が向上する

DProtoNet: Decoupling the inference module and the explanation module enables neural networks to have better accuracy and interpretability ( http://arxiv.org/abs/2210.08336v1 )

ライセンス: Link先を確認
Yitao Peng, Yihang Liu, Longzhen Yang, Lianghua He(参考訳) ニューラルネットワークによる決定の解釈は、最近の研究の焦点である。 前述した手法では、ニューラルネットワークのアーキテクチャを変更することで、判断する決定要素を見つけ、推論プロセスの解釈可能性を持つ人間の推論プロセスをシミュレートする。 特定の解釈可能なアーキテクチャはネットワークの適合空間を制限し、ネットワークの分類性能の低下、不安定な収束、一般的な解釈可能性をもたらす。 本稿では,DProtoNet (Decoupling Prototypeal Network)を提案し,特徴マスクを用いてニューラルネットワークの決定基盤を記憶し,特徴マスク保持の決定基盤を説明するためにMultiple Dynamic Masks (MDM) を用いる。 解釈モジュールからニューラルネットワーク推論モジュールを分離し、解釈可能なネットワークの特定のアーキテクチャ上の制限を取り除くことにより、ネットワークの決定アーキテクチャが元のネットワークアーキテクチャを可能な限り保持し、ニューラルネットワークをより表現力良くし、解釈可能性を大幅に改善する。 説明ネットワークの分類性能と解釈可能性 本稿では,1つの画像のプロトタイプ学習を,複数の画像のプロトタイプ学習に置き換えることを提案する。プロトタイプは堅牢化され,ネットワークトレーニングの収束速度が向上し,学習プロセス中にネットワークの精度をより安定させる。 複数のデータセットでテストし、dprotonetは、最近の高度な解釈可能なネットワークモデルの精度を5%から10%向上させ、その分類性能は、解釈不能なバックボーンネットワークと同等である。 また、解釈性能における芸術の水準も達成している。

The interpretation of decisions made by neural networks is the focus of recent research. In the previous method, by modifying the architecture of the neural network, the network simulates the human reasoning process, that is, by finding the decision elements to make decisions, so that the network has the interpretability of the reasoning process. The specific interpretable architecture will limit the fitting space of the network, resulting in a decrease in the classification performance of the network, unstable convergence, and general interpretability. We propose DProtoNet (Decoupling Prototypical network), it stores the decision basis of the neural network by using feature masks, and it uses Multiple Dynamic Masks (MDM) to explain the decision basis for feature mask retention. It decouples the neural network inference module from the interpretation module, and removes the specific architectural limitations of the interpretable network, so that the decision-making architecture of the network retains the original network architecture as much as possible, making the neural network more expressive, and greatly improving the interpretability. Classification performance and interpretability of explanatory networks. We propose to replace the prototype learning of a single image with the prototype learning of multiple images, which makes the prototype robust, improves the convergence speed of network training, and makes the accuracy of the network more stable during the learning process. We test on multiple datasets, DProtoNet can improve the accuracy of recent advanced interpretable network models by 5% to 10%, and its classification performance is comparable to that of backbone networks without interpretability. It also achieves the state of the art in interpretability performance.
翻訳日:2022-10-18 19:10:40 公開日:2022-10-15
# 意味的ビデオモーメントの大規模検索:新しいタスクとベースライン

Semantic Video Moments Retrieval at Scale: A New Task and a Baseline ( http://arxiv.org/abs/2210.08389v1 )

ライセンス: Link先を確認
Na Li(参考訳) ビデオ全体の代わりに関連ビデオクリップを取得することで検索作業の節約の必要性が高まっていることから,ビデオクリップの再ローカライズに伴う関連ビデオの検索を目的とした,Semantic Video Moments Retrieval at Scale (SVMR)というタスクを提案する。 ビデオ検索とビデオ再ローカライゼーションの単純な組み合わせではなく、いくつかの重要な側面から、我々のタスクはより困難である。 第1段階では、SVMRはその事実を考慮しなければなりません。 1)ポジティブな候補の長いビデオには、意味的に意味のある無関係なクリップがたくさん含まれます。 2)2つのクエリに関連するクリップを含む場合,長いビデオは2つのまったく異なるクエリクリップに対して陽性となる。 第2の再ローカライズステージは、既存のビデオ再ローカライズタスクとは異なる仮定を示しており、参照ビデオはクエリクリップに対応する意味的に類似したセグメントを含む必要があると仮定している。 その代わり、われわれのシナリオでは、検索したロングビデオは第1ステージの不正確さのため、偽陽性となる可能性がある。 これらの課題に対処するために,我々は,候補ビデオからのターゲットクリップを再ローカライズするための,新たな注意に基づくクエリ参照セマンティクスアライメントフレームワークを提案する。 さらに,市販のActivityNet-1.3とHACSからより適切なベンチマークデータセットを構築し,SVMRモデルの徹底的な評価を行う。 提案手法がいくつかの参照解よりも優れていることを示すために,広範な実験を行った。

Motivated by the increasing need of saving search effort by obtaining relevant video clips instead of whole videos, we propose a new task, named Semantic Video Moments Retrieval at scale (SVMR), which aims at finding relevant videos coupled with re-localizing the video clips in them. Instead of a simple combination of video retrieval and video re-localization, our task is more challenging because of several essential aspects. In the 1st stage, our SVMR should take into account the fact that: 1) a positive candidate long video can contain plenty of irrelevant clips which are also semantically meaningful. 2) a long video can be positive to two totally different query clips if it contains clips relevant to two queries. The 2nd re-localization stage also exhibits different assumptions from existing video re-localization tasks, which hold an assumption that the reference video must contain semantically similar segments corresponding to the query clip. Instead, in our scenario, the retrieved long video can be a false positive one due to the inaccuracy of the first stage. To address these challenges, we propose our two-stage baseline solution of candidate videos retrieval followed by a novel attention-based query-reference semantically alignment framework to re-localize target clips from candidate videos. Furthermore, we build two more appropriate benchmark datasets from the off-the-shelf ActivityNet-1.3 and HACS for a thorough evaluation of SVMR models. Extensive experiments are carried out to show that our solution outperforms several reference solutions.
翻訳日:2022-10-18 19:10:14 公開日:2022-10-15
# 10ビットのビデオ: 効率とプライバシーのためのビデオQA

Video in 10 Bits: Few-Bit VideoQA for Efficiency and Privacy ( http://arxiv.org/abs/2210.08391v1 )

ライセンス: Link先を確認
Shiyuan Huang, Robinson Piramuthu, Shih-Fu Chang, Gunnar A. Sigurdsson(参考訳) Video Question Answering (VideoQA)では、ビデオに関する一般的な質問に答えるには、その視覚的情報が必要である。 しかし、ビデオQAタスクとは関係なく、ビデオには冗長な情報が含まれることが多い。 例えば、タスクが"ビデオの中で誰かが笑っているか"のような質問に答えるだけなら、他のすべての情報は破棄できる。 本稿では,ビデオ情報の少ないビット(例えば10ビット)でビデオqaを実現することを目的とした,新たな数ビットビデオqa問題を導入することで,ビデオqaを行うために必要なビット数について検討する。 この問題を解決するために,タスク固有の特徴圧縮手法を提案する。 具体的には、タスク固有の小さな機能を10ビット以内で抽出することを学ぶビデオQAモデルにFeatComp(FeatComp)を挿入し、ある種の疑問に答えるのに最適である。 我々はMPEG4エンコードされたビデオよりも10,000倍以上のストレージ効率と,通常の浮動小数点関数よりも1,000倍のストレージ効率を実証した。 最後に、学習した小さな特徴を解析し、タスク固有の情報の大半を排除できることを実証し、どのような情報が保存されているかを視覚化するビットアクティベーションマップを導入する。 これにより、マシンラーニングコミュニティに影響を与える可能性のある機能インバージョン技術に対して、k匿名性と堅牢性を提供することによって、データのプライバシリスクが低減される。

In Video Question Answering (VideoQA), answering general questions about a video requires its visual information. Yet, video often contains redundant information irrelevant to the VideoQA task. For example, if the task is only to answer questions similar to "Is someone laughing in the video?", then all other information can be discarded. This paper investigates how many bits are really needed from the video in order to do VideoQA by introducing a novel Few-Bit VideoQA problem, where the goal is to accomplish VideoQA with few bits of video information (e.g., 10 bits). We propose a simple yet effective task-specific feature compression approach to solve this problem. Specifically, we insert a lightweight Feature Compression Module (FeatComp) into a VideoQA model which learns to extract task-specific tiny features as little as 10 bits, which are optimal for answering certain types of questions. We demonstrate more than 100,000-fold storage efficiency over MPEG4-encoded videos and 1,000-fold over regular floating point features, with just 2.0-6.6% absolute loss in accuracy, which is a surprising and novel finding. Finally, we analyze what the learned tiny features capture and demonstrate that they have eliminated most of the non-task-specific information, and introduce a Bit Activation Map to visualize what information is being stored. This decreases the privacy risk of data by providing k-anonymity and robustness to feature-inversion techniques, which can influence the machine learning community, allowing us to store data with privacy guarantees while still performing the task effectively.
翻訳日:2022-10-18 19:09:49 公開日:2022-10-15
# mRI:mmWave, RGB-D, 慣性センサを用いたマルチモーダル3次元人物位置推定データセット

mRI: Multi-modal 3D Human Pose Estimation Dataset using mmWave, RGB-D, and Inertial Sensors ( http://arxiv.org/abs/2210.08394v1 )

ライセンス: Link先を確認
Sizhe An, Yin Li, Umit Ogras(参考訳) HPE(Human pose Estimation)としても知られる3次元人のポーズと動きを推定する能力は、遠隔リハビリテーショントレーニングなどの在宅健康モニタリングに多くの応用を可能にする。 RGBカメラ、深度センサー、ミリ波(mmWave)レーダー、ウェアラブル慣性センサーなど、いくつかの可能なソリューションが登場している。 HPEのデータセットとベンチマークに関するこれまでの取り組みにもかかわらず、複数のモダリティを活用して、ホームベースのヘルス監視に重点を置いているデータセットはほとんどない。 このギャップを埋めるために,mmWave, RGB-D, Inertial Sensorsを用いたマルチモーダルな3次元ポーズ推定データセットであるmRIを提案する。 データセットは,リハビリテーション演習を行う20名から160k以上の同期フレームで構成され,hpeとアクション検出のベンチマークをサポートしている。 データセットを使って広範な実験を行い、それぞれのモダリティの強さを記述します。 我々は、mRIのリリースが、ポーズ推定、マルチモーダル学習、行動理解において研究を触媒し、より重要なホームベースの健康モニタリングの応用を促進することを願っている。

The ability to estimate 3D human body pose and movement, also known as human pose estimation (HPE), enables many applications for home-based health monitoring, such as remote rehabilitation training. Several possible solutions have emerged using sensors ranging from RGB cameras, depth sensors, millimeter-Wave (mmWave) radars, and wearable inertial sensors. Despite previous efforts on datasets and benchmarks for HPE, few dataset exploits multiple modalities and focuses on home-based health monitoring. To bridge the gap, we present mRI, a multi-modal 3D human pose estimation dataset with mmWave, RGB-D, and Inertial Sensors. Our dataset consists of over 160k synchronized frames from 20 subjects performing rehabilitation exercises and supports the benchmarks of HPE and action detection. We perform extensive experiments using our dataset and delineate the strength of each modality. We hope that the release of mRI can catalyze the research in pose estimation, multi-modal learning, and action understanding, and more importantly facilitate the applications of home-based health monitoring.
翻訳日:2022-10-18 19:09:21 公開日:2022-10-15
# 適応型ニューラルネットワークのダイナミクス・アウェア・アドバーサリアン攻撃

Dynamics-aware Adversarial Attack of Adaptive Neural Networks ( http://arxiv.org/abs/2210.08159v1 )

ライセンス: Link先を確認
An Tao and Yueqi Duan and Yingqi Wang and Jiwen Lu and Jie Zhou(参考訳) 本稿では,適応型ニューラルネットワークの動的対向攻撃問題について検討する。 既存の攻撃アルゴリズムの多くは、基本的な前提の下で設計されている -- ネットワークアーキテクチャは攻撃プロセスを通じて固定されている。 しかし、この仮定は、計算効率を改善するために入力に基づいて不要な実行単位を適応的に非活性化する、最近提案された多くの適応型ニューラルネットワークには当てはまらない。 結果として、遅延勾配の深刻な問題が発生し、アーキテクチャ変更後の現在のステップでの学習された攻撃が非効率になる。 この問題に対処するため,本研究ではリード勾配法(lgm)を提案し,遅延勾配の有意な影響を示す。 より具体的には、ネットワークアーキテクチャの潜在的な動的変化を認識するために勾配を再構成し、ネットワークアーキテクチャが動的に変化するときの動的手法よりも、学習した攻撃が次のステップを「リード」するようにします。 2次元画像と3次元点雲の両方に対する適応ニューラルネットワークの代表型に関する広範囲な実験により、我々のLGMは動的無意識攻撃法と比較して、優れた対角攻撃性能を達成できた。

In this paper, we investigate the dynamics-aware adversarial attack problem of adaptive neural networks. Most existing adversarial attack algorithms are designed under a basic assumption -- the network architecture is fixed throughout the attack process. However, this assumption does not hold for many recently proposed adaptive neural networks, which adaptively deactivate unnecessary execution units based on inputs to improve computational efficiency. It results in a serious issue of lagged gradient, making the learned attack at the current step ineffective due to the architecture change afterward. To address this issue, we propose a Leaded Gradient Method (LGM) and show the significant effects of the lagged gradient. More specifically, we reformulate the gradients to be aware of the potential dynamic changes of network architectures, so that the learned attack better "leads" the next step than the dynamics-unaware methods when network architecture changes dynamically. Extensive experiments on representative types of adaptive neural networks for both 2D images and 3D point clouds show that our LGM achieves impressive adversarial attack performance compared with the dynamic-unaware attack methods.
翻訳日:2022-10-18 19:02:09 公開日:2022-10-15
# ブラインド顔復元のための二重記憶辞書の学習

Learning Dual Memory Dictionaries for Blind Face Restoration ( http://arxiv.org/abs/2210.08160v1 )

ライセンス: Link先を確認
Xiaoming Li, Shiguang Zhang, Shangchen Zhou, Lei Zhang, Wangmeng Zuo(参考訳) ブラインドフェイス修復の性能を向上させるため、最近の研究は主に2つの側面、すなわちジェネリックと特定の修復を別々に扱う。 特に、ジェネリック修復は、視覚障害者の回復を学習するときに直接cnnのマッピングの能力が限られているため、実世界の劣化した観察に一般化できない、一方、アイデンティティ特有の詳細を活用できないという、一般的な顔構造を通して結果を復元しようとする試みである。 それとは対照的に、特定の復元は、適切な参照の要求がアプリケーションシナリオを厳しく制限する同じアイデンティティの参照からid機能を取り入れることを目的としている。 一般に、ブラインド修復のフォトリアリスティックな性能を改善し、単一の統一モデルでジェネリックおよび特定の修復シナリオを適応的に処理することは困難かつ難解な作業である。 そこで本稿では,低画質画像から高画質画像へのマッピングを暗黙的に学習する代わりに,DMDNetを2つの辞書で明示的に記憶する手法を提案する。 まず、ジェネリックディクショナリは、任意のアイデンティティの高品質な画像から一般的な顔前処理を学習し、特定のディクショナリは、個々に個々に識別長の特徴を記憶する。 第二に、劣化した入力を特定の参照の有無に関わらず処理するために、辞書変換モジュールは、入力特徴に融合した二重辞書から関連する詳細を読み取るように提案する。 最後に、多スケール辞書を利用して粗大な修復を行う。 さらに、CelebRef-HQと呼ばれる新しい高品質データセットを構築し、高解像度空間における特定の顔復元の探索を促進する。

To improve the performance of blind face restoration, recent works mainly treat the two aspects, i.e., generic and specific restoration, separately. In particular, generic restoration attempts to restore the results through general facial structure prior, while on the one hand, cannot generalize to real-world degraded observations due to the limited capability of direct CNNs' mappings in learning blind restoration, and on the other hand, fails to exploit the identity-specific details. On the contrary, specific restoration aims to incorporate the identity features from the reference of the same identity, in which the requirement of proper reference severely limits the application scenarios. Generally, it is a challenging and intractable task to improve the photo-realistic performance of blind restoration and adaptively handle the generic and specific restoration scenarios with a single unified model. Instead of implicitly learning the mapping from a low-quality image to its high-quality counterpart, this paper suggests a DMDNet by explicitly memorizing the generic and specific features through dual dictionaries. First, the generic dictionary learns the general facial priors from high-quality images of any identity, while the specific dictionary stores the identity-belonging features for each person individually. Second, to handle the degraded input with or without specific reference, dictionary transform module is suggested to read the relevant details from the dual dictionaries which are subsequently fused into the input features. Finally, multi-scale dictionaries are leveraged to benefit the coarse-to-fine restoration. Moreover, a new high-quality dataset, termed CelebRef-HQ, is constructed to promote the exploration of specific face restoration in the high-resolution space.
翻訳日:2022-10-18 19:01:49 公開日:2022-10-15
# 文書画像修正のための幾何表現学習

Geometric Representation Learning for Document Image Rectification ( http://arxiv.org/abs/2210.08161v1 )

ライセンス: Link先を確認
Hao Feng, Wengang Zhou, Jiajun Deng, Yuechen Wang and Houqiang Li(参考訳) 文書画像の補正では、歪んだ画像と基底真理の間にはリッチな幾何学的制約が存在する。 しかし、そのような幾何的制約は、修正性能を制限する既存の高度な解では無視される。 この目的のために、明示的な幾何学的表現を導入して文書画像の修正を行うDocGeoNetを提案する。 技術的には、文書画像の典型的な2つの属性が、提案した幾何学的表現学習、すなわち3次元形状とテキストラインに関与している。 私たちのモチベーションは、3次元形状が局所構造を見下ろしながら歪んだ文書画像の修正にグローバルなアンウォープ手段を提供するという洞察から生まれます。 一方、テキストラインは局所パターンに対する明示的な幾何学的制約を相補的に提供する。 学習された幾何学的表現は、歪んだ画像と地上の真実を効果的に橋渡しする。 我々のフレームワークの有効性を示し、DocUNetベンチマークデータセットと提案したDIR300テストセットの両方における最先端手法よりもDocGeoNetの方が優れていることを示す。 コードはhttps://github.com/fh2019ustc/DocGeoNetで入手できる。

In document image rectification, there exist rich geometric constraints between the distorted image and the ground truth one. However, such geometric constraints are largely ignored in existing advanced solutions, which limits the rectification performance. To this end, we present DocGeoNet for document image rectification by introducing explicit geometric representation. Technically, two typical attributes of the document image are involved in the proposed geometric representation learning, i.e., 3D shape and textlines. Our motivation arises from the insight that 3D shape provides global unwarping cues for rectifying a distorted document image while overlooking the local structure. On the other hand, textlines complementarily provide explicit geometric constraints for local patterns. The learned geometric representation effectively bridges the distorted image and the ground truth one. Extensive experiments show the effectiveness of our framework and demonstrate the superiority of our DocGeoNet over state-of-the-art methods on both the DocUNet Benchmark dataset and our proposed DIR300 test set. The code is available at https://github.com/fh2019ustc/DocGeoNet.
翻訳日:2022-10-18 19:01:20 公開日:2022-10-15
# IBL-NeRF:画像に基づくニューラルラジアンス場の照明定式化

IBL-NeRF: Image-Based Lighting Formulation of Neural Radiance Fields ( http://arxiv.org/abs/2210.08202v1 )

ライセンス: Link先を確認
Changwoon Choi, Juhyeon Kim, Young Min Kim(参考訳) 大規模屋内シーンのニューラル放射場(NeRF)を固有成分に分解するIRB-NeRFを提案する。 NeRFの逆レンダリングに対する従来のアプローチは、暗黙のボリュームを明示的な幾何学のレンダリングパイプラインに適合させ、セグメンテーションされた孤立したオブジェクトのビューを環境照明に近似させる。 対照的に、我々の逆レンダリングは、表面特性に加えて、シーンボリューム内の光の空間的変動を捉えるために、元のNeRF定式化を拡張している。 具体的には、多彩な素材のシーンを、画像ベースのレンダリング、すなわちアルベド、粗さ、表面の正常性、照射性、および予めフィルターされた放射率に分解する。 すべてのコンポーネントは、大規模な一般的なシーンをモデル化可能な、MLPのニューラルイメージとして推論される。 画像に基づくNeRFの定式化を採用することにより,合成画像の視覚的品質と多視点整合性を継承する。 我々は、複雑なオブジェクトレイアウトとライトコンフィグレーションを備えたシーンのパフォーマンスをデモするが、これは以前のどの作業でも処理できない。

We propose IBL-NeRF, which decomposes the neural radiance fields (NeRF) of large-scale indoor scenes into intrinsic components. Previous approaches for the inverse rendering of NeRF transform the implicit volume to fit the rendering pipeline of explicit geometry, and approximate the views of segmented, isolated objects with environment lighting. In contrast, our inverse rendering extends the original NeRF formulation to capture the spatial variation of lighting within the scene volume, in addition to surface properties. Specifically, the scenes of diverse materials are decomposed into intrinsic components for image-based rendering, namely, albedo, roughness, surface normal, irradiance, and prefiltered radiance. All of the components are inferred as neural images from MLP, which can model large-scale general scenes. By adopting the image-based formulation of NeRF, our approach inherits superior visual quality and multi-view consistency for synthesized images. We demonstrate the performance on scenes with complex object layouts and light configurations, which could not be processed in any of the previous works.
翻訳日:2022-10-18 19:01:03 公開日:2022-10-15
# UDoc-GAN:背景光を優先した未使用の文書イルミネーション補正

UDoc-GAN: Unpaired Document Illumination Correction with Background Light Prior ( http://arxiv.org/abs/2210.08216v1 )

ライセンス: Link先を確認
Yonghui Wang, Wengang Zhou, Zhenbo Lu, Houqiang Li(参考訳) モバイルデバイスによってキャプチャされた文書画像は、通常、制御不能な照明によって劣化する。 近年,不均一な文書照明の修正に多くの研究努力が注がれている。 しかし、既存の手法では環境光情報の利用をほとんど考慮せず、通常は劣化や補正された地中画像を含む対のサンプルに頼るが、必ずしもアクセスできない。 そこで本稿では,未確認条件下での文書照明補正問題に対処する最初のフレームワークであるUDoc-GANを提案する。 具体的には、まず文書の環境光の特徴を予測する。 そこで, 環境光のレベルの違いにより, サイクル一貫性制約を再定式化し, 通常の照明領域と異常照明領域の関係を学習する。 提案手法の有効性を証明するため,未確認条件下でDocProjデータセットの広範な実験を行った。 現状の手法と比較して,文字誤り率(CER)と編集距離(ED)の両面で有望な性能を示すとともに,テキスト詳細保存のための質的結果も向上する。 ソースコードはhttps://github.com/harrytea/UDoc-GANで公開されている。

Document images captured by mobile devices are usually degraded by uncontrollable illumination, which hampers the clarity of document content. Recently, a series of research efforts have been devoted to correcting the uneven document illumination. However, existing methods rarely consider the use of ambient light information, and usually rely on paired samples including degraded and the corrected ground-truth images which are not always accessible. To this end, we propose UDoc-GAN, the first framework to address the problem of document illumination correction under the unpaired setting. Specifically, we first predict the ambient light features of the document. Then, according to the characteristics of different level of ambient lights, we re-formulate the cycle consistency constraint to learn the underlying relationship between normal and abnormal illumination domains. To prove the effectiveness of our approach, we conduct extensive experiments on DocProj dataset under the unpaired setting. Compared with the state-of-the-art approaches, our method demonstrates promising performance in terms of character error rate (CER) and edit distance (ED), together with better qualitative results for textual detail preservation. The source code is now publicly available at https://github.com/harrytea/UDoc-GAN.
翻訳日:2022-10-18 19:00:43 公開日:2022-10-15
# 教師なし3次元領域適応のための自己蒸留

Self-Distillation for Unsupervised 3D Domain Adaptation ( http://arxiv.org/abs/2210.08226v1 )

ライセンス: Link先を確認
Adriano Cardace, Riccardo Spezialetti, Pierluigi Zama Ramirez, Samuele Salti, Luigi Di Stefano(参考訳) ポイントクラウド分類は3Dビジョンで一般的なタスクである。 しかしながら、以前の研究は通常、テスト時の点雲は訓練時と同じ手順またはセンサーで得られると仮定する。 教師なしのドメイン適応(Unsupervised Domain Adaptation, UDA)は、この仮定を破り、教師なしのソースドメインのみを活用する、ラベルなしのターゲットドメイン上のタスクを解決しようとする。 ポイントクラウド分類では、最近のUDA手法は、ポイントクラウド再構成のような補助的なタスクを通じて、機能領域間の機能を整合させようとするが、特徴空間におけるターゲット領域における識別力の最適化は行わない。 対照的に,本研究では,ポイントクラウドとその拡張バージョン間の一貫性を強制する対象領域の識別的特徴空間の獲得に注目する。 次に,udaコンテキストのグラフニューラルネットワークを利用して擬似ラベルを洗練する反復的自己学習手法を提案する。 広範な実験を行い、ポイントクラウド分類のための標準のudaベンチマークで最新技術を設定します。 最後に、このアプローチを部分分割のようなより複雑なタスクに拡張する方法を示します。

Point cloud classification is a popular task in 3D vision. However, previous works, usually assume that point clouds at test time are obtained with the same procedure or sensor as those at training time. Unsupervised Domain Adaptation (UDA) instead, breaks this assumption and tries to solve the task on an unlabeled target domain, leveraging only on a supervised source domain. For point cloud classification, recent UDA methods try to align features across domains via auxiliary tasks such as point cloud reconstruction, which however do not optimize the discriminative power in the target domain in feature space. In contrast, in this work, we focus on obtaining a discriminative feature space for the target domain enforcing consistency between a point cloud and its augmented version. We then propose a novel iterative self-training methodology that exploits Graph Neural Networks in the UDA context to refine pseudo-labels. We perform extensive experiments and set the new state-of-the-art in standard UDA benchmarks for point cloud classification. Finally, we show how our approach can be extended to more complex tasks such as part segmentation.
翻訳日:2022-10-18 19:00:23 公開日:2022-10-15
# 高能率圧縮ビデオ超解像のためのコーデック情報支援フレームワーク

A Codec Information Assisted Framework for Efficient Compressed Video Super-Resolution ( http://arxiv.org/abs/2210.08229v1 )

ライセンス: Link先を確認
Hengsheng Zhang, Xueyi Zou, Jiaming Guo, Youliang Yan, Rong Xie and Li Song(参考訳) 圧縮ビデオのオンライン処理による解像度向上が注目されている。 リカレントニューラルネットワークアーキテクチャを用いたビデオ超解法(VSR)は、長距離時間依存性の効率的なモデリングのため、有望なソリューションである。 しかし、フレーム/フィーチャーアライメントの複雑な動き推定と連続するビデオフレームの冗長な処理が主な原因で、最先端のVSRモデルでも優れた性能を得るためには大きな計算を必要とする。 本稿では,圧縮ビデオの特徴を考慮し,圧縮ビデオの繰り返しVSRモデルの向上と高速化を目的としたコーデック情報支援フレームワーク(CIAF)を提案する。 まず,動きベクトルの符号化映像情報を再利用し,隣接フレーム間の時間関係をモデル化する。 実験により、動きベクトルに基づくアライメントを持つモデルは、より複雑な光フローベースのアライメントを使用するモデルに匹敵するものであっても、無視できる追加計算でパフォーマンスを著しく向上させることができることが示されている。 次に、残差の符号化ビデオ情報を利用することにより、冗長画素の計算をスキップするようにフレームワークに通知することができる。 CRFが23のとき、H.264で符号化されたREDS4テストビデオのパフォーマンス低下なしに、提案したフレームワークは最大70%の計算時間を節約できることを示した。

Online processing of compressed videos to increase their resolutions attracts increasing and broad attention. Video Super-Resolution (VSR) using recurrent neural network architecture is a promising solution due to its efficient modeling of long-range temporal dependencies. However, state-of-the-art recurrent VSR models still require significant computation to obtain a good performance, mainly because of the complicated motion estimation for frame/feature alignment and the redundant processing of consecutive video frames. In this paper, considering the characteristics of compressed videos, we propose a Codec Information Assisted Framework (CIAF) to boost and accelerate recurrent VSR models for compressed videos. Firstly, the framework reuses the coded video information of Motion Vectors to model the temporal relationships between adjacent frames. Experiments demonstrate that the models with Motion Vector based alignment can significantly boost the performance with negligible additional computation, even comparable to those using more complex optical flow based alignment. Secondly, by further making use of the coded video information of Residuals, the framework can be informed to skip the computation on redundant pixels. Experiments demonstrate that the proposed framework can save up to 70% of the computation without performance drop on the REDS4 test videos encoded by H.264 when CRF is 23.
翻訳日:2022-10-18 19:00:04 公開日:2022-10-15
# CUP:批判に導かれた政策再利用

CUP: Critic-Guided Policy Reuse ( http://arxiv.org/abs/2210.08153v1 )

ライセンス: Link先を確認
Jin Zhang, Siyuan Li, Chongjie Zhang(参考訳) 以前の政策を再利用する能力は、人間の知能の重要な側面である。 効率的な政策再利用を実現するために、Deep Reinforcement Learning (DRL)エージェントは、いつ再利用するか、どのソースポリシーを再利用するかを決定する必要がある。 従来の手法では、ソースポリシー上の階層的な高レベルポリシーや、ターゲットタスク上のソースポリシーの値関数の推定など、基礎となるアルゴリズムに余分なコンポーネントを導入することでこの問題を解決している。 しかしながら、これらのコンポーネントのトレーニングは、非定常性または重いサンプリングコストの最適化を誘導し、転送の有効性を著しく損なう。 この問題に対処するため,我々は,余分なコンポーネントのトレーニングを回避し,ソースポリシを効率的に再利用する,評論家主導ポリシー再利用(cup)と呼ばれる新しいポリシー再利用アルゴリズムを提案する。 CUPは、アクター批判手法の共通コンポーネントである批評家を利用して、ソースポリシーを評価し、選択する。 各州において、CUPは、現在の目標政策よりも最大の1段階の改善を持つソースポリシーを選択し、ガイダンスポリシーを形成する。 指導政策は理論的には現在の目標政策よりも単調な改善が保証されている。 そして、目標ポリシーを規則化し、ガイダンスポリシーを模倣して効率的なポリシー探索を行う。 実験により、CUPは効率的な転送を実現し、ベースラインアルゴリズムを大幅に上回ることを示す。

The ability to reuse previous policies is an important aspect of human intelligence. To achieve efficient policy reuse, a Deep Reinforcement Learning (DRL) agent needs to decide when to reuse and which source policies to reuse. Previous methods solve this problem by introducing extra components to the underlying algorithm, such as hierarchical high-level policies over source policies, or estimations of source policies' value functions on the target task. However, training these components induces either optimization non-stationarity or heavy sampling cost, significantly impairing the effectiveness of transfer. To tackle this problem, we propose a novel policy reuse algorithm called Critic-gUided Policy reuse (CUP), which avoids training any extra components and efficiently reuses source policies. CUP utilizes the critic, a common component in actor-critic methods, to evaluate and choose source policies. At each state, CUP chooses the source policy that has the largest one-step improvement over the current target policy, and forms a guidance policy. The guidance policy is theoretically guaranteed to be a monotonic improvement over the current target policy. Then the target policy is regularized to imitate the guidance policy to perform efficient policy search. Empirical results demonstrate that CUP achieves efficient transfer and significantly outperforms baseline algorithms.
翻訳日:2022-10-18 18:42:45 公開日:2022-10-15
# 単位選択:有限人口データからベネフィット関数を学習する

Unit Selection: Learning Benefit Function from Finite Population Data ( http://arxiv.org/abs/2210.08203v1 )

ライセンス: Link先を確認
Ang Li, Song Jiang, Yizhou Sun, Judea Pearl(参考訳) 単位選択問題(unit selection problem)は、望ましい行動様式を示す可能性が最も高い個人のグループを特定することである。 単位選択問題は評価と探索部分問題からなる。 liとpearlは、与えられた特性を持つ特定の個人を選択する平均的な報酬を評価するために「便益関数」を定義した。 探索部分問題とは、上記の利益関数を最大化する特性を特定するアルゴリズムを設計することである。 探索サブプロブレムの難しさは、個々の個々に利用可能な特徴の多さと、各特性セルで利用可能なデータのスパース性によって生じる。 本稿では,有限集団データから推定可能な利得関数の境界を用いて,各セルの利得関数の境界を学習する機械学習フレームワークを提案する。 したがって,利益関数を最大化する特性を容易に得ることができる。

The unit selection problem is to identify a group of individuals who are most likely to exhibit a desired mode of behavior, for example, selecting individuals who would respond one way if incentivized and a different way if not. The unit selection problem consists of evaluation and search subproblems. Li and Pearl defined the "benefit function" to evaluate the average payoff of selecting a certain individual with given characteristics. The search subproblem is then to design an algorithm to identify the characteristics that maximize the above benefit function. The hardness of the search subproblem arises due to the large number of characteristics available for each individual and the sparsity of the data available in each cell of characteristics. In this paper, we present a machine learning framework that uses the bounds of the benefit function that are estimable from the finite population data to learn the bounds of the benefit function for each cell of characteristics. Therefore, we could easily obtain the characteristics that maximize the benefit function.
翻訳日:2022-10-18 18:42:23 公開日:2022-10-15
# ConnectXの強化学習

Reinforcement Learning for ConnectX ( http://arxiv.org/abs/2210.08263v1 )

ライセンス: Link先を確認
Sheel Shah, Shubham Gupta(参考訳) ConnectXは、人気ゲームであるConnect 4を一般化した2プレイヤーゲームである。 目的は、m x n 板の行、列、または対角線に x コインを渡すことである。 最初のプレイヤーがゲームに勝つ。 パラメータ(m, n, x)は各ゲームで変更可能であり、connectxは新しくて挑戦的な問題となっている。 本稿では,ConnectXを再生する各種強化学習アルゴリズムの実装と修正について述べる。

ConnectX is a two-player game that generalizes the popular game Connect 4. The objective is to get X coins across a row, column, or diagonal of an M x N board. The first player to do so wins the game. The parameters (M, N, X) are allowed to change in each game, making ConnectX a novel and challenging problem. In this paper, we present our work on the implementation and modification of various reinforcement learning algorithms to play ConnectX.
翻訳日:2022-10-18 18:42:08 公開日:2022-10-15
# マルチラベルプロパガンダ検出のための大規模言語モデル

Large Language Models for Multi-label Propaganda Detection ( http://arxiv.org/abs/2210.08209v1 )

ライセンス: Link先を確認
Tanmay Chavan and Aditya Kane(参考訳) インターネットを通じたプロパガンダの普及は、ここ数年で激増している。 近年,社会に悪影響を及ぼすため,プロパガンダ検出の重要性が高まっている。 本研究では,マルチラベル環境下でのプロパガンダ検出処理を行うWANLP 2022共有タスクに対するアプローチについて述べる。 このタスクは、与えられたテキストを1つ以上のプロパガンダ技術を持つものとしてラベル付けするようモデルに要求する。 計22のプロパガンダ技術が検出されている。 5つのモデルのアンサンブルがタスクで最高のパフォーマンスを示し、マイクロF1スコアは59.73%である。 また, 包括的アブレーションを行い, 今後の方向性について提案する。

The spread of propaganda through the internet has increased drastically over the past years. Lately, propaganda detection has started gaining importance because of the negative impact it has on society. In this work, we describe our approach for the WANLP 2022 shared task which handles the task of propaganda detection in a multi-label setting. The task demands the model to label the given text as having one or more types of propaganda techniques. There are a total of 22 propaganda techniques to be detected. We show that an ensemble of five models performs the best on the task, scoring a micro-F1 score of 59.73%. We also conduct comprehensive ablations and propose various future directions for this work.
翻訳日:2022-10-18 18:18:02 公開日:2022-10-15
# 適応型原型核融合に基づく新しいFew-Shot関係抽出パイプライン

A Novel Few-Shot Relation Extraction Pipeline Based on Adaptive Prototype Fusion ( http://arxiv.org/abs/2210.08242v1 )

ライセンス: Link先を確認
Yuzhe Zhang, Min Cen, Tongzhou Wu, and Hong Zhang(参考訳) Few-shot Relation extract (FSRE) は、わずかな注釈付きインスタンスで学習することで、目に見えない関係を認識することを目的としている。 本稿では,新しい関係をより効果的に一般化するために,適応型プロトタイプ融合に基づくFSREタスクのための新しいパイプラインを提案する。 具体的には、各関係クラスに対して、パイプラインは2種類の埋め込みを連結して関係情報を完全に探索し、その関係表現と適応プロトタイプ融合機構を精巧に結合する。 フレームワーク全体がエンドツーエンドで効果的かつ効率的に最適化できます。 ベンチマークデータセットFewRel 1.0の実験は、最先端の手法に対する我々の手法の大幅な改善を示している。

Few-shot relation extraction (FSRE) aims at recognizing unseen relations by learning with merely a handful of annotated instances. To more effectively generalize to new relations, this paper proposes a novel pipeline for the FSRE task based on adaptive prototype fusion. Specifically, for each relation class, the pipeline fully explores the relation information by concatenating two types of embedding, and then elaborately combine the relation representation with the adaptive prototype fusion mechanism. The whole framework can be effectively and efficiently optimized in an end-to-end fashion. Experiments on the benchmark dataset FewRel 1.0 show a significant improvement of our method against state-of-the-art methods.
翻訳日:2022-10-18 18:17:51 公開日:2022-10-15
# UniRPG: プログラム生成としてのテーブルとテキストに対する統一された離散推論

UniRPG: Unified Discrete Reasoning over Table and Text as Program Generation ( http://arxiv.org/abs/2210.08249v1 )

ライセンス: Link先を確認
Yongwei Zhou, Junwei Bao, Chaoqun Duan, Youzheng Wu, Xiaodong He, Tiejun Zhao(参考訳) 算術演算、比較、数え上げなどの離散的推論を必要とする質問応答は、知識よりも難しい課題である。 本稿では,多種多様な知識資源,すなわち表とテキストをプログラム生成として統一的な離散的推論を行うために,解釈可能性と拡張性に先立つセマンティックパーシングに基づくアプローチであるUniRPGを提案する。 具体的には、UniRPGはニューラルプログラマとシンボリックプログラムエグゼキュータで構成されており、プログラムは、テーブルとテキストから抽出された、定義済みの一般のアトミックおよび高階の操作と引数からなる構成である。 まず、プログラマは操作を生成して引数をコピーすることで質問をプログラムにパースし、実行者はそのプログラムに基づいて表とテキストから回答を導出する。 コストのかかるプログラムアノテーション問題を緩和するために,擬似プログラムをアノテートせずに自動的に構築するプログラマ学習のための遠隔監視アプローチを設計する。 TAT-QAデータセットの大規模な実験によると、UniRPGは、派生アノテーションなしでも最先端の手法と比較して、大幅な改善と解釈可能性とスケーラビリティの向上を実現している。 さらに、導出なしでテキストデータセットDROP上で有望な性能を達成する。

Question answering requiring discrete reasoning, e.g., arithmetic computing, comparison, and counting, over knowledge is a challenging task. In this paper, we propose UniRPG, a semantic-parsing-based approach advanced in interpretability and scalability, to perform unified discrete reasoning over heterogeneous knowledge resources, i.e., table and text, as program generation. Concretely, UniRPG consists of a neural programmer and a symbolic program executor, where a program is the composition of a set of pre-defined general atomic and higher-order operations and arguments extracted from table and text. First, the programmer parses a question into a program by generating operations and copying arguments, and then the executor derives answers from table and text based on the program. To alleviate the costly program annotation issue, we design a distant supervision approach for programmer learning, where pseudo programs are automatically constructed without annotated derivations. Extensive experiments on the TAT-QA dataset show that UniRPG achieves tremendous improvements and enhances interpretability and scalability compared with state-of-the-art methods, even without derivation annotation. Moreover, it achieves promising performance on the textual dataset DROP without derivations.
翻訳日:2022-10-18 18:17:40 公開日:2022-10-15
# AraLegal-BERT:アラビア法典の事前訓練言語モデル

AraLegal-BERT: A pretrained language model for Arabic Legal text ( http://arxiv.org/abs/2210.08284v1 )

ライセンス: Link先を確認
Muhammad AL-Qurishi and Sarah AlQaseemi and Riad Soussi(参考訳) 複数の言語課題に対するBERTモデルの有効性は十分に文書化されている。 一方で、狭義かつ法的なドメインに対する可能性については、完全には検討されていない。 本稿では,アラビア法域においてBERTをどのように利用できるかを検討するとともに,複数の異なるドメイン関連トレーニングとテストデータセットを用いて,複数の下流タスクに対して,この言語モデルをカスタマイズして,BERTをスクラッチからトレーニングする方法を検討する。 AraLegal-BERTは双方向エンコーダ・トランスフォーマーをベースとしたモデルで,NLP駆動型ソリューションの法制化,法的文書,法的実践への影響を,徹底的に検証し,慎重に最適化している。 AraLegal-BERTを微調整し、3つの自然言語理解(NLU)タスクにおいて、アラビア語の3つのBERT変種に対して評価した。 その結果、AraLegal-BERTのベースバージョンは、法典テキストよりも一般的なBERTよりも精度が高いことがわかった。

The effectiveness of the BERT model on multiple linguistic tasks has been well documented. On the other hand, its potentials for narrow and specific domains such as Legal, have not been fully explored. In this paper, we examine how BERT can be used in the Arabic legal domain and try customizing this language model for several downstream tasks using several different domain-relevant training and testing datasets to train BERT from scratch. We introduce the AraLegal-BERT, a bidirectional encoder Transformer-based model that have been thoroughly tested and carefully optimized with the goal to amplify the impact of NLP-driven solution concerning jurisprudence, legal documents, and legal practice. We fine-tuned AraLegal-BERT and evaluated it against three BERT variations for Arabic language in three natural languages understanding (NLU) tasks. The results show that the base version of AraLegal-BERT achieve better accuracy than the general and original BERT over the Legal text.
翻訳日:2022-10-18 18:17:20 公開日:2022-10-15
# 建設繰り返しは対話における情報レートを減少させる

Construction Repetition Reduces Information Rate in Dialogue ( http://arxiv.org/abs/2210.08321v1 )

ライセンス: Link先を確認
Mario Giulianelli, Arabella Sinclair, Raquel Fern\'andez(参考訳) 話者は対話で頻繁に構成を繰り返す。 その特異な情報理論的な性質から、反復はコスト効率の良いコミュニケーションの戦略と考えることができる。 本研究では,英語のオープンドメイン音声対話における語彙化構成の繰り返し,すなわち多単語単位の繰り返しに注目した。 我々は、話者が構築繰り返しを使用して情報レートを緩和し、対話の過程で発話情報の内容が全体的に減少する、という仮説を立てた。 本研究では,構文情報の内容とそれらを含む発話情報を測定し,適応型ニューラルネットワークモデルを用いて情報内容の推定を行う。 建設利用が発話の情報量を減らすことを観察する。 この促進効果は (i)対話を通して増加する (ii)繰り返しによって押し上げられる。 (iii)繰り返し頻度と密度の関数として成長し、 (iv)参照構成の繰り返しはより強固である。

Speakers repeat constructions frequently in dialogue. Due to their peculiar information-theoretic properties, repetitions can be thought of as a strategy for cost-effective communication. In this study, we focus on the repetition of lexicalised constructions -- i.e., recurring multi-word units -- in English open-domain spoken dialogues. We hypothesise that speakers use construction repetition to mitigate information rate, leading to an overall decrease in utterance information content over the course of a dialogue. We conduct a quantitative analysis, measuring the information content of constructions and that of their containing utterances, estimating information content with an adaptive neural language model. We observe that construction usage lowers the information content of utterances. This facilitating effect (i) increases throughout dialogues, (ii) is boosted by repetition, (iii) grows as a function of repetition frequency and density, and (iv) is stronger for repetitions of referential constructions.
翻訳日:2022-10-18 18:17:02 公開日:2022-10-15
# エンド・ツー・エンドニューラルRTT型談話構文解析のためのシンプルで強力なベースライン

A Simple and Strong Baseline for End-to-End Neural RST-style Discourse Parsing ( http://arxiv.org/abs/2210.08355v1 )

ライセンス: Link先を確認
Naoki Kobayashi, Tsutomu Hirao, Hidetaka Kamigaito, Manabu Okumura, Masaaki Nagata(参考訳) rst型談話解析モデルの促進とさらなる発展のためには,信頼性の高い実験結果を報告するための参考となる強固なベースラインが必要である。 本稿では,既存の単純な構文解析手法であるトップダウンとボトムアップと,トランスフォーマーに基づく事前学習言語モデルを統合することで,強力なベースラインを探求する。 2つのベンチマークデータセットから得られた実験結果は、解析性能が解析戦略よりも事前訓練された言語モデルに強く依存していることを示している。 特にボトムアップパーサは、DeBERTaを使用する場合の現在の最高のパーサと比較して大きなパフォーマンス向上を達成する。 さらに,スパンマスク方式による言語モデルでは,内的・多感覚的解析や核性予測において,解析による解析性能の向上が期待できることを明らかにした。

To promote and further develop RST-style discourse parsing models, we need a strong baseline that can be regarded as a reference for reporting reliable experimental results. This paper explores a strong baseline by integrating existing simple parsing strategies, top-down and bottom-up, with various transformer-based pre-trained language models. The experimental results obtained from two benchmark datasets demonstrate that the parsing performance strongly relies on the pretrained language models rather than the parsing strategies. In particular, the bottom-up parser achieves large performance gains compared to the current best parser when employing DeBERTa. We further reveal that language models with a span-masking scheme especially boost the parsing performance through our analysis within intra- and multi-sentential parsing, and nuclearity prediction.
翻訳日:2022-10-18 18:16:50 公開日:2022-10-15
# PAR:社会的文脈と専門知識を用いた政治アクター表現学習

PAR: Political Actor Representation Learning with Social Context and Expert Knowledge ( http://arxiv.org/abs/2210.08362v1 )

ライセンス: Link先を確認
Shangbin Feng, Zhaoxuan Tan, Zilong Chen, Ningnan Wang, Peisheng Yu, Qinghua Zheng, Xiaojun Chang, Minnan Luo(参考訳) 政治関係者のイデオロギー的視点のモデル化は、多くの下流のタスクに応用される計算的政治科学において不可欠なタスクである。 既存のアプローチは概してテキストデータと投票記録に限定されているが、全体主義的イデオロギー分析のための豊かな社会的文脈と価値ある専門家の知識を無視している。 本稿では,社会的文脈と専門知識を協調的に活用する,‘textbf{PAR}, a \textbf{P}olitical \textbf{A}ctor \textbf{R}epresentation learning framework’を提案する。 具体的には、社会的文脈情報を活用するために、議員に関する事実を抽出する。 次に,ソーシャルコンテキストを組み込んだ異種情報ネットワークを構築し,関係グラフニューラルネットワークを用いて立法者表現を学習する。 最後に,表現学習と専門家知識の整合性,モデルイデオロギー的姿勢の整合性,エコーチャンバー現象のシミュレートの3つの目的でPARを訓練する。 大規模な実験により、PARは政治的テキスト理解の向上に優れており、政治的視点の検出と投票予測における最先端の進歩に成功している。 さらなる分析により、パーは政治的現実を反映した表現を学び、政治行動に新たな洞察を与えることが証明される。

Modeling the ideological perspectives of political actors is an essential task in computational political science with applications in many downstream tasks. Existing approaches are generally limited to textual data and voting records, while they neglect the rich social context and valuable expert knowledge for holistic ideological analysis. In this paper, we propose \textbf{PAR}, a \textbf{P}olitical \textbf{A}ctor \textbf{R}epresentation learning framework that jointly leverages social context and expert knowledge. Specifically, we retrieve and extract factual statements about legislators to leverage social context information. We then construct a heterogeneous information network to incorporate social context and use relational graph neural networks to learn legislator representations. Finally, we train PAR with three objectives to align representation learning with expert knowledge, model ideological stance consistency, and simulate the echo chamber phenomenon. Extensive experiments demonstrate that PAR is better at augmenting political text understanding and successfully advances the state-of-the-art in political perspective detection and roll call vote prediction. Further analysis proves that PAR learns representations that reflect the political reality and provide new insights into political behavior.
翻訳日:2022-10-18 18:16:34 公開日:2022-10-15
# pi-qt-opt: 予測情報によるマルチタスクロボット強化学習の大規模化

PI-QT-Opt: Predictive Information Improves Multi-Task Robotic Reinforcement Learning at Scale ( http://arxiv.org/abs/2210.08217v1 )

ライセンス: Link先を確認
Kuang-Huei Lee, Ted Xiao, Adrian Li, Paul Wohlhart, Ian Fischer, Yao Lu(参考訳) 過去と未来の間の相互情報である予測情報は、トレーニング強化学習エージェントの補助的損失として有用であることが示されており、次に何が起こるかをモデル化する能力は多くの制御タスクの成功に不可欠である。 そこで本研究では,ロボットエージェントの予測情報をモデル化し,大量のデータから多種多様なスキルのレパートリーを習得する訓練を行う汎用エージェントの重要性について検討する。 具体的には、予測情報QT-Opt(PI-QT-Opt)を補助的損失で強化したQT-Optエージェントを導入し、予測情報の表現を学習し、シミュレーションにおける最大297個の視覚ベースのロボット操作タスクを1組のパラメータで解決する。 予測情報のモデル化はトレーニング作業の成功率を大幅に向上させ,未知の新規タスクへのゼロショット転送を改善することを実証する。 最後に,pi-qt-optを実ロボット上で評価し,様々な環境,スキル,マルチタスク構成の複数の実験環境において,qt-optに対して有意かつ一貫した改善を実現する。

The predictive information, the mutual information between the past and future, has been shown to be a useful representation learning auxiliary loss for training reinforcement learning agents, as the ability to model what will happen next is critical to success on many control tasks. While existing studies are largely restricted to training specialist agents on single-task settings in simulation, in this work, we study modeling the predictive information for robotic agents and its importance for general-purpose agents that are trained to master a large repertoire of diverse skills from large amounts of data. Specifically, we introduce Predictive Information QT-Opt (PI-QT-Opt), a QT-Opt agent augmented with an auxiliary loss that learns representations of the predictive information to solve up to 297 vision-based robot manipulation tasks in simulation and the real world with a single set of parameters. We demonstrate that modeling the predictive information significantly improves success rates on the training tasks and leads to better zero-shot transfer to unseen novel tasks. Finally, we evaluate PI-QT-Opt on real robots, achieving substantial and consistent improvement over QT-Opt in multiple experimental settings of varying environments, skills, and multi-task configurations.
翻訳日:2022-10-18 18:08:15 公開日:2022-10-15
# 機械学習愛 : 変圧器による中性子星の状態方程式の分類

Machine-Learning Love: classifying the equation of state of neutron stars with Transformers ( http://arxiv.org/abs/2210.08382v1 )

ライセンス: Link先を確認
Gon\c{c}alo Gon\c{c}alves, M\'arcio Ferreira, Jo\~ao Aveiro, Antonio Onofre, Felipe F. Freitas, Constan\c{c}a Provid\^encia, Jos\'e A. Font(参考訳) 重力波データ解析におけるAudio Spectrogram Transformer(AST)モデルの適用について検討した。 AST機械学習モデルは、純粋に注意に基づくメカニズムを通じて長距離グローバルな依存関係をキャプチャする畳み込みのない分類器である。 本稿では、二元中性子星の合体による吸気重力波信号のシミュレーションデータセットにモデルを適用し、核物質の5つの異なる低温状態方程式(eos)から構築した。 また,各EOS級の潮位変形パラメータの質量依存性を解析した結果, ASTモデルは重力波信号からEOSを純粋に分類する上で, 特に2次系の成分質量が[1,1.5]M_{\odot}$の範囲にある場合, 期待できる性能を達成できることが示唆された。 さらに, モデルトレーニングに使用されていない新しいEOSの重力波信号を用いて, モデルの一般化能力について検討し, 良好な結果を得た。 全体として、ノイズフリー波形の簡易なセットアップを用いて得られた結果は、ASTモデルが一度訓練されると、二元中性子星の合体で発生する吸気重力波信号から直接、コールド核物質EOSを瞬時に推定できることを示している。

The use of the Audio Spectrogram Transformer (AST) model for gravitational-wave data analysis is investigated. The AST machine-learning model is a convolution-free classifier that captures long-range global dependencies through a purely attention-based mechanism. In this paper a model is applied to a simulated dataset of inspiral gravitational wave signals from binary neutron star coalescences, built from five distinct, cold equations of state (EOS) of nuclear matter. From the analysis of the mass dependence of the tidal deformability parameter for each EOS class it is shown that the AST model achieves a promising performance in correctly classifying the EOS purely from the gravitational wave signals, especially when the component masses of the binary system are in the range $[1,1.5]M_{\odot}$. Furthermore, the generalization ability of the model is investigated by using gravitational-wave signals from a new EOS not used during the training of the model, achieving fairly satisfactory results. Overall, the results, obtained using the simplified setup of noise-free waveforms, show that the AST model, once trained, might allow for the instantaneous inference of the cold nuclear matter EOS directly from the inspiral gravitational-wave signals produced in binary neutron star coalescences.
翻訳日:2022-10-18 18:07:00 公開日:2022-10-15
# TimeLMを用いた時間的単語意味の曖昧さ

Temporal Word Meaning Disambiguation using TimeLMs ( http://arxiv.org/abs/2210.08207v1 )

ライセンス: Link先を確認
Mihir Godbole and Parth Dandavate and Aditya Kane(参考訳) 現代文明の出来事によって、言葉の意味は絶えず変化する。 大きな言語モデルは、しばしば静的であり、したがってこの意味変化に対応できない単語埋め込みを使用する。 したがって、単語の意味の曖昧さを解決することが重要である。 本稿では,evonlp共有タスクに対して,単語認識の曖昧さを解消するための手法を検討する。 この問題に対する2つの解決策を厳格に解決する。 タイムアウェアな言語モデルを用いたアプローチが、この課題に役立ちます。 さらに,この問題に対する今後の方向性についても検討する。

Meaning of words constantly changes given the events in modern civilization. Large Language Models use word embeddings, which are often static and thus cannot cope with this semantic change. Thus,it is important to resolve ambiguity in word meanings. This paper is an effort in this direction, where we explore methods for word sense disambiguation for the EvoNLP shared task. We conduct rigorous ablations for two solutions to this problem. We see that an approach using time-aware language models helps this task. Furthermore, we explore possible future directions to this problem.
翻訳日:2022-10-18 18:06:19 公開日:2022-10-15
# MKIS-Net:医療画像分割のための軽量マルチカーネルネットワーク

MKIS-Net: A Light-Weight Multi-Kernel Network for Medical Image Segmentation ( http://arxiv.org/abs/2210.08168v1 )

ライセンス: Link先を確認
Tariq M. Khan, Muhammad Arsalan, Antonio Robles-Kelly, Erik Meijering(参考訳) 画像分割は医療画像における重要な課題である。 これは、様々な臨床診断方法、治療、コンピュータ支援手術のバックボーンを構成する。 本稿では,マルチカーネルイメージセグメンテーションネット(mkis-net,multi-kernel image segmentation net)を提案する。 マルチカーネル設計の結果、MKIS-Netは少数のトレーニング可能なパラメータを持つ軽量アーキテクチャである。 さらに、これらのマルチカーネル受容場は、より良いセグメンテーション結果にも寄与する。 網膜血管のセグメンテーション,皮膚病変のセグメンテーション,胸部X線セグメンテーションなどにおけるMKIS-Netの有効性を示す。 提案されたネットワークの性能は最先端の手法と比較して非常に競争力があり、しばしば優れている。 さらに、MKIS-Netは既存の医用画像セグメンテーションの代替品よりも訓練可能なパラメータが桁違いに少なく、他の軽量アーキテクチャの少なくとも4倍小さい場合もあります。

Image segmentation is an important task in medical imaging. It constitutes the backbone of a wide variety of clinical diagnostic methods, treatments, and computer-aided surgeries. In this paper, we propose a multi-kernel image segmentation net (MKIS-Net), which uses multiple kernels to create an efficient receptive field and enhance segmentation performance. As a result of its multi-kernel design, MKIS-Net is a light-weight architecture with a small number of trainable parameters. Moreover, these multi-kernel receptive fields also contribute to better segmentation results. We demonstrate the efficacy of MKIS-Net on several tasks including segmentation of retinal vessels, skin lesion segmentation, and chest X-ray segmentation. The performance of the proposed network is quite competitive, and often superior, in comparison to state-of-the-art methods. Moreover, in some cases MKIS-Net has more than an order of magnitude fewer trainable parameters than existing medical image segmentation alternatives and is at least four times smaller than other light-weight architectures.
翻訳日:2022-10-18 17:59:50 公開日:2022-10-15
# フローベース条件付きフレーム間符号化によるyuv 4:2:0コンテンツの学習ビデオ圧縮

Learned Video Compression for YUV 4:2:0 Content Using Flow-based Conditional Inter-frame Coding ( http://arxiv.org/abs/2210.08225v1 )

ライセンス: Link先を確認
Yung-Han Ho, Chih-Hsuan Lin, Peng-Yu Chen, Mu-Jung Chen, Chih-Peng Chang, Wen-Hsiao Peng, Hsueh-Ming Hang(参考訳) 本稿では,YUV 4:2:0コンテンツ上での可変レート符号化のための学習型ビデオ圧縮フレームワークを提案する。 既存の学習ベースのビデオ圧縮モデルは、時間的予測と残留符号化を含む伝統的なハイブリッドベースのコーディングアーキテクチャを採用している。 しかし、最近の研究では、残差符号化は情報理論の観点から準最適であることが示されている。 さらに、既存のモデルのほとんどはRGBコンテンツに対して最適化されている。 さらに、可変レート符号化には別々のモデルが必要となる。 これらの問題に対処するため、本研究では、yuv 4:2:0コンテンツに条件付きフレーム間コーディングを組み込む試みを示す。 条件付きフローベースフレーム間コーダを導入し,フレーム間符号化効率を向上させる。 コーデックを yuv 4:2:0 コンテンツに適応させるためには、空間間および深さ間変換を使用する単純な戦略を採用する。 最後に、複数のモデルを訓練することなく可変レート符号化を実現するためにレート適応ネットを用いる。 実験の結果,PSNR-YUVでは,UVGおよびMCL-JCVデータセット上でx265よりも優れた性能を示した。 しかし、ISCAS'22 GCのより困難なデータセットでは、改善の余地は十分にある。 この不十分な性能は、大きなgopサイズでのフレーム間コーディング能力の欠如によるものであり、モデルの容量を増加させ、エラー伝播対応トレーニング戦略を適用することで軽減することができる。

This paper proposes a learning-based video compression framework for variable-rate coding on YUV 4:2:0 content. Most existing learning-based video compression models adopt the traditional hybrid-based coding architecture, which involves temporal prediction followed by residual coding. However, recent studies have shown that residual coding is sub-optimal from the information-theoretic perspective. In addition, most existing models are optimized with respect to RGB content. Furthermore, they require separate models for variable-rate coding. To address these issues, this work presents an attempt to incorporate the conditional inter-frame coding for YUV 4:2:0 content. We introduce a conditional flow-based inter-frame coder to improve the inter-frame coding efficiency. To adapt our codec to YUV 4:2:0 content, we adopt a simple strategy of using space-to-depth and depth-to-space conversions. Lastly, we employ a rate-adaption net to achieve variable-rate coding without training multiple models. Experimental results show that our model performs better than x265 on UVG and MCL-JCV datasets in terms of PSNR-YUV. However, on the more challenging datasets from ISCAS'22 GC, there is still ample room for improvement. This insufficient performance is due to the lack of inter-frame coding capability at a large GOP size and can be mitigated by increasing the model capacity and applying an error propagation-aware training strategy.
翻訳日:2022-10-18 17:59:33 公開日:2022-10-15
# CoRe:術前CTスキャンによる肝切除合併症の予測のための自動パイプライン

CoRe: An Automated Pipeline for The Prediction of Liver Resection Complexity from Preoperative CT Scans ( http://arxiv.org/abs/2210.08318v1 )

ライセンス: Link先を確認
Omar Ali, Alexandre Bone, Caterina Accardo, Omar Belkouchi, Marc-Michel Rohe, Eric Vibert, Irene Vignon-Clementel(参考訳) 外科的切除は原発性肝癌に対して最も多い治療である。 肝切除 (lr) を複雑化することが知られている。 専門医院で経験を積んだ外科医は、LRの複雑さを正確に予測し、それに従って、この行動を再現できる客観的な方法は、通常のケアのルーチンを改善し、術中および術後の合併症を回避できる可能性がある。 本稿では,画像バイオマーカーを用いた術前CTスキャンから術後LRの複雑さを予測するための医療画像自動処理パイプラインであるCoReを提案する。 CoReパイプラインは、まず肝臓、病変、血管を2つのディープラーニングネットワークで分割する。 次に、肝血管は、トポロジカルな基準に基づいて切断され、主要な肝血管を囲む凸体積である肝中心領域(HCZ)が定義され、新しいイメージングバイオマーカーであるBHCZが導出される。 追加のバイオマーカーを抽出し、LR複雑性予測モデルを訓練し評価する。 アブレーション研究では、HCZベースのバイオマーカーがLRの複雑さを予測する中心的な特徴であることが示された。 最良の予測モデルは、それぞれ77.3、75.4、84.1%の精度でF1、AUCに達する。

Surgical resections are the most prevalent curative treatment for primary liver cancer. Tumors located in critical positions are known to complexify liver resections (LR). While experienced surgeons in specialized medical centers may have the necessary expertise to accurately anticipate LR complexity, and prepare accordingly, an objective method able to reproduce this behavior would have the potential to improve the standard routine of care, and avoid intra- and postoperative complications. In this article, we propose CoRe, an automated medical image processing pipeline for the prediction of postoperative LR complexity from preoperative CT scans, using imaging biomarkers. The CoRe pipeline first segments the liver, lesions, and vessels with two deep learning networks. The liver vasculature is then pruned based on a topological criterion to define the hepatic central zone (HCZ), a convex volume circumscribing the major liver vessels, from which a new imaging biomarker, BHCZ is derived. Additional biomarkers are extracted and leveraged to train and evaluate a LR complexity prediction model. An ablation study shows the HCZ-based biomarker as the central feature in predicting LR complexity. The best predictive model reaches an accuracy, F1, and AUC of 77.3, 75.4, and 84.1% respectively.
翻訳日:2022-10-18 17:59:11 公開日:2022-10-15
# Aplicaci\'on de redes neuronales convolucionales profundas al diagn\'ostico asistido de la enfermedad de Alzheimer

Aplicaci\'on de redes neuronales convolucionales profundas al diagn\'ostico asistido de la enfermedad de Alzheimer ( http://arxiv.org/abs/2210.08330v1 )

ライセンス: Link先を確認
\'Angel de la Vega Jim\'enez(参考訳) 現在、アルツハイマー病の診断は複雑でエラーを起こしやすいプロセスである。 この診断を改善することで、疾患を早期に検出し、患者とその家族の生活の質を向上させることができる。 この研究には,adniデータベースから採取したpetとmriの2つのモダリティから得られた249個の脳画像を用いて,アルツハイマー病の発症度に応じて3つのクラスに分類する。 本稿では、これらの画像の分類を行う畳み込みニューラルネットワークの開発を提案し、その間に、この問題に対するネットワークの適切な深さ、医療画像の事前処理の重要性、データ不足による問題の影響を軽減するための転送学習とデータ拡張技術の使用、および複数の医用画像モダリティの同時使用について検討する。 また,小さなデータセットを用いた場合においても,結果の再現性を十分に保証する評価手法を提案する。 この評価手法に従えば、COVID-19データを用いたトランスファーラーニングを利用する最良最終モデルは、d68\%の精度が得られる。 さらに、独立したテストセットでは、このモデルが70\%の精度を達成しています。 さらに,ネットワークの深層化がこの問題に有効であり,画像前処理はこのような医療的問題に対処するための基本的なプロセスであり,データ増補と他の疾患の画像を用いた事前訓練ネットワークの利用は大きな改善をもたらすと結論づけた。

Currently, the diagnosis of Alzheimer's disease is a complex and error-prone process. Improving this diagnosis could allow earlier detection of the disease and improve the quality of life of patients and their families. For this work, we will use 249 brain images from two modalities: PET and MRI, taken from the ADNI database, and labelled into three classes according to the degree of development of Alzheimer's disease. We propose the development of a convolutional neural network to perform the classification of these images, during which, we will study the appropriate depth of the networks for this problem, the importance of pre-processing medical images, the use of transfer learning and data augmentation techniques as tools to reduce the effects of the problem of having too little data, and the simultaneous use of multiple medical imaging modalities. We also propose the application of an evaluation method that guarantees a good degree of repeatability of the results even when using a small dataset. Following this evaluation method, our best final model, which makes use of transfer learning with COVID-19 data, achieves an accuracy d 68\%. In addition, in an independent test set, this same model achieves 70\% accuracy, a promising result given the small size of our dataset. We further conclude that augmenting the depth of the networks helps with this problem, that image pre-processing is a fundamental process to address this type of medical problem, and that the use of data augmentation and the use of pre-trained networks with images of other diseases can provide significant improvements.
翻訳日:2022-10-18 17:58:51 公開日:2022-10-15
# 観測データによるロバストな因果推定

Distributionally Robust Causal Inference with Observational Data ( http://arxiv.org/abs/2210.08326v1 )

ライセンス: Link先を確認
Dimitris Bertsimas, Kosuke Imai, Michael Lingzhi Li(参考訳) 非確立性の標準的な仮定を伴わない観察研究における平均治療効果の推定を考察する。 本稿では,無観測の共同設立者が存在する可能性を考慮した,一般的な観察研究環境下での堅牢な因果推論の枠組みを提案する。 提案手法は分散的ロバストな最適化法に基づいており, 2つのステップで進行する。 まず、観測されない潜在的な結果の分布が観測された結果の分布から逸脱する可能性のある最大次数を指定する。 次に、この仮定に基づく平均治療効果の鋭い境界を導出する。 提案手法は,一般の限界感度モデルを特殊ケースとして包含し,差分差や回帰不連続設計,インストゥルメンタル変数にまで拡張することができる。 シミュレーションと実証研究を通じて,提案手法が実世界に適用可能であることを示す。

We consider the estimation of average treatment effects in observational studies without the standard assumption of unconfoundedness. We propose a new framework of robust causal inference under the general observational study setting with the possible existence of unobserved confounders. Our approach is based on the method of distributionally robust optimization and proceeds in two steps. We first specify the maximal degree to which the distribution of unobserved potential outcomes may deviate from that of obsered outcomes. We then derive sharp bounds on the average treatment effects under this assumption. Our framework encompasses the popular marginal sensitivity model as a special case and can be extended to the difference-in-difference and regression discontinuity designs as well as instrumental variables. Through simulation and empirical studies, we demonstrate the applicability of the proposed methodology to real-world settings.
翻訳日:2022-10-18 17:49:50 公開日:2022-10-15
# 長期認知診断のための自己教師付きグラフ学習

Self-supervised Graph Learning for Long-tailed Cognitive Diagnosis ( http://arxiv.org/abs/2210.08169v1 )

ライセンス: Link先を確認
Shanshan Wang, Zhen Zeng, Xun Yang, Xingyi Zhang(参考訳) 認知的診断は知的教育における基礎的かつ批判的な研究課題であり、特定の知識概念に基づいて異なる生徒の習熟度を検出することを目的としている。 既存の取り組みの有効性にもかかわらず、従来の方法は学生全体の熟練レベルを常に考慮しており、ロングテール効果に苦しむ。 このモデルでは、スパースデータを持つ多数の学生が不十分に実行される。 そこで我々は,グラフに基づく認知診断を支援する自己教師型認知診断(SCD)フレームワークを提案する。 具体的には,グラフのスパースビューを生成するために,特定のルールの下でエッジをドロップするグラフ混乱法を考案した。 異なるビューの下で同じノード上の表現の一貫性を最大化することで、モデルはよりロングテールの学生に焦点を合わせることができる。 また,ロングテールの学生の影響を改善するために,重要度に基づく視点生成ルールを提案した。 実世界のデータセットに対する大規模な実験は、我々のアプローチの有効性を示している。

Cognitive diagnosis is a fundamental yet critical research task in the field of intelligent education, which aims to discover the proficiency level of different students on specific knowledge concepts. Despite the effectiveness of existing efforts, previous methods always considered the mastery level on the whole students, so they still suffer from the Long Tail Effect. A large number of students who have sparse data are performed poorly in the model. To relieve the situation, we proposed a Self-supervised Cognitive Diagnosis (SCD) framework which leverages the self-supervised manner to assist the graph-based cognitive diagnosis, then the performance on those students with sparse data can be improved. Specifically, we came up with a graph confusion method that drops edges under some special rules to generate different sparse views of the graph. By maximizing the consistency of the representation on the same node under different views, the model could be more focused on long-tailed students. Additionally, we proposed an importance-based view generation rule to improve the influence of long-tailed students. Extensive experiments on real-world datasets show the effectiveness of our approach, especially on the students with sparse data.
翻訳日:2022-10-18 17:42:10 公開日:2022-10-15
# パラメータフリーな動的グラフ埋め込みによるリンク予測

Parameter-free Dynamic Graph Embedding for Link Prediction ( http://arxiv.org/abs/2210.08189v1 )

ライセンス: Link先を確認
Jiahao Liu, Dongsheng Li, Hansu Gu, Tun Lu, Peng Zhang, Ning Gu(参考訳) 動的相互作用グラフは、時間とともにユーザとイテムの相互作用の進化をモデル化するために広く採用されている。 動的相互作用グラフにおけるリンク予測のためのユーザ好みのモデル化には2つの重要な要素がある。 1)利用者の協力関係と協力関係 2)ユーザのパーソナライズしたインタラクションパターン。 既存のメソッドでは,これら2つの要因を暗黙的に考慮することが多い。 加えて、それらは通常、リアルタイムのユーザー嗜好モデリングでは禁止されるバックプロパゲーションを伴う時間を要するパラメータ学習を必要とする。 そこで本稿では,リンク予測のためのパラメータフリーな動的グラフ埋め込み手法freegemを提案する。 まず,協調的関係を生かしたグラフ埋め込みエンジンを提案する。これはオンラインモジュールからなるオンライン・モニタ・オフライン・アーキテクチャで,時間とともにユーザ/項目をほぼ埋め込むためのオンラインモジュールと,リアルタイムに近似誤差を推定するモニタモジュールと,オンライン近似誤差がしきい値を超えた場合にユーザ/項目埋め込みを校正するオフラインモジュールとからなる。 一方,属性情報をモデルに統合することで,表現されたグループに属するユーザをより良くモデル化することができる。 次に,動的時間減衰とアテンション機構を組み合わせたパーソナライズされた動的インタラクションパターンモデラーを設計し,ユーザの短期的関心をモデル化する。 2つのリンク予測タスクの実験結果から、FreeGEMは36倍の効率向上を達成しつつ、最先端の手法よりも精度が高いことが示されている。 すべてのコードとデータセットはhttps://github.com/FudanCISL/FreeGEMで確認できる。

Dynamic interaction graphs have been widely adopted to model the evolution of user-item interactions over time. There are two crucial factors when modelling user preferences for link prediction in dynamic interaction graphs: 1) collaborative relationship among users and 2) user personalized interaction patterns. Existing methods often implicitly consider these two factors together, which may lead to noisy user modelling when the two factors diverge. In addition, they usually require time-consuming parameter learning with back-propagation, which is prohibitive for real-time user preference modelling. To this end, this paper proposes FreeGEM, a parameter-free dynamic graph embedding method for link prediction. Firstly, to take advantage of the collaborative relationships, we propose an incremental graph embedding engine to obtain user/item embeddings, which is an Online-Monitor-Offline architecture consisting of an Online module to approximately embed users/items over time, a Monitor module to estimate the approximation error in real time and an Offline module to calibrate the user/item embeddings when the online approximation errors exceed a threshold. Meanwhile, we integrate attribute information into the model, which enables FreeGEM to better model users belonging to some under represented groups. Secondly, we design a personalized dynamic interaction pattern modeller, which combines dynamic time decay with attention mechanism to model user short-term interests. Experimental results on two link prediction tasks show that FreeGEM can outperform the state-of-the-art methods in accuracy while achieving over 36X improvement in efficiency. All code and datasets can be found in https://github.com/FudanCISL/FreeGEM.
翻訳日:2022-10-18 17:41:52 公開日:2022-10-15
# swarmのswarmエンゲージメント問題に対する攻撃割当のためのスケーラブル強化学習手法

A Scalable Reinforcement Learning Approach for Attack Allocation in Swarm to Swarm Engagement Problems ( http://arxiv.org/abs/2210.08319v1 )

ライセンス: Link先を確認
Umut Demir and Nazim Kemal Ure(参考訳) 本研究では,敵集団攻撃に対処すべく,大規模群集の密度を制御する強化学習(rl)フレームワークを提案する。 人工知能をスワーミングコントロールに適用する作業には、すでにかなりの量があるが、2つの敵集団間の相互作用の分析は、あまり研究されていない領域である。 この主題の既存の研究のほとんどは、敵集団の戦略とダイナミクスについて厳しい仮定をすることで戦略を発展させている。 我々の主な貢献は、マルコフ決定プロセスとしてのswarm to swarmのエンゲージメント問題に対するswarmの定式化と、swarmの戦略やダイナミクスを知らずにエンゲージメント戦略を計算できるrlアルゴリズムの開発です。 シミュレーションの結果,開発フレームワークは大規模参加シナリオを効率的に処理できることが判明した。

In this work we propose a reinforcement learning (RL) framework that controls the density of a large-scale swarm for engaging with adversarial swarm attacks. Although there is a significant amount of existing work in applying artificial intelligence methods to swarm control, analysis of interactions between two adversarial swarms is a rather understudied area. Most of the existing work in this subject develop strategies by making hard assumptions regarding the strategy and dynamics of the adversarial swarm. Our main contribution is the formulation of the swarm to swarm engagement problem as a Markov Decision Process and development of RL algorithms that can compute engagement strategies without the knowledge of strategy/dynamics of the adversarial swarm. Simulation results show that the developed framework can handle a wide array of large-scale engagement scenarios in an efficient manner.
翻訳日:2022-10-18 17:41:23 公開日:2022-10-15
# Reachable Polyhedral Marching (RPM):Deep-Learned Control Systemのための厳密な解析ツール

Reachable Polyhedral Marching (RPM): An Exact Analysis Tool for Deep-Learned Control Systems ( http://arxiv.org/abs/2210.08339v1 )

ライセンス: Link先を確認
Joseph A. Vincent and Mac Schwager(参考訳) 本稿では,直交線形単位(relu)アクティベーションを持つ深層ニューラルネットワークの正確な前方および後方到達可能な集合を計算するためのツールを提案する。 このツールを用いてアルゴリズムを開発し、フィードバックループ内のニューラルネットワークを持つ制御系に対する不変集合とアトラクション領域(ROA)を計算する。 本アルゴリズムは,入力空間内の多面体領域を段階的に列挙することで到達可能な集合を構築することができる。 安全性検証を行う場合、もし安全でない領域が見つかった場合、我々のアルゴリズムは完全な到達性計算を完了せずにこの結果を返すことができる。 さらに,深層学習成分が準同型である場合に,ROAsの計算を高速化する手法を提案する。 私たちはいくつかのテストケースでツールを示します。 学習したファンデルポル振動子モデルに対するROAを計算する。 学習したトルク制御振子モデルに対する制御不変集合を求める。 また,ACAS Xu航空機衝突諮問システムに関連する複数の深層ネットワークの安全性を検証した。 最後に,画像に基づく滑走路タクシー問題に対するROAを求めるアルゴリズムを適用した。 アルゴリズムのソースコード:https://github.com/StanfordMSL/Neural-Network-Reach

We present a tool for computing exact forward and backward reachable sets of deep neural networks with rectified linear unit (ReLU) activation. We then develop algorithms using this tool to compute invariant sets and regions of attraction (ROAs) for control systems with neural networks in the feedback loop. Our algorithm is unique in that it builds the reachable sets by incrementally enumerating polyhedral regions in the input space, rather than iterating layer-by-layer through the network as in other methods. When performing safety verification, if an unsafe region is found, our algorithm can return this result without completing the full reachability computation, thus giving an anytime property that accelerates safety verification. Furthermore, we introduce a method to accelerate the computation of ROAs in the case that deep learned components are homeomorphisms, which we find is surprisingly common in practice. We demonstrate our tool in several test cases. We compute a ROA for a learned van der Pol oscillator model. We find a control invariant set for a learned torque-controlled pendulum model. We also verify specific safety properties for multiple deep networks related to the ACAS Xu aircraft collision advisory system. Finally, we apply our algorithm to find ROAs for an image-based aircraft runway taxi problem. Algorithm source code: https://github.com/StanfordMSL/Neural-Network-Reach .
翻訳日:2022-10-18 17:41:06 公開日:2022-10-15
# HUDD:安全分析のためのDNNのデバッグツール

HUDD: A tool to debug DNNs for safety analysis ( http://arxiv.org/abs/2210.08356v1 )

ライセンス: Link先を確認
Hazem Fahmy, Fabrizio Pastore, Lionel Briand(参考訳) 我々は、DNNエラーの根本原因を自動的に特定し、DNNを再訓練することで、ディープニューラルネットワーク(DNN)によって実現されるシステムの安全性分析プラクティスを支援するHUDDを提案する。 HUDDはHeatmapベースのDNNのUnsupervised Debuggingの略で、DNNニューロンの共通部分集合に起因するエラー誘発画像を自動的にクラスタ化する。 その意図は、生成したクラスタが共通の特徴、すなわち共通の根本原因を持つエラー誘発画像をグループ化することである。 HUDDは、DNNの結果に対する全てのDNNニューロンの関連性を捉える行列(すなわち熱マップ)にクラスタリングアルゴリズムを適用することにより、根本原因を特定する。 また、HUDDは識別された画像クラスタと関連性に基づいて自動的に選択される画像でDNNを再訓練する。 自動車分野のDNNによる実証評価の結果,HUDDはDNNエラーの根本原因を自動同定し,安全性解析をサポートすることがわかった。 また,本手法は既存手法よりもDNN精度の向上に有効であることが示された。 HUDDのデモビデオはhttps://youtu.be/drjVakP7jdUで公開されている。

We present HUDD, a tool that supports safety analysis practices for systems enabled by Deep Neural Networks (DNNs) by automatically identifying the root causes for DNN errors and retraining the DNN. HUDD stands for Heatmap-based Unsupervised Debugging of DNNs, it automatically clusters error-inducing images whose results are due to common subsets of DNN neurons. The intent is for the generated clusters to group error-inducing images having common characteristics, that is, having a common root cause. HUDD identifies root causes by applying a clustering algorithm to matrices (i.e., heatmaps) capturing the relevance of every DNN neuron on the DNN outcome. Also, HUDD retrains DNNs with images that are automatically selected based on their relatedness to the identified image clusters. Our empirical evaluation with DNNs from the automotive domain have shown that HUDD automatically identifies all the distinct root causes of DNN errors, thus supporting safety analysis. Also, our retraining approach has shown to be more effective at improving DNN accuracy than existing approaches. A demo video of HUDD is available at https://youtu.be/drjVakP7jdU.
翻訳日:2022-10-18 17:40:45 公開日:2022-10-15
# SPIDR:SDFに基づく照明・変形のためのニューラルポイント場

SPIDR: SDF-based Neural Point Fields for Illumination and Deformation ( http://arxiv.org/abs/2210.08398v1 )

ライセンス: Link先を確認
Ruofan Liang, Jiahao Zhang, Haoda Li, Chen Yang, Nandita Vijaykumar(参考訳) ニューラルレイディアンスフィールド(NeRF)のような暗黙の神経表現は、3次元再構成と新しいビュー合成のための有望なアプローチとして最近出現している。 しかし、NeRFベースの手法は、ニューラル表現における形状、反射率、照明を暗黙的にエンコードするので、ユーザがレンダリングされた画像でこれらの特性を明示的に操作することは困難である。 既存のアプローチでは、シーンの編集と幾何学の変形を制限できるだけである。 さらに、既存の作業では、オブジェクト変形後の正確なシーン照明が不可能である。 本稿では,新しいハイブリッド型ニューラルネットワークSDF表現であるSPIDRを紹介する。 spidrはポイントクラウドとニューラルネットワークの暗黙表現を組み合わせて、オブジェクトの変形と照明推定のための高品質なメッシュと表面の再構築を可能にする。 シーンライティングのための環境照明をより正確に捉えるために,環境光を学習するためのニューラル暗黙モデルを提案する。 変形後の正確な照明更新を可能にするために,シャドウマッピング技術を用いて,幾何編集による視認性更新を効率的に近似する。 シーンの照明を正確に更新し,高品質な幾何編集と変形を可能にするSPIDRの有効性を実証する。 先行研究と比較して, 変形および照明推定後のレンダリング品質が著しく向上した。

Implicit neural representations such as neural radiance fields (NeRFs) have recently emerged as a promising approach for 3D reconstruction and novel view synthesis. However, NeRF-based methods encode shape, reflectance, and illumination implicitly in their neural representations, and this makes it challenging for users to manipulate these properties in the rendered images explicitly. Existing approaches only enable limited editing of the scene and deformation of the geometry. Furthermore, no existing work enables accurate scene illumination after object deformation. In this work, we introduce SPIDR, a new hybrid neural SDF representation. SPIDR combines point cloud and neural implicit representations to enable the reconstruction of higher quality meshes and surfaces for object deformation and lighting estimation. To more accurately capture environment illumination for scene relighting, we propose a novel neural implicit model to learn environment light. To enable accurate illumination updates after deformation, we use the shadow mapping technique to efficiently approximate the light visibility updates caused by geometry editing. We demonstrate the effectiveness of SPIDR in enabling high quality geometry editing and deformation with accurate updates to the illumination of the scene. In comparison to prior work, we demonstrate significantly better rendering quality after deformation and lighting estimation.
翻訳日:2022-10-18 17:30:46 公開日:2022-10-15
# RoS-KD : ノイズ医学イメージングのためのロバスト確率的知識蒸留法

RoS-KD: A Robust Stochastic Knowledge Distillation Approach for Noisy Medical Imaging ( http://arxiv.org/abs/2210.08388v1 )

ライセンス: Link先を確認
Ajay Jaiswal, Kumar Ashutosh, Justin F Rousseau, Yifan Peng, Zhangyang Wang, and Ying Ding(参考訳) AIを利用したメディカルイメージングは、医療診断の迅速化によって、最近大きな注目を集めている。 しかし、通常は高いアノテーションコスト、オブザーバ間の可変性、ヒューマンアノテータエラー、コンピュータ生成ラベルのエラーなどにより、高品質なデータセットの欠如に苦しむ。 ノイズラベル付きデータセットでトレーニングされたディープラーニングモデルは、ノイズタイプに敏感であり、目に見えないサンプルの一般化を減少させる。 この課題に対処するために,複数の情報源からトピックを学習する概念を模倣したロバスト確率的知識蒸留(RoS-KD)フレームワークを提案する。 より具体的には、RoS-KDは、訓練データの重複部分集合について訓練された複数の教師から知識を蒸留することで、滑らかで、よく表現され、堅牢な学生多様体を学ぶ。 実世界のデータセットを用いた一般的な医用画像分類タスク(心肺疾患と病変分類)に関する広範な実験は、RoS-KDの性能上の利点、比較的小さなネットワーク(ResNet-50, DenseNet-121, MobileNet-V2)で多くの大手ネットワークから知識を抽出する能力、および敵対的攻撃(PGD, FSGM)に対する堅牢性を示す。 より具体的には、RoS-KDは、近年の競争的知識蒸留ベースラインに対してResNet-18であるときに、病変分類および心肺疾患分類タスクにおいて、F1スコアの2%と4%の改善を達成する。 さらに、心肺疾患分類タスクでは、RoS-KDはAUCスコアにおいてSOTAベースラインの大部分を約1%向上させる。

AI-powered Medical Imaging has recently achieved enormous attention due to its ability to provide fast-paced healthcare diagnoses. However, it usually suffers from a lack of high-quality datasets due to high annotation cost, inter-observer variability, human annotator error, and errors in computer-generated labels. Deep learning models trained on noisy labelled datasets are sensitive to the noise type and lead to less generalization on the unseen samples. To address this challenge, we propose a Robust Stochastic Knowledge Distillation (RoS-KD) framework which mimics the notion of learning a topic from multiple sources to ensure deterrence in learning noisy information. More specifically, RoS-KD learns a smooth, well-informed, and robust student manifold by distilling knowledge from multiple teachers trained on overlapping subsets of training data. Our extensive experiments on popular medical imaging classification tasks (cardiopulmonary disease and lesion classification) using real-world datasets, show the performance benefit of RoS-KD, its ability to distill knowledge from many popular large networks (ResNet-50, DenseNet-121, MobileNet-V2) in a comparatively small network, and its robustness to adversarial attacks (PGD, FSGM). More specifically, RoS-KD achieves >2% and >4% improvement on F1-score for lesion classification and cardiopulmonary disease classification tasks, respectively, when the underlying student is ResNet-18 against recent competitive knowledge distillation baseline. Additionally, on cardiopulmonary disease classification task, RoS-KD outperforms most of the SOTA baselines by ~1% gain in AUC score.
翻訳日:2022-10-18 17:25:29 公開日:2022-10-15
# 領域適応のための注意正規化ラプラスグラフ

Attention Regularized Laplace Graph for Domain Adaptation ( http://arxiv.org/abs/2210.08170v1 )

ライセンス: Link先を確認
Lingkun Luo, Liming Chen, Shiqiang Hu(参考訳) 領域適応(da)における多様体学習の活用において、グラフ埋め込みに基づくda法は、データ多様体をラプラスグラフを通して保存する効果を示した。 しかし、現在のグラフ埋め込みDAメソッドには2つの問題がある。 それらは、サブドメイン適応の埋め込みと無視における基盤となるデータ構造の保存にのみ関係しており、クラス内の類似性とクラス間の類似性を考慮して、負の転送に繋がる必要がある。 多様体学習は、異なる特徴空間/ラベル空間に別々に提案され、統合された総合多様体学習を妨げる。 本稿では,先程のDGA-DAから,上記課題を解決するための新しいDA手法,すなわちアテンション正規化ラプラスグラフベースドメイン適応(ARG-DA)を提案する。 具体的には,各サブドメイン適応タスクの重み付けにより,クラス認識daに対するアテンション正規化ラプラスグラフを提案し,アテンション正規化daを生成する。 さらに,特定設計のFEEL戦略を用いて,異なる特徴/ラベル空間にまたがる多様体構造のアライメントを動的に統一し,総合的な多様体学習を実現する。 提案手法の有効性を検証するための総合的な実験を行い、7つの標準DAベンチマーク、すなわち、オブジェクト、顔、ディジット画像を含む37のクロスドメイン画像分類タスクにおいて、最先端のDA手法を一貫して上回っている。 また, 感度, 収束性, 堅牢性など, DA法について詳細な解析を行った。

In leveraging manifold learning in domain adaptation (DA), graph embedding-based DA methods have shown their effectiveness in preserving data manifold through the Laplace graph. However, current graph embedding DA methods suffer from two issues: 1). they are only concerned with preservation of the underlying data structures in the embedding and ignore sub-domain adaptation, which requires taking into account intra-class similarity and inter-class dissimilarity, thereby leading to negative transfer; 2). manifold learning is proposed across different feature/label spaces separately, thereby hindering unified comprehensive manifold learning. In this paper, starting from our previous DGA-DA, we propose a novel DA method, namely Attention Regularized Laplace Graph-based Domain Adaptation (ARG-DA), to remedy the aforementioned issues. Specifically, by weighting the importance across different sub-domain adaptation tasks, we propose the Attention Regularized Laplace Graph for class-aware DA, thereby generating the attention regularized DA. Furthermore, using a specifically designed FEEL strategy, our approach dynamically unifies alignment of the manifold structures across different feature/label spaces, thus leading to comprehensive manifold learning. Comprehensive experiments are carried out to verify the effectiveness of the proposed DA method, which consistently outperforms the state-of-the-art DA methods on 7 standard DA benchmarks, i.e., 37 cross-domain image classification tasks including object, face, and digit images. An in-depth analysis of the proposed DA method is also discussed, including sensitivity, convergence, and robustness.
翻訳日:2022-10-18 17:14:33 公開日:2022-10-15
# 顔認識は実現可能な攻撃から安全か?

Is Face Recognition Safe from Realizable Attacks? ( http://arxiv.org/abs/2210.08178v1 )

ライセンス: Link先を確認
Sanjay Saha and Terence Sim(参考訳) 顔認識は生体認証の一般的な形態であり、広く使われているため、攻撃も一般的になっている。 最近の研究では、顔認識システムは攻撃に対して脆弱であり、顔の誤識別につながる可能性がある。 興味深いことに、これらの攻撃のほとんどはホワイトボックスか、物理的に実現不可能な方法で顔画像を操作している。 本稿では,攻撃者が微妙な摂動を伴う現実的な合成顔画像を生成し,その顔に物理的に認識してブラックボックス顔認識システムを攻撃する攻撃手法を提案する。 総合的な実験と分析により、攻撃者が顔に生じる微妙な摂動は、ブラックボックス設定で最先端の顔認識システムへの攻撃を成功させることが示された。 本研究は,顔認識システムによるブラックボックス攻撃に対する脆弱性を明らかにする。

Face recognition is a popular form of biometric authentication and due to its widespread use, attacks have become more common as well. Recent studies show that Face Recognition Systems are vulnerable to attacks and can lead to erroneous identification of faces. Interestingly, most of these attacks are white-box, or they are manipulating facial images in ways that are not physically realizable. In this paper, we propose an attack scheme where the attacker can generate realistic synthesized face images with subtle perturbations and physically realize that onto his face to attack black-box face recognition systems. Comprehensive experiments and analyses show that subtle perturbations realized on attackers face can create successful attacks on state-of-the-art face recognition systems in black-box settings. Our study exposes the underlying vulnerability posed by the Face Recognition Systems against realizable black-box attacks.
翻訳日:2022-10-18 17:14:07 公開日:2022-10-15
# 分布ロバストなマルチクラス分類と深部画像分類への応用

Distributionally Robust Multiclass Classification and Applications in Deep Image Classifiers ( http://arxiv.org/abs/2210.08198v1 )

ライセンス: Link先を確認
Ruidi Chen, Boran Hao, Ioannis Ch. Paschalidis(参考訳) 分散ロバスト最適化 (DRO) によるマルチクラスロジスティック回帰 (MLR) の定式化を行い, 異常値によるデータの汚染を許容する。 DROフレームワークは、ワッサーシュタイン計量の意味でのトレーニングセットの経験的分布に近い分布の球として定義される確率的曖昧性集合を使用する。 我々は DRO の定式化を、正則化が係数行列のノルムである正規化学習問題に緩和する。 予測誤差の制御における正則化器の役割についての洞察を提供するとともに,本モデルに対する解の正当性を保証する。 提案手法は,ランダムおよび敵対的攻撃に頑健なdeep vision transformer (vit)ベースの画像分類器のレンダリングに応用する。 具体的には、MNISTとCIFAR-10データセットを用いて、新しいランダムトレーニング手法を採用することにより、試験誤差率を83.5%、損失を91.3%削減することを示した。

We develop a Distributionally Robust Optimization (DRO) formulation for Multiclass Logistic Regression (MLR), which could tolerate data contaminated by outliers. The DRO framework uses a probabilistic ambiguity set defined as a ball of distributions that are close to the empirical distribution of the training set in the sense of the Wasserstein metric. We relax the DRO formulation into a regularized learning problem whose regularizer is a norm of the coefficient matrix. We establish out-of-sample performance guarantees for the solutions to our model, offering insights on the role of the regularizer in controlling the prediction error. We apply the proposed method in rendering deep Vision Transformer (ViT)-based image classifiers robust to random and adversarial attacks. Specifically, using the MNIST and CIFAR-10 datasets, we demonstrate reductions in test error rate by up to 83.5% and loss by up to 91.3% compared with baseline methods, by adopting a novel random training method.
翻訳日:2022-10-18 17:13:54 公開日:2022-10-15
# 自己説明可能性を用いた深層学習画像分類器の誤り検出

Providing Error Detection for Deep Learning Image Classifiers Using Self-Explainability ( http://arxiv.org/abs/2210.08210v1 )

ライセンス: Link先を確認
Mohammad Mahdi Karimi, Azin Heidarshenas, William W. Edmonson(参考訳) 本稿では,自己誤り検出を行う画像分類問題に対する自己記述型ディープラーニング(SE-DL)システムを提案する。 自己エラー検出は、特に自動車システムのような安全クリティカルなアプリケーションにおいて、DLシステムの安全な操作を改善する鍵となる。 SE-DLシステムは、クラス予測と、その予測に関する説明の両方を出力する。 さらに,提案するSE-DLシステムの説明を利用して,システムの潜在的なクラス予測誤差を検出する。 提案するSE-DLシステムは,一連の概念を用いて説明を生成する。 これらの概念は、その画像の上位レベルクラスに関連する各入力画像における人間理解可能な低レベル画像の特徴である。 提案するSE-DLシステムの誤り検出性能に対する寄与に基づいて,すべての概念を評価し,そのサブセットを選択するための概念選択手法を提案する。 最後に,提案したSE-DLシステムを用いて,SE-DLシステムを使用しない誤り検出方式と比較する。

This paper proposes a self-explainable Deep Learning (SE-DL) system for an image classification problem that performs self-error detection. The self-error detection is key to improving the DL system's safe operation, especially in safety-critical applications such as automotive systems. A SE-DL system outputs both the class prediction and an explanation for that prediction, which provides insight into how the system makes its predictions for humans. Additionally, we leverage the explanation of the proposed SE-DL system to detect potential class prediction errors of the system. The proposed SE-DL system uses a set of concepts to generate the explanation. The concepts are human-understandable lower-level image features in each input image relevant to the higher-level class of that image. We present a concept selection methodology for scoring all concepts and selecting a subset of them based on their contribution to the error detection performance of the proposed SE-DL system. Finally, we present different error detection schemes using the proposed SE-DL system to compare them against an error detection scheme without any SE-DL system.
翻訳日:2022-10-18 17:13:36 公開日:2022-10-15
# マスクの重要性:マスク付きオートエンコーダの理論的理解に向けて

How Mask Matters: Towards Theoretical Understandings of Masked Autoencoders ( http://arxiv.org/abs/2210.08344v1 )

ライセンス: Link先を確認
Qi Zhang, Yifei Wang, Yisen Wang(参考訳) 再構成タスクに基づくMasked Autoencoders(MAE)は、セルフ教師付き学習(SSL)と、さまざまなベンチマークデータセットで最先端のパフォーマンスを実現する上で、有望なパラダイムである。 しかし、その印象的な成功にもかかわらず、理論的な理解はまだ限られている。 本稿では,MAEが意味のある特徴を学習する上でマスキングがいかに重要であるかを理論的に理解する。 我々は,MAEとコントラスト学習の密接な関係を確立し,MAEがマスク誘発陽性対を暗黙的に整列させることを示す。 この接続に基づいて,MAE法の最初のダウンストリーム保証を開発し,マスク比の影響を解析する。 さらに、暗黙的なアライメントの結果、MAEの次元的崩壊問題も指摘し、この問題に効果的に対処し、CIFAR-10、ImageNet-100、ImageNet-1Kなどの実世界のデータセットに大幅な改善をもたらす、統一性強化MAE(U-MAE)損失を提案する。 コードはhttps://github.com/zhangq327/U-MAE)。

Masked Autoencoders (MAE) based on a reconstruction task have risen to be a promising paradigm for self-supervised learning (SSL) and achieve state-of-the-art performance across different benchmark datasets. However, despite its impressive empirical success, there is still limited theoretical understanding of it. In this paper, we propose a theoretical understanding of how masking matters for MAE to learn meaningful features. We establish a close connection between MAE and contrastive learning, which shows that MAE implicit aligns the mask-induced positive pairs. Built upon this connection, we develop the first downstream guarantees for MAE methods, and analyze the effect of mask ratio. Besides, as a result of the implicit alignment, we also point out the dimensional collapse issue of MAE, and propose a Uniformity-enhanced MAE (U-MAE) loss that can effectively address this issue and bring significant improvements on real-world datasets, including CIFAR-10, ImageNet-100, and ImageNet-1K. Code is available at (https://github.com/zhangq327/U-MAE).
翻訳日:2022-10-18 17:13:21 公開日:2022-10-15
# 希少な例採鉱による3次元検出におけるクラス内ロングテールの改善

Improving the Intra-class Long-tail in 3D Detection via Rare Example Mining ( http://arxiv.org/abs/2210.08375v1 )

ライセンス: Link先を確認
Chiyu Max Jiang, Mahyar Najibi, Charles R. Qi, Yin Zhou, Dragomir Anguelov(参考訳) ディープラーニングアーキテクチャの継続的な改善は、3Dオブジェクト検出器の全体的なパフォーマンスを、特定のタスクやデータセットに対して人間と同等のレベルに着実に向上させています。 しかしながら、最高のパフォーマンスモデルでさえ、不規則なジオメトリーを持つ車両のようなトレーニングデータに頻繁に現れない稀な例に関して、最も単純なミスを被る。 ロングテール文学におけるほとんどの研究は、クラスごとの既知の不均衡なラベル数を持つクラス不均衡な分類問題に焦点を当てているが、3Dオブジェクト検出のような大きなクラス内変異を持つ問題において、クラス内ロングテールの例には直接適用されない。 他の研究は、不確実性、難易度、多様性の基準に基づいて、アクティブラーニングを用いてこの問題を軽減することを提案する。 本研究では,新しい概念次元であるレアネス(レアネス)を特定し,モデルのロングテール性能を改善するための新しいデータマイニングを行う。 難易度とは対照的に,難易度はデータサポートの欠如によるものであり,難易度は問題の根本的な曖昧さに関連しているため,難易度が3d検出器のデータ中心の改善の鍵であることを示す。 フローモデルを用いて特徴空間の密度推定に基づいてオブジェクトの希少性を同定する汎用的かつ効果的な手法を提案し、レアオブジェクトトラックをマイニングするための基本的コスト認識定式化を提案し、モデル全体の性能を向上するが、さらに重要なことに、レアオブジェクトの性能を大幅に向上させる(30.97 %)。

Continued improvements in deep learning architectures have steadily advanced the overall performance of 3D object detectors to levels on par with humans for certain tasks and datasets, where the overall performance is mostly driven by common examples. However, even the best performing models suffer from the most naive mistakes when it comes to rare examples that do not appear frequently in the training data, such as vehicles with irregular geometries. Most studies in the long-tail literature focus on class-imbalanced classification problems with known imbalanced label counts per class, but they are not directly applicable to the intra-class long-tail examples in problems with large intra-class variations such as 3D object detection, where instances with the same class label can have drastically varied properties such as shapes and sizes. Other works propose to mitigate this problem using active learning based on the criteria of uncertainty, difficulty, or diversity. In this study, we identify a new conceptual dimension - rareness - to mine new data for improving the long-tail performance of models. We show that rareness, as opposed to difficulty, is the key to data-centric improvements for 3D detectors, since rareness is the result of a lack in data support while difficulty is related to the fundamental ambiguity in the problem. We propose a general and effective method to identify the rareness of objects based on density estimation in the feature space using flow models, and propose a principled cost-aware formulation for mining rare object tracks, which improves overall model performance, but more importantly - significantly improves the performance for rare objects (by 30.97\%
翻訳日:2022-10-18 17:12:59 公開日:2022-10-15
# ニューラルネットワークによるアクティブラーニング:非パラメトリック統計からの洞察

Active Learning with Neural Networks: Insights from Nonparametric Statistics ( http://arxiv.org/abs/2210.08367v1 )

ライセンス: Link先を確認
Yinglun Zhu and Robert Nowak(参考訳) ディープニューラルネットワークは表現力が高いが、通常多くのトレーニング例を必要とする。 これにより、ラベル付きトレーニングデータの量を大幅に削減できる深いアクティブな学習方法がモチベーションとなる。 近年、深層能動学習の実証的な成功が文献で報告されているが、深層能動学習の厳密なラベル複雑性保証はいまだ解明されていない。 これは理論と実践の間の大きなギャップを構成する。 本稿では,このギャップに対処し,深層学習に最適なラベル複雑性を保証する。 重要な洞察は、非パラメトリック分類の観点から深いアクティブラーニングを研究することである。 標準的な低雑音条件下では、ニューラルネットワークを用いた能動学習は、不一致係数や他の対数項まで、最小値ラベルの複雑さを確実に達成できることを示す。 停止オプションを装着すると、低雑音の仮定を伴わずに$\mathsf{polylog}(\frac{1}{\epsilon})$ラベル複雑性を実現する効率的な深層能動学習アルゴリズムをさらに開発する。 また、一般に研究されているソボレフ/H\古い空間を超えて、ニューラルネットワークに付随する自然関数空間として最近提案されているRadon $\mathsf{BV}^2$空間で学習するためのラベル複雑性の保証を開発する。

Deep neural networks have great representation power, but typically require large numbers of training examples. This motivates deep active learning methods that can significantly reduce the amount of labeled training data. Empirical successes of deep active learning have been recently reported in the literature, however, rigorous label complexity guarantees of deep active learning have remained elusive. This constitutes a significant gap between theory and practice. This paper tackles this gap by providing the first near-optimal label complexity guarantees for deep active learning. The key insight is to study deep active learning from the nonparametric classification perspective. Under standard low noise conditions, we show that active learning with neural networks can provably achieve the minimax label complexity, up to disagreement coefficient and other logarithmic terms. When equipped with an abstention option, we further develop an efficient deep active learning algorithm that achieves $\mathsf{polylog}(\frac{1}{\epsilon})$ label complexity, without any low noise assumptions. We also provide extensions of our results beyond the commonly studied Sobolev/H\"older spaces and develop label complexity guarantees for learning in Radon $\mathsf{BV}^2$ spaces, which have recently been proposed as natural function spaces associated with neural networks.
翻訳日:2022-10-18 16:55:10 公開日:2022-10-15
# オフライン強化学習のための政策指導型模倣手法

A Policy-Guided Imitation Approach for Offline Reinforcement Learning ( http://arxiv.org/abs/2210.08323v1 )

ライセンス: Link先を確認
Haoran Xu, Li Jiang, Jianxiong Li, Xianyuan Zhan(参考訳) オフライン強化学習(RL)法は一般にRL法とImitation法の二種類に分類される。 rlベースの手法は、原則として分散の一般化を享受できるが、誤ったオフポリシー評価に苦しむ。 模倣ベースの手法は、オフポリシー評価を避けるが、データセットを超えるには保守的すぎる。 本研究では,模倣型手法の学習安定性を継承しつつ,論理分布の一般化を許容する別の手法を提案する。 従来の報酬最大化ポリシーをオフラインrlでガイド・ポリシーと実行・ポリシーに分解する。 トレーニング中は、教師付きかつ分離された方法で、データセットからのデータのみを使用して、ガイドポイティと実行ポリシが学習される。 評価中、ガイドポリシーは実行時ポリティシをガイドし、報酬を最大化できるように、実行時ポリティシを指示し、 \textit{Prophet} として機能する。 そこで本アルゴリズムでは, 先行模倣方式で行うのではなく, データセットから \textit{state-compositionality} を許容する。 この新しいアプローチは、ポリシー誘導オフラインRL(\texttt{POR})を軽視します。 \texttt{POR}は、オフラインRLの標準ベンチマークであるD4RLにおける最先端のパフォーマンスを示す。 また、補足的最適データの改善や、ガイドポイティの変更だけで新しいタスクに容易に適応できるという点で、‘texttt{POR}’の利点も強調する。

Offline reinforcement learning (RL) methods can generally be categorized into two types: RL-based and Imitation-based. RL-based methods could in principle enjoy out-of-distribution generalization but suffer from erroneous off-policy evaluation. Imitation-based methods avoid off-policy evaluation but are too conservative to surpass the dataset. In this study, we propose an alternative approach, inheriting the training stability of imitation-style methods while still allowing logical out-of-distribution generalization. We decompose the conventional reward-maximizing policy in offline RL into a guide-policy and an execute-policy. During training, the guide-poicy and execute-policy are learned using only data from the dataset, in a supervised and decoupled manner. During evaluation, the guide-policy guides the execute-policy by telling where it should go so that the reward can be maximized, serving as the \textit{Prophet}. By doing so, our algorithm allows \textit{state-compositionality} from the dataset, rather than \textit{action-compositionality} conducted in prior imitation-style methods. We dumb this new approach Policy-guided Offline RL (\texttt{POR}). \texttt{POR} demonstrates the state-of-the-art performance on D4RL, a standard benchmark for offline RL. We also highlight the benefits of \texttt{POR} in terms of improving with supplementary suboptimal data and easily adapting to new tasks by only changing the guide-poicy.
翻訳日:2022-10-18 16:49:26 公開日:2022-10-15
# 不変差分表現の拡張自由グラフコントラスト学習

Augmentation-Free Graph Contrastive Learning of Invariant-Discriminative Representations ( http://arxiv.org/abs/2210.08345v1 )

ライセンス: Link先を確認
Haifeng Li, Jun Cao, Jiawei Zhu, Qinyao Luo, Silu He, Xuyin Wang(参考訳) プレタスクは主に相互情報推定に基づいて構築され、データ拡張は、表現の識別性を高めるために、類似した意味を持つ正のサンプルを構築し、不変な信号と異なる意味を持つ負のサンプルを学習する。 しかし、適切なデータ拡張設定は、データ拡張技術の構成と対応するハイパーパラメータ設定を選択するなど、多くの経験的試行に大きく依存する。 本稿では,本質的に負のサンプルを必要としない拡張自由グラフコントラスト学習法,不変判別グラフコントラスト学習(igcl)を提案する。 igclは不変および判別表現を学ぶために不変識別損失(id損失)を設計する。 一方、id損失は、対象サンプルと表現空間内の正のサンプルの間の平均二乗誤差を直接最小化し、不変信号を学ぶ。 一方、id損失は表現の異なる次元が互いに独立であるように強制する正規直交制約によって表現が判別されることを保証する。 これにより、表現が点または部分空間に崩壊することを防ぐ。 本理論は, 冗長性低減基準, 正準相関解析, および情報ボトルネック原理の観点から, ID損失の有効性を説明する。 実験の結果、iGCLは5ノード分類ベンチマークデータセットのベースラインを全て上回ることがわかった。 iGCLはラベルの異なる比率で優れた性能を示し、グラフ攻撃に抵抗できるが、これはiGCLが優れた一般化と堅牢性を持っていることを示している。

The pretasks are mainly built on mutual information estimation, which requires data augmentation to construct positive samples with similar semantics to learn invariant signals and negative samples with dissimilar semantics in order to empower representation discriminability. However, an appropriate data augmentation configuration depends heavily on lots of empirical trials such as choosing the compositions of data augmentation techniques and the corresponding hyperparameter settings. We propose an augmentation-free graph contrastive learning method, invariant-discriminative graph contrastive learning (iGCL), that does not intrinsically require negative samples. iGCL designs the invariant-discriminative loss (ID loss) to learn invariant and discriminative representations. On the one hand, ID loss learns invariant signals by directly minimizing the mean square error between the target samples and positive samples in the representation space. On the other hand, ID loss ensures that the representations are discriminative by an orthonormal constraint forcing the different dimensions of representations to be independent of each other. This prevents representations from collapsing to a point or subspace. Our theoretical analysis explains the effectiveness of ID loss from the perspectives of the redundancy reduction criterion, canonical correlation analysis, and information bottleneck principle. The experimental results demonstrate that iGCL outperforms all baselines on 5 node classification benchmark datasets. iGCL also shows superior performance for different label ratios and is capable of resisting graph attacks, which indicates that iGCL has excellent generalization and robustness.
翻訳日:2022-10-18 16:49:04 公開日:2022-10-15
# 長期時間依存のモデル化のためのミニバッチ学習戦略--環境応用に関する研究

Mini-Batch Learning Strategies for modeling long term temporal dependencies: A study in environmental applications ( http://arxiv.org/abs/2210.08347v1 )

ライセンス: Link先を確認
Shaoming Xu, Ankush Khandelwal, Xiang Li, Xiaowei Jia, Licheng Liu, Jared Willard, Rahul Ghosh, Kelly Cutler, Michael Steinbach, Christopher Duffy, John Nieber, Vipin Kumar(参考訳) 多くの環境応用において、リカレントニューラルネットワーク(RNN)は、長い時間的依存関係を持つ物理変数をモデル化するためにしばしば使用される。 しかし、ミニバッチトレーニングのため、バッチ内のトレーニングセグメント(イントラバッチ)とバッチ間の時間的関係は考慮されていないため、パフォーマンスが制限される可能性がある。 Stateful RNNは、バッチ間で隠れた状態を渡すことでこの問題に対処することを目指している。 Stateful RNNはバッチ内の時間依存性を無視しているため、トレーニングの安定性と時間依存性のキャプチャとの間にトレードオフが存在する。 本稿では、異なるステートフルRNNモデリング戦略の定量的比較を行い、バッチ内およびバッチ間両方の時間依存性を強制する2つの戦略を提案する。 まず、バッチを時間順のトレーニングセグメントのセットとして定義し、時間情報のバッチ内共有を可能にすることによって、ステートフルRNNを拡張します。 このアプローチはパフォーマンスを大幅に改善するが、高度にシーケンシャルなトレーニングによって、トレーニング時間が大幅に短縮される。 この問題に対処するため,我々は,トレーニングセグメントの開始直前の時間ステップから目標変数の初期値でトレーニングセグメントを増強する新しい戦略を提案する。 言い換えると、ターゲット変数の初期値を追加入力として提供し、ネットワークはその初期値に対する学習変化に集中できるようにします。 この戦略を使用することで、サンプルを任意の順序(ミニバッチトレーニング)で渡すことができ、パフォーマンスを維持しながらトレーニング時間を著しく短縮できる。 水文モデルにおける我々のアプローチの実証では, 流水流などのフラックス変数を連続的に移動するのではなく, 土壌水や積雪など, 値が変化の遅い状態変数に適用した場合に, 予測精度の最も大きな向上が観察される。

In many environmental applications, recurrent neural networks (RNNs) are often used to model physical variables with long temporal dependencies. However, due to mini-batch training, temporal relationships between training segments within the batch (intra-batch) as well as between batches (inter-batch) are not considered, which can lead to limited performance. Stateful RNNs aim to address this issue by passing hidden states between batches. Since Stateful RNNs ignore intra-batch temporal dependency, there exists a trade-off between training stability and capturing temporal dependency. In this paper, we provide a quantitative comparison of different Stateful RNN modeling strategies, and propose two strategies to enforce both intra- and inter-batch temporal dependency. First, we extend Stateful RNNs by defining a batch as a temporally ordered set of training segments, which enables intra-batch sharing of temporal information. While this approach significantly improves the performance, it leads to much larger training times due to highly sequential training. To address this issue, we further propose a new strategy which augments a training segment with an initial value of the target variable from the timestep right before the starting of the training segment. In other words, we provide an initial value of the target variable as additional input so that the network can focus on learning changes relative to that initial value. By using this strategy, samples can be passed in any order (mini-batch training) which significantly reduces the training time while maintaining the performance. In demonstrating our approach in hydrological modeling, we observe that the most significant gains in predictive accuracy occur when these methods are applied to state variables whose values change more slowly, such as soil water and snowpack, rather than continuously moving flux variables such as streamflow.
翻訳日:2022-10-18 16:48:40 公開日:2022-10-15
# モデル更新のタイミング:制約付きモデルベース強化学習

When to Update Your Model: Constrained Model-based Reinforcement Learning ( http://arxiv.org/abs/2210.08349v1 )

ライセンス: Link先を確認
Tianying Ji, Yu Luo, Fuchun Sun, Mingxuan Jing, Fengxiang He, Wenbing Huang(参考訳) 単調な改善が保証されたモデルベースRL(MBRL)アルゴリズムの設計と解析は、主にポリシー最適化とモデル学習の相互依存のために困難である。 既存の差分境界は一般的にモデルシフトの影響を無視し、対応するアルゴリズムは劇的なモデル更新によって性能を低下させる傾向がある。 本稿ではまず,MBRLの非劣化性能保証のための,新規で汎用的な理論スキームを提案する。 我々のフォローアップによる境界は、モデルシフトとパフォーマンス改善の関係を明らかにする。 これらの発見は、MBRLの単調性を保証するために制約付き下界最適化問題を定式化することを奨励する。 さらなる例では、動的に変動する数の探索からの学習モデルが結果のリターンに恩恵をもたらすことを示します。 これらの分析により,モデル更新のタイミングを柔軟に決定するイベントトリガー機構を導入することで,CMLO(Constrained Model-shift Lower-bound Optimization)を提案する。 実験により、CMLOは他の最先端の手法を超越し、様々なポリシー最適化手法が採用されている場合に向上することが示された。

Designing and analyzing model-based RL (MBRL) algorithms with guaranteed monotonic improvement has been challenging, mainly due to the interdependence between policy optimization and model learning. Existing discrepancy bounds generally ignore the impacts of model shifts, and their corresponding algorithms are prone to degrade performance by drastic model updating. In this work, we first propose a novel and general theoretical scheme for a non-decreasing performance guarantee of MBRL. Our follow-up derived bounds reveal the relationship between model shifts and performance improvement. These discoveries encourage us to formulate a constrained lower-bound optimization problem to permit the monotonicity of MBRL. A further example demonstrates that learning models from a dynamically-varying number of explorations benefit the eventual returns. Motivated by these analyses, we design a simple but effective algorithm CMLO (Constrained Model-shift Lower-bound Optimization), by introducing an event-triggered mechanism that flexibly determines when to update the model. Experiments show that CMLO surpasses other state-of-the-art methods and produces a boost when various policy optimization methods are employed.
翻訳日:2022-10-18 16:48:13 公開日:2022-10-15
# mgnni: 暗黙のレイヤを持つ多スケールグラフニューラルネットワーク

MGNNI: Multiscale Graph Neural Networks with Implicit Layers ( http://arxiv.org/abs/2210.08353v1 )

ライセンス: Link先を確認
Juncheng Liu, Bryan Hooi, Kenji Kawaguchi, Xiaokui Xiao(参考訳) 近年,暗黙のグラフニューラルネットワーク (gnns) が提案されている。 本稿では,長期依存の捕捉に有効な範囲が限られていることと,複数の解像度でグラフ上のマルチスケール情報をキャプチャする能力の欠如という,暗黙的なGNNの弱点を2つ導入し,正当化する。 従来の暗黙的GNNの限られた有効範囲を示すために、まず理論解析を行い、これらのモデルで用いられる実効範囲と反復方程式の収束の関係を指摘する。 上記の弱点を緩和するため,我々は,グラフ上のマルチスケール構造をモデル化し,長距離依存性を捉えるための有効範囲を拡張可能な,暗黙的層(mgnni)を有する多スケールグラフニューラルネットワークを提案する。 我々は,ノード分類とグラフ分類の両方の包括的実験を行い,MGNNIが代表的ベースラインより優れており,長距離依存のマルチスケールモデリングとキャプチャに優れた能力を有することを示す。

Recently, implicit graph neural networks (GNNs) have been proposed to capture long-range dependencies in underlying graphs. In this paper, we introduce and justify two weaknesses of implicit GNNs: the constrained expressiveness due to their limited effective range for capturing long-range dependencies, and their lack of ability to capture multiscale information on graphs at multiple resolutions. To show the limited effective range of previous implicit GNNs, We first provide a theoretical analysis and point out the intrinsic relationship between the effective range and the convergence of iterative equations used in these models. To mitigate the mentioned weaknesses, we propose a multiscale graph neural network with implicit layers (MGNNI) which is able to model multiscale structures on graphs and has an expanded effective range for capturing long-range dependencies. We conduct comprehensive experiments for both node classification and graph classification to show that MGNNI outperforms representative baselines and has a better ability for multiscale modeling and capturing of long-range dependencies.
翻訳日:2022-10-18 16:47:55 公開日:2022-10-15
# GFlowCausal: 因果発見のための生成フローネットワーク

GFlowCausal: Generative Flow Networks for Causal Discovery ( http://arxiv.org/abs/2210.08185v1 )

ライセンス: Link先を確認
Wenqian Li, Yinchuan Li, Shengyu Zhu, Yunfeng Shao, Jianye Hao, Yan Pang(参考訳) 因果発見は、変数の集合の因果構造を明らかにすることを目的としている。 スコアベースアプローチは主に、事前定義されたスコア関数に基づいた最良有向非巡回グラフ(dag)の探索に焦点を当てている。 しかし,探索性に制限があるため,そのほとんどは大規模に適用できない。 生成フローネットワークにおけるアクティブラーニングに触発されて,gflowcausalと呼ばれる観測データからdagを学習する新しい手法を提案する。 グラフ探索問題を生成問題に変換し、直接エッジを徐々に追加する。 GFlowCausalは、事前定義された報酬に比例した確率を持つシーケンシャルアクションによって、ハイリワードDAGを生成するための最良のポリシーを学ぶことを目的としている。 本稿では,効率的なサンプリングを実現するために,過渡的クロージャに基づくプラグアンドプレイモジュールを提案する。 理論的解析により、この加群は非巡回性の性質を効果的に保証し、最終状態と完全連結グラフの間の一貫性を保証できることを示した。 合成データセットと実データセットの両方について広範な実験を行い、提案手法が優れていることを示すとともに、大規模環境での良好な性能を示す。

Causal discovery aims to uncover causal structure among a set of variables. Score-based approaches mainly focus on searching for the best Directed Acyclic Graph (DAG) based on a predefined score function. However, most of them are not applicable on a large scale due to the limited searchability. Inspired by the active learning in generative flow networks, we propose a novel approach to learning a DAG from observational data called GFlowCausal. It converts the graph search problem to a generation problem, in which direct edges are added gradually. GFlowCausal aims to learn the best policy to generate high-reward DAGs by sequential actions with probabilities proportional to predefined rewards. We propose a plug-and-play module based on transitive closure to ensure efficient sampling. Theoretical analysis shows that this module could guarantee acyclicity properties effectively and the consistency between final states and fully-connected graphs. We conduct extensive experiments on both synthetic and real datasets, and results show the proposed approach to be superior and also performs well in a large-scale setting.
翻訳日:2022-10-18 16:38:09 公開日:2022-10-15
# 学生の学業成績予測のための機械学習アプローチとその動機に基づく学習戦略

Machine Learning Approach for Predicting Students Academic Performance and Study Strategies based on their Motivation ( http://arxiv.org/abs/2210.08186v1 )

ライセンス: Link先を確認
Fidelia A. Orji and Julita Vassileva(参考訳) 本研究の目的は、高等教育のすべてのコースに一般化可能な、学生の学業成績と学習戦略予測のための機械学習モデルの開発である。 モデル構築には,学習過程に必須な学習属性(内在的,外在的,自律性,関連性,能力,自尊心)が用いられた。 これらの属性が学生の学業成績や研究戦略に与える影響を判断することが,我々の関心の中心である。 これを調べるために,python の scikit-learn を用いて5つの機械学習モデル (decision tree, k-nearest neighbor, random forest, linear/logistic regression, support vector machine) を構築した。 モデルは,チリの著者が収集した924名の大学歯学部生のデータを用いて,定量的な研究設計により,精度を訓練し,評価し,評価した。 モデルの比較分析により、ランダム森林(予測精度94.9%)や決定木(決定木)のような木に基づくモデルが、線形、支持ベクトル、k-アネレスト近傍のモデルと比較して最良の結果を示した。 本研究で構築されたモデルは、学生の成績予測や学習戦略に活用でき、学生の学習の進捗を改善するために適切な介入が行える。 このように、オンライン教育システムの設計において多様な学習特性を改善する戦略を取り入れることで、学生が必要に応じて学習課題を継続する可能性を高めることができる。 さらに,属性を一緒にモデル化し,学習プロセスを適応/パーソナライズするために使用できることを示した。

This research aims to develop machine learning models for students academic performance and study strategies prediction which could be generalized to all courses in higher education. Key learning attributes (intrinsic, extrinsic, autonomy, relatedness, competence, and self-esteem) essential for students learning process were used in building the models. Determining the broad effect of these attributes on students' academic performance and study strategy is the center of our interest. To investigate this, we used Scikit-learn in python to build five machine learning models (Decision Tree, K-Nearest Neighbour, Random Forest, Linear/Logistic Regression, and Support Vector Machine) for both regression and classification tasks to perform our analysis. The models were trained, evaluated, and tested for accuracy using 924 university dentistry students' data collected by Chilean authors through quantitative research design. A comparative analysis of the models revealed that the tree-based models such as the random forest (with prediction accuracy of 94.9%) and decision tree show the best results compared to the linear, support vector, and k-nearest neighbours. The models built in this research can be used in predicting student performance and study strategy so that appropriate interventions could be implemented to improve student learning progress. Thus, incorporating strategies that could improve diverse student learning attributes in the design of online educational systems may increase the likelihood of students continuing with their learning tasks as required. Moreover, the results show that the attributes could be modelled together and used to adapt/personalize the learning process.
翻訳日:2022-10-18 16:37:52 公開日:2022-10-15
# D.MCA: 明示的なマイクロクラスタ割り当てによる外部検出

D.MCA: Outlier Detection with Explicit Micro-Cluster Assignments ( http://arxiv.org/abs/2210.08212v1 )

ライセンス: Link先を確認
Shuli Jiang, Robson Leonardo Ferreira Cordeiro, Leman Akoglu(参考訳) aprioriがどれだけのマイクロクラスタが存在するか知らずに、分散とクラスタ化の両方の異常値を検出し、それらをそれぞれのマイクロクラスタに明示的に割り当てるにはどうすればよいのか? 検出と割り当ての両方が互いにメリットを享受できるように、どのようにして社内で、すなわちポストホックな処理をせずに、両方のタスクを実行できるのか? 別々のマイクロクラスタに異常値を示すことは、多くの実世界のアプリケーションにおけるアナリストにとって有益である。 しかし、既存の方法によって検出された外れ値のポストホッククラスタリングに基づく na\ な解は、2つの主な欠点に悩まされる。 (a) クラスタリングには適度なハイパーパラメータ値がよく知られておらず、ほとんどのアルゴリズムは様々な形状や密度のクラスタと競合する。 b) 検出及び割り当ては相互に恩恵を受けない。 本稿では、明示的な$\underline{m}$icro-$\underline{c}$luster $\underline{a}$ssignmentを持つd.mca to $\underline{d}$etect outliersを提案する。 本手法は, 学習セットからマイクロクラスタ全体を分離し, 検出性能を向上させる新しい戦略を用いて, 反復的かつ内部的に検出と割り当ての両方を行う。 これはまた、互いにマスキングするためにクラスタ化された異常値を避ける新しい戦略の恩恵を受ける。 また、D.MCAはハイパーアンサンブルの「ウォームアップ」フェーズを用いることで、臨界ハイパーパラメータに対して堅牢であるように設計されている。 16の実世界のデータセットと合成データセットで実施された実験では、D.MCAは8つの最先端の競合、特に明示的なアウトリー・マイクロクラスタ割り当てタスクより優れていた。

How can we detect outliers, both scattered and clustered, and also explicitly assign them to respective micro-clusters, without knowing apriori how many micro-clusters exist? How can we perform both tasks in-house, i.e., without any post-hoc processing, so that both detection and assignment can benefit simultaneously from each other? Presenting outliers in separate micro-clusters is informative to analysts in many real-world applications. However, a na\"ive solution based on post-hoc clustering of the outliers detected by any existing method suffers from two main drawbacks: (a) appropriate hyperparameter values are commonly unknown for clustering, and most algorithms struggle with clusters of varying shapes and densities; (b) detection and assignment cannot benefit from one another. In this paper, we propose D.MCA to $\underline{D}$etect outliers with explicit $\underline{M}$icro-$\underline{C}$luster $\underline{A}$ssignment. Our method performs both detection and assignment iteratively, and in-house, by using a novel strategy that prunes entire micro-clusters out of the training set to improve the performance of the detection. It also benefits from a novel strategy that avoids clustered outliers to mask each other, which is a well-known problem in the literature. Also, D.MCA is designed to be robust to a critical hyperparameter by employing a hyperensemble "warm up" phase. Experiments performed on 16 real-world and synthetic datasets demonstrate that D.MCA outperforms 8 state-of-the-art competitors, especially on the explicit outlier micro-cluster assignment task.
翻訳日:2022-10-18 16:37:22 公開日:2022-10-15
# テキストゲームにおける「テキスト」の役割の再考

Revisiting the Roles of "Text" in Text Games ( http://arxiv.org/abs/2210.08384v1 )

ライセンス: Link先を確認
Yi Gu, Shunyu Yao, Chuang Gan, Joshua B. Tenenbaum, Mo Yu(参考訳) テキストゲームは、強化学習(RL)課題に取り組む自然言語理解(NLU)手法の機会を提供する。 しかし、近年の研究では、ランダムテキストハッシュが適切に動作することを示すことによって、NLUの必要性が疑問視されている。 本稿では,異なるrl課題に直面したテキストの役割を詳細に検討し,意味論的・非意味的表現がコントラストよりも補完的になり得ることを結論づける。 具体的には、RNNベースのテキストエージェントに対する追加入力として、関連するコンテキスト情報を近似状態ハッシュに抽出する簡単なスキームを提案する。 このような軽量なプラグインは知識グラフや通過探索といった高度なNLU技術を用いて最先端のテキストエージェントと競合する性能を実現し、非NLU手法が部分観測可能性の課題に取り組むのに十分であることを示す。 しかし、RNNエンコーダを除去して、近似的あるいは基底的状態ハッシュのみを用いると、そのモデルは悲惨な動作をし、組合せ的に大きな観測と行動空間の課題に取り組むために意味関数近似の重要性を確認する。 我々の発見と分析は、より良いテキストゲームタスクのセットアップとエージェントを設計するための新しい洞察を提供する。

Text games present opportunities for natural language understanding (NLU) methods to tackle reinforcement learning (RL) challenges. However, recent work has questioned the necessity of NLU by showing random text hashes could perform decently. In this paper, we pursue a fine-grained investigation into the roles of text in the face of different RL challenges, and reconcile that semantic and non-semantic language representations could be complementary rather than contrasting. Concretely, we propose a simple scheme to extract relevant contextual information into an approximate state hash as extra input for an RNN-based text agent. Such a lightweight plug-in achieves competitive performance with state-of-the-art text agents using advanced NLU techniques such as knowledge graph and passage retrieval, suggesting non-NLU methods might suffice to tackle the challenge of partial observability. However, if we remove RNN encoders and use approximate or even ground-truth state hash alone, the model performs miserably, which confirms the importance of semantic function approximation to tackle the challenge of combinatorially large observation and action spaces. Our findings and analysis provide new insights for designing better text game task setups and agents.
翻訳日:2022-10-18 16:31:21 公開日:2022-10-15
# 動的環境におけるSLAMの自己改善: いつマスクするかを学ぶ

Self-Improving SLAM in Dynamic Environments: Learning When to Mask ( http://arxiv.org/abs/2210.08350v1 )

ライセンス: Link先を確認
Adrian Bojko, Romain Dupont, Mohamed Tamaazousti, Herv\'e Le Borgne(参考訳) 動的環境における視覚SLAM -- 同時ローカライゼーションとマッピング -- は、通常、パフォーマンスに悪影響を及ぼすのを防ぐために、移動オブジェクトのイメージ特徴の識別とマスキングに依存します。 現在のアプローチは、必要ならばオブジェクトをマスクしないか、逆にオブジェクトを不要にマスクするかのどちらかである。 そこで本稿では,オブジェクトのマスキングによって動的シナリオの性能が向上する,新しいSLAMを提案する。 対象を分割する手法とSLAMを与えられた場合、対象の特定のクラスが与えられたSLAM計量を最大化するためにマスクされるべきかどうかを推測するテンポラル・マスキングの能力を後者に与える。 我々は動きに先立ってはいない。この手法は動く物体自体をマスクすることを学ぶ。 高アノテーションコストを防止するために,自己監督訓練のための自動アノテーション手法を開発した。 私たちはConsInvという新しいデータセットを構築しました。 提案手法は,TUM RGB-Dデータセット上の技術状況に到達し,KITTIおよびConsInvデータセット上で性能を向上する。

Visual SLAM -- Simultaneous Localization and Mapping -- in dynamic environments typically relies on identifying and masking image features on moving objects to prevent them from negatively affecting performance. Current approaches are suboptimal: they either fail to mask objects when needed or, on the contrary, mask objects needlessly. Thus, we propose a novel SLAM that learns when masking objects improves its performance in dynamic scenarios. Given a method to segment objects and a SLAM, we give the latter the ability of Temporal Masking, i.e., to infer when certain classes of objects should be masked to maximize any given SLAM metric. We do not make any priors on motion: our method learns to mask moving objects by itself. To prevent high annotations costs, we created an automatic annotation method for self-supervised training. We constructed a new dataset, named ConsInv, which includes challenging real-world dynamic sequences respectively indoors and outdoors. Our method reaches the state of the art on the TUM RGB-D dataset and outperforms it on KITTI and ConsInv datasets.
翻訳日:2022-10-18 16:30:14 公開日:2022-10-15
# 教師なしアクセント領域適応のための学習不変表現とリスク最小化

Learning Invariant Representation and Risk Minimized for Unsupervised Accent Domain Adaptation ( http://arxiv.org/abs/2210.08182v1 )

ライセンス: Link先を確認
Chendong Zhao, Jianzong Wang, Xiaoyang Qu, Haoqian Wang, Jing Xiao(参考訳) 音声音声に対する教師なし表現学習は、特に注釈付き音声が制限された場合、音声認識タスクにおいて印象的な性能を得た。 しかし、教師なしパラダイムは慎重に設計される必要があり、これらの表現が獲得する特性についてはほとんど知られていない。 モデルが認識に有用な情報に対して有意義な表現を学習する保証はない。 さらに、学習した表現の他の領域への適応能力を推定する必要がある。 本研究では,言語情報に対する表現を直接マッピングすることで,ドメイン不変表現の学習について検討する。 その結果,学習者は各音素の調音的特徴を捉えただけでなく,適応能力も向上し,アクセント付きベンチマークのベースラインよりも優れていた。

Unsupervised representation learning for speech audios attained impressive performances for speech recognition tasks, particularly when annotated speech is limited. However, the unsupervised paradigm needs to be carefully designed and little is known about what properties these representations acquire. There is no guarantee that the model learns meaningful representations for valuable information for recognition. Moreover, the adaptation ability of the learned representations to other domains still needs to be estimated. In this work, we explore learning domain-invariant representations via a direct mapping of speech representations to their corresponding high-level linguistic informations. Results prove that the learned latents not only capture the articulatory feature of each phoneme but also enhance the adaptation ability, outperforming the baseline largely on accented benchmarks.
翻訳日:2022-10-18 16:28:07 公開日:2022-10-15
# セキュアなフェデレーションデータ駆動進化型多目的最適化アルゴリズム

A Secure Federated Data-Driven Evolutionary Multi-objective Optimization Algorithm ( http://arxiv.org/abs/2210.08295v1 )

ライセンス: Link先を確認
Qiqi Liu, Yuping Yan, Peter Ligeti and Yaochu Jin(参考訳) データ駆動進化アルゴリズムは、通常、限られた量のデータの背後にある情報を利用して最適化することを目的としており、多くの複雑な実世界の最適化問題を解くことに成功している。 しかし、ほとんどのデータ駆動進化アルゴリズムは中央集権化されており、プライバシーとセキュリティの懸念を引き起こす。 既存の連合ベイズアルゴリズムとデータ駆動進化アルゴリズムは、主に各クライアントの生データを保護している。 そこで本稿では,サーバ上で実行した取得関数を最適化して得られた生データと新たに満たした解の両方を保護する,セキュアなフェデレーションデータ駆動型進化的多目的最適化アルゴリズムを提案する。 このクライアントの未観測点の取得関数値を計算することにより、サロゲート更新の各ラウンドでランダムに選択されたクライアント上のクエリポイントを選択し、サンプリング対象のソリューションに関する情報を漏洩するリスクを低減する。 また、各クライアントの予測対象値にセンシティブな情報が含まれている可能性があるので、diffie-hellmannベースのノイズで対象値をマスキングし、サーバを介して他のクライアントのマスキング対象値のみを選択クライアントに送信する。 取得関数の計算には予測対象値と予測の不確かさの両方が必要であるため、予測平均目標と不確かさを正規化してノイズの影響を低減する。 広範に使用されている多目的最適化ベンチマーク実験の結果,提案アルゴリズムは,フェデレートされたデータ駆動型進化最適化の性能を犠牲にすることなく,プライバシ保護とセキュリティ向上を図っている。

Data-driven evolutionary algorithms usually aim to exploit the information behind a limited amount of data to perform optimization, which have proved to be successful in solving many complex real-world optimization problems. However, most data-driven evolutionary algorithms are centralized, causing privacy and security concerns. Existing federated Bayesian algorithms and data-driven evolutionary algorithms mainly protect the raw data on each client. To address this issue, this paper proposes a secure federated data-driven evolutionary multi-objective optimization algorithm to protect both the raw data and the newly infilled solutions obtained by optimizing the acquisition function conducted on the server. We select the query points on a randomly selected client at each round of surrogate update by calculating the acquisition function values of the unobserved points on this client, thereby reducing the risk of leaking the information about the solution to be sampled. In addition, since the predicted objective values of each client may contain sensitive information, we mask the objective values with Diffie-Hellmann-based noise, and then send only the masked objective values of other clients to the selected client via the server. Since the calculation of the acquisition function also requires both the predicted objective value and the uncertainty of the prediction, the predicted mean objective and uncertainty are normalized to reduce the influence of noise. Experimental results on a set of widely used multi-objective optimization benchmarks show that the proposed algorithm can protect privacy and enhance security with only negligible sacrifice in the performance of federated data-driven evolutionary optimization.
翻訳日:2022-10-18 16:14:00 公開日:2022-10-15
# 音声翻訳のための音声合成音声生成

Generating Synthetic Speech from SpokenVocab for Speech Translation ( http://arxiv.org/abs/2210.08174v1 )

ライセンス: Link先を確認
Jinming Zhao, Gholamreza Haffar, Ehsan Shareghi(参考訳) エンドツーエンド音声翻訳(st)システムの訓練には十分な大規模データが必要であり、ほとんどの言語ペアやドメインでは利用できない。 データ不足問題に対する実用的な解決策の1つは、機械翻訳データ(MT)をテキスト音声(TTS)システムを介してSTデータに変換することである。 しかし、MTデータセットごとに変換を行う必要があるため、TSシステムの使用は面倒で遅い可能性がある。 本研究では,MTデータをSTデータにオンザフライで変換する,シンプルでスケーラブルで効果的なデータ拡張手法であるSpkenVocabを提案する。 そのアイデアは、MTシーケンスの単語に従ってSpkenVocab銀行から音声スニペットを検索し、縫い合わせることである。 Must-C の複数言語対に関する実験により,この手法は平均 1.83 BLEU スコアで強いベースラインを上回り,TTS 生成音声と同等に動作することを示した。 また、ttsシステムがない場合が多いコードスイッチングstにおいて、speakvocabをどのように適用できるかを示す。 私たちのコードはhttps://github.com/mingzi151/SpokenVocabで利用可能です。

Training end-to-end speech translation (ST) systems requires sufficiently large-scale data, which is unavailable for most language pairs and domains. One practical solution to the data scarcity issue is to convert machine translation data (MT) to ST data via text-to-speech (TTS) systems. Yet, using TTS systems can be tedious and slow, as the conversion needs to be done for each MT dataset. In this work, we propose a simple, scalable and effective data augmentation technique, i.e., SpokenVocab, to convert MT data to ST data on-the-fly. The idea is to retrieve and stitch audio snippets from a SpokenVocab bank according to words in an MT sequence. Our experiments on multiple language pairs from Must-C show that this method outperforms strong baselines by an average of 1.83 BLEU scores, and it performs equally well as TTS-generated speech. We also showcase how SpokenVocab can be applied in code-switching ST for which often no TTS systems exit. Our code is available at https://github.com/mingzi151/SpokenVocab
翻訳日:2022-10-18 16:13:35 公開日:2022-10-15
# 放射線画像と解剖プロンプトによる放射線要約の改善

Improving Radiology Summarization with Radiograph and Anatomy Prompts ( http://arxiv.org/abs/2210.08303v1 )

ライセンス: Link先を確認
Jinpeng Hu, Zhihong Chen, Yang Liu, Xiang Wan, Tsung-Hui Chang(参考訳) この印象は,放射線科医の知見と推理から結論づけられるため,参考医にとって重要な情報を把握することが重要である。 放射線技師の作業量を軽減し、印象書における繰り返しの人的労働を減らすために、多くの研究者が自動印象生成に焦点を合わせてきた。 しかし,近年の研究では,対応する知見を概説し,放射線画像に対する注意を払拭した。 臨床的には、ラジオグラフィーは、特に複雑な症例において、放射線学者の印象記述を強化するために、より詳細な貴重な観察を提供することができる。 さらに、各文は、通常、単一の解剖に焦点を当てているため、画像全体ではなく、対応する解剖学的領域にのみマッチする必要があり、テキスト的および視覚的特徴のアライメントに有用である。 そこで我々は,印象生成を促進するために,新しい解剖学的拡張型マルチモーダルモデルを提案する。 より詳しくは、まず解剖学を抽出する一連のルールを構築し、各文にこれらのプロンプトを置き、解剖学的特徴を強調する。 次に、ラジオグラフと所見から特徴を抽出するために2つの異なるエンコーダを適用する。 その後,コントラスト学習モジュールを用いて,これら2つの表現を全体レベルで整列させ,解剖学的に強調された文表現の助けを借りて,文レベルでの融合を行う。 そして、デコーダは融合情報を入力としてインプレッションを生成する。 2つのベンチマークデータセットにおける実験結果から,提案手法の有効性を確認した。

The impression is crucial for the referring physicians to grasp key information since it is concluded from the findings and reasoning of radiologists. To alleviate the workload of radiologists and reduce repetitive human labor in impression writing, many researchers have focused on automatic impression generation. However, recent works on this task mainly summarize the corresponding findings and pay less attention to the radiology images. In clinical, radiographs can provide more detailed valuable observations to enhance radiologists' impression writing, especially for complicated cases. Besides, each sentence in findings usually focuses on single anatomy, so they only need to be matched to corresponding anatomical regions instead of the whole image, which is beneficial for textual and visual features alignment. Therefore, we propose a novel anatomy-enhanced multimodal model to promote impression generation. In detail, we first construct a set of rules to extract anatomies and put these prompts into each sentence to highlight anatomy characteristics. Then, two separate encoders are applied to extract features from the radiograph and findings. Afterward, we utilize a contrastive learning module to align these two representations at the overall level and use a co-attention to fuse them at the sentence level with the help of anatomy-enhanced sentence representation. Finally, the decoder takes the fused information as the input to generate impressions. The experimental results on two benchmark datasets confirm the effectiveness of the proposed method, which achieves state-of-the-art results.
翻訳日:2022-10-18 15:44:31 公開日:2022-10-15
# 文の曖昧性、文法性および複雑性プローブ

Sentence Ambiguity, Grammaticality and Complexity Probes ( http://arxiv.org/abs/2210.06928v2 )

ライセンス: Link先を確認
Sunit Bhattacharya, Vil\'em Zouhar, Ond\v{r}ej Bojar(参考訳) 事前学習された大きな言語モデルが曖昧さ、文法性、文の複雑さといった微妙な言語的特徴を捉えているかどうかは不明である。 本稿では,これらの特徴を自動分類し,その生存可能性と表現型間のパターンを比較した。 本研究では,表層アーティファクトを持つテンプレートベースのデータセットを探索に使用するべきではないこと,ベースラインとの比較を慎重に行うべきであること,高密度ベクトル表現中の特徴の特定にt-SNEプロットを使用するべきではないことを実証する。 また、これらのモデルのレイヤ内で機能が高度にローカライズされ、上位層で失われる可能性も示しています。

It is unclear whether, how and where large pre-trained language models capture subtle linguistic traits like ambiguity, grammaticality and sentence complexity. We present results of automatic classification of these traits and compare their viability and patterns across representation types. We demonstrate that template-based datasets with surface-level artifacts should not be used for probing, careful comparisons with baselines should be done and that t-SNE plots should not be used to determine the presence of a feature among dense vectors representations. We also show how features might be highly localized in the layers for these models and get lost in the upper layers.
翻訳日:2022-10-18 13:27:34 公開日:2022-10-15
# 脳ネットワークトランスフォーマー

Brain Network Transformer ( http://arxiv.org/abs/2210.06681v2 )

ライセンス: Link先を確認
Xuan Kan, Wei Dai, Hejie Cui, Zilong Zhang, Ying Guo, Carl Yang(参考訳) 人間の脳は一般的に、関心の領域(ROI)のネットワークとしてモデル化され、脳機能や精神障害を理解するためのそれらの接続としてモデル化される。 近年、グラフを含む様々な種類のデータに対してトランスフォーマーモデルが研究されており、性能向上が期待されている。 本研究では,脳ネットワーク解析のためのトランスフォーマーモデルについて検討する。 データのユニークな特性によって、脳ネットワークを一定のサイズと順序のノードを持つグラフとしてモデル化し、(1)接続プロファイルをノードの特徴として使用して、自然で低コストな位置情報を提供し、(2)rois間のペアワイズ接続強度を、下流解析タスクに予測可能な個人間で効率的に学習する。 さらに,自己教師付きソフトクラスタリングと正則投影に基づくオルソノーマルクラスタリング読み出し操作を提案する。 この設計はroisのグループ間で類似した振る舞いを決定づけ、クラスタ対応ノード埋め込みと有益グラフ埋め込みを区別する基礎となる機能モジュールを規定している。 最後に、abideの一般公開された大規模脳ネットワークデータセットで評価パイプラインを再標準化し、異なるモデルの有意義な比較を可能にした。 実験の結果,提案したBrain Network Transformerは,公開ABIDEと制限されたABCDデータセットの両方で明らかに改善されている。 実装はhttps://github.com/Wayfear/BrainNetworkTransformerで公開されている。

Human brains are commonly modeled as networks of Regions of Interest (ROIs) and their connections for the understanding of brain functions and mental disorders. Recently, Transformer-based models have been studied over different types of data, including graphs, shown to bring performance gains widely. In this work, we study Transformer-based models for brain network analysis. Driven by the unique properties of data, we model brain networks as graphs with nodes of fixed size and order, which allows us to (1) use connection profiles as node features to provide natural and low-cost positional information and (2) learn pair-wise connection strengths among ROIs with efficient attention weights across individuals that are predictive towards downstream analysis tasks. Moreover, we propose an Orthonormal Clustering Readout operation based on self-supervised soft clustering and orthonormal projection. This design accounts for the underlying functional modules that determine similar behaviors among groups of ROIs, leading to distinguishable cluster-aware node embeddings and informative graph embeddings. Finally, we re-standardize the evaluation pipeline on the only one publicly available large-scale brain network dataset of ABIDE, to enable meaningful comparison of different models. Experiment results show clear improvements of our proposed Brain Network Transformer on both the public ABIDE and our restricted ABCD datasets. The implementation is available at https://github.com/Wayfear/BrainNetworkTransformer.
翻訳日:2022-10-18 13:17:41 公開日:2022-10-15
# SubeventWriter: コヒーレンスコントローラを用いた反復サブイベントシーケンス生成

SubeventWriter: Iterative Sub-event Sequence Generation with Coherence Controller ( http://arxiv.org/abs/2210.06694v2 )

ライセンス: Link先を確認
Zhaowei Wang, Hongming Zhang, Tianqing Fang, Yangqiu Song, Ginny Y. Wong and Simon See(参考訳) 本稿では,未確認プロセスにおけるサブイベント生成の新しいタスクを提案し,サブイベント動作とオブジェクトのコヒーレンスを理解することを評価する。 そこで我々は,コヒーレンスコントローラを備えたサブイベントシーケンス生成フレームワークであるSubeventWriterを設計した。 見えないプロセスが与えられると、フレームワークは各イテレーションで1つのサブイベントを生成することによって、サブイベントシーケンスを反復的に構築できる。 また、よりコヒーレントなサブイベントをデコードする非常に効果的なコヒーレンスコントローラも設計します。 広範な実験と分析が示すように、subeventwriterは未発見のプロセスに対して、より信頼性が高く意味のあるサブイベントシーケンスを生成することができる。

In this paper, we propose a new task of sub-event generation for an unseen process to evaluate the understanding of the coherence of sub-event actions and objects. To solve the problem, we design SubeventWriter, a sub-event sequence generation framework with a coherence controller. Given an unseen process, the framework can iteratively construct the sub-event sequence by generating one sub-event at each iteration. We also design a very effective coherence controller to decode more coherent sub-events. As our extensive experiments and analysis indicate, SubeventWriter can generate more reliable and meaningful sub-event sequences for unseen processes.
翻訳日:2022-10-18 13:17:18 公開日:2022-10-15