このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221026となっている論文です。

PDF登録状況(公開日: 20221026)

TitleAuthorsAbstract論文公表日・翻訳日
# 逆時間進化を伴わない時間外相関関数の測定

Measuring out-of-time-ordered correlation functions without reversing time evolution ( http://arxiv.org/abs/2003.03980v3 )

ライセンス: Link先を確認
Philip Daniel Blocher, Serwan Asaad, Vincent Mourik, Mark A. I. Johnson, Andrea Morello, Klaus M{\o}lmer(参考訳) 時間外相関関数(OTOC)は、複雑な相互作用による量子情報の揺らぎの定量化において、熱化、絡み合い、量子カオスの研究において重要な役割を果たす。 その結果、OTOCは実験的に測定することが困難である。 本稿では,時間発展の反転に依存しず,様々な実験環境で容易に実装できるotoc計測プロトコルを提案する。 このプロトコルは純粋な初期状態と混合初期状態の両方を考慮し、環境自由度と相互作用するシステムに適用できる。 量子カオスを示す周期駆動スピンにおけるスクランブルのキャラクタリゼーションにより,本プロトコルの適用を実証する。

Out-of-time-ordered correlation functions (OTOCs) play a crucial role in the study of thermalization, entanglement, and quantum chaos, as they quantify the scrambling of quantum information due to complex interactions. As a consequence of their out-of-time-ordered nature, OTOCs are difficult to measure experimentally. Here we propose an OTOC measurement protocol that does not rely on the reversal of time evolution and is easy to implement in a range of experimental settings. The protocol accounts for both pure and mixed initial states, and is applicable to systems that interact with environmental degrees of freedom. We demonstrate the application of our protocol by the characterization of scrambling in a periodically-driven spin that exhibits quantum chaos.
翻訳日:2023-05-30 03:14:00 公開日:2022-10-26
# QBismは簡単には受け入れられない

QBism Is Not So Simply Dismissed ( http://arxiv.org/abs/2006.02790v2 )

ライセンス: Link先を確認
Ali Barzegar(参考訳) QBismは、量子力学のエピステミック解釈の主要な候補の1つである。 QBismによると、量子状態または波動関数は、状態を割り当てるエージェントの主観的な信念の度合いを表す。 しかし、量子状態は世界の家具の一部ではないが、量子力学はエージェントの確率割り当ての整合条件であるボルン則を介して現実を把握している。 本稿では,近年のQB主義批判の妥当性を評価する。 我々は、量子状態の主観的性格の結果、リアリズムの問題、QBズムにおける量子状態の進化の問題に焦点を当てる。 特に、ボルンの不変性の概念を実のマークとして用いて、アインシュタインの「実」プログラムとQB主義者のリアリズムの間には本質的な違いはないと論じられている。 また、QBismは量子状態のユニタリ進化を説明できると論じられる。

QBism is one of the main candidates for an epistemic interpretation of quantum mechanics. According to QBism, the quantum state or the wavefunction represents the subjective degrees of belief of the agent assigning the state. But, although the quantum state is not part of the furniture of the world, quantum mechanics grasps the real via the Born rule which is a consistency condition for the probability assignments of the agent. In this paper, we evaluate the plausibility of recent criticism of QBism . We focus on the consequences of the subjective character of the quantum state, the issue of realism and the problem of the evolution of the quantum state in QBism. In particular, drawing upon Born's notion of invariance as the mark of the real, it is argued that there is no essential difference between Einstein's program of the "real" and QBists' realism. Also, it will be argued that QBism can account for the unitary evolution of the quantum state.
翻訳日:2023-05-17 04:31:12 公開日:2022-10-26
# 非対称2光子量子ラビ模型の対称性作用素

Symmetry operators of the asymmetric two-photon quantum Rabi model ( http://arxiv.org/abs/2106.05817v2 )

ライセンス: Link先を確認
You-Fei Xie and Qing-Hu Chen(参考訳) 非対称2光子量子Rabiモデル(tpQRM)のサブ空間における真のレベル交差は、クォービットのバイアスパラメータが再正規化された空洞周波数の偶数倍であるときに観測されている。 一般に、そのようなレベル交差は、バイアス項が明らかな対称性を正確に破壊するため、隠れ対称性の存在を意味する。 本研究では,非対称tpqrmに対するボゴリューボフ作用素アプローチ(boa)を提案し,非対称tpqrmの非対称作用素を階層的に導出する。 低バイアスのリー代数からなる明示的対称性作用素は、この一般スキームにおいて容易に得られる。 我々は、このアプローチが関連する隠れ対称性を見つけるために他の非対称ラビモデルにも拡張できると信じている。

The true level crossings in a subspace of the asymmetric two-photon quantum Rabi model (tpQRM) have been observed when the bias parameter of qubit is an even multiple of the renormalized cavity frequency. Generally, such level crossings imply the existence of the hidden symmetry because the bias term breaks the obvious symmetry exactly. In this work, we propose a Bogoliubov operator approach (BOA) for the asymmetric tpQRM to derive the symmetry operators associated with the hidden symmetry hierarchically. The explicit symmetry operators consisting of Lie algebra at low biases can be easily obtained in our general scheme. We believe the present approach can be extended for other asymmetric Rabi models to find the relevant hidden symmetry.
翻訳日:2023-03-27 02:01:58 公開日:2022-10-26
# 熱電性ナノ接合における強結合:反応座標系

Strong coupling in thermoelectric nanojunctions: a reaction coordinate framework ( http://arxiv.org/abs/2106.14799v2 )

ライセンス: Link先を確認
Conor McConnell, Ahsan Nazir(参考訳) 振動アシストトンネルにより駆動される熱電ナノ接合のモデルについて検討した。 反応座標形式論を用いて、弱電子-振動結合限界を超える熱電特性を支配するマスター方程式を導出する。 全計数統計を用いて, 弱振動結合近似を使わずに電流の流れ, 熱パワー, 関連雑音, 効率を計算する。 強結合における電力効率-精度トレードオフの複雑さを示し、我々のモデルではこれら3つを同時に最大化できないことを示す。 最後に, 強い結合と複数の環境を考慮した場合の非添加性獲得の重要性を強調し, カーノットが課した熱電効率の上限値に環境の付加的処理が適用可能であることを示した。

We study a model of a thermoelectric nanojunction driven by vibrationally-assisted tunneling. We apply the reaction coordinate formalism to derive a master equation governing its thermoelectric performance beyond the weak electron-vibrational coupling limit. Employing full counting statistics we calculate the current flow, thermopower, associated noise, and efficiency without resorting to the weak vibrational coupling approximation. We demonstrate intricacies of the power-efficiency-precision trade-off at strong coupling, showing that the three cannot be maximised simultaneously in our model. Finally, we emphasise the importance of capturing non-additivity when considering strong coupling and multiple environments, demonstrating that an additive treatment of the environments can violate the upper bound on thermoelectric efficiency imposed by Carnot.
翻訳日:2023-03-24 22:02:25 公開日:2022-10-26
# Unital Qubit Queue-channels: Classical Capacity and Product Decoding

Unital Qubit Queue-channels: Classical Capacity and Product Decoding ( http://arxiv.org/abs/2110.02800v2 )

ライセンス: Link先を確認
Vikesh Siddhu, Avhishek Chatterjee, Krishna Jagannathan, Prabha Mandayam, Sridhar Tayur(参考訳) 量子キューチャネル(quantum queue-channels)は、量子ネットワークにおけるバッファリングの文脈において自然に発生する。 加算待ち行列チャネルの古典的容量の上界は単純な表現を持ち、消去・脱分極チャネル(ieee jsait, 1(2):432-444])で実現可能であることが示されている。 本稿では,単位量子キューチャネルのクラスにおける古典的キャパシティを特徴付け,単純な積(非絡み合い)デコーディング戦略がキャパシティを実現することを示す。 中間的な結果として、任意の単位キュービットチャネルに対する積復号化戦略を実現する明示的な能力が導出され、独立した興味を持つことができる。 重要な特別な場合として、対称一般化振幅減衰(gad)キューチャネルのキャパシティと最適復号戦略も導出する。 この結果は,実用的な量子通信ネットワークの設計に有用な知見を与え,バッファリングの影響を明示的にモデル化する必要性を強調した。

Quantum queue-channels arise naturally in the context of buffering in quantum networks, wherein the noise suffered by the quantum states depends on the time spent waiting in the buffer. It has been shown that the upper-bound on the classical capacity of an additive queue-channel has a simple expression, and is achievable for the erasure and depolarizing channels [IEEE JSAIT, 1(2):432-444]. In this paper, we characterise the classical capacity for the class of unital qubit queue-channels, and show that a simple product (non-entangled) decoding strategy is capacity-achieving. As an intermediate result, we derive an explicit capacity achieving product decoding strategy for any i.i.d. unital qubit channel, which could be of independent interest. As an important special case, we also derive the capacity and optimal decoding strategies for a symmetric generalized amplitude damping (GAD) queue-channel. Our results provide useful insights towards designing practical quantum communication networks, and highlight the need to explicitly model the impact of buffering.
翻訳日:2023-03-12 08:08:43 公開日:2022-10-26
# 音響フォノン場を介する光力学的量子絡み合い

Optomechanical quantum entanglement mediated by acoustic phonon fields ( http://arxiv.org/abs/2110.13278v3 )

ライセンス: Link先を確認
Qidong Xu, M. P. Blencowe(参考訳) 本稿では,空間的に分離された2つの局所インダクタ・キャパシタ(LC)発振器を,量子熱場環境として機能する長い弾性ストリップに光学的に結合する量子時間発展の正確な解を提案する。 共振光子交換がなければ,音響環境への光力学的結合は2つのlc発振器間の因果的絡み合いダイナミクスを生じさせ,環境温度によらず大きな絡み合いが生じることを示した。 このようなプロセスは、共振フォノンの放出と捕獲を必要とせず、接続されたフォノンバスバーを介して超伝導量子ビット間で分散絡みが生成されることを証明している。

We present exact solutions for the quantum time evolution of two spatially separated, local inductor-capacitor (LC) oscillators that are coupled optomechanically to a long elastic strip that functions as a quantum thermal acoustic field environment. We show that the optomechanical coupling to the acoustic environment gives rise to causal entanglement dynamics between the two LC oscillators in the absence of resonant photon exchange between them, and that significant entanglement develops regardless of the environment temperature. Such a process establishes that distributed entanglement may be generated between superconducting qubits via a connected phonon bus bar, without the need for resonant phonon release and capture.
翻訳日:2023-03-10 07:33:53 公開日:2022-10-26
# 効果代数におけるスペクトル分解

Spectral resolutions in effect algebras ( http://arxiv.org/abs/2111.02166v3 )

ライセンス: Link先を確認
Anna Jen\v{c}ov\'a and Sylvia Pulmannov\'a(参考訳) 効果代数は量子力学的測定を表すヒルベルト空間効果の抽象代数モデルとして導入された。 我々は、自己随伴作用素に類似した$e$の元のスペクトル性とスペクトル分解を定義できる効果代数 $e$ のさらなる構造について研究する。 これらの構造は圧縮基底と呼ばれ、作用素代数、順序単位空間、あるいはユニタリアーベル群上の圧縮の集合に類似した$E$上の特別な写像の族である。 圧縮基底の要素は射影と呼ばれる$E$の特定の要素と1対1で対応している。 効果代数は、射影被覆性質(すなわち、すべての元に対して$a$ in $e$ を主とする最小の射影が存在する)と、作用素代数やユニタリアーベル群における一般可換性(英語版)(general comparability)の類似であるいわゆる b-comparability property(英語版)(b-comparability property)である。 スペクトルアルキメデス効果代数 $e$ において、すべての$a\in e$ は一意な有理スペクトル分解を許容し、その性質が研究されている。 さらに$E$ が状態の分離集合を持つなら、すべての元 $a\in E$ はそのスペクトル分解によって決定される。 また、ある種類の区間効果代数(RDP、アルキメデス除算可能)に対して、$E$のスペクトル性はその普遍群のスペクトル性と等価であり、対応する有理スペクトル分解は同じであることが証明されている。 特に、凸アルキメデス効果代数では、$E$のスペクトル分解は対応する順序単位空間のスペクトル分解と一致する。

Effect algebras were introduced as an abstract algebraic model for Hilbert space effects representing quantum mechanical measurements. We study additional structures on an effect algebra $E$ that enable us to define spectrality and spectral resolutions for elements of $E$ akin to those of self-adjoint operators. These structures, called compression bases, are special families of maps on $E$, analogous to the set of compressions on operator algebras, order unit spaces or unital abelian groups. Elements of a compression base are in one-to-one correspondence with certain elements of $E$, called projections. An effect algebra is called spectral if it has a distinguished compression base with two special properties: the projection cover property (i.e., for every element $a$ in $E$ there is a smallest projection majorizing $a$), and the so-called b-comparability property, which is an analogue of general comparability in operator algebras or unital abelian groups. It is shown that in a spectral archimedean effect algebra $E$, every $a\in E$ admits a unique rational spectral resolution and its properties are studied. If in addition $E$ possesses a separating set of states, then every element $a\in E$ is determined by its spectral resolution. It is also proved that for some types of interval effect algebras (with RDP, archimedean divisible), spectrality of $E$ is equivalent to spectrality of its universal group and the corresponding rational spectral resolutions are the same. In particular, for convex archimedean effect algebras, spectral resolutions in $E$ are in agreement with spectral resolutions in the corresponding order unit space.
翻訳日:2023-03-09 06:59:02 公開日:2022-10-26
# 射影演算子に基づく閉量子系の軌道最適化のためのニュートン法

A Projection Operator-based Newton Method for the Trajectory Optimization of Closed Quantum Systems ( http://arxiv.org/abs/2111.08795v3 )

ライセンス: Link先を確認
Jieqiu Shao, Joshua Combes, John Hauser and Marco M. Nicotra(参考訳) 量子最適制御は高速状態形成とゲート設計を可能にする重要な技術である。 解析解がない場合、ほとんどの量子最適制御法は解推定を更新するために反復スキームに依存する。 現在、既存の解の収束率は最も超線型である。 本稿では、軌道最適化のためのPRojection Operator Newton法に基づく量子最適制御のための新しい汎用解法を開発した。 具体的には、投影演算子を用いてコスト関数に直接schr\"odinger方程式を組み込む手法を提案し、準ニュートン法を用いて最小化する。 各イテレーションにおいて、線形-四次軌道最適化問題に対する解析解を演算して降下方向を求める。 その結果、反復ごとに単調収束と解に近い二次収束が保証される。 PRONTOの可能性を強調するために、量子ビットの最適状態間マッピング問題を解くためにそれを用いた数値例を示し、その性能を最先端の2次最適制御法と比較する。

Quantum optimal control is an important technology that enables fast state preparation and gate design. In the absence of an analytic solution, most quantum optimal control methods rely on an iterative scheme to update the solution estimate. At present, the convergence rate of existing solvers is at most superlinear. This paper develops a new general purpose solver for quantum optimal control based on the PRojection Operator Newton method for Trajectory Optimization, or PRONTO. Specifically, the proposed approach uses a projection operator to incorporate the Schr\"odinger equation directly into the cost function, which is then minimized using a quasi-Newton method. At each iteration, the descent direction is obtained by computing the analytic solution to a Linear-Quadratic trajectory optimization problem. The resulting method guarantees monotonic convergence at every iteration and quadratic convergence in proximity of the solution. To highlight the potential of PRONTO, we present an numerical example that employs it to solve the optimal state-to-state mapping problem for a qubit and compares its performance to a state-of-the-art quadratic optimal control method.
翻訳日:2023-03-07 23:44:17 公開日:2022-10-26
# 現代ポピュラー音楽における新奇性と文化進化

Novelty and Cultural Evolution in Modern Popular Music ( http://arxiv.org/abs/2206.07754v2 )

ライセンス: Link先を確認
Katherine O'Toole and Em\H{o}ke-\'Agnes Horv\'at(参考訳) デジタル音楽消費の多様さにより、現代音楽に関する情報を抽出し、時間とともに様式的変化を大規模に分析することが可能になった。 文化進化の根底にあるパターンを明らかにするため、異なるジャンルやスタイルの確立された特徴と、この継続的な創造的進化を促進する新しいアイデアの導入との関係を考察する。 このダイナミクスがどのようにして文化生態系を形作るのかを理解するため、現代と音楽のアーティファクトを比較して、新しいアーティファクトを識別し、ノベルティと商業的成功の関係を研究し、これを時間をかけて観察できる音楽コンテンツの変化に結びつける。 1974年から2013年にかけて,Billboard Hot 100曲の楽曲情報検索(MIR)データと歌詞を用いて,各楽曲の聴覚特性と歌詞の新規性スコアを算出する。 両楽譜をリリース後の曲の人気と比較し,新規性とオーディエンス・レセプションの関係における重要なパターンを明らかにする。 さらに,MIRと歌詞の特徴がどの位置に収まるかを考えると,新鮮さと歌の影響の可能性の関連性についても考察した。

The ubiquity of digital music consumption has made it possible to extract information about modern music that allows us to perform large scale analysis of stylistic change over time. In order to uncover underlying patterns in cultural evolution, we examine the relationship between the established characteristics of different genres and styles, and the introduction of novel ideas that fuel this ongoing creative evolution. To understand how this dynamic plays out and shapes the cultural ecosystem, we compare musical artifacts to their contemporaries to identify novel artifacts, study the relationship between novelty and commercial success, and connect this to the changes in musical content that we can observe over time. Using Music Information Retrieval (MIR) data and lyrics from Billboard Hot 100 songs between 1974-2013, we calculate a novelty score for each song's aural attributes and lyrics. Comparing both scores to the popularity of the song following its release, we uncover key patterns in the relationship between novelty and audience reception. Additionally, we look at the link between novelty and the likelihood that a song was influential given where its MIR and lyrical features fit within the larger trends we observed.
翻訳日:2023-02-19 17:47:28 公開日:2022-10-26
# プロンプトアレイはバイアスを遠ざける: 逆学習による視覚言語モデルの偏り

A Prompt Array Keeps the Bias Away: Debiasing Vision-Language Models with Adversarial Learning ( http://arxiv.org/abs/2203.11933v4 )

ライセンス: Link先を確認
Hugo Berg, Siobhan Mackenzie Hall, Yash Bhalgat, Wonsuk Yang, Hannah Rose Kirk, Aleksandar Shtedritski, Max Bain(参考訳) 視覚言語モデルは社会バイアスやステレオタイプをエンコードできるが、測定の堅牢性と特徴劣化の欠如により、これらのマルチモーダル害の測定と緩和には課題がある。 これらの課題に対処するために,バイアス尺度を調査し,画像テキスト表現にランク付け指標を適用する。 次に, 先行学習によるテキストクエリへの埋め込みが, 相反的デバイアスとコントラスト損失を併用することで, 画像テキスト表現の劣化を最小限に抑えることができることを示す。

Vision-language models can encode societal biases and stereotypes, but there are challenges to measuring and mitigating these multimodal harms due to lacking measurement robustness and feature degradation. To address these challenges, we investigate bias measures and apply ranking metrics for image-text representations. We then investigate debiasing methods and show that prepending learned embeddings to text queries that are jointly trained with adversarial debiasing and a contrastive loss reduces various bias measures with minimal degradation to the image-text representation.
翻訳日:2023-02-19 15:48:44 公開日:2022-10-26
# 倫理的機械学習のための因果関係の約束と課題

Promises and Challenges of Causality for Ethical Machine Learning ( http://arxiv.org/abs/2201.10683v2 )

ライセンス: Link先を確認
Aida Rahmattalabi, Alice Xiang(参考訳) 近年、法的枠組みとの互換性、人間の利害関係者の解釈可能性、観察データに固有のスプリアス相関に対する堅牢性などにより、公正な意思決定システムを設計するための因果的推論への関心が高まっている。 しかし、近年の因果的公平性に対する注意は、現在の因果的公平性アプローチを文献に応用することに対する実践的かつ認識論的課題により、大きな懐疑論を伴っている。 本稿では, 計量学, 社会科学, 生物医学における因果関係に関する長年の実証研究に動機づけられ, 因果関係の公平さの適切な適用条件を「潜在的成果の枠組み」に基づいて概説する。 我々は,因果的フェアネス文学においてしばしば無視される因果的推論の重要な側面を強調する。 特に,人種やジェンダーなどの社会的カテゴリーにおける介入の性質とタイミングを特定することの重要性について論じる。 正確には、不変属性への介入を仮定する代わりに、その認識に焦点を移すことを提案し、公平性評価の意義について議論する。 このような介入の概念化は, 因果仮説の妥当性を評価し, 治療後バイアスを回避しつつ, 適切な因果分析を行う上で重要である。 その後、統計的相関に依存するものを含め、既存の公正度指標の限界に因果性がどのように対処できるかを説明する。 具体的には、共通統計的フェアネス概念の因果的変種を導入し、因果枠組みの下でフェアネスの異なる概念の間に根本的な食い違いがないという新しい観察を行う。 最後に,処理後変数が存在する場合に,不公平性の評価と緩和のためのアプローチを実証する広範囲な実験を行った。

In recent years, there has been increasing interest in causal reasoning for designing fair decision-making systems due to its compatibility with legal frameworks, interpretability for human stakeholders, and robustness to spurious correlations inherent in observational data, among other factors. The recent attention to causal fairness, however, has been accompanied with great skepticism due to practical and epistemological challenges with applying current causal fairness approaches in the literature. Motivated by the long-standing empirical work on causality in econometrics, social sciences, and biomedical sciences, in this paper we lay out the conditions for appropriate application of causal fairness under the "potential outcomes framework." We highlight key aspects of causal inference that are often ignored in the causal fairness literature. In particular, we discuss the importance of specifying the nature and timing of interventions on social categories such as race or gender. Precisely, instead of postulating an intervention on immutable attributes, we propose a shift in focus to their perceptions and discuss the implications for fairness evaluation. We argue that such conceptualization of the intervention is key in evaluating the validity of causal assumptions and conducting sound causal analysis including avoiding post-treatment bias. Subsequently, we illustrate how causality can address the limitations of existing fairness metrics, including those that depend upon statistical correlations. Specifically, we introduce causal variants of common statistical notions of fairness, and we make a novel observation that under the causal framework there is no fundamental disagreement between different notions of fairness. Finally, we conduct extensive experiments where we demonstrate our approach for evaluating and mitigating unfairness, specially when post-treatment variables are present.
翻訳日:2023-02-19 14:29:56 公開日:2022-10-26
# バングラデシュの主要都市におけるIoTによる効率的な街灯制御・監視・リアルタイムエラー検出システム

IoT-based Efficient Streetlight Controlling, Monitoring and Real-time Error Detection System in Major Bangladeshi Cities ( http://arxiv.org/abs/2211.00074v1 )

ライセンス: Link先を確認
A.T.M Mustafa Masud Chowdhury, Jeenat Sultana, Md Sakib Ullah Sourav(参考訳) バングラデシュでは、街路灯の管理が不適切なため、電気の膨大な浪費が見られ、毎年巨額の損失を出している。 バングラデシュでは、モノのインターネット(internet of things, モノのインターネット)を使ってこの問題に取り組むため、世界中のさまざまな地域の研究者によって多くの注目すべき研究が行われている。 本研究では,クラウドによる監視,外部照明条件や交通検知による光ダイミングによる制御,低電力・電力消費を確保するための故障検出システムなどを実現する,モノのインターネットをベースとした効率的な街灯統合フレームワークを提案する。 本研究では, ダッカ・ノース・アンド・サウスシティ・コーポレーション, ナラヤンガン・シティ・コーポレーション, チャトグラム・シティ・コーポレーションのデータを分析し, 提案モデルにより, 既存のシステムに比べて最大60%のエネルギーコスト削減効果を示した。

A huge wastage of electricity can be seen in Bangladesh due to improper street light management which leads to an enormous financial loss every year. Many noteworthy works have been done by researchers from different parts of the world in tackling this issue by using the Internet of Things yet very few in Bangladeshi perspective. In this work, we propose an efficient Internet of Things-based integrated streetlight framework that offers cloud-powered monitoring, controlling through light dimming as per external lighting conditions and traffic detection, as well as a fault-detecting system to ensure low power and electricity consumption. We analyzed data from Dhaka North and South City Corporation, Narayanganj City Corporation, and Chattogram City Corporation where our proposed model demonstrates a reduction in energy cost of up to approximately 60 percent more than that of the existing system.
翻訳日:2023-02-19 12:12:08 公開日:2022-10-26
# 電子メール不正に対するアクティブ対策

Active Countermeasures for Email Fraud ( http://arxiv.org/abs/2210.15043v1 )

ライセンス: Link先を確認
Wentao Chen, Fuzhou Wang, Matthew Edwards(参考訳) オンライン犯罪の主要な要素として、メールベースの詐欺は毎年大きな経済的損失をもたらす脅威である。 これらの詐欺に対処するため、詐欺師と呼ばれるボランティアは被害者の役割を担い、詐欺に応答し、長く非生産的な会話で時間と注意を無駄にしようとする。 メール詐欺を抑止し、詐欺行為の有効性を拡大するために、詐欺行為を自動的に行うことができる拡張可能な詐欺行為メールサーバを開発し、デプロイした。 3つの異なるモデルを用いて3つの返信戦略を実装し,130種類の詐欺師から150のメッセージを引き出す1ヶ月間の実験を行った。 我々は,詐欺行為の注意を引くための各戦略のパフォーマンスを比較し,人書きと自動生成の対応戦略のトレードオフを見つけ,オンライン詐欺の防止に向けた今後の取り組みを支援するために,自動詐欺犯と実際の詐欺師の会話を含むデータセットとを公開する。

As a major component of online crime, email-based fraud is a threat that causes substantial economic losses every year. To counteract these scammers, volunteers called scam-baiters play the roles of victims, reply to scammers, and try to waste their time and attention with long and unproductive conversations. To curb email fraud and magnify the effectiveness of scam-baiting, we developed and deployed an expandable scam-baiting mailserver that can conduct scam-baiting activities automatically. We implemented three reply strategies using three different models and conducted a one-month-long experiment during which we elicited 150 messages from 130 different scammers. We compare the performance of each strategy at attracting and holding the attention of scammers, finding tradeoffs between human-written and automatically-generated response strategies, and we release both our platform and a dataset containing conversations between our automatic scam-baiters and real human scammers, to support future work in preventing online fraud.
翻訳日:2023-02-19 12:05:36 公開日:2022-10-26
# kube-volttron: クラウドネイティブデプロイメントのためのvolttronビルディングエネルギ管理システムの再構築

kube-volttron: Rearchitecting the VOLTTRON Building Energy Management System for Cloud Native Deployment ( http://arxiv.org/abs/2210.14948v1 )

ライセンス: Link先を確認
James Kempf(参考訳) 構築された環境のエネルギー消費を管理することは、柔軟な負荷と脱炭素の重要な源であり、建築管理者やユーティリティーは、電力網からの二酸化炭素排出量が最も高い場合、コストのかかる需要料金やピーク時間を避けるために消費をスケジュールできる。 建築エネルギー管理における重要な技術要素は、建築エネルギー管理システムである。 Eclipse VOLTTRONは、エネルギー管理を構築するためのレガシーソフトウェアプラットフォームである。 pythonで書かれたパシフィックノースウェスト国立研究所(pnnl)の米国エネルギー省(doe)のために開発され、クラウドネイティブアーキテクチャのコンセプトに先行した、モノリシックなビルド設定と実行可能なシステムアーキテクチャに基づいている。 それでもソフトウェアアーキテクチャは、データストレージやwebアクセス、bacnetやmodbusといった特定のiotプロトコル上のiotデバイスとの通信といった機能を扱うソフトウェアエージェントによって、モジュール化されたコンテナ化されたアプリケーションを予測する方法でコンポーネント化されている。 エージェントはメッセージバスを介して互いに通信します。 本稿では、VOLTTRONをKubernetesクラウドネイティブなコンテナオーケストレーションプラットフォームへのデプロイに適したマイクロサービスのコレクションに再構成するコンセプト実証プロトタイプについて説明する。 エージェントは再配布可能なコンテナにパッケージされ、特定の機能を実行し、デプロイ時に設定できる。 デプロイメントアーキテクチャは、中央ノードを含む単一のkubernetesクラスタ、名目上はクラウドベースのvmで構成されており、データベースエージェント("ヒストリアン"と呼ばれる)とサービス実行のためのwebサイトエージェントを含むマイクロサービスと、iotプロトコル固有のエージェントを含むマイクロサービスがデバイスへの制御とデータ収集を処理し、中央ノードへの通信を行う建物のサイトで動作するゲートウェイノードで構成されている。

Managing the energy consumption of the built environment is an important source of flexible load and decarbonization, enabling building managers and utilities to schedule consumption to avoid costly demand charges and peak times when carbon emissions from grid generated electricity are highest. A key technology component in building energy management is the building energy management system. Eclipse VOLTTRON is a legacy software platform which enables building energy management. It was developed for the US Department of Energy (DOE) at Pacific Northwest National Labs (PNNL) written in Python and based on a monolithic build-configure-and-run-in-place system architecture that predates cloud native architectural concepts. Yet the software architecture is componentized in a way that anticipates modular containerized applications, with software agents handling functions like data storage, web access, and communication with IoT devices over specific IoT protocols such as BACnet and Modbus. The agents communicate among themselves over a message bus. This paper describes a proof-of-concept prototype to rearchitect VOLTTRON into a collection of microservices suitable for deployment on the Kubernetes cloud native container orchestration platform. The agents are packaged in redistributable containers that perform specific functions and which can be configured when they are deployed. The deployment architecture consists of single Kubernetes cluster containing a central node, nominally in a cloud-based VM, where a microservice containing the database agent (called a "historian") and the web site agent for the service run, and gateway nodes running on sites in buildings where a microservice containing IoT protocol-specific agents handles control and data collection to and from devices, and communication back to the central node.
翻訳日:2023-02-19 12:05:20 公開日:2022-10-26
# 円筒導波路による放射熱伝達は対数的に遅くなる

Radiative heat transfer with a cylindrical waveguide decays logarithmically slow ( http://arxiv.org/abs/2205.08342v2 )

ライセンス: Link先を確認
Kiryl Asheichyk and Matthias Kr\"uger(参考訳) 完全導電性ナノワイヤに近接した2つの遠距離分離ナノ粒子間の放射熱伝達は、粒子間距離と対数的に遅くなる。 これにより、シリンダーは熱電磁エネルギーをほぼ損失なく任意の大きな距離に伝達できる優れた導波路となる。 これは熱伝達の劇的な増加につながり、ほとんどすべての(大きな)分離に対して、数百ナノメートルで分離された分離粒子の転送エネルギーは最大となる。 現象学的に発見された解析公式は、幅広いパラメータの数値結果を正確に記述する。

Radiative heat transfer between two far-field-separated nanoparticles placed close to a perfectly conducting nanowire decays logarithmically slow with the interparticle distance. This makes a cylinder an excellent waveguide which can transfer thermal electromagnetic energy to arbitrary large distances with almost no loss. It leads to a dramatic increase of the heat transfer, so that, for almost any (large) separation, the transferred energy can be as large as for isolated particles separated by a few hundred nanometers. A phenomenologically found analytical formula accurately describes the numerical results over a wide range of parameters.
翻訳日:2023-02-12 21:18:10 公開日:2022-10-26
# 経路偏極型超エンタングルプローブ状態における雑音弾性

Noise resilience in path-polarization hyperentangled probe states ( http://arxiv.org/abs/2205.13288v2 )

ライセンス: Link先を確認
Akshay Kannan Sairam, C. M. Chandrashekar(参考訳) エンタングルメントの生成や実用化に使用されるほとんどの量子系は環境から分離されておらず、ノイズの影響を受けやすい。 ハイパーエンタングルメントとして知られる2つのシステム間の1以上の自由度におけるエンタングルメントは、従来のエンタングル状態に対する雑音に対するロバスト性など、一定の利点を有することが知られている。 一対の絡み合った光子から1つの光子を送り、もう1つの光子が保持する量子照明、撮像、通信方式は、通常、信号光子のみを環境騒音に曝す。 ノイズの破壊的な性質は絡み合いやその他の相関を劣化させ、これら多くの応用に不可欠である。 本稿では,ある経路偏光超エンタングル状態において光子対を用いた場合の利点について検討する。 我々はそのようなノイズをモデル化し、超絡み合った光子に存在する相関にノイズが及ぼす影響を研究する。 ノイズに対する経路偏極超角プローブ状態のレジリエンスを示すために, 絡みネガティビティ, 絡み込み目撃者, ベル非局在性の3つの異なる手法が用いられている。

Most quantum systems that are used for generating entanglement and for practical applications are not isolated from the environment, and are hence susceptible to noise. Entanglement in more than one degree of freedom between two systems, known as hyperentanglement, is known to have certain advantages, including robustness against noise over conventional entangled states. Quantum illumination, imaging and communication schemes that involve sending one photon from a pair of entangled photons and retaining the other photon usually involve exposing only the signal photon to environmental noise. The disruptive nature of noise degrades entanglement and other correlations which are crucial for many of these applications. In this paper, we study the advantages of using photon pairs in certain path-polarization hyperentangled states in a noisy interaction where photons in only one of the paths are affected by noise. We model such noise and study the effect of noise on the correlations present in the hyperentangled photons. Three different methods, entanglement negativity, entanglement witnesses and Bell nonlocality are used to show the resilience of path-polarization hyperentangled probe state against noise.
翻訳日:2023-02-11 16:48:31 公開日:2022-10-26
# アクティブ光周波数標準の究極的安定性

Ultimate stability of active optical frequency standards ( http://arxiv.org/abs/2205.14130v3 )

ライセンス: Link先を確認
Georgy A. Kazakov and Swadheen Dubey and Anna Bychek and Uwe Sterr and Marcin Bober and Micha{\l} Zawada(参考訳) 能動光周波数標準は受動周波数に対して興味深い代替手段を提供する。 特に、このような時計は安定な狭線レーザーを連続的に生成する。 したがって、局部発振器は、受動クロックのように、問合せ間のデッドタイムの間は光位相を維持する必要はなく、アクティブクロックの低出力電力を現在の技術水準で実用的なレベルまで引き上げるだけである。 ここでは、均一および不均一な拡張効果を含むアクティブクロックのスペクトル特性と安定性について検討する。 レーザ出力の位相拡散により, 短い平均時間において, 限られた出力のレーザパワーからの光子ショットノイズと長時間の平均時間により安定性が制限されることがわかった。 最適長期安定のための操作パラメータを同定した。 実数を$^{87}$srのアクティブクロックで使うと、$\sigma_y(\tau) \approx 4\times10^{-18}/\sqrt{\tau [\mathrm{s}]}$の最適化された安定性が達成可能であることが分かる。

Active optical frequency standards provide interesting alternatives to their passive counterparts. Particularly, such a clock alone continuously generates highly-stable narrow-line laser radiation. Thus a local oscillator is not required to keep the optical phase during a dead time between interrogations as in passive clocks, but only to boost the active clock's low output power to practically usable levels with the current state of technology. Here we investigate the spectral properties and the stability of active clocks, including homogeneous and inhomogeneous broadening effects. We find that for short averaging times the stability is limited by photon shot noise from the limited emitted laser power and at long averaging times by phase diffusion of the laser output. Operational parameters for best long-term stability were identified. Using realistic numbers for an active clock with $^{87}$Sr we find that an optimized stability of $\sigma_y(\tau) \approx 4\times10^{-18}/\sqrt{\tau [\mathrm{s}]}$ is achievable.
翻訳日:2023-02-11 13:54:42 公開日:2022-10-26
# 半導体量子制限増幅器

Semiconductor quantum-limited amplifier ( http://arxiv.org/abs/2206.05746v2 )

ライセンス: Link先を確認
D. Phan, P. Falthansl-Scheinecker, U. Mishra, W.M. Strickland, D. Langone, J. Shabani, A.P. Higginbotham(参考訳) 量子制限増幅器は量子信号処理チェーンの最初のリンクであり、ノイズの多い古典的電子回路で微小信号を測定することができる。 後続の鎖は半導体ベースのデバイスで支配されているが、量子制限されたステップは今のところ金属超伝導体でしか実行できない。 より広範に、半導体固有のスケーラビリティは、スケーラブルな量子制御信号の生成やフォールトトレラントしきい値での量子情報の処理など、量子応用に関する多くの研究を動機付けている。 しかし、量子制限増幅の重要な課題に対する半導体ベースの解は、顕著に欠落している。 ここではジョセフソン電界効果トランジスタ(JoFET)を用いた量子制限増幅器について述べる。 JoFET増幅器は4MHzの即時帯域を持つ20dBの利得を持ち、共振周波数はフィールドエフェクトを介して2GHz以上調整可能である。 ゲインは従来の半導体増幅器と測定チェーンに統合するのに十分である。 そこで本研究では,量子力学の基本限界に近づく雑音の総和を示す。 金属超伝導増幅器とは対照的に、我々の装置は磁場と互換性がある。 JoFET増幅器は、量子制御、情報処理、読み出しのための半導体ベースの一連のオプションを完備する。

Quantum-limited amplifiers are the first link in the quantum signal processing chain, allowing minute signals to be measured by noisy, classical electronics. Whereas later parts of the chain are dominated by semiconductor-based devices, the quantum-limited step can currently only be performed using metallic superconductors. More broadly, the inherent scalability of semiconductors has motivated a great deal of research on quantum applications, including the scalable generation of quantum-control signals, and the processing of quantum information at fault-tolerant thresholds. A semiconductor-based solution for the crucial task of quantum-limited amplification is, however, conspicuously absent. Here, we demonstrate a quantum-limited amplifier using a Josephson field-effect transistor (JoFET). The JoFET amplifier has 20 dB of gain with a 4 MHz instantaneous bandwidth, and a resonant frequency that is tunable over 2 GHz via the field effect. The gain is sufficient for integration into a measurement chain with conventional semiconductor amplifiers. Accordingly, we demonstrate a total added noise that approaches the fundamental limits placed by quantum mechanics. In contrast to metallic superconducting amplifiers, our device is compatible with magnetic fields. The JoFET amplifier completes the suite of semiconductor-based options for quantum control, information processing, and readout.
翻訳日:2023-02-09 18:26:04 公開日:2022-10-26
# サイドバンド未解決領域における光機械系のコヒーレントフィードバック

Coherent feedback in optomechanical systems in the sideband-unresolved regime ( http://arxiv.org/abs/2206.13917v3 )

ライセンス: Link先を確認
Jingkun Guo, Simon Gr\"oblacher(参考訳) 運動量子基底状態に近いマクロメカニカル共振器を準備し、光による絡み合いを生成することは、基礎物理学の研究と新しい量子応用の開発において大きな機会を与える。 本稿では, 線形受動光学部品とのコヒーレントフィードバックに基づいて, 地中冷却と光子-フォノンの絡み合い発生を光学デバイスで実現し, サイドバンド未解決方式のシステムに特に適する実験的な手法を提案する。 我々は,細線幅の空洞や遅延線を有する鏡などのパッシブ要素を導入することで,サイドバンド未解決領域における光力学系がサイドバンド分解されたものと類似したダイナミクスを示すことを見出した。 この新しいアプローチにより、基底状態冷却とオプティメカルエンタングルメントの実験的実現は、現在の最先端高Q機械共振器の到達範囲に十分達する。

Preparing macroscopic mechanical resonators close to their motional quantum groundstate and generating entanglement with light offers great opportunities in studying fundamental physics and in developing a new generation of quantum applications. Here we propose an experimentally interesting scheme, which is particularly well suited for systems in the sideband-unresolved regime, based on coherent feedback with linear, passive optical components to achieve groundstate cooling and photon-phonon entanglement generation with optomechanical devices. We find that, by introducing an additional passive element - either a narrow linewidth cavity or a mirror with a delay line - an optomechanical system in the deeply sideband-unresolved regime will exhibit dynamics similar to one that is sideband-resolved. With this new approach, the experimental realization of groundstate cooling and optomechanical entanglement is well within reach of current integrated state-of-the-art high-Q mechanical resonators.
翻訳日:2023-02-07 10:12:43 公開日:2022-10-26
# 任意のゲージ凝縮物質キャビティモデルにおける光子凝縮の理論

Theory of photon condensation in an arbitrary gauge condensed matter cavity model ( http://arxiv.org/abs/2207.07066v2 )

ライセンス: Link先を確認
Dominic M. Rouse, Adam Stokes, Ahsan Nazir(参考訳) 我々は、電磁場内の凝縮物質が光子凝縮相に遷移する任意のゲージの基準を導出する。 空間変動磁場に対してのみ光子凝縮が起こり、磁気不安定性として解釈できるクーロンゲージを選択することにより、以前の結果が復元される。 直接的に説明のゲージ不変性を示すが、物質と光子はゲージ関係の概念であるため、より一般的には光子凝縮は空間的に均一な磁場内で起こり、不安定性が磁気的かつ電気的かつ純粋に磁気的の両方である相対的範囲はゲージに依存する。

We derive an arbitrary-gauge criterion under which condensed matter within an electromagnetic field may transition to a photon condensed phase. Previous results are recovered by selecting the Coulomb-gauge wherein photon condensation can only occur for a spatially-varying field and can be interpreted as a magnetic instability. We demonstrate the gauge-invariance of our description directly, but since matter and photons are gauge-relative concepts we find more generally that photon condensation can occur within a spatially uniform field, and that the relative extent to which the instability is both magnetic and electric versus purely magnetic depends on the gauge.
翻訳日:2023-02-05 01:21:21 公開日:2022-10-26
# 超エンタングル光子対の絡み合い検証

Entanglement Verification of Hyperentangled Photon Pairs ( http://arxiv.org/abs/2207.09990v2 )

ライセンス: Link先を確認
Christopher K. Zeitler, Joseph C. Chapman, Eric Chitambar, and Paul G. Kwiat(参考訳) 複数自由度で同時絡み合いを示す超絡み合い状態の特性を実験的に検討し, 標準クレーター, ホーン, 下谷, ホルト不等式を超えるベル試験により, デバイス非依存的に高次元の性質を明らかにすることができることを示した。 具体的には、超エンタングル状態は、分離自由度における同時エンタングルメントだけでなく、高次元ヒルベルト空間におけるエンタングルメントも持つことを示した。 また、超エンタングル量子状態のステアビリティを、異なるフォトニック自由度を操ることによって検証する。

We experimentally investigate the properties of hyperentangled states displaying simultaneous entanglement in multiple degrees of freedom, and find that Bell tests beyond the standard Clauser, Horne, Shimony, Holt inequality can reveal a higher-dimensional nature in a device-independent way. Specifically, we show that hyperentangled states possess more than just simultaneous entanglement in separate degrees of freedom but also entanglement in a higher dimensional Hilbert space. We also verify the steerability of hyperentangled quantum states by steering different photonic degrees of freedom.
翻訳日:2023-02-04 08:08:56 公開日:2022-10-26
# 熱操作にはどのバスハミルトニアンが重要か?

Which Bath-Hamiltonians Matter for Thermal Operations? ( http://arxiv.org/abs/2207.11189v4 )

ライセンス: Link先を確認
Frederik vom Ende(参考訳) 本稿では, 数学的・トポロジカルな観点からの熱的操作の集合について考察する。 まず、共鳴スペクトルを持つハミルトニアンの概念を基準ハミルトニアンに対して導入し、続いて熱操作を定義するとき、この共鳴特性を満たす浴場ハミルトニアンを考えるだけで十分であることを示す。 次に, システムのエネルギーや浴槽の温度など, 一定のパラメータにおける熱操作の連続性について検討する。 熱操作の集合は、温度に関係なく退化ボーアスペクトルと呼ばれる任意のハミルトニアンのハウスドルフ計量に対して不連続に変化する。 最後に、3つの実パラメータを通してそのような演算を特徴付けることにより、2次元の熱演算の半群表現を見つけ、この集合を視覚化することができる。 これを用いて、クビットの場合、(拡張された)熱操作の可換性、および閉包のない熱操作の凸性を示す。 後者は、この集合の要素を正確に指定することで行われる。

In this article we explore the set of thermal operations from a mathematical and topological point of view. First we introduce the concept of Hamiltonians with resonant spectrum with respect to some reference Hamiltonian, followed by proving that when defining thermal operations it suffices to only consider bath Hamiltonians which satisfy this resonance property. Next we investigate continuity of the set of thermal operations in certain parameters, such as energies of the system and temperature of the bath. We will see that the set of thermal operations changes discontinuously with respect to the Hausdorff metric at any Hamiltonian which has so-called degenerate Bohr spectrum, regardless of the temperature. Finally we find a semigroup representation of the (enhanced) thermal operations in two dimensions by characterizing any such operation via three real parameters, thus allowing for a visualization of this set. Using this, in the qubit case we show commutativity of the (enhanced) thermal operations as well as convexity of the thermal operations without the closure. The latter is done by specifying the elements of this set exactly.
翻訳日:2023-02-04 02:55:42 公開日:2022-10-26
# はしご上の離散アーベル格子ゲージ理論とその量子時計モデルとの双対性

Discrete Abelian lattice gauge theories on a ladder and their dualities with quantum clock models ( http://arxiv.org/abs/2208.04182v3 )

ライセンス: Link先を確認
Sunny Pradhan, Andrea Maroncelli, Elisa Ercolessi(参考訳) 2本足のラダー幾何学上の$\mathbb{z}_n$格子ゲージ理論のゲージ不変部分空間から1本鎖上の$n$クロックモデルへの双対性変換の研究を行った。 このマッピングの主な特徴は、ゲージモデルの超選択セクタに依存する時計モデルにおける縦方向の磁場の出現であり、ゲージ理論の異なるセクタが全く異なる位相図を示せることを示唆している。 これを調べ、閉じ込められた位相が現れるかどうかを確認するために、正確な対角化を用いて$N = 2, 3, 4$の数値解析を行う。

We study a duality transformation from the gauge-invariant subspace of a $\mathbb{Z}_N$ lattice gauge theory on a two-leg ladder geometry to an $N$-clock model on a single chain. The main feature of this mapping is the emergence of a longitudinal field in the clock model, whose value depends on the superselection sector of the gauge model, implying that the different sectors of the gauge theory can show quite different phase diagrams. In order to investigate this and see if confined phases might emerge, we perform a numerical analysis for $N = 2, 3, 4$, using exact diagonalization.
翻訳日:2023-02-02 04:37:53 公開日:2022-10-26
# 量子計算の初期

The Early Days of Quantum Computation ( http://arxiv.org/abs/2208.09964v2 )

ライセンス: Link先を確認
Peter W. Shor(参考訳) 私は、ファクタリングアルゴリズムの発見、誤り訂正符号の発見、フォールトトレランスなど、量子計算の初期開発に関する私の記憶のいくつかを振り返る。

I recount some of my memories of the early development of quantum computation, including the discovery of the factoring algorithm, of error correcting codes, and of fault tolerance.
翻訳日:2023-01-30 07:21:27 公開日:2022-10-26
# 量子干渉法による2光子絡み合い吸収の観察

Witnessing Entangled Two-Photon Absorption via Quantum Interferometry ( http://arxiv.org/abs/2208.11387v2 )

ライセンス: Link先を確認
\'Aulide Mart\'inez-Tapia, Samuel Corona-Aquino, Chenglong You, Rui-Bo Jin, Omar S. Maga\~na-Loaiza, Shi-Hai Dong, Alfred B. U'Ren, Roberto de J. Le\'on-Montiel(参考訳) 最近の研究では、エンタングル光子対のような非古典状態の光の利用が、実験的な2光子吸収分光法において新しくエキサイティングな道を開く可能性が示唆されている。 絡み合った2光子吸収(eTPA)に関するいくつかの実験的研究にもかかわらず、eTPAが実際に観測されたかどうかについては熱い議論がある。 この興味深い議論は、主に近年、散乱やホットバンド吸収のような単一光子ロス機構が、期待される光子線形吸収の挙動を模倣する可能性があるとして提起された。 本研究では,eTPAの伝送計測に焦点をあて,eTPAの評価における3つの異なる2光子量子干渉計を探索する。 いわゆるN00N状態配置は、線形(単光子)損失に敏感であると考えられるものの中で唯一であることを示す。 注目すべきは、N00N状態が量子分光の強力なツールになりうることを示し、任意のサンプルにeTPAを認証するための強力な候補として位置づけることである。

Recent investigations suggest that the use of non-classical states of light, such as entangled photon pairs, may open new and exciting avenues in experimental two-photon absorption spectroscopy. Despite several experimental studies of entangled two-photon absorption (eTPA), there is still a heated debate on whether eTPA has truly been observed. This interesting debate has arisen, mainly because it has been recently argued that single-photon-loss mechanisms, such as scattering or hot-band absorption may mimic the expected entangled-photon linear absorption behavior. In this work, we focus on transmission measurements of eTPA, and explore three different two-photon quantum interferometers in the context of assessing eTPA. We demonstrate that the so-called N00N-state configuration is the only one amongst those considered insensitive to linear (single-photon) losses. Remarkably, our results show that N00N states may become a potentially powerful tool for quantum spectroscopy, and place them as a strong candidate for the certification of eTPA in an arbitrary sample.
翻訳日:2023-01-30 00:05:33 公開日:2022-10-26
# 非フェルミ液体に対する拡張準粒子Pad\'e近似

Extended quasiparticle Pad\'e approximation for non-Fermi liquids ( http://arxiv.org/abs/2208.11971v2 )

ライセンス: Link先を確認
K. Morawetz(参考訳) 拡張準粒子像は非フェルミ系に適応し、既知の小さな散乱速度拡大とフェルミエネルギーからの偏差を補間するpad\'e近似を提案する。 最初の2つのエネルギー重み付き和則は補間関数とは独立に満たされる。 不純物を伴う一次元フェルミ粒子の散乱の様々なモデルにおいて、スペクトル関数に対するpad\'e近似の品質が示され、フェルミエネルギーのジャンプを持たない密度行列や運動量分布が再現される。 スペクトル関数の再現と密度の低減には2倍の展開が必要であるが,輸送特性の記述には,拡張された準粒子近似が十分であることを示す。 T-行列近似は、2つの粒子が相関状態に費やされる時間に遅延時間をもたらす。 これにより密度行列が減少し、零温度と有限温度で示される導電率の付加的な部分へ寄与する。 不純物濃度の局在に加え、導電性は不純物によって引き起こされる超伝導挙動の開始と解釈される小さな温度で最大値を示す。 タン接触は電子-電子散乱で知られているのと同じ普遍的挙動を示す。

The extended quasiparticle picture is adapted to non-Fermi systems by suggesting a Pad\'e approximation which interpolates between the known small scattering-rate expansion and the deviation from the Fermi energy. The first two energy-weighted sum rules are shown to be fulfilled independent of the interpolating function. For various models of one-dimensional Fermions scattering with impurities the quality of the Pad\'e approximation for the spectral function is demonstrated and the reduced density matrix or momentum distribution is shown to be reproduced not possessing a jump at the Fermi energy. Though the two-fold expansion is necessary to reproduce the spectral function and reduced density it is shown that for the description of transport properties the extended quasiparticle approximation is sufficient. The T-matrix approximation leads to the delay time as the time two particles spend in a correlated state. This contributes to the reduced density matrix and to an additional part in the conductivity which is presented at zero and finite temperatures. Besides a localization at certain impurity concentrations, the conductivity shows a maximum at small temperatures interpreted as onset of superconducting behaviour triggered by impurities. The Tan contact reveals the same universal behaviour as known from electron-electron scattering.
翻訳日:2023-01-29 21:23:52 公開日:2022-10-26
# アインシュタイン-ポドルスキー-ローゼンパラドックスの解法

The solution to the "Einstein-Podolsky-Rosen paradox" ( http://arxiv.org/abs/2208.13831v3 )

ライセンス: Link先を確認
Roman Schnabel(参考訳) 1935年、アルベルト・アインシュタイン(Albert Einstein)、ボリス・ポドルスキー(Boris Podolsky)、ネイサン・ローゼン(Nathan Rosen、EPR)は、量子論が現実について不完全な記述を与えたと信じた思考実験を報告した。 今日、量子論は完全かつ正しいことが知られている。 EPRの思考実験もまた正しいが、まだ自然の物理的説明を持っておらず、その後パラドックスの一部と見なされている。 ここでパラドックスを解きます。 量子論の解釈は一切言及しないが、EPRの現実に関する論理的な主張がなぜ間違っているのかを独立に示す。 訂正論理によるepr思考実験はベルの不等式の実験的違反によって既に否定された「局所実在論」の存在を全く支持していないことを示す。 また、EPR実験は真のランダム性の存在とエネルギーの保存の直接的な結果であることを示した。 私は、量子物理学を理解できるようにするために、私の仕事を重要なビルディングブロックと見なしています。

In 1935, Albert Einstein, Boris Podolsky, and Nathan Rosen (EPR) reported on a thought experiment that they believed showed that quantum theory provided an incomplete description of reality. Today it is known that quantum theory is both complete and correct. The EPR thought experiment, while also correct, has yet to have a natural physical explanation and has since been considered part of a paradox. Here I solve the paradox. I do not refer to any interpretation of quantum theory, but show independently why the apparently logical statement of EPR about reality is false. I show that the EPR thought experiment with corrected logic does not at all support the existence of "local realism" as already refuted by the experimental violations of Bell inequalities. I also show that EPR experiments are a direct consequence of the existence of true randomness and the conservation of energy. I see my work as an important building block in finally making quantum physics understandable.
翻訳日:2023-01-28 14:23:49 公開日:2022-10-26
# 結合スキームからのグラフの量子同型

Quantum isomorphism of graphs from association schemes ( http://arxiv.org/abs/2209.04581v2 )

ライセンス: Link先を確認
Ada Chan and William J. Martin(参考訳) 同じ数の頂点上の任意の2つのアダマールグラフが量子同型であることを示す。 これは、ある関係スキームから生じるグラフの量子同型を示すより一般的なレシピから従う。 主な成果は3つのツールから成り立っている。 Man\v{c}inska と Roberson の最近の顕著な結果は、グラフ $G$ と $H$ が量子同型であることと、任意の平面グラフ $F$ に対して、$F$ から $G$ までのグラフ準同型数は、$F$ から $H$ までのグラフ準同型の数に等しいことを証明している。 スカフォールド」と呼ばれる分割関数の一般化は、級数-パラレル還元のような基本的な還元規則を与え、数え上げ準同型に応用できる。 最後の道具はエピファノフの古典的な定理であり、任意の平面グラフは1つの頂点に縮められ、拡張直列並列還元とデルタ・ワイ変換によって辺を持たないことを示すものである。 この最後の変換は、正確に3つの規則的なアソシエーションスキームの場合に利用できます。 論文には、今後の研究のためのオープンな問題と方向性が含まれている。

We show that any two Hadamard graphs on the same number of vertices are quantum isomorphic. This follows from a more general recipe for showing quantum isomorphism of graphs arising from certain association schemes. The main result is built from three tools. A remarkable recent result of Man\v{c}inska and Roberson shows that graphs $G$ and $H$ are quantum isomorphic if and only if, for any planar graph $F$, the number of graph homomorphisms from $F$ to $G$ is equal to the number of graph homomorphisms from $F$ to $H$. A generalization of partition functions called "scaffolds" affords some basic reduction rules such as series-parallel reduction and can be applied to counting homomorphisms. The final tool is the classical theorem of Epifanov showing that any plane graph can be reduced to a single vertex and no edges by extended series-parallel reductions and Delta-Wye transformations. This last sort of transformation is available to us in the case of exactly triply regular association schemes. The paper includes open problems and directions for future research.
翻訳日:2023-01-27 02:53:55 公開日:2022-10-26
# 振動場によるソマーフェルトモデル金属からの光電子放出を記述した1dシュロディンガー方程式の非摂動解

Non-perturbative Solution of the 1d Schrodinger Equation Describing Photoemission from a Sommerfeld model Metal by an Oscillating Field ( http://arxiv.org/abs/2209.07570v2 )

ライセンス: Link先を確認
Ovidiu Costin, Rodica Costin, Ian Jauslin, Joel L. Lebowitz(参考訳) 古典振動電界による模型金属表面からの電子放出を記述する1次元schr\"odinger方程式を非摂動的に解析する。 半空間 $x\leqslant 0$ に金属を配置すると、系のschr\"odinger方程式は $i\partial_t\psi=-\frac12\partial_x^2\psi+\theta(x) (u-e x \cos\omega t)\psi$, $t>0$, $x\in\mathbb r$, ここで $\theta(x)$ はヘビーサイド関数であり、$u>0$ は効果的な閉じ込めポテンシャルである。 外部電界の振幅 $e$ と周波数 $\omega$ は任意である。 この方程式の一般初期条件に対する古典解の存在と一意性が証明される: $\psi(x,0)=f(x)$, $x\in\mathbb r$。 初期条件が$l^2$ の場合、進化はユニタリであり、波動関数は任意の固定された $x$ で 0 となる。 これを示すために、RAGE型定理を証明し、準エネルギー作用素の離散スペクトルが空であることを示す。 正電子電流を得るために、左からの入射ビームを含む非$l^2$初期条件を考える。 ビームは部分的に反射され、すべての$t>0$に対して部分的に伝達される。 これらのことから、解は、ファイサル等によって公式に導かれる無限の方程式の集合を満たす周期的状態に、大きな$t$で近づくことを示す。 アル ハミルトニアン(物理界および空間フーリエ領域の非有界性を含む)の多くの病理学的特徴から、そのような結果を証明する既存の方法が適用されず、より一般的な新しい方法を導入する。 実際の解は非常に複雑な挙動を示す。 周波数がしきい値$\omega=\omega_c$を通り、電場の強さに応じて$\omega_c$となると、電流が急上昇する。 小さな$E$の場合、$\omega_c$は古典的な光電効果の閾値を表す。

We analyze non-perturbatively the one-dimensional Schr\"odinger equation describing the emission of electrons from a model metal surface by a classical oscillating electric field. Placing the metal in the half-space $x\leqslant 0$, the Schr\"odinger equation of the system is $i\partial_t\psi=-\frac12\partial_x^2\psi+\Theta(x) (U-E x \cos\omega t)\psi$, $t>0$, $x\in\mathbb R$, where $\Theta(x)$ is the Heaviside function and $U>0$ is the effective confining potential (we choose units so that $m=e=\hbar=1$). The amplitude $E$ of the external electric field and the frequency $\omega$ are arbitrary. We prove existence and uniqueness of classical solutions of this equation for general initial conditions $\psi(x,0)=f(x)$, $x\in\mathbb R$. When the initial condition is in $L^2$ the evolution is unitary and the wave function goes to zero at any fixed $x$ as $t\to\infty$. To show this we prove a RAGE type theorem and show that the discrete spectrum of the quasienergy operator is empty. To obtain positive electron current we consider non-$L^2$ initial conditions containing an incoming beam from the left. The beam is partially reflected and partially transmitted for all $t>0$. For these we show that the solution approaches in the large $t$ limit a periodic state that satisfies an infinite set of equations formally derived by Faisal, et. al. Due to a number of pathological features of the Hamiltonian (among which unboundedness in the physical as well as the spatial Fourier domain) the existing methods to prove such results do not apply, and we introduce new, more general ones. The actual solution exhibits a very complex behavior. It shows a steep increase in the current as the frequency passes a threshold value $\omega=\omega_c$, with $\omega_c$ depending on the strength of the electric field. For small $E$, $\omega_c$ represents the threshold in the classical photoelectric effect.
翻訳日:2023-01-26 12:09:59 公開日:2022-10-26
# 熱原子蒸気を用いた磁力計の作り方:チュートリアル

How to build a magnetometer with thermal atomic vapors: A tutorial ( http://arxiv.org/abs/2210.08100v2 )

ライセンス: Link先を確認
Anne Fabricant, Irina Novikova, Georg Bison(参考訳) この原稿は、アルカリ原子蒸気細胞に基づく光ポンピング磁力計へのステップバイステップガイドとして設計されている。 まず、原子磁気光学応答の一般的な導入と、期待される磁力計性能の利点と、それらが主なノイズ源に与える影響について述べる。 これに続いて、異なる磁力計の実現と現在の研究の概要を簡潔に比較し、読者が特定の用途に最適な磁力計タイプを特定するのを助けることを目的としている。 次に、M_z$磁力計を設計プロセスの例として用いて、実験実装の実践的考察について述べる。 最後に、実磁力計データを備えた対話型ワークブックを提供し、磁力計性能解析を説明する。

This manuscript is designed as a step-by-step guide to optically pumped magnetometers based on alkali atomic vapor cells. We begin with a general introduction to atomic magneto-optical response, as well as expected magnetometer performance merits and how they are affected by main sources of noise. This is followed by a brief comparison of different magnetometer realizations and an overview of current research, with the aim of helping readers to identify the most suitable magnetometer type for specific applications. Next, we discuss some practical considerations for experimental implementations, using the case of an $M_z$ magnetometer as an example of the design process. Finally, an interactive workbook with real magnetometer data is provided to illustrate magnetometer-performance analysis.
翻訳日:2023-01-22 14:01:58 公開日:2022-10-26
# フェルミオン量子シミュレーションのための誤り訂正符号

Error-correcting codes for fermionic quantum simulation ( http://arxiv.org/abs/2210.08411v3 )

ライセンス: Link先を確認
Yu-An Chen, Alexey V. Gorshkov, and Yijia Xu(参考訳) 2次元格子上の量子ビットによってフェルミオンをシミュレートする方法を$\mathbb{z}_2$ゲージ理論(安定化符号)を用いて提供する。 ローラン多項式環上のパウリ加群のシンプレクティック自己同型の研究により、安定化符号の符号距離を増やす体系的な方法を開発する。 任意の$\lfloor \frac{d-1}{2} \rfloor$-qubitエラーを訂正できるように、$d=2,3,4,5,6,7$のコード距離でフェルミオンをシミュレートするために使用できる安定化符号のファミリーを同定する。 特に、コード距離が$d=3$、$d=4$、$d=5$の3つの安定化器符号を明示的に示す。 すべてのpauliエラーのシンドロームが提供されている。 最後に,コード距離を数値的に計算するシンドロームマッチング手法を提案する。

We provide ways to simulate fermions by qubits on 2d lattices using $\mathbb{Z}_2$ gauge theories (stabilizer codes). By studying the symplectic automorphisms of the Pauli module over the Laurent polynomial ring, we develop a systematic way to increase the code distances of stabilizer codes. We identify a family of stabilizer codes that can be used to simulate fermions with code distances of $d=2,3,4,5,6,7$ such that any $\lfloor \frac{d-1}{2} \rfloor$-qubit error can be corrected. In particular, we demonstrate three stabilizer codes with code distances of $d=3$, $d=4$, and $d=5$, respectively, with all stabilizers and logical operators shown explicitly. The syndromes for all Pauli errors are provided. Finally, we introduce a syndrome-matching method to compute code distances numerically.
翻訳日:2023-01-22 09:32:37 公開日:2022-10-26
# 量子力学のゲージ図

The Gauge Picture of Quantum Dynamics ( http://arxiv.org/abs/2210.09314v2 )

ライセンス: Link先を確認
Kevin Slagle(参考訳) 局所ハミルトニアンは局所時間ダイナミクスを示すが、波動関数の振幅が局所運動方程式に従わないという意味では、この局所性はschr\"{o}dinger像では明示されない。 本研究では,幾何局所性が明示的になるようにschr\"{o}dinger画像を変更する。 これを行うために、波動関数をローカルな波動関数の集合に置き換える: $|\psi_J\rangle$, 1 for each patch of space $J$.} である。 空間パッチのコレクションは、空間をカバーするために選択されます。例えば、格子上の最寄りの場所となるパッチを選択できます。 隣接する空間パッチのペアである$I$と$J$に関連するヒルベルト空間は、動的ユニタリ変換$U_{IJ}$によって互いに関連付けられる。 局所波動関数の運動方程式 $|\psi_J\rangle$ と接続 $U_{IJ}$ は空間において明示的に局所的である。 量子力学のこの図は、局所ゲージ対称性を示すため、ゲージ像と呼ぶ。 単一の空間パッチの局所力学は相互作用図形と関連しており、相互作用ハミルトンは近傍のハミルトン項のみからなる。 また、局所電荷とエネルギー密度の局所性を含むように明示的な局所性を一般化することもできる。

Although local Hamiltonians exhibit local time dynamics, this locality is not explicit in the Schr\"{o}dinger picture in the sense that the wavefunction amplitudes do not obey a local equation of motion. In this work, we modify the Schr\"{o}dinger picture such that geometric locality is explicit. To do this, we replace the wavefunction with a collection of local wavefunctions $|\psi_J\rangle$, one for each patch of space $J$. The collection of spatial patches is chosen to cover the space; e.g. we could choose the patches to be nearest-neighbor sites on a lattice. The Hilbert spaces associated with neighboring pairs of spatial patches $I$ and $J$ are related to each other by dynamical unitary transformations $U_{IJ}$. The equations of motion for the local wavefunctions $|\psi_J\rangle$ and connections $U_{IJ}$ are explicitly local in space. We call this picture of quantum dynamics the gauge picture since it exhibits a local gauge symmetry. The local dynamics of a single spatial patch is related to the interaction picture, where the interaction Hamiltonian consists of only nearby Hamiltonian terms. We can also generalize the explicit locality to include locality in local charge and energy densities.
翻訳日:2023-01-22 06:49:29 公開日:2022-10-26
# プロセス行列の単発識別のための戦略

Strategies for single-shot discrimination of process matrices ( http://arxiv.org/abs/2210.14575v1 )

ライセンス: Link先を確認
Paulina Lewandowska, {\L}ukasz Pawela and Zbigniew Pucha{\l}a(参考訳) 因果関係のトピックは、近年、量子情報研究の牽引となる。 本稿では,因果構造を定義する普遍的手法であるプロセス行列間の単発識別の問題を検討する。 我々は、正しい区別の最適確率を正確に表現する。 さらに、凸錐構造理論を用いて、この表現を達成するための別の方法を提案する。 また,識別タスクを半定義型プログラミングとして表現する。 そこで我々は,プロセス行列間の距離を計算するSDPを作成し,それをトレースノルムの観点から定量化した。 価値ある副産物として、プログラムは識別タスクの最適実現を見つける。 また、プロセス行列のクラスが2つあり、完全に区別できる。 しかし,本研究の主な成果は,量子コムに対応するプロセス行列の判別タスクの検討である。 識別作業中にどの戦略、適応的または非シグナリングを使うべきかを検討する。 どの戦略を選ぶにせよ、2つのプロセス行列を量子コムと区別する確率は同じであることを示した。

The topic of causality has recently gained traction quantum information research. This work examines the problem of single-shot discrimination between process matrices which are an universal method defining a causal structure. We provide an exact expression for the optimal probability of correct distinction. In addition, we present an alternative way to achieve this expression by using the convex cone structure theory. We also express the discrimination task as semidefinite programming. Due to that, we have created the SDP calculating the distance between process matrices and we quantify it in terms of the trace norm. As a valuable by-product, the program finds an optimal realization of the discrimination task. We also find two classes of process matrices which can be distinguished perfectly. Our main result, however, is a consideration of the discrimination task for process matrices corresponding to quantum combs. We study which strategy, adaptive or non-signalling, should be used during the discrimination task. We proved that no matter which strategy you choose, the probability of distinguishing two process matrices being a quantum comb is the same.
翻訳日:2023-01-21 13:33:00 公開日:2022-10-26
# インターフェロメトリ弱値に基づく小滴計測における高精度化

Realization of higher Precision in Interferometric-weak-value-based Small-tilt Measurement ( http://arxiv.org/abs/2210.14553v1 )

ライセンス: Link先を確認
ChaoXia Zhang, YongLang Lai, RongGuo Yang, Kui Liu, Jing Zhang, HengXin Sun, JiangRui Gao(参考訳) sagnac干渉計と高次光モードの平衡ホモダイン検出(bhd)と弱値増幅(wva)技術を用いて,微小傾き測定の高精度化を実験的に達成した。 分割検出 (SD) と比較して, 最小傾き (MMT) と高信号-雑音比 (SNR) を BHD を用いて求めることができる。 本実験条件下では3.8 nradの精度が得られる。 wva技術とbhdを組み合わせることで,互いのアドバンテージを強化し,極端に弱い出力や測定帯域幅の広いといった特殊なアプリケーションシナリオに対して,よりよく振る舞うことができることが示された。 さらに、実験パラメータ最適化により精度をさらに向上することができる。

We experimentally realize a great precision enhancement in the small tilt measurement by using a Sagnac interferometer and balanced homodyne detection (BHD) of high-order optical modes, together with the weak value amplification (WVA) technique. Smaller minimum measurable tilt (MMT) and higher signal-to-noise ratio (SNR) can be obtained by using BHD, compared with the split detection (SD). The precision of 3.8 nrad can be obtained under our present experimental condition. It is shown that combining WVA technique and BHD can strengthen each other's advantages and can behave better for some special application scenarios, such as extremely weak output, wider measurement bandwidth, etc. Moreover, the precision can be further enhanced by experimental parameter optimization.
翻訳日:2023-01-21 13:32:43 公開日:2022-10-26
# 開量子系の漸近ダイナミクスについて

On the asymptotic dynamics of open quantum systems ( http://arxiv.org/abs/2210.14548v1 )

ライセンス: Link先を確認
Daniele Amato, Paolo Facchi and Arturo Konderak(参考訳) 本稿では,有限次元開量子系の漸近力学のいくつかの側面を考察する。 まず、周辺チャネルの構造定理を回想した後、十分な条件とユニタリ性の評価について論じる。 興味深いことに、これは漸近写像の構造に置換が存在するため必ずしも保証されない。 そこで, 富田, 竹崎による漸近チャネルとモジュラー理論の関連性を示す。

In this article, several aspects of the asymptotic dynamics of finite-dimensional open quantum systems are explored. First, after recalling a structure theorem for the peripheral channel, we discuss sufficient conditions and a characterization for its unitarity. Interestingly, this is not always guaranteed due to the presence of permutations in the structure of the asymptotic map. Then, we show the connection between the asymptotic channel and the modular theory by Tomita and Takesaki.
翻訳日:2023-01-21 13:32:25 公開日:2022-10-26
# 量子相転移研究におけるイオントラップ周波数の安定化

Stabilization of ion-trap secular frequencies for a quantum phase transition study ( http://arxiv.org/abs/2210.14478v1 )

ライセンス: Link先を確認
Jie Zhang, B. T. Chow, P. C. Haljan(参考訳) 線形無線周波数(RF)ポールトラップ中のイオンの配列は、トラップ閉じ込め強度の調整によって得られる便利な制御のため、リニア・トゥ・ジグザグ(LZ)遷移のような構造相転移を研究するのに良い候補である。 このような研究において、トラップ世俗周波数は臨界点(CP)の安定性を制限する重要な要因である。 本稿では,トラップ電極近傍のRF電圧のアクティブフィードバック安定化を含む世俗周波数安定化を実現し,逆電位と軸電位の両方に対して5〜ppm以上の安定性を実現する。 両方向におけるトラップ電位の長期安定性を評価するために, cp近傍のジグザグ(zz)モード周波数を測定した。 また、ラムゼイ線で異なる周波数で測定されたZZモードの非コヒーレンス速度から推定すると、限られたスペクトル窓内の短期ノイズも抑制される。 また,電圧分割器やRF検出器の不完全な温度不感から,世俗周波数安定性の限界が主に生じること,その結果,実験室温度安定性の向上がトラップ周波数の安定化に有効であることも確認した。

An array of ions in a linear radio-frequency (RF) Paul trap is a good candidate for investigating structural phase transitions, such as the linear-to-zigzag (LZ) transition, due to the convenient control provided by modification of the trap confinement strength. In such studies, the trap secular frequencies are a key factor that limits the stability of the critical point (CP). In this paper, we implement secular-frequency stabilization, including active feedback stabilization of the RF voltage near the trap electrodes, and achieve a stability of better than 5~ppm over 200~s for both transverse and axial potentials. To evaluate the combined long-term stability of the trap potential in both directions, we measure the zigzag (ZZ) mode frequency near the CP, where the effect of instability in both trap directions is substantially amplified. The short-term noise within a limited spectral window is also suppressed by this scheme, as inferred from decoherence rates of the ZZ mode measured at different frequencies with Ramsey fringes. We also identify that the limitation of the secular frequency stability is mainly from the imperfect temperature insensitivity of voltage dividers and RF detectors, and as a result improvement of lab temperature stability is of great help for stabilizing the trap frequency.
翻訳日:2023-01-21 13:32:04 公開日:2022-10-26
# サイクルグラフ上の量子ウォークによる任意の量子演算の実装

Implementing arbitrary quantum operations via quantum walks on a cycle graph ( http://arxiv.org/abs/2210.14450v1 )

ライセンス: Link先を確認
Jia-Yi Lin, Xin-Yu Li, Yu-Hao Shao, Wei Wang, and Shengjun Wu(参考訳) ユニタリ演算の実装を見つけることは、量子計算の分野における基本的なタスクである。 このような課題に対して、サイクルグラフ上の離散時間量子ウォーク(DTQW)に基づく量子ニューラルネットワークを提案する。 まず,サイクルグラフ上のDTQWは,コイン演算子の適切な選択によってシステム上の任意のユニタリ演算を実現することができるので,我々のタスクに十分対応できることを示す。 次に、確率勾配降下アルゴリズムを機械学習から修正し、dtqwベースのニューラルネットワークに効率的に適用できるようにする。 このネットワークをトレーニングすることで、任意のユニタリ操作や2アウトカムのPOVMに対する近似を確実に見つけることができる。 さらに,ネットワークを単純化し,学習中にデバイスノイズを克服し,量子演算を近似する能力を維持しつつ,実験実装に親しみやすくすることの実証を行った。 本研究は、量子計算におけるDTQWベースのニューラルネットワークの機能とその実験室実装における可能性を示す。

Finding implementations of unitary operations is a fundamental task in the field of quantum computation. For such a task, here we propose a quantum neural network based on the discrete-time quantum walk (DTQW) on a cycle graph. Firstly, we show that the DTQW on a cycle graph can be well-equipped for our task since any unitary operation on the system can be realized via an appropriate choice of coin operators. Secondly, we modify the stochastic gradient descent algorithm from machine learning so that it can be applied to the DTQW-based neural network efficiently. By training this network, one can promisingly find approximations to arbitrary desired unitary operations, as well as 2-outcome POVMs. We further demonstrate that the network can be simplified and can overcome device noises during the training so that it becomes more friendly for laboratory implementations, while still maintaining its capability of approximating quantum operations. Our work shows the capability of the DTQW-based neural network in quantum computation and its potential in laboratory implementations.
翻訳日:2023-01-21 13:31:41 公開日:2022-10-26
# 量子ベル非局所性は、高次元量子状態の特別な二値測定では共有できない

Quantum Bell nonlocality cannot be shared under a special kind of bilateral measurements for high-dimensional quantum states ( http://arxiv.org/abs/2210.14447v1 )

ライセンス: Link先を確認
Tinggui Zhang, Qiming Luo and Xiaofen Huang(参考訳) 量子ベル非局所性は重要な量子現象である。 近年,片側測定によるベル非局所性の共有性は広く研究されている。 本研究では,量子ベル非局所性の両立性について検討する。 特定の射影作用素のクラスの下では、一方的な測定の場合のように、量子ベル非局所性は限られた回数だけ共有できないことが分かる。 我々の証明は分析的であり、測定戦略はより高次元の場合に一般化することができる。

Quantum Bell nonlocality is an important quantum phenomenon. Recently, the shareability of Bell nonlocality under unilateral measurements has been widely studied. In this study, we consider the shareability of quantum Bell nonlocality under bilateral measurements. Under a specific class of projection operators, we find that quantum Bell nonlocality cannot be shared for a limited number of times, as in the case of unilateral measurements. Our proof is analytical and our measurement strategies can be generalized to higher dimension cases.
翻訳日:2023-01-21 13:31:25 公開日:2022-10-26
# 虚偽性と量子状態秩序の尺度

Measures of imaginarity and quantum state order ( http://arxiv.org/abs/2210.14443v1 )

ライセンス: Link先を確認
Qiang Chen, Ting Gao, Fengli Yan(参考訳) 複素数は古典物理学と量子物理学の両方で広く使われ、量子系とその動的挙動を記述する上で重要な役割を果たしている。 本稿では,資源理論の枠組みにおける量子状態の虚偽性に関するいくつかの尺度について検討する。例えば,$l_{1}$ノルムに基づく測度,相対エントロピー,凸関数などである。 また,量子チャネルが単一量子ビットの量子状態順序に与える影響についても検討する。

Complex numbers are widely used in both classical and quantum physics, and play an important role in describing quantum systems and their dynamical behavior. In this paper we study several measures of imaginarity of quantum states in the framework of resource theory, such as the measures based on $l_{1}$ norm, relative entropy, and convex function, etc. We also investigate the influence of the quantum channels on quantum state order for a single qubit.
翻訳日:2023-01-21 13:31:17 公開日:2022-10-26
# 制御量子テレポーテーションに基づく2つの量子プロキシブラインド符号スキーム

Two Quantum Proxy Blind Signature Schemes Based on Controlled Quantum Teleportation ( http://arxiv.org/abs/2210.14438v1 )

ライセンス: Link先を確認
Qiming Luo, Tinggui Zhang, Xiaofen Huang, and Naihuan Jing(参考訳) 送信者(alice)から受信者(bob)へのメッセージが6粒子の絡み合ったチャネルを介して、未知の2粒子の絡み合った状態をテレポートする方式を提案する。 また、未知の1粒子の絡み合った状態を、同一の送信機と受信機の間で5ビットのクラスタ状態を介して双方向のメッセージで伝送する別の方式を提案する。 これら2つのスキームでは, 片方向ハッシュ関数, ベル状態測定, ユニタリ演算が採用されている。 提案手法では,量子力学の物理的特性を用いてデリゲーション,シグネチャ,検証プロセスを実装する。 さらに、これらのスキームには量子鍵分配プロトコルとワンタイムパッドが採用されている。

We present a scheme for teleporting an unknown, two-particle entangled state with a message from a sender (Alice) to a receiver (Bob) via a six-particle entangled channel. We also present another scheme for teleporting an unknown one-particle entangled state with a message transmitted in a two-way form between the same sender and receiver via a five-qubit cluster state. One-way hash functions, Bell-state measurements, and unitary operations are adopted in these two schemes. Our schemes use the physical characteristics of quantum mechanics to implement delegation, signature, and verification processes. Moreover, a quantum key distribution protocol and a one-time pad are adopted in these schemes.
翻訳日:2023-01-21 13:31:10 公開日:2022-10-26
# 圧縮光の遠隔準備と操作

Remote preparation and manipulation of squeezed light ( http://arxiv.org/abs/2210.14418v1 )

ライセンス: Link先を確認
Dongmei Han, Na Wang, Meihong Wang, Zhongzhong Qin and Xiaolong Su(参考訳) リモート状態の準備により、遠いノード間の共有絡み合いに基づいて量子状態を作成し、操作することができる。 ここでは, 遠隔操作による破砕光の調製と操作を実験的に実証する。 アリスステーションで連続可変絡み合った状態の1つのモードでホモダイン射影測定を行うことにより、ボブステーションで圧縮状態を生成する。 さらに、アリス状態の射影パラメータを変化させることにより、用意された圧縮状態に回転および変位操作を適用する。 また,Nモード連続変数Greenberger-Horne-Zeilinger-like状態に基づいて,N-1圧縮状態が遠隔操作可能であることを示す。 本結果は,連続変数を用いた量子鍵分布のセキュリティ解析に使用される絡み合いモデルを検証するとともに,遠隔量子情報処理への応用の可能性を示す。

Remote state preparation enables one to create and manipulate a quantum state based on the shared entanglement between distant nodes. Here, we experimentally demonstrate remote preparation and manipulation of squeezed light. By performing homodyne projective measurement on one mode of the continuous variable entangled state at Alice's station, a squeezed state is created at Bob's station. Moreover, rotation and displacement operations are applied on the prepared squeezed state by changing the projective parameters on Alice's state. We also show that the remotely prepared squeezed state is robust against loss and N-1 squeezed states can be remotely prepared based on a N-mode continuous variable Greenberger-Horne-Zeilinger-like state. Our results verify the entanglement-based model used in security analysis of quantum key distribution with continuous variables and have potential application in remote quantum information processing.
翻訳日:2023-01-21 13:31:01 公開日:2022-10-26
# 量子アドバンテージの実用化に向けての加速:national science foundation project scopingワークショップ

Accelerating Progress Towards Practical Quantum Advantage: A National Science Foundation Project Scoping Workshop ( http://arxiv.org/abs/2210.14757v1 )

ライセンス: Link先を確認
Paul Alsing, Phil Battle, Joshua C. Bienfang, Tammie Borders, Tina Brower-Thomas, Lincoln Carr, Fred Chong, Siamak Dadras, Brian DeMarco, Ivan Deutsch, Eden Figueroa, Danna Freedman, Henry Everitt, Daniel Gauthier, Ezekiel Johnston-Halperin, Jungsang Kim, Mackillo Kira, Prem Kumar, Paul Kwiat, John Lekki, Anjul Loiacono, Marko Loncar, John R. Lowell, Mikhail Lukin, Celia Merzbacher, Aaron Miller, Christopher Monroe, Johannes Pollanen, David Pappas, Michael Raymer, Ronald Reano, Brandon Rodenburg, Martin Savage, Thomas Searles, Jun Ye(参考訳) A Project Scoping Workshop reports that the quantum information science and technology (QIST) community is ready to stand up five to ten large-scale National Science Foundation-supported Quantum Technology Demonstration Projects (QTDPs) - large-scale public-private partnerships - that have a high probability for translation from laboratory to practice, creating technologies that demonstrate a clear 'quantum advantage' for science breakthroughs that are user-motivated and will provide access to a broad and diverse community of scientific users throughout the country. QTDPプログラムの実施が成功すれば、米国はQISTの指導的地位に就き、全国の経済に大きな影響を与えることになる。

A Project Scoping Workshop reports that the quantum information science and technology (QIST) community is ready to stand up five to ten large-scale National Science Foundation-supported Quantum Technology Demonstration Projects (QTDPs) - large-scale public-private partnerships - that have a high probability for translation from laboratory to practice, creating technologies that demonstrate a clear 'quantum advantage' for science breakthroughs that are user-motivated and will provide access to a broad and diverse community of scientific users throughout the country. Successful implementation of a program of QTDPs will help put the United States in a leadership position in QIST and will have large positive economic impacts across the country.
翻訳日:2023-01-21 13:24:42 公開日:2022-10-26
# 多モードキャビティと回路QEDにおける強ダウンコンバージョンの理論

Theory of strong down-conversion in multi-mode cavity and circuit QED ( http://arxiv.org/abs/2210.14681v1 )

ライセンス: Link先を確認
Nitish Mehta, Cristiano Ciuti, Roman Kuzmin, Vladimir E. Manucharyan(参考訳) 我々は、キュービットと近接キャビティモードの間の真空ラビ振動の周波数がキャビティの自由スペクトル範囲を超えたときに定義される多モード空洞量子電磁力学(QED)の超強結合状態を再考する。 新しい予測では、キャビティの線形スペクトルは消滅するパワー限界で測定され、コヒーレント単光子ダウンコンバージョン過程のキュービット誘起カスケードに関連する複雑な微細構造を得ることができる。 この多体効果はブルート力の数値では捉えるのが難しく、赤外線と紫外線の限界の両方において光マッター結合パラメータに敏感である。 長い伝送線路断面に結合した超伝導フラクソニウム量子ビットの例に着目した。 このような回路QEDセットアップにおける変換レートは、容易に数MHzを超えることができ、通常のデコヒーレンスプロセスを克服するのに十分である。 解析計算は、量子ビット回路が低/高周波限界における磁束/電荷変数を介して放射と相互作用する非伝統的なゲージ選択によって可能となった。 我々の微視的スペクトル構造の予測は、非線形媒質で励起された1つの光子が吸収されるよりも自発的にダウンコンバージョンする量子光学における「強いダウンコンバージョン」理論の基礎を成している。

We revisit the superstrong coupling regime of multi-mode cavity quantum electrodynamics (QED), defined to occur when the frequency of vacuum Rabi oscillations between the qubit and the nearest cavity mode exceeds the cavity's free spectral range. A novel prediction is made that the cavity's linear spectrum, measured in the vanishing power limit, can acquire an intricate fine structure associated with the qubit-induced cascades of coherent single-photon down-conversion processes. This many-body effect is hard to capture by a brute-force numerics and it is sensitive to the light-matter coupling parameters both in the infra-red and the ultra-violet limits. We focused at the example case of a superconducting fluxonium qubit coupled to a long transmission line section. The conversion rate in such a circuit QED setup can readily exceed a few MHz, which is plenty to overcome the usual decoherence processes. Analytical calculations were made possible by an unconventional gauge choice, in which the qubit circuit interacts with radiation via the flux/charge variable in the low-/high-frequency limits, respectively. Our prediction of the fine spectral structure lays the foundation for the "strong down-conversion" regime in quantum optics, in which a single photon excited in a non-linear medium spontaneously down-converts faster than it is absorbed.
翻訳日:2023-01-21 13:24:10 公開日:2022-10-26
# 重み調整可能な量子ループガスのパラメータ化量子回路

Parameterized quantum circuit for weight-adjustable quantum loop gas ( http://arxiv.org/abs/2210.14662v1 )

ライセンス: Link先を確認
Rong-Yang Sun, Tomonori Shirakawa and Seiji Yunoki(参考訳) 実量子デバイス [k] 上の量子回路により、正確に解くことができるトーリック符号モデルのトポロジカル順序付き基底状態を実現することの最近の成功に動機づけられた。 J. Satzinger {\it et al}。 ここでは、パラメータ化量子回路(PQC)と、同じ実デバイスに最適化可能な最適構造を用いて、調整可能な重み付けループ構成で量子ループ状態を表現することを提案する。 このようなpqcと変分量子固有解法を組み合わせることで、システムは正確に解くことができない外部磁場におけるトーリック符号モデルの正確な量子回路表現を得る。 この系のトポロジカル量子相転移は、磁化とトポロジ的絡み合いエントロピーを測定することにより最適化回路でさらに観察される。

Motivated by the recent success of realizing the topologically ordered ground state of the exactly solvable toric code model by a quantum circuit on the real quantum device [K. J. Satzinger {\it et al}., Science \textbf{374}, 1237 (2021)], here we propose a parameterized quantum circuit (PQC) with the same real-device-performable optimal structure to represent quantum loop gas states with adjustably weighted loop configurations. Combining such a PQC with the variational quantum eigensolver, we obtain the accurate quantum circuit representation for the toric code model in an external magnetic field with any field strength, where the system is not exactly solvable. The topological quantum phase transition in this system is further observed in the optimized circuits by measuring the magnetization and topological entanglement entropy.
翻訳日:2023-01-21 13:23:27 公開日:2022-10-26
# MIMO検出のためのシミュレーション分岐アルゴリズム

Simulated Bifurcation Algorithm for MIMO Detection ( http://arxiv.org/abs/2210.14660v1 )

ライセンス: Link先を確認
Wen Zhang and Yu-Lin Zheng(参考訳) 本研究では,mimo(multiple-input multiple-output)システムにおける信号検出のためのsbアルゴリズムの性能について検討した。 その結果,sbアルゴリズムは,ビット誤り率と信号対雑音比,およびコヒーレントイジングマシンに基づくmimo検出法の性能改善により,広く使用されている線形最小二乗誤差復号器よりも優れた性能向上を達成できることがわかった。

We study the performance of the simulated bifurcation (SB) algorithm for signal detection in multiple-input multiple-output (MIMO) system, a problem of key interest in modern wireless communication systems. Our results show that SB algorithm can achieve significant performance improvement over the widely used linear minimum-mean square error decoder in terms of the bit error rate versus the signal-to-noise ratio, as well as performance improvement over the coherent Ising machine based MIMO detection method.
翻訳日:2023-01-21 13:23:14 公開日:2022-10-26
# 時間依存量子グラフ、閉リサジョウス図形の幾何学的位相と結び目

Time dependent quantum graphs, the geometric phase and knots on closed Lissajous figures ( http://arxiv.org/abs/2210.14652v1 )

ライセンス: Link先を確認
Uzy Smilansky and Gilad Sofer(参考訳) 本論文の目的は3倍である。 まず、時間依存辺を持つ計量グラフ上の時間依存シュロディンガー方程式と、対応する時間発展がユニタリとなるような問題を定式化する適切な方法について議論する。 2つ目は、固有状態によって取得された幾何学的位相を、エッジの長さが変化するにつれて、時間的に進化させることである。 3つ目は、幾何学的な位相とパラメータ空間におけるサイクルの位相の間の関係を研究することである。 リッサホウス結び目の周波数は幾何学的位相から推定可能であることを示す。

The purpose of the present paper is threefold. The first is to discuss the time dependent Schrodinger equation on a metric graph with time-dependent edges, and the proper way to pose the problem so that the corresponding time evolution is unitary. The second is to compute the geometric phase acquired by an eigenstate as it adiabatically evolves in time as the edge lengths change. The third is to study the connection between the geometric phase and the topology of the cycles in parameter space when they are taken to be Lissajous knots. We show that the frequencies of the Lissajous knot can be deduced from the geometric phase.
翻訳日:2023-01-21 13:23:03 公開日:2022-10-26
# 人工ゲージ場におけるボース・ハッバード三角形はしご

Bose-Hubbard triangular ladder in an artificial gauge field ( http://arxiv.org/abs/2210.14594v1 )

ライセンス: Link先を確認
Catalin-Mihai Halati, Thierry Giamarchi(参考訳) 人工ゲージ場が存在する場合, 相互作用するボソニック粒子を2本脚三角形ラダー上で検討する。 我々は密度行列再正規化群数値シミュレーションと解析ボゾン化計算を用いて、このシステムのリッチ位相図を研究する。 三角格子幾何学によって引き起こされるフラストレーションと相互作用の間の相互作用が、複数のキラル量子相を引き起こすことを示す。 超流動状態からモット絶縁状態への相転移が起こり、マイスナーまたは渦特性を持つ。 さらに、はしごの2本の脚の間の対称性を明示的に破る状態、偏りのあるキラル超流動は、$\pi$に近いフラックスの値に対して見つかる。 ハードコアボソンの時代には, 完全にフラストレーションされたはしごを超えるボンドオーダー絶縁体の拡張がマイスナー型キラル電流を示すことが示されている。 低温原子系実験における実験結果について考察する。

We consider interacting bosonic particles on a two-leg triangular ladder in the presence of an artificial gauge field. We employ density matrix renormalization group numerical simulations and analytical bosonization calculations to study the rich phase diagram of this system. We show that the interplay between the frustration induced by the triangular lattice geometry and the interactions gives rise to multiple chiral quantum phases. Phase transition between superfluid to Mott-insulating states occur, which can have Meissner or vortex character. Furthermore, a state that explicitly breaks the symmetry between the two legs of the ladder, the biased chiral superfluid, is found for values of the flux close to $\pi$. In the regime of hardcore bosons, we show that the extension of the bond order insulator beyond the case of the fully frustrated ladder exhibits Meissner-type chiral currents. We discuss the consequences of our findings for experiments in cold atomic systems.
翻訳日:2023-01-21 13:22:26 公開日:2022-10-26
# SU(2)対称性の有無にかかわらず2次元XXZモデルにおける固有状態熱化仮説

Eigenstate thermalization hypothesis in two-dimensional XXZ model with or without SU(2) symmetry ( http://arxiv.org/abs/2210.14589v1 )

ライセンス: Link先を確認
Jae Dong Noh(参考訳) 周期境界条件下での2次元矩形格子におけるスピン-1/2 XXZモデルの固有状態熱化特性について検討した。 対称性特性をエクスプロイトすると、システムサイズ4\times 7$までのエネルギー固有値と最大4\times 6$までのエネルギー固有状態の正確な対角化研究を行うことができる。 ハミルトン固有値スペクトルとハミルトン固有状態基底の観測可能な行列要素の数値解析は、2次元XXZモデルが固有状態の熱化仮説に従うことを裏付ける。 スピン相互作用が等方性であるとき、XXZモデルハミルトンは全スピンを保存し、SU(2)対称性を持つ。 固有状態熱化仮説は、全スピンが良い量子数である各部分空間において依然として有効であることを示す。

We investigate the eigenstate thermalization properties of the spin-1/2 XXZ model in the two-dimensional rectangular lattices of size $L_1\times L_2$ under the periodic boundary conditions. Exploiting the symmetry property, we can perform the exact diagonalization study of the energy eigenvalues up to system size $4\times 7$ and of the energy eigenstates up to $4\times 6$. Numerical analysis of the Hamiltonian eigenvalue spectrum and matrix elements of an observable in the Hamiltonian eigenstate basis supports that the two-dimensional XXZ model follows the eigenstate thermalization hypothesis. When the spin interaction is isotropic the XXZ model Hamiltonian conserves the total spin and has the SU(2) symmetry. We show that the eigenstate thermalization hypothesis is still valid within each subspace where the total spin is a good quantum number.
翻訳日:2023-01-21 13:22:14 公開日:2022-10-26
# 共役エルミートハミルトン系に基づく非エルミート系に対する変分行列積状態のアプローチ

Variational Matrix Product State Approach for Non-Hermitian System Based on a Companion Hermitian Hamiltonian ( http://arxiv.org/abs/2210.14858v1 )

ライセンス: Link先を確認
Zhen Guo, Zheng-Tao Xu, Meng Li, Li You, Shuo Yang(参考訳) トポロジカルな性質を示す非エルミート系が関心を集めている。 本研究では,Hermitian Hamiltonian を用いた行列積状態 (MPS) の定式化において,非Hermitian 系の基底状態を解くアルゴリズムを提案する。 非エルミート系の固有値が知られているなら、Hermitian Hamiltonian は Hermitian 変分法を用いて直接構築して解ける。 固有値が未知の場合、Hermitian Hamiltonianとともに勾配降下は基底状態の固有値と固有状態の両方をもたらす。 変動原理をソリッド基礎として、このアルゴリズムは収束を保証し、非エルミート的Su-Schrieffer-Heeger(nH-SSH)モデルの正確な解と、その相互作用拡張との良好な一致を与える。 提案するアプローチは、任意の非エルミート行列を解くことを避け、大きな非エルミート系でよく見られる数値不安定性を克服する。

Non-Hermitian systems exhibiting topological properties are attracting growing interest. In this work, we propose an algorithm for solving the ground state of a non-Hermitian system in the matrix product state (MPS) formalism based on a companion Hermitian Hamiltonian. If the eigenvalues of the non-Hermitian system are known, the companion Hermitian Hamiltonian can be directly constructed and solved using Hermitian variational methods. When the eigenvalues are unknown, a gradient descent along with the companion Hermitian Hamiltonian yields both the ground state eigenenergy and the eigenstate. With the variational principle as a solid foundation, our algorithm ensures convergence and provides results in excellent agreement with the exact solutions of the non-Hermitian Su-Schrieffer-Heeger (nH-SSH) model as well as its interacting extension. The approach we present avoids solving any non-Hermitian matrix and overcomes numerical instabilities commonly encountered in large non-Hermitian systems.
翻訳日:2023-01-21 13:15:14 公開日:2022-10-26
# ブロッホ球のリーマン幾何学からみた三脚原子系の断熱通路の研究

Study of the adiabatic passage in tripod atomic systems in terms of the Riemannian geometry of the Bloch sphere ( http://arxiv.org/abs/2210.14847v1 )

ライセンス: Link先を確認
Arturs Cinins, Martins Bruvelis, Nikolai N. Bezuglov(参考訳) 本稿では,刺激されたラマン断熱通路過程の微分幾何学的手法に基づく解析を行う。 本研究はBruce W. Shoreらによる優れた論文に触発された。 g. unanyan、b. w. shore、k. bergmann phys。 a \textbf{59}, 2910 (1999) を参照。 量子三脚系における断熱通路を、ブロッホ球面に沿ったダーク状態ベクトルのリーマン平行輸送として純粋に幾何学的に解釈することで、ストークス、ポンプ、およびレーザー励起パルスの所定のシーケンスに対するシステムの進化を記述することができる。 球面上の円に対するDykhne-Davis-Pechukas adiabaticity criterionとminimax principleと組み合わせることで、高忠実度三重項分数STIRAPに対する最適なレーザーパルスシーケンスの解析形式を得ることができる。 従来の{\lambda$-systems のシュラップとは対照的に、最適なレーザーパルス列のガウス近似は、300ドルの断熱パラメータに対して、発振器や他の人口移動精度に有害な影響を及ぼさずに 10^{-7}$ に達することができる。

We present an analysis of the stimulated Raman adiabatic passage processes based on the methods of differential geometry. The present work was inspired by an excellent article by Bruce W. Shore et al. (R. G. Unanyan, B. W. Shore, and K. Bergmann Phys. Rev. A \textbf{59}, 2910 (1999)). We demonstrate how a purely geometric interpretation of the adiabatic passage in quantum tripod systems as a Riemannian parallel transport of the dark state vector along the Bloch sphere allows describing the evolution of the system for a given sequence of Stokes, pump and control laser excitation pulses. In combination with the Dykhne-Davis-Pechukas adiabaticity criterion and the minimax principle for circles on a sphere, this approach allows obtaining the analytical form of the optimal laser pulse sequences for a high fidelity tripod fractional STIRAP. In contrast to the conventional STIRAP in $\Lambda$-systems, the Gaussian approximations of the optimal laser pulse sequences allow reaching the infidelity of $10^{-7}$ for the adiabaticity parameter of $300$ without noticeable oscillatory or other detrimental effects on population transfer accuracy.
翻訳日:2023-01-21 13:14:54 公開日:2022-10-26
# 低温バイアス回路を用いた超伝導ナノワイヤ単光子検出器のナノ秒ゲーティング

Nanosecond gating of superconducting nanowire single-photon detectors using cryogenic bias circuitry ( http://arxiv.org/abs/2210.14841v1 )

ライセンス: Link先を確認
Thomas Hummel, Alex Widhalm, Jan Philipp H\"Opker, Klaus D. J\"Ons, Jin Chang, Andreas Fognini, Stephan Steinhauer, Val Zwiller, Artur Zrenner, Tim J. Bartley(参考訳) 超伝導ナノワイヤ単光子検出器(SNSPD)は、ほぼ単体効率、低い暗カウント数、短い回復時間を示す。 これらの特性とsnspdの時間的制御を組み合わせることで、よりダイナミックレンジの計数やポンププローブ分光やライダーの時間的フィルタリングのアクティブなデラッチとして応用が拡大される。 そこで, SNSPDのアクティブゲーティングを, 最大オン・ツー・オン時間2.4 ns, 総ゲート長5.0 nsで実証した。 昇降時間が制御エレクトロニクスと組み合わせて検出器のインダクタンスに依存することを示す。 ゲートウィンドウは完全かつ自由で、電気的に最大500 nsを1.0MHzの繰り返し速度で調整できる。 閉サイクル吸収冷凍機の2.3K段にゲーティングを発生させる制御エレクトロニクスを装着し, 温度0.8Kの冷間において検出器を動作させ, ゲーティングウィンドウのオン時に検出器の効率とタイミングジッタが変更されないことを示す。 我々はゲート動作を利用して、エミュレートされたポンププローブ実験において、第1.2因子による光子計数ダイナミックレンジの増加、および強ポンプの時間的フィルタリングを示す。

Superconducting nanowire single-photon detectors (SNSPDs) show near unity efficiency, low dark count rate, and short recovery time. Combining these characteristics with temporal control of SNSPDs broadens their applications as in active de-latching for higher dynamic range counting or temporal filtering for pump-probe spectroscopy or LiDAR. To that end, we demonstrate active gating of an SNSPD with a minimum off-to-on rise time of 2.4 ns and a total gate length of 5.0 ns. We show how the rise time depends on the inductance of the detector in combination with the control electronics. The gate window is demonstrated to be fully and freely, electrically tunable up to 500 ns at a repetition rate of 1.0 MHz, as well as ungated, free-running operation. Control electronics to generate the gating are mounted on the 2.3 K stage of a closed-cycle sorption cryostat, while the detector is operated on the cold stage at 0.8 K. We show that the efficiency and timing jitter of the detector is not altered during the on-time of the gating window. We exploit gated operation to demonstrate a method to increase in the photon counting dynamic range by a factor 11.2, as well as temporal filtering of a strong pump in an emulated pump-probe experiment.
翻訳日:2023-01-21 13:14:34 公開日:2022-10-26
# 双曲点交差による例外曲線の動的囲い込み:プログラム可能なマルチモードスイッチ

Dynamically encircling an exceptional curve by crossing diabolic points: A programmable multimode switch ( http://arxiv.org/abs/2210.14840v1 )

ライセンス: Link先を確認
Ievgen I. Arkhipov, Adam Miranowicz, Fabrizio Minganti, \c{S}ahin K. \"Ozdemir, Franco Nori(参考訳) 非エルミート系のダイアボリック点を横断しながら、例外曲線(EC)を動的に囲むプログラム可能なマルチモードスイッチを提案する。 ECは例外点(EP)の1次元拡張である。 最近の2モードシステムの研究では、EPを動的に巻き回すことで、周囲の方向を変えるだけでモード切替が実現できることが示されている。 しかし、高次epを持つマルチモードシステムの場合、状況はより複雑になる。 つまり、断熱性の低下により、2つの要求モード間で直接交換できる能力が阻害される可能性がある。 ここでは,ecsを巻くことでこの困難を克服できることを示す。ecsの軌道はダイアボリックポイントをまたいでプログラム可能なマルチモードスイッチを実装することができる。 マルチモードスイッチを実験的に実現するためのプラットフォームとして、4モードpt対称ボソニックシステムを提案する。 我々の研究は、非エルミートフォトニックセットアップにおける光操作の新しい視点を開く。

We propose a programmable multimode switch based on dynamically encircling an exceptional curve (EC) while crossing diabolic points in non-Hermitian systems. ECs are the one-dimensional extension of exceptional points (EPs). Recent studies for two-mode systems have shown that, by dynamically winding around EPs, mode switching can be realized by simply changing the encircling direction. However, for multimode systems with higher-order EPs, the situation can be more involved. That is, due to the breakdown of adiabadicity, the ability to directly swap between two desired modes on demand can be impeded. Here we demonstrate that this difficulty can be overcome by winding around ECs, whose trajectories can additionally cross diabolic points, allowing, thus, to implement a programmable multimode switch. We propose a four-mode PT-symmetric bosonic system as a platform for experimental realization of this multimode switch. Our work opens new perspectives for light manipulations in non-Hermitian photonic setups.
翻訳日:2023-01-21 13:14:10 公開日:2022-10-26
# スピノル双極子超低温原子を用いたリンクモデルの量子シミュレータ

Quantum simulator of link models using spinor dipolar ultracold atoms ( http://arxiv.org/abs/2210.14836v1 )

ライセンス: Link先を確認
Pierpaolo Fontana, Joao C. Pinto Barros, Andrea Trombettoni(参考訳) 二次元格子における量子リンクモデルの量子シミュレーションのためのスキームを提案する。 提案手法では, スピノル双極子気体を適切な形状の格子上に配置し, ガスの超微粒子準位が異なる粒子のダイナミクスを, 双極子相互作用に結合した一次元鎖で行う。 少なくとも4つのレベルが必要です。 このスキームはパラメータの特定の微調整を必要としない。 本稿では摂動法による量子リンクモデルのパラメータの導出について述べる。 文献に存在する$(2+1)$次元量子リンクモデルに対する他のスキームとの比較について述べる。 最後に三次元格子の拡張を示し、その微妙な点を指摘する。

We propose a scheme for the quantum simulation of quantum link models in two-dimensional lattices. Our approach considers spinor dipolar gases on a suitably shaped lattice, where the dynamics of particles in the different hyperfine levels of the gas takes place in one-dimensional chains coupled by the dipolar interactions. We show that at least four levels are needed. The present scheme does not require any particular fine-tuning of the parameters. We present a derivation of the parameters of the quantum link models by using a perturbative method. A comparison with other schemes for $(2+1)$-dimensional quantum link models present in literature is discussed. Finally, the extension to three-dimensional lattices is presented, and its subtleties are pointed out.
翻訳日:2023-01-21 13:13:54 公開日:2022-10-26
# システムモデルH1における初期計算による一元結合クラスタの化学認識:冷媒化学への応用

Chemically Aware Unitary Coupled Cluster with ab initio Calculations on System Model H1: A Refrigerant Chemicals Application ( http://arxiv.org/abs/2210.14834v1 )

ライセンス: Link先を確認
I. T. Khan, M. Tudorovskaya, J. J. M. Kirsopp, D. Mu\~noz Ramo, P. W. Warrier, D. K. Papanastasiou, R. Singh(参考訳) 回路深度の低減は、現在および近未来の量子コンピュータ上での量子化学シミュレーションにおいて極めて重要である。 この問題は、Unitary Coupled Cluster ansatzの化学的に認識された戦略を導入することで解決される。 目的は、量子回路の合成を支援するためにシステムの化学的記述を使用することである。 この手法を,実験騒音低減のための対称性検証の2つのフレーバーと組み合わせる。 これらの方法は、6量子QSE(Quantum Subspace Expansion)にSystem Model H1を使用することができる。 ご紹介します (i)ch4光学スペクトルを得るための計算 (ii)[ch$^{\cdot}_3$-h--oh$^{\cdot}]^{\ddagger}$を含む大気ガス反応シミュレーション。 化学的に認識されたucc状態準備戦略とアート対称性検証手法を併用することにより,ch4のデバイス収率を6量子ビットで改善する。 これは、システムモデルH1で計算された電子エネルギーに対して、2ビットゲート数の90%改善と相対誤差の0.2%削減によって実証される。

Circuit depth reduction is of critical importance for quantum chemistry simulations on current and near term quantum computers. This issue is tackled by introducing a chemically aware strategy for the Unitary Coupled Cluster ansatz. The objective is to use the chemical description of a system to aid in the synthesis of a quantum circuit. We combine this approach with two flavours of Symmetry Verification for the reduction of experimental noise. These method enable the use of System Model H1 for a 6-qubit QSE (Quantum Subspace Expansion). We present (i) calculations to obtain CH4 optical spectra; (ii) an atmospheric gas reaction simulation involving $[$CH$^{\cdot}_3$--H--OH$^{\cdot}]^{\ddagger}$. Using our chemically aware UCC state-preparation strategy in tandem with state of the art symmetry verification methods, we improve device yield for CH4 at 6-qubits. This is demonstrated by a 90% improvement in two-qubit gate count and reduction in relative error to 0.2% for electronic energy calculated on System Model H1.
翻訳日:2023-01-21 13:13:44 公開日:2022-10-26
# 時空対称性を持つ理論非依存ランダム性生成

Theory-independent randomness generation with spacetime symmetries ( http://arxiv.org/abs/2210.14811v1 )

ライセンス: Link先を確認
Caroline L. Jones, Stefan L. Ludescher, Albert Aloy, Markus P. Mueller(参考訳) 時空対称性の破断に基づく半デバイス非依存プロトコルのクラスを導入する。 特に、物理系の空間回転への応答が観測される事象の確率をいかに制約するかを特徴付ける:我々の設定では、量子相関の集合は、量子物理学を仮定せずに回転対称性から生じる。 実用的なレベルでは、デバイスを信じたり量子論を仮定したりすることなく安全な乱数を生成することができる。 基本レベルでは、事象の確率(量子力学でよく見られる)と時空の性質(相対性理論でよく見られる)の間の相互作用を探索する理論に依存しない枠組みを開設する。

We introduce a class of semi-device-independent protocols based on the breaking of spacetime symmetries. In particular, we characterise how the response of physical systems to spatial rotations constrains the probabilities of events that may be observed: in our setup, the set of quantum correlations arises from rotational symmetry without assuming quantum physics. On a practical level, our results allow for the generation of secure random numbers without trusting the devices or assuming quantum theory. On a fundamental level, we open a theory-agnostic framework for probing the interplay between probabilities of events (as prevalent in quantum mechanics) and the properties of spacetime (as prevalent in relativity).
翻訳日:2023-01-21 13:12:35 公開日:2022-10-26
# 強相関多体系における厳密な量子ダイナミクス、断熱へのショートカット、および量子クエンチ:時間依存性ジャストロウアンザッツ

Exact Quantum Dynamics, Shortcuts to Adiabaticity, and Quantum Quenches in Strongly-Correlated Many-Body Systems: The Time-Dependent Jastrow Ansatz ( http://arxiv.org/abs/2210.14937v1 )

ライセンス: Link先を確認
Jing Yang, Adolfo del Campo(参考訳) 平衡から遠く離れた強相関量子多体系の記述は、それが必要とする情報量のために本質的に困難である。 時間依存波動関数に対するジャストロウ・アンサッツの一般化を導入し、強い相関関係を示す様々な系の時間進化を効率的かつ正確に記述する。 以前に知られていた厳密解はスケール不変性によって特徴づけられ、空間密度のような局所相関の進化は自己相似的である。 しかし、複雑な時間依存型ジャストロウ・アンサッツ(TDJA)はスケール不変性に制限されず、それを持たないプロセスを記述することができる。 関連する時間進化は、実数値化されたTDJAによって記述された量子状態の連続多様体に沿って反断熱駆動による断熱へのショートカット(STA)の実装と等価である。 そこで本研究では,スケール不変性に欠ける強相関多体量子システムにおいて,正確なSTAを設計する手段を提供する。 本研究では,対数対数相互作用を補うcalogero-sutherlandモデルや双曲モデルなど,逆二乗相互作用を持つ系における知見を説明する。 さらに, 長距離リーブ・リンガーモデルとして知られる1次元における接触・クーロン相互作用のボソンのダイナミクスについても考察する。 この結果は,これらすべてのモデルにおけるクエンチダイナミクスの研究に利用できる。 本研究は連続変数を持つ非平衡強相関系の数値および量子シミュレーションのベンチマークを提供する。

The description of strongly-correlated quantum many-body systems far-from equilibrium is intrinsically challenging due to the amount of information it requires. We introduce a generalization of the Jastrow ansatz for time-dependent wavefunctions, that provides an efficient and exact description of the time-evolution of a variety of systems exhibiting strong correlations. Exact solutions previously known are characterized by scale invariance, making the evolution of local correlations, such as the spatial density, self-similar. However, we find that a complex-valued time-dependent Jastrow ansatz (TDJA) is not restricted to scale-invariance and can describe processes lacking it. The associated time evolution is equivalent to the implementation of a shortcut to adiabaticity (STA) by counterdiabatic driving along a continuous manifold of quantum states described by a real-valued TDJA. Thus, our results provide the means to engineer exact STA in strongly-correlated many-body quantum systems lacking scale invariance. We illustrate our findings in systems with inverse-square interactions, such as the Calogero-Sutherland and the hyperbolic models, that are supplemented with pairwise logarithmic interactions. We further consider the dynamics of bosons subject to both contact and Coulomb interactions in one dimension, known as the long-range Lieb-Liniger model. Our results can be used to study the quench dynamics in all these models. Our findings provide a benchmark for numerical and quantum simulations of nonequilibrium strongly-correlated systems with continuous variables.
翻訳日:2023-01-21 13:06:39 公開日:2022-10-26
# ハイブリッドエンタングルメントと逆デコヒーレンスを有する雑音下での効率的な量子テレポーテーション

Efficient quantum teleportation under noise with hybrid entanglement and reverse decoherence ( http://arxiv.org/abs/2210.14935v1 )

ライセンス: Link先を確認
Zhao-Di Liu, Olli Siltanen, Tom Kuusela, Rui-Heng Miao, Chen-Xi Ning, Chuan-Feng Li, Guang-Can Guo, Jyrki Piilo(参考訳) デコヒーレンスは、効率的な量子技術に対する最大の障害の一つである。 例えば量子テレポーテーション(量子情報処理の基盤)は一般的にノイズの多い環境では無駄になり、デコヒーレンスは量子を古典に分解する。 そのため、ノイズやデコヒーレンスを制御する新しい方法が積極的に開発されている。 ここでは、純粋なデコヒーレンス(decoherence)の下で量子テレポーテーション(dephasing)を考える。 全光学実験においてノイズ量子テレポーテーションと逆デコヒーレンスを実装する。 また,ベル-CHSHの不等式に反する最初の資源量子ビットを使わずに,高い伝送特性を実現する。 その結果,非局所性などの非局所性資源に新たな光を当て,デコヒーレンスに抵抗する効率的な方法を提供した。

Decoherence constitutes one of the biggest hindrances to efficient quantum technologies. Quantum teleportation, for example - the cornerstone of quantum information processing - typically becomes futile in a noisy setting, with decoherence degrading quantum to classical. Hence, new ways to control noise and decoherence are being actively developed. Here, we consider quantum teleportation under pure decoherence, i.e. dephasing, which we show how to reverse with hybrid entanglement. We implement the noisy quantum teleportation and reverse decoherence in all-optical experiments. Remarkably, we achieve high teleportation fidelities without the initial resource qubits ever violating the Bell-CHSH inequalities. Our results therefore shed new light on nonlocal resources, e.g., hidden nonlocality, while simultaneously providing an efficient way to resist decoherence.
翻訳日:2023-01-21 13:06:14 公開日:2022-10-26
# 量子コンピューティングを実現するための自動化フレームワークを目指して

Towards an Automated Framework for Realizing Quantum Computing Solutions ( http://arxiv.org/abs/2210.14928v1 )

ライセンス: Link先を確認
Nils Quetschlich, Lukas Burgholzer, Robert Wille(参考訳) 量子コンピューティングは、最近のハードウェア、ソフトウェア、および有望なアプリケーションの開発によって、技術として急速に進化している。 この技術を用いて特定の問題を解決するためには、適切な量子アルゴリズムを決定し、その問題を選択されたアルゴリズムに適した形で符号化し、実行し、結果を復号する必要がある。 現在までに、これらの退屈でエラーを起こしやすいステップは、主に手動で行われる。 これは、特にその領域の専門知識がほとんど、あるいは全くないユーザにとって、量子コンピューティングを使用するための高いエントリバリアを生み出します。 本研究では,ユーザが量子コンピューティングソリューションを自動で利用できるようにすることで,この参入障壁を低くすることを目的としたフレームワークを構想する。 この目的のために、ワークフローの量子ステップは、完全に自動化されたバックエンドによって可能な限りユーザから保護されているのに対して、古典的なソルバと可能な限り類似したインターフェースが提供される。 このようなフレームワークの実現可能性とユーザビリティを示すため、GitHubで公開されている2つの異なるクラスの問題に対する概念実証実装を提供している(https://github.com/cda-tum/MQTProblemSolver)。 これにより、この技術に適度な専門知識がなければ、量子コンピューティングソリューションを実現するための、低閾値のアプローチの基礎を提供する。

Quantum computing is fast evolving as a technology due to recent advances in hardware, software, as well as the development of promising applications. To use this technology for solving specific problems, a suitable quantum algorithm has to be determined, the problem has to be encoded in a form suitable for the chosen algorithm, it has to be executed, and the result has to be decoded. To date, each of these tedious and error-prone steps is conducted in a mostly manual fashion. This creates a high entry barrier for using quantum computing -- especially for users with little to no expertise in that domain. In this work, we envision a framework that aims to lower this entry barrier by allowing users to employ quantum computing solutions in an automatic fashion. To this end, interfaces as similar as possible to classical solvers are provided, while the quantum steps of the workflow are shielded from the user as much as possible by a fully automated backend. To demonstrate the feasibility and usability of such a framework, we provide proof-of-concept implementations for two different classes of problems which are publicly available on GitHub (https://github.com/cda-tum/MQTProblemSolver). By this, this work provides the foundation for a low-threshold approach of realizing quantum computing solutions with no or only moderate expertise in this technology.
翻訳日:2023-01-21 13:05:59 公開日:2022-10-26
# 重力真空からのハーベストング絡み

Harvesting entanglement from the gravitational vacuum ( http://arxiv.org/abs/2210.14921v1 )

ライセンス: Link先を確認
T. Rick Perche, Boris Ragula and Eduardo Mart\'in-Mart\'inez(参考訳) 我々は、量子系が重力場の量子自由度から絡み合いをいかに得るかを研究する。 具体的には、非相対論的量子系と線形量子重力との相互作用を詳細に記述し、この文脈で2つの空間的な分離プローブが重力場の絡み合いをいかに得るかを探究する。 本研究は, 重力の量子自由度の存在の証拠を提供するため, 将来的に実験的に関連のある現実的なプローブに対して, 収穫された絡み合いの推定を行う。

We study how quantum systems can harvest entanglement from the quantum degrees of freedom of the gravitational field. Concretely, we describe in detail the interaction of non-relativistic quantum systems with linearized quantum gravity, and explore how two spacelike separated probes can harvest entanglement from the gravitational field in this context. We provide estimates for the harvested entanglement for realistic probes which can be experimentally relevant in the future, since entanglement harvesting experiments can provide evidence for the existence of quantum degrees of freedom of gravity.
翻訳日:2023-01-21 13:05:22 公開日:2022-10-26
# コヒーレント算術のない量子状態準備

Quantum state preparation without coherent arithmetic ( http://arxiv.org/abs/2210.14892v1 )

ライセンス: Link先を確認
Sam McArdle, Andr\'as Gily\'en, Mario Berta(参考訳) 本稿では、振幅が既知の関数によって与えられる量子状態を作成するための汎用的手法を提案する。 既存の手法とは異なり、関数値を符号化するために手作りの可逆演算回路や量子メモリ負荷を必要としない。 代わりに、テンプレート量子固有値変換回路を用いて、正弦関数の低コストなブロック符号化を所望の関数に変換する。 近似多項式が一定のパリティを持つ場合、3 個のアンシラ qubit のみを使用し、最先端のアプローチと比較して桁数 qubit の減算を提供する一方、関数が多項式やフーリエ近似でよく表現できる場合、同様の数の toffoli ゲートを使用する。 black-box法と同様に、我々のアプローチの複雑さは関数の'l2-norm fill-fraction'に依存する。 ガウス窓状態やカイザー窓状態のような量子アルゴリズムでよく用いられる状態を作成するための手法の効率を実証する。

We introduce a versatile method for preparing a quantum state whose amplitudes are given by some known function. Unlike existing approaches, our method does not require handcrafted reversible arithmetic circuits, or quantum memory loads, to encode the function values. Instead, we use a template quantum eigenvalue transformation circuit to convert a low cost block encoding of the sine function into the desired function. Our method uses only 4 ancilla qubits (3 if the approximating polynomial has definite parity), providing order-of-magnitude qubit count reductions compared to state-of-the-art approaches, while using a similar number of Toffoli gates if the function can be well represented by a polynomial or Fourier approximation. Like black-box methods, the complexity of our approach depends on the 'L2-norm filling-fraction' of the function. We demonstrate the efficiency of our method for preparing states commonly used in quantum algorithms, such as Gaussian and Kaiser window states.
翻訳日:2023-01-21 13:04:32 公開日:2022-10-26
# 薬物発見のための普遍的プログラム型ガウス型ボソンサンプラー

A universal programmable Gaussian Boson Sampler for drug discovery ( http://arxiv.org/abs/2210.14877v1 )

ライセンス: Link先を確認
Shang Yu, Zhi-Peng Zhong, Yuhua Fang, Raj B. Patel, Qing-Peng Li, Wei Liu, Zhenghao Li, Liang Xu, Steven Sagona-Stophel, Ewan Mer, Sarah E. Thomas, Yu Meng, Zhi-Peng Li, Yuan-Ze Yang, Zhao-An Wang, Nai-Jie Guo, Wen-Hao Zhang, Geoffrey K Tranmer, Ying Dong, Yi-Tao Wang, Jian-Shun Tang, Chuan-Feng Li, Ian A. Walmsley, and Guang-Can Guo(参考訳) ガウスボソンサンプリング(英語版) (GBS) は、複雑なグラフの傾きを見つけるなど、グラフ理論の問題を解くのに役立つ特別な能力を示している。 興味深いことに、分子ドッキング(構造に基づく薬物設計法)は、そのような最大重み付けの斜めフィニングプロセスとして解釈することができ、GBSで改善することができる。 この量子分子ドッキングタスクを実行するために、大規模量子ハードウェアの普遍的なプログラム性が重要な要件であり、最も先進的なgbsデバイスでも実現されていない。 ここでは,プログラム可能かつソフトウェアでスケール可能なGBSフォトニック量子プロセッサを構築し,パラメータを自由に調整可能とし,干渉計による任意のユニタリ演算を実装した。 このプロセッサでは,32ノードグラフのクレーク探索タスクが実証され,最大重み付けクレークが,従来のサンプリングに比べて約2倍の成功確率で検出される。 さらに、分子ドッキングプラットフォームの量子バージョンが構築されている。 がん、中枢神経系疾患(アルツハイマー病など)、炎症性疾患(虚血など)を治療するために臨床で使用されることを約束している2つの異なる標的タンパク質は、その対応する分子とドッキングすることが成功している。 当社のプロセッサは,実世界のアプリケーションに向けてgbsを前進させるユニークな普遍的かつプログラマブルなアーキテクチャにより,gbs回路の最先端を実現する。

Gaussian Boson Sampling (GBS) shows a particular capability to help solve problems in graph theory, such as finding cliques in a complicated graph. Interestingly, molecular docking -- a structural-based drug design method -- can be interpreted as such a maximum weighted clique-finding process, and thus is able to be improved with GBS. To perform this quantum molecular docking task, universal programmability of a large-scale quantum hardware is the crucial requirement, which has yet to be realized even with the most advanced GBS devices. Here, we build a universal, programmable and software-scalable time-bin encoded GBS photonic quantum processor, with freely adjustable squeezing parameters and implement an arbitrary unitary operation with an interferometer. With our processor, the clique-finding task in a 32-node graph is demonstrated, and the maximum weighted clique is found with around twice the probability of success compared with classical sampling. Furthermore, a quantum version of a molecular docking platform is built. Two different target proteins, which are promising to be used clinically to treat cancers, central nervous system disorders (e.g., Alzheimer's disease), or inflammatory diseases (e.g., ischaemia), are successfully demonstrated to be docked with their corresponding molecules. Our processor achieves the state-of-the-art in GBS circuitry with its distinctive universal and programmable architecture which advances GBS towards real-world applications.
翻訳日:2023-01-21 13:04:14 公開日:2022-10-26
# 創発時空シナリオにおける絡み合った系の相対距離について

On the Relative Distance of Entangled Systems in Emergent Spacetime Scenarios ( http://arxiv.org/abs/2210.14875v1 )

ライセンス: Link先を確認
Guilherme Franzmann, Sebastian M. D. Jovancic, Matthew Lawson(参考訳) エンタングルメントからの時空出現は、重力を定量化する代替案を提案し、一般に、サブシステム間で共有される相互情報量に基づく距離の概念を導出する。 約束ではあるが、このプログラムは、エンタングルメントを保ちながら分解される最大エンタングルベルペアのような、単純な物理システムを記述するための課題にまだ直面している。 量子系は独立した自由度を持つ複数のセクタを持ち、各セクタが絡み合うことができることを思い出させる。 これにより、1つのセクタが分離し、システム内の全相互情報量を減らすことができる一方で、他のセクタ、例えばスピンが絡み合うことができる。 これを玩具モデルで説明し、粒子の運動量不確実性の中でのみ、1つのベル対のスピンセクターよりもかなり大きな絡み合いが存在することを示す。 最後に、将来、研究室でどのように時空をテストできるかについて考慮することから締めくくります。

Spacetime emergence from entanglement proposes an alternative to quantizing gravity and typically derives a notion of distance based on the amount of mutual information shared across sub-systems. Albeit promising, this program still faces challenges to describe simple physical systems, such as a maximally entangled Bell pair that is taken apart while preserving its entanglement. We propose a solution to this problem: a reminder that quantum systems can have multiple sectors of independent degrees of freedom, and that each sector can be entangled. Thus, while one sector can decohere, and decrease the amount of total mutual information within the system, another sector, e.g. spin, can remain entangled. We illustrate this with a toy model, showing that only within the particles' momentum uncertainty there can be considerably more entanglement than in the spin sector for a single Bell pair. We finish by introducing some considerations about how spacetime could be tested in the lab in the future.
翻訳日:2023-01-21 13:03:48 公開日:2022-10-26
# SCAN密度関数によるSymmetry Breakingはシングルトカーボンダイマーの強い相関を規定する

Symmetry Breaking with the SCAN Density Functional Describes Strong Correlation in the Singlet Carbon Dimer ( http://arxiv.org/abs/2210.15080v1 )

ライセンス: Link先を確認
John P. Perdew, Shah Tanvir ur Rahman Chowdhury, Chandra Shahi, Aaron D. Kaplan, Duo Song, and Eric J. Bylaska(参考訳) SCAN (strongly constrained and appropriately normed) メタ一般化勾配近似 (meta-GGA) は、メタGAが満たせる17の正確な制約をすべて満たし、通常相関している平衡結合を正確に記述する。 対称性の破れにより、強い相関を持つsd平衡結合を正確に記述する。 sp平衡結合は通常ほぼ常に相関するが、c2一重項基底状態はsp平衡結合における強い相関の稀な場合として知られている。 分子配列B2, C2, O2, F2の局所スピン密度近似(LSDA)、Perdew-Burke-Ernzerhof(PBE) GGA、およびSCANメタGAの原子化エネルギーを計算した初期の研究は、分子の対称性を損なうことなく、SCANのみがC2に対する異常な結合を明らかにするのに十分正確であることが判明した。 この研究は、結合の反対側(端ではない)にネットアップスピン密度とダウンスピン密度の出現であるシングルトC2におけるスピン対称性の破れが、他の3つの分子よりも小さなSCAN原子化エネルギー誤差でアンダーボンディングを補正し、高度な密度汎関数による対称性の破れが強い相関を確実に表すことを示した。 この記事では、対称性の破れの一般的な側面と、対称性の破れがもたらす強い相関に関する洞察についても論じる。

The SCAN (strongly constrained and appropriately normed) meta-generalized gradient approximation (meta-GGA), which satisfies all 17 exact constraints that a meta-GGA can satisfy, accurately describes equilibrium bonds that are normally correlated. With symmetry breaking, it also accurately describes some sd equilibrium bonds that are strongly correlated. While sp equilibrium bonds are nearly always normally correlated, the C2 singlet ground state is known to be a rare case of strong correlation in an sp equilibrium bond. Earlier work that calculated atomization energies of the molecular sequence B2, C2, O2, and F2 in the local spin density approximation (LSDA), the Perdew-Burke-Ernzerhof (PBE) GGA, and the SCAN meta-GGA, without symmetry breaking in the molecule, found that only SCAN was accurate enough to reveal an anomalous under-binding for C2. This work shows that spin symmetry breaking in singlet C2, the appearance of net up- and down-spin densities on opposite sides (not ends) of the bond, corrects that under-binding, with a small SCAN atomization-energy error more like that of the other three molecules, suggesting that symmetry-breaking with an advanced density functional might reliably describe strong correlation. This article also discusses some general aspects of symmetry breaking, and the insights into strong correlation that symmetry-breaking can bring.
翻訳日:2023-01-21 12:57:16 公開日:2022-10-26
# Schr\"odinger--自然波動関数崩壊を持つニュートン方程式

Schr\"odinger--Newton equation with spontaneous wave function collapse ( http://arxiv.org/abs/2210.15057v1 )

ライセンス: Link先を確認
Lajos Di\'osi(参考訳) 標準シュリンガー方程式が巨大なマクロな物体に対して重力的に修正されるという仮定に基づいて、198から2つの独立した提案が生き残った。 Schr\"odinger--Newton 方程式 (1984) は、自由マクロ対象に対して十分に局所化されたソリトンを与えるが、拡張波動関数がソリトン上で崩壊するメカニズムを欠いている。 重力に関連する確率シュル=オディンガー方程式(1989年)は自発的な崩壊をもたらすが、ソリトンはわずかな拡散によって運動エネルギーの不安定な定常的な増加をもたらす。 上の2つの重力に関する修正を一緒に含む確率的Schr\"odinger-Newton方程式を提案する。 その後、自由巨視体の波動関数は、運動量拡散を伴わない慣性運動を行うソリトンに徐々に確率的に崩壊し、運動量とエネルギーの保存が回復する。

Based on the assumption that the standard Schr\"odinger equation becomes gravitationally modified for massive macroscopic objects, two independent proposals has survived from the nineteen-eighties. The Schr\"odinger--Newton equation (1984) provides well-localized solitons for free macro-objects but lacks the mechanism how extended wave functions collapse on solitons. The gravity-related stochastic Schr\"odinger equation (1989) provides the spontaneous collapse but the resulting solitons undergo a tiny diffusion leading to an inconvenient steady increase of the kinetic energy. We propose the stochastic Schr\"odinger--Newton equation which contains the above two gravity-related modifications together. Then the wave functions of free macroscopic bodies will gradually and stochastically collapse to solitons which perform inertial motion without the momentum diffusion: conservation of momentum and energy is restored.
翻訳日:2023-01-21 12:56:46 公開日:2022-10-26
# 量子論における波動方程式の諸問題3

Some Arguments for the Wave Equation in Quantum Theory 3 ( http://arxiv.org/abs/2210.15054v1 )

ライセンス: Link先を確認
Tristram de Piro(参考訳) 1次元波動方程式に対する電荷解と、対が連続性方程式を満たすような対応する電流が存在することを証明している。 単位円を含む消滅環上の連続性方程式の滑らかな解に拡張されたとき、ジェフィメンコ方程式から得られるマクスウェル方程式に対する対応する因果解により、時間周期において無限大で放射されるパワーはゼロであることを示す。

We prove there exists a charge solution to the 1-dimensional wave equation, and a corresponding current, such that the pair satisfy the continuity equation. We show that when they are extended to a smooth solution of the continuity equation on a vanishing annulus containing the unit circle, with a corresponding causal solution to Maxwell's equations, obtained from Jefimenko's equations, the power radiated at infinity in a time cycle is zero.
翻訳日:2023-01-21 12:56:29 公開日:2022-10-26
# 対称性平均化を伴う臨界イジングモデルの変分量子シミュレーション

Variational quantum simulation of critical Ising model with symmetry averaging ( http://arxiv.org/abs/2210.15053v1 )

ライセンス: Link先を確認
Troy J. Sewell, Ning Bao, Stephen P. Jordan(参考訳) 本稿では, ギャップレスシステムの基底状態に対する可変アンサッツとして, DMERA(Deep Multi-scale entanglement Renormalization)回路を用いることを検討した。 正解可能な一次元臨界横場イジングモデルをテストベッドとして用いる。 この場合、ansatzの数値的正確なシミュレーションは、効率的な古典アルゴリズムを利用してマッチゲート回路をシミュレートすることにより、数百キュービットに実行することができる。 このシステムでは、DMERAは標準的なQAOAスタイルのアンサッツを強く上回り、DMERAを用いて近似した相関関数の体系的誤差の主な原因は、逆場イジングモデルの変換対称性とクラマース・ワニエ対称性の破れである。 この誤差を対称性平均化によって最大4桁削減できるが、量子ビットや回路の深さに余計なコストがかかることはない。 本手法は,他の対称性を持つ物理系のnisqシミュレーションに適用できることを示す。

Here, we investigate the use of deep multi-scale entanglement renormalization (DMERA) circuits as a variational ansatz for ground states of gapless systems. We use the exactly-solvable one-dimensional critical transverse-field Ising model as a testbed. Numerically exact simulation of the ansatz can in this case be carried out to hundreds of qubits by exploiting efficient classical algorithms for simulating matchgate circuits. We find that, for this system, DMERA strongly outperforms a standard QAOA-style ansatz, and that a major source of systematic error in correlation functions approximated using DMERA is the breaking of the translational and Kramers-Wannier symmetries of the transverse-field Ising model. We are able to reduce this error by up to four orders of magnitude by symmetry averaging, without incurring additional cost in qubits or circuit depth. We propose that this technique for mitigating systematic error could be applied to NISQ simulations of physical systems with other symmetries.
翻訳日:2023-01-21 12:56:20 公開日:2022-10-26
# ボーソンサンプリングにおけるスプーフィングクロスエントロピー測度

Spoofing cross entropy measure in boson sampling ( http://arxiv.org/abs/2210.15021v1 )

ライセンス: Link先を確認
Changhun Oh, Liang Jiang, Bill Fefferman(参考訳) クロスエントロピー測定は、超伝導量子ビットを用いたランダム回路サンプリングやボソンサンプリングのようなサンプリング問題から量子計算の利点を示すために広く用いられているベンチマークである。 本研究では,理想ボソンサンプリング分布の重大結果を生成し,結果として大きなクロスエントロピーを実現するヒューリスティックな古典的アルゴリズムを提案する。 鍵となる考え方は、理想ボソンサンプリング確率分布と効率的にシミュレートされ相関する古典的なサンプルが存在し、その相関は理想確率分布の重い結果のポストセレクションに利用でき、これは本質的に大きなクロスエントロピーをもたらすということである。 その結果,本アルゴリズムは,理想的なボソンサンプリングを模擬することなく,高い結果を選択的に生成し,大きなクロスエントロピースコアを得ることができた。 まず、小型回路の場合、このアルゴリズムはボソンサンプリングの理想的な分布よりも優れたクロスエントロピーを得られることを示す。 その結果, 中間検証可能なシステムサイズで実装した場合, 最近のガウス粒子サンプリング実験よりも優れたクロスエントロピーが得られた。 現在の最先端の実験と同様に、我々のスプーファーが量子アドバンテージサイズシステムで動作していることを検証することはできない。 しかし,本手法はファーミオンサンプリングのシステムサイズがはるかに大きく,出力確率を効率的に計算できることを示す。

Cross entropy measure is a widely used benchmarking to demonstrate quantum computational advantage from sampling problems, such as random circuit sampling using superconducting qubits and boson sampling. In this work, we propose a heuristic classical algorithm that generates heavy outcomes of the ideal boson sampling distribution and consequently achieves a large cross entropy. The key idea is that there exist classical samplers that are efficiently simulable and correlate with the ideal boson sampling probability distribution and that the correlation can be used to post-select heavy outcomes of the ideal probability distribution, which essentially leads to a large cross entropy. As a result, our algorithm achieves a large cross entropy score by selectively generating heavy outcomes without simulating ideal boson sampling. We first show that for small-size circuits, the algorithm can even score a better cross entropy than the ideal distribution of boson sampling. We then demonstrate that our method scores a better cross entropy than the recent Gaussian boson sampling experiments when implemented at intermediate, verifiable system sizes. Much like current state-of-the-art experiments, we cannot verify that our spoofer works for quantum advantage size systems. However, we demonstrate our approach works for much larger system sizes in fermion sampling, where we can efficiently compute output probabilities.
翻訳日:2023-01-21 12:55:50 公開日:2022-10-26
# タイムレンズで光子を区別できないようにする

Making photons indistinguishable by a time lens ( http://arxiv.org/abs/2210.14964v1 )

ライセンス: Link先を確認
Shivang Srivastava, Dmitri B. Horoshko, Mikhail I. Kolobov(参考訳) パルスブロードバンドポンプを用いたII型自然パラメトリックダウンコンバージョンにおいて発生する信号とアイドラー光子の識別不能性回復のための量子時間イメージングの適用を提案する。 この場合、信号とアイドラー光子はスペクトルと時間特性が異なることが知られている。 この効果は、香港・ウー・マンデル干渉の可視性を低下させる。 干渉計の片腕にタイムレンズを挿入し、その倍率係数を適切に選択することで、信号とアイドラー光子の完全不明瞭性を回復し、時間レンズの高焦点群遅延分散の限界において、Hong-Ou-Mandel干渉の100%可視性が得られることを示す。

We propose an application of quantum temporal imaging to restoring the indistinguishability of the signal and the idler photons produced in the type-II spontaneous parametric down-conversion with a pulsed broadband pump. It is known that in this case, the signal and the idler photons have different spectral and temporal properties. This effect deteriorates their indistinguishability and, respectively, the visibility of the Hong-Ou-Mandel interference. We demonstrate that inserting a time lens in one arm of the interferometer and choosing properly its magnification factor restores perfect indistinguishability of the signal and the idler photons and provides 100% visibility of the Hong-Ou-Mandel interference in the limit of high focal group delay dispersion of the time lens.
翻訳日:2023-01-21 12:54:45 公開日:2022-10-26
# 光検出器、ヘテロダイン機器、及び機器自律性の原理

The photodetector, the heterodyne instrument, and the principle of instrument autonomy ( http://arxiv.org/abs/2210.11100v2 )

ライセンス: Link先を確認
Christopher S. Jackson(参考訳) 測定機器、特に経時的に継続的に観察される機器は、感覚を刺激する状態とは独立した現実を持っている。 これが計器自治の原則である。 楽器の数学的概念はこの原理を暗黙的に具現化するが、連続観察の伝統的な分析は、楽器自体の記述よりもむしろ状態進化に圧倒的に焦点をあてている。 このため、有限時間観測する楽器は、ボルン則に先行する確率論的進化と測定系のシュル・オーディンガー方程式(英語版)(Schr\odinger equation)という独自の進化を持っていると評価することは困難である。 本稿では,最近導入されたkraus-operator分布関数の応用により,最も確立された2つの観測機器であるsrinivas-davies光検出器とgoetsch-graham-wisemanヘテロダイン検出器について概説する。 その後、ヘテロダイン楽器の進化が、エネルギー量子化の元々の考えの完全な代替であると指摘され、そこでは \emph{temperature} と \emph{energy} の通常の考えが、 \emph{instrument} の \emph{time} と \emph{instrument} の \emph{positivity} に置き換えられる。

Measuring instruments, especially ones that observe continually over time, have a reality to them that is independent of the states that stimulate their senses. This is the Principle of Instrument Autonomy. Although the mathematical concept of an instrument implicitly embodies this principle, the conventional analysis of continual observation has become overwhelmingly focused on state evolution rather than on descriptions of instruments themselves. Because of this, it can be hard to appreciate that an instrument that observes for a finite amount of time has an evolution of its own, a stochastic evolution that precedes the Born rule and Schr\"odinger equation of the measured system. In this article, the two most established of the continually observing instruments, the Srinivas-Davies photodetector and the Goetsch-Graham-Wiseman heterodyne detector, are reviewed with an emphasis on the autonomous instrument evolution they define, made explicit by application of the recently introduced Kraus-operator distribution function. It is then pointed out how the heterodyne instrument evolution is a complete alternative to the original idea of energy quantization, where the usual ideas of \emph{temperature} and \emph{energy} of a \emph{state} are replaced by the \emph{time} and \emph{positivity} of the \emph{instrument}.
翻訳日:2023-01-18 20:21:03 公開日:2022-10-26
# 論理推論による統計的学習による認定ロバスト性の改善

Improving Certified Robustness via Statistical Learning with Logical Reasoning ( http://arxiv.org/abs/2003.00120v6 )

ライセンス: Link先を確認
Zhuolin Yang, Zhikuan Zhao, Boxin Wang, Jiawei Zhang, Linyi Li, Hengzhi Pei, Bojan Karlas, Ji Liu, Heng Guo, Ce Zhang, and Bo Li(参考訳) 近年,複雑なmlモデルの証明書ロバスト性が急速に向上するために,集中型アルゴリズムが開発されている。 しかし、現在の堅牢性認証法は、限られた摂動半径の下でのみ認証できる。 そこで本稿では,マルコフ論理ネットワーク(MLN)を用いて,統計的MLモデルと知識(論理規則として表現される)を推論コンポーネントとして統合し,総合的信頼性の向上を図ることを提案する。 これにより、そのようなパラダイムの堅牢性、特に推論要素(例えばMLN)の証明に関する新しい研究の疑問が開かれる。 これらの疑問を理解するための最初のステップとして、MLNの堅牢性を証明する計算複雑性が#P-hardであることを最初に証明する。 この硬さの結果に導かれ、異なるモデル体制を慎重に分析することにより、MLNに対して初めて認証された堅牢性を導出する。 最後に、高次元画像と自然言語テキストの両方を含む5つのデータセットについて広範な実験を行い、知識に基づく論理推論による証明の堅牢性が最先端のものを大幅に上回っていることを示す。

Intensive algorithmic efforts have been made to enable the rapid improvements of certificated robustness for complex ML models recently. However, current robustness certification methods are only able to certify under a limited perturbation radius. Given that existing pure data-driven statistical approaches have reached a bottleneck, in this paper, we propose to integrate statistical ML models with knowledge (expressed as logical rules) as a reasoning component using Markov logic networks (MLN, so as to further improve the overall certified robustness. This opens new research questions about certifying the robustness of such a paradigm, especially the reasoning component (e.g., MLN). As the first step towards understanding these questions, we first prove that the computational complexity of certifying the robustness of MLN is #P-hard. Guided by this hardness result, we then derive the first certified robustness bound for MLN by carefully analyzing different model regimes. Finally, we conduct extensive experiments on five datasets including both high-dimensional images and natural language texts, and we show that the certified robustness with knowledge-based logical reasoning indeed significantly outperforms that of the state-of-the-art.
翻訳日:2022-12-28 01:54:55 公開日:2022-10-26
# NetworkTraffic分類を自動化するアクティブラーニングフレームワーク

Active Learning Framework to Automate NetworkTraffic Classification ( http://arxiv.org/abs/2211.08399v1 )

ライセンス: Link先を確認
Jaroslav Pe\v{s}ek, Dominik Soukup, Tom\'a\v{s} \v{C}ejka(参考訳) 機械学習(ML)技術を利用した最近のネットワークトラフィック分類手法 しかし、MLの使用には、高品質なアノテートデータセットの欠如、データドリフト、データセットやMLモデルの老朽化を引き起こすその他の影響、ネットワークトラフィックの量など、多くの課題がある。 この論文は、mlトレーニングとデプロイの従来のワークフローを強化し、アクティブラーニングの概念をネットワークトラフィック分析に適用する必要があると主張している。 この話題に対処するための新しいActiveLearning Framework(ALF)を提案する。 ALFはアクティブラーニングループのデプロイと、データセットとMLモデルを継続的に進化させるALFインスタンスのメンテナンスに使用可能な、準備済みのソフトウェアコンポーネントを提供する。 結果として得られる解法は、高速(100 Gb/s)ネットワークのIPフロー解析に利用でき、また、アノテーション、評価、データセット最適化などの異なる戦略や方法に関する研究実験もサポートする。 最後に、ALFを使った最初の実験から生じるいくつかの研究課題をリストアップする。

Recent network traffic classification methods benefitfrom machine learning (ML) technology. However, there aremany challenges due to use of ML, such as: lack of high-qualityannotated datasets, data-drifts and other effects causing aging ofdatasets and ML models, high volumes of network traffic etc. Thispaper argues that it is necessary to augment traditional workflowsof ML training&deployment and adapt Active Learning concepton network traffic analysis. The paper presents a novel ActiveLearning Framework (ALF) to address this topic. ALF providesprepared software components that can be used to deploy an activelearning loop and maintain an ALF instance that continuouslyevolves a dataset and ML model automatically. The resultingsolution is deployable for IP flow-based analysis of high-speed(100 Gb/s) networks, and also supports research experiments ondifferent strategies and methods for annotation, evaluation, datasetoptimization, etc. Finally, the paper lists some research challengesthat emerge from the first experiments with ALF in practice.
翻訳日:2022-11-20 14:16:49 公開日:2022-10-26
# 非線形コーディネーショングラフ

Non-Linear Coordination Graphs ( http://arxiv.org/abs/2211.08404v1 )

ライセンス: Link先を確認
Yipeng Kang, Tonghan Wang, Xiaoran Wu, Qianlan Yang, Chongjie Zhang(参考訳) 値分解多エージェント強化学習法は,各エージェントの個々のユーティリティ関数の混合としてグローバル値関数を学習する。 座標グラフ(CG)はペアのペイオフ関数を組み込むことで高次分解を表現するため、より強力な表現能力を持つと考えられる。 しかし、CGは局所値関数に対して線形に大域値関数を分解し、表現できる値関数クラスの複雑さを著しく制限する。 本稿では,CG値の分解を線形ケースを超えて拡張することにより,最初の非線形座標グラフを提案する。 一つの大きな課題は、一般的に採用されているdcopアルゴリズムがもはや適用されない新しい関数クラスで欲張りなアクション選択を行うことである。 我々は、LeakyReLUアクティベーションとネットワークを混合する際のこの問題の解法について検討する。 大域的最適性保証付き列挙法を提案し、局所最適性保証付き効率的な反復最適化法を動機付ける。 提案手法は,MACOのようなマルチエージェント協調タスクにおいて,優れた性能を実現することができる。

Value decomposition multi-agent reinforcement learning methods learn the global value function as a mixing of each agent's individual utility functions. Coordination graphs (CGs) represent a higher-order decomposition by incorporating pairwise payoff functions and thus is supposed to have a more powerful representational capacity. However, CGs decompose the global value function linearly over local value functions, severely limiting the complexity of the value function class that can be represented. In this paper, we propose the first non-linear coordination graph by extending CG value decomposition beyond the linear case. One major challenge is to conduct greedy action selections in this new function class to which commonly adopted DCOP algorithms are no longer applicable. We study how to solve this problem when mixing networks with LeakyReLU activation are used. An enumeration method with a global optimality guarantee is proposed and motivates an efficient iterative optimization method with a local optimality guarantee. We find that our method can achieve superior performance on challenging multi-agent coordination tasks like MACO.
翻訳日:2022-11-20 14:16:32 公開日:2022-10-26
# 企業倒産予測におけるマルチモーダル学習と深層生成モデルの利用

Using multimodal learning and deep generative models for corporate bankruptcy prediction ( http://arxiv.org/abs/2211.08405v1 )

ライセンス: Link先を確認
Rogelio A. Mancisidor(参考訳) 本研究では, 破産予測モデルにおけるマルチモーダル学習の概念を初めて紹介する。 条件付きマルチモーダル判別(conditional multimodal discriminative, cmmd)モデルを用いて、会計、市場、テキストのモーダルから情報を埋め込むマルチモーダル表現を学習する。 cmmdモデルは、モデルトレーニングのためにすべてのデータモダリティを持つサンプルを必要とする。 テスト時には、CMMDモデルは、倒産予測にさらに使用されるマルチモーダル表現を生成するために、会計と市場モダリティへのアクセスのみを必要とする。 この事実は、テキストデータと異なり、すべての企業で会計データと市場データを利用できるため、テキストデータを用いた破産予測モデルの使用を現実的かつ可能としている。 本研究の結果から,提案手法の分類性能は,従来の多くの分類器モデルと比較して優れていることが示された。 また,本提案手法は,少数の企業に対してのみ予測を行うことができるため,テキストデータによる過去の倒産モデルの限界を解消する。 最後に、マルチモーダルな表現に基づいて、金融難の期間における企業の財務状況の不確実性を把握できる指標を導入する。

This research introduces for the first time the concept of multimodal learning in bankruptcy prediction models. We use the Conditional Multimodal Discriminative (CMMD) model to learn multimodal representations that embed information from accounting, market, and textual modalities. The CMMD model needs a sample with all data modalities for model training. At test time, the CMMD model only needs access to accounting and market modalities to generate multimodal representations, which are further used to make bankruptcy predictions. This fact makes the use of bankruptcy prediction models using textual data realistic and possible, since accounting and market data are available for all companies unlike textual data. The empirical results in this research show that the classification performance of our proposed methodology is superior compared to that of a large number of traditional classifier models. We also show that our proposed methodology solves the limitation of previous bankruptcy models using textual data, as they can only make predictions for a small proportion of companies. Finally, based on multimodal representations, we introduce an index that is able to capture the uncertainty of the financial situation of companies during periods of financial distress.
翻訳日:2022-11-20 14:15:36 公開日:2022-10-26
# ヒンディー語と英語におけるEコマースカスタマーサポートボイスボット改善のための会話の終末予測

End-to-End Speech to Intent Prediction to improve E-commerce Customer Support Voicebot in Hindi and English ( http://arxiv.org/abs/2211.07710v1 )

ライセンス: Link先を確認
Abhinav Goyal, Anupam Singh, Nikesh Garera(参考訳) オンコールカスタマーサポートの自動化は、正確で効率的なs2iシステムに大きく依存している。 マルチコンポーネントパイプラインを使用したシステムの構築には,大規模なアノテートデータセットが必要で,レイテンシが高く,デプロイが複雑であるため,さまざまな課題が発生する可能性がある。 これらのパイプラインはエラーを複雑にする傾向がある。 これらの課題を克服するために、両言語環境でカスタマーサポート音声ボットタスクのためのエンド・ツー・エンド(E2E)S2Iモデルについて議論する。 本稿では, 事前学習された自動音声認識(ASR)モデルを用いて, 小さな注釈付きデータセットを微調整してE2E意図分類を解く方法について述べる。 実験結果から,F1スコアにおいて,E2Eモデルが従来のパイプラインよりも27%高い性能を示した。

Automation of on-call customer support relies heavily on accurate and efficient speech-to-intent (S2I) systems. Building such systems using multi-component pipelines can pose various challenges because they require large annotated datasets, have higher latency, and have complex deployment. These pipelines are also prone to compounding errors. To overcome these challenges, we discuss an end-to-end (E2E) S2I model for customer support voicebot task in a bilingual setting. We show how we can solve E2E intent classification by leveraging a pre-trained automatic speech recognition (ASR) model with slight modification and fine-tuning on small annotated datasets. Experimental results show that our best E2E model outperforms a conventional pipeline by a relative ~27% on the F1 score.
翻訳日:2022-11-20 14:15:20 公開日:2022-10-26
# dall-e 2: 視覚画像と特徴空間の人種政治

A Sign That Spells: DALL-E 2, Invisual Images and The Racial Politics of Feature Space ( http://arxiv.org/abs/2211.06323v1 )

ライセンス: Link先を確認
Fabian Offert and Thao Phan(参考訳) 本稿では,生成型機械学習システムが視覚文化の新しい政治をいかに生み出すかを検討する。 我々は,dall-e 2と関連モデルに着目し,特徴抽出と意味圧縮の文化的手法を応用した画像生成への創発的アプローチを提案する。 これらのテクニックは、非人間的、視覚的、不透明でありながら、皮肉なことに、非常に人間的すぎるパラドックスに巻き込まれている: 支配的な視覚文化の潜伏した特徴としての、白さの一貫して再現。 私たちは、DALL-E 2のようなシステムが、人種のような政治的に健全な人間の概念をいかに解消し、再構成するかを問う重要なオープニングとして、Open AIの失敗する努力を「デビアス」するために使用しています。 この例は、いわゆるファンデーションモデルが視覚文化の境界を再構成する時、そして"反人種差別"が個人的不愉快を和らげるために素早く技術的な修正を配置することを意味している時の、変革の瞬間を鮮明に説明します。

In this paper, we examine how generative machine learning systems produce a new politics of visual culture. We focus on DALL-E 2 and related models as an emergent approach to image-making that operates through the cultural techniques of feature extraction and semantic compression. These techniques, we argue, are inhuman, invisual, and opaque, yet are still caught in a paradox that is ironically all too human: the consistent reproduction of whiteness as a latent feature of dominant visual culture. We use Open AI's failed efforts to 'debias' their system as a critical opening to interrogate how systems like DALL-E 2 dissolve and reconstitute politically salient human concepts like race. This example vividly illustrates the stakes of this moment of transformation, when so-called foundation models reconfigure the boundaries of visual culture and when 'doing' anti-racism means deploying quick technical fixes to mitigate personal discomfort, or more importantly, potential commercial loss.
翻訳日:2022-11-20 14:15:05 公開日:2022-10-26
# グラフニューラルネットワークによるバングラニュース見出しとボディーコンテンツの違和感検出

Incongruity Detection between Bangla News Headline and Body Content through Graph Neural Network ( http://arxiv.org/abs/2211.07709v1 )

ライセンス: Link先を確認
Md Aminul Haque Palash, Akib Khan, Kawsarul Islam, MD Abdullah Al Nasim, Ryan Mohammad Bin Shahjahan(参考訳) ニュース見出しとボディーコンテンツの間の違和感は、読者を惹きつけるのによく使われるだまの方法である。 利益のある見出しは読者の興味をそそらせ、特定のウェブサイトを訪問するよう促す。 これは通常、配信されるコンテンツを正確に反映しないインテントを使用して、不正な要素を追加することで行われる。 その結果,言語分析によるヘッドラインとボディコンテンツ間の不一致ニュースの自動検出が,研究コミュニティの注目を集めている。 しかし、この問題に対処するための様々なソリューションが主に開発されており、低リソースの言語を図表から外している。 バングラ語は最も広く話されている言語のトップ100の中で7位であり、バングラ語に特別な注意を払う動機となっている。 さらに、Banglaはより複雑な構文構造を持ち、自然言語処理資源が少ないため、矛盾検出や姿勢検出といったNLPタスクの実行が困難になる。 この問題に対処するため、バングラ語では、Banglaニュースの見出しとコンテンツ段落の類似性と矛盾を効果的に学習するグラフベースの階層型二重エンコーダ(BGHDE)モデルを提供する。 実験結果から,提案したBanglaグラフベースニューラルネットワークモデルが,さまざまなBanglaニュースデータセットに対して90%以上の精度を実現することが示された。

Incongruity between news headlines and the body content is a common method of deception used to attract readers. Profitable headlines pique readers' interest and encourage them to visit a specific website. This is usually done by adding an element of dishonesty, using enticements that do not precisely reflect the content being delivered. As a result, automatic detection of incongruent news between headline and body content using language analysis has gained the research community's attention. However, various solutions are primarily being developed for English to address this problem, leaving low-resource languages out of the picture. Bangla is ranked 7th among the top 100 most widely spoken languages, which motivates us to pay special attention to the Bangla language. Furthermore, Bangla has a more complex syntactic structure and fewer natural language processing resources, so it becomes challenging to perform NLP tasks like incongruity detection and stance detection. To tackle this problem, for the Bangla language, we offer a graph-based hierarchical dual encoder (BGHDE) model that learns the content similarity and contradiction between Bangla news headlines and content paragraphs effectively. The experimental results show that the proposed Bangla graph-based neural network model achieves above 90% accuracy on various Bangla news datasets.
翻訳日:2022-11-20 14:07:55 公開日:2022-10-26
# graph-regularized tensor regression: 解釈可能なマルチウェイファイナンシャルモデリングのためのドメインアウェアフレームワーク

Graph-Regularized Tensor Regression: A Domain-Aware Framework for Interpretable Multi-Way Financial Modelling ( http://arxiv.org/abs/2211.05581v1 )

ライセンス: Link先を確認
Yao Lei Xu, Kriton Konstantinidis, Danilo P. Mandic(参考訳) 金融データの分析は本質的にビッグデータパラダイムであり、そのようなデータは、多くの資産、資産クラス、国、期間にわたって収集される。 これは現代の機械学習モデルにとっての課題であり、そのようなデータを処理するのに必要なモデルパラメータの数はデータ次元とともに指数関数的に増加する。 近年, テンソル分解(TD)技術は, 大規模金融モデルに関連する計算コストを低減し, 同等の性能を実現している。 しかし、テンソルモデルは基礎となる経済領域の知識を取り入れられないことが多い。 そこで我々は,グラフラプラシアン行列(graph laplacian matrix)というモデルにクロスアセット関係に関する知識を組み込む,新しいグラフ正規化テンソル回帰(grtr)フレームワークを開発した。 その後、モデルパラメータ内の経済的に意味のある構造を促進するための正規化ツールとして使用される。 テンソル代数により、提案された枠組みは係数的にも次元的にも完全に解釈可能であることが示されている。 grtrモデルは、多方向金融予測設定で検証され、競合モデルと比較され、計算コストの低減により性能が向上することが示されている。 テンソル操作の直感的な理解を支援するために、詳細な可視化が提供される。

Analytics of financial data is inherently a Big Data paradigm, as such data are collected over many assets, asset classes, countries, and time periods. This represents a challenge for modern machine learning models, as the number of model parameters needed to process such data grows exponentially with the data dimensions; an effect known as the Curse-of-Dimensionality. Recently, Tensor Decomposition (TD) techniques have shown promising results in reducing the computational costs associated with large-dimensional financial models while achieving comparable performance. However, tensor models are often unable to incorporate the underlying economic domain knowledge. To this end, we develop a novel Graph-Regularized Tensor Regression (GRTR) framework, whereby knowledge about cross-asset relations is incorporated into the model in the form of a graph Laplacian matrix. This is then used as a regularization tool to promote an economically meaningful structure within the model parameters. By virtue of tensor algebra, the proposed framework is shown to be fully interpretable, both coefficient-wise and dimension-wise. The GRTR model is validated in a multi-way financial forecasting setting and compared against competing models, and is shown to achieve improved performance at reduced computational costs. Detailed visualizations are provided to help the reader gain an intuitive understanding of the employed tensor operations.
翻訳日:2022-11-13 23:56:58 公開日:2022-10-26
# 人工知能を用いた配管・インスツルメンテーション図の自動生成に向けて

Towards automatic generation of Piping and Instrumentation Diagrams (P&IDs) with Artificial Intelligence ( http://arxiv.org/abs/2211.05583v1 )

ライセンス: Link先を確認
Edwin Hirtreiter and Lukas Schulze Balhorn and Artur M. Schweidtmann(参考訳) 配管・計装図(p&ids)の開発は化学プロセスの発展において重要なステップである。 現在、これは退屈でマニュアルで時間を要するタスクです。 本稿では,制御構造予測のための新しいデータ駆動手法を提案する。 我々の手法は、エンドツーエンドのトランスフォーマーに基づく人間の言語翻訳モデルにインスパイアされている。 本稿では,プロセスフロー図(PFD)をP&IDに変換する変換タスクとして,制御構造予測を行った。 確立されたトランスフォーマーベース言語翻訳モデルを使用するために、最近提案したSFILES 2.0表記法を用いて、P&IDとPFDを文字列として表現する。 モデルトレーニングは、トランスファーラーニングアプローチで行われます。 まず,生成したP&IDを用いて事前学習を行い,プロセス図の文法構造を学習する。 その後、実際のP&ID上での移動学習を活用して、モデルを微調整する。 このモデルは1万個の生成されたP&IDで74.8%、10万個の生成されたP&IDで89.2%の精度を達成した。 これらの有望な結果は、AI支援プロセスエンジニアリングに大きな可能性を示している。 312個の実P&IDのデータセットに対するテストは、業界アプリケーションのためのより大きなP&IDデータセットの必要性を示している。

Developing Piping and Instrumentation Diagrams (P&IDs) is a crucial step during the development of chemical processes. Currently, this is a tedious, manual, and time-consuming task. We propose a novel, completely data-driven method for the prediction of control structures. Our methodology is inspired by end-to-end transformer-based human language translation models. We cast the control structure prediction as a translation task where Process Flow Diagrams (PFDs) are translated to P&IDs. To use established transformer-based language translation models, we represent the P&IDs and PFDs as strings using our recently proposed SFILES 2.0 notation. Model training is performed in a transfer learning approach. Firstly, we pre-train our model using generated P&IDs to learn the grammatical structure of the process diagrams. Thereafter, the model is fine-tuned leveraging transfer learning on real P&IDs. The model achieved a top-5 accuracy of 74.8% on 10,000 generated P&IDs and 89.2% on 100,000 generated P&IDs. These promising results show great potential for AI-assisted process engineering. The tests on a dataset of 312 real P&IDs indicate the need of a larger P&IDs dataset for industry applications.
翻訳日:2022-11-13 23:47:33 公開日:2022-10-26
# データを使い果たせるだろうか? 機械学習におけるデータセットのスケーリング限界の解析

Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning ( http://arxiv.org/abs/2211.04325v1 )

ライセンス: Link先を確認
Pablo Villalobos, Jaime Sevilla, Lennart Heim, Tamay Besiroglu, Marius Hobbhahn, Anson Ho(参考訳) 我々は、自然言語処理とコンピュータビジョンのための機械学習で使用されるデータセットサイズの成長を分析し、これらを2つの方法を用いて外挿する。 今後数十年間,インターネット上で利用可能なラベルなしデータの総蓄積量を推定し,データ利用の伸びを調査した。 われわれの分析によると、高品質な言語データの在庫はすぐに枯渇するだろう。 対照的に、低品質の言語データと画像データの在庫は、2030年から2050年(低品質の言語)と2030年から2060年(画像)の間、かなり後に枯渇する。 私たちの研究によると、巨大なデータセットに依存するmlモデルの現在の傾向は、データ効率が大幅に改善されない場合や、新しいデータソースが利用可能になる場合、低下する可能性がある。

We analyze the growth of dataset sizes used in machine learning for natural language processing and computer vision, and extrapolate these using two methods; using the historical growth rate and estimating the compute-optimal dataset size for future predicted compute budgets. We investigate the growth in data usage by estimating the total stock of unlabeled data available on the internet over the coming decades. Our analysis indicates that the stock of high-quality language data will be exhausted soon; likely before 2026. By contrast, the stock of low-quality language data and image data will be exhausted only much later; between 2030 and 2050 (for low-quality language) and between 2030 and 2060 (for images). Our work suggests that the current trend of ever-growing ML models that rely on enormous datasets might slow down if data efficiency is not drastically improved or new sources of data become available.
翻訳日:2022-11-13 23:39:19 公開日:2022-10-26
# ノイズデータにおけるプレフィックスチューニングのロバスト性を探る:財務感性分析を事例として

Exploring Robustness of Prefix Tuning in Noisy Data: A Case Study in Financial Sentiment Analysis ( http://arxiv.org/abs/2211.05584v1 )

ライセンス: Link先を確認
Sudhandar Balakrishnan, Yihao Fang and Xioadan Zhu(参考訳) BERT、GPT、RoBERTaといったトランスフォーマーベースのモデルの発明により、研究者や金融機関はこれらの強力なモデルを微調整し、異なる下流タスクでそれらを使用して最先端のパフォーマンスを達成することができるようになった。 近年、プレフィックスチューニングとして知られる微調整のための軽量な代替(元のモデルパラメータの約0.1% - 3%)が導入された。 このメソッドはモデルパラメータを凍結し、プレフィックスを更新して完全な微調整に匹敵するパフォーマンスを達成する。 プリフィックスチューニングにより、研究者や金融専門家はパラメータをはるかに少なくして同様の結果を得ることができる。 本稿では,雑音データに対するプレフィックスチューニングの堅牢性について検討する。 実験により,音レベルが増大するほとんどの劣化したデータセットにおいて,ファインチューニングはプレフィックスチューニングよりもノイズに対して堅牢であることを示す。 さらに、プレフィックスチューニングは、多くの汚職手法の微調整と比較して、F1スコアに高いばらつきがある。 我々は,最先端のプレフィックスチューニング手法を雑音データに適用する場合,注意が必要であることを強く主張する。

The invention of transformer-based models such as BERT, GPT, and RoBERTa has enabled researchers and financial companies to finetune these powerful models and use them in different downstream tasks to achieve state-of-the-art performance. Recently, a lightweight alternative (approximately 0.1% - 3% of the original model parameters) to fine-tuning, known as prefix tuning has been introduced. This method freezes the model parameters and only updates the prefix to achieve performance comparable to full fine-tuning. Prefix tuning enables researchers and financial practitioners to achieve similar results with much fewer parameters. In this paper, we explore the robustness of prefix tuning when facing noisy data. Our experiments demonstrate that fine-tuning is more robust to noise than prefix tuning -- the latter method faces a significant decrease in performance on most corrupted data sets with increasing noise levels. Furthermore, prefix tuning has high variances in the F1 scores compared to fine-tuning in many corruption methods. We strongly advocate that caution should be carefully taken when applying the state-of-the-art prefix tuning method to noisy data.
翻訳日:2022-11-13 23:38:59 公開日:2022-10-26
# 深部強化学習とグラフニューラルネットワークを用いた光合成可能なデータセンターにおけるネットワーク認識とメモリ割り当て

Network Aware Compute and Memory Allocation in Optically Composable Data Centres with Deep Reinforcement Learning and Graph Neural Networks ( http://arxiv.org/abs/2211.02466v1 )

ライセンス: Link先を確認
Zacharaya Shabka, Georgios Zervas(参考訳) リソースを分離したデータセンタアーキテクチャは、データセンタ内でリソースをリモートにプールする手段を約束します。 これは、データセンターネットワーク(DCN)の光回路切替バックボーンを使用することで実現可能であり、非ローカルリソースプール上でアプリケーションが動作している場合に、要求される帯域幅とレイテンシを保証する。 しかし、このシナリオにおけるリソース割り当ては、両方のサーバレベルの \emph{and} ネットワークレベルのリソースをリクエストに同時割り当てする必要がある。 この問題のオンラインの性質と基礎となる組合せ複雑性は、DCNトポロジの典型的なスケールと並んで、正確な解を設計に準最適または非直観的であるような、ヒューリスティックな解決を不可能にしている。 本稿では,そのポリシーをモデルとしたemph{deep reinforcement learning}を用いて,emph{network-aware}およびemph{topologically-scalable}割り当てポリシーをエンドツーエンドで学習できることを実証する。 ネットワークアウェアリソース割り当ての最先端のヒューリスティックと比較して、この手法は最大20〜%高い受入率を達成し、3〜2〜3ドル以下のネットワークリソースで最高のパフォーマンスヒューリスティックと同等の受入率を達成でき、トレーニング中に見られる10^2〜2〜2以上のサーバを持つdcnトポロジに直接(追加のトレーニングなしで)全周性能を維持することができる。

Resource-disaggregated data centre architectures promise a means of pooling resources remotely within data centres, allowing for both more flexibility and resource efficiency underlying the increasingly important infrastructure-as-a-service business. This can be accomplished by means of using an optically circuit switched backbone in the data centre network (DCN); providing the required bandwidth and latency guarantees to ensure reliable performance when applications are run across non-local resource pools. However, resource allocation in this scenario requires both server-level \emph{and} network-level resource to be co-allocated to requests. The online nature and underlying combinatorial complexity of this problem, alongside the typical scale of DCN topologies, makes exact solutions impossible and heuristic based solutions sub-optimal or non-intuitive to design. We demonstrate that \emph{deep reinforcement learning}, where the policy is modelled by a \emph{graph neural network} can be used to learn effective \emph{network-aware} and \emph{topologically-scalable} allocation policies end-to-end. Compared to state-of-the-art heuristics for network-aware resource allocation, the method achieves up to $20\%$ higher acceptance ratio; can achieve the same acceptance ratio as the best performing heuristic with $3\times$ less networking resources available and can maintain all-around performance when directly applied (with no further training) to DCN topologies with $10^2\times$ more servers than the topologies seen during training.
翻訳日:2022-11-13 23:38:16 公開日:2022-10-26
# ヒト脳活動からの多視点多ラベル微粒感情デコーディング

Multi-view Multi-label Fine-grained Emotion Decoding from Human Brain Activity ( http://arxiv.org/abs/2211.02629v1 )

ライセンス: Link先を確認
Kaicheng Fu, Changde Du, Shengpei Wang and Huiguang He(参考訳) 人間の脳活動からの感情状態の復号は、脳-コンピュータインターフェースにおいて重要な役割を果たす。 既存の感情デコーディング法には、2つの大きな制限がある: 1つは脳活動パターンから1つの感情カテゴリをデコードすることであり、デコードされた感情カテゴリは粗い粒度であり、人間の複雑な感情表現と矛盾する。 本稿では,表現型ニューラル表現を学習し,複数の感情状態の同時予測が可能な,きめ細かい感情デコーディング(最大80の感情カテゴリ)のための,新しいマルチビューマルチラベルハイブリッドモデルを提案する。 具体的には、このハイブリッドモデルの生成成分は、左右半球の脳活動とその差異を3つの異なる視点として考えるマルチビュー変動オートエンコーダによってパラメータ化され、その推論ネットワークにおいて専門家機構の産物を使用する。 非対称な焦点損失を有するマルチラベル分類ネットワークにより,ハイブリッドモデルの識別的コンポーネントを実装した。 より正確な感情デコーディングのために、私たちはまず感情固有の神経表現学習のためのラベル認識モジュールを採用し、マスク付き自己認識機構によって感情状態の依存性をモデル化する。 2つの視覚誘発感情データセットに関する広範囲な実験により,提案手法の優越性が示された。

Decoding emotional states from human brain activity plays an important role in brain-computer interfaces. Existing emotion decoding methods still have two main limitations: one is only decoding a single emotion category from a brain activity pattern and the decoded emotion categories are coarse-grained, which is inconsistent with the complex emotional expression of human; the other is ignoring the discrepancy of emotion expression between the left and right hemispheres of human brain. In this paper, we propose a novel multi-view multi-label hybrid model for fine-grained emotion decoding (up to 80 emotion categories) which can learn the expressive neural representations and predicting multiple emotional states simultaneously. Specifically, the generative component of our hybrid model is parametrized by a multi-view variational auto-encoder, in which we regard the brain activity of left and right hemispheres and their difference as three distinct views, and use the product of expert mechanism in its inference network. The discriminative component of our hybrid model is implemented by a multi-label classification network with an asymmetric focal loss. For more accurate emotion decoding, we first adopt a label-aware module for emotion-specific neural representations learning and then model the dependency of emotional states by a masked self-attention mechanism. Extensive experiments on two visually evoked emotional datasets show the superiority of our method.
翻訳日:2022-11-13 23:37:08 公開日:2022-10-26
# POIレベルのソーシャルポストジオロケーションのためのトランスフォーマーベースフレームワーク

A Transformer-based Framework for POI-level Social Post Geolocation ( http://arxiv.org/abs/2211.01336v1 )

ライセンス: Link先を確認
Menglin Li, Kwan Hui Lim, Teng Guo, Junhua Liu(参考訳) POIレベルのソーシャルポストの地理情報は多くの位置情報ベースのアプリケーションやサービスにとって重要である。 しかし、ソーシャルメディアデータとそのプラットフォームが持つ多様で複雑で多様な性質は、そのようなきめ細かい場所とその後の応用を推測する性能を制限している。 本稿では,事前学習された言語モデルに基づいて,poiレベルでのソーシャルポストジオロケーションのための非テキストデータを検討する,トランスフォーマティブベースの汎用フレームワークを提案する。 この目的のために、入力を分類して異なる社会データを処理し、特徴表現に最適な組み合わせ戦略を提供する。 さらに,時間的情報を学習するために階層の統一表現を提案し,特徴的位置をよりよく捉えるためにエンコーディングの連結バージョンを用いる。 様々な社会的データセットを用いた実験結果から,提案手法の3つの変種は,精度と距離誤差の指標において,複数の最先端基準よりも高い性能を示した。

POI-level geo-information of social posts is critical to many location-based applications and services. However, the multi-modality, complexity and diverse nature of social media data and their platforms limit the performance of inferring such fine-grained locations and their subsequent applications. To address this issue, we present a transformer-based general framework, which builds upon pre-trained language models and considers non-textual data, for social post geolocation at the POI level. To this end, inputs are categorized to handle different social data, and an optimal combination strategy is provided for feature representations. Moreover, a uniform representation of hierarchy is proposed to learn temporal information, and a concatenated version of encodings is employed to capture feature-wise positions better. Experimental results on various social datasets demonstrate that three variants of our proposed framework outperform multiple state-of-art baselines by a large margin in terms of accuracy and distance error metrics.
翻訳日:2022-11-06 14:57:33 公開日:2022-10-26
# イベントトリガードコンセンサスにおける離散コミュニケーションと制御アップ

DiscreteCommunication and ControlUpdating in Event-Triggered Consensus ( http://arxiv.org/abs/2210.17313v1 )

ライセンス: Link先を確認
Bin Cheng and Yuezu Lv and Zhongkui Li and Zhisheng Duan(参考訳) 本稿では,各エージェントに対する個別制御更新,近隣エージェント間の離散時間通信,ネットワークトポロジ全体のグローバル情報を必要としない完全に分散されたコントローラ実装という,3つの重要な要求に直面するコンセンサス制御問題を考察する。 本論文では,既存の要求を少なくとも1~2つ満たすだけでは適用できないことを指摘し,個別のコミュニケーションと制御による完全分散コンセンサスの問題を解決するための新しい枠組みを確立する。 このフレームワークの最初のキーポイントは、個別のイベント瞬間にのみ更新され、適応制御技術にインスパイアされた時間変化ゲインを導入することで、グローバル情報に依存しないコントローラの設計である。 もう一つの重要な点は、隣接するエージェント間の相対情報に依存しない新しい動的トリガー関数の発明である。 確立されたフレームワークの下では、非指向グラフのための完全分散状態フィードバックイベントトリガープロトコルを提案し、さらに出力フィードバック制御と有向グラフのより複雑なケースについても検討する。 最後に,提案するイベントトリガプロトコルの有効性を検証するための数値例を提案する。

This paper studies the consensus control problem faced with three essential demands, namely, discrete control updating for each agent, discrete-time communications among neighboring agents, and the fully distributed fashion of the controller implementation without requiring any global information of the whole network topology. Noting that the existing related results only meeting one or two demands at most are essentially not applicable, in this paper we establish a novel framework to solve the problem of fully distributed consensus with discrete communication and control. The first key point in this framework is the design of controllers that are only updated at discrete event instants and do not depend on global information by introducing time-varying gains inspired by the adaptive control technique. Another key point is the invention of novel dynamic triggering functions that are independent of relative information among neighboring agents. Under the established framework, we propose fully distributed state-feedback event-triggered protocols for undirected graphs and also further study the more complexed cases of output-feedback control and directed graphs. Finally, numerical examples are provided to verify the effectiveness of the proposed event-triggered protocols.
翻訳日:2022-11-06 14:57:17 公開日:2022-10-26
# ニューラルネットワーク推論によるコンピュータネットワークの構成学習

Learning to Configure Computer Networks with Neural Algorithmic Reasoning ( http://arxiv.org/abs/2211.01980v1 )

ライセンス: Link先を確認
Luca Beurer-Kellner, Martin Vechev, Laurent Vanbever, Petar Veli\v{c}kovi\'c(参考訳) 本稿では,コンピュータネットワークの自動構成のスケーリング手法を提案する。 鍵となるアイデアは、与えられた仕様を満たす構成を見つけるという計算量的に難しい検索問題を緩和し、学習に基づく技術に適した近似目的にすることだ。 このアイデアに基づき、既存のルーティングプロトコルの下で所定の仕様を(完全にまたは部分的に)満足する可能性のある構成を生成することを学習するニューラルネットワークモデルをトレーニングする。 厳密な満足度保証を緩和することで、我々のアプローチ (i)より柔軟性が向上し、プロトコルに依存しず、プロトコル間の推論が可能で、ハードコードされたルールに依存しない。 (ii) 従来よりはるかに大きなコンピュータネットワークの構成を見つける。 我々の学習したシンセサイザーは、最先端のSMT方式よりも最大490倍高速であり、供給された要求の93%以上を満たす構成を生成する。

We present a new method for scaling automatic configuration of computer networks. The key idea is to relax the computationally hard search problem of finding a configuration that satisfies a given specification into an approximate objective amenable to learning-based techniques. Based on this idea, we train a neural algorithmic model which learns to generate configurations likely to (fully or partially) satisfy a given specification under existing routing protocols. By relaxing the rigid satisfaction guarantees, our approach (i) enables greater flexibility: it is protocol-agnostic, enables cross-protocol reasoning, and does not depend on hardcoded rules; and (ii) finds configurations for much larger computer networks than previously possible. Our learned synthesizer is up to 490x faster than state-of-the-art SMT-based methods, while producing configurations which on average satisfy more than 93% of the provided requirements.
翻訳日:2022-11-06 14:56:23 公開日:2022-10-26
# スペクトル情報を用いた土壌特性推定のためのディープスケーラブルニューラルネットワークアーキテクチャ

A deep scalable neural architecture for soil properties estimation from spectral information ( http://arxiv.org/abs/2210.17314v1 )

ライセンス: Link先を確認
Flavio Piccoli, Micol Rossini, Roberto Colombo, Raimondo Schettini, Paolo Napoletano(参考訳) 本稿では,ハイパースペクトルシグネチャの解析から複数の地盤特性の予測を行うための適応型深層ニューラルネットワークを提案する。 提案手法は,最先端技術における従来の手法の限界を克服する。 (i)複数の土壌変数を同時に予測することができる。 (ii) 与えられた変数の推定に最も寄与するスペクトル帯域をバックトレースすることができる。 (iii)分析対象のスペクトルライブラリに自動的に適応できる柔軟なニューラルネットワークアーキテクチャに基づいている。 提案アーキテクチャは、大規模な実験室データセットであるLUCASと、PRISMAハイパースペクトルセンサをシミュレートしたデータセット上で実験される。 従来の手法と比較して,提案手法の有効性を確認した。

In this paper we propose an adaptive deep neural architecture for the prediction of multiple soil characteristics from the analysis of hyperspectral signatures. The proposed method overcomes the limitations of previous methods in the state of art: (i) it allows to predict multiple soil variables at once; (ii) it permits to backtrace the spectral bands that most contribute to the estimation of a given variable; (iii) it is based on a flexible neural architecture capable of automatically adapting to the spectral library under analysis. The proposed architecture is experimented on LUCAS, a large laboratory dataset and on a dataset achieved by simulating PRISMA hyperspectral sensor. 'Results, compared with other state-of-the-art methods confirm the effectiveness of the proposed solution.
翻訳日:2022-11-06 14:48:06 公開日:2022-10-26
# UAVパイロットの目と心--実生活シナリオにおける生理的反応の観察

The eyes and hearts of UAV pilots: observations of physiological responses in real-life scenarios ( http://arxiv.org/abs/2210.14910v1 )

ライセンス: Link先を確認
Alexandre Duval, Anita Paas, Abdalwhab Abdalwhab and David St-Onge(参考訳) ドローン産業は多様化しており、パイロットの数は急速に増えている。 この文脈では、飛行学校はパイロットの訓練に適応したツールを必要としており、最も重要なのは、自身の生理的および認知的限界に対する認識である。 民間機や軍用機では、パイロットは現実的なシミュレーターで自分の反応や反射を調整できるだけでなく、パイロットの行動や生理状態のデータを収集することもできる。 パフォーマンスを改善するのに役立ちます。 コックピットのシナリオに逆らって、ドローンの遠隔操作はフィールドで屋外で行われ、デスクトップシミュレーショントレーニングの限られた可能性しか持たない。 この作業は、現場でパイロットの行動を収集し、パフォーマンスを向上させるソリューションを提供することを目的としています。 前面カメラからの先行物体検出と視線および心拍変動測定を組み合わせた。 パイロットを観察し,3つの飛行課題について分析した。 このツールは、パイロットの訓練と通常の飛行作業の両方を支援できると考えています。 デモビデオはhttps://www.youtube.com/watch? v=eePhjd2qNiI

The drone industry is diversifying and the number of pilots increases rapidly. In this context, flight schools need adapted tools to train pilots, most importantly with regard to their own awareness of their physiological and cognitive limits. In civil and military aviation, pilots can train themselves on realistic simulators to tune their reaction and reflexes, but also to gather data on their piloting behavior and physiological states. It helps them to improve their performances. Opposed to cockpit scenarios, drone teleoperation is conducted outdoor in the field, thus with only limited potential from desktop simulation training. This work aims to provide a solution to gather pilots behavior out in the field and help them increase their performance. We combined advance object detection from a frontal camera to gaze and heart-rate variability measurements. We observed pilots and analyze their behavior over three flight challenges. We believe this tool can support pilots both in their training and in their regular flight tasks. A demonstration video is available on https://www.youtube.com/watch?v=eePhjd2qNiI
翻訳日:2022-11-06 14:47:39 公開日:2022-10-26
# 強靭性には複数の種類がある: 敵の例でWhisperを食う

There is more than one kind of robustness: Fooling Whisper with adversarial examples ( http://arxiv.org/abs/2210.17316v1 )

ライセンス: Link先を確認
Raphael Olivier and Bhiksha Raj(参考訳) Whisperは、分布外入力とランダムノイズの両方に対して印象的な堅牢性を示す最近の自動音声認識(ASR)モデルである。 本研究は, この頑健性は, 対向騒音には耐えられないことを示す。 信号ノイズ比が最大45dbの非常に小さな入力摂動を発生させるため、ウィスラー性能を劇的に低下させるか、あるいは選択した対象文を書き換えることさえできる。 また、Whisper言語検出器を騙すことで、多言語モデルの性能を非常に容易に劣化させることができることを示す。 広く普及しているオープンソースモデルの脆弱性は、現実的なセキュリティ上の意味を持ち、対向的に堅牢なASRの必要性を強調している。

Whisper is a recent Automatic Speech Recognition (ASR) model displaying impressive robustness to both out-of-distribution inputs and random noise. In this work, we show that this robustness does not carry over to adversarial noise. We generate very small input perturbations with Signal Noise Ratio of up to 45dB, with which we can degrade Whisper performance dramatically, or even transcribe a target sentence of our choice. We also show that by fooling the Whisper language detector we can very easily degrade the performance of multilingual models. These vulnerabilities of a widely popular open-source model have practical security implications, and emphasize the need for adversarially robust ASR.
翻訳日:2022-11-06 14:40:31 公開日:2022-10-26
# ERL-Re$^2$:共有状態表現と個別政策表現による効率的な進化的強化学習

ERL-Re$^2$: Efficient Evolutionary Reinforcement Learning with Shared State Representation and Individual Policy Representation ( http://arxiv.org/abs/2210.17375v1 )

ライセンス: Link先を確認
Pengyi Li, Hongyao Tang, Jianye Hao, Yan Zheng, Xian Fu, Zhaopeng Meng(参考訳) 深層強化学習(Deep Reinforcement Learning、ディープRL)と進化的アルゴリズム(Evolutionary Algorithm、EA)は、異なる学習原理を持つ政策最適化の2つの主要なパラダイムである。 魅力的な研究方向は、Deep RLとEAを統合して、補完的な利点を融合して新しい方法を考案することである。 しかし、Deep RLとEAの組み合わせには2つの共通の欠点がある。 1) rlエージェント及びeaエージェントは、そのポリシーを個別に学習し、有用な共通知識の効率的な共有を怠る。 2) パラメータレベルのポリシー最適化は、ea側の行動進化の意味レベルを保証しません。 本稿では,先述の2つの欠点に対する新しい解決法である2大国家表現・政策表現を用いた進化的強化学習を提案する。 すべてのEAおよびRLポリシーは、個々の線形ポリシー表現を維持しながら、同じ非線形状態表現を共有している。 状態表現は、すべてのエージェントが学習した環境の表現的共通特性を伝達する。線形政策表現は、新しい行動レベルのクロスオーバーと突然変異操作が可能な効率的な政策最適化のための好適な空間を提供する。 さらに、政策拡張価値関数近似器(pevfa)の助けを借りて、政策適合性の簡便な一般化を可能にし、適合度推定のサンプル効率をさらに向上させる。 一連の連続制御タスクの実験は、ERL-Re2が強いベースラインを一貫して上回り、Deep RLとEAコンポーネントの両方よりも大幅に改善されていることを示している。

Deep Reinforcement Learning (Deep RL) and Evolutionary Algorithm (EA) are two major paradigms of policy optimization with distinct learning principles, i.e., gradient-based v.s. gradient free. An appealing research direction is integrating Deep RL and EA to devise new methods by fusing their complementary advantages. However, existing works on combining Deep RL and EA have two common drawbacks: 1) the RL agent and EA agents learn their policies individually, neglecting efficient sharing of useful common knowledge; 2) parameter-level policy optimization guarantees no semantic level of behavior evolution for the EA side. In this paper, we propose Evolutionary Reinforcement Learning with Two-scale State Representation and Policy Representation (ERL-Re2), a novel solution to the aforementioned two drawbacks. The key idea of ERL-Re2 is two-scale representation: all EA and RL policies share the same nonlinear state representation while maintaining individual linear policy representations. The state representation conveys expressive common features of the environment learned by all the agents collectively; the linear policy representation provides a favorable space for efficient policy optimization, where novel behavior-level crossover and mutation operations can be performed. Moreover, the linear policy representation allows convenient generalization of policy fitness with the help of Policy-extended Value Function Approximator (PeVFA), further improving the sample efficiency of fitness estimation. The experiments on a range of continuous control tasks show that ERL-Re2 consistently outperforms strong baselines and achieves significant improvement over both its Deep RL and EA components.
翻訳日:2022-11-06 14:40:17 公開日:2022-10-26
# seadronesim:水中の物体検出のための空中画像のシミュレーション

SeaDroneSim: Simulation of Aerial Images for Detection of Objects Above Water ( http://arxiv.org/abs/2210.16107v1 )

ライセンス: Link先を確認
Xiaomin Lin, Cheng Liu, Miao Yu, Yiannis Aloimonous(参考訳) 無人航空機(UAV)はその高速で多用途で知られている。 UAVの可用性と応用性の向上に伴い、海洋環境におけるサーチ・アンド・レスキュー(SAR)活動における技術支援として重要な役割を担っている。 高解像度カメラとGPUは、緊急救助活動に効果的かつ効率的な支援を提供するためにUAVに装備することができる。 現代のコンピュータビジョンアルゴリズムでは、このような救助任務を狙う物体を検出できる。 しかし、現代のコンピュータビジョンアルゴリズムは、UAVからの大量のトレーニングデータに依存している。 そこで我々は,任意の物体のセグメンテーションマスクに対して,基底真理を持つ写真実写的空中画像データセットを作成するための,新たなベンチマークスイートである \textit{\textbf{seadronesim}} を提案する。 実地画像から生成した合成データのみを用いて,BlueROV検出のための71mAPを実用性調査として取得した。 この新しいシミュレーションスーツによるこの結果は、BlueROVの検出のベースラインとしても機能する。

Unmanned Aerial Vehicles (UAVs) are known for their fast and versatile applicability. With UAVs' growth in availability and applications, they are now of vital importance in serving as technological support in search-and-rescue(SAR) operations in marine environments. High-resolution cameras and GPUs can be equipped on the UAVs to provide effective and efficient aid to emergency rescue operations. With modern computer vision algorithms, we can detect objects for aiming such rescue missions. However, these modern computer vision algorithms are dependent on numerous amounts of training data from UAVs, which is time-consuming and labor-intensive for maritime environments. To this end, we present a new benchmark suite, \textit{\textbf{SeaDroneSim}}, that can be used to create photo-realistic aerial image datasets with the ground truth for segmentation masks of any given object. Utilizing only the synthetic data generated from \textit{\textbf{SeaDroneSim}}, we obtain 71 mAP on real aerial images for detecting BlueROV as a feasibility study. This result from the new simulation suit also serves as a baseline for the detection of BlueROV.
翻訳日:2022-10-31 17:18:47 公開日:2022-10-26
# 深層強化学習における知識誘導探索

Knowledge-Guided Exploration in Deep Reinforcement Learning ( http://arxiv.org/abs/2210.15670v1 )

ライセンス: Link先を確認
Sahisnu Mazumder, Bing Liu, Shuai Wang, Yingxuan Zhu, Xiaotian Yin, Lifeng Liu, Jian Li(参考訳) 本稿では,SAP(State-action Permissibility)の特性を有する問題に対する深層強化学習(Deep RL)トレーニングを劇的に高速化する手法を提案する。 SAPでは2種類の許容度が定義される。 最初の型では、アクション $a_t$ が状態 $s_t$ で実行され、エージェントが新しい状態 $s_{t+1}$ に達した後、エージェントは $a_t$ が許容可能かどうかを $s_t$ で決定できる。 2つ目の型は、$a_t$を$s_t$で実行しなくても、エージェントが$a_t$が許容可能かどうかを決定できると言っている。 アクションが最適解を導くことができないため、(何度も)試すべきではない場合、アクションは、ある状態では許容されない。 提案したSAP特性と動作許容度知識を2つの最先端深部RLアルゴリズムにエンコードし,その状態-動作探索を仮想停止戦略とともに導く。 その結果,SAPに基づく指導はRLトレーニングを著しく高速化できることがわかった。

This paper proposes a new method to drastically speed up deep reinforcement learning (deep RL) training for problems that have the property of state-action permissibility (SAP). Two types of permissibility are defined under SAP. The first type says that after an action $a_t$ is performed in a state $s_t$ and the agent has reached the new state $s_{t+1}$, the agent can decide whether $a_t$ is permissible or not permissible in $s_t$. The second type says that even without performing $a_t$ in $s_t$, the agent can already decide whether $a_t$ is permissible or not in $s_t$. An action is not permissible in a state if the action can never lead to an optimal solution and thus should not be tried (over and over again). We incorporate the proposed SAP property and encode action permissibility knowledge into two state-of-the-art deep RL algorithms to guide their state-action exploration together with a virtual stopping strategy. Results show that the SAP-based guidance can markedly speed up RL training.
翻訳日:2022-10-31 15:20:55 公開日:2022-10-26
# 3次元点雲における逆転点のモデルフリー予測

Model-Free Prediction of Adversarial Drop Points in 3D Point Clouds ( http://arxiv.org/abs/2210.14164v2 )

ライセンス: Link先を確認
Hanieh Naderi, Chinthaka Dinesh, Ivan V. Bajic and Shohreh Kasaei(参考訳) 敵攻撃は、ディープニューラルネットワーク(DNN)に基づく様々な入力信号の解析に深刻な課題をもたらす。 3Dポイントクラウドの場合、ネットワーク決定において重要な役割を果たすポイントを識別する手法が開発され、これらは既存の敵攻撃を発生させる上で重要である。 例えば、サリエンシマップアプローチは、敵のドロップポイントを識別する一般的な方法であり、その除去はネットワーク決定に大きな影響を及ぼす。 一般に、敵対点を特定する方法は、モデルの決定にどの点が重要かを決定するために、ディープモデル自体に依存する。 本稿では, モデルから独立して逆点を予測できる, この問題に対する新しい視点を提案することを目的とする。 この目的のために,14点のクラウド特徴を定義し,複数の線形回帰を用いて,これらの特徴がモデルフリーな逆点予測に使用できるか,どの特徴の組み合わせがこの目的に最適なのかを検討する。 実験によれば、適切な機能の組み合わせによって、3つの異なるネットワーク(pointnet、pointnet++、dgcnn)の敵点を予測することができる。 結果はまた、ポイントクラウド分析のためのDNNに関するさらなる洞察を与え、意思決定プロセスにおいてどの機能が重要な役割を果たすかを示す。

Adversarial attacks pose serious challenges for deep neural network (DNN)-based analysis of various input signals. In the case of 3D point clouds, methods have been developed to identify points that play a key role in the network decision, and these become crucial in generating existing adversarial attacks. For example, a saliency map approach is a popular method for identifying adversarial drop points, whose removal would significantly impact the network decision. Generally, methods for identifying adversarial points rely on the deep model itself in order to determine which points are critically important for the model's decision. This paper aims to provide a novel viewpoint on this problem, in which adversarial points can be predicted independently of the model. To this end, we define 14 point cloud features and use multiple linear regression to examine whether these features can be used for model-free adversarial point prediction, and which combination of features is best suited for this purpose. Experiments show that a suitable combination of features is able to predict adversarial points of three different networks -- PointNet, PointNet++, and DGCNN -- significantly better than a random guess. The results also provide further insight into DNNs for point cloud analysis, by showing which features play key roles in their decision-making process.
翻訳日:2022-10-30 11:44:30 公開日:2022-10-26
# 原始分散システムの局所グラフ同型処理

Local Graph-homomorphic Processing for Privatized Distributed Systems ( http://arxiv.org/abs/2210.15414v1 )

ライセンス: Link先を確認
Elsa Rizk, Stefan Vlaski, Ali H. Sayed(参考訳) ネットワークエージェントによる民営化された分散学習を実現するために,分散方式による依存乱数の生成について検討する。 本稿では,局所グラフ同型処理と呼ぶ手法を提案する。特定のノイズをエッジ上に構築することで,特定のレベルの差分プライバシーを確保する。 付加雑音は学習モデルの性能に影響を与えないことを示す。 これは、分散アルゴリズムの差分プライバシに関する以前の研究に対する大きな改善であり、ノイズはグラフトポロジーを尊重せずに構造化されていない方法で追加され、しばしばパフォーマンスが低下した。 本稿では,エージェントネットワーク上の線形回帰問題を考慮し,理論的結果を示す。

We study the generation of dependent random numbers in a distributed fashion in order to enable privatized distributed learning by networked agents. We propose a method that we refer to as local graph-homomorphic processing; it relies on the construction of particular noises over the edges to ensure a certain level of differential privacy. We show that the added noise does not affect the performance of the learned model. This is a significant improvement to previous works on differential privacy for distributed algorithms, where the noise was added in a less structured manner without respecting the graph topology and has often led to performance deterioration. We illustrate the theoretical results by considering a linear regression problem over a network of agents.
翻訳日:2022-10-28 16:17:56 公開日:2022-10-26
# HEiMDaL:ウェイクワードの検出と位置推定のための高効率手法

HEiMDaL: Highly Efficient Method for Detection and Localization of wake-words ( http://arxiv.org/abs/2210.15425v1 )

ライセンス: Link先を確認
Arnav Kundu, Mohammad Samragh Razlighi, Minsik Cho, Priyanka Padmanabhan, Devang Naik(参考訳) ストリーミングキーワードスポッティングは、音声アシスタントの活性化に広く使われているソリューションである。 隠れマルコフモデル(DNN-HMM)に基づくディープニューラルネットワークはこの分野で効率的かつ広く採用されていることが証明されている。 しかし、これらのハイブリッドシステムは、DNNとHMMが独立して訓練されたときに、損失計量ミスマッチに悩まされる。 シーケンス識別訓練は、本質的なマルコフスタイルによる損失測定ミスマッチを完全に軽減することができない。 本稿では,ストリーム条件におけるキーワードの検出とローカライズを行うために,HEiMDaLと呼ばれる低フットプリントCNNモデルを提案する。 本稿では,アライメントに基づく分類損失を導入し,キーワードの発生とオフセット損失を検知し,キーワードの開始を予測する。 HEiMDaLは、検出基準の73%削減と、等価なローカライゼーション精度、および与えられたウェイクワードに対する既存のDNN-HMMスタイルモデルと同じメモリフットプリントを示す。

Streaming keyword spotting is a widely used solution for activating voice assistants. Deep Neural Networks with Hidden Markov Model (DNN-HMM) based methods have proven to be efficient and widely adopted in this space, primarily because of the ability to detect and identify the start and end of the wake-up word at low compute cost. However, such hybrid systems suffer from loss metric mismatch when the DNN and HMM are trained independently. Sequence discriminative training cannot fully mitigate the loss-metric mismatch due to the inherent Markovian style of the operation. We propose an low footprint CNN model, called HEiMDaL, to detect and localize keywords in streaming conditions. We introduce an alignment-based classification loss to detect the occurrence of the keyword along with an offset loss to predict the start of the keyword. HEiMDaL shows 73% reduction in detection metrics along with equivalent localization accuracy and with the same memory footprint as existing DNN-HMM style models for a given wake-word.
翻訳日:2022-10-28 16:17:28 公開日:2022-10-26
# コミュニティ検出のためのハイパーグラフ人工ベンチマーク(h-ABCD)

Hypergraph Artificial Benchmark for Community Detection (h-ABCD) ( http://arxiv.org/abs/2210.15009v1 )

ライセンス: Link先を確認
Bogumi{\l} Kami\'nski, Pawe{\l} Pra{\l}at, Fran\c{c}ois Th\'eberge(参考訳) コミュニティ検出のための人工ベンチマーク(abcd)グラフは、最近導入されたランダムグラフモデルで、次数とコミュニティサイズの両方のコミュニティ構造とパワーロー分布を持つ。 モデルは、よく知られたLFRモデルと類似した特性を持つグラフを生成し、その主パラメータは、LFRモデル、混合パラメータに類似するように調整することができる。 本稿では,ABCDモデルであるh-ABCDのハイパーグラフについて紹介する。 オリジナルのABCDと同様に、新しいモデルh-ABCDは様々なレベルのノイズを持つハイパーグラフを生成することができる。 さらに重要なのは、モデルが柔軟で、1つのコミュニティに該当するハイパーエッジの任意の均一性のレベルを模倣することができることだ。 その結果,ハイパーグラフコミュニティ検出アルゴリズムの解析とチューニングに適した合成遊び場として利用することができる。

The Artificial Benchmark for Community Detection (ABCD) graph is a recently introduced random graph model with community structure and power-law distribution for both degrees and community sizes. The model generates graphs with similar properties as the well-known LFR one, and its main parameter can be tuned to mimic its counterpart in the LFR model, the mixing parameter. In this paper, we introduce hypergraph counterpart of the ABCD model, h-ABCD, which produces random hypergraph with distributions of ground-truth community sizes and degrees following power-law. As in the original ABCD, the new model h-ABCD can produce hypergraphs with various levels of noise. More importantly, the model is flexible and can mimic any desired level of homogeneity of hyperedges that fall into one community. As a result, it can be used as a suitable, synthetic playground for analyzing and tuning hypergraph community detection algorithms.
翻訳日:2022-10-28 16:09:09 公開日:2022-10-26
# 勾配降下を伴う局所規則学習におけるグロッキング相転移

Grokking phase transitions in learning local rules with gradient descent ( http://arxiv.org/abs/2210.15435v1 )

ライセンス: Link先を確認
Bojan \v{Z}unkovi\v{c}, Enej Ilievski(参考訳) ルール学習シナリオにおける2つの解答可能なグラッキングモデルについて議論する。 グルーキングは相転移であり、臨界指数、グルーキング確率、グルーキング時間分布の正確な解析式を求める。 さらに,提案するグロッキング設定を標準(知覚)統計学習理論と結びつけるテンソルネットワークマップを導入し,グロッキングが教師モデルの局所性の結果であることを示す。 例えば、セルオートマトン学習タスクを分析し、臨界指数とグルーキング時間分布を数値的に決定し、提案したグルーキングモデルの予測と比較する。 最後に,構造形成とグロッキングの関係を数値的に解析する。

We discuss two solvable grokking (generalisation beyond overfitting) models in a rule learning scenario. We show that grokking is a phase transition and find exact analytic expressions for the critical exponents, grokking probability, and grokking time distribution. Further, we introduce a tensor-network map that connects the proposed grokking setup with the standard (perceptron) statistical learning theory and show that grokking is a consequence of the locality of the teacher model. As an example, we analyse the cellular automata learning task, numerically determine the critical exponent and the grokking time distributions and compare them with the prediction of the proposed grokking model. Finally, we numerically analyse the connection between structure formation and grokking.
翻訳日:2022-10-28 15:59:18 公開日:2022-10-26
# lp-bfgs攻撃:限られた画素のヘッシアンに基づく敵の攻撃

LP-BFGS attack: An adversarial attack based on the Hessian with limited pixels ( http://arxiv.org/abs/2210.15446v1 )

ライセンス: Link先を確認
Jiebao Zhang, Wenhua Qian, Rencan Nie, Jinde Cao, Dan Xu(参考訳) ディープニューラルネットワークは敵の攻撃に弱い。 ほとんどのホワイトボックス攻撃は入力に対するモデルの勾配に基づいている。 計算とメモリ予算から、ヘッセン情報に基づく敵の攻撃には十分な注意が払われていない。 本研究では,摂動画素数に制限のあるヘッシアンに基づく攻撃手法のアタック性能と計算コストについて検討する。 具体的には,BFGSアルゴリズムを組み込んだLimited Pixel BFGS(LP-BFGS)攻撃法を提案する。 いくつかの画素は、LP-BFGS攻撃の最適化変数である積分勾配アルゴリズムにより摂動画素として選択される。 様々なネットワークとデータセットにまたがって様々な摂動画素数を持つ実験結果から,本手法は,既存のソリューションと比較して許容できる計算量と同等のアタックを示す。

Deep neural networks are vulnerable to adversarial attacks. Most white-box attacks are based on the gradient of models to the input. Since the computation and memory budget, adversarial attacks based on the Hessian information are not paid enough attention. In this work, we study the attack performance and computation cost of the attack method based on the Hessian with a limited perturbation pixel number. Specifically, we propose the Limited Pixel BFGS (LP-BFGS) attack method by incorporating the BFGS algorithm. Some pixels are selected as perturbation pixels by the Integrated Gradient algorithm, which are regarded as optimization variables of the LP-BFGS attack. Experimental results across different networks and datasets with various perturbation pixel numbers demonstrate our approach has a comparable attack with an acceptable computation compared with existing solutions.
翻訳日:2022-10-28 15:59:05 公開日:2022-10-26
# 点パターン解析とグラフ構築を用いた腸神経系の生成的モデリング

Generative modeling of the enteric nervous system employing point pattern analysis and graph construction ( http://arxiv.org/abs/2210.15044v1 )

ライセンス: Link先を確認
Abida Sanjana Shemonti, Joshua D. Eisenberg, Robert O. Heuckeroth, Marthe J. Howard, Alex Pothen and Bartek Rajwa(参考訳) 共焦点顕微鏡で得られたヒトおよびマウスの組織標本から得られたデータを用いて,大腸における腸神経系(ens)の構造を生成的ネットワークモデルで表現する。 我々のモデルは、空間的点パターン解析とグラフ生成を組み合わせて、神経節(神経細胞とグリア細胞のクラスター)の空間的および位相的特性、神経節間結合、神経節内の神経組織を特徴づける。 本研究では,空間パターンのためのハイブリッドハードコアストラウスプロセスと,空間埋め込みネットワークを構築するための平面ランダムグラフ生成手法を提案する。 我々は,本生成モデルが基礎研究と翻訳研究の両方に有用であることを示し,年齢や健康状態の異なる個体のENSアーキテクチャをモデル化することが十分重要であることを示した。 ENSコネクトームの理解が高まると、治療における神経調節戦略の使用が可能になり、腸運動障害の患者に対する解剖学的診断基準が明確になる。

We describe a generative network model of the architecture of the enteric nervous system (ENS) in the colon employing data from images of human and mouse tissue samples obtained through confocal microscopy. Our models combine spatial point pattern analysis with graph generation to characterize the spatial and topological properties of the ganglia (clusters of neurons and glial cells), the inter-ganglionic connections, and the neuronal organization within the ganglia. We employ a hybrid hardcore-Strauss process for spatial patterns and a planar random graph generation for constructing the spatially embedded network. We show that our generative model may be helpful in both basic and translational studies, and it is sufficiently expressive to model the ENS architecture of individuals who vary in age and health status. Increased understanding of the ENS connectome will enable the use of neuromodulation strategies in treatment and clarify anatomic diagnostic criteria for people with bowel motility disorders.
翻訳日:2022-10-28 15:58:20 公開日:2022-10-26
# システム異常検出のための条件付きランダムフィールドの階層的アプローチ

A Hierarchical Approach to Conditional Random Fields for System Anomaly Detection ( http://arxiv.org/abs/2210.15030v1 )

ライセンス: Link先を確認
Srishti Mishra, Tvarita Jain, Dr. Dinkar Sitaram(参考訳) 大規模システムにおける異常事象を時間に敏感に認識する異常検出は,多くの産業において重要である。 銀行詐欺 企業システム 医療警報などです 大規模システムは時間とともにサイズや複雑さが増し、異常検出アルゴリズムは構造の変化に適応する必要がある。 階層的アプローチは、複雑なシステムと局所化されたコンテキストにおける暗黙的な関係を利用する。 複雑なシステムの特徴は、データ分散において大きく異なり、複数のデータソースから異なるアスペクトをキャプチャし、組み立てるとシステムのより完全なビューを提供する。 本稿では、クラウドサービス上で実行されるマシンからのシステムメトリクスと、そのシステムノード間の階層構造と相互接続性を備えた分散ソフトウェアシステムからのアプリケーションメトリクスの2番目からなる2つのデータセットを考察する。 変更点に基づくペルトアルゴリズム、認知学習に基づく階層的時間記憶アルゴリズム、サポートベクターマシン、条件付き確率場の比較アルゴリズムは、複雑なシステムにおける異常を正確に捉えるために階層的グローバル局所条件付き確率場アプローチを提案する基礎を提供する。 階層的アルゴリズムは、低レベルの特徴や特定の特徴の複雑さの両方を学習し、これらをグローバル抽象表現で活用し、マルチソース特徴データと分散システムにまたがる異常パターンを検出する。 複雑なシステム上でのグラフィカルなネットワーク分析は、利用可能な機能に基づいて関係をマイニングするために、さらにきめ細かいデータセットを作成できる。 さらに、階層的なソリューションは、局所的なレベルでの変化に順応し、新しいデータを学習し、システムの過負荷時に環境を変えることができ、これらの学習を時間の経過とともにシステムのグローバルなビューに変換することができます。

Anomaly detection to recognize unusual events in large scale systems in a time sensitive manner is critical in many industries, eg. bank fraud, enterprise systems, medical alerts, etc. Large-scale systems often grow in size and complexity over time, and anomaly detection algorithms need to adapt to changing structures. A hierarchical approach takes advantage of the implicit relationships in complex systems and localized context. The features in complex systems may vary drastically in data distribution, capturing different aspects from multiple data sources, and when put together provide a more complete view of the system. In this paper, two datasets are considered, the 1st comprising of system metrics from machines running on a cloud service, and the 2nd of application metrics from a distributed software system with inherent hierarchies and interconnections amongst its system nodes. Comparing algorithms, across the changepoint based PELT algorithm, cognitive learning-based Hierarchical Temporal Memory algorithms, Support Vector Machines and Conditional Random Fields provides a basis for proposing a Hierarchical Global-Local Conditional Random Field approach to accurately capture anomalies in complex systems, and across various features. Hierarchical algorithms can learn both the intricacies of lower-level or specific features, and utilize these in the global abstracted representation to detect anomalous patterns robustly across multi-source feature data and distributed systems. A graphical network analysis on complex systems can further fine-tune datasets to mine relationships based on available features, which can benefit hierarchical models. Furthermore, hierarchical solutions can adapt well to changes at a localized level, learning on new data and changing environments when parts of a system are over-hauled, and translate these learnings to a global view of the system over time.
翻訳日:2022-10-28 15:52:09 公開日:2022-10-26
# タンジェントバンドルフィルタとニューラルネットワーク:マニフォールドからセルシーブ・バックへ

Tangent Bundle Filters and Neural Networks: from Manifolds to Cellular Sheaves and Back ( http://arxiv.org/abs/2210.15058v1 )

ライセンス: Link先を確認
Claudio Battiloro, Zhiyang Wang, Hans Riess, Paolo Di Lorenzo, Alejandro Ribeiro(参考訳) 本稿では、接続ラプラシアン作用素を利用したリーマン多様体の接束上の畳み込み演算を導入する。 畳み込みを用いて、接束フィルタと接束ニューラルネットワーク(tnn)を定義し、接束信号、すなわち多様体上のベクトル場で動作する新しい連続アーキテクチャを定義する。 我々は空間領域と時間領域の両方でTNNを識別し、その離散的対応が最近導入されたSheaf Neural Networksの原理的な変形であることを示す。 我々は、この離散アーキテクチャが基礎となる連続TNNに収束することを正式に証明する。 単位 2-球面上の接ベクトル場の除音タスクにおける提案アーキテクチャの有効性を数値的に評価する。

In this work we introduce a convolution operation over the tangent bundle of Riemannian manifolds exploiting the Connection Laplacian operator. We use the convolution to define tangent bundle filters and tangent bundle neural networks (TNNs), novel continuous architectures operating on tangent bundle signals, i.e. vector fields over manifolds. We discretize TNNs both in space and time domains, showing that their discrete counterpart is a principled variant of the recently introduced Sheaf Neural Networks. We formally prove that this discrete architecture converges to the underlying continuous TNN. We numerically evaluate the effectiveness of the proposed architecture on a denoising task of a tangent vector field over the unit 2-sphere.
翻訳日:2022-10-28 15:51:40 公開日:2022-10-26
# 二元分析のための根拠真理の不都合な真理

The Inconvenient Truths of Ground Truth for Binary Analysis ( http://arxiv.org/abs/2210.15079v1 )

ライセンス: Link先を確認
Jim Alves-Foss, Varsah Venugopal(参考訳) バイナリ分析ツールとテクニックの有効性は、しばしば、それらがどの程度基礎的な真実にマップできるかに関して測定される。 すべての真実が平等に創造されるわけではない。 本稿では,二項分析のコミュニティに対して,基礎的真理の定義に一致していることを保証するために,基礎的真理の概念を深く検討し,ツールや技術の評価に自信を持つことを課題とする。 これは、訓練された機械学習モデルに移行することでさらに重要になります。

The effectiveness of binary analysis tools and techniques is often measured with respect to how well they map to a ground truth. We have found that not all ground truths are created equal. This paper challenges the binary analysis community to take a long look at the concept of ground truth, to ensure that we are in agreement with definition(s) of ground truth, so that we can be confident in the evaluation of tools and techniques. This becomes even more important as we move to trained machine learning models, which are only as useful as the validity of the ground truth in the training.
翻訳日:2022-10-28 15:51:28 公開日:2022-10-26
# リプシッツ損失の高次元計測誤差モデル

High-dimensional Measurement Error Models for Lipschitz Loss ( http://arxiv.org/abs/2210.15008v1 )

ライセンス: Link先を確認
Xin Ma and Suprateek Kundu(参考訳) 最近の大規模生物医学データは、科学的な発見にエキサイティングな機会をもたらす。 しかし、データ中の超高次元および非無視測定誤差は、推定に困難をもたらす可能性がある。 測定誤差を伴う高次元共変量の限定的な方法があり、通常はノイズ分布の知識を必要とし、線形あるいは一般化線形モデルに焦点をあてる。 本研究では,ロジスティック回帰,ヒンジ損失,量子量回帰などを含むリプシッツ損失関数の高次元計測誤差モデルを開発した。 我々の推定器は、ノイズ分布の知識を必要とせずに、適切な実行可能集合に属するすべての推定器の$l_1$ノルムを最小化するように設計されている。 その後、これらの推定器をより高次元にスケーラブルなラッソアナログ版に一般化する。 有限標本の統計的誤差境界と符号の一貫性という観点からは、たとえその次元が標本サイズとともに指数関数的に増加する場合でも、理論的保証が得られる。 大規模なシミュレーション研究は、従来の分類法や量子回帰問題と比較して優れた性能を示す。 人コネクトームプロジェクトデータにおける脳機能接続に基づく性別分類タスクの応用は、このアプローチによる精度の向上と、性差を駆動する重要な脳接続を確実に識別する能力を示している。

Recently emerging large-scale biomedical data pose exciting opportunities for scientific discoveries. However, the ultrahigh dimensionality and non-negligible measurement errors in the data may create difficulties in estimation. There are limited methods for high-dimensional covariates with measurement error, that usually require knowledge of the noise distribution and focus on linear or generalized linear models. In this work, we develop high-dimensional measurement error models for a class of Lipschitz loss functions that encompasses logistic regression, hinge loss and quantile regression, among others. Our estimator is designed to minimize the $L_1$ norm among all estimators belonging to suitable feasible sets, without requiring any knowledge of the noise distribution. Subsequently, we generalize these estimators to a Lasso analog version that is computationally scalable to higher dimensions. We derive theoretical guarantees in terms of finite sample statistical error bounds and sign consistency, even when the dimensionality increases exponentially with the sample size. Extensive simulation studies demonstrate superior performance compared to existing methods in classification and quantile regression problems. An application to a gender classification task based on brain functional connectivity in the Human Connectome Project data illustrates improved accuracy under our approach, and the ability to reliably identify significant brain connections that drive gender differences.
翻訳日:2022-10-28 15:42:25 公開日:2022-10-26
# 深層学習モデルを用いた心臓磁気共鳴画像からの心血管疾患の自動診断

Automated Diagnosis of Cardiovascular Diseases from Cardiac Magnetic Resonance Imaging Using Deep Learning Models: A Review ( http://arxiv.org/abs/2210.14909v1 )

ライセンス: Link先を確認
Mahboobeh Jafari, Afshin Shoeibi, Marjane Khodatars, Navid Ghassemi, Parisa Moridian, Niloufar Delfan, Roohallah Alizadehsani, Abbas Khosravi, Sai Ho Ling, Yu-Dong Zhang, Shui-Hua Wang, Juan M. Gorriz, Hamid Alinejad Rokny, U. Rajendra Acharya(参考訳) 近年では、心臓血管疾患(CVD)が世界的な死亡原因の一つとなっている。 CVDは軽度の症状を示し、徐々に悪化する。 ほとんどの人は、cvdを開始する際に、疲労、息切れ、足首の腫れ、流体保持、その他の症状を経験する。 冠動脈疾患(CAD)、不整脈、心筋症、先天性心不全(CHD)、僧帽弁閉鎖不全、狭心症が最も一般的なCVDである。 血液検査、心電図(ECG)信号、医用画像などの臨床手法は、CVDの検出に最も有効な方法である。 診断方法の中で、心臓磁気共鳴画像(CMR)は、病気の診断、モニタリング、治療計画、CVDの予測にますます利用されている。 CMRデータのすべての利点と組み合わせて、CVDの診断は多くのデータスライス、低コントラストなどのために医師にとって困難である。 これらの課題に対処するために,CMRデータを用いたCVDの診断に深層学習(DL)技術が採用され,現在多くの研究が行われている。 本稿では,CMR画像とDL技術を用いたCVD検出実験の概要を紹介する。 導入部ではCVDのタイプ,診断方法,および最も重要な医用画像診断技術について検討した。 以下にCMR画像を用いたCVDの検出方法と,最も重要なDL法について述べる。 別のセクションでは、CMRデータからCVDを診断する際の課題について論じている。 次に,本研究の結果について論じ,CMR画像とDL技術を用いたCVDの診断における今後の研究について概説する。 本研究の最も重要な成果は, 結論節にまとめられる。

In recent years, cardiovascular diseases (CVDs) have become one of the leading causes of mortality globally. CVDs appear with minor symptoms and progressively get worse. The majority of people experience symptoms such as exhaustion, shortness of breath, ankle swelling, fluid retention, and other symptoms when starting CVD. Coronary artery disease (CAD), arrhythmia, cardiomyopathy, congenital heart defect (CHD), mitral regurgitation, and angina are the most common CVDs. Clinical methods such as blood tests, electrocardiography (ECG) signals, and medical imaging are the most effective methods used for the detection of CVDs. Among the diagnostic methods, cardiac magnetic resonance imaging (CMR) is increasingly used to diagnose, monitor the disease, plan treatment and predict CVDs. Coupled with all the advantages of CMR data, CVDs diagnosis is challenging for physicians due to many slices of data, low contrast, etc. To address these issues, deep learning (DL) techniques have been employed to the diagnosis of CVDs using CMR data, and much research is currently being conducted in this field. This review provides an overview of the studies performed in CVDs detection using CMR images and DL techniques. The introduction section examined CVDs types, diagnostic methods, and the most important medical imaging techniques. In the following, investigations to detect CVDs using CMR images and the most significant DL methods are presented. Another section discussed the challenges in diagnosing CVDs from CMR data. Next, the discussion section discusses the results of this review, and future work in CVDs diagnosis from CMR images and DL techniques are outlined. The most important findings of this study are presented in the conclusion section.
翻訳日:2022-10-28 15:40:33 公開日:2022-10-26
# ニューラル構造学習を用いたオンデバイス音声感情認識のための知識伝達

Knowledge Transfer For On-Device Speech Emotion Recognition with Neural Structured Learning ( http://arxiv.org/abs/2210.14977v1 )

ライセンス: Link先を確認
Yi Chang, Zhao Ren, Thanh Tam Nguyen, Kun Qian, Bj\"orn W. Schuller(参考訳) 音声感情認識(SER)は、ヒューマンコンピュータインタラクション(HCI)において人気のある研究トピックである。 エッジデバイスは急速に跳躍しているため、エッジデバイスにSERを適用することは、多数のHCIアプリケーションに期待できる。 複雑なモデルの学習によってSERの性能を向上させるためにディープラーニングが研究されているが、エッジデバイスのメモリ空間と計算能力は、ディープラーニングモデルを組み込むための制約を表している。 合成グラフ構築によるニューラル構造化学習(NSL)フレームワークを提案する。 SERモデルはソースデータセットに基づいてトレーニングされ、ターゲットデータセット上にグラフを構築するために使用される。 軽量モデルは入力として音声サンプルとグラフを併用して訓練される。 実験の結果,音声サンプルとグラフを用いた軽量SERモデルの訓練は,小さなSERモデルを生成するだけでなく,音声サンプルのみを用いたモデルよりもモデル性能を向上させることができることがわかった。

Speech emotion recognition (SER) has been a popular research topic in human-computer interaction (HCI). As edge devices are rapidly springing up, applying SER to edge devices is promising for a huge number of HCI applications. Although deep learning has been investigated to improve the performance of SER by training complex models, the memory space and computational capability of edge devices represents a constraint for embedding deep learning models. We propose a neural structured learning (NSL) framework through building synthesized graphs. An SER model is trained on a source dataset and used to build graphs on a target dataset. A lightweight model is then trained with the speech samples and graphs together as the input. Our experiments demonstrate that training a lightweight SER model on the target dataset with speech samples and graphs can not only produce small SER models, but also enhance the model performance over models with speech samples only.
翻訳日:2022-10-28 15:31:57 公開日:2022-10-26
# SINCO:暗黙的ニューラル表現を用いた画像圧縮のための新しい構造正規化器

SINCO: A Novel structural regularizer for image compression using implicit neural representations ( http://arxiv.org/abs/2210.14974v1 )

ライセンス: Link先を確認
Harry Gao, Weijie Gan, Zhixin Sun, and Ulugbek S. Kamilov(参考訳) Inlicit Neural representations (INR) は、画像圧縮のためのディープラーニング(DL)ベースのソリューションとして最近提案されている。 画像の座標を対応する画素値にマッピングするために、画像画素数よりも重量が少ないINRモデルをトレーニングすることにより、画像圧縮を行うことができる。 従来のINRのトレーニング手法はピクセルワイド画像の一貫性の強化に基づいているが,新しい構造正規化器を用いて画像品質の向上を提案する。 画像圧縮のための新しいINR法として,INR圧縮(SINCO)の構造正則化を提案する。 sincoは、圧縮画像から予測されるセグメンテーションマスクのばらつきをペナルティ化するためにセグメンテーションネットワークを用いて、圧縮画像の構造的一貫性を基礎に課す。 脳MRI画像上でSINCOを検証したところ、最近のINR法よりも優れた性能が得られることがわかった。

Implicit neural representations (INR) have been recently proposed as deep learning (DL) based solutions for image compression. An image can be compressed by training an INR model with fewer weights than the number of image pixels to map the coordinates of the image to corresponding pixel values. While traditional training approaches for INRs are based on enforcing pixel-wise image consistency, we propose to further improve image quality by using a new structural regularizer. We present structural regularization for INR compression (SINCO) as a novel INR method for image compression. SINCO imposes structural consistency of the compressed images to the groundtruth by using a segmentation network to penalize the discrepancy of segmentation masks predicted from compressed images. We validate SINCO on brain MRI images by showing that it can achieve better performance than some recent INR methods.
翻訳日:2022-10-28 15:23:47 公開日:2022-10-26
# 地下環境におけるLiDAR誘導物体探索と検出

LiDAR-guided object search and detection in Subterranean Environments ( http://arxiv.org/abs/2210.14997v1 )

ライセンス: Link先を確認
Manthan Patel, Gabriel Waibel, Shehryar Khattak, Marco Hutter(参考訳) 生存者、安全装置、構造アクセスポイントなどの関心の対象を検出することは、捜索救助活動には不可欠である。 このような時間に敏感な作業のために配備されたロボットは、指定されたタスクを実行するためにオンボードセンサーに依存する。 しかし, 視覚的カメラやLiDARなどの一般的なセンサは, 性能劣化に悩まされている。 本研究は,視覚と深度センサの相補的な性質を利用して,複数モーダル情報を活用し,物体の長距離検出を支援する手法を提案する。 特に、疎LiDARリターンからの深さと強度の値は、環境に存在するオブジェクトの提案を生成するために使用される。 これらの提案はpan-tilt-zoom (ptz)カメラシステムによって, 姿勢やズームレベルを調整して指向探索を行い, 難しい環境で物体の検出と分類を行う。 提案された研究は、地下およびdarpa subterranean challengeファイナルで収集されたデータセット上で、anymalの四足ロボットを用いて徹底的に検証されている。

Detecting objects of interest, such as human survivors, safety equipment, and structure access points, is critical to any search-and-rescue operation. Robots deployed for such time-sensitive efforts rely on their onboard sensors to perform their designated tasks. However, as disaster response operations are predominantly conducted under perceptually degraded conditions, commonly utilized sensors such as visual cameras and LiDARs suffer in terms of performance degradation. In response, this work presents a method that utilizes the complementary nature of vision and depth sensors to leverage multi-modal information to aid object detection at longer distances. In particular, depth and intensity values from sparse LiDAR returns are used to generate proposals for objects present in the environment. These proposals are then utilized by a Pan-Tilt-Zoom (PTZ) camera system to perform a directed search by adjusting its pose and zoom level for performing object detection and classification in difficult environments. The proposed work has been thoroughly verified using an ANYmal quadruped robot in underground settings and on datasets collected during the DARPA Subterranean Challenge finals.
翻訳日:2022-10-28 15:23:32 公開日:2022-10-26
# 乳児の顔および上体対称性の早期徴候としての自動評価

Automatic Assessment of Infant Face and Upper-Body Symmetry as Early Signs of Torticollis ( http://arxiv.org/abs/2210.15022v1 )

ライセンス: Link先を確認
Michael Wan, Xiaofei Huang, Bethany Tunik, Sarah Ostadabbas(参考訳) 乳児の早期鑑別と治療が重要となる小児の共通症状であるtorticollisの研究に,データスカース乳児領域に特異的に開発されたコンピュータビジョンポーズ推定技術を適用した。 具体的には,幼児を対象とした顔のランドマークと身体の関節推定技術を組み合わせて,顔および上半身の対称性に関する幾何的測度を推定し,身体療法と眼科における眼科研究の文献に様々な資料を作成した。 我々は、様々な測定値を用いて性能を測り、これらの幾何測度の見積もりが成功したことを示し、スピアマンの強い$\rho$と基底真理値との相関に非常に強い結果をもたらす。 さらに,乳児領域用に設計されたポーズ推定ニューラルネットワークから得られた推定値は,成人領域向けに設計されたより広く知られているネットワークから得られた推定をクリーンに上回っていることを示す。

We apply computer vision pose estimation techniques developed expressly for the data-scarce infant domain to the study of torticollis, a common condition in infants for which early identification and treatment is critical. Specifically, we use a combination of facial landmark and body joint estimation techniques designed for infants to estimate a range of geometric measures pertaining to face and upper body symmetry, drawn an array of sources in the physical therapy and ophthalmology research literature in torticollis. We gauge performance with a range of metrics and show that the estimates of most these geometric measures are successful, yielding very strong to strong Spearman's $\rho$ correlation with ground truth values. Furthermore, we show that these estimates derived from pose estimation neural networks designed for the infant domain cleanly outperform estimates derived from more widely known networks designed for the adult domain.
翻訳日:2022-10-28 15:23:12 公開日:2022-10-26
# 内視鏡画像におけるマルチスケール構造認識露光補正

Multi-Scale Structural-aware Exposure Correction for Endoscopic Imaging ( http://arxiv.org/abs/2210.15033v1 )

ライセンス: Link先を確認
Axel Garcia-Vega, Ricardo Espinosa, Luis Ramirez-Guzman, Thomas Bazin, Luis Falcon-Morales, Gilberto Ochoa-Ruiz, Dominique Lamarque and Christian Daul(参考訳) 内視鏡検査は中空臓器の癌性病変の診断に最も広く用いられるイメージング技術である。 しかし、内視鏡画像は、しばしば照明アーチファクトの影響を受けており、光源のポーズや組織方向に応じて、画像部品は過度または過度に露出することがある。 これらのアーティファクトは、コンピュータビジョンやAIベースの診断ツールのパフォーマンスに強いネガティブな影響を与える。 内視鏡的画像強調法は非常に要求されるが, 実時間での過剰・低表示強調にはほとんど努力が払われていない。 この貢献は、元々自然シーンからのイメージを強化するために導入されたメソッドであるlmspecの目的関数の拡張を示している。 ここでは、内視鏡画像における露出補正と構造情報の保存に使用される。 私たちの知る限りでは、この貢献は、深層学習(dl)法を用いた内視鏡画像の強化に取り組む最初のものとなります。 Endo4IEデータセットでテストした結果、提案された実装はLMSPECよりも大幅に改善され、オーバー露光画像ではSSIMが4.40%、オーバー露光画像では4.21%増加した。

Endoscopy is the most widely used imaging technique for the diagnosis of cancerous lesions in hollow organs. However, endoscopic images are often affected by illumination artefacts: image parts may be over- or underexposed according to the light source pose and the tissue orientation. These artifacts have a strong negative impact on the performance of computer vision or AI-based diagnosis tools. Although endoscopic image enhancement methods are greatly required, little effort has been devoted to over- and under-exposition enhancement in real-time. This contribution presents an extension to the objective function of LMSPEC, a method originally introduced to enhance images from natural scenes. It is used here for the exposure correction in endoscopic imaging and the preservation of structural information. To the best of our knowledge, this contribution is the first one that addresses the enhancement of endoscopic images using deep learning (DL) methods. Tested on the Endo4IE dataset, the proposed implementation has yielded a significant improvement over LMSPEC reaching a SSIM increase of 4.40% and 4.21% for over- and underexposed images, respectively.
翻訳日:2022-10-28 15:22:55 公開日:2022-10-26
# スパース点雲からの3次元開口面の自動再構成

Automated Reconstruction of 3D Open Surfaces from Sparse Point Clouds ( http://arxiv.org/abs/2210.15059v1 )

ライセンス: Link先を確認
Mohammad Samiul Arshad, William J. Beksi(参考訳) 現実世界の3Dデータには、表面の粗い隙間によって定義される複雑な詳細が含まれているかもしれない。 これらの開放面の自動再構成(例えば、非水密メッシュ)は、複合現実感アプリケーションにおける環境合成の難しい問題である。 現在の学習に基づく暗黙的手法は、閉曲面再構成において高い忠実性を達成することができる。 しかし、表面の内側と外側の区別に依存するため、開口面の再構築は不可能である。 近年,無符号距離場を回帰させることで開曲面を再構築する新たな暗黙関数が提案されている。 しかし、これらの手法は生データの離散化表現に依存しており、重要な表面の詳細をなくし、復元における外れ率につながる可能性がある。 IPVNetは3次元空間における表面と問合せ点の間の符号のない距離を,原点クラウドデータとその離散化ボクセルデータを利用して予測する学習型暗黙モデルである。 人工的および実世界の公開データセットの実験は、IPVNetが芸術の状態を上回り、再建においてはるかに少ないアウトリーチを生み出すことを示した。

Real-world 3D data may contain intricate details defined by salient surface gaps. Automated reconstruction of these open surfaces (e.g., non-watertight meshes) is a challenging problem for environment synthesis in mixed reality applications. Current learning-based implicit techniques can achieve high fidelity on closed-surface reconstruction. However, their dependence on the distinction between the inside and outside of a surface makes them incapable of reconstructing open surfaces. Recently, a new class of implicit functions have shown promise in reconstructing open surfaces by regressing an unsigned distance field. Yet, these methods rely on a discretized representation of the raw data, which loses important surface details and can lead to outliers in the reconstruction. We propose IPVNet, a learning-based implicit model that predicts the unsigned distance between a surface and a query point in 3D space by leveraging both raw point cloud data and its discretized voxel counterpart. Experiments on synthetic and real-world public datasets demonstrates that IPVNet outperforms the state of the art while producing far fewer outliers in the reconstruction.
翻訳日:2022-10-28 15:22:37 公開日:2022-10-26
# 低資源医療領域会話型電話音声のためのハイブリッドasrシステムの開発

Development of Hybrid ASR Systems for Low Resource Medical Domain Conversational Telephone Speech ( http://arxiv.org/abs/2210.13397v2 )

ライセンス: Link先を確認
Christoph L\"uscher and Mohammad Zeineldeen and Zijian Yang and Peter Vieting and Khai Le-Duc and Weiyue Wang and Ralf Schl\"uter and Hermann Ney(参考訳) 言語障壁は、ますます接続され、グローバルな世界で大きな課題をもたらします。 特に医療分野、例えば病院や救急室では、コミュニケーションの困難と遅延により、誤治療や非最適患者のケアにつながる可能性がある。 HYKISTプロジェクトにおいて,ドイツ語を話す医師とアラビア語またはベトナム語を話す患者とのコミュニケーションについて検討した。 現在、医師はTriaphonサービスを呼び出すことで、インタプリタから助けを受け、コミュニケーションを容易にすることができる。 HYKISTの目的は、通常非専門のバイリンガルインタプリタを自動翻訳システムでサポートし、患者のケアを改善し、言語障壁を克服することである。 本研究では,2つの言語対,データ収集,様々な音響モデルアーキテクチャ,方言による難易度について,この会話音声翻訳タスクのためのASRシステム開発作業について述べる。

Language barriers present a great challenge in our increasingly connected and global world. Especially within the medical domain, e.g. hospital or emergency room, communication difficulties and delays may lead to malpractice and non-optimal patient care. In the HYKIST project, we consider patient-physician communication, more specifically between a German-speaking physician and an Arabic- or Vietnamese-speaking patient. Currently, a doctor can call the Triaphon service to get assistance from an interpreter in order to help facilitate communication. The HYKIST goal is to support the usually non-professional bilingual interpreter with an automatic speech translation system to improve patient care and help overcome language barriers. In this work, we present our ASR system development efforts for this conversational telephone speech translation task in the medical domain for two languages pairs, data collection, various acoustic model architectures and dialect-induced difficulties.
翻訳日:2022-10-28 15:15:37 公開日:2022-10-26
# 深層強化学習制御ロボットと自律システムのための到達可能性検証に基づく信頼性評価

Reachability Verification Based Reliability Assessment for Deep Reinforcement Learning Controlled Robotics and Autonomous Systems ( http://arxiv.org/abs/2210.14991v1 )

ライセンス: Link先を確認
Yi Dong, Xingyu Zhao, Sen Wang, Xiaowei Huang(参考訳) Deep Reinforcement Learning (DRL)は、ロボット工学と自律システム(RAS)において、優れたパフォーマンスを達成した。 特にRASのエンド・ツー・エンドのコントローラがDRLによってトレーニングされたアプリケーションでは、未調査状態がエージェントを誤った判断に導く可能性がある。 本稿では,DRL制御型RASの定量的信頼性評価フレームワークを提案し,ニューラルネットワークの形式的信頼性解析から得られた検証証拠を活用する。 環境騒音や状態変化などに起因する不正確な観測に関して,安全性を確認するための2段階検証フレームワークが導入された。 到達可能性検証ツールは局所レベルで活用され、軌道の安全性エビデンスを生成するが、グローバルレベルでは、運用プロファイルによれば、局所安全エビデンスの総合指標として全体の信頼性を定量化する。 提案手法の有効性を実RAS実験により検証し検証した。

Deep Reinforcement Learning (DRL) has achieved impressive performance in robotics and autonomous systems (RASs). A key impediment to its deployment in real-life operations is the spuriously unsafe DRL policies--unexplored states may lead the agent to make wrong decisions that may cause hazards, especially in applications where end-to-end controllers of the RAS were trained by DRL. In this paper, we propose a novel quantitative reliability assessment framework for DRL-controlled RASs, leveraging verification evidence generated from formal reliability analysis of neural networks. A two-level verification framework is introduced to check the safety property with respect to inaccurate observations that are due to, e.g., environmental noises and state changes. Reachability verification tools are leveraged at the local level to generate safety evidence of trajectories, while at the global level, we quantify the overall reliability as an aggregated metric of local safety evidence, according to an operational profile. The effectiveness of the proposed verification framework is demonstrated and validated via experiments on real RASs.
翻訳日:2022-10-28 15:07:15 公開日:2022-10-26
# 量子畳み込みニューラルネットワークのためのアーキテクチャ表現

Architecture representations for quantum convolutional neural networks ( http://arxiv.org/abs/2210.15073v1 )

ライセンス: Link先を確認
Matt Lourens, Ilya Sinayskiy, Daniel K. Park, Carsten Blank and Francesco Petruccione(参考訳) 量子畳み込みニューラルネットワーク(QCNN)は、畳み込みニューラルネットワーク(CNN)のアーキテクチャにインスパイアされた量子回路モデルである。 CNNの成功の大部分は、手作業による機能設計よりも、生データから高レベルの機能を学ぶ能力に起因している。 ニューラルネットワークサーチ(NAS)は、ネットワークアーキテクチャを学習し、手作業による構築の必要性を軽減し、アートモデルの状態を自動生成することで、この傾向を継続する。 検索空間設計はNASにとって重要なステップであり、QCNNで実現可能な正式なフレームワークはない。 本研究では,NASの手法を利用して,検索空間設計と自動モデル生成を容易にするQCNNのアーキテクチャ表現を作成する。 これは、畳み込みやプーリングといったプリミティブ操作を、互いに動的に積み重ねて異なるアーキテクチャを形成するように指定することで行われる。 このように、qcnn探索空間は、積み重ねられたプリミティブのシーケンスとハイパーパラメータを制御し、異なるデザインモチーフをキャプチャすることで作成することができる。 逆二分木に類似したパラメトリック量子回路の一般的なファミリーに属するQCNNを生成することでこれを示す。 次に、このモデルのモデルを音楽ジャンル分類データセットGTZANでベンチマークする。 アーキテクチャの交互化は、ユニタリアンサッツの選択やデータエンコーディングなど、他のモデリングコンポーネントよりもモデルパフォーマンスに影響を与え、複雑さを増すことなくモデルパフォーマンスを改善する方法をもたらす。 最後に,本論文で提示した作業に基づいて,システムまたは手動による動的QCNN作成を可能にするオープンソースのpythonパッケージを提供する。

The Quantum Convolutional Neural Network (QCNN) is a quantum circuit model inspired by the architecture of Convolutional Neural Networks (CNNs). The success of CNNs is largely due to its ability to learn high level features from raw data rather than requiring manual feature design. Neural Architecture Search (NAS) continues this trend by learning network architecture, alleviating the need for its manual construction and have been able to generate state of the art models automatically. Search space design is a crucial step in NAS and there is currently no formal framework through which it can be achieved for QCNNs. In this work we provide such a framework by utilizing techniques from NAS to create an architectural representation for QCNNs that facilitate search space design and automatic model generation. This is done by specifying primitive operations, such as convolutions and pooling, in such a way that they can be dynamically stacked on top of each other to form different architectures. This way, QCNN search spaces can be created by controlling the sequence and hyperparameters of stacked primitives, allowing the capture of different design motifs. We show this by generating QCNNs that belong to a popular family of parametric quantum circuits, those resembling reverse binary trees. We then benchmark this family of models on a music genre classification dataset, GTZAN. Showing that alternating architecture impact model performance more than other modelling components such as choice of unitary ansatz and data encoding, resulting in a way to improve model performance without increasing its complexity. Finally we provide an open source python package that enable dynamic QCNN creation by system or hand, based off the work presented in this paper, facilitating search space design.
翻訳日:2022-10-28 15:06:58 公開日:2022-10-26
# カーネルシーケンシャル変化点検出のパワー向上のための最適サブサンプリング

Optimal Sub-sampling to Boost Power of Kernel Sequential Change-point Detection ( http://arxiv.org/abs/2210.15060v1 )

ライセンス: Link先を確認
Song Wei, Chaofan Huang, Yao Xie(参考訳) 本稿では,カーネルの最大平均誤差に基づく逐次変化点検出のための検出能力向上手法を提案する。 提案手法では,膨大な履歴データからのランダムサブサンプルによる電力損失に対処するため,検出手順前の履歴データの最適サブサンプリングを特徴としている。 提案手法をScan $B$ と Kernel Cumulative Sum (CUSUM) の2つの手順に適用し,広範囲な数値実験から性能改善を観察した。

We present a novel scheme to boost detection power for kernel maximum mean discrepancy based sequential change-point detection procedures. Our proposed scheme features an optimal sub-sampling of the history data before the detection procedure, in order to tackle the power loss incurred by the random sub-sample from the enormous history data. We apply our proposed scheme to both Scan $B$ and Kernel Cumulative Sum (CUSUM) procedures, and improved performance is observed from extensive numerical experiments.
翻訳日:2022-10-28 15:04:25 公開日:2022-10-26
# UnfoldML:マルチステージ分類のためのコスト認識と不確実性に基づく動的2次元予測

UnfoldML: Cost-Aware and Uncertainty-Based Dynamic 2D Prediction for Multi-Stage Classification ( http://arxiv.org/abs/2210.15056v1 )

ライセンス: Link先を確認
Yanbo Xu, Alind Khare, Glenn Matlin, Monish Ramadoss, Rishikesan Kamaleswaran, Chao Zhang and Alexey Tumanov(参考訳) 機械学習(ML)の研究は、予測タスクの精度を最大化することに焦点を当てている。 しかし、MLモデルはますます複雑になり、リソース集約化され、リソース制約のある環境にデプロイするのにコストがかかる。 これらの問題は, 逐次的に遷移した段階を段階的に分類した予測タスクにおいてさらに悪化し, モノリシックな単一クラス分類器の「展開」が可能であり, 典型的にはすべての段階において, 全データを用いて訓練される。 各シングルステージ分類器は、その段階に必要なデータモダリティや機能のみを使用してトレーニングされる、安価からより高価なバイナリ分類器から徐々にカスケードすることができる。 UnfoldMLは,(1)精度/コストトレードオフ空間のナビゲーション,(2)桁違いの推論の時空間コストの削減,(3)進行段階の早期予測を可能にする,多段階分類のためのコスト認識および不確実性に基づく動的2D予測パイプラインである。 UnfoldMLは、複数段階の疾患の発生をリアルタイムで検出しながら、臨床環境での桁違いのコスト向上を実現している。 高いパフォーマンスのマルチクラスベースラインから0.1%の精度で達成し、時空間的な推論コストと早期(3.5hrs)の発症予測で20倍近く節約する。 また、UnfoldMLは画像分類に一般化し、画像の異なるレベルの抽象化を与えられたラベル(粗いものから細かいものまで)を予測し、0.4%の精度で5倍近いコストを節約できることを示した。

Machine Learning (ML) research has focused on maximizing the accuracy of predictive tasks. ML models, however, are increasingly more complex, resource intensive, and costlier to deploy in resource-constrained environments. These issues are exacerbated for prediction tasks with sequential classification on progressively transitioned stages with ''happens-before'' relation between them.We argue that it is possible to ''unfold'' a monolithic single multi-class classifier, typically trained for all stages using all data, into a series of single-stage classifiers. Each single-stage classifier can be cascaded gradually from cheaper to more expensive binary classifiers that are trained using only the necessary data modalities or features required for that stage. UnfoldML is a cost-aware and uncertainty-based dynamic 2D prediction pipeline for multi-stage classification that enables (1) navigation of the accuracy/cost tradeoff space, (2) reducing the spatio-temporal cost of inference by orders of magnitude, and (3) early prediction on proceeding stages. UnfoldML achieves orders of magnitude better cost in clinical settings, while detecting multi-stage disease development in real time. It achieves within 0.1% accuracy from the highest-performing multi-class baseline, while saving close to 20X on spatio-temporal cost of inference and earlier (3.5hrs) disease onset prediction. We also show that UnfoldML generalizes to image classification, where it can predict different level of labels (from coarse to fine) given different level of abstractions of a image, saving close to 5X cost with as little as 0.4% accuracy reduction.
翻訳日:2022-10-28 14:58:27 公開日:2022-10-26
# 視覚に基づく自律ドローンレースにおけるdeep sensorimotorポリシーの学習

Learning Deep Sensorimotor Policies for Vision-based Autonomous Drone Racing ( http://arxiv.org/abs/2210.14985v1 )

ライセンス: Link先を確認
Jiawei Fu, Yunlong Song, Yan Wu, Fisher Yu, Davide Scaramuzza(参考訳) 自律ドローンは遠隔および非構造化環境で運用でき、様々な現実世界のアプリケーションを可能にする。 しかし、効果的なビジョンベースのアルゴリズムの欠如は、この目標を達成する上での障害となっている。 既存のシステムは、状態推定、計画、制御のために手作業によるコンポーネントを必要とすることが多い。 このようなシーケンシャルな設計には、作業的なチューニング、人間のヒューリスティック、遅延とエラーの複合化が含まれる。 本稿では,視覚に基づく自律ドローンレース問題に対して,深いセンサモジュレータポリシーを学習することで対処する。 コントラスト学習を用いて、入力画像からロバストな特徴表現を抽出し、ニューラルネットワークポリシーをトレーニングするための2段階学習フレームワークを活用する。 結果として得られたポリシーは、生画像から学習した特徴表現による制御コマンドを直接推論し、グローバルに一貫性のある状態推定、軌道計画、手作りの制御設計の必要性を排除している。 我々の視力に基づく政策は、異なる視覚障害や邪魔者に対して頑健でありながら、州ベースの政策と同じレベルのレース性能を達成できることを示す。 この研究は、人間のパイロットのような画像入力からドローンを制御するインテリジェントなビジョンベースの自律システムを開発するための足場となると信じています。

Autonomous drones can operate in remote and unstructured environments, enabling various real-world applications. However, the lack of effective vision-based algorithms has been a stumbling block to achieving this goal. Existing systems often require hand-engineered components for state estimation, planning, and control. Such a sequential design involves laborious tuning, human heuristics, and compounding delays and errors. This paper tackles the vision-based autonomous-drone-racing problem by learning deep sensorimotor policies. We use contrastive learning to extract robust feature representations from the input images and leverage a two-stage learning-by-cheating framework for training a neural network policy. The resulting policy directly infers control commands with feature representations learned from raw images, forgoing the need for globally-consistent state estimation, trajectory planning, and handcrafted control design. Our experimental results indicate that our vision-based policy can achieve the same level of racing performance as the state-based policy while being robust against different visual disturbances and distractors. We believe this work serves as a stepping-stone toward developing intelligent vision-based autonomous systems that control the drone purely from image inputs, like human pilots.
翻訳日:2022-10-28 14:55:25 公開日:2022-10-26
# EW-Tune: 異なるプライバシを持つ大規模言語モデルをプライベートにチューニングするためのフレームワーク

EW-Tune: A Framework for Privately Fine-Tuning Large Language Models with Differential Privacy ( http://arxiv.org/abs/2210.15042v1 )

ライセンス: Link先を確認
Rouzbeh Behnia, Mohamamdreza Ebrahimi, Jason Pacheco, balaji Padmanabhan(参考訳) 事前訓練された大規模言語モデル(LLM)は、複雑なAIタスクにおいてブレークスルーパフォーマンスをもたらす現代のAIの不可欠な部分である。 高価なインフラストラクチャを持つ主要なAI企業は、数十億と数百万のパラメータをゼロから開発し、トレーニングすることができる。 サードパーティ、研究者、そして実践者は、これらの事前訓練されたモデルを採用して、下流のAIタスクを達成するためにプライベートデータでそれらを微調整している。 しかし、敵がこれらのLSMから正確なトレーニングサンプルを抽出・再構成し、個人を特定できる情報を明らかにすることが示されている。 この問題はLLMのプライバシーに関する深い懸念を巻き起こした。 差分プライバシー(DP)は、トレーニングや微調整のLLMのプロセスにノイズを加えることで、トレーニングデータの抽出が不可能になるような厳密なフレームワークを提供する。 ほとんどの研究で提供される理論的なプライバシー保証は、漸近的な環境で多くのトレーニングイテレーションをスクラッチからスクラッチまで学習モデルを仮定するが、この仮定はトレーニングイテレーションの数が著しく小さい微調整シナリオには当てはまらない。 このギャップに対処するために,Edgeworth 会計士による有限サンプルプライバシー保証に基づく微調整 LLM 用 DP フレームワークである \ewtune を提案する。 我々の4つの確立された自然言語理解(NLU)タスクによる結果から、‘ewtune〜adds privacy guarantees to LLM fine-tuning process’は、誘導ノイズを最大5.6\%まで減少させ、すべてのNLUタスクで最大1.1\%向上させる。 幅広い採用と公開テスト目的で実装をオープンソースにしています。

Pre-trained Large Language Models (LLMs) are an integral part of modern AI that have led to breakthrough performances in complex AI tasks. Major AI companies with expensive infrastructures are able to develop and train these large models with billions and millions of parameters from scratch. Third parties, researchers, and practitioners are increasingly adopting these pre-trained models and fine-tuning them on their private data to accomplish their downstream AI tasks. However, it has been shown that an adversary can extract/reconstruct the exact training samples from these LLMs, which can lead to revealing personally identifiable information. The issue has raised deep concerns about the privacy of LLMs. Differential privacy (DP) provides a rigorous framework that allows adding noise in the process of training or fine-tuning LLMs such that extracting the training data becomes infeasible (i.e., with a cryptographically small success probability). While the theoretical privacy guarantees offered in most extant studies assume learning models from scratch through many training iterations in an asymptotic setting, this assumption does not hold in fine-tuning scenarios in which the number of training iterations is significantly smaller. To address the gap, we present \ewtune, a DP framework for fine-tuning LLMs based on Edgeworth accountant with finite-sample privacy guarantees. Our results across four well-established natural language understanding (NLU) tasks show that while \ewtune~adds privacy guarantees to LLM fine-tuning process, it directly contributes to decreasing the induced noise to up to 5.6\% and improves the state-of-the-art LLMs performance by up to 1.1\% across all NLU tasks. We have open-sourced our implementations for wide adoption and public testing purposes.
翻訳日:2022-10-28 14:49:39 公開日:2022-10-26
# 固有メモリツリー

Eigen Memory Tree ( http://arxiv.org/abs/2210.14077v2 )

ライセンス: Link先を確認
Mark Rucker, Jordan T. Ash, John Langford, Paul Mineiro, Ida Momennejad(参考訳) 本稿では,逐次学習シナリオのための新しいオンラインメモリモデルであるemt(eigen memory tree)を紹介する。 EMTはバイナリツリーの葉にデータを格納し、以前の経験の主成分を使用して構造を通して新しいサンプルをルーティングし、関連する記憶への効率的な(対数的な)アクセスを容易にする。 我々は、emtが既存のオンラインメモリアプローチを上回ることを実証し、ほぼ欠点のない純粋パラメトリック法よりも大幅に性能が向上するハイブリッド化emtパラメトリックアルゴリズムを提供する。 本研究は,OpenMLリポジトリの206データセットを用いて,メモリのバウンダリと無限のバウンダリの両方で検証した。

This work introduces the Eigen Memory Tree (EMT), a novel online memory model for sequential learning scenarios. EMTs store data at the leaves of a binary tree and route new samples through the structure using the principal components of previous experiences, facilitating efficient (logarithmic) access to relevant memories. We demonstrate that EMT outperforms existing online memory approaches, and provide a hybridized EMT-parametric algorithm that enjoys drastically improved performance over purely parametric methods with nearly no downsides. Our findings are validated using 206 datasets from the OpenML repository in both bounded and infinite memory budget situations.
翻訳日:2022-10-28 14:48:13 公開日:2022-10-26
# 1人死亡、2人死亡:睡眠バンドで最適な規則を守るための統一フレームワーク

One Arrow, Two Kills: An Unified Framework for Achieving Optimal Regret Guarantees in Sleeping Bandits ( http://arxiv.org/abs/2210.14998v1 )

ライセンス: Link先を確認
Pierre Gaillard, Aadirupa Saha, Soham Dan(参考訳) 我々は、完全に敵対的な設定における「emph{`Internal Regret'」の問題に対処し、また、マルチアーム・バンディット(MAB)の文献において、睡眠中の後悔という既存の概念の相互関係を引き合いに出し、その結果、その意味を分析する。 そこで我々は,完全に逆の損失と有効性の連続であっても,その尺度においてサブ線形後悔をもたらすアルゴリズムを提案した。 さらに、睡眠中の内的後悔は、常に外的後悔の度合いが低く、また、損失の連続に対する政策上の後悔の度合いが低いことを示す。 この作品の主な貢献は、睡眠包帯における既存の後悔の異なる概念を統一し、互いの含意を理解することである。 また,MABの嗜好フィードバックの変種である「emph{Dueling Bandits} (DB) の設定にも拡張し,確率的嗜好と対角的利用性を備えた睡眠障害帯を睡眠する低遅延アルゴリズムを設計するための MAB アイデアの削減を提案した。 アルゴリズムの有効性は経験的評価によって正当化される。

We address the problem of \emph{`Internal Regret'} in \emph{Sleeping Bandits} in the fully adversarial setup, as well as draw connections between different existing notions of sleeping regrets in the multiarmed bandits (MAB) literature and consequently analyze the implications: Our first contribution is to propose the new notion of \emph{Internal Regret} for sleeping MAB. We then proposed an algorithm that yields sublinear regret in that measure, even for a completely adversarial sequence of losses and availabilities. We further show that a low sleeping internal regret always implies a low external regret, and as well as a low policy regret for iid sequence of losses. The main contribution of this work precisely lies in unifying different notions of existing regret in sleeping bandits and understand the implication of one to another. Finally, we also extend our results to the setting of \emph{Dueling Bandits} (DB)--a preference feedback variant of MAB, and proposed a reduction to MAB idea to design a low regret algorithm for sleeping dueling bandits with stochastic preferences and adversarial availabilities. The efficacy of our algorithms is justified through empirical evaluations.
翻訳日:2022-10-28 14:48:01 公開日:2022-10-26
# セカンドスプリットフォーミングによるデータポイントのキャラクタリゼーション

Characterizing Datapoints via Second-Split Forgetting ( http://arxiv.org/abs/2210.15031v1 )

ライセンス: Link先を確認
Pratyush Maini, Saurabh Garg, Zachary C. Lipton, J. Zico Kolter(参考訳) 例の難易度を調査している研究者は、トレーニングを通じてニューラルネットワークが学習し、例を忘れてしまうダイナミクスに注目している。 これらのダイナミクスから派生した一般的なメトリクスには (i)例が最初に正しく分類された時代 (二 訓練中にその予測がひっくり返る回数をいう。) (iii)その予測が逆になるかどうか。 しかしながら、これらの指標は、希少なサブ人口の加入、ラベルの誤り、複雑なサブ人口の属など、異なる理由で難しい例を区別しない。 本論文では,ネットワークがランダムに保持されたデータ分割に微調整されているため,元のトレーニング例が忘れられたエポックを追跡する補完的指標である$second$-$split$$$forgetting$$$time$ (ssft)を提案する。 複数のベンチマークデータセットとモダリティで、$mislabeled$例はすぐに忘れられ、$rare$例は比較的ゆっくりと忘れられている。 対照的に、最初の分割学習力学のみを考慮したメトリクスは、この2つを区別するのに苦労する。 大規模な学習率では、SSFTはアーキテクチャ、オプティマイザ、ランダムシード間で堅牢である傾向にある。 実用的観点から見て、SSFTは (i)誤記されたサンプルの同定を助け、その削除により一般化が改善される。 (ii) 障害モードに関する洞察を提供する。 過パラメータ線形モデルに対する理論的解析を通じて,観測現象がどのように発生するかを考察する。 実験を再現するためのコードは以下の通りである。

Researchers investigating example hardness have increasingly focused on the dynamics by which neural networks learn and forget examples throughout training. Popular metrics derived from these dynamics include (i) the epoch at which examples are first correctly classified; (ii) the number of times their predictions flip during training; and (iii) whether their prediction flips if they are held out. However, these metrics do not distinguish among examples that are hard for distinct reasons, such as membership in a rare subpopulation, being mislabeled, or belonging to a complex subpopulation. In this paper, we propose $second$-$split$ $forgetting$ $time$ (SSFT), a complementary metric that tracks the epoch (if any) after which an original training example is forgotten as the network is fine-tuned on a randomly held out partition of the data. Across multiple benchmark datasets and modalities, we demonstrate that $mislabeled$ examples are forgotten quickly, and seemingly $rare$ examples are forgotten comparatively slowly. By contrast, metrics only considering the first split learning dynamics struggle to differentiate the two. At large learning rates, SSFT tends to be robust across architectures, optimizers, and random seeds. From a practical standpoint, the SSFT can (i) help to identify mislabeled samples, the removal of which improves generalization; and (ii) provide insights about failure modes. Through theoretical analysis addressing overparameterized linear models, we provide insights into how the observed phenomena may arise. Code for reproducing our experiments can be found here: https://github.com/pratyushmaini/ssft
翻訳日:2022-10-28 14:47:35 公開日:2022-10-26
# TILDE-Q:時系列予測のための変換不変損失関数

TILDE-Q: A Transformation Invariant Loss Function for Time-Series Forecasting ( http://arxiv.org/abs/2210.15050v1 )

ライセンス: Link先を確認
Hyunwook Lee, Chunggi Lee, Hongkyu Lim, Sungahn Ko(参考訳) 時系列予測は、エネルギー、天気、交通、経済など、さまざまな領域にわたる現実世界の問題を解決することの重要性から、AI研究分野で注目を集めている。 様々な種類のデータで示されるように、以前のモデルでは予測が弱かったシーケンシャルデータにおける劇的な変化、時間的パターン、形状に対処する必要がある問題である。 これは、時系列予測のほとんどのケースは、平均絶対誤差(MAE)や平均二乗誤差(MSE)のような損失関数として$L_p$ノルム距離を最小化することを目的としているためである。 これらの損失関数は、時間力学モデリングだけでなく、信号の形状も捉えることにも脆弱である。 加えて、これらの関数はしばしばモデルに誤解を与え、元の時系列と無関係な結果を返す。 有効損失関数となるためには、単に正確な値を比較するのではなく、2つの時系列データ間の歪みの集合に不変である必要がある。 本稿では,振幅と位相の歪みを考慮したtilde-q(transformation invariant loss function with distance equilibrium)と呼ばれる新しい損失関数を提案する。 さらにtilde-qは周期と非周期の時間ダイナミクスのモデリングをサポートする。 本研究では, 実測モデルから最先端モデルまで, データの周期的および非周期的条件に関する広範な実験を行うことにより, TILDE-Qの有効性を評価する。 実験結果から,tilde-qでトレーニングされたモデルは,他のトレーニング指標 (mse, dynamic time warping (dtw), temporal distortion index (tdi), long common subsequence (lcss)) でトレーニングされたモデルよりも優れていた。

Time-series forecasting has caught increasing attention in the AI research field due to its importance in solving real-world problems across different domains, such as energy, weather, traffic, and economy. As shown in various types of data, it has been a must-see issue to deal with drastic changes, temporal patterns, and shapes in sequential data that previous models are weak in prediction. This is because most cases in time-series forecasting aim to minimize $L_p$ norm distances as loss functions, such as mean absolute error (MAE) or mean square error (MSE). These loss functions are vulnerable to not only considering temporal dynamics modeling but also capturing the shape of signals. In addition, these functions often make models misbehave and return uncorrelated results to the original time-series. To become an effective loss function, it has to be invariant to the set of distortions between two time-series data instead of just comparing exact values. In this paper, we propose a novel loss function, called TILDE-Q (Transformation Invariant Loss function with Distance EQuilibrium), that not only considers the distortions in amplitude and phase but also allows models to capture the shape of time-series sequences. In addition, TILDE-Q supports modeling periodic and non-periodic temporal dynamics at the same time. We evaluate the effectiveness of TILDE-Q by conducting extensive experiments with respect to periodic and non-periodic conditions of data, from naive models to state-of-the-art models. The experiment results indicate that the models trained with TILDE-Q outperform those trained with other training metrics (e.g., MSE, dynamic time warping (DTW), temporal distortion index (TDI), and longest common subsequence (LCSS)).
翻訳日:2022-10-28 14:47:08 公開日:2022-10-26
# 財務監査における会計異常検出のための連立学習

Federated Continual Learning to Detect Accounting Anomalies in Financial Auditing ( http://arxiv.org/abs/2210.15051v1 )

ライセンス: Link先を確認
Marco Schreyer, Hamed Hemati, Damian Borth, and Miklos A. Vasarhelyi(参考訳) 国際監査基準(International Standards on Auditing)は、監査役に対し、財務諸表が物質的誤記のないことを合理的に保証することを要求する。 同時に、Continuous Assuranceの中心的な目的は、デジタル会計ジャーナルエントリのリアルタイム評価である。 近年、人工知能の進歩により、膨大な会計データを調べるための金融監査においてディープラーニング技術が登場している。 しかし、高度に適応した監査モデルを分散化および動的設定で学習することは依然として困難である。 複数のクライアントと期間にわたってデータ分散シフトを研究する必要がある。 本研究では,分散クライアントから監査モデルを継続的に学習できるフェデレーション型継続的学習フレームワークを提案する。 組織活動の共通シナリオにおける会計異常を検知するフレームワークの能力を評価する。 実世界のデータセットと連合型連続学習戦略を組み合わせた実験結果は,データ分散シフトの監査設定における学習モデルの異常検出能力を示す。

The International Standards on Auditing require auditors to collect reasonable assurance that financial statements are free of material misstatement. At the same time, a central objective of Continuous Assurance is the real-time assessment of digital accounting journal entries. Recently, driven by the advances in artificial intelligence, Deep Learning techniques have emerged in financial auditing to examine vast quantities of accounting data. However, learning highly adaptive audit models in decentralised and dynamic settings remains challenging. It requires the study of data distribution shifts over multiple clients and time periods. In this work, we propose a Federated Continual Learning framework enabling auditors to learn audit models from decentral clients continuously. We evaluate the framework's ability to detect accounting anomalies in common scenarios of organizational activity. Our empirical results, using real-world datasets and combined federated continual learning strategies, demonstrate the learned model's ability to detect anomalies in audit settings of data distribution shifts.
翻訳日:2022-10-28 14:46:34 公開日:2022-10-26
# 自己ペースハードクラスペア重み付けによる対向ロバスト性の改善

Improving Adversarial Robustness with Self-Paced Hard-Class Pair Reweighting ( http://arxiv.org/abs/2210.15068v1 )

ライセンス: Link先を確認
Pengyue Hou, Jie Han, Xingyu Li(参考訳) ディープニューラルネットワークは敵の攻撃に弱い。 多くの防衛戦略の中で、目標外の攻撃を伴う敵の訓練は最も認識された方法の1つである。 理論的には、ターゲティングされていない攻撃の予測されたラベルは予測不能であり、全体的な偽クラスを均一に分配するべきである。 しかし、自然に不均衡なクラス間のセマンティックな類似性により、これらのハードクラスのペアが互いに仮想的なターゲットになる。 本研究では,このような密結合クラスが対人攻撃に及ぼす影響について検討し,対人訓練における自己対応型再重み付け戦略を考案した。 具体的には,ハードクラスから識別的特徴を学習することを促すモデル最適化におけるハードクラスペアロスの重み付けを提案する。 さらに,モデルのロバスト性を大幅に向上させる敵訓練において,ハードクラスペアの一貫性を定量化する用語も取り入れた。 大規模実験により, 提案手法は, 幅広い敵攻撃に対して, 最先端の防御よりも高い堅牢性を実現することを示す。

Deep Neural Networks are vulnerable to adversarial attacks. Among many defense strategies, adversarial training with untargeted attacks is one of the most recognized methods. Theoretically, the predicted labels of untargeted attacks should be unpredictable and uniformly-distributed overall false classes. However, we find that the naturally imbalanced inter-class semantic similarity makes those hard-class pairs to become the virtual targets of each other. This study investigates the impact of such closely-coupled classes on adversarial attacks and develops a self-paced reweighting strategy in adversarial training accordingly. Specifically, we propose to upweight hard-class pair loss in model optimization, which prompts learning discriminative features from hard classes. We further incorporate a term to quantify hard-class pair consistency in adversarial training, which greatly boost model robustness. Extensive experiments show that the proposed adversarial training method achieves superior robustness performance over state-of-the-art defenses against a wide range of adversarial attacks.
翻訳日:2022-10-28 14:23:16 公開日:2022-10-26
# IDEAL:半監督医用画像分割のための深部学習の改善

IDEAL: Improved DEnse locAL Contrastive Learning for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2210.15075v1 )

ライセンス: Link先を確認
Hritam Basak, Soumitri Chattopadhyay, Rohit Kundu, Sayan Nag, Rammohan Mallipeddi(参考訳) ラベル付きデータの不足により、Contrastive Self-Supervised Learning (SSL)フレームワークは、最近、いくつかの医療画像解析タスクにおいて大きな可能性を示している。 しかし、既存のコントラスト機構は、局所的な特徴をマイニングできないため、高密度画素レベルのセグメンテーションタスクに準最適である。 そこで本研究では,深層エンコーダネットワークの事前学習に高密度(異種)の学習を用い,下流タスクの微調整に半教師付きパラダイムを用いることにより,距離学習の概念をセグメント化タスクに拡張する。 具体的には、密度の高い画素レベル特徴を得るための単純な畳み込み投影ヘッドと、これらの密度の高い投影を利用するための新しいコントラスト損失を提案し、局所表現を改善する。 下流課題に対して,双方向モデルトレーニングを含む双方向一貫性規則化機構を考案した。 比較すると,本手法は心筋MRIのセグメンテーションにおいて,SoTA法よりも優れている。

Due to the scarcity of labeled data, Contrastive Self-Supervised Learning (SSL) frameworks have lately shown great potential in several medical image analysis tasks. However, the existing contrastive mechanisms are sub-optimal for dense pixel-level segmentation tasks due to their inability to mine local features. To this end, we extend the concept of metric learning to the segmentation task, using a dense (dis)similarity learning for pre-training a deep encoder network, and employing a semi-supervised paradigm to fine-tune for the downstream task. Specifically, we propose a simple convolutional projection head for obtaining dense pixel-level features, and a new contrastive loss to utilize these dense projections thereby improving the local representations. A bidirectional consistency regularization mechanism involving two-stream model training is devised for the downstream task. Upon comparison, our IDEAL method outperforms the SoTA methods by fair margins on cardiac MRI segmentation.
翻訳日:2022-10-28 14:23:01 公開日:2022-10-26
# ロボット動特性推定のためのUUB安定化ニューラルネットワークの適応モデル学習

Adaptive Model Learning of Neural Networks with UUB Stability for Robot Dynamic Estimation ( http://arxiv.org/abs/2210.15055v1 )

ライセンス: Link先を確認
Pedram Agand, Mahdi Aliyari Shoorehdeli(参考訳) バッチアルゴリズムは、モデルミスマッチや乱れに直面する能力の欠如に悩まされているため、オンラインロボットの動的識別のための連続リアプノフ関数に基づく適応型スキームを提案する。 本稿では,モデル参照適応パラダイムからニューラルネットワークを誘導するための安定な更新規則を提案する。 ネットワーク構造は,ロボットの動的項を個別に推定することを目的とした3つの並列自律ニューラルネットワークから構成される。 リアプノフ候補は凸最適化フレームワークのエネルギー面を構築するために選択される。 学習規則はリアプノフ関数から直接駆動され、微分を負にする。 最後に, 3DOF Phantom Omni Haptic デバイスによる実験結果から提案手法の有効性が示された。

Since batch algorithms suffer from lack of proficiency in confronting model mismatches and disturbances, this contribution proposes an adaptive scheme based on continuous Lyapunov function for online robot dynamic identification. This paper suggests stable updating rules to drive neural networks inspiring from model reference adaptive paradigm. Network structure consists of three parallel self-driving neural networks which aim to estimate robot dynamic terms individually. Lyapunov candidate is selected to construct energy surface for a convex optimization framework. Learning rules are driven directly from Lyapunov functions to make the derivative negative. Finally, experimental results on 3-DOF Phantom Omni Haptic device demonstrate efficiency of the proposed method.
翻訳日:2022-10-28 14:12:40 公開日:2022-10-26
# ハイパースペクトル画像の分類と次元化のための情報ゲインに基づく新しいアプローチ

A novel information gain-based approach for classification and dimensionality reduction of hyperspectral images ( http://arxiv.org/abs/2210.15027v1 )

ライセンス: Link先を確認
Asma Elmaizi, Hasna Nhaila, Elkebir Sarhrouni, Ahmed Hammouch, and Chafik Nacir(参考訳) 近年,ハイパースペクトルセンサは地球表面を高いスペクトル分解能で監視する能力を向上させている。 しかし、スペクトルデータの高次元化は画像処理に課題をもたらす。 したがって、次元の縮小は計算の複雑さを低減し、分類精度を向上させるために必要なステップである。 本稿では,ハイパースペクトル画像の次元性低減と分類のための情報ゲインに基づく新しいフィルタ手法を提案する。 ハイパースペクトル帯の選択に基づく特別な戦略が採用され、最も情報性の高いバンドを選択し、無関係でノイズの多いバンドを捨てる。 このアルゴリズムは,支援ベクトルマシン分類器を用いて情報ゲイン関数に基づいて,帯域の関連性を評価する。 提案手法は,2つのベンチマークハイパースペクトルデータセット(インド,パヴィア)と3つの競合する手法を用いて比較する。 比較の結果,情報ゲインフィルタの手法は他の手法よりも優れており,分類精度を向上しながら計算コストを大幅に削減できることがわかった。 キーワード:ハイパースペクトル画像、次元減少、情報ゲイン、分類精度。 キーワード:ハイパースペクトル画像、次元減少、情報ゲイン、分類精度。

Recently, the hyperspectral sensors have improved our ability to monitor the earth surface with high spectral resolution. However, the high dimensionality of spectral data brings challenges for the image processing. Consequently, the dimensionality reduction is a necessary step in order to reduce the computational complexity and increase the classification accuracy. In this paper, we propose a new filter approach based on information gain for dimensionality reduction and classification of hyperspectral images. A special strategy based on hyperspectral bands selection is adopted to pick the most informative bands and discard the irrelevant and noisy ones. The algorithm evaluates the relevancy of the bands based on the information gain function with the support vector machine classifier. The proposed method is compared using two benchmark hyperspectral datasets (Indiana, Pavia) with three competing methods. The comparison results showed that the information gain filter approach outperforms the other methods on the tested datasets and could significantly reduce the computation cost while improving the classification accuracy. Keywords: Hyperspectral images; dimensionality reduction; information gain; classification accuracy. Keywords: Hyperspectral images; dimensionality reduction; information gain; classification accuracy.
翻訳日:2022-10-28 14:11:30 公開日:2022-10-26
# PERGAMO:モノクロ動画からパーソナライズされた3Dガーメント

PERGAMO: Personalized 3D Garments from Monocular Video ( http://arxiv.org/abs/2210.15040v1 )

ライセンス: Link先を確認
Andr\'es Casado-Elvira and Marc Comino Trinidad and Dan Casas(参考訳) 衣服はデジタル人間において基本的な役割を担っている。 3D衣服をアニメーション化するための現在のアプローチは、主に現実的な物理シミュレーションに基づいているが、それらは一般的に、開発を妨げる高い計算実行時間コストと、特定の現実世界の布のサンプルの合成を妨げるシミュレーションと現実のギャップという2つの主要な問題に悩まされている。 両問題を回避するために,モノクロ画像から3次元衣服の変形可能なモデルを学ぶためのデータ駆動型PERGAMOを提案する。 そこで本研究では,まず1枚の画像から衣服の3次元形状を再構成し,それを用いて単眼映像から衣服のデータセットを構築する手法を提案する。 これらの3次元再構成を用いて,服の変形を基礎となる身体のポーズの関数として正確に予測する回帰モデルを訓練する。 本手法は,実世界の動作にマッチする衣料アニメーションを作成でき,モーションキャプチャーデータセットから抽出した身体の動きを一般化できることを示す。

Clothing plays a fundamental role in digital humans. Current approaches to animate 3D garments are mostly based on realistic physics simulation, however, they typically suffer from two main issues: high computational run-time cost, which hinders their development; and simulation-to-real gap, which impedes the synthesis of specific real-world cloth samples. To circumvent both issues we propose PERGAMO, a data-driven approach to learn a deformable model for 3D garments from monocular images. To this end, we first introduce a novel method to reconstruct the 3D geometry of garments from a single image, and use it to build a dataset of clothing from monocular videos. We use these 3D reconstructions to train a regression model that accurately predicts how the garment deforms as a function of the underlying body pose. We show that our method is capable of producing garment animations that match the real-world behaviour, and generalizes to unseen body motions extracted from motion capture dataset.
翻訳日:2022-10-28 14:11:14 公開日:2022-10-26
# 4-in-One: 音声認識のための逆テキスト正規化, ゆらぎ, キャピタリゼーション, および拡散に対する共同手法

Four-in-One: A Joint Approach to Inverse Text Normalization, Punctuation, Capitalization, and Disfluency for Automatic Speech Recognition ( http://arxiv.org/abs/2210.15063v1 )

ライセンス: Link先を確認
Sharman Tan, Piyush Behre, Nick Kibre, Issac Alphonso, Shuangyu Chang(参考訳) 句読性、資本化、エンティティのフォーマット化といった機能は、可読性、理解、自然言語処理タスクにおいて重要である。 しかし、自動音声認識(asr)システムは、フォーマッティングのない音声形式のテキストを生成し、一度に1つまたは2つの特徴だけをフォーマッティングするタギングアプローチを行う。 本稿では,2段階のプロセスで音声から文字への変換を統一する。まず,逆テキスト正規化(ITN),句読点,大文字化,および分散化のためのトークンレベルのタグを共同生成するために,単一のトランスフォーマータグモデルを用いる。 次に、タグを適用して書式テキストを生成し、重み付き有限状態トランスデューサ(WFST)文法を用いて、タグ付きITNエンティティスパンをフォーマットする。 4つのモデルを1つにまとめるにも関わらず、当社の統一的なタグ付けアプローチは、複数のドメインにわたるベンチマークテストセットの4つのタスクにまたがるタスク固有のモデルにマッチするか、あるいは上回るものです。

Features such as punctuation, capitalization, and formatting of entities are important for readability, understanding, and natural language processing tasks. However, Automatic Speech Recognition (ASR) systems produce spoken-form text devoid of formatting, and tagging approaches to formatting address just one or two features at a time. In this paper, we unify spoken-to-written text conversion via a two-stage process: First, we use a single transformer tagging model to jointly produce token-level tags for inverse text normalization (ITN), punctuation, capitalization, and disfluencies. Then, we apply the tags to generate written-form text and use weighted finite state transducer (WFST) grammars to format tagged ITN entity spans. Despite joining four models into one, our unified tagging approach matches or outperforms task-specific models across all four tasks on benchmark test sets across several domains.
翻訳日:2022-10-28 13:56:40 公開日:2022-10-26
# arXivEdits: 科学的執筆における人間改正プロセスの理解

arXivEdits: Understanding the Human Revision Process in Scientific Writing ( http://arxiv.org/abs/2210.15067v1 )

ライセンス: Link先を確認
Chao Jiang and Wei Xu and Samuel Stevens(参考訳) 科学出版物は、執筆品質が重要となる研究発見を伝える主要な手段である。 しかし、この領域における人間の編集過程の研究は、主に抽象的な部分や導入部分に焦点を当てており、結果として不完全な絵が描かれる。 本研究は,テキスト修正を科学的に研究するための,完全な計算フレームワークを提供する。 最初にarXivEditsを紹介した。これは、arXivの新しい注釈付き全文コーパスで、複数のバージョンにまたがるゴールドの文アライメントと、細粒度のスパンレベルの編集と1000の文対に対する基本的な意図を提供する。 データ駆動分析をサポートし、研究者が論文を改訂する一般的な戦略を明らかにします。 分析を大規模化するために,文書,文,単語レベルでリビジョンを抽出する自動手法も開発した。 コーパス上で訓練されたニューラルCRF文アライメントモデルは、93.8 F1を達成し、異なるバージョン間の文の信頼性の高いマッチングを可能にする。 本研究では,編集タスクをスパンアライメント問題として定式化し,提案手法は一般的なdiffアルゴリズムと比較して,より微細で説明可能な編集を抽出する。 我々のデータセットで訓練された意図分類器は、きめ細かい意図分類タスクで78.9 F1を達成する。 私たちのデータとシステムは、小さな.one/arxiveditsでリリースされます。

Scientific publications are the primary means to communicate research discoveries, where the writing quality is of crucial importance. However, prior work studying the human editing process in this domain mainly focused on the abstract or introduction sections, resulting in an incomplete picture. In this work, we provide a complete computational framework for studying text revision in scientific writing. We first introduce arXivEdits, a new annotated corpus of 751 full papers from arXiv with gold sentence alignment across their multiple versions of revision, as well as fine-grained span-level edits and their underlying intentions for 1,000 sentence pairs. It supports our data-driven analysis to unveil the common strategies practiced by researchers for revising their papers. To scale up the analysis, we also develop automatic methods to extract revision at document-, sentence-, and word-levels. A neural CRF sentence alignment model trained on our corpus achieves 93.8 F1, enabling the reliable matching of sentences between different versions. We formulate the edit extraction task as a span alignment problem, and our proposed method extracts more fine-grained and explainable edits, compared to the commonly used diff algorithm. An intention classifier trained on our dataset achieves 78.9 F1 on the fine-grained intent classification task. Our data and system are released at tiny.one/arxivedits.
翻訳日:2022-10-28 13:56:19 公開日:2022-10-26
# 星間物体のアクセシビリティとミッションデザイン

Interstellar Object Accessibility and Mission Design ( http://arxiv.org/abs/2210.14980v1 )

ライセンス: Link先を確認
Benjamin P. S. Donitz and Declan Mages and Hiroyasu Tsukamoto and Peter Dixon and Damon Landau and Soon-Jo Chung and Erica Bufanda and Michel Ingham and Julie Castillo-Rogez(参考訳) 恒星間天体(ISO)は魅力的な天体であり、太陽系の形成を理解し、外惑星系で形成された物質の組成と性質を探査する物理実験室を提供する。 本報告では,ISO へのアクセシビリティとミッション設計に関する様々な特徴について論じる。例えば,クルーズ航路における状態共分散推定,従来の航法アプローチから,高速フライバイ体制のための新しい自律航法への手引き,そしてこれらの目標の今後の準備に関する総合的なレコメンデーションなどである。 長い周期の彗星や潜在的に有害な小惑星を含む他の小さな天体の高速フライバイにも適用され、同様の特性を持つ戦術的応答も必要となる。

Interstellar objects (ISOs) are fascinating and under-explored celestial objects, providing physical laboratories to understand the formation of our solar system and probe the composition and properties of material formed in exoplanetary systems. This paper will discuss the accessibility of and mission design to ISOs with varying characteristics, including a discussion of state covariance estimation over the course of a cruise, handoffs from traditional navigation approaches to novel autonomous navigation for fast flyby regimes, and overall recommendations about preparing for the future in situ exploration of these targets. The lessons learned also apply to the fast flyby of other small bodies including long-period comets and potentially hazardous asteroids, which also require a tactical response with similar characteristics
翻訳日:2022-10-28 13:45:32 公開日:2022-10-26
# 大型言語モデルはゼロショットコミュニケーターではない

Large language models are not zero-shot communicators ( http://arxiv.org/abs/2210.14986v1 )

ライセンス: Link先を確認
Laura Ruis, Akbir Khan, Stella Biderman, Sara Hooker, Tim Rockt\"aschel, Edward Grefenstette(参考訳) 会話エージェントとしてllmが広く使われているにもかかわらず、パフォーマンスの評価はコミュニケーションの重要な側面を捉えられていない。 人間は世界に関する信念と事前知識を使って言語を解釈する。 例えば、"did you leave fingerprints"という質問に対する"i wearing gloves"の反応を直感的に理解しています。 LLMがこのような推論を行う能力を持つかどうかを調べるため、簡単なタスクを設計し、広く使われている最先端モデルを評価する。 バイナリ推論(yesかno)が必要な発話についてのみ評価するにも関わらず、ほとんどがランダムに近いパフォーマンスを示すことが分かりました。 に適応したモデルは、より優れた性能を発揮するが、それでも人間のパフォーマンスと大きなギャップが示される。 本研究は,llmsが文脈における言語をどのように解釈するかを評価するためのさらなる研究の出発点として,より実用的かつ有用な人間の談話のモデルの開発を推進する。

Despite widespread use of LLMs as conversational agents, evaluations of performance fail to capture a crucial aspect of communication: interpreting language in context. Humans interpret language using beliefs and prior knowledge about the world. For example, we intuitively understand the response "I wore gloves" to the question "Did you leave fingerprints?" as meaning "No". To investigate whether LLMs have the ability to make this type of inference, known as an implicature, we design a simple task and evaluate widely used state-of-the-art models. We find that, despite only evaluating on utterances that require a binary inference (yes or no), most perform close to random. Models adapted to be "aligned with human intent" perform much better, but still show a significant gap with human performance. We present our findings as the starting point for further research into evaluating how LLMs interpret language in context and to drive the development of more pragmatic and useful models of human discourse.
翻訳日:2022-10-28 13:44:40 公開日:2022-10-26
# 超多項式量子古典分離による密度モデリング

A super-polynomial quantum-classical separation for density modelling ( http://arxiv.org/abs/2210.14936v1 )

ライセンス: Link先を確認
Niklas Pirnay, Ryan Sweke, Jens Eisert, Jean-Pierre Seifert(参考訳) 密度モデリングは、未知の確率密度関数をサンプルから学習するタスクであり、教師なし機械学習の中心的な問題の一つである。 本研究では,古典的学習アルゴリズムに比較して,フォールトトレラントな量子コンピュータが超ポリノミカルな優位性を提供できるような密度モデリング問題が存在することを示す。 その過程で、量子学習アルゴリズムと古典学習アルゴリズムの今後の分散学習分離を証明するための潜在的な興味を示す、さまざまな結果と洞察を提供する。 具体的には (a)教師付き学習と配流学習における硬度結果の関係の概要、及び (b) 任意の弱擬ランダム関数は古典的なハード密度モデリング問題を構成するのに使うことができる。 後者の結果は、疑似ランダム関数に必要なものよりも弱い仮定に基づく密度モデリングの量子古典的分離を証明する可能性を開く。

Density modelling is the task of learning an unknown probability density function from samples, and is one of the central problems of unsupervised machine learning. In this work, we show that there exists a density modelling problem for which fault-tolerant quantum computers can offer a super-polynomial advantage over classical learning algorithms, given standard cryptographic assumptions. Along the way, we provide a variety of additional results and insights, of potential interest for proving future distribution learning separations between quantum and classical learning algorithms. Specifically, we (a) provide an overview of the relationships between hardness results in supervised learning and distribution learning, and (b) show that any weak pseudo-random function can be used to construct a classically hard density modelling problem. The latter result opens up the possibility of proving quantum-classical separations for density modelling based on weaker assumptions than those necessary for pseudo-random functions.
翻訳日:2022-10-28 13:37:08 公開日:2022-10-26
# ベイズ双曲多次元スケーリング

Bayesian Hyperbolic Multidimensional Scaling ( http://arxiv.org/abs/2210.15081v1 )

ライセンス: Link先を確認
Bolun Liu, Shane Lubold, Adrian E. Raftery, Tyler H. McCormick(参考訳) 多次元スケーリング(MDS)は、高次元依存データを表現するために広く用いられている手法である。 mdsは、各観測者に、類似性を表す多様体上の距離を持つ低次元幾何学多様体上の位置を割り当てることで機能する。 低次元多様体が双曲的である場合の多次元スケーリングに対するベイズ的アプローチを提案する。 双曲空間を使用すると、多くの設定で共通する木のような構造(例えば、テキストや階層構造を持つ遺伝データ)を表現することができる。 ベイズアプローチは、観測データにおける不確実性や測定誤差の影響を最小限にする正規化を提供する。 また,より大規模なデータ設定において,後方から効率的なサンプリングが可能となり,計算の複雑さを約$o(n^2)$から$o(n)$に低減するケースコントロール度近似を提案する。 提案手法をシミュレーション,標準基準データセット,ヒト遺伝子発現データを用いて評価した。

Multidimensional scaling (MDS) is a widely used approach to representing high-dimensional, dependent data. MDS works by assigning each observation a location on a low-dimensional geometric manifold, with distance on the manifold representing similarity. We propose a Bayesian approach to multidimensional scaling when the low-dimensional manifold is hyperbolic. Using hyperbolic space facilitates representing tree-like structure common in many settings (e.g. text or genetic data with hierarchical structure). A Bayesian approach provides regularization that minimizes the impact of uncertainty or measurement error in the observed data. We also propose a case-control likelihood approximation that allows for efficient sampling from the posterior in larger data settings, reducing computational complexity from approximately $O(n^2)$ to $O(n)$. We evaluate the proposed method against state-of-the-art alternatives using simulations, canonical reference datasets, and human gene expression data.
翻訳日:2022-10-28 13:36:54 公開日:2022-10-26
# 非対話型ローカル差分プライバシーにおける学習対難読化

Learning versus Refutation in Noninteractive Local Differential Privacy ( http://arxiv.org/abs/2210.15439v1 )

ライセンス: Link先を確認
Alexander Edmonds, Aleksandar Nikolov, Toniann Pitassi(参考訳) 非対話的局所差分プライバシー(LDP)における2つの基本的な統計課題について検討する。 学習には、未知のターゲット関数(分布から引き出されたラベル付きサンプルから)に最も適した概念を見つける必要があるが、難読化には、クラス内のある概念とよく関連しているデータ分布と、ラベルがランダムな分布を区別する必要がある。 主な結果は,非対話型ldpプロトコルにおけるpac学習のサンプル複雑性の完全解析である。 任意の概念クラスの最適なサンプル複雑性は、そのクラスに付随する自然行列の近似 $\gamma_2$~norm によってキャプチャされる。 以前の研究(Edmonds, Nikolov, Ullman, 2019)と組み合わせることで,無知な環境下での学習と反感の同値性が得られるのです。

We study two basic statistical tasks in non-interactive local differential privacy (LDP): learning and refutation. Learning requires finding a concept that best fits an unknown target function (from labelled samples drawn from a distribution), whereas refutation requires distinguishing between data distributions that are well-correlated with some concept in the class, versus distributions where the labels are random. Our main result is a complete characterization of the sample complexity of agnostic PAC learning for non-interactive LDP protocols. We show that the optimal sample complexity for any concept class is captured by the approximate $\gamma_2$~norm of a natural matrix associated with the class. Combined with previous work [Edmonds, Nikolov and Ullman, 2019] this gives an equivalence between learning and refutation in the agnostic setting.
翻訳日:2022-10-28 13:35:43 公開日:2022-10-26
# 低資源ASRのための大規模事前学習モデルの有効利用

Efficient Use of Large Pre-Trained Models for Low Resource ASR ( http://arxiv.org/abs/2210.15445v1 )

ライセンス: Link先を確認
Peter Vieting, Christoph L\"uscher, Julian Dierkes, Ralf Schl\"uter, Hermann Ney(参考訳) ラベル付きデータが多数存在する多くのシナリオにおいて,音声認識(ASR)が優れた性能を発揮する技術として確立されている。 さらに、教師なし表現学習は、最近限られたデータでタスクに取り組むのに役立った。 これに続いて、ハードウェアの制限とアプリケーションは、大規模な事前訓練されたモデルの効率よく活用し、ダウンストリームタスクの複雑さを減らす方法に疑問を呈する。 本研究では,ベトナム語とドイツ語の医療領域における低資源会話音声コーパスについて検討する。 本研究では,大規模な事前学習モデルの簡易微調整を超えて教師なし手法を用いることのメリットを示し,帯域転送を含む実践的なテレフォニータスクに適応する方法,事前学習と微調整のための異なるデータ条件を検討する。 事前トレーニング技術を用いて,プロジェクトのベースラインを22%上回っています。 さらなる29%の利益は、アーキテクチャとトレーニングの改善と、ドメイン内適応データの0.8hの追加によって6%に達する。

Automatic speech recognition (ASR) has been established as a well-performing technique for many scenarios where lots of labeled data is available. Additionally, unsupervised representation learning recently helped to tackle tasks with limited data. Following this, hardware limitations and applications give rise to the question how to efficiently take advantage of large pretrained models and reduce their complexity for downstream tasks. In this work, we study a challenging low resource conversational telephony speech corpus from the medical domain in Vietnamese and German. We show the benefits of using unsupervised techniques beyond simple fine-tuning of large pre-trained models, discuss how to adapt them to a practical telephony task including bandwidth transfer and investigate different data conditions for pre-training and fine-tuning. We outperform the project baselines by 22% relative using pretraining techniques. Further gains of 29% can be achieved by refinements of architecture and training and 6% by adding 0.8 h of in-domain adaptation data.
翻訳日:2022-10-28 13:29:39 公開日:2022-10-26
# 超伝導体科学文献からの材料・物性の自動抽出

Automatic Extraction of Materials and Properties from Superconductors Scientific Literature ( http://arxiv.org/abs/2210.15600v1 )

ライセンス: Link先を確認
Luca Foppiano, Pedro Baptista de Castro, Pedro Ortiz Suarez, Kensei Terashima, Yoshihiko Takano, Masashi Ishii(参考訳) データ駆動材料科学 (Materials Informatics) では, 科学文献から材料や関連物質の自動抽出が注目されている。 本稿では,grobid-superconductorについて検討し,超伝導体名とその特性をテキストから自動抽出する手法について述べる。 Grobidモジュールとして構築され、機械学習とヒューリスティックなアプローチを多段階アーキテクチャで組み合わせ、入力データを原文やPDF文書としてサポートする。 グラビッドスーパーコンダクター(grobid-superconductor)を用いて、37700の論文から得られた40324の材料と特性のデータベースsupercon2を構築した。 材料(又はサンプル)情報は、名前、化学式、材料クラスで表され、形状、ドーピング、成分の置換変数、および基板を隣接する情報として特徴付けられる。 特性としては超伝導臨界温度があり、利用可能であればTc測定法で圧力を印加する。

The automatic extraction of materials and related properties from the scientific literature is gaining attention in data-driven materials science (Materials Informatics). In this paper, we discuss Grobid-superconductors, our solution for automatically extracting superconductor material names and respective properties from text. Built as a Grobid module, it combines machine learning and heuristic approaches in a multi-step architecture that supports input data as raw text or PDF documents. Using Grobid-superconductors, we built SuperCon2, a database of 40324 materials and properties records from 37700 papers. The material (or sample) information is represented by name, chemical formula, and material class, and is characterized by shape, doping, substitution variables for components, and substrate as adjoined information. The properties include the Tc superconducting critical temperature and, when available, applied pressure with the Tc measurement method.
翻訳日:2022-10-28 13:29:22 公開日:2022-10-26
# 筋シナジーによる低ランクモジュール強化学習

Low-Rank Modular Reinforcement Learning via Muscle Synergy ( http://arxiv.org/abs/2210.15479v1 )

ライセンス: Link先を確認
Heng Dong, Tonghan Wang, Jiayuan Liu, Chongjie Zhang(参考訳) モジュール強化学習(rl)は、各アクチュエータの学習ポリシーにより、マルチジョイントロボットの制御を分散させる。 モジュラーrlに関する以前の研究は、共用アクチュエータポリシーで形態的に異なるエージェントを制御できることを証明した。 しかし,ロボットの自由度(dof)の増大に伴い,形態を一般化したモジュラーコントローラの訓練が指数関数的に困難になる。 人間の中枢神経系が多数の筋肉を制御する方法に触発され,ロボット制御におけるDoFの冗長性を利用したSOLAR(Synergy-Oriented Learning)フレームワークを提案する。 アクチュエータは教師なし学習法によりシナジーにグループ化され、複数のアクチュエータを同期で制御するためにシナジー動作が学習される。 このようにして,シマージレベルで低ランク制御を実現する。 提案手法は様々なロボット形態について広範囲に評価し,その効率性と一般化性,特にHumanoids++やUNIMALのような大きなDoFを持つロボットについて検討した。

Modular Reinforcement Learning (RL) decentralizes the control of multi-joint robots by learning policies for each actuator. Previous work on modular RL has proven its ability to control morphologically different agents with a shared actuator policy. However, with the increase in the Degree of Freedom (DoF) of robots, training a morphology-generalizable modular controller becomes exponentially difficult. Motivated by the way the human central nervous system controls numerous muscles, we propose a Synergy-Oriented LeARning (SOLAR) framework that exploits the redundant nature of DoF in robot control. Actuators are grouped into synergies by an unsupervised learning method, and a synergy action is learned to control multiple actuators in synchrony. In this way, we achieve a low-rank control at the synergy level. We extensively evaluate our method on a variety of robot morphologies, and the results show its superior efficiency and generalizability, especially on robots with a large DoF like Humanoids++ and UNIMALs.
翻訳日:2022-10-28 13:27:07 公開日:2022-10-26
# ディープラーニングはおそらく対称ラベルノイズに頑丈である

Deep Learning is Provably Robust to Symmetric Label Noise ( http://arxiv.org/abs/2210.15083v1 )

ライセンス: Link先を確認
Carey E. Priebe, Ningyuan Huang, Soledad Villar, Cong Mu, Li Chen(参考訳) ディープニューラルネットワーク(DNN)は、ノイズの多いデータを記憶するなど、トレーニングデータを完全に適合させることができる。 記憶は一般化を損なうと一般に信じられている。 したがって、近年の多くの研究は、ノイズデータや正しい暗記を避けるための緩和戦略を提案している。 ディープラーニングは、緩和することなく、巨大なラベルノイズに対して堅牢になるのだろうか? 我々は、非パラメータモデルや過パラメータモデルを含む特定のdnnが、情報理論上の閾値まで、巨大な対称ラベルノイズを許容できることを発見した。 古典的統計理論やDNNの普遍的一貫性に訴えることで、対称ラベルノイズの下で訓練された多重クラス分類において、$L_1$-consistent DNN分類器は、ラベルノイズ確率が$\frac{K-1}{K}$未満であれば、ベイズ最適性を漸近的に達成できることを示す。 その結果, 対称ラベル雑音では, L_1$-consistent estimatorの緩和は不要であった。 一般のラベルノイズの場合、ノイズデータを利用する緩和戦略は、ノイズデータを無視した手法よりも優れていると推測する。

Deep neural networks (DNNs) are capable of perfectly fitting the training data, including memorizing noisy data. It is commonly believed that memorization hurts generalization. Therefore, many recent works propose mitigation strategies to avoid noisy data or correct memorization. In this work, we step back and ask the question: Can deep learning be robust against massive label noise without any mitigation? We provide an affirmative answer for the case of symmetric label noise: We find that certain DNNs, including under-parameterized and over-parameterized models, can tolerate massive symmetric label noise up to the information-theoretic threshold. By appealing to classical statistical theory and universal consistency of DNNs, we prove that for multiclass classification, $L_1$-consistent DNN classifiers trained under symmetric label noise can achieve Bayes optimality asymptotically if the label noise probability is less than $\frac{K-1}{K}$, where $K \ge 2$ is the number of classes. Our results show that for symmetric label noise, no mitigation is necessary for $L_1$-consistent estimators. We conjecture that for general label noise, mitigation strategies that make use of the noisy data will outperform those that ignore the noisy data.
翻訳日:2022-10-28 13:11:03 公開日:2022-10-26
# vaesを用いた自律走行の高速かつ効率的なシーン分類

Fast and Efficient Scene Categorization for Autonomous Driving using VAEs ( http://arxiv.org/abs/2210.14981v1 )

ライセンス: Link先を確認
Saravanabalagi Ramachandran, Jonathan Horgan, Ganesh Sistu, and John McDonald(参考訳) シーン分類は、多くの高度なコンピュータビジョンタスクに対する事前知識を提供する有用な前駆的タスクであり、コンテンツベースの画像インデックスと検索システムに幅広い応用がある。 オブジェクト検出やセマンティックセグメンテーションなどのコンピュータビジョン分野におけるデータ駆動アプローチの成功にもかかわらず、シーン認識のための高レベルな特徴の学習への応用は、同じレベルの成功を収めていない。 本研究では,画像から粗い特徴をキャプチャし,分類ヘッドを用いて,農村,都市,郊外の3つのシーンカテゴリに分類する,高速かつ効率的な中間解釈可能な一般化グローバルディスクリプタの生成を提案する。 非教師なしの方法で変分オートエンコーダを訓練し、制約付き多次元潜在空間に画像をマッピングし、その潜在ベクトルを画像のグローバルディスクリプタとして機能するコンパクト埋め込みとして利用する。 実験結果から,VOE潜伏ベクトルは画像から粗い情報を捕捉し,グローバルディスクリプタとしての利用をサポートすることが示された。 提案するグローバルディスクリプタは, 埋め込み長が128で, 計算が著しく高速で, 季節や不純物の変化に対して堅牢であり, シーン分類に必要なシーン情報を収集できる。

Scene categorization is a useful precursor task that provides prior knowledge for many advanced computer vision tasks with a broad range of applications in content-based image indexing and retrieval systems. Despite the success of data driven approaches in the field of computer vision such as object detection, semantic segmentation, etc., their application in learning high-level features for scene recognition has not achieved the same level of success. We propose to generate a fast and efficient intermediate interpretable generalized global descriptor that captures coarse features from the image and use a classification head to map the descriptors to 3 scene categories: Rural, Urban and Suburban. We train a Variational Autoencoder in an unsupervised manner and map images to a constrained multi-dimensional latent space and use the latent vectors as compact embeddings that serve as global descriptors for images. The experimental results evidence that the VAE latent vectors capture coarse information from the image, supporting their usage as global descriptors. The proposed global descriptor is very compact with an embedding length of 128, significantly faster to compute, and is robust to seasonal and illuminational changes, while capturing sufficient scene information required for scene categorization.
翻訳日:2022-10-28 13:09:28 公開日:2022-10-26
# ドメイン一般化のための再構成損失と特徴アライメントのトレードオフ

Trade-off between reconstruction loss and feature alignment for domain generalization ( http://arxiv.org/abs/2210.15000v1 )

ライセンス: Link先を確認
Thuan Nguyen, Boyang Lyu, Prakash Ishwar, Matthias Scheutz, Shuchin Aeron(参考訳) ドメイン一般化(Domain Generalization、DG)は、いくつかの見知らぬ領域で学習モデルを訓練し、その後、これらの事前学習されたモデルを他の未知の(未知だが関連する)領域に適用することを目的とした、伝達学習の分野である。 未確認領域のデータとラベルの両方がトレーニング時に利用できないDGの困難な設定に対処するために、最も一般的なアプローチはドメイン不変の表現機能、すなわちドメイン間で不変かつ転送可能な潜在表現に基づいて分類器を設計することである。 一般の考え方とは対照的に,不変表現特徴のみに基づく分類器の設計はdgでは必要だが不十分であることを示す。 本解析は,ラベルに関する情報のほとんどを潜在空間に保持するために,表現関数によって引き起こされる再構成損失に制約を課すことの必要性を示唆する。 さらに,再建損失の最小化とDGにおけるドメインアライメントの達成とのトレードオフを指摘する。 我々の理論的結果は、復元損失とドメインの不一致を協調的に最適化する新しいDGフレームワークを動機付けている。 我々のアプローチを正当化するために理論的および数値的な結果が提供される。

Domain generalization (DG) is a branch of transfer learning that aims to train the learning models on several seen domains and subsequently apply these pre-trained models to other unseen (unknown but related) domains. To deal with challenging settings in DG where both data and label of the unseen domain are not available at training time, the most common approach is to design the classifiers based on the domain-invariant representation features, i.e., the latent representations that are unchanged and transferable between domains. Contrary to popular belief, we show that designing classifiers based on invariant representation features alone is necessary but insufficient in DG. Our analysis indicates the necessity of imposing a constraint on the reconstruction loss induced by representation functions to preserve most of the relevant information about the label in the latent space. More importantly, we point out the trade-off between minimizing the reconstruction loss and achieving domain alignment in DG. Our theoretical results motivate a new DG framework that jointly optimizes the reconstruction loss and the domain discrepancy. Both theoretical and numerical results are provided to justify our approach.
翻訳日:2022-10-28 13:09:07 公開日:2022-10-26
# 分布変換によるフェデレーション学習における不均一性への取り組み

Addressing Heterogeneity in Federated Learning via Distributional Transformation ( http://arxiv.org/abs/2210.15025v1 )

ライセンス: Link先を確認
Haolin Yuan, Bo Hui, Yuchen Yang, Philippe Burlina, Neil Zhenqiang Gong, and Yinzhi Cao(参考訳) フェデレーション学習(fl)は、複数のクライアントがディープラーニングモデルを協調的にトレーニングすることを可能にする。 flの1つの大きな課題は、データ分散が異種である場合、すなわち、あるクライアントから別のクライアントへ異なる場合である。 既存のパーソナライズされたFLアルゴリズムは、クライアント毎の1つか2つのデータクラスのような狭いケースにのみ適用でき、従ってFLを様々なレベルのデータヘテロジニティで適切に扱うことができない。 本稿では,2重入力チャネルモデル構造とともに,列車およびテスト時間分布変換によるFL性能(モデル精度)を向上させるための新しいフレームワークであるDisTransを提案する。 DisTransは、各FLクライアントの分散オフセットとモデルを最適化してデータの分散をシフトし、FLサーバでこれらのオフセットを集約することで、分散の不均一な場合のパフォーマンスをさらに向上する。 複数のベンチマークデータを用いた評価の結果,DisTrans は,各種設定およびクライアント分布の不均一性の度合いの違いにより,最先端FL法やデータ拡張法よりも優れていた。

Federated learning (FL) allows multiple clients to collaboratively train a deep learning model. One major challenge of FL is when data distribution is heterogeneous, i.e., differs from one client to another. Existing personalized FL algorithms are only applicable to narrow cases, e.g., one or two data classes per client, and therefore they do not satisfactorily address FL under varying levels of data heterogeneity. In this paper, we propose a novel framework, called DisTrans, to improve FL performance (i.e., model accuracy) via train and test-time distributional transformations along with a double-input-channel model structure. DisTrans works by optimizing distributional offsets and models for each FL client to shift their data distribution, and aggregates these offsets at the FL server to further improve performance in case of distributional heterogeneity. Our evaluation on multiple benchmark datasets shows that DisTrans outperforms state-of-the-art FL methods and data augmentation methods under various settings and different degrees of client distributional heterogeneity.
翻訳日:2022-10-28 13:08:47 公開日:2022-10-26
# AltUB:異常検出のための正規化フローのベース分布更新のための代替訓練方法

AltUB: Alternating Training Method to Update Base Distribution of Normalizing Flow for Anomaly Detection ( http://arxiv.org/abs/2210.14913v1 )

ライセンス: Link先を確認
Yeongmin Kim, Huiwon Jang, DongKeon Lee, and Ho-Jin Choi(参考訳) 近年,異常データ量が限られているため,様々な領域で異常検出が注目されている。 その主なアプローチの1つは正規化フローであり、複素分布の像としての可逆変換を N(0, I) として容易に分布に変換することである。 実際、fastflowやcflow-adのような正規化フローに基づくアルゴリズムは、教師なし異常検出タスクで最先端のパフォーマンスを確立する。 それにもかかわらず、これらのアルゴリズムは通常の画像をN(0, I)ではなく任意の正規分布に変換する。 さらに、その性能はしばしば不安定であり、検証のためのデータが提供されないため、教師なしタスクにとって非常に重要となる。 そこで本研究では,異常検出のための正規化フローのベース分布を更新するために,交互トレーニングを導入する単純なaltubを提案する。 AltUBは、正規化フローの性能の安定性を効果的に向上する。 さらに,AUROC 98.8% の MVTec AD データセット上で,異常セグメンテーションタスクの最先端性能を実現する。

Unsupervised anomaly detection is coming into the spotlight these days in various practical domains due to the limited amount of anomaly data. One of the major approaches for it is a normalizing flow which pursues the invertible transformation of a complex distribution as images into an easy distribution as N(0, I). In fact, algorithms based on normalizing flow like FastFlow and CFLOW-AD establish state-of-the-art performance on unsupervised anomaly detection tasks. Nevertheless, we investigate these algorithms convert normal images into not N(0, I) as their destination, but an arbitrary normal distribution. Moreover, their performances are often unstable, which is highly critical for unsupervised tasks because data for validation are not provided. To break through these observations, we propose a simple solution AltUB which introduces alternating training to update the base distribution of normalizing flow for anomaly detection. AltUB effectively improves the stability of performance of normalizing flow. Furthermore, our method achieves the new state-of-the-art performance of the anomaly segmentation task on the MVTec AD dataset with 98.8% AUROC.
翻訳日:2022-10-28 13:01:20 公開日:2022-10-26
# 導出性バイアスブーストマシンの抽象推論能力を用いた多視点・多面評価

Multi-Viewpoint and Multi-Evaluation with Felicitous Inductive Bias Boost Machine Abstract Reasoning Ability ( http://arxiv.org/abs/2210.14914v1 )

ライセンス: Link先を確認
Qinglai Wei, Diancheng Chen, Beiming Yuan(参考訳) RAVENのプログレッシブ行列(RPM)の異なるバージョンがベンチマークとして提案されている。 これまでの研究は、高度な設計や、セマンティック情報を含む追加のメタデータがなければ、ニューラルネットワークは、絶え間ないトレーニングの後、RPMの問題に関する決定を下すのに不決定である、とインクリングしている。 徹底的な実験とアブレーション研究により、特定のバックボーンの余分なメタデータや好みを増すことなく、フェリシタンな帰納的バイアス、意図的設計、セレンディピティーに適合するエンド・ツー・エンドのニューラルネットワークがRPM問題をエレガントに解決できることを示した。 我々の研究は、多面的評価を伴うマルチ視点が推論を成功させるための重要な学習戦略であることを明らかにしている。 最後に、一般化におけるコネクショニストモデルの失敗に対する潜在的な説明を提供する。 これらの結果は、認識を超えて、抽象的推論に向けたAIの能力の検査として役立ちたいと思っています。 ソースコードはhttps://github.com/QinglaiWeiCASIA/RavenSolverにある。

Great endeavors have been made to study AI's ability in abstract reasoning, along with which different versions of RAVEN's progressive matrices (RPM) are proposed as benchmarks. Previous works give inkling that without sophisticated design or extra meta-data containing semantic information, neural networks may still be indecisive in making decisions regarding RPM problems, after relentless training. Evidenced by thorough experiments and ablation studies, we showcase that end-to-end neural networks embodied with felicitous inductive bias, intentionally design or serendipitously match, can solve RPM problems elegantly, without the augment of any extra meta-data or preferences of any specific backbone. Our work also reveals that multi-viewpoint with multi-evaluation is a key learning strategy for successful reasoning. Finally, potential explanations for the failure of connectionist models in generalization are provided. We hope that these results will serve as inspections of AI's ability beyond perception and toward abstract reasoning. Source code can be found in https://github.com/QinglaiWeiCASIA/RavenSolver.
翻訳日:2022-10-28 13:01:04 公開日:2022-10-26
# 逆強化学習のための環境設計

Environment Design for Inverse Reinforcement Learning ( http://arxiv.org/abs/2210.14972v1 )

ライセンス: Link先を確認
Thomas Kleine Buening and Christos Dimitrakakis(参考訳) 専門家によるデモンストレーションから報酬関数を学習するタスクは、与えられた環境でのデモンストレーションから何が学べるかに固有の制限だけでなく、高いサンプルの複雑さに悩まされる。 報酬学習に使用されるサンプルは人間の入力を必要とするため、一般的にコストがかかるため、より効率的なアルゴリズムの設計に多くの努力が注がれている。 さらに、豊富なデータであっても、現在の手法は環境力学の微妙な変化に対して堅牢な洞察力のある報酬関数を学習できない。 我々は,これらの課題に対して,実演環境を適応的に設計することにより,実演効率の向上と学習報酬のロバスト性を向上させることで,先行研究と異なるアプローチを行う。 我々は,学習者と専門家が繰り返し対話する環境設計プロセスの枠組みを定式化し,その課題を実証するための環境を慎重にキュレートし,報酬に関する情報を積極的に求めるアルゴリズムを構築した。

The task of learning a reward function from expert demonstrations suffers from high sample complexity as well as inherent limitations to what can be learned from demonstrations in a given environment. As the samples used for reward learning require human input, which is generally expensive, much effort has been dedicated towards designing more sample-efficient algorithms. Moreover, even with abundant data, current methods can still fail to learn insightful reward functions that are robust to minor changes in the environment dynamics. We approach these challenges differently than prior work by improving the sample-efficiency as well as the robustness of learned rewards through adaptively designing a sequence of demonstration environments for the expert to act in. We formalise a framework for this environment design process in which learner and expert repeatedly interact, and construct algorithms that actively seek information about the rewards by carefully curating environments for the human to demonstrate the task in.
翻訳日:2022-10-28 13:00:16 公開日:2022-10-26
# 対向ロバスト性に対する情報理論的視点を用いた遠方的テキスト表現学習

Disentangled Text Representation Learning with Information-Theoretic Perspective for Adversarial Robustness ( http://arxiv.org/abs/2210.14957v1 )

ライセンス: Link先を確認
Jiahao Zhao, Wenji Mao(参考訳) 敵の脆弱性は信頼性の高いNLPシステムを構築する上で大きな障害である。 生の入力テキストに知覚不能な摂動を加えると、深層学習モデルの性能は攻撃によって劇的に低下する可能性がある。 最近の研究は、モデルの敵意的な脆弱性は教師あり訓練における非破壊的な特徴によって引き起こされると主張している。 そこで本稿では, テキスト中の頑健性や非破壊性を明示的に解き明かすことのできる, アンタングル型表現学習の観点から, 対角的頑健性に挑戦する。 具体的には,情報理論における情報(VI)の変化にインスパイアされた,潜伏埋め込みの意味的表現と頑健な特徴と非破壊的な特徴の区別の両方を表現するために,相互情報からなる非絡み合い学習目標を導出する。 そこで我々は,これらの相互情報を推定するために,絡み合った学習ネットワークを設計する。 テキスト分類とエンターテイメントタスクの実験から,本手法は敵攻撃時の代表手法を著しく上回り,非破壊的特徴の破棄が敵の強靭性向上に不可欠であることが示唆された。

Adversarial vulnerability remains a major obstacle to constructing reliable NLP systems. When imperceptible perturbations are added to raw input text, the performance of a deep learning model may drop dramatically under attacks. Recent work argues the adversarial vulnerability of the model is caused by the non-robust features in supervised training. Thus in this paper, we tackle the adversarial robustness challenge from the view of disentangled representation learning, which is able to explicitly disentangle robust and non-robust features in text. Specifically, inspired by the variation of information (VI) in information theory, we derive a disentangled learning objective composed of mutual information to represent both the semantic representativeness of latent embeddings and differentiation of robust and non-robust features. On the basis of this, we design a disentangled learning network to estimate these mutual information. Experiments on text classification and entailment tasks show that our method significantly outperforms the representative methods under adversarial attacks, indicating that discarding non-robust features is critical for improving adversarial robustness.
翻訳日:2022-10-28 12:51:49 公開日:2022-10-26
# MABEL:テキストエンターメントデータを用いたジェンダーバイアスの緩和

MABEL: Attenuating Gender Bias using Textual Entailment Data ( http://arxiv.org/abs/2210.14975v1 )

ライセンス: Link先を確認
Jacqueline He, Mengzhou Xia, Christiane Fellbaum, Danqi Chen(参考訳) 事前学習された言語モデルは望ましくない社会的バイアスを符号化する。 そこで本稿では,文脈化表現における性バイアス緩和のための中間事前学習手法であるmabel (a a method for a gender bias using entailment labels)を提案する。 我々のアプローチの鍵となるのは、自然言語推論(NLI)データセットから、非現実的に強化されたジェンダーバランス付きエンターメントペアに対して、対照的な学習目標を使用することである。 また、同一のエンテーメントペアをジェンダーの方向に近い方向に引き出すアライメント正規化器も導入する。 我々は本質的および極端なメトリクスに対するアプローチを広範囲に評価し、mabelがフェアネスの観点からタスク非依存なデバイアスアプローチよりも優れていることを示した。 ダウンストリームタスクの微調整後のタスクパフォーマンスも維持する。 これらの結果から,nliデータのバイアス緩和効果は,文献にラベルのない文のみを用いた場合と異なり,妥当性が示された。 最後に、既存のアプローチでは、不十分あるいは一貫性のない評価設定が頻繁に使用される。 我々は,従来の手法を再現し,比較するために努力し,将来的な比較のために,ジェンダーデバイアス法で評価設定を統一するよう呼びかけている。

Pre-trained language models encode undesirable social biases, which are further exacerbated in downstream use. To this end, we propose MABEL (a Method for Attenuating Gender Bias using Entailment Labels), an intermediate pre-training approach for mitigating gender bias in contextualized representations. Key to our approach is the use of a contrastive learning objective on counterfactually augmented, gender-balanced entailment pairs from natural language inference (NLI) datasets. We also introduce an alignment regularizer that pulls identical entailment pairs along opposite gender directions closer. We extensively evaluate our approach on intrinsic and extrinsic metrics, and show that MABEL outperforms previous task-agnostic debiasing approaches in terms of fairness. It also preserves task performance after fine-tuning on downstream tasks. Together, these findings demonstrate the suitability of NLI data as an effective means of bias mitigation, as opposed to only using unlabeled sentences in the literature. Finally, we identify that existing approaches often use evaluation settings that are insufficient or inconsistent. We make an effort to reproduce and compare previous methods, and call for unifying the evaluation settings across gender debiasing methods for better future comparison.
翻訳日:2022-10-28 12:51:29 公開日:2022-10-26
# 事前学習型多言語ニューラル機械翻訳モデルのロバスト領域適応

Robust Domain Adaptation for Pre-trained Multilingual Neural Machine Translation Models ( http://arxiv.org/abs/2210.14979v1 )

ライセンス: Link先を確認
Mathieu Grosso, Pirashanth Ratnamogan, Alexis Mathey, William Vanhuffel, Michael Fotso Fotso(参考訳) 近年の文献は、マルチリンガルニューラルネットワーク(mNMT)モデルの可能性を示している。 しかし、最も効率的なモデルは専門産業には適していない。 これらのケースでは、すべての言語ペアで内部データを見つけるのが困難で費用がかかる。 したがって、特殊領域上のmNMTモデルを微調整するのは困難である。 事前訓練されたmnmtモデルのドメイン適応 1対の言語に対して、すべての言語ペアの汎用ドメインデータに対するモデル品質を維持しながら、事前訓練済みのmnmtモデルを1対の言語に適応させること。 ジェネリックドメインと他のペアの損失のリスクが高い。 このタスクは、業界におけるmNMTモデル採用の鍵であり、他の多くの人たちとの国境にあります。 本稿では,組込み凍結と対向損失を組み合わせた汎用mNMTの微調整手法を提案する。 提案手法は,WMT と Tatoeba のデータセットに対して +10.0 BLEU スコア,WMT と M2M100 のデータセットに対して-0.01 BLEU から -0.5 BLEU スコア)に比べて,全ての言語対の汎用ドメインの初期性能を最小限に損なうことなく,特殊データの性能を向上させることを実証した。

Recent literature has demonstrated the potential of multilingual Neural Machine Translation (mNMT) models. However, the most efficient models are not well suited to specialized industries. In these cases, internal data is scarce and expensive to find in all language pairs. Therefore, fine-tuning a mNMT model on a specialized domain is hard. In this context, we decided to focus on a new task: Domain Adaptation of a pre-trained mNMT model on a single pair of language while trying to maintain model quality on generic domain data for all language pairs. The risk of loss on generic domain and on other pairs is high. This task is key for mNMT model adoption in the industry and is at the border of many others. We propose a fine-tuning procedure for the generic mNMT that combines embeddings freezing and adversarial loss. Our experiments demonstrated that the procedure improves performances on specialized data with a minimal loss in initial performances on generic domain for all languages pairs, compared to a naive standard approach (+10.0 BLEU score on specialized data, -0.01 to -0.5 BLEU on WMT and Tatoeba datasets on the other pairs with M2M100).
翻訳日:2022-10-28 12:51:09 公開日:2022-10-26
# エンド・ツー・エンドとニューロシンボリック視覚言語推論システムの一般化

Generalization Differences between End-to-End and Neuro-Symbolic Vision-Language Reasoning Systems ( http://arxiv.org/abs/2210.15037v1 )

ライセンス: Link先を確認
Wang Zhu, Jesse Thomason, Robin Jia(参考訳) 視覚・言語推論タスクでは、完全接続性、エンドツーエンド法、ハイブリッド型ニューロシンボリック法の両方が高い分配性能を実現している。 分散のどの設定が各パラダイムに優れているか? 本研究では,複数画像の問合せ,コントラストセット,合成一般化,クロスベンチマーク変換の4種類の一般化テストを通して,単一画像と複数画像の視覚的問合せを問う。 視覚と言語によるエンドツーエンドのトレーニングシステムは、これらのテスト全体で大きなパフォーマンス低下を示す。 ニューロシンボリック法は、GQAからVQAへのクロスベンチマーク転送にさらに苦しむが、他の一般化テストでは精度が低下し、数発の訓練で性能が向上する。 全体として,これらの2つのパラダイムの相補的な利点を示し,分散シフトに対するモデルのロバスト性を完全に特徴付けるために,多種多様な一般化テストを使うことの重要性を強調した。

For vision-and-language reasoning tasks, both fully connectionist, end-to-end methods and hybrid, neuro-symbolic methods have achieved high in-distribution performance. In which out-of-distribution settings does each paradigm excel? We investigate this question on both single-image and multi-image visual question-answering through four types of generalization tests: a novel segment-combine test for multi-image queries, contrast set, compositional generalization, and cross-benchmark transfer. Vision-and-language end-to-end trained systems exhibit sizeable performance drops across all these tests. Neuro-symbolic methods suffer even more on cross-benchmark transfer from GQA to VQA, but they show smaller accuracy drops on the other generalization tests and their performance quickly improves by few-shot training. Overall, our results demonstrate the complementary benefits of these two paradigms, and emphasize the importance of using a diverse suite of generalization tests to fully characterize model robustness to distribution shift.
翻訳日:2022-10-28 12:43:13 公開日:2022-10-26
# fad-vlp: 統一検索とキャプション化に向けたファッションビジョンと言語事前学習

FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified Retrieval and Captioning ( http://arxiv.org/abs/2210.15028v1 )

ライセンス: Link先を確認
Suvir Mirchandani, Licheng Yu, Mengjiao Wang, Animesh Sinha, Wenwen Jiang, Tao Xiang, Ning Zhang(参考訳) ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めているが、視覚と言語の学習に挑戦する。 参照画像とユーザからのテキストフィードバックが与えられたファッションアイテムを取得する。 マルチモーダルファッションタスクの以前の作業は、個々のベンチマークのデータによって制限されていたり、汎用的な視覚と言語による事前学習を利用したりしたが、ファッションデータの特徴を活用できなかったりしている。 加えて、これらの作品は主にマルチモーダル理解タスクに制限されている。 これらのギャップに対処するため、私たちは2つの重要な貢献をします。 まず,ファッションイメージテキストペアから構築した,弱い教師付き三重項に基づく新しいファッション特化事前学習フレームワークを提案する。 3重項に基づくタスクは、標準的なマルチモーダル事前トレーニングタスクに効果的な追加であることを示す。 次に,ファッション検索とキャプション処理の両方が可能なフレキシブルデコーダベースのモデルアーキテクチャを提案する。 私たちのモデル設計と事前学習のアプローチは、クロスモーダル検索、テキストフィードバックによる画像検索、画像キャプション、相対的な画像キャプション、マルチモーダル分類など、さまざまなファッションタスクで競合しています。

Multimodal tasks in the fashion domain have significant potential for e-commerce, but involve challenging vision-and-language learning problems - e.g., retrieving a fashion item given a reference image plus text feedback from a user. Prior works on multimodal fashion tasks have either been limited by the data in individual benchmarks, or have leveraged generic vision-and-language pre-training but have not taken advantage of the characteristics of fashion data. Additionally, these works have mainly been restricted to multimodal understanding tasks. To address these gaps, we make two key contributions. First, we propose a novel fashion-specific pre-training framework based on weakly-supervised triplets constructed from fashion image-text pairs. We show the triplet-based tasks are an effective addition to standard multimodal pre-training tasks. Second, we propose a flexible decoder-based model architecture capable of both fashion retrieval and captioning tasks. Together, our model design and pre-training approach are competitive on a diverse set of fashion tasks, including cross-modal retrieval, image retrieval with text feedback, image captioning, relative image captioning, and multimodal categorization.
翻訳日:2022-10-28 12:42:19 公開日:2022-10-26
# Sparse Latent Typingによる言語モデルの事前学習

Language Model Pre-Training with Sparse Latent Typing ( http://arxiv.org/abs/2210.12582v2 )

ライセンス: Link先を確認
Liliang Ren, Zixuan Zhang, Han Wang, Clare R. Voss, Chengxiang Zhai, Heng Ji(参考訳) 現代の大規模事前学習言語モデル(plm)は、幅広い下流タスクで大きな成功を収めている。 しかし、LM事前学習の目的の多くはテキスト再構成にのみ焦点を合わせているが、文の潜在レベル解釈可能な表現を学習しようとはしていない。 本稿では,新しい事前学習目標であるsparse latent typingを提案することで,文の理解を深めるために言語モデルを押し進め,多種多様な潜在型を持つ文レベルのキーワードをスパース抽出できるようにする。 実験の結果,本モデルは外部の知識を使わずに,自己教師付きで解釈可能な潜在型カテゴリを学習できることがわかった。 さらに、このような目的により事前学習された言語モデルは、教師付きおよび少数ショット設定の両方において、情報抽出に関連するダウンストリームタスクを大幅に改善する。 私たちのコードは、https://github.com/renll/SparseLT.comで公開されています。

Modern large-scale Pre-trained Language Models (PLMs) have achieved tremendous success on a wide range of downstream tasks. However, most of the LM pre-training objectives only focus on text reconstruction, but have not sought to learn latent-level interpretable representations of sentences. In this paper, we manage to push the language models to obtain a deeper understanding of sentences by proposing a new pre-training objective, Sparse Latent Typing, which enables the model to sparsely extract sentence-level keywords with diverse latent types. Experimental results show that our model is able to learn interpretable latent type categories in a self-supervised manner without using any external knowledge. Besides, the language model pre-trained with such an objective also significantly improves Information Extraction related downstream tasks in both supervised and few-shot settings. Our code is publicly available at: https://github.com/renll/SparseLT.
翻訳日:2022-10-28 12:33:24 公開日:2022-10-26
# DyREx: 抽出質問応答のための動的クエリ表現

DyREx: Dynamic Query Representation for Extractive Question Answering ( http://arxiv.org/abs/2210.15048v1 )

ライセンス: Link先を確認
Urchade Zaratiana and Niama El Khbir and Dennis N\'u\~nez and Pierre Holat and Nadi Tomeh and Thierry Charnois(参考訳) 抽出質問応答(ExQA)は自然言語処理に不可欠な課題である。 ExQAの主流のアプローチは、入力シーケンストークン(クエクションとパス)を事前訓練されたトランスフォーマーで表現し、2つの学習されたクエリベクトルを使用して、開始と終了の応答のスパン位置の分布を計算することである。 これらのクエリベクトルは入力のコンテキストを欠いているため、モデルのパフォーマンスのボトルネックとなる可能性がある。 この問題に対処するために,変換器層を通したアテンション機構を用いて,入力されたクエリベクトルを動的に計算する, \textit{DyREx} アプローチの一般化を提案する。 実証的な観察は、我々のアプローチが標準よりも一貫してパフォーマンスを向上させることを示している。 実験を実行するためのコードと添付ファイルは \url{https://github.com/urchade/DyReX} で入手できる。

Extractive question answering (ExQA) is an essential task for Natural Language Processing. The dominant approach to ExQA is one that represents the input sequence tokens (question and passage) with a pre-trained transformer, then uses two learned query vectors to compute distributions over the start and end answer span positions. These query vectors lack the context of the inputs, which can be a bottleneck for the model performance. To address this problem, we propose \textit{DyREx}, a generalization of the \textit{vanilla} approach where we dynamically compute query vectors given the input, using an attention mechanism through transformer layers. Empirical observations demonstrate that our approach consistently improves the performance over the standard one. The code and accompanying files for running the experiments are available at \url{https://github.com/urchade/DyReX}.
翻訳日:2022-10-28 12:32:50 公開日:2022-10-26
# アクセシビリティのためのマシン"アンダーフェルス"に対する視覚的質問応答の違いは何か?

What's Different between Visual Question Answering for Machine "Understanding" Versus for Accessibility? ( http://arxiv.org/abs/2210.14966v1 )

ライセンス: Link先を確認
Yang Trista Cao, Kyle Seelman, Kyungjun Lee, Hal Daum\'e III(参考訳) 視覚質問応答(vqa)では、機械は関連する画像から質問に答えなければならない。 近年、アクセシビリティ研究者は、視覚障害者が周囲を捉えて質問することで環境を学習する現実世界でVQAを展開できるかどうかを調査している。 しかしながら、VQAの既存のベンチマークデータセットのほとんどは、マシンの"理解"に焦点を当てており、これらのデータセットの進捗が、この現実世界のユースケースの改善にどのように対応するかは、まだ不明である。 我々は,様々なVQAモデルを評価することにより,マシンの"理解"データセット(VQA-v2)とアクセシビリティデータセット(VizWiz)の相違性を評価することで,この問題に対処することを目指している。 本稿では,VQAにおけるアクセシビリティの機会と課題について考察し,今後の研究の方向性を提案する。

In visual question answering (VQA), a machine must answer a question given an associated image. Recently, accessibility researchers have explored whether VQA can be deployed in a real-world setting where users with visual impairments learn about their environment by capturing their visual surroundings and asking questions. However, most of the existing benchmarking datasets for VQA focus on machine "understanding" and it remains unclear how progress on those datasets corresponds to improvements in this real-world use case. We aim to answer this question by evaluating discrepancies between machine "understanding" datasets (VQA-v2) and accessibility datasets (VizWiz) by evaluating a variety of VQA models. Based on our findings, we discuss opportunities and challenges in VQA for accessibility and suggest directions for future work.
翻訳日:2022-10-28 12:17:13 公開日:2022-10-26
# スコアベース拡散を用いた全帯域一般音声合成

Full-band General Audio Synthesis with Score-based Diffusion ( http://arxiv.org/abs/2210.14661v1 )

ライセンス: Link先を確認
Santiago Pascual, Gautam Bhattacharya, Chunghsin Yeh, Jordi Pons, Joan Serr\`a(参考訳) 近年の研究では、単一のラベルから一般的な音声合成に取り組み、様々な衝動音、調音、環境音を生成する深層生成モデルの能力が示されている。 このようなモデルは帯域制限信号で動作し、自己回帰的なアプローチにより、通常、訓練済みの潜伏エンコーダやいくつかのカスケードモジュールで適合する。 本研究では,波形領域における全帯域信号の終端処理を行うDAGという一般音声合成のための拡散型生成モデルを提案する。 その結果, DAGはラベル付きジェネレータよりも品質と多様性の両面で優れていることがわかった。 より具体的には、現状と比較すると、バンド限定版とフルバンド版のdagはそれぞれ40と65%の相対的な改善を達成している。 DAGは、良質な合成を提供しながら、異なる条件付けスキーマに対応するのに十分な柔軟性があると考えています。

Recent works have shown the capability of deep generative models to tackle general audio synthesis from a single label, producing a variety of impulsive, tonal, and environmental sounds. Such models operate on band-limited signals and, as a result of an autoregressive approach, they are typically conformed by pre-trained latent encoders and/or several cascaded modules. In this work, we propose a diffusion-based generative model for general audio synthesis, named DAG, which deals with full-band signals end-to-end in the waveform domain. Results show the superiority of DAG over existing label-conditioned generators in terms of both quality and diversity. More specifically, when compared to the state of the art, the band-limited and full-band versions of DAG achieve relative improvements that go up to 40 and 65%, respectively. We believe DAG is flexible enough to accommodate different conditioning schemas while providing good quality synthesis.
翻訳日:2022-10-27 16:19:59 公開日:2022-10-26
# 垂直フェデレート学習のためのコアセット:正規化線形回帰と$k$-meansクラスタリング

Coresets for Vertical Federated Learning: Regularized Linear Regression and $K$-Means Clustering ( http://arxiv.org/abs/2210.14664v1 )

ライセンス: Link先を確認
Lingxiao Huang, Zhize Li, Jialin Sun, Haoyu Zhao(参考訳) データ特徴を複数のパーティに分散的に格納する垂直連合学習(VFL)は、機械学習において重要な分野である。 しかしながら、VFLの通信の複雑さは一般的に非常に高い。 本稿では,通信効率の高いvflのための分散型コアセットの構築による統一フレームワークを提案する。 我々は、vfl設定における2つの重要な学習タスク、正規化線形回帰と$k$-meansクラスタリングを研究し、両方の問題にcoresetフレームワークを適用する。 理論上,コアセットの使用は通信の複雑さを劇的に軽減すると同時に,ソリューションの品質をほぼ維持できることを示す。 理論的知見を補うために数値実験を行った。

Vertical federated learning (VFL), where data features are stored in multiple parties distributively, is an important area in machine learning. However, the communication complexity for VFL is typically very high. In this paper, we propose a unified framework by constructing coresets in a distributed fashion for communication-efficient VFL. We study two important learning tasks in the VFL setting: regularized linear regression and $k$-means clustering, and apply our coreset framework to both problems. We theoretically show that using coresets can drastically alleviate the communication complexity, while nearly maintain the solution quality. Numerical experiments are conducted to corroborate our theoretical findings.
翻訳日:2022-10-27 16:19:45 公開日:2022-10-26
# 離散pdesにおける神経閉鎖モデルの比較

Comparison of neural closure models for discretised PDEs ( http://arxiv.org/abs/2210.14675v1 )

ライセンス: Link先を確認
Hugo Melchers, Daan Crommelin, Barry Koren, Vlado Menkovski, Benjamin Sanderse(参考訳) 近年,ニューラルネットワークを用いたマルチスケールシステムにおいて,小さなスケールを効率的に近似する手法として,ニューラルクロージャモデルが提案されている。 損失関数の選択と関連するトレーニング手順は、結果として生じる神経閉鎖モデルの精度と安定性に大きな影響を及ぼす。 本研究では,「導出的適合性」,「軌道的適合性」,「離散的最適化」,「軌道的適合性」の3つの異なる手順を体系的に比較した。 導出的フィッティングは概念的には最も単純で計算学的に最も効率的なアプローチであり、テスト問題の一つ(Kuramoto-Sivashinsky)では合理的に機能するが、他方(Burgers)では不十分である。 軌道フィッティングは計算コストが高いが、より堅牢であり、したがって好ましいアプローチである。 2つの軌道フィッティング手順のうち、離散化最適化アプローチは、最適化最適化最適化アプローチよりも正確なモデルを生成する。 最適化・then-discretiseアプローチはまだ正確なモデルを生成することができるが、トレーニング中に適度に正確な勾配を生成しながら、長期的行動に関するモデルを訓練するために、トレーニングに使用される軌道の長さを選択することに注意する必要がある。 既存の2つの定理は、その短期的正確性に基づいて、神経閉鎖モデルの長期的な正確性に関する洞察を与える新しい方法で解釈される。

Neural closure models have recently been proposed as a method for efficiently approximating small scales in multiscale systems with neural networks. The choice of loss function and associated training procedure has a large effect on the accuracy and stability of the resulting neural closure model. In this work, we systematically compare three distinct procedures: "derivative fitting", "trajectory fitting" with discretise-then-optimise, and "trajectory fitting" with optimise-then-discretise. Derivative fitting is conceptually the simplest and computationally the most efficient approach and is found to perform reasonably well on one of the test problems (Kuramoto-Sivashinsky) but poorly on the other (Burgers). Trajectory fitting is computationally more expensive but is more robust and is therefore the preferred approach. Of the two trajectory fitting procedures, the discretise-then-optimise approach produces more accurate models than the optimise-then-discretise approach. While the optimise-then-discretise approach can still produce accurate models, care must be taken in choosing the length of the trajectories used for training, in order to train the models on long-term behaviour while still producing reasonably accurate gradients during training. Two existing theorems are interpreted in a novel way that gives insight into the long-term accuracy of a neural closure model based on how accurate it is in the short term.
翻訳日:2022-10-27 16:19:31 公開日:2022-10-26
# ポルトガル語音声感情認識のための事前学習音声ニューラルネットワーク

Pretrained audio neural networks for Speech emotion recognition in Portuguese ( http://arxiv.org/abs/2210.14716v1 )

ライセンス: Link先を確認
Marcelo Matheus Gauy and Marcelo Finger(参考訳) 音声感情認識(SER)の目的は、音声の感情的側面を特定することである。 ブラジルポルトガル語のSER課題は、ポルトガル語の短いスニペットを用いて提案され、これは、パラ言語的要素(笑、泣くなど)によって中性、非中性、非中性男性に分類される。 このデータセットにはブラジルポルトガル語のスピーチの約50ドル分が含まれている。 データセットが小さい側に傾くにつれて、転送学習とデータ拡張技術の組み合わせがポジティブな結果を生み出すことができるかどうかを調べる。 したがって、SpecAugmentと呼ばれるデータ拡張技術と、伝送学習のための事前学習型音声ニューラルネットワーク(PANN)を組み合わせることで、興味深い結果を得ることができる。 PANN(CNN6、CNN10、CNN14)は、5,000ドル以上のオーディオを含むAudioSetと呼ばれる大規模なデータセットで事前トレーニングされている。 これらはSERデータセットに基づいて微調整され、検証セット上で最高のパフォーマンスモデル(CNN10)がチャレンジに提出され、チャレンジによって提供されたベースラインから0.54ドルから0.73ドル上昇した。 さらに,ブラジルのポルトガル語音声データ約600ドルを前提としたトランスフォーマリンアーキテクチャの使用試験も行った。 変換器はPANN(CNN14)のより複雑なモデルと同様に、SERデータセットのテストセットに一般化できず、ベースラインを破らない。 データセットサイズが制限されていることを考えると、SERの現在の最善のアプローチはPANN(特にCNN6とCNN10)を使用することである。

The goal of speech emotion recognition (SER) is to identify the emotional aspects of speech. The SER challenge for Brazilian Portuguese speech was proposed with short snippets of Portuguese which are classified as neutral, non-neutral female and non-neutral male according to paralinguistic elements (laughing, crying, etc). This dataset contains about $50$ minutes of Brazilian Portuguese speech. As the dataset leans on the small side, we investigate whether a combination of transfer learning and data augmentation techniques can produce positive results. Thus, by combining a data augmentation technique called SpecAugment, with the use of Pretrained Audio Neural Networks (PANNs) for transfer learning we are able to obtain interesting results. The PANNs (CNN6, CNN10 and CNN14) are pretrained on a large dataset called AudioSet containing more than $5000$ hours of audio. They were finetuned on the SER dataset and the best performing model (CNN10) on the validation set was submitted to the challenge, achieving an $F1$ score of $0.73$ up from $0.54$ from the baselines provided by the challenge. Moreover, we also tested the use of Transformer neural architecture, pretrained on about $600$ hours of Brazilian Portuguese audio data. Transformers, as well as more complex models of PANNs (CNN14), fail to generalize to the test set in the SER dataset and do not beat the baseline. Considering the limitation of the dataset sizes, currently the best approach for SER is using PANNs (specifically, CNN6 and CNN10).
翻訳日:2022-10-27 16:19:07 公開日:2022-10-26
# 共同トレリス構造とチャネル事前による畳み込み符号用ハイブリッドHMMデコーダ

Hybrid HMM Decoder For Convolutional Codes By Joint Trellis-Like Structure and Channel Prior ( http://arxiv.org/abs/2210.14749v1 )

ライセンス: Link先を確認
Haoyu Li, Xuan Wang, Tong Liu, Dingyi Fang, Baoying Liu(参考訳) 無線リンクの対干渉能力は、エッジコンピューティングにおける物理層問題である。 畳み込み符号は、データに導入された冗長性に起因する固有誤差補正電位を持つが、畳み込み符号の性能は、チャネル上のマルチパス効果により劇的に低下する。 本稿では,畳み込み符号の再構成とビタビアルゴリズムによる復号化に隠れマルコフモデル(hmm)を用いることを提案する。 さらに、ソフト決定復号化を実現するため、HMMの観測はガウス混合モデル(GMM)に置き換えられる。 モデルパラメータはチャネル状態情報(CSI)を含むため,本手法は標準手法よりも優れた誤差補正電位を提供する。 数値シミュレーションにより, 標準のビタビ復号法と比較し, 性能評価を行った。 マルチパスチャネルにおいて、ハイブリッドHMMデコーダはハード・ディクシジョンとソフト・ディクシジョン・デコーダを用いてそれぞれ4.7dBと2dBの性能向上を達成することができる。 HMMデコーダはRCC符号の大幅な性能向上も達成しており、ターボ符号に拡張可能であることを示唆している。

The anti-interference capability of wireless links is a physical layer problem for edge computing. Although convolutional codes have inherent error correction potential due to the redundancy introduced in the data, the performance of the convolutional code is drastically degraded due to multipath effects on the channel. In this paper, we propose the use of a Hidden Markov Model (HMM) for the reconstruction of convolutional codes and decoding by the Viterbi algorithm. Furthermore, to implement soft-decision decoding, the observation of HMM is replaced by Gaussian mixture models (GMM). Our method provides superior error correction potential than the standard method because the model parameters contain channel state information (CSI). We evaluated the performance of the method compared to standard Viterbi decoding by numerical simulation. In the multipath channel, the hybrid HMM decoder can achieve a performance gain of 4.7 dB and 2 dB when using hard-decision and soft-decision decoding, respectively. The HMM decoder also achieves significant performance gains for the RSC code, suggesting that the method could be extended to turbo codes.
翻訳日:2022-10-27 16:18:42 公開日:2022-10-26
# 逆問題の縮小次数モデルにおける機械学習パイプラインに向けて:境界パラメトリゼーション、次元縮小、解多様体近似のためのニューラルネットワーク

Towards a machine learning pipeline in reduced order modelling for inverse problems: neural networks for boundary parametrization, dimensionality reduction and solution manifold approximation ( http://arxiv.org/abs/2210.14764v1 )

ライセンス: Link先を確認
Anna Ivagnes, Nicola Demo, Gianluigi Rozza(参考訳) 本研究では,非侵襲的条件下での逆問題に対処するモデルオーダー削減フレームワークを提案する。 逆問題、特に偏微分方程式の文脈では、反復最適化プロセスによる膨大な計算負荷を必要とする。 このような手順を加速するために,問題の境界条件をパラメータ化するためにニューラルネットワークを用いた数値パイプラインを適用し,(フルオーダー)スナップショットの次元を圧縮し,パラメトリック解多様体を近似する。 これは、入江境界のアドホックパラメータ化を提供することのできる一般的な枠組みを導出し、モデル次数削減により最適解に素早く収束する。 本報告では,2種類のCFD試験事例に適用して得られた結果について述べる。

In this work, we propose a model order reduction framework to deal with inverse problems in a non-intrusive setting. Inverse problems, especially in a partial differential equation context, require a huge computational load due to the iterative optimization process. To accelerate such a procedure, we apply a numerical pipeline that involves artificial neural networks to parametrize the boundary conditions of the problem in hand, compress the dimensionality of the (full-order) snapshots, and approximate the parametric solution manifold. It derives a general framework capable to provide an ad-hoc parametrization of the inlet boundary and quickly converges to the optimal solution thanks to model order reduction. We present in this contribution the results obtained by applying such methods to two different CFD test cases.
翻訳日:2022-10-27 16:18:23 公開日:2022-10-26
# 非線形システム同定のための深部部分空間エンコーダ

Deep Subspace Encoders for Nonlinear System Identification ( http://arxiv.org/abs/2210.14816v1 )

ライセンス: Link先を確認
Gerben I. Beintema, Maarten Schoukens, Roland T\'oth(参考訳) 非線形システム同定にArtificial Neural Networks (ANN) を用いることは有望なアプローチであることが証明されているが、最近の研究成果にもかかわらず、多くの実用的および理論的問題が未解決のままである。 具体的には、ノイズハンドリングとモデル、予測誤差の最小化による一貫性と信頼性評価の問題が最も深刻な問題である。 後者には、データサンプルの数や最適化中の不安定性の発生の観点から計算コストの爆発など、多くの実践的な課題がある。 本稿では,減算予測損失と状態推定のための部分空間エンコーダを用いた手法を提案することで,この問題を克服することを目的とする。 時系列から複数の切断された部分を選択して平均予測損失を算出することにより、切断予測損失を算出する。 減算予測損失を最小限に抑える計算効率の高い推定方法を得るため、ニューラルネットワークで表される部分空間エンコーダを導入する。 このエンコーダは、推定モデルの状態再構成可能性マップを近似して、過去の入力と出力が与えられた各トランケートされたサブセクションの初期状態を提供する。 理論的解析により,提案手法は局所的に一貫した条件下で最適化安定性を向上し,各部分間の重複を許容してデータ効率の向上を実現する。 最後に,実例と最先端ベンチマーク結果を用いた実践的洞察とユーザガイドラインを提供する。

Using Artificial Neural Networks (ANN) for nonlinear system identification has proven to be a promising approach, but despite of all recent research efforts, many practical and theoretical problems still remain open. Specifically, noise handling and models, issues of consistency and reliable estimation under minimisation of the prediction error are the most severe problems. The latter comes with numerous practical challenges such as explosion of the computational cost in terms of the number of data samples and the occurrence of instabilities during optimization. In this paper, we aim to overcome these issues by proposing a method which uses a truncated prediction loss and a subspace encoder for state estimation. The truncated prediction loss is computed by selecting multiple truncated subsections from the time series and computing the average prediction loss. To obtain a computationally efficient estimation method that minimizes the truncated prediction loss, a subspace encoder represented by an artificial neural network is introduced. This encoder aims to approximate the state reconstructability map of the estimated model to provide an initial state for each truncated subsection given past inputs and outputs. By theoretical analysis, we show that, under mild conditions, the proposed method is locally consistent, increases optimization stability, and achieves increased data efficiency by allowing for overlap between the subsections. Lastly, we provide practical insights and user guidelines employing a numerical example and state-of-the-art benchmark results.
翻訳日:2022-10-27 16:18:09 公開日:2022-10-26
# 任意の量子過程を予測する学習

Learning to predict arbitrary quantum processes ( http://arxiv.org/abs/2210.14894v1 )

ライセンス: Link先を確認
Hsin-Yuan Huang, Sitan Chen, John Preskill(参考訳) 我々は、未知の量子プロセスである$\mathcal{E}$ over $n$ qubitsを予測するための効率的な機械学習(ML)アルゴリズムを提案する。 任意の $n$-qubit 状態に対して $\mathcal{d}$ の幅広い分布に対して、このml アルゴリズムは、$\mathcal{d}$ から引き出された入力状態よりも小さい平均誤差で、未知のプロセス $\mathcal{e}$ から出力の任意の局所的性質を予測できることを示す。 mlアルゴリズムは、未知のプロセスが指数関数的に多くのゲートを持つ量子回路であっても計算効率が高い。 本アルゴリズムは,未知状態の性質を学習し,未知観測量に対する低次近似を学習するための効率的な手順を組み合わせる。 この分析は、古典的ボネンブラスト・ヒル不等式(英語版)の量子アナログを含む新しいノルム不等式を証明し、局所ハミルトニアンを最適化するための改良されたアルゴリズムを提供することで導かれる。 その結果,MLモデルが複雑な量子力学の出力を,プロセス自体の実行時間よりもはるかに高速に予測できる可能性が示された。

We present an efficient machine learning (ML) algorithm for predicting any unknown quantum process $\mathcal{E}$ over $n$ qubits. For a wide range of distributions $\mathcal{D}$ on arbitrary $n$-qubit states, we show that this ML algorithm can learn to predict any local property of the output from the unknown process $\mathcal{E}$, with a small average error over input states drawn from $\mathcal{D}$. The ML algorithm is computationally efficient even when the unknown process is a quantum circuit with exponentially many gates. Our algorithm combines efficient procedures for learning properties of an unknown state and for learning a low-degree approximation to an unknown observable. The analysis hinges on proving new norm inequalities, including a quantum analogue of the classical Bohnenblust-Hille inequality, which we derive by giving an improved algorithm for optimizing local Hamiltonians. Overall, our results highlight the potential for ML models to predict the output of complex quantum dynamics much faster than the time needed to run the process itself.
翻訳日:2022-10-27 16:17:36 公開日:2022-10-26
# NeuralSearchX: マルチ言語メタ検索のためのマルチビリオンパラメータリランカを低コストで実現

NeuralSearchX: Serving a Multi-billion-parameter Reranker for Multilingual Metasearch at a Low Cost ( http://arxiv.org/abs/2210.14837v1 )

ライセンス: Link先を確認
Thales Sales Almeida, Thiago Laitz, Jo\~ao Ser\'odio, Luiz Henrique Bonifacio, Roberto Lotufo, Rodrigo Nogueira(参考訳) 検索API(無料と商用の両方)が広く利用可能になったことにより、メタサーチエンジンの検索結果のカバレッジと品質が向上し、クローリングとインデックス化のインフラのメンテナンスコストが低下する。 しかしながら、マージ戦略はしばしば注意深いチューニングを必要とする複雑なパイプラインで構成されており、文献では見過ごされることが多い。 本稿では,検索結果をマージし,文章をハイライトする多目的大規模格付けモデルに基づくメタサーチエンジンであるNeuralSearchXについて述べる。 アーキテクチャの均質性のため、最適化の取り組みをひとつのコンポーネントに集中することが可能です。 われわれのシステムとMicrosoftのバイオメディカルサーチを比較して、我々の設計選択が競争力のあるQPSを持つよりコスト効率の高いシステムに繋がったことを示し、幅広い公開ベンチマークで最先端の結果に近づいた。 ドメイン固有の2つのタスクに対する人間による評価は,検索システムがnDCG@10スコアにおいて,Google APIよりも優れていたことを示している。 アーキテクチャと実装の詳細を説明することで、コミュニティがデザインの選択に基づいて構築されることを願っています。 このシステムはhttps://neuralsearchx.nsx.aiで利用可能である。

The widespread availability of search API's (both free and commercial) brings the promise of increased coverage and quality of search results for metasearch engines, while decreasing the maintenance costs of the crawling and indexing infrastructures. However, merging strategies frequently comprise complex pipelines that require careful tuning, which is often overlooked in the literature. In this work, we describe NeuralSearchX, a metasearch engine based on a multi-purpose large reranking model to merge results and highlight sentences. Due to the homogeneity of our architecture, we could focus our optimization efforts on a single component. We compare our system with Microsoft's Biomedical Search and show that our design choices led to a much cost-effective system with competitive QPS while having close to state-of-the-art results on a wide range of public benchmarks. Human evaluation on two domain-specific tasks shows that our retrieval system outperformed Google API by a large margin in terms of nDCG@10 scores. By describing our architecture and implementation in detail, we hope that the community will build on our design choices. The system is available at https://neuralsearchx.nsx.ai.
翻訳日:2022-10-27 16:11:49 公開日:2022-10-26
# 典型的な医用画像分割作業のパフォーマンス推定はどの程度正確か?

How precise are performance estimates for typical medical image segmentation tasks? ( http://arxiv.org/abs/2210.14677v1 )

ライセンス: Link先を確認
Rosana El Jurdi and Olivier Colliot(参考訳) 医用画像処理における重要な課題は、アルゴリズムの性能だけでなく、これらの性能の推定精度も推定できることである。 報告精度は通常、平均(SEM)の標準エラーの報告または同等の信頼区間に相当する。 しかし、医用画像分割研究ではほとんど行われない。 本稿では,このような研究で期待できる典型的な信頼度を推定することを目的とする。 そこで本研究では,標準深層学習モデル(u-net)と医学的セグメンテーション・デカスロンによる古典的タスクを用いて,diceメトリック推定実験を行った。 ガウス仮定とブートストラップ(分布の仮定を必要としない)の両方を用いて精度推定を広範囲に検討した。 次に、他のテストセットのサイズと性能のスプレッドをシミュレーションします。 本研究は,小テストセットが20サンプルに対してDiceの6点当たりの信頼区間を広く得ること,および2より狭い信頼区間を得るためには,少なくとも200個のテストサンプルを持つことが必要であることを示す。

An important issue in medical image processing is to be able to estimate not only the performances of algorithms but also the precision of the estimation of these performances. Reporting precision typically amounts to reporting standard-error of the mean (SEM) or equivalently confidence intervals. However, this is rarely done in medical image segmentation studies. In this paper, we aim to estimate what is the typical confidence that can be expected in such studies. To that end, we first perform experiments for Dice metric estimation using a standard deep learning model (U-net) and a classical task from the Medical Segmentation Decathlon. We extensively study precision estimation using both Gaussian assumption and bootstrapping (which does not require any assumption on the distribution). We then perform simulations for other test set sizes and performance spreads. Overall, our work shows that small test sets lead to wide confidence intervals ($\sim$6 points of Dice for 20 samples) and that, in order to obtain a confidence interval narrower than 2, it is necessary to have at least 200 test samples.
翻訳日:2022-10-27 16:11:31 公開日:2022-10-26
# 分数フォッカー・プランク方程式に対する適応的深部密度近似

Adaptive deep density approximation for fractional Fokker-Planck equations ( http://arxiv.org/abs/2210.14402v1 )

ライセンス: Link先を確認
Li Zeng, Xiaoliang Wan and Tao Zhou(参考訳) 本研究では,Fokker-Planck方程式(FPE)を解くための正規化フローに基づく適応型ディープラーニング手法を提案する。 FPEの解は確率密度関数(PDF)である。 従来のメッシュベースの手法は、非有界な計算領域、多数の次元、非局所分数演算子により非効率である。 この目的のために,フローベースの深層生成モデルである simple krnet によって誘導される明示的なpdfモデルを用いて,簡単な分布から対象分布へのトランスポートマップを構築する。 分数ラプラシアンを近似する2つの方法を考える。 1つの方法はモンテカルロ近似である。 もう一つの方法は、ガウス半径基底関数 (GRBF) を持つ補助モデルを構築し、ガウスの分数ラプラシアンが解析的に知られているという事実を生かして解を近似することである。 これらの2種類のラプラシアン近似法に基づいて, MCNF と GRBFNF の2つのモデルを提案し, 定常FPE と MCTNF の近似時間依存FPE を提案する。 さらに精度を向上させるため,トレーニングセットと近似解を交互に洗練する。 適応的な深部密度アプローチの有効性を示すために, 様々な数値例を示す。

In this work, we propose adaptive deep learning approaches based on normalizing flows for solving fractional Fokker-Planck equations (FPEs). The solution of a FPE is a probability density function (PDF). Traditional mesh-based methods are ineffective because of the unbounded computation domain, a large number of dimensions and the nonlocal fractional operator. To this end, we represent the solution with an explicit PDF model induced by a flow-based deep generative model, simplified KRnet, which constructs a transport map from a simple distribution to the target distribution. We consider two methods to approximate the fractional Laplacian. One method is the Monte Carlo approximation. The other method is to construct an auxiliary model with Gaussian radial basis functions (GRBFs) to approximate the solution such that we may take advantage of the fact that the fractional Laplacian of a Gaussian is known analytically. Based on these two different ways for the approximation of the fractional Laplacian, we propose two models, MCNF and GRBFNF, to approximate stationary FPEs and MCTNF to approximate time-dependent FPEs. To further improve the accuracy, we refine the training set and the approximate solution alternately. A variety of numerical examples is presented to demonstrate the effectiveness of our adaptive deep density approaches.
翻訳日:2022-10-27 16:10:38 公開日:2022-10-26
# Bitcoin詐欺検知のための注意に基づく長期記憶フレームワーク

An Attention-based Long Short-Term Memory Framework for Detection of Bitcoin Scams ( http://arxiv.org/abs/2210.14408v1 )

ライセンス: Link先を確認
Puyang Zhao, Wei Tian, Lefu Xiao, Xinhui Liu, Jingjin Wu(参考訳) Bitcoinはサイバー詐欺に関わる最も一般的な暗号通貨だ。 サイバー犯罪者はしばしば、Bitcoin取引に関連する偽名とプライバシー保護メカニズムを利用して、詐欺を事実上追跡不能にする。 PonziスキームはBitcoin詐欺活動で特に注目を集めている。 本稿では、トランザクションがPonziスキームや他のサイバー詐欺に関与しているかどうかを判定するマルチクラス分類問題について考察する。 本研究では,データ収集のための特別設計のクローラを設計し,Attention-based Long Short-Term Memory (A-LSTM)法を提案する。 実験結果から,提案モデルは,ランダムフォレスト,エクストラツリー,グラディエントブースティング,古典LSTMなど,既存のアプローチよりも効率と精度がよいことが示された。 A-LSTMは,スカムの特徴を正しく同定することにより,元のデータに対して82%以上のF1スコアを達成し,既存手法よりも優れる。

Bitcoin is the most common cryptocurrency involved in cyber scams. Cybercriminals often utilize pseudonymity and privacy protection mechanism associated with Bitcoin transactions to make their scams virtually untraceable. The Ponzi scheme has attracted particularly significant attention among Bitcoin fraudulent activities. This paper considers a multi-class classification problem to determine whether a transaction is involved in Ponzi schemes or other cyber scams, or is a non-scam transaction. We design a specifically designed crawler to collect data and propose a novel Attention-based Long Short-Term Memory (A-LSTM) method for the classification problem. The experimental results show that the proposed model has better efficiency and accuracy than existing approaches, including Random Forest, Extra Trees, Gradient Boosting, and classical LSTM. With correctly identified scam features, our proposed A-LSTM achieves an F1-score over 82% for the original data and outperforms the existing approaches.
翻訳日:2022-10-27 16:10:14 公開日:2022-10-26
# SCP-GAN:音声強調課題における訓練一貫性保持基準GANのための自己補正判別器最適化

SCP-GAN: Self-Correcting Discriminator Optimization for Training Consistency Preserving Metric GAN on Speech Enhancement Tasks ( http://arxiv.org/abs/2210.14474v1 )

ライセンス: Link先を確認
Vasily Zadorozhnyy and Qiang Ye and Kazuhito Koishida(参考訳) 近年,GAN(Generative Adversarial Networks)は,音声強調(SE)タスクの大幅な改善を実現している。 しかし、訓練は難しい。 本稿では,多くのGANベースSEモデルに適用可能なGANトレーニングスキームの改良について紹介する。 フーリエ変換と逆フーリエ変換による時間領域と時間領域の不整合を対象とする一貫性損失関数を用いることを提案する。 また,SEタスク上でGAN識別器を訓練するための自己補正最適化も提案し,識別器損失関数の一部に対する「有害な」訓練方向の回避を支援する。 我々は,最先端のganベースseモデル上で提案手法をテストし,音声バンク+オンデマンドデータセットの最新の結果を含む一貫した改善を行った。

In recent years, Generative Adversarial Networks (GANs) have produced significantly improved results in speech enhancement (SE) tasks. They are difficult to train, however. In this work, we introduce several improvements to the GAN training schemes, which can be applied to most GAN-based SE models. We propose using consistency loss functions, which target the inconsistency in time and time-frequency domains caused by Fourier and Inverse Fourier Transforms. We also present self-correcting optimization for training a GAN discriminator on SE tasks, which helps avoid "harmful" training directions for parts of the discriminator loss function. We have tested our proposed methods on several state-of-the-art GAN-based SE models and obtained consistent improvements, including new state-of-the-art results for the Voice Bank+DEMAND dataset.
翻訳日:2022-10-27 16:09:59 公開日:2022-10-26
# 音声強調のための注意機構を有する並列ゲートニューラルネットワーク

Parallel Gated Neural Network With Attention Mechanisim For Speech Enhancement ( http://arxiv.org/abs/2210.14509v1 )

ライセンス: Link先を確認
Jianqiao Cui, Stefan Bleeck(参考訳) 深層学習アルゴリズムは、音声強調(SE)にますます使われている。 教師付き手法では、正確なスペクトルマッピングにはグローバルおよびローカル情報が必要である。 鍵となる制限は、しばしば重要な文脈情報の取り込みが貧弱である。 対象話者の長期的活用とクリーン音声の歪み補償のために,シーケンス・ツー・シーケンス(S2S)マッピング構造を採用し,特徴抽出ブロック(FEB),補償拡張ブロック(ComEB),マスクブロック(MB)からなる新しいモノラル音声強調システムを提案する。 FEBにおいて、U-netブロックを用いて複合値スペクトルを用いて抽象的特徴を抽出し、マスキング手法を用いて大域の背景雑音を抑える一方、MBはFEBから大域特徴を採り、ComEBから得られた失われた複素領域特徴を補償して最終的なクリーン化音声を復元する。 Librispeech データセットを用いて実験を行い,提案モデルがESTOI と PESQ のスコアから最近のモデルよりも優れた性能が得られることを示した。

Deep learning algorithm are increasingly used for speech enhancement (SE). In supervised methods, global and local information is required for accurate spectral mapping. A key restriction is often poor capture of key contextual information. To leverage long-term for target speakers and compensate distortions of cleaned speech, this paper adopts a sequence-to-sequence (S2S) mapping structure and proposes a novel monaural speech enhancement system, consisting of a Feature Extraction Block (FEB), a Compensation Enhancement Block (ComEB) and a Mask Block (MB). In the FEB a U-net block is used to extract abstract features using complex-valued spectra with one path to suppress the background noise in the magnitude domain using masking methods and the MB takes magnitude features from the FEBand compensates the lost complex-domain features produced from ComEB to restore the final cleaned speech. Experiments are conducted on the Librispeech dataset and results show that the proposed model obtains better performance than recent models in terms of ESTOI and PESQ scores.
翻訳日:2022-10-27 16:09:45 公開日:2022-10-26
# スライディング置換不変トレーニングによる各種音源の位置追跡

Position tracking of a varying number of sound sources with sliding permutation invariant training ( http://arxiv.org/abs/2210.14536v1 )

ライセンス: Link先を確認
David Diaz-Guerra, Archontis Politis and Tuomas Virtanen(参考訳) 近年,データおよび学習に基づく音源定位法 (SSL) は,難解な音響シナリオにおいて高い性能を示した。 しかし、このような手法を適用して、実際に起こるような、連続して現れる複数のソースを追跡できるような作業はほとんど行われていない。 本稿では,前回の時間フレームにおける推定位置と参照位置の最適関係の平均2乗誤差に基づいて,簡単な実装による深層学習型SSLモデルのトレーニング戦略を提案する。 トラッキングシステムの望ましい特性を最適化する: 時間変化したソースの処理と、その軌跡に応じて位置推定を順序付けし、IDS(IDS)を最小化する。 複数の残響移動源と2つのモデルアーキテクチャのシミュレーションデータの評価は、フレームワイドのローカライゼーション精度を損なうことなく、アイデンティティスイッチの低減に有効であることを示す。

Recent data- and learning-based sound source localization (SSL) methods have shown strong performance in challenging acoustic scenarios. However, little work has been done on adapting such methods to track consistently multiple sources appearing and disappearing, as would occur in reality. In this paper, we present a new training strategy for deep learning SSL models with a straightforward implementation based on the mean squared error of the optimal association between estimated and reference positions in the preceding time frames. It optimizes the desired properties of a tracking system: handling a time-varying number of sources and ordering localization estimates according to their trajectories, minimizing identity switches (IDSs). Evaluation on simulated data of multiple reverberant moving sources and on two model architectures proves its effectiveness on reducing identity switches without compromising frame-wise localization accuracy.
翻訳日:2022-10-27 16:09:24 公開日:2022-10-26
# 適応マージンと適応スケールを用いた音響単語識別のためのディープメトリック学習

Deep Metric Learning with Adaptive Margin and Adaptive Scale for Acoustic Word Discrimination ( http://arxiv.org/abs/2210.14564v1 )

ライセンス: Link先を確認
Myunghun Jung, Hoirin Kim(参考訳) 深度学習における近年の損失関数の多くは対数的および指数的形式で表現され、その辺縁とスケールは必須のハイパーパラメータである。 各データクラスは固有の特性を持つため、適応的マージンを導入して実分布に近い埋め込み空間を学習しようと試みている。 しかし、適応スケールについてはまったく作業がなかった。 トレーニングの間、マージンとスケールは適応的に調整可能であるべきだ、と我々は主張する。 本稿では,適応マージンとスケールのハイパーパラメータを学習可能な適応マージンパラメータと適応マージンのパラメータに置き換える適応マージンとスケール(adams)という手法を提案する。 提案手法はwall street journalのデータセット上で評価され,単語識別タスクにおいて有意な結果が得られる。

Many recent loss functions in deep metric learning are expressed with logarithmic and exponential forms, and they involve margin and scale as essential hyper-parameters. Since each data class has an intrinsic characteristic, several previous works have tried to learn embedding space close to the real distribution by introducing adaptive margins. However, there was no work on adaptive scales at all. We argue that both margin and scale should be adaptively adjustable during the training. In this paper, we propose a method called Adaptive Margin and Scale (AdaMS), where hyper-parameters of margin and scale are replaced with learnable parameters of adaptive margins and adaptive scales for each class. Our method is evaluated on Wall Street Journal dataset, and we achieve outperforming results for word discrimination tasks.
翻訳日:2022-10-27 16:09:11 公開日:2022-10-26
# スペックル脆弱性とアタック検出のための静的およびマイクロアーキテクチャMLに基づくアプローチ

Short Paper: Static and Microarchitectural ML-Based Approaches For Detecting Spectre Vulnerabilities and Attacks ( http://arxiv.org/abs/2210.14452v1 )

ライセンス: Link先を確認
Chidera Biringa, Gaspard Baye and G\"okhan Kul(参考訳) spectre侵入は、現代のプロセッサにおける投機的実行設計の脆弱性を悪用する。 この攻撃は、未許可のユーザー情報を得るためにプログラムの分離原則に違反している。 現在の最先端検出技術は、これらの脅威を検出するために、マイクロアーキテクチャの特徴または弱い投機コードを利用する。 しかし、これらの手法は、スペクトル攻撃が電流緩和機構をバイパスする最近発見された変種によりよりステルス的であることが証明されたため、不十分である。 サイドチャネルはプロセッサキャッシュに異なるパターンを生成し、機密情報漏洩はspectre攻撃に脆弱なソースコードに依存する。 これまでの研究は主に、反応的アプローチである微小構造解析を用いて、スペクター攻撃の検出にアプローチしていた。 そこで,本稿では,静的およびマイクロアーキテクチャ解析支援機械学習手法を用いた,初めて包括的評価を行い,spectre脆弱性コードスニペット(予防的)とspectre攻撃(反応性)を検出する。 我々はSpectreの脆弱性や攻撃を検出するために分類器を用いた場合のパフォーマンストレードオフを評価する。

Spectre intrusions exploit speculative execution design vulnerabilities in modern processors. The attacks violate the principles of isolation in programs to gain unauthorized private user information. Current state-of-the-art detection techniques utilize micro-architectural features or vulnerable speculative code to detect these threats. However, these techniques are insufficient as Spectre attacks have proven to be more stealthy with recently discovered variants that bypass current mitigation mechanisms. Side-channels generate distinct patterns in processor cache, and sensitive information leakage is dependent on source code vulnerable to Spectre attacks, where an adversary uses these vulnerabilities, such as branch prediction, which causes a data breach. Previous studies predominantly approach the detection of Spectre attacks using the microarchitectural analysis, a reactive approach. Hence, in this paper, we present the first comprehensive evaluation of static and microarchitectural analysis-assisted machine learning approaches to detect Spectre vulnerable code snippets (preventive) and Spectre attacks (reactive). We evaluate the performance trade-offs in employing classifiers for detecting Spectre vulnerabilities and attacks.
翻訳日:2022-10-27 16:02:17 公開日:2022-10-26
# 不確実性に基づくロバストレーダ追跡のためのメタ強化学習

Uncertainty-based Meta-Reinforcement Learning for Robust Radar Tracking ( http://arxiv.org/abs/2210.14532v1 )

ライセンス: Link先を確認
Julius Ott, Lorenzo Servadei, Gianfranco Mauro, Thomas Stadelmayer, Avik Santra, Robert Wille(参考訳) 今日では、Deep Learning(DL)メソッドは、従来の信号処理アプローチの限界を克服することが多い。 それでも、DL法は現実の応用にはほとんど適用されない。 これは主に、トレーニングデータとテストデータの間のロバスト性や分散シフトの制限によるものだ。 この目的のために、近年の研究は信頼性を高めるための不確実性メカニズムを提案している。 メタラーニングはDLモデルの一般化能力の向上を目的としている。 そこで本研究では,不確実性に基づくメタ強化学習(Meta-RL)手法を提案する。 提案手法は,未知の環境で与えられたタスクを実行し,その複雑性に関する情報を提供する。 これは、推定報酬について第1および第2次統計量を決定することによって行われる。 その複雑さに関する情報を用いて、提案アルゴリズムはトラッキングの信頼性を指摘することができる。 提案手法を評価するために,レーダ追跡データセットでベンチマークを行う。 そこで,本手法は,f1-scoreの72%でoodデータを検出する際に,ピーク性能が16%,ベースラインが35%の未検出の追跡シナリオにおいて,関連するmeta-rlアプローチよりも優れることを示す。 本手法は環境変化に対して堅牢であり,OODシナリオを確実に検出する。

Nowadays, Deep Learning (DL) methods often overcome the limitations of traditional signal processing approaches. Nevertheless, DL methods are barely applied in real-life applications. This is mainly due to limited robustness and distributional shift between training and test data. To this end, recent work has proposed uncertainty mechanisms to increase their reliability. Besides, meta-learning aims at improving the generalization capability of DL models. By taking advantage of that, this paper proposes an uncertainty-based Meta-Reinforcement Learning (Meta-RL) approach with Out-of-Distribution (OOD) detection. The presented method performs a given task in unseen environments and provides information about its complexity. This is done by determining first and second-order statistics on the estimated reward. Using information about its complexity, the proposed algorithm is able to point out when tracking is reliable. To evaluate the proposed method, we benchmark it on a radar-tracking dataset. There, we show that our method outperforms related Meta-RL approaches on unseen tracking scenarios in peak performance by 16% and the baseline by 35% while detecting OOD data with an F1-Score of 72%. This shows that our method is robust to environmental changes and reliably detects OOD scenarios.
翻訳日:2022-10-27 16:01:58 公開日:2022-10-26
# 実用的マイ・ショット・クェリ・セットに向けて:トランスダクティブ・最小記述長推論

Towards Practical Few-Shot Query Sets: Transductive Minimum Description Length Inference ( http://arxiv.org/abs/2210.14545v1 )

ライセンス: Link先を確認
S\'egol\`ene Martin (OPIS, CVN), Malik Boudiaf (ETS), Emilie Chouzenoux (OPIS, CVN), Jean-Christophe Pesquet (OPIS, CVN), Ismail Ben Ayed (ETS)(参考訳) 標準の少数ショットベンチマークは、クエリセットの仮定を単純化することに基づいて構築されることが多い。 特に、テスト時の各タスクについて、ラベルなしのクエリ集合に効果的に存在するクラスは優先順位として知られ、ラベル付きサポートセットで表されるクラスの集合と正確に対応している。 これらの仮定を緩和し、現在のベンチマークを拡張して、与えられたタスクのクエリセットクラスが未知になるようにします。 我々の設定は、非常に不均衡なKウェイ分類の挑戦的かつ実践的な問題の一例であり、Kは標準ベンチマークで一般的に使用される値よりもはるかに大きい。 予想通り、私たちの設定は最先端のメソッドのパフォーマンスを低下させます。 これらの観察に動機づけられた本研究では,データフィッティング精度とモデル複雑性のバランスを,サポートセットからの監督制約の下でバランスさせるプライマルな双対最小記述長(paddle)の定式化を導入する。 制約付きmdlライクな目標は,可能な多数のクラス間の競争を促進し,少数のタスクのデータに適合する有効なクラスのみを保持する。 ハイパーパラメータフリーであり、どんなベースクラスのトレーニングにも適用できる。 さらに,各反復における収束保証と線形計算複雑性を考慮し,目的を最適化するための高速ブロック座標降下アルゴリズムを導出する。 標準のマイナショットデータセットとより現実的で挑戦的なi-natデータセットに関する包括的な実験は、タスク内の可能なクラスの数が増加するほど、我々のメソッドの競争力の高い性能を示している。 私たちのコードはhttps://github.com/SegoleneMartin/PADDLEで公開されています。

Standard few-shot benchmarks are often built upon simplifying assumptions on the query sets, which may not always hold in practice. In particular, for each task at testing time, the classes effectively present in the unlabeled query set are known a priori, and correspond exactly to the set of classes represented in the labeled support set. We relax these assumptions and extend current benchmarks, so that the query-set classes of a given task are unknown, but just belong to a much larger set of possible classes. Our setting could be viewed as an instance of the challenging yet practical problem of extremely imbalanced K-way classification, K being much larger than the values typically used in standard benchmarks, and with potentially irrelevant supervision from the support set. Expectedly, our setting incurs drops in the performances of state-of-the-art methods. Motivated by these observations, we introduce a PrimAl Dual Minimum Description LEngth (PADDLE) formulation, which balances data-fitting accuracy and model complexity for a given few-shot task, under supervision constraints from the support set. Our constrained MDL-like objective promotes competition among a large set of possible classes, preserving only effective classes that befit better the data of a few-shot task. It is hyperparameter free, and could be applied on top of any base-class training. Furthermore, we derive a fast block coordinate descent algorithm for optimizing our objective, with convergence guarantee, and a linear computational complexity at each iteration. Comprehensive experiments over the standard few-shot datasets and the more realistic and challenging i-Nat dataset show highly competitive performances of our method, more so when the numbers of possible classes in the tasks increase. Our code is publicly available at https://github.com/SegoleneMartin/PADDLE.
翻訳日:2022-10-27 16:01:43 公開日:2022-10-26
# 多層ネットワークにおける運動量加速度を用いた階層型連合学習

Hierarchical Federated Learning with Momentum Acceleration in Multi-Tier Networks ( http://arxiv.org/abs/2210.14560v1 )

ライセンス: Link先を確認
Zhengjie Yang, Sen Fu, Wei Bao, Dong Yuan, and Albert Y. Zomaya(参考訳) 本稿では,トレーニング加速に運動量を適用した3階層の労働者エッジクラウドフェデレーション学習アルゴリズムであるHierMo(Hierarchical Federated Learning with Momentum Acceleration)を提案する。 モーメントは計算され、3層に集約される。 ヒエルモの収束解析を行い, o(1/t) の収束率を示す。 分析では,モデル集約,運動量集約,それらの相互作用を特徴付ける新しい手法を開発した。 この結果に基づいて、hiermo は運動量のない hierfavg よりも強い収束上限を達成することが証明される。 また,トレーニング時間に制限がある場合の損失を最小限に抑えるために,集約期間を最適化するHierOPTを提案する。

In this paper, we propose Hierarchical Federated Learning with Momentum Acceleration (HierMo), a three-tier worker-edge-cloud federated learning algorithm that applies momentum for training acceleration. Momentum is calculated and aggregated in the three tiers. We provide convergence analysis for HierMo, showing a convergence rate of O(1/T). In the analysis, we develop a new approach to characterize model aggregation, momentum aggregation, and their interactions. Based on this result, {we prove that HierMo achieves a tighter convergence upper bound compared with HierFAVG without momentum}. We also propose HierOPT, which optimizes the aggregation periods (worker-edge and edge-cloud aggregation periods) to minimize the loss given a limited training time.
翻訳日:2022-10-27 16:01:12 公開日:2022-10-26
# 両レベル変分排他モデルを用いた排他的交通エージェントによる計画

Planning with Occluded Traffic Agents using Bi-Level Variational Occlusion Models ( http://arxiv.org/abs/2210.14584v1 )

ライセンス: Link先を確認
Filippos Christianos, Peter Karkus, Boris Ivanovic, Stefano V. Albrecht, Marco Pavone(参考訳) 邪魔された交通エージェントによる推論は、自動運転車の計画にとって大きな挑戦である。 近年の深層学習モデルでは,近在の目に見えるエージェントの行動に基づくオクルードエージェントの予測が目覚ましい結果となっているが,実験結果のように下流計画への統合は困難である。 この目的のために,まず隠蔽剤の位置を予測し,隠蔽剤の軌道を推定する2段階生成モデルであるBi-level Variational Occlusion Models (BiVO)を提案する。 既存の手法とは対照的に、bivoは軌道分布を出力し、それをサンプル化して標準下流計画に組み込むことができる。 本手法を実世界のnuScenesデータセットを用いてクローズドループ再生シミュレーションで評価する。 以上の結果から,bivoはオクルードエージェントの軌跡予測に成功し,これらの予測は重要なシナリオにおける後続動作計画の改善に繋がることが示唆された。

Reasoning with occluded traffic agents is a significant open challenge for planning for autonomous vehicles. Recent deep learning models have shown impressive results for predicting occluded agents based on the behaviour of nearby visible agents; however, as we show in experiments, these models are difficult to integrate into downstream planning. To this end, we propose Bi-level Variational Occlusion Models (BiVO), a two-step generative model that first predicts likely locations of occluded agents, and then generates likely trajectories for the occluded agents. In contrast to existing methods, BiVO outputs a trajectory distribution which can then be sampled from and integrated into standard downstream planning. We evaluate the method in closed-loop replay simulation using the real-world nuScenes dataset. Our results suggest that BiVO can successfully learn to predict occluded agent trajectories, and these predictions lead to better subsequent motion plans in critical scenarios.
翻訳日:2022-10-27 16:00:58 公開日:2022-10-26
# 確率密度比重み付けによるグラフフィルタの転送

Graph Filter Transfer via Probability Density Ratio Weighting ( http://arxiv.org/abs/2210.14633v1 )

ライセンス: Link先を確認
Koki Yamada(参考訳) グラフ信号の回復問題は、グラフ信号処理における主要なトピックの1つである。 この問題に対する代表的なアプローチはグラフワイナーフィルタであり、歴史データから算出された目標信号の統計情報を利用して効果的な推定器を構築する。 しかし、トポロジーの変化によって現在のグラフが過去のデータと異なる状況に陥り、推定器の性能が低下することが多い。 本稿では,トポロジ変化による履歴データから有効推定器を学習するグラフフィルタ転送手法を提案する。 提案手法は,現在および過去の観測値の確率密度比を活用し,現在のグラフ領域における再構成誤差を最小化する推定器を構成する。 合成データを用いた実験は,提案手法が他の手法よりも優れていることを示す。

The problem of recovering graph signals is one of the main topics in graph signal processing. A representative approach to this problem is the graph Wiener filter, which utilizes the statistical information of the target signal computed from historical data to construct an effective estimator. However, we often encounter situations where the current graph differs from that of historical data due to topology changes, leading to performance degradation of the estimator. This paper proposes a graph filter transfer method, which learns an effective estimator from historical data under topology changes. The proposed method leverages the probability density ratio of the current and historical observations and constructs an estimator that minimizes the reconstruction error in the current graph domain. The experiment on synthetic data demonstrates that the proposed method outperforms other methods.
翻訳日:2022-10-27 16:00:42 公開日:2022-10-26
# 次世代MLモデルサービスのためのDesiderata

Desiderata for next generation of ML model serving ( http://arxiv.org/abs/2210.14665v1 )

ライセンス: Link先を確認
Sherif Akoush, Andrei Paleyes, Arnaud Van Looveren and Clive Cox(参考訳) 推論はMLソフトウェアインフラの重要な部分です。 様々な推論フレームワークが利用可能であるにもかかわらず、フィールド全体が初期の段階で考慮できる。 本稿では,次世代の推論プラットフォームが目指すべき重要な品質について述べる。 我々は,各品質の重要性の理論的根拠を提示し,その実現方法について議論する。 包括的な設計パターンはデータ中心性であり、MLシステム操作におけるよりスマートな監視を可能にする。

Inference is a significant part of ML software infrastructure. Despite the variety of inference frameworks available, the field as a whole can be considered in its early days. This paper puts forth a range of important qualities that next generation of inference platforms should be aiming for. We present our rationale for the importance of each quality, and discuss ways to achieve it in practice. An overarching design pattern is data-centricity, which enables smarter monitoring in ML system operation.
翻訳日:2022-10-27 16:00:30 公開日:2022-10-26
# AD-DMKDE:密度行列とフーリエ特徴による異常検出

AD-DMKDE: Anomaly Detection through Density Matrices and Fourier Features ( http://arxiv.org/abs/2210.14796v1 )

ライセンス: Link先を確認
Oscar Bustos-Brinez, Joseph Gallego-Mejia, Fabio A. Gonz\'alez(参考訳) 本稿では,密度行列(量子力学の強力な数学的形式)とフーリエ特徴を用いた異常検出のための新しい密度推定法を提案する。 この方法はカーネル密度推定(KDE)の効率的な近似と見なすことができる。 提案手法を, 各種データセット上での11種類の最先端異常検出手法と体系的に比較し, 異なるベンチマークデータセット上での競合性能を示す。 このメソッドは効率的にトレーニングされ、最適化を使ってデータ埋め込みのパラメータを見つける。 提案アルゴリズムの予測位相の複雑さは, トレーニングデータサイズに対して一定であり, 異なる異常率のデータセットにおいて良好に機能する。 そのアーキテクチャはベクトル化を可能にし、gpu/tpuハードウェアに実装できる。

This paper presents a novel density estimation method for anomaly detection using density matrices (a powerful mathematical formalism from quantum mechanics) and Fourier features. The method can be seen as an efficient approximation of Kernel Density Estimation (KDE). A systematic comparison of the proposed method with eleven state-of-the-art anomaly detection methods on various data sets is presented, showing competitive performance on different benchmark data sets. The method is trained efficiently and it uses optimization to find the parameters of data embedding. The prediction phase complexity of the proposed algorithm is constant relative to the training data size, and it performs well in data sets with different anomaly rates. Its architecture allows vectorization and can be implemented on GPU/TPU hardware.
翻訳日:2022-10-27 16:00:25 公開日:2022-10-26
# MLデータ処理の非集約化の1例

A case for disaggregation of ML data processing ( http://arxiv.org/abs/2210.14826v1 )

ライセンス: Link先を確認
Andrew Audibert, Yang Chen, Dan Graur, Ana Klimovic, Jiri Simsa and Chandramohan A. Thekkath(参考訳) 機械学習(ml)計算は、モデルが取り込むための入力データを供給する必要がある。 従来、入力データ処理はML計算と同じホスト上で行われる。 しかし、データを処理するリソースが十分に不足している場合、入力データ処理はml計算のボトルネックとなる可能性がある。 これにより、ML計算の速度が低下し、ML計算で使用されるMLハードウェア(GPUやTPUなど)が不足する。 本稿では,tf.data上に構築した分散入力データ処理サービスであるtf.data serviceを提案する。 Our work goes beyond describing the design and implementation of a new system which disaggregates preprocessing from ML computation and presents: (1) empirical evidence based on production workloads for the need of disaggregation, as well as quantitative evaluation of the impact disaggregation has on the performance and cost of production workloads, (2) benefits of disaggregation beyond horizontal scaling, (3) analysis of tf.data service's adoption at Google, the lessons learned during building and deploying the system and potential future lines of research opened up by our work. データを水平スケーリングすることで,入力ボトルネックの解消,最大110倍の高速化,最大89倍のジョブコスト削減を実現している。 さらに、tf.dataサービスは、同じデータ処理パイプライン(ハイパーパラメータチューニングジョブなど)でMLジョブ間のデータ共有を通じて、計算再利用をサポートし、パフォーマンスのペナルティを発生せず、全体のリソースコストを削減できることを示す。 最後に、tf.data service advanced featuresが非入力バウンドジョブのパフォーマンスを向上させることを示し、特にtf.data serviceによるコーディネートされたデータ読み込みは最大2倍のスピードアップとnlpジョブのジョブコスト削減をもたらす。

Machine Learning (ML) computation requires feeding input data for the models to ingest. Traditionally, input data processing happens on the same host as the ML computation. The input data processing can however become a bottleneck of the ML computation if there are insufficient resources to process data quickly enough. This slows down the ML computation and wastes valuable and scarce ML hardware (e.g. GPUs and TPUs) used by the ML computation. In this paper, we present tf.data service, a disaggregated input data processing service built on top of tf.data. Our work goes beyond describing the design and implementation of a new system which disaggregates preprocessing from ML computation and presents: (1) empirical evidence based on production workloads for the need of disaggregation, as well as quantitative evaluation of the impact disaggregation has on the performance and cost of production workloads, (2) benefits of disaggregation beyond horizontal scaling, (3) analysis of tf.data service's adoption at Google, the lessons learned during building and deploying the system and potential future lines of research opened up by our work. We demonstrate that horizontally scaling data processing using tf.data service helps remove input bottlenecks, achieving speedups of up to 110x and job cost reductions of up to 89x. We further show that tf.data service can support computation reuse through data sharing across ML jobs with identical data processing pipelines (e.g. hyperparameter tuning jobs), incurring no performance penalty and reducing overall resource cost. Finally, we show that tf.data service advanced features can benefit performance of non-input bound jobs; in particular, coordinated data reads through tf.data service can yield up to 2x speedups and job cost savings for NLP jobs.
翻訳日:2022-10-27 16:00:13 公開日:2022-10-26
# 修正蝶最適化アルゴリズムを用いたエネルギー制約のあるロボットの未知領域探索

Unknown area exploration for robots with energy constraints using a modified Butterfly Optimization Algorithm ( http://arxiv.org/abs/2210.14774v1 )

ライセンス: Link先を確認
Amine Bendahmane and Redouane Tlemsani(参考訳) Butterfly Optimization Algorithm (BOA) は、いくつかの最適化問題で使われている最近のメタヒューリスティックである。 本稿では,クロスオーバー演算子に基づく新しいアルゴリズム(xBOA)を提案し,その結果と最近の文献で紹介されているBOAおよび他の3つの変種との比較を行った。 また,単一ロボットと複数ロボットのシナリオにおいて,メタヒューリスティックスを用いたエネルギー制約による未知領域探索問題を解決する枠組みを提案した。 このフレームワークは、ロボット探査問題に対する様々なメタヒューリスティックのパフォーマンスをベンチマークすることを可能にする。 我々は,この枠組みを検証するためにいくつかの実験を行い,xBOAの有効性と文献でよく知られるメタヒューリスティックスを5つの評価基準で比較した。 BOA と xBOA はこれらすべての基準において最適ではないが、探索時間の観点からはBOA が多くのメタヒューリスティックの優れた代替となり得るのに対し、XBOA は局所最適に頑健であり、適合収束が良好であり、BOA と他の変種よりも優れた探索速度が得られる。

Butterfly Optimization Algorithm (BOA) is a recent metaheuristic that has been used in several optimization problems. In this paper, we propose a new version of the algorithm (xBOA) based on the crossover operator and compare its results to the original BOA and 3 other variants recently introduced in the literature. We also proposed a framework for solving the unknown area exploration problem with energy constraints using metaheuristics in both single- and multi-robot scenarios. This framework allowed us to benchmark the performances of different metaheuristics for the robotics exploration problem. We conducted several experiments to validate this framework and used it to compare the effectiveness of xBOA with wellknown metaheuristics used in the literature through 5 evaluation criteria. Although BOA and xBOA are not optimal in all these criteria, we found that BOA can be a good alternative to many metaheuristics in terms of the exploration time, while xBOA is more robust to local optima; has better fitness convergence; and achieves better exploration rates than the original BOA and its other variants.
翻訳日:2022-10-27 15:53:36 公開日:2022-10-26
# SPQR: 半パラメトリック密度と量子回帰のためのRパッケージ

SPQR: An R Package for Semi-Parametric Density and Quantile Regression ( http://arxiv.org/abs/2210.14482v1 )

ライセンス: Link先を確認
Steven G. Xu, Reetam Majumder and Brian J. Reich(参考訳) 我々はXu と Reich (2021) で半パラメトリック量子化回帰(SPQR)法を実装した R パッケージ SPQR を開発した。 この方法は、ニューラルネットワークを用いたデータ依存関数として重みをモデル化した単調スプラインを用いた柔軟な密度回帰モデルを適用することから始める。 その後、条件密度と量子化過程の見積もりを全て得ることができる。 線形モデルを仮定する多くの量子レグレッションのアプローチとは異なり、SPQRは非線型効果や異なる量子レベルに対する異なる効果を含む共変量と応答分布の事実上の関係を許容する。 spqrの解釈可能性と透明性を高めるために、apley と zhu (2020) が開発したモデル非依存統計を用いて、共変量効果とその分位関数に対する相対的重要性を推定・可視化する。 本稿では、このフレームワークがSPQRでどのように実装されているかを説明し、シミュレーションおよび実データ例を通して、実際にどのようにこのパッケージを使うべきかを説明する。

We develop an R package SPQR that implements the semi-parametric quantile regression (SPQR) method in Xu and Reich (2021). The method begins by fitting a flexible density regression model using monotonic splines whose weights are modeled as data-dependent functions using artificial neural networks. Subsequently, estimates of conditional density and quantile process can all be obtained. Unlike many approaches to quantile regression that assume a linear model, SPQR allows for virtually any relationship between the covariates and the response distribution including non-linear effects and different effects on different quantile levels. To increase the interpretability and transparency of SPQR, model-agnostic statistics developed by Apley and Zhu (2020) are used to estimate and visualize the covariate effects and their relative importance on the quantile function. In this article, we detail how this framework is implemented in SPQR and illustrate how this package should be used in practice through simulated and real data examples.
翻訳日:2022-10-27 15:52:38 公開日:2022-10-26
# SLOPEのためのコーディネートダイス

Coordinate Descent for SLOPE ( http://arxiv.org/abs/2210.14780v1 )

ライセンス: Link先を確認
Johan Larsson, Quentin Klopfenstein, Mathurin Massias, Jonas Wallin(参考訳) ラッソは、最も有名なスパース回帰と特徴選択法である。 その人気の一つは、基礎となる最適化問題を解くことができる速度である。 sorted l-one penalized estimation (slope) はラッソの一般化であり、統計特性に優れている。 それにもかかわらず、この方法はまだ広く関心を集めていない。 主な理由は、SLOPEに適合する現在のソフトウェアパッケージは、高次元において性能の悪いアルゴリズムに依存しているためである。 そこで本研究では,SLOPE最適化問題の解法として,近位勾配降下と近位座標降下を併用した新しい高速アルゴリズムを提案する。 我々は,SLOPEペナルティとその関連SLOPEしきい値演算子の方向性微分に関する新たな結果と,提案した解法に対する収束保証を提供する。 シミュレーションおよび実データに関する広範なベンチマークでは,提案手法が競合するアルゴリズムの長いリストより優れていることを示す。

The lasso is the most famous sparse regression and feature selection method. One reason for its popularity is the speed at which the underlying optimization problem can be solved. Sorted L-One Penalized Estimation (SLOPE) is a generalization of the lasso with appealing statistical properties. In spite of this, the method has not yet reached widespread interest. A major reason for this is that current software packages that fit SLOPE rely on algorithms that perform poorly in high dimensions. To tackle this issue, we propose a new fast algorithm to solve the SLOPE optimization problem, which combines proximal gradient descent and proximal coordinate descent steps. We provide new results on the directional derivative of the SLOPE penalty and its related SLOPE thresholding operator, as well as provide convergence guarantees for our proposed solver. In extensive benchmarks on simulated and real data, we show that our method outperforms a long list of competing algorithms.
翻訳日:2022-10-27 15:52:20 公開日:2022-10-26
# 超解像型パッチフリー3次元医用画像分割法

Super-Resolution Based Patch-Free 3D Medical Image Segmentation with Self-Supervised Guidance ( http://arxiv.org/abs/2210.14645v1 )

ライセンス: Link先を確認
Hongyi Wang, Lanfen Lin, Hongjie Hu, Qingqing Chen, Yinhao Li, Yutaro Iwamoto, Xian-Hua Han, Yen-Wei Chen, Ruofeng Tong(参考訳) 高分解能3次元画像分割は臨床診断において重要な役割を担っている。 しかし、ビデオメモリが限られているため、メインストリームのグラフィカルカードでHR画像を直接処理することは困難である。 そのため,既存の医用画像分割法では,正確なセグメンテーションに有用で推論効率の低いグローバルコンテキスト情報を無視するパッチベースのモデルが用いられている。 これらの問題に対処するため、我々は、低解像度(LR)入力のグローバル情報とHRセグメンテーションを実現することのできる、パッチフリーな3次元医用画像分割フレームワークを提案する。 このフレームワークにはセマンティックセグメンテーション(メインタスク)とスーパーレゾリューション(補助タスク)の2つのタスクが含まれている。 情報損失とlr入力のバランスをとるために,本研究では,hrパッチを復元指導として抽出する選択的探索法を用いて,自己教師付き誘導モジュール(sgm)を提案する。 HR誘導機能とLR機能とのスケール不整合を緩和するために、マルチスケールの畳み込み層が使用される。 さらに,セグメンテーションとSRタスク間の相互接続を利用するタスクフュージョンモジュール(TFM)を提案する。 このモジュールはテストフェーズファインチューニング(TPF)にも使用することができ、より優れたモデル一般化能力をもたらす。 予測には主セグメンテーションタスクのみが必要であるが、他のモジュールは推論を加速するために削除できる。 実験の結果、2つの異なるデータセットで、我々のフレームワークが現在のパッチベースおよびパッチフリーモデルよりも優れています。 我々のモデルは従来のパッチベースの手法に比べて4倍の推論速度を持つ。 私たちのコードは、https://github.com/Dootmaan/PFSeg-Full.comで利用可能です。

High resolution (HR) 3D medical image segmentation plays an important role in clinical diagnoses. However, HR images are difficult to be directly processed by mainstream graphical cards due to limited video memory. Therefore, most existing 3D medical image segmentation methods use patch-based models, which ignores global context information that is useful in accurate segmentation and has low inference efficiency. To address these problems, we propose a super-resolution (SR) guided patch-free 3D medical image segmentation framework that can realize HR segmentation with global information of low-resolution (LR) input. The framework contains two tasks: semantic segmentation (main task) and super resolution (auxiliary task). To balance the information loss with the LR input, we introduce a Self-Supervised Guidance Module (SGM), which employs a selective search method to crop a HR patch from the original image as restoration guidance. Multi-scale convolutional layers are used to mitigate the scale-inconsistency between the HR guidance features and the LR features. Moreover, we propose a Task-Fusion Module (TFM) to exploit the inter connections between segmentation and SR task. This module can also be used for Test Phase Fine-tuning (TPF), leading to a better model generalization ability. When predicting, only the main segmentation task is needed, while other modules can be removed to accelerate the inference. The experiments results on two different datasets show that our framework outperforms current patch-based and patch-free models. Our model also has a four times higher inference speed compared to traditional patch-based methods. Our codes are available at: https://github.com/Dootmaan/PFSeg-Full.
翻訳日:2022-10-27 15:45:45 公開日:2022-10-26
# TAMFormer: 早期入射予測のための学習注意マスク付きマルチモーダルトランス

TAMFormer: Multi-Modal Transformer with Learned Attention Mask for Early Intent Prediction ( http://arxiv.org/abs/2210.14714v1 )

ライセンス: Link先を確認
Nada Osman and Guglielmo Camporese and Lamberto Ballan(参考訳) 人間の意図予測(Human intention prediction)は、ビデオ内の活動が視覚ベースのシステムによって予測されなければならない研究領域である。 この目的のために、モデルは過去の表現を作成し、その後のシナリオに関する将来の仮説を生成する。 本研究では,現在の都市景観の観測から,歩行者の街路への接近行動を予測する,歩行者の早期意図予測に着目する。 本手法は,過去の観測を符号化し,予測時間が異なる複数の予測を生成するマルチモーダルトランスをベースとする。 さらに,現在および過去の時間依存性を重み付けするために,トランスフォーマベースモデル(Temporal Adaptive Mask Transformer)の注目マスクを学習することを提案する。 本手法は, 早期意図予測のためのいくつかの公開ベンチマークにおいて, 予測時間の違いによる予測性能の向上を図る。

Human intention prediction is a growing area of research where an activity in a video has to be anticipated by a vision-based system. To this end, the model creates a representation of the past, and subsequently, it produces future hypotheses about upcoming scenarios. In this work, we focus on pedestrians' early intention prediction in which, from a current observation of an urban scene, the model predicts the future activity of pedestrians that approach the street. Our method is based on a multi-modal transformer that encodes past observations and produces multiple predictions at different anticipation times. Moreover, we propose to learn the attention masks of our transformer-based model (Temporal Adaptive Mask Transformer) in order to weigh differently present and past temporal dependencies. We investigate our method on several public benchmarks for early intention prediction, improving the prediction performances at different anticipation times compared to the previous works.
翻訳日:2022-10-27 15:45:18 公開日:2022-10-26
# 経頭蓋集束超音波検査における合成CTの有用性の検討

Evaluation of Synthetically Generated CT for use in Transcranial Focused Ultrasound Procedures ( http://arxiv.org/abs/2210.14775v1 )

ライセンス: Link先を確認
Han Liu, Michelle K. Sigona, Thomas J. Manuel, Li Min Chen, Benoit M. Dawant, Charles F. Caskey(参考訳) 経頭蓋集束超音波(transcranial focused ultrasound、tfus)は、頭蓋骨内の音を非侵襲的かつしばしばmri誘導下で小さな領域に集束させる治療的超音波法である。 ct画像は、頭蓋骨ごとに異なる音響特性を推定し、tfus手術中に効果的に焦点を合わせ、患者を潜在的に有害な放射線に晒す。 CTを必要とせずに頭蓋骨内の音響パラメータを推定する方法が望ましい。 そこで我々は,3Dパッチベースの条件付き生成対向ネットワーク(cGAN)を用いて,日常的に取得したT1強調MRIからCT画像を合成し,tFUSを用いた治療計画のための合成CT(sCT)画像の性能評価を行った。 Kranion を用いた tFUS 計画のための sCT と実CT (rCT) 画像を比較し,音響ツールボックス k-Wave を用いたシミュレーションを行った。 3つの tFUS シナリオでシミュレーションを行った。 1)収差補正なし。 2)Kranionから計算した位相による補正 3)時間反転から計算した位相シフト。 また, 頭蓋骨密度比, 頭蓋骨厚およびrctおよびsct間の活性元素数はそれぞれ0.94, 0.92, 0.98であった。 20の目標のうち、rCTとsCTの模擬ピーク圧力の差は位相補正なしで最大(12.4$\pm$8.1%)、Kranion相で最小(7.3$\pm$6.0%)であった。 rCTとsCTのピーク焦点距離は、すべてのシミュレーションケースで1.3mm未満であった。 実際の頭蓋骨と合成された頭蓋骨は、画像の類似性、頭蓋骨の測定、音響シミュレーションのメトリクスと同等であった。 本研究は, tFUS計画のためのMR合成CTに実際のCTを置き換える可能性を示した。 ソースコードとトレーニングされたモデルのdockerイメージは、https://github.com/han-liu/synct_tcmrgfusで入手できる。

Transcranial focused ultrasound (tFUS) is a therapeutic ultrasound method that focuses sound through the skull to a small region noninvasively and often under MRI guidance. CT imaging is used to estimate the acoustic properties that vary between individual skulls to enable effective focusing during tFUS procedures, exposing patients to potentially harmful radiation. A method to estimate acoustic parameters in the skull without the need for CT would be desirable. Here, we synthesized CT images from routinely acquired T1-weighted MRI by using a 3D patch-based conditional generative adversarial network (cGAN) and evaluated the performance of synthesized CT (sCT) images for treatment planning with tFUS. We compared the performance of sCT to real CT (rCT) images for tFUS planning using Kranion and simulations using the acoustic toolbox, k-Wave. Simulations were performed for 3 tFUS scenarios: 1) no aberration correction, 2) correction with phases calculated from Kranion, and 3) phase shifts calculated from time-reversal. From Kranion, skull density ratio, skull thickness, and number of active elements between rCT and sCT had Pearson's Correlation Coefficients of 0.94, 0.92, and 0.98, respectively. Among 20 targets, differences in simulated peak pressure between rCT and sCT were largest without phase correction (12.4$\pm$8.1%) and smallest with Kranion phases (7.3$\pm$6.0%). The distance between peak focal locations between rCT and sCT was less than 1.3 mm for all simulation cases. Real and synthetically generated skulls had comparable image similarity, skull measurements, and acoustic simulation metrics. Our work demonstrates the feasibility of replacing real CTs with the MR-synthesized CT for tFUS planning. Source code and a docker image with the trained model are available at https://github.com/han-liu/SynCT_TcMRgFUS
翻訳日:2022-10-27 15:45:02 公開日:2022-10-26
# AMDを用いた網膜OCTにおけるBruch膜分画の解剖学的先行と不確実性定量化

Segmentation of Bruch's Membrane in retinal OCT with AMD using anatomical priors and uncertainty quantification ( http://arxiv.org/abs/2210.14799v1 )

ライセンス: Link先を確認
Botond Fazekas, Dmitrii Lachinov, Guilherme Aresta, Julia Mai, Ursula Schmidt-Erfurth, Hrvoje Bogunovic(参考訳) bruch's membrane (bm) segmentation on optical coherence tomography (oct) は、先進国における盲目の主要な原因の一つである加齢黄斑変性 (amd) の診断と追跡にとって重要なステップである。 自動BMセグメンテーション法は存在するが、通常は結果の解剖学的コヒーレンスを考慮せず、予測の信頼性に関するフィードバックも提供しない。 これらの要因は、現実のシナリオにおけるこれらのシステムの適用性を制限する。 そこで本研究では,AMD患者に対する自動BMセグメンテーションのためのエンドツーエンドディープラーニング手法を提案する。 注意u-netは、表面の自然曲率を考慮して、bm位置の確率密度関数を出力するように訓練される。 また, サーフェス位置の他に, セグメンテーション出力のAスキャン的不確実性の測定も行う。 その後、不確実性の高いAスキャンを薄板スプライン(TPS)を用いて補間する。 3つのamdステージすべてをカバーする138例の内的データセットについてアブレーション試験を行い,平均絶対位置推定誤差を4.10 umとした。 また,提案手法を最先端法と比較し,異なる患者コホートとoctデバイスから外部に利用可能なデータセットに対して優れた性能を示し,強力な一般化能力を示した。

Bruch's membrane (BM) segmentation on optical coherence tomography (OCT) is a pivotal step for the diagnosis and follow-up of age-related macular degeneration (AMD), one of the leading causes of blindness in the developed world. Automated BM segmentation methods exist, but they usually do not account for the anatomical coherence of the results, neither provide feedback on the confidence of the prediction. These factors limit the applicability of these systems in real-world scenarios. With this in mind, we propose an end-to-end deep learning method for automated BM segmentation in AMD patients. An Attention U-Net is trained to output a probability density function of the BM position, while taking into account the natural curvature of the surface. Besides the surface position, the method also estimates an A-scan wise uncertainty measure of the segmentation output. Subsequently, the A-scans with high uncertainty are interpolated using thin plate splines (TPS). We tested our method with ablation studies on an internal dataset with 138 patients covering all three AMD stages, and achieved a mean absolute localization error of 4.10 um. In addition, the proposed segmentation method was compared against the state-of-the-art methods and showed a superior performance on an external publicly available dataset from a different patient cohort and OCT device, demonstrating strong generalization ability.
翻訳日:2022-10-27 15:44:28 公開日:2022-10-26
# ターゲット話者分離のための登録話者埋め込みの見落とし面に関する定量的証拠

Quantitative Evidence on Overlooked Aspects of Enrollment Speaker Embeddings for Target Speaker Separation ( http://arxiv.org/abs/2210.12635v2 )

ライセンス: Link先を確認
Xiaoyu Liu, Xu Li, Joan Serr\`a(参考訳) 単一チャネル対象話者分離(TSS)は、話者の登録発話を与えられた複数の話者の混合から話者の声を抽出することを目的としている。 典型的なディープラーニングTSSフレームワークは、登録話者埋め込みを取得する上流モデルと、埋め込み上で分離条件を実行する下流モデルで構成されている。 本稿では,広く使用されている話者識別埋め込みの適合性,ログメルフィルタバンクと自己教師型埋め込みの導入,組込みのクロスデータセット一般化機能など,組込みの重要かつ見落とされがちな側面について考察する。 その結果,話者識別の埋め込みは,準最適基準,訓練目標,共通前処理によって関連情報が失われる可能性が示唆された。 対照的に、フィルタバンクと自己教師付き埋め込みは、話者情報の完全性を維持するが、前者は、クロスデータセット評価において、後者を一貫して上回っている。 従来見過ごされていたフィルタバンク埋め込みの競合的分離と一般化性能は,上流機能の改善に関する今後の研究を求める研究全体で一貫している。

Single channel target speaker separation (TSS) aims at extracting a speaker's voice from a mixture of multiple talkers given an enrollment utterance of that speaker. A typical deep learning TSS framework consists of an upstream model that obtains enrollment speaker embeddings and a downstream model that performs the separation conditioned on the embeddings. In this paper, we look into several important but overlooked aspects of the enrollment embeddings, including the suitability of the widely used speaker identification embeddings, the introduction of the log-mel filterbank and self-supervised embeddings, and the embeddings' cross-dataset generalization capability. Our results show that the speaker identification embeddings could lose relevant information due to a sub-optimal metric, training objective, or common pre-processing. In contrast, both the filterbank and the self-supervised embeddings preserve the integrity of the speaker information, but the former consistently outperforms the latter in a cross-dataset evaluation. The competitive separation and generalization performance of the previously overlooked filterbank embedding is consistent across our study, which calls for future research on better upstream features.
翻訳日:2022-10-27 15:44:03 公開日:2022-10-26
# アルゴリズムの判断を生かして人間に助言する学習

Learning to Advise Humans By Leveraging Algorithm Discretion ( http://arxiv.org/abs/2210.12849v2 )

ライセンス: Link先を確認
Nicholas Wolczynski, Maytal Saar-Tsechansky, Tong Wang(参考訳) AI-advised(AIDeT)設定のエキスパート意思決定者(DM)は、最終的な決定を行う前に、AIシステムからのレコメンデーションを受け取り、調整する。 チームのパフォーマンスを効果的に向上するAIDeTモデルを開発する上で重要な、これらの設定の異なる特性を特定します。 第一に、aidet設定のdmはアルゴリズムの判断行動(adb)、すなわち、特定の決定タスクに対するアルゴリズムの推奨を不完全に受け入れ、拒否する傾向を示す。 第2に、DMは、自身の判断に矛盾するAIレコメンデーションを調整する際に、意思決定リソース(例えば、時間と労力)を実行することによって矛盾するコストを発生させる。 第3に、人間の不完全な判断と和解コストは、AIが選択的にアドバイスする必要性をもたらす。 我々はAIDeT設定で人間に助言するAI開発タスクをアドバイスする学習として言及し、まずAIDeT学習フレームワークを導入することでこの問題に対処する。 さらに、人間パートナーのADBを活用することが、矛盾コストを正規化しながらAIDeTの決定精度を最大化する鍵であると主張する。 最後に、ルールベースのモデルとAIDeT設定のレコメンデーションを生成するアルゴリズムであるTeamRules(TR)を開発するためのフレームワークをインスタンス化する。 TRは、人間のパートナーのADBを利用して、人間に選択的に助言し、所定の環境に対する矛盾コストとチームの正確性をトレードオフするように最適化されている。 様々なシミュレーションされた人間の正確性と裁量行動による合成および実世界のベンチマークデータセットの評価は、trが解釈可能なルールベースの代替案よりも、設定全体でチームの目標を堅牢に改善していることを示している。

Expert decision-makers (DMs) in high-stakes AI-advised (AIDeT) settings receive and reconcile recommendations from AI systems before making their final decisions. We identify distinct properties of these settings which are key to developing AIDeT models that effectively benefit team performance. First, DMs in AIDeT settings exhibit algorithm discretion behavior (ADB), i.e., an idiosyncratic tendency to imperfectly accept or reject algorithmic recommendations for any given decision task. Second, DMs incur contradiction costs from exerting decision-making resources (e.g., time and effort) when reconciling AI recommendations that contradict their own judgment. Third, the human's imperfect discretion and reconciliation costs introduce the need for the AI to offer advice selectively. We refer to the task of developing AI to advise humans in AIDeT settings as learning to advise and we address this task by first introducing the AIDeT-Learning Framework. Additionally, we argue that leveraging the human partner's ADB is key to maximizing the AIDeT's decision accuracy while regularizing for contradiction costs. Finally, we instantiate our framework to develop TeamRules (TR): an algorithm that produces rule-based models and recommendations for AIDeT settings. TR is optimized to selectively advise a human and to trade-off contradiction costs and team accuracy for a given environment by leveraging the human partner's ADB. Evaluations on synthetic and real-world benchmark datasets with a variety of simulated human accuracy and discretion behaviors show that TR robustly improves the team's objective across settings over interpretable, rule-based alternatives.
翻訳日:2022-10-27 15:43:43 公開日:2022-10-26
# 会話型短文話者ダイアリゼーションチャレンジのためのツップ話者ダイアリゼーションシステム

TSUP Speaker Diarization System for Conversational Short-phrase Speaker Diarization Challenge ( http://arxiv.org/abs/2210.14653v1 )

ライセンス: Link先を確認
Bowen Pang, Huan Zhao, Gaosheng Zhang, Xiaoyue Yang, Yang Sun, Li Zhang, Qing Wang, Lei Xie(参考訳) 本稿では,ISCSLP 2022の短文話者ダイアリゼーション(CSSD)課題に対するTSUPチームの提案について述べる。 本稿では,スペクトルクラスタリング(sc)に基づくダイアリゼーション,ts-vad(target-speaker voice activity detection),eend(end-to-end neural diarization)の3種類の典型的な話者ダイアリゼーションシステムについて検討する。 主な知見は以下の通りである。 まず、SCアプローチは、新しいCDERメトリックの下での他の2つのアプローチよりも好まれる。 第二に、3種類の話者ダイアリゼーションシステムにおいて、CDERにとってハイパーパラメータのチューニングが不可欠である。 特に、サブセグメントの長さが長くなるとcderは小さくなる。 最後に、DOVER-LAPによるマルチシステム融合により、チャレンジデータのCDERメトリックが悪化する。 提案したSCシステムは最終的に挑戦の3位にランクインする。

This paper describes the TSUP team's submission to the ISCSLP 2022 conversational short-phrase speaker diarization (CSSD) challenge which particularly focuses on short-phrase conversations with a new evaluation metric called conversational diarization error rate (CDER). In this challenge, we explore three kinds of typical speaker diarization systems, which are spectral clustering(SC) based diarization, target-speaker voice activity detection(TS-VAD) and end-to-end neural diarization(EEND) respectively. Our major findings are summarized as follows. First, the SC approach is more favored over the other two approaches under the new CDER metric. Second, tuning on hyperparameters is essential to CDER for all three types of speaker diarization systems. Specifically, CDER becomes smaller when the length of sub-segments setting longer. Finally, multi-system fusion through DOVER-LAP will worsen the CDER metric on the challenge data. Our submitted SC system eventually ranks the third place in the challenge.
翻訳日:2022-10-27 15:42:29 公開日:2022-10-26
# 話者ダイアリゼーションのための強埋め込み抽出器の探索

In search of strong embedding extractors for speaker diarisation ( http://arxiv.org/abs/2210.14682v1 )

ライセンス: Link先を確認
Jee-weon Jung, Hee-Soo Heo, Bong-Jin Lee, Jaesung Huh, Andrew Brown, Youngki Kwon, Shinji Watanabe, Joon Son Chung(参考訳) 話者ダイアリゼーションにおいて、入力音声を話者判別潜在空間にマッピングする話者埋め込み抽出器(EEs)が最重要となる。 しかし、ダイアリゼーションにEEを採用する際にはいくつかの課題があり、そこから2つの重要な問題に取り組みます。 まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。 広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。 第二に、埋め込み抽出器は複数の話者が存在する発話を見ていない。 これらの入力は、重複した音声と話者の変化のため、話者ダイアリゼーションに必然的に存在し、性能を劣化させる。 最初の問題を緩和するために、ダイアリゼーションシナリオをより良く模倣する話者検証評価プロトコルを生成する。 重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。 1つのテクニックは重なり合った音声セグメントを生成し、もう1つは2人の話者が逐次発声するセグメントを生成する。 3つの最先端話者埋め込み抽出器を用いた実験結果から,両手法が有効であることが示された。

Speaker embedding extractors (EEs), which map input audio to a speaker discriminant latent space, are of paramount importance in speaker diarisation. However, there are several challenges when adopting EEs for diarisation, from which we tackle two key problems. First, the evaluation is not straightforward because the features required for better performance differ between speaker verification and diarisation. We show that better performance on widely adopted speaker verification evaluation protocols does not lead to better diarisation performance. Second, embedding extractors have not seen utterances in which multiple speakers exist. These inputs are inevitably present in speaker diarisation because of overlapped speech and speaker changes; they degrade the performance. To mitigate the first problem, we generate speaker verification evaluation protocols that mimic the diarisation scenario better. We propose two data augmentation techniques to alleviate the second problem, making embedding extractors aware of overlapped speech or speaker change input. One technique generates overlapped speech segments, and the other generates segments where two speakers utter sequentially. Extensive experimental results using three state-of-the-art speaker embedding extractors demonstrate that both proposed approaches are effective.
翻訳日:2022-10-27 15:42:13 公開日:2022-10-26
# クロスリピートプロットを用いた金融時系列同期状態の予測

Predicting the State of Synchronization of Financial Time Series using Cross Recurrence Plots ( http://arxiv.org/abs/2210.14605v1 )

ライセンス: Link先を確認
Mostafa Shabani, Martin Magris, George Tzagkarakis, Juho Kanniainen, Alexandros Iosifidis(参考訳) 相互相関解析は時系列の相互ダイナミクスを理解する強力なツールである。 本研究では,2つの金融時系列の動的同期の将来の状態を予測する新しい手法を提案する。 この目的のために、2つの時系列の時間領域における多次元結合を定量化し、それらの同期状態を決定する非線形手法としてクロスレカレンスプロット解析を用いる。 動的にサブサンプリングされたクロス再帰プロットから抽出した特徴に基づいて同期状態の予測を方法論的に扱うためのディープラーニングフレームワークを採用する。 我々は、s\&p100指数の主要構成要素である複数の株式について広範な実験を行い、このアプローチを実証的に検証した。 2つの時系列の同期状態を予測する作業は、概してかなり難しいが、特定の株のペアでは、非常に満足できる性能で達成可能である。

Cross-correlation analysis is a powerful tool for understanding the mutual dynamics of time series. This study introduces a new method for predicting the future state of synchronization of the dynamics of two financial time series. To this end, we use the cross-recurrence plot analysis as a nonlinear method for quantifying the multidimensional coupling in the time domain of two time series and for determining their state of synchronization. We adopt a deep learning framework for methodologically addressing the prediction of the synchronization state based on features extracted from dynamically sub-sampled cross-recurrence plots. We provide extensive experiments on several stocks, major constituents of the S\&P100 index, to empirically validate our approach. We find that the task of predicting the state of synchronization of two time series is in general rather difficult, but for certain pairs of stocks attainable with very satisfactory performance.
翻訳日:2022-10-27 15:36:00 公開日:2022-10-26
# ルックアヘッドを用いた音響言語特徴を用いたスマート音声分割

Smart Speech Segmentation using Acousto-Linguistic Features with look-ahead ( http://arxiv.org/abs/2210.14446v1 )

ライセンス: Link先を確認
Piyush Behre, Naveen Parihar, Sharman Tan, Amy Shah, Eva Sharma, Geoffrey Liu, Shuangyu Chang, Hosam Khalil, Chris Basoglu, Sayan Pathak(参考訳) 連続音声認識のためのセグメンテーション(ASR)は、伝統的にサイレントタイムアウトまたは音声活動検出器(VAD)を使用しており、どちらも音響的特徴に限定されている。 このセグメンテーションは、人々が話すときに自然に立ち止まって考えるので、しばしば過度に攻撃的です。 その結果、セグメンテーションは、セグメンテーションが重要な機械翻訳のような句読点と下流のタスクの両方を妨げる。 音響特性を利用するモデルベースセグメンテーション手法は強力であるが,言語自体の理解がなければ,これらのアプローチは限定的である。 本稿では,音響情報と言語情報を併用してセグメンテーションを改善するハイブリッド手法を提案する。 さらに,1単語をルックアヘッドとして含むとセグメンテーションの品質が向上することを示す。 平均すると、このモデルはセグメンテーションf0.5スコアをベースラインよりも9.8%向上させる。 このアプローチは複数の言語で有効であることを示す。 機械翻訳のダウンストリームタスクでは、翻訳bleuスコアを平均1.05ポイント改善する。

Segmentation for continuous Automatic Speech Recognition (ASR) has traditionally used silence timeouts or voice activity detectors (VADs), which are both limited to acoustic features. This segmentation is often overly aggressive, given that people naturally pause to think as they speak. Consequently, segmentation happens mid-sentence, hindering both punctuation and downstream tasks like machine translation for which high-quality segmentation is critical. Model-based segmentation methods that leverage acoustic features are powerful, but without an understanding of the language itself, these approaches are limited. We present a hybrid approach that leverages both acoustic and language information to improve segmentation. Furthermore, we show that including one word as a look-ahead boosts segmentation quality. On average, our models improve segmentation-F0.5 score by 9.8% over baseline. We show that this approach works for multiple languages. For the downstream task of machine translation, it improves the translation BLEU score by an average of 1.05 points.
翻訳日:2022-10-27 15:35:46 公開日:2022-10-26
# ラベルなしテキストによる音声音声合成の改善

Improving Speech-to-Speech Translation Through Unlabeled Text ( http://arxiv.org/abs/2210.14514v1 )

ライセンス: Link先を確認
Xuan-Phi Nguyen, Sravya Popuri, Changhan Wang, Yun Tang, Ilia Kulikov and Hongyu Gong(参考訳) 直接音声音声変換(S2ST)は、S2STデータの著しい不足により、翻訳パラダイムにおいて最も難しい問題の一つである。 事前訓練された音声認識(ASR)、機械翻訳(MT)、テキスト音声(TTS)モデルをカスケードすることで、ラベルなし音声からデータサイズを増大させる努力がなされているが、ラベルなしテキストはS2STを改善するために比較的未利用のままである。 本稿では,様々な言語から既存のラベルなしテキストを効率的に活用し,大量のs2stデータを作成し,生成した合成データに各種音響効果を適用し,s2st性能を向上させるための効果的な方法を提案する。 我々の手法は、スペイン語と英語の翻訳において、最大2 BLEUで芸術の状態を上回ります。 提案手法は, スペイン語とロシア語の両方の翻訳において, 極めて低リソース環境において有意な利得を示した。

Direct speech-to-speech translation (S2ST) is among the most challenging problems in the translation paradigm due to the significant scarcity of S2ST data. While effort has been made to increase the data size from unlabeled speech by cascading pretrained speech recognition (ASR), machine translation (MT) and text-to-speech (TTS) models; unlabeled text has remained relatively under-utilized to improve S2ST. We propose an effective way to utilize the massive existing unlabeled text from different languages to create a large amount of S2ST data to improve S2ST performance by applying various acoustic effects to the generated synthetic data. Empirically our method outperforms the state of the art in Spanish-English translation by up to 2 BLEU. Significant gains by the proposed method are demonstrated in extremely low-resource settings for both Spanish-English and Russian-English translations.
翻訳日:2022-10-27 15:35:30 公開日:2022-10-26
# 文内符号変換音声認識における外国語単語の発音生成

Pronunciation Generation for Foreign Language Words in Intra-Sentential Code-Switching Speech Recognition ( http://arxiv.org/abs/2210.14691v1 )

ライセンス: Link先を確認
Wei Wang, Chao Zhang and Xiaopei Wu(参考訳) コードスイッチング(Code Switching)とは、文や言説の中で言語を切り替える現象である。 しかし、コードスイッチングの制限、異なる言語音素セット、高い再構成コストは、コードスイッチング音声認識のための特殊な音響モデルを作るための課題となる。 本稿では,限定的なコード切り換えデータを駆動材料として利用し,コード切り換え文中の外国語単語の発音を予測するために,grapheme-to-phonemeモデルを訓練する種レキシコンを作成するためのデータ駆動手法を提案する。 本論文におけるデータ駆動技術の中核となる仕事は、音声復号法と異なる選択法である。 そして,不均衡な単語レベルの駆動材料問題に対して,グラニュメから音素へのモデルを用いて十分な資料を有する単語の発音規則を学習することで,その不足を解消する内部支援を行う。 提案手法では,中国語の単語の発音をデータ駆動アプローチで加味することで,知覚的中国語-英語コード切替認識における混合誤り率が29.15\%から12.13\%に減少し,最終的に11.14\%の最適な結果を得ることができた。

Code-Switching refers to the phenomenon of switching languages within a sentence or discourse. However, limited code-switching , different language phoneme-sets and high rebuilding costs throw a challenge to make the specialized acoustic model for code-switching speech recognition. In this paper, we make use of limited code-switching data as driving materials and explore a shortcut to quickly develop intra-sentential code-switching recognition skill on the commissioned native language acoustic model, where we propose a data-driven method to make the seed lexicon which is used to train grapheme-to-phoneme model to predict mapping pronunciations for foreign language word in code-switching sentences. The core work of the data-driven technology in this paper consists of a phonetic decoding method and different selection methods. And for imbalanced word-level driving materials problem, we have an internal assistance inspiration that learning the good pronunciation rules in the words that possess sufficient materials using the grapheme-to-phoneme model to help the scarce. Our experiments show that the Mixed Error Rate in intra-sentential Chinese-English code-switching recognition reduced from 29.15\%, acquired on the pure Chinese recognizer, to 12.13\% by adding foreign language words' pronunciation through our data-driven approach, and finally get the best result 11.14\% with the combination of different selection methods and internal assistance tactic.
翻訳日:2022-10-27 15:35:14 公開日:2022-10-26
# コピロットとコーデックスの操縦士:温かい温度、冷たいプロンプト、ブラックマジック?

Piloting Copilot and Codex: Hot Temperature, Cold Prompts, or Black Magic? ( http://arxiv.org/abs/2210.14699v1 )

ライセンス: Link先を確認
Jean-Baptiste D\"oderlein, Mathieu Acher, Djamel Eddine Khelladi, Benoit Combemale(参考訳) 言語モデルは、ますます複雑な問題に取り組むための有望なソリューションである。 ソフトウェア工学において、彼らは最近、自然言語によるプログラミングタスク記述から、与えられたプログラミング言語で自動的にプログラムが書かれるコードアシスタントに注目を集めた。 コードを書くとき、時間と労力を節約できる可能性がある。 しかし、これらのシステムは現在あまり理解されておらず、最適な使用を妨げている。 本稿では、2つの言語モデルの様々な入力パラメータについて検討し、これらの入力パラメータのバリエーション(例えば、プログラミングタスク記述と周辺状況、言語モデルの創造性、生成したソリューションの数)が生成されたプログラムの品質に重大な影響を与えるかどうかを理解するための研究を行う。 入力パラメータの異なる特定の演算子を設計し,2つのコードアシスタント(copilotとcodex)とアルゴリズム問題を表す2つのベンチマーク(humanevalとleetcode)に適用する。 その結果,入力パラメータの変化によって言語モデルの性能が著しく向上することがわかった。 しかし、温度やプロンプト、生成したソリューションの数を変えると、依存関係が強くなり、最適な結果を得るためにパラメータを適切に制御することが難しくなる可能性がある。 この作業は、パフォーマンスを改善するための(自動化された)戦略を提案する機会を開く。

Language models are promising solutions for tackling increasing complex problems. In software engineering, they recently attracted attention in code assistants, with programs automatically written in a given programming language from a programming task description in natural language. They have the potential to save time and effort when writing code. However, these systems are currently poorly understood, preventing them from being used optimally. In this paper, we investigate the various input parameters of two language models, and conduct a study to understand if variations of these input parameters (e.g. programming task description and the surrounding context, creativity of the language model, number of generated solutions) can have a significant impact on the quality of the generated programs. We design specific operators for varying input parameters and apply them over two code assistants (Copilot and Codex) and two benchmarks representing algorithmic problems (HumanEval and LeetCode). Our results showed that varying the input parameters can significantly improve the performance of language models. However, there is a tight dependency when varying the temperature, the prompt and the number of generated solutions, making potentially hard for developers to properly control the parameters to obtain an optimal result. This work opens opportunities to propose (automated) strategies for improving performance.
翻訳日:2022-10-27 15:34:48 公開日:2022-10-26
# CMU-Net: 医用超音波画像分割ネットワーク

CMU-Net: A Strong ConvMixer-based Medical Ultrasound Image Segmentation Network ( http://arxiv.org/abs/2210.13012v2 )

ライセンス: Link先を確認
Fenghe Tang, Lingtao Wang, Chunping Ning, Min Xian, Jianrui Ding(参考訳) U-Netとその拡張セグメンテーションモデルは、医用画像セグメンテーションタスクにおいて大きな成功を収めた。 しかし,通常の畳み込み操作の局所的特徴から,エンコーダはグローバルな文脈情報を効果的に抽出できない。 さらに、単純なスキップ接続は、正常な特徴をキャプチャできない。 本研究では,ハイブリッド畳み込みとマルチスケールアテンションゲートを組み込んだ完全な畳み込みセグメンテーションネットワーク(CMU-Net)を提案する。 ConvMixerモジュールは、グローバルコンテキスト情報を抽出するために、遠く離れた空間位置を混合する。 さらに、マルチスケールアテンションゲートは、重要な特徴を強調し、効率的なスキップ接続を実現するのに役立つ。 オープンソースの乳房超音波画像と民間の甲状腺超音波画像データセットの評価によると、CMU-Netの平均IOUは73.27%、84.75%、F1値は84.16%、91.71%である。 コードはhttps://github.com/fenghetan9/cmu-netで入手できる。

U-Net and its extended segmentation model have achieved great success in medical image segmentation tasks. However, due to the inherent local characteristics of ordinary convolution operations, the encoder cannot effectively extract the global context information. In addition, simple skip connection cannot capture salient features. In this work, we propose a full convolutional segmentation network (CMU-Net) which incorporate hybrid convolution and multi-scale attention gate. The ConvMixer module is to mix distant spatial locations for extracting the global context information. Moreover, the multi-scale attention gate can help to emphasize valuable features and achieve efficient skip connections. Evaluations on open-source breast ultrasound images and private thyroid ultrasound image datasets show that CMU-Net achieves an average IOU of 73.27% and 84.75%, F1-value is 84.16% and 91.71%. The code is available at https://github.com/FengheTan9/CMU-Net.
翻訳日:2022-10-27 15:34:12 公開日:2022-10-26
# DBMarkによるDNN画像透かしの深層化ロバスト性

Deep Boosting Robustness of DNN-based Image Watermarking via DBMark ( http://arxiv.org/abs/2210.13801v2 )

ライセンス: Link先を確認
Guanhui Ye, Jiashi Gao, Wei Xie, Bo Yin, Xuetao Wei(参考訳) 本稿では,DNNによる画像透かしの堅牢性を高めるために,新しいエンドツーエンドのデジタル透かしフレームワークDBMarkを提案する。 重要な特徴は、Invertible Neural Networks(INN)のシナジーと効果的なウォーターマーク機能の生成である。 このフレームワークは、メッセージ処理を通じて冗長性と誤り訂正機能を備えた透かし特性を生成し、Invertible Neural Networksの強力な情報埋め込みと抽出機能と相乗して、高い堅牢性と可視性を実現する。 大規模実験により, 種々の歪み下での最先端のフレームワークと比較して, 提案手法の優位性を示した。

In this paper, we present DBMark, a new end-to-end digital image watermarking framework to deep boost the robustness of DNN-based image watermarking. The key novelty is the synergy of the Invertible Neural Networks(INNs) and effective watermark features generation. The framework generates watermark features with redundancy and error correction ability through message processing, synergized with the powerful information embedding and extraction capabilities of Invertible Neural Networks to achieve higher robustness and invisibility. Extensive experiment results demonstrate the superiority of the proposed framework compared with the state-of-the-art ones under various distortions.
翻訳日:2022-10-27 15:33:54 公開日:2022-10-26
# TPFNet: テキスト除去のための新しいテキストインペイント変換器

TPFNet: A Novel Text In-painting Transformer for Text Removal ( http://arxiv.org/abs/2210.14461v1 )

ライセンス: Link先を確認
Onkar Susladkar, Dhruv Makwana, Gayatri Deshmukh, Sparsh Mittal, Sai Chandra Teja R, Rekha Singhal(参考訳) 画像からのテキスト消去は、画像編集やプライバシー保護といった様々なタスクに役立つ。 本稿では,画像からテキストを除去する新しいワンステージ(エンドツーエンド)ネットワークTPFNetを提案する。 我々のネットワークには特徴合成と画像生成という2つの部分がある。 ノイズは低解像度画像からより効果的に除去できるため、パート1は低解像度画像で動作する。 部1の出力は低解像度のテキストフリー画像である。 パート2は、パート1で学んだ機能を使用して、高解像度テキストフリー画像を予測する。 パート1では、エンコーダとして"pyramidal vision transformer"(pvt)を使用します。 さらに,テキストのない画像に加えて,ハイパスフィルタ画像とセグメンテーションマップを生成する新しいマルチヘッドデコーダを用いる。 セグメンテーションブランチはテキストを正確に見つけるのに役立ち、ハイパスブランチは画像構造を学ぶのに役立ちます。 テキストを正確に特定するために、TPFNetは入力画像ではなくセグメンテーションマップに条件付きである逆損失を用いる。 オックスフォード、scut、およびscut-enstextデータセットでは、我々のネットワークは、最近提案されたほぼすべてのメトリクスのネットワークよりも優れています。 例えば、SCUT-EnsTextデータセットでは、TPFNetはPSNRが39.0、テキスト検出精度が21.1、PSNRが32.3、精度が53.2である。 ソースコードはhttps://github.com/CandleLabAI/TPFNetから取得できる。

Text erasure from an image is helpful for various tasks such as image editing and privacy preservation. In this paper, we present TPFNet, a novel one-stage (end-toend) network for text removal from images. Our network has two parts: feature synthesis and image generation. Since noise can be more effectively removed from low-resolution images, part 1 operates on low-resolution images. The output of part 1 is a low-resolution text-free image. Part 2 uses the features learned in part 1 to predict a high-resolution text-free image. In part 1, we use "pyramidal vision transformer" (PVT) as the encoder. Further, we use a novel multi-headed decoder that generates a high-pass filtered image and a segmentation map, in addition to a text-free image. The segmentation branch helps locate the text precisely, and the high-pass branch helps in learning the image structure. To precisely locate the text, TPFNet employs an adversarial loss that is conditional on the segmentation map rather than the input image. On Oxford, SCUT, and SCUT-EnsText datasets, our network outperforms recently proposed networks on nearly all the metrics. For example, on SCUT-EnsText dataset, TPFNet has a PSNR (higher is better) of 39.0 and text-detection precision (lower is better) of 21.1, compared to the best previous technique, which has a PSNR of 32.3 and precision of 53.2. The source code can be obtained from https://github.com/CandleLabAI/TPFNet
翻訳日:2022-10-27 15:33:44 公開日:2022-10-26
# 深達度学習を用いた腰部MRIのPfirrmann Gradingのためのより強力なベースライン

A Stronger Baseline For Automatic Pfirrmann Grading Of Lumbar Spine MRI Using Deep Learning ( http://arxiv.org/abs/2210.14597v1 )

ライセンス: Link先を確認
Narasimharao Kowlagi, Huy Hoang Nguyen, Terence McSweeney, Simo Saarakkala, Juhani m\"a\"att\"a, Jaro Karppinen, Aleksei Tiulpin(参考訳) 本稿では,Deep Learning を用いた腰椎MRIにおける視機能評価の課題について述べる。 このような方法は脊椎の構造変化の自動定量化に必須であり,腰痛の理解に有用である。 最近の複数の研究が異なるアーキテクチャ設計を調査し、最も最近の成功はトランスフォーマーアーキテクチャの使用によるものである。 本研究では,セマンティクスのセグメンテーション,ローカライゼーション,分類を含む高度に調整された3段階パイプラインでは,畳み込みネットワークが最先端のアプローチを上回っていることを論じる。 人口コホートにおける既存手法のアブレーション調査を行い、様々なサブグループで性能の一般化を報告した。 我々のコードは、椎間板変性と腰痛の研究を進めるために公開されている。

This paper addresses the challenge of grading visual features in lumbar spine MRI using Deep Learning. Such a method is essential for the automatic quantification of structural changes in the spine, which is valuable for understanding low back pain. Multiple recent studies investigated different architecture designs, and the most recent success has been attributed to the use of transformer architectures. In this work, we argue that with a well-tuned three-stage pipeline comprising semantic segmentation, localization, and classification, convolutional networks outperform the state-of-the-art approaches. We conducted an ablation study of the existing methods in a population cohort, and report performance generalization across various subgroups. Our code is publicly available to advance research on disc degeneration and low back pain.
翻訳日:2022-10-27 15:33:17 公開日:2022-10-26
# 交通分野における強化学習に関する文献分析とレビュー

A Bibliometric Analysis and Review on Reinforcement Learning for Transportation Applications ( http://arxiv.org/abs/2210.14524v1 )

ライセンス: Link先を確認
Can Li, Lei Bai, Lina Yao, S. Travis Waller, Wei Liu(参考訳) 交通は経済と都市の発展のバックボーンである。 輸送システムの効率性、持続性、弾力性、知性の向上は重要かつ困難である。 常に変化する交通状況、外部要因(例えば天候、事故)の不安定な影響、および複数の移動モードと多種類の流れの間の相互作用は、輸送システムの動的かつ確率的性質をもたらす。 輸送システムの計画、運用、制御には、不確実性、非線形性、可変性、高複雑性に対処するために柔軟かつ適応可能な戦略が必要である。 この文脈では、自律的な意思決定者が複雑な環境と対話し、経験から学び、最適な行動を選択することができる強化学習(RL)が、スマートトランスポートの最も有用なアプローチの1つである。 本稿では,近年の知的輸送分野において,RLベースの輸送手法,典型的な雑誌・会議,主要なトピックの特定を目的とした文献分析を行った。 そこで本稿では,RLの交通分野への応用に関する総合的な文献レビューを行い,各分野の異なる手法を分類する。 RLの適用と開発に関する今後の研究方向性についても論じる。

Transportation is the backbone of the economy and urban development. Improving the efficiency, sustainability, resilience, and intelligence of transportation systems is critical and also challenging. The constantly changing traffic conditions, the uncertain influence of external factors (e.g., weather, accidents), and the interactions among multiple travel modes and multi-type flows result in the dynamic and stochastic natures of transportation systems. The planning, operation, and control of transportation systems require flexible and adaptable strategies in order to deal with uncertainty, non-linearity, variability, and high complexity. In this context, Reinforcement Learning (RL) that enables autonomous decision-makers to interact with the complex environment, learn from the experiences, and select optimal actions has been rapidly emerging as one of the most useful approaches for smart transportation. This paper conducts a bibliometric analysis to identify the development of RL-based methods for transportation applications, typical journals/conferences, and leading topics in the field of intelligent transportation in recent ten years. Then, this paper presents a comprehensive literature review on applications of RL in transportation by categorizing different methods with respect to the specific application domains. The potential future research directions of RL applications and developments are also discussed.
翻訳日:2022-10-27 15:27:37 公開日:2022-10-26
# 連続深層ニューラルネットワークにおけるスパーシティ

Sparsity in Continuous-Depth Neural Networks ( http://arxiv.org/abs/2210.14672v1 )

ライセンス: Link先を確認
Hananeh Aliee, Till Richter, Mikhail Solonin, Ignacio Ibarra, Fabian Theis, Niki Kilbertus(参考訳) ニューラル正規微分方程式(NODE)は、観測された軌跡を正確に回復するという点で力学系を学ぶことに成功している。 頑健性を改善するために異なるタイプのスパーシティが提案されているが、観測データを超えた動的システムのノードの一般化特性は過小評価されている。 重みと特徴空間が予測に及ぼす影響を系統的に研究し,基礎となる動的法則を同定する。 既存の方法の評価に加えて,「入出力接続」をスパースし,トレーニング中に関連する特徴を抽出するための正規化手法を提案する。 さらに,人間のモーションキャプチャとヒト造血単細胞rna-seqデータからなる実世界のデータセットをキュレートし,予測とダイナミクス同定においてそれぞれ異なるout-of-distribution(ood)一般化レベルを現実的に解析する。 これらの試行的な評価から,重み空間が騒音や不規則なサンプリングの存在下での一般化を改善することが示唆された。 しかし、推論されたダイナミクスにおけるスプリアスな機能依存性の学習を妨げず、介入の下での予測や、真の基盤となるダイナミクスの推論には実用的でない。 代わりに、機能の疎さは、非正規化されたNODEと比較してスパース基底構造を回復するのに役立ちます。

Neural Ordinary Differential Equations (NODEs) have proven successful in learning dynamical systems in terms of accurately recovering the observed trajectories. While different types of sparsity have been proposed to improve robustness, the generalization properties of NODEs for dynamical systems beyond the observed data are underexplored. We systematically study the influence of weight and feature sparsity on forecasting as well as on identifying the underlying dynamical laws. Besides assessing existing methods, we propose a regularization technique to sparsify "input-output connections" and extract relevant features during training. Moreover, we curate real-world datasets consisting of human motion capture and human hematopoiesis single-cell RNA-seq data to realistically analyze different levels of out-of-distribution (OOD) generalization in forecasting and dynamics identification respectively. Our extensive empirical evaluation on these challenging benchmarks suggests that weight sparsity improves generalization in the presence of noise or irregular sampling. However, it does not prevent learning spurious feature dependencies in the inferred dynamics, rendering them impractical for predictions under interventions, or for inferring the true underlying dynamics. Instead, feature sparsity can indeed help with recovering sparse ground-truth dynamics compared to unregularized NODEs.
翻訳日:2022-10-27 15:27:17 公開日:2022-10-26
# 私のデータに最適なモデルは何ですか?

Which is the best model for my data? ( http://arxiv.org/abs/2210.14687v1 )

ライセンス: Link先を確認
Gonzalo N\'apoles and Isel Grau and \c{C}i\c{c}ek G\"uven and Or\c{c}un \"Ozdemir and Yamisleydi Salgueiro(参考訳) 本稿では,与えられた構造化パターン分類データセットの最適モデルを選択する問題に取り組む。 この文脈では、モデルは分類器とハイパーパラメータの構成として理解することができる。 提案されたメタラーニングアプローチは、純粋に機械学習に依存し、4つの大きなステップを含む。 まず,正と負の測度を含む集約測度値において,情報消去の問題に対処する62個のメタ特徴の簡潔なコレクションを提案する。 次に,学習データの拡大を目指す合成データ生成のための2つの異なるアプローチについて述べる。 第3に、グリッド探索を用いてハイパーパラメータを最適化しながら、分類問題ごとに予め定義された分類モデルに適合する。 目標は、各行が特定の問題を記述するマルチラベルインスタンスを表すメタデータセットを作成することである。 これらのメタインスタンスの特徴は生成されたデータセットの統計特性を示し、ラベルはグリッド検索結果を2進ベクトルとしてエンコードし、最高の性能モデルが正にラベル付けされる。 最後に、表データを扱うように設計された畳み込みニューラルネットワークを含む、複数のマルチラベル分類器でモデル選択問題に取り組む。 シミュレーションの結果,メタラーニング手法は,合成データセットの91%と実世界のデータセットの87%に対して,最適なモデルを正確に予測できることがわかった。 さらに,ほとんどのメタ分類器は,メタ機能を用いた場合,より良い結果が得られることがわかった。 提案手法は,アルゴリズム選択問題やハイパーパラメータチューニング問題に1ステップで対処するため,他のメタ学習手法とは異なる。 最後に,どの統計的特徴がモデル選択機構を駆動するかを決定するために,特徴重要度分析を行う。

In this paper, we tackle the problem of selecting the optimal model for a given structured pattern classification dataset. In this context, a model can be understood as a classifier and a hyperparameter configuration. The proposed meta-learning approach purely relies on machine learning and involves four major steps. Firstly, we present a concise collection of 62 meta-features that address the problem of information cancellation when aggregation measure values involving positive and negative measurements. Secondly, we describe two different approaches for synthetic data generation intending to enlarge the training data. Thirdly, we fit a set of pre-defined classification models for each classification problem while optimizing their hyperparameters using grid search. The goal is to create a meta-dataset such that each row denotes a multilabel instance describing a specific problem. The features of these meta-instances denote the statistical properties of the generated datasets, while the labels encode the grid search results as binary vectors such that best-performing models are positively labeled. Finally, we tackle the model selection problem with several multilabel classifiers, including a Convolutional Neural Network designed to handle tabular data. The simulation results show that our meta-learning approach can correctly predict an optimal model for 91% of the synthetic datasets and for 87% of the real-world datasets. Furthermore, we noticed that most meta-classifiers produced better results when using our meta-features. Overall, our proposal differs from other meta-learning approaches since it tackles the algorithm selection and hyperparameter tuning problems in a single step. Toward the end, we perform a feature importance analysis to determine which statistical features drive the model selection mechanism.
翻訳日:2022-10-27 15:26:53 公開日:2022-10-26
# 変分推論による大規模テキスト属性グラフの学習

Learning on Large-scale Text-attributed Graphs via Variational Inference ( http://arxiv.org/abs/2210.14709v1 )

ライセンス: Link先を確認
Jianan Zhao, Meng Qu, Chaozhuo Li, Hao Yan, Qian Liu, Rui Li, Xing Xie, Jian Tang(参考訳) 本稿では,各ノードがテキスト記述に関連付けられたテキスト属性グラフ(タグ)について学習する。 このような問題に対する理想的な解決策は、テキストとグラフ構造情報を大きな言語モデルとグラフニューラルネットワーク(GNN)に統合することだ。 しかし、大きな言語モデルによってもたらされる高い計算複雑性と、大きなグラフ上でのGNNの訓練により、グラフが大きくなると、この問題は非常に困難になる。 本稿では,GLEMと呼ばれる変動予測最大化(EM)フレームワークを用いて,グラフ構造と言語学習を融合させることにより,大規模テキスト対応グラフ上での学習を効果的かつ効果的に行う方法を提案する。 GLEMは、大きなグラフ上で大きな言語モデルとGNNを同時にトレーニングする代わりに、EステップとMステップで2つのモジュールを更新することを提案している。 このような手順は2つのモジュールを個別に訓練することができるが、同時に2つのモジュールが相互に相互作用し、相互に強化することができる。 複数のデータセットに対する広範囲な実験は、提案手法の有効性と有効性を示している。

This paper studies learning on text-attributed graphs (TAGs), where each node is associated with a text description. An ideal solution for such a problem would be integrating both the text and graph structure information with large language models and graph neural networks (GNNs). However, the problem becomes very challenging when graphs are large due to the high computational complexity brought by large language models and training GNNs on big graphs. In this paper, we propose an efficient and effective solution to learning on large text-attributed graphs by fusing graph structure and language learning with a variational Expectation-Maximization (EM) framework, called GLEM. Instead of simultaneously training large language models and GNNs on big graphs, GLEM proposes to alternatively update the two modules in the E-step and M-step. Such a procedure allows to separately train the two modules but at the same time allows the two modules to interact and mutually enhance each other. Extensive experiments on multiple data sets demonstrate the efficiency and effectiveness of the proposed approach.
翻訳日:2022-10-27 15:26:29 公開日:2022-10-26
# Simplex Diffusion を用いた分類SDE

Categorical SDEs with Simplex Diffusion ( http://arxiv.org/abs/2210.14784v1 )

ライセンス: Link先を確認
Pierre H. Richemond, Sander Dieleman, Arnaud Doucet(参考訳) 拡散モデルは典型的には、連続値データポイントを生成することによって生成モデリングの標準的な枠組みで動作する。 この目的のために、彼らは原データ分布のプログレッシブガウス的滑らか化に依存しており、標準ブラウン運動の増分を含むSDE解釈が認められる。 しかし、テキスト生成や強化学習のような応用は、カテゴリ値データ、すなわち確率分布の空間への拡散を拡散させることによって、自然によりよく機能するかもしれない。 この目的のために、この短い理論ノートは、n-次元確率単純点上のデータポイントを直接拡散する手段であるSimplex Diffusionを提案する。 本研究は, 多次元Cox-Ingersoll-Rossプロセス(略してCIR)により, 単純度上のディリクレ分布と類似SDEがどのように実現されるかを示す。 最後に,CIRプロセスの軌跡の数値的実装について述べるとともに,提案手法のいくつかの限界について考察する。

Diffusion models typically operate in the standard framework of generative modelling by producing continuously-valued datapoints. To this end, they rely on a progressive Gaussian smoothing of the original data distribution, which admits an SDE interpretation involving increments of a standard Brownian motion. However, some applications such as text generation or reinforcement learning might naturally be better served by diffusing categorical-valued data, i.e., lifting the diffusion to a space of probability distributions. To this end, this short theoretical note proposes Simplex Diffusion, a means to directly diffuse datapoints located on an n-dimensional probability simplex. We show how this relates to the Dirichlet distribution on the simplex and how the analogous SDE is realized thanks to a multi-dimensional Cox-Ingersoll-Ross process (abbreviated as CIR), previously used in economics and mathematical finance. Finally, we make remarks as to the numerical implementation of trajectories of the CIR process, and discuss some limitations of our approach.
翻訳日:2022-10-27 15:26:12 公開日:2022-10-26
# HyperEF: 有効抵抗クラスタリングによるスペクトルハイパーグラフの粗大化

HyperEF: Spectral Hypergraph Coarsening by Effective-Resistance Clustering ( http://arxiv.org/abs/2210.14813v1 )

ライセンス: Link先を確認
Ali Aghdaei, Zhuo Feng(参考訳) 本稿では,大規模ハイパーグラフのスペクトル粗化(分解)のための拡張性のあるアルゴリズムフレームワーク(HyperEF)を提案する。 単純なグラフの低抵抗径分解のための最新の理論フレームワークによって動機付けられたHyperEFは、大規模ハイパーグラフを少数のクラスタ間ハイパーエッジを持つ複数のノードクラスタに分解することを目指している。 HyperEFのキーコンポーネントは、ハイパーエッジ効果抵抗を推定するためのほぼ線形時間アルゴリズムであり、ハイパーグラフ上で定義された最新の拡散ベースの非線形二次作用素を組み込むことができる。 優れたランタイムスケーラビリティを実現するため、HyperEFはKrylov部分空間(または近似固有部分空間)内を探索し、ハイパーエッジ有効抵抗を近似するためのほぼ最適ベクトルを特定する。 さらに,マルチレベルスペクトルハイパーグラフ分解のためのノード重みの伝搬方式を導入し,さらに大きなノード粗い比を実現した。 最先端のハイパーグラフパーティショニング(クラスタリング)法と比較すると、実世界のVLSI設計における広範な実験結果から、HyperEFは元のハイパーグラフの重要な構造(スペクトル)特性を失うことなく、より効果的にハイパーグラフを粗く(分解する)ことができ、hMetisと20ドル以上のランタイムスピードアップを達成できる。

This paper introduces a scalable algorithmic framework (HyperEF) for spectral coarsening (decomposition) of large-scale hypergraphs by exploiting hyperedge effective resistances. Motivated by the latest theoretical framework for low-resistance-diameter decomposition of simple graphs, HyperEF aims at decomposing large hypergraphs into multiple node clusters with only a few inter-cluster hyperedges. The key component in HyperEF is a nearly-linear time algorithm for estimating hyperedge effective resistances, which allows incorporating the latest diffusion-based non-linear quadratic operators defined on hypergraphs. To achieve good runtime scalability, HyperEF searches within the Krylov subspace (or approximate eigensubspace) for identifying the nearly-optimal vectors for approximating the hyperedge effective resistances. In addition, a node weight propagation scheme for multilevel spectral hypergraph decomposition has been introduced for achieving even greater node coarsening ratios. When compared with state-of-the-art hypergraph partitioning (clustering) methods, extensive experiment results on real-world VLSI designs show that HyperEF can more effectively coarsen (decompose) hypergraphs without losing key structural (spectral) properties of the original hypergraphs, while achieving over $70\times$ runtime speedups over hMetis and $20\times$ speedups over HyperSF.
翻訳日:2022-10-27 15:25:54 公開日:2022-10-26
# 不均一モジュールネットワークによる個人化フェデレーション学習

Personalized Federated Learning via Heterogeneous Modular Networks ( http://arxiv.org/abs/2210.14830v1 )

ライセンス: Link先を確認
Tianchun Wan, Wei Cheng, Dongsheng Luo, Wenchao Yu, Jingchao Ni, Liang Tong, Haifeng Chen, Xiang Zhang(参考訳) ローカルクライアントをプライバシーの制約下で考慮しながら連携モデルを協調的にトレーニングするパーソナライズドフェデレーションフェデレーション学習(pfl)が注目を集めている。 その人気にもかかわらず、既存のPFLアプローチは、ローカルクライアント間の共同分布が分岐するときに、サブ最適解をもたらすことが観察されている。 この問題に対処するために,モジュールプールからサブモジュールを適応的に選択し,異なるクライアントのためのヘテロジニアス・ニューラル・アーキテクチャを組み立てる新しいpflアプローチであるfederated modular network (fedmn)を提案する。 fedmnは軽量のルーティングハイパーネットワークを採用し、各クライアントのジョイント分布をモデル化し、各クライアント用のモジュールブロックのパーソナライズされた選択を生成する。 既存のFLにおける通信負担を軽減するため,クライアントとサーバ間の通信を効率的に行う方法を開発した。 本研究は実世界のテストベッドについて広範囲に実験を行い,提案したFedMNの有効性と有効性を示した。

Personalized Federated Learning (PFL) which collaboratively trains a federated model while considering local clients under privacy constraints has attracted much attention. Despite its popularity, it has been observed that existing PFL approaches result in sub-optimal solutions when the joint distribution among local clients diverges. To address this issue, we present Federated Modular Network (FedMN), a novel PFL approach that adaptively selects sub-modules from a module pool to assemble heterogeneous neural architectures for different clients. FedMN adopts a light-weighted routing hypernetwork to model the joint distribution on each client and produce the personalized selection of the module blocks for each client. To reduce the communication burden in existing FL, we develop an efficient way to interact between the clients and the server. We conduct extensive experiments on the real-world test beds and the results show both the effectiveness and efficiency of the proposed FedMN over the baselines.
翻訳日:2022-10-27 15:25:27 公開日:2022-10-26
# 深部ヘルムホルツマシン訓練のための多レベルデータ表現

Multi-level Data Representation For Training Deep Helmholtz Machines ( http://arxiv.org/abs/2210.14855v1 )

ライセンス: Link先を確認
Jose Miguel Ramos, Luis Sa-Couto and Andreas Wichert(参考訳) 機械学習の分野での現在の研究の大部分は、バックプロパゲーションのような生物学的な難しさを指摘し、元の有機的なインスピレーションの理解から最適なパフォーマンスの強制的な探索まで、この分野の焦点を逸脱させる強い議論を持つアルゴリズムを用いて行われている。 しかし、ヒトの脳に存在する生物学的制約の多くを尊重し、その性質やメカニズムを模倣する有効な候補となるモデルがいくつか提案されている。 本稿では,人間の画像知覚機構に基づくヒューリスティックを用いて,複雑な探索空間におけるヘルムホルツ機械と呼ばれる生物学的に妥当な生成モデルの学習を指導することに焦点を当てる。 このモデルの学習アルゴリズムは、Hebbianのようなローカル更新ルールのため、ディープネットワークには適さないと仮定し、多層ネットワークが提供する構成特性を最大限に活用することができない。 我々は,マルチレベルデータ表現を用いて,異なる解像度の視覚的キューをネットワークの隠蔽層に提供することで,この問題を解決することを提案する。 いくつかの画像データセットの結果から、モデルがより優れた全体的な品質を得るだけでなく、生成した画像のより広範な多様性を得ることができることが示され、提案したヒューリスティックを用いて、モデルがネットワークの深さ成長をより活用できるという直感が裏付けられた。 さらに重要なことは、脳にインスパイアされたモデルや技術の基礎となる未調査の可能性を示すことだ。

A vast majority of the current research in the field of Machine Learning is done using algorithms with strong arguments pointing to their biological implausibility such as Backpropagation, deviating the field's focus from understanding its original organic inspiration to a compulsive search for optimal performance. Yet, there have been a few proposed models that respect most of the biological constraints present in the human brain and are valid candidates for mimicking some of its properties and mechanisms. In this paper, we will focus on guiding the learning of a biologically plausible generative model called the Helmholtz Machine in complex search spaces using a heuristic based on the Human Image Perception mechanism. We hypothesize that this model's learning algorithm is not fit for Deep Networks due to its Hebbian-like local update rule, rendering it incapable of taking full advantage of the compositional properties that multi-layer networks provide. We propose to overcome this problem, by providing the network's hidden layers with visual queues at different resolutions using a Multi-level Data representation. The results on several image datasets showed the model was able to not only obtain better overall quality but also a wider diversity in the generated images, corroborating our intuition that using our proposed heuristic allows the model to take more advantage of the network's depth growth. More importantly, they show the unexplored possibilities underlying brain-inspired models and techniques.
翻訳日:2022-10-27 15:25:08 公開日:2022-10-26
# ハイブリッドスパムメール検出のための遅発型マルチモーダル融合モデル

A Late Multi-Modal Fusion Model for Detecting Hybrid Spam E-mail ( http://arxiv.org/abs/2210.14616v1 )

ライセンス: Link先を確認
Zhibo Zhang, Ernesto Damiani, Hussam Al Hamadi, Chan Yeob Yeun, Fatma Taher(参考訳) 近年、スパマーは、画像とテキストの両方を組み合わせたハイブリッドスパムメールを導入して、その意図を難読化しようとしている。 この研究の動機は、従来のテキストベースやイメージベースのみのフィルタがハイブリッドスパム電子メールを検出できない状況を避けるために、ハイブリッドスパム電子メールをフィルタリングする効果的なアプローチを設計することにある。 私たちの知る限りでは、ハイブリッドスパムメールの検出を目標とした研究がいくつか行われている。 通常、光学文字認識(OCR)技術は、画像からテキストに変換することでスパムのイメージ部分を除去するために用いられる。 しかし、OCRスキャンはテキストと画像のハイブリッドスパム処理において非常に成功した手法であるが、CPUパワーと電子メールファイルをスキャンするのに要する実行時間により、膨大な量の処理に有効な解決策ではない。 また、OCR技術は変換プロセスにおいて常に信頼できるとは限らない。 このような問題に対処するために,ocr法に基づく従来の早期融合検出フレームワークと比較して,テキスト・画像ハイブリッドスパム電子メールフィルタリングシステムのための新しい遅発型マルチモーダル融合学習フレームワークを提案する。 合成ニューラルネットワーク(cnn)と単語の連続袋を,ハイブリッドスパムのイメージ部分とテキスト部分からそれぞれ抽出し,生成した特徴をランダムフォレスト(rf),決定木(dt),ナイーブベイズ(nb),サポートベクターマシン(svm)などのsgmoid層と機械学習に基づく分類器に供給し,電子メールハムやスパムを判定した。

In recent years, spammers are now trying to obfuscate their intents by introducing hybrid spam e-mail combining both image and text parts, which is more challenging to detect in comparison to e-mails containing text or image only. The motivation behind this research is to design an effective approach filtering out hybrid spam e-mails to avoid situations where traditional text-based or image-baesd only filters fail to detect hybrid spam e-mails. To the best of our knowledge, a few studies have been conducted with the goal of detecting hybrid spam e-mails. Ordinarily, Optical Character Recognition (OCR) technology is used to eliminate the image parts of spam by transforming images into text. However, the research questions are that although OCR scanning is a very successful technique in processing text-and-image hybrid spam, it is not an effective solution for dealing with huge quantities due to the CPU power required and the execution time it takes to scan e-mail files. And the OCR techniques are not always reliable in the transformation processes. To address such problems, we propose new late multi-modal fusion training frameworks for a text-and-image hybrid spam e-mail filtering system compared to the classical early fusion detection frameworks based on the OCR method. Convolutional Neural Network (CNN) and Continuous Bag of Words were implemented to extract features from image and text parts of hybrid spam respectively, whereas generated features were fed to sigmoid layer and Machine Learning based classifiers including Random Forest (RF), Decision Tree (DT), Naive Bayes (NB) and Support Vector Machine (SVM) to determine the e-mail ham or spam.
翻訳日:2022-10-27 15:24:45 公開日:2022-10-26
# clipbotは、遺伝的アルゴリズムの最適化によって歩くことを学ぶ、教育的で身体に障害のあるロボット

ClipBot: an educational, physically impaired robot that learns to walk via genetic algorithm optimization ( http://arxiv.org/abs/2210.14703v1 )

ライセンス: Link先を確認
Diego Ulisse Pizzagalli, Ilaria Arini, Mauro Prevostini(参考訳) 教育用ロボットは、機械、電子工学、情報学などの様々な原理を実験できる。 ここでは,2枚の紙クリップからなる低コストで自作のロボットClipBotを提案する。 Arduinoナノコントローラは、紙クリップを動かす2つのサーボモーターを作動させる。 しかし、このような機械的構成は運動に身体的障害を与える。 これにより、ハードウェアの制限を克服する人工知能の方法を実験する必要性が生まれます。 スイス財団のschweizer jugend forscht (www.sjf.ch) が主催する研究週間「fascinating informatics」におけるロボットの使用経験を報告する。 高校の生徒は、歩行を学ぶまでロボットの動きを最適化する遺伝的アルゴリズムを実装するよう求められた。 このような手法により、ロボットは20回未満のイテレーションで前進方向のストレートな動きをもたらす運動運動計画を学ぶことができた。

Educational robots allow experimenting with a variety of principles from mechanics, electronics, and informatics. Here we propose ClipBot, a low-cost, do-it-yourself, robot whose skeleton is made of two paper clips. An Arduino nano microcontroller actuates two servo motors that move the paper clips. However, such mechanical configuration confers physical impairments to movement. This creates the need for and allows experimenting with artificial intelligence methods to overcome hardware limitations. We report our experience in the usage of this robot during the study week 'fascinating informatics', organized by the Swiss Foundation Schweizer Jugend Forscht (www.sjf.ch). Students at the high school level were asked to implement a genetic algorithm to optimize the movements of the robot until it learned to walk. Such a methodology allowed the robot to learn the motor actuation scheme yielding straight movement in the forward direction using less than 20 iterations.
翻訳日:2022-10-27 15:24:13 公開日:2022-10-26
# CU-Net:LiDARの深さのみのコンプリート

CU-Net: LiDAR Depth-Only Completion With Coupled U-Net ( http://arxiv.org/abs/2210.14898v1 )

ライセンス: Link先を確認
Yufei Wang, Yuchao Dai, Qi Liu, Peng Yang, Jiadai Sun, Bo Li(参考訳) LiDAR深度のみの完成は、LiDARが取得した疎度測定点のみから深度マップを推定する難しい課題である。 奥行きのみの手法は広く開発されているが、余分なカラー画像を利用するRGB誘導法には大きな性能差がある。 既存の深度のみの手法は,測定点がほぼ正確で均等に分布する領域(通常領域と表記される)において良好な結果が得られるが,その一方で,前景と背景の点が重なり合う領域(重複領域と表記される)や計測点が存在しない領域(空白領域と表記される)では,これらの領域に信頼性のある入力情報がないため,性能が制限されている。 これらの観測結果に基づいて,深度のみを補完する効果的な結合型U-Netアーキテクチャを提案する。 回帰のために大きなネットワークを直接使用する代わりに、ローカルのu-netを使って正常な領域の正確な値を推定し、オーバーラップ領域と空白領域で信頼できる初期値を提供する。 2つの結合u-netによって予測される深度マップは、最終的な結果を得るために学習された信頼度マップによって融合される。 さらに, 簡易判定条件を用いて外乱除去を行う信頼度に基づく外乱除去モジュールを提案する。 提案手法は,パラメータを少なくして最終結果を向上し,KITTIベンチマークの最先端結果を得る。 さらに、様々な深度密度、様々な照明、気象条件の下で強力な一般化能力を持っている。

LiDAR depth-only completion is a challenging task to estimate dense depth maps only from sparse measurement points obtained by LiDAR. Even though the depth-only methods have been widely developed, there is still a significant performance gap with the RGB-guided methods that utilize extra color images. We find that existing depth-only methods can obtain satisfactory results in the areas where the measurement points are almost accurate and evenly distributed (denoted as normal areas), while the performance is limited in the areas where the foreground and background points are overlapped due to occlusion (denoted as overlap areas) and the areas where there are no measurement points around (denoted as blank areas) since the methods have no reliable input information in these areas. Building upon these observations, we propose an effective Coupled U-Net (CU-Net) architecture for depth-only completion. Instead of directly using a large network for regression, we employ the local U-Net to estimate accurate values in the normal areas and provide the global U-Net with reliable initial values in the overlap and blank areas. The depth maps predicted by the two coupled U-Nets are fused by learned confidence maps to obtain final results. In addition, we propose a confidence-based outlier removal module, which removes outliers using simple judgment conditions. Our proposed method boosts the final results with fewer parameters and achieves state-of-the-art results on the KITTI benchmark. Moreover, it owns a powerful generalization ability under various depth densities, varying lighting, and weather conditions.
翻訳日:2022-10-27 15:18:24 公開日:2022-10-26
# 3次元点雲のロバストマッチングのためのタスク固有記述子学習

Learning a Task-specific Descriptor for Robust Matching of 3D Point Clouds ( http://arxiv.org/abs/2210.14899v1 )

ライセンス: Link先を確認
Zhiyuan Zhang, Yuchao Dai, Bin Fan, Jiadai Sun, Mingyi He(参考訳) 既存の学習ベースのポイント特徴記述子は、通常はタスク非依存であり、個々の3Dポイントクラウドを可能な限り正確に記述する。 しかし、マッチングタスクは、異なる3Dポイントクラウド間で対応するポイントを一貫して記述することを目的としている。 したがって、これらの正確すぎる特徴は、局所幾何学における予測不能なノイズ、偏り、変形、および \etcによって引き起こされる対応の矛盾した点特徴表現によって、非生産的役割を果たす可能性がある。 本稿では,干渉下の正しい点対応を一貫して記述するために,ロバストなタスク固有の特徴記述子を学習することを提案する。 EDFNetはエンコーダと動的フュージョンモジュールで構築され、2つの側面から発展する。 まず,その反復的局所構造を利用して,対応の一致性を向上する。 この目的のために、特別なエンコーダは、各点記述子に2つの入力点雲を併用するように設計されている。 畳み込みによって現在の点雲の各点の局所幾何をキャプチャするだけでなく、変圧器による対点雲からの反復構造を利用する。 次に,異なるスケール特徴を共同で利用する動的融合モジュールを提案する。 単一スケールの特徴の堅牢性と差別性の間には必然的な闘争がある。 特に、この小さな受容フィールドにはほとんど干渉がないため、小規模の機能は堅牢である。 しかし、点雲の中に多くの反復的な局所構造が存在するため、十分な識別性はない。 したがって、結果のディスクリプタは多くの不正確なマッチにつながる。 対照的に、大規模な機能は近隣の情報を統合することでより差別的になる。 ...

Existing learning-based point feature descriptors are usually task-agnostic, which pursue describing the individual 3D point clouds as accurate as possible. However, the matching task aims at describing the corresponding points consistently across different 3D point clouds. Therefore these too accurate features may play a counterproductive role due to the inconsistent point feature representations of correspondences caused by the unpredictable noise, partiality, deformation, \etc, in the local geometry. In this paper, we propose to learn a robust task-specific feature descriptor to consistently describe the correct point correspondence under interference. Born with an Encoder and a Dynamic Fusion module, our method EDFNet develops from two aspects. First, we augment the matchability of correspondences by utilizing their repetitive local structure. To this end, a special encoder is designed to exploit two input point clouds jointly for each point descriptor. It not only captures the local geometry of each point in the current point cloud by convolution, but also exploits the repetitive structure from paired point cloud by Transformer. Second, we propose a dynamical fusion module to jointly use different scale features. There is an inevitable struggle between robustness and discriminativeness of the single scale feature. Specifically, the small scale feature is robust since little interference exists in this small receptive field. But it is not sufficiently discriminative as there are many repetitive local structures within a point cloud. Thus the resultant descriptors will lead to many incorrect matches. In contrast, the large scale feature is more discriminative by integrating more neighborhood information. ...
翻訳日:2022-10-27 15:17:55 公開日:2022-10-26
# 新しい課題:物理科学における意味クラス目標の導出

A New Task: Deriving Semantic Class Targets for the Physical Sciences ( http://arxiv.org/abs/2210.14760v1 )

ライセンス: Link先を確認
Micah Bowles, Hongming Tang, Eleni Vardoulaki, Emma L. Alexander, Yan Luo, Lawrence Rudnick, Mike Walmsley, Fiona Porter, Anna M. M. Scaife, Inigo Val Slijepcevic, Gary Segal(参考訳) 意味クラスターゲットの導出を,新しいマルチモーダルタスクとして定義する。 そこで我々は, 物理科学における分類体系の改善を目指しており, 厳密な抽象化と難読化が可能である。 我々は,今後の電波天文学調査において,この課題に対処し,派生した意味的電波銀河形態分類の目標を示す。

We define deriving semantic class targets as a novel multi-modal task. By doing so, we aim to improve classification schemes in the physical sciences which can be severely abstracted and obfuscating. We address this task for upcoming radio astronomy surveys and present the derived semantic radio galaxy morphology class targets.
翻訳日:2022-10-27 15:16:58 公開日:2022-10-26
# COEP:エントロピー保存ハイパーパラメータチューニングを用いた逆問題に対するカスケード最適化

COEP: Cascade Optimization for Inverse Problems with Entropy-Preserving Hyperparameter Tuning ( http://arxiv.org/abs/2210.13983v2 )

ライセンス: Link先を確認
Tianci Liu, Tong Yang, Quan Zhang, Qi Lei(参考訳) 深層生成モデルを用いて逆問題を解決するための,自動化および原理化されたフレームワークであるCOEPを提案する。 COEPは、最適化のためのカスケードアルゴリズムと、ハイパーパラメータチューニングのためのエントロピー保存基準からなる。 COEPを通して、2つのコンポーネントは、人間の評価を必要としない逆問題に対する効率的でエンドツーエンドの解決器を構築する。 提案手法の理論的保証を確立する。 また,逆問題における2つの基本課題である,ノイズ除去とノイズ圧縮センシングにおけるcoepの強みを実証的に検証した。

We propose COEP, an automated and principled framework to solve inverse problems with deep generative models. COEP consists of two components, a cascade algorithm for optimization and an entropy-preserving criterion for hyperparameter tuning. Through COEP, the two components build up an efficient and end-to-end solver for inverse problems that require no human evaluation. We establish theoretical guarantees for the proposed methods. We also empirically validate the strength of COEP on denoising and noisy compressed sensing, which are two fundamental tasks in inverse problems.
翻訳日:2022-10-27 15:16:35 公開日:2022-10-26
# RapidAI4EO:CORINE土地被覆製品の更新のための単時間・多時間深層学習モデル

RapidAI4EO: Mono- and Multi-temporal Deep Learning models for Updating the CORINE Land Cover Product ( http://arxiv.org/abs/2210.14624v1 )

ライセンス: Link先を確認
Priyash Bhugra, Benjamin Bischke, Christoph Werner, Robert Syrnicki, Carolin Packbier, Patrick Helber, Caglar Senaras, Akhil Singh Rana, Tim Davis, Wanda De Keersmaecker, Daniele Zanaga, Annett Wania, Ruben Van De Kerchove, Giovanni Marchisio(参考訳) リモートセンシングコミュニティでは、衛星画像を用いた土地利用土地被覆(lulc)分類が、現在の研究活動の焦点となっている。 しかし、正確な適切なlulc分類は依然として困難な課題である。 本論文では,rapidai4eoデータセット上での教師付き学習を用いて,マルチラベル分類のための単時空間(シングルタイムステップ)衛星画像と比較した。 最初のステップとして、画像上でCNNモデルを訓練し、マルチラベル分類、すなわちモノ時間分類を行った。 LSTMモデルを用いて、衛星からのマルチ時間信号がLCC分類を改善するか否かを評価する。 その結果,月次時系列画像に対するマルチテンポラルアプローチを用いて,衛星画像の分類において,単時的アプローチと比較して約0.89%の改善が示された。 マルチタイムイメージやモノタイムイメージの機能を利用することで、効率的な変更検出と土地監視のアプローチへの一歩を踏み出します。

In the remote sensing community, Land Use Land Cover (LULC) classification with satellite imagery is a main focus of current research activities. Accurate and appropriate LULC classification, however, continues to be a challenging task. In this paper, we evaluate the performance of multi-temporal (monthly time series) compared to mono-temporal (single time step) satellite images for multi-label classification using supervised learning on the RapidAI4EO dataset. As a first step, we trained our CNN model on images at a single time step for multi-label classification, i.e. mono-temporal. We incorporated time-series images using a LSTM model to assess whether or not multi-temporal signals from satellites improves CLC classification. The results demonstrate an improvement of approximately 0.89% in classifying satellite imagery on 15 classes using a multi-temporal approach on monthly time series images compared to the mono-temporal approach. Using features from multi-temporal or mono-temporal images, this work is a step towards an efficient change detection and land monitoring approach.
翻訳日:2022-10-27 15:09:44 公開日:2022-10-26
# 確率表現を用いた半教師付き意味セグメンテーションの促進

Boosting Semi-Supervised Semantic Segmentation with Probabilistic Representations ( http://arxiv.org/abs/2210.14670v1 )

ライセンス: Link先を確認
Haoyu Xie, Changqi Wang, Mingkai Zheng, Minjing Dong, Shan You, Chang Xu(参考訳) 半教師付きセマンティックセグメンテーションの最近の進歩は、対照的な学習を通じて発展してきた。 一般的な画素比較学習ソリューションでは、モデルは画素を決定論的表現にマッピングし、潜在空間でそれらを正規化する。 しかし、モデルの認知能力に制限があるため、画素の曖昧な表現を間違ったクラスにマッピングする不正確な擬似ラベルが存在する。 本稿では,確率論の新しい視点から画素単位表現を定義し,その確率を考慮に入れて表現品質を向上させる確率的表現比較学習(prcl)フレームワークを提案する。 画素から多変量ガウス分布による確率としての表現への写像をモデル化することにより、不正確な擬ラベルのリスクを許容するために曖昧な表現の寄与を調整できる。 さらに,プロトタイプを分散の形で定義する。これは,ポイントプロトタイプではできないが,クラスの信頼性を示すものである。 さらに,表現の信頼性を高めるため,分散分散の正規化を提案する。 これらの利点を生かして、高品質な特徴表現を潜在空間で導き出すことができ、セマンティックセグメンテーションの性能をさらに向上させることができる。 パスカルVOCとCityScapesでPRCLを評価するのに十分な実験を行った。 最先端手法との比較は,提案したPRCLの優位性を示している。

Recent breakthroughs in semi-supervised semantic segmentation have been developed through contrastive learning. In prevalent pixel-wise contrastive learning solutions, the model maps pixels to deterministic representations and regularizes them in the latent space. However, there exist inaccurate pseudo-labels which map the ambiguous representations of pixels to the wrong classes due to the limited cognitive ability of the model. In this paper, we define pixel-wise representations from a new perspective of probability theory and propose a Probabilistic Representation Contrastive Learning (PRCL) framework that improves representation quality by taking its probability into consideration. Through modeling the mapping from pixels to representations as the probability via multivariate Gaussian distributions, we can tune the contribution of the ambiguous representations to tolerate the risk of inaccurate pseudo-labels. Furthermore, we define prototypes in the form of distributions, which indicates the confidence of a class, while the point prototype cannot. Moreover, we propose to regularize the distribution variance to enhance the reliability of representations. Taking advantage of these benefits, high-quality feature representations can be derived in the latent space, thereby the performance of semantic segmentation can be further improved. We conduct sufficient experiment to evaluate PRCL on Pascal VOC and CityScapes. The comparisons with state-of-the-art approaches demonstrate the superiority of proposed PRCL.
翻訳日:2022-10-27 15:09:27 公開日:2022-10-26
# ロングテール食品分類

Long-tailed Food Classification ( http://arxiv.org/abs/2210.14748v1 )

ライセンス: Link先を確認
Jiangpeng He, Luotao Lin, Heather Eicher-Miller, Fengqing Zhu(参考訳) 食品分類は、画像に基づく食品評価の基本的なステップであり、入力画像ごとに食品の種類を予測する。 しかし、現実のシナリオにおける食品イメージの予測は、通常、異なる食品クラスに分散するロングテールであり、重いクラス不均衡と性能の制限を引き起こす。 さらに、既存のロングテールの分類法はいずれも食品データに焦点を当てていないため、クラス間差が低く、クラス内類似度が高いため、より困難である。 本研究は,VFN-LTのサンプル数が実世界の長期食品分布を示すフード101-LTとVFN-LTを含む,長期食品分類のための2つの新しいベンチマークデータセットを最初に導入する。 そこで本研究では,(1)知識蒸留による学習情報の保持とともに冗長なサンプルを除去するヘッドクラスをアンサンプリングし,(2)視覚情報拡張を行うことでテールクラスをオーバーサンプリングすることで,クラス不均衡の問題に対処する新しい2相フレームワークを提案する。 本手法は,既存の最先端のロングテール分類法と比較し,food101-ltとvfn-ltのベンチマークで性能が向上した。 その結果,本手法を実生活応用に適用する可能性が示された。

Food classification serves as the basic step of image-based dietary assessment to predict the types of foods in each input image. However, food image predictions in a real world scenario are usually long-tail distributed among different food classes, which cause heavy class-imbalance problems and a restricted performance. In addition, none of the existing long-tailed classification methods focus on food data, which can be more challenging due to the lower inter-class and higher intra-class similarity among foods. In this work, we first introduce two new benchmark datasets for long-tailed food classification including Food101-LT and VFN-LT where the number of samples in VFN-LT exhibits the real world long-tailed food distribution. Then we propose a novel 2-Phase framework to address the problem of class-imbalance by (1) undersampling the head classes to remove redundant samples along with maintaining the learned information through knowledge distillation, and (2) oversampling the tail classes by performing visual-aware data augmentation. We show the effectiveness of our method by comparing with existing state-of-the-art long-tailed classification methods and show improved performance on both Food101-LT and VFN-LT benchmarks. The results demonstrate the potential to apply our method to related real life applications.
翻訳日:2022-10-27 15:09:06 公開日:2022-10-26
# 高速かつ堅牢な内視鏡コンテンツ領域推定:リーンGPUベースのパイプラインとベンチマークデータセット

Rapid and robust endoscopic content area estimation: A lean GPU-based pipeline and curated benchmark dataset ( http://arxiv.org/abs/2210.14771v1 )

ライセンス: Link先を確認
Charlie Budd, Luis C. Garcia-Peraza-Herrera, Martin Huber, Sebastien Ourselin, Tom Vercauteren(参考訳) 内視鏡的コンテンツ領域は、ほとんどの内視鏡的映像に存在する暗黒、非形、境界領域で囲まれた情報的領域を指す。 コンテンツ領域の推定は内視鏡画像処理やコンピュータビジョンパイプラインにおいて一般的な課題である。 問題の明らかな単純さにもかかわらず、いくつかの要因は、信頼できるリアルタイム推定を驚くほど困難にしている。 トピックに関する厳密な調査の欠如と、このタスクのための共通のベンチマークデータセットの欠如は、この分野で長く続いている問題である。 本稿では,エッジ検出と円の嵌合を組み合わせた,リーンGPUベースの計算パイプラインの2つの変種を提案する。 2つの変種は手作りの特徴に依存して異なり、それぞれが学習した特徴はコンテンツ領域のエッジポイント候補を抽出する。 また,手動で注釈付きおよび疑似ラベル付きコンテンツ領域を,外科的適応の範囲で比較検討した。 さらなる発展を促すため、キュレートされたデータセットと両方のアルゴリズムの実装が公開された(https://doi.org/10.7303/syn32148000, https://github.com/charliebudd/torch-content-area)。 提案手法を最先端のu-netアプローチと比較し,精度(ハウスドルフ距離: 6.3 px 対 118.1 px)と計算時間(フレーム当たり平均ランタイム: 0.13 ms 対 11.2 ms)の両面で有意な改善を示した。

Endoscopic content area refers to the informative area enclosed by the dark, non-informative, border regions present in most endoscopic footage. The estimation of the content area is a common task in endoscopic image processing and computer vision pipelines. Despite the apparent simplicity of the problem, several factors make reliable real-time estimation surprisingly challenging. The lack of rigorous investigation into the topic combined with the lack of a common benchmark dataset for this task has been a long-lasting issue in the field. In this paper, we propose two variants of a lean GPU-based computational pipeline combining edge detection and circle fitting. The two variants differ by relying on handcrafted features, and learned features respectively to extract content area edge point candidates. We also present a first-of-its-kind dataset of manually annotated and pseudo-labelled content areas across a range of surgical indications. To encourage further developments, the curated dataset, and an implementation of both algorithms, has been made public (https://doi.org/10.7303/syn32148000, https://github.com/charliebudd/torch-content-area). We compare our proposed algorithm with a state-of-the-art U-Net-based approach and demonstrate significant improvement in terms of both accuracy (Hausdorff distance: 6.3 px versus 118.1 px) and computational time (Average runtime per frame: 0.13 ms versus 11.2 ms).
翻訳日:2022-10-27 15:08:42 公開日:2022-10-26
# 一般化視覚認識のためのデカップリングミキシング

Decoupled Mixup for Generalized Visual Recognition ( http://arxiv.org/abs/2210.14783v1 )

ライセンス: Link先を確認
Haozhe Liu, Wentian Zhang, Jinheng Xie, Haoqian Wu, Bing Li, Ziqi Zhang, Yuexiang Li, Yawen Huang, Bernard Ghanem, Yefeng Zheng(参考訳) 畳み込みニューラルネットワーク(CNN)は、トレーニングデータとテストデータが同じ分布である場合に顕著な性能を示す。 しかしながら、そのようなトレーニングされたcnnモデルは、多くの場合、見当たらないテストデータ(ood)で劣化する。 そこで本研究では,OOD視覚認識のためのCNNモデルを学習するための「デカップリング・ミクスアップ」手法を提案する。 画像の対を均質に組み合わせた従来の研究とは違い,本手法は各画像を識別領域と雑音発生領域に分離し,その領域を均一に組み合わせてCNNモデルを訓練する。 学習中のCNNモデルの一般化能力には, テキストや乱雑な背景などのノイズ発生領域が悪影響を及ぼすため, 識別領域の特徴を高め, 画像ペアの組み合わせによるノイズ発生領域の抑制を行う。 訓練モデルの一般化能力をさらに高めるため,周波数ベースおよびコンテキストベースで識別可能領域と雑音性領域を区別する手法を提案する。 実験結果から,本手法がTrack-1における85.76\%,Track-2における79.92\%の精度を達成できる無意味な文脈から構成したデータに対して,高い一般化性能を示す。 ソースコードはhttps://github.com/HaozheLiu-ST/NICOChallenge-OOD-Classificationで公開されている。

Convolutional neural networks (CNN) have demonstrated remarkable performance when the training and testing data are from the same distribution. However, such trained CNN models often largely degrade on testing data which is unseen and Out-Of-the-Distribution (OOD). To address this issue, we propose a novel "Decoupled-Mixup" method to train CNN models for OOD visual recognition. Different from previous work combining pairs of images homogeneously, our method decouples each image into discriminative and noise-prone regions, and then heterogeneously combines these regions of image pairs to train CNN models. Since the observation is that noise-prone regions such as textural and clutter backgrounds are adverse to the generalization ability of CNN models during training, we enhance features from discriminative regions and suppress noise-prone ones when combining an image pair. To further improve the generalization ability of trained models, we propose to disentangle discriminative and noise-prone regions in frequency-based and context-based fashions. Experiment results show the high generalization performance of our method on testing data that are composed of unseen contexts, where our method achieves 85.76\% top-1 accuracy in Track-1 and 79.92\% in Track-2 in the NICO Challenge. The source code is available at https://github.com/HaozheLiu-ST/NICOChallenge-OOD-Classification.
翻訳日:2022-10-27 15:08:14 公開日:2022-10-26
# M$3$ViT: Model-Accelerator共設計によるマルチタスク学習のためのM$3$ViT

M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task Learning with Model-Accelerator Co-design ( http://arxiv.org/abs/2210.14793v1 )

ライセンス: Link先を確認
Hanxue Liang, Zhiwen Fan, Rishov Sarkar, Ziyu Jiang, Tianlong Chen, Kai Zou, Yu Cheng, Cong Hao, Zhangyang Wang(参考訳) マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。 しかし、リソース制約やレイテンシに敏感な実際のシステムにMTLをデプロイする場合、2つの大きな課題が発生する。 (i) 訓練中、タスク間の勾配の衝突により、全てのタスクを同時に最適化することがしばしば困難である。 (ii)現在のmtlレジームでは、1つのタスクを実行するだけでもモデル全体を活性化する必要がある。 しかし、ほとんどの実システムでは、各瞬間に1つか2つのタスクしか要求せず、必要に応じてタスクを切り替える必要がある。 本稿では,デバイス上で効率的なMTLを実現するためのモデルアクセラレータ共設計フレームワークを提案する。 我々のフレームワークはM$^3$ViTと呼ばれ、MTLのビジョントランスフォーマー(ViT)バックボーンにME(Mix-of-experts)層をカスタマイズし、トレーニング中にタスク固有の専門家をわずかに活性化する。 興味のあるタスクを推論すると、同じ設計で、完全なモデルではなく、タスク対応のスパースエキスパートパスのみを活性化することができる。 我々の新しいモデル設計は、ハードウェアレベルの革新、特に、タスク間のゼロオーバーヘッド切替を実現し、あらゆる専門家にスケール可能なメモリ制約型MTLに適した、新しい計算リオーダー方式によってさらに強化されている。 シングルタスク推論を行う場合、M$^{3}$ViTはエンコーダ中心のMTL法よりも高い精度を実現し、88%のFLOPを著しく削減する。 Xilinx ZCU104 FPGAのハードウェアプラットフォームに実装した場合、我々の共同設計フレームワークは、同等のFPGAベースラインよりも最大9.23倍高いエネルギー効率を実現しつつ、メモリ要求を2.4倍削減する。 コードはhttps://github.com/VITA-Group/M3ViT.comで入手できる。

Multi-task learning (MTL) encapsulates multiple learned tasks in a single model and often lets those tasks learn better jointly. However, when deploying MTL onto those real-world systems that are often resource-constrained or latency-sensitive, two prominent challenges arise: (i) during training, simultaneously optimizing all tasks is often difficult due to gradient conflicts across tasks; (ii) at inference, current MTL regimes have to activate nearly the entire model even to just execute a single task. Yet most real systems demand only one or two tasks at each moment, and switch between tasks as needed: therefore such all tasks activated inference is also highly inefficient and non-scalable. In this paper, we present a model-accelerator co-design framework to enable efficient on-device MTL. Our framework, dubbed M$^3$ViT, customizes mixture-of-experts (MoE) layers into a vision transformer (ViT) backbone for MTL, and sparsely activates task-specific experts during training. Then at inference with any task of interest, the same design allows for activating only the task-corresponding sparse expert pathway, instead of the full model. Our new model design is further enhanced by hardware-level innovations, in particular, a novel computation reordering scheme tailored for memory-constrained MTL that achieves zero-overhead switching between tasks and can scale to any number of experts. When executing single-task inference, M$^{3}$ViT achieves higher accuracies than encoder-focused MTL methods, while significantly reducing 88% inference FLOPs. When implemented on a hardware platform of one Xilinx ZCU104 FPGA, our co-design framework reduces the memory requirement by 2.4 times, while achieving energy efficiency up to 9.23 times higher than a comparable FPGA baseline. Code is available at: https://github.com/VITA-Group/M3ViT.
翻訳日:2022-10-27 15:07:48 公開日:2022-10-26
# 3次元ビデオ合成のためのストリーミングラジアンス場

Streaming Radiance Fields for 3D Video Synthesis ( http://arxiv.org/abs/2210.14831v1 )

ライセンス: Link先を確認
Lingzhi Li, Zhen Shen, Zhongshu Wang, Li Shen, Ping Tan(参考訳) 本稿では,実世界の動的シーンの新しいビュー合成のために,ストリーミングラミアンスフィールドを効率的に再構成するための明示的グリッドベース手法を提案する。 すべてのフレームを組み合わせた単一のモデルをトレーニングする代わりに、動的モデリング問題をインクリメンタルな学習パラダイムで定式化し、フレームごとのモデル差をトレーニングして、現在のフレームへのベースモデルの適応を補完する。 提案手法は,狭帯域を用いたシンプルながら効果的なチューニング戦略を生かし,高速なトレーニング効率で映像シーケンスの処理が可能なフレームワークを実現する。 明示的なグリッド表現によって引き起こされるストレージオーバーヘッドは、モデル差分ベースの圧縮によって大幅に削減できる。 また,各フレームのモデル最適化をさらに加速する効率的な戦略を提案する。 挑戦的なビデオシーケンスの実験は、我々のアプローチがフレームあたり15秒のトレーニング速度を、競争力のあるレンダリング品質で達成でき、最先端の暗黙的メソッドよりも1000ドルのスピードアップを達成できることを示しています。 コードはhttps://github.com/AlgoHunt/StreamRF.comで入手できる。

We present an explicit-grid based method for efficiently reconstructing streaming radiance fields for novel view synthesis of real world dynamic scenes. Instead of training a single model that combines all the frames, we formulate the dynamic modeling problem with an incremental learning paradigm in which per-frame model difference is trained to complement the adaption of a base model on the current frame. By exploiting the simple yet effective tuning strategy with narrow bands, the proposed method realizes a feasible framework for handling video sequences on-the-fly with high training efficiency. The storage overhead induced by using explicit grid representations can be significantly reduced through the use of model difference based compression. We also introduce an efficient strategy to further accelerate model optimization for each frame. Experiments on challenging video sequences demonstrate that our approach is capable of achieving a training speed of 15 seconds per-frame with competitive rendering quality, which attains $1000 \times$ speedup over the state-of-the-art implicit methods. Code is available at https://github.com/AlgoHunt/StreamRF.
翻訳日:2022-10-27 15:06:58 公開日:2022-10-26
# ディープフェイク検出のための異方性マルチレゾリューション解析

Anisotropic multiresolution analyses for deep fake detection ( http://arxiv.org/abs/2210.14874v1 )

ライセンス: Link先を確認
Wei Huang and Michelangelo Valsecchi and Michael Multerer(参考訳) generative adversarial networks (gans)は、画像、ビデオ、音声合成の最前線で、全く新しいメディア生成機能への道を開いた。 しかし、それを誤用して悪用して精巧な嘘をつくり、大衆の議論をかき立てることもできる。 GANが引き起こした脅威は、本物のコンテンツと製造されたものを区別する必要性を喚起した。 これまでの研究では、k-nearest neighborsやeigenfacesといった古典的な機械学習技術を使ってこの課題に取り組んできたが、残念ながらあまり効果がなかった。 その後の手法は周波数分解、すなわち離散コサイン変換、ウェーブレット、ウェーブレットパケットを利用して分類器の入力特徴を前処理することに集中している。 しかし、既存のアプローチは等方変換のみに依存する。 GANは、主に等方的畳み込みを利用して出力を生成するため、異方的変換によって抽出されたサブバンド上の係数分布に明確な痕跡、指紋を残す。 我々は、完全分離可能なウェーブレット変換とマルチウェーブレットを用いて、標準CNN分類器にフィードする異方性特徴を得る。 最後に、最先端技術を改善することができる完全分離可能な変換を見出す。

Generative Adversarial Networks (GANs) have paved the path towards entirely new media generation capabilities at the forefront of image, video, and audio synthesis. However, they can also be misused and abused to fabricate elaborate lies, capable of stirring up the public debate. The threat posed by GANs has sparked the need to discern between genuine content and fabricated one. Previous studies have tackled this task by using classical machine learning techniques, such as k-nearest neighbours and eigenfaces, which unfortunately did not prove very effective. Subsequent methods have focused on leveraging on frequency decompositions, i.e., discrete cosine transform, wavelets, and wavelet packets, to preprocess the input features for classifiers. However, existing approaches only rely on isotropic transformations. We argue that, since GANs primarily utilize isotropic convolutions to generate their output, they leave clear traces, their fingerprint, in the coefficient distribution on sub-bands extracted by anisotropic transformations. We employ the fully separable wavelet transform and multiwavelets to obtain the anisotropic features to feed to standard CNN classifiers. Lastly, we find the fully separable transform capable of improving the state-of-the-art.
翻訳日:2022-10-27 15:06:42 公開日:2022-10-26
# 置換行列学習による密接点対応の探索

Searching Dense Point Correspondences via Permutation Matrix Learning ( http://arxiv.org/abs/2210.14897v1 )

ライセンス: Link先を確認
Zhiyuan Zhang, Jiadai Sun, Yuchao Dai, Bin Fan, Qi Liu(参考訳) 一般の3次元信号表現として3次元点雲データが注目されているが,3次元形状間の密接な対応推定のタスクに点雲を適用することは広くは研究されていない。 さらに、既存の3dポイントクラウドベースの手法でも、重要かつ広く認識されている原則である。 1対1のマッチングは通常無視される。 そこで本研究では,3次元点雲の高密度対応を推定する新たなエンドツーエンド学習手法を提案し,点マッチングの問題をゼロワン代入問題として定式化し,置換マッチング行列を達成し,その原理を基本的に実装する。 この割り当て問題の古典的な解は常に微分不可能であり、ディープラーニングフレームワークでは致命的である。 そこで我々は,まず2倍確率行列を解き,得られた近似解を所望の置換行列に投影する,特別なマッチングモジュールを設計する。 さらに,エンド・ツー・エンド学習と計算損失の精度を保証するため,学習した置換行列からの損失を計算するとともに,後方伝播中に置換行列をバイパスする二重確率行列に直接勾配を伝搬する。 本手法は, 厳密で厳密な3次元点雲データにも適用可能であり, 広範に実験した結果, 高密度対応学習のための最先端性能が得られた。

Although 3D point cloud data has received widespread attentions as a general form of 3D signal expression, applying point clouds to the task of dense correspondence estimation between 3D shapes has not been investigated widely. Furthermore, even in the few existing 3D point cloud-based methods, an important and widely acknowledged principle, i.e . one-to-one matching, is usually ignored. In response, this paper presents a novel end-to-end learning-based method to estimate the dense correspondence of 3D point clouds, in which the problem of point matching is formulated as a zero-one assignment problem to achieve a permutation matching matrix to implement the one-to-one principle fundamentally. Note that the classical solutions of this assignment problem are always non-differentiable, which is fatal for deep learning frameworks. Thus we design a special matching module, which solves a doubly stochastic matrix at first and then projects this obtained approximate solution to the desired permutation matrix. Moreover, to guarantee end-to-end learning and the accuracy of the calculated loss, we calculate the loss from the learned permutation matrix but propagate the gradient to the doubly stochastic matrix directly which bypasses the permutation matrix during the backward propagation. Our method can be applied to both non-rigid and rigid 3D point cloud data and extensive experiments show that our method achieves state-of-the-art performance for dense correspondence learning.
翻訳日:2022-10-27 15:06:22 公開日:2022-10-26
# SimpleDG: ベルとウィスレスのないシンプルなドメイン一般化ベースライン

SimpleDG: Simple Domain Generalization Baseline without Bells and Whistles ( http://arxiv.org/abs/2210.14507v1 )

ライセンス: Link先を確認
Zhi Lv, Bo Lin, Siyuan Liang, Lihua Wang, Mochen Yu, Yao Tang and Jiajun Liang(参考訳) 本稿では、NICO CHALLENGE 2022において、共通コンテキスト一般化トラックとハイブリッドコンテキスト一般化トラックで2位となる、シンプルなドメイン一般化ベースラインを提案する。 近年の文献, ドメインベッドにおいて, ERMは最近の最先端のドメイン一般化法と比較して強力なベースラインであることを検証するとともに, 一般化性能をさらに向上させるシンプルで効果的な設計を含むSimpleDGを提案する。 コードはhttps://github.com/megvii-research/SimpleDGで入手できる。

We present a simple domain generalization baseline, which wins second place in both the common context generalization track and the hybrid context generalization track respectively in NICO CHALLENGE 2022. We verify the founding in recent literature, domainbed, that ERM is a strong baseline compared to recent state-of-the-art domain generalization methods and propose SimpleDG which includes several simple yet effective designs that further boost generalization performance. Code is available at https://github.com/megvii-research/SimpleDG
翻訳日:2022-10-27 15:00:24 公開日:2022-10-26
# ビデオ対話のためのエンドツーエンドマルチモーダル表現学習

End-to-End Multimodal Representation Learning for Video Dialog ( http://arxiv.org/abs/2210.14512v1 )

ライセンス: Link先を確認
Huda Alamri, Anthony Bilic, Michael Hu, Apoorva Beedu, Irfan Essa(参考訳) ビデオベースのダイアログタスクは,ここ数年で新たなパフォーマンス記録を獲得して注目を集めている,マルチモーダル学習タスクである。 この進歩は、より強力なトランスフォーマーベースの言語エンコーダの適応に大きく影響している。 この進歩にもかかわらず、既存のアプローチはタスクの解決に視覚的特徴を効果的に利用していない。 近年の研究では、最先端のモデルは視覚的手がかりよりもテキスト情報に偏っていることが示されている。 そこで本研究では,3d-cnnネットワークとトランスフォーマーネットワークを組み合わせることで,映像からよりロバストな意味表現を抽出する新しいフレームワークを提案する。 ビジュアルエンコーダは、テキストやオーディオなどの他の入力モダリティと共同で訓練される。 AVSDタスクの実験は、生成タスクと検索タスクの両方において、ベースラインよりも大幅に改善されている。

Video-based dialog task is a challenging multimodal learning task that has received increasing attention over the past few years with state-of-the-art obtaining new performance records. This progress is largely powered by the adaptation of the more powerful transformer-based language encoders. Despite this progress, existing approaches do not effectively utilize visual features to help solve tasks. Recent studies show that state-of-the-art models are biased toward textual information rather than visual cues. In order to better leverage the available visual information, this study proposes a new framework that combines 3D-CNN network and transformer-based networks into a single visual encoder to extract more robust semantic representations from videos. The visual encoder is jointly trained end-to-end with other input modalities such as text and audio. Experiments on the AVSD task show significant improvement over baselines in both generative and retrieval tasks.
翻訳日:2022-10-27 15:00:14 公開日:2022-10-26
# 位置・アクティベーション・シャープニングを用いたrgb-t意味セグメンテーション

RGB-T Semantic Segmentation with Location, Activation, and Sharpening ( http://arxiv.org/abs/2210.14530v1 )

ライセンス: Link先を確認
Gongyang Li, Yike Wang, Zhi Liu, Xinpeng Zhang, Dan Zeng(参考訳) シーン理解にはセマンティックセグメンテーションが重要である。 自然画像の照明条件の悪さに対処するために、熱赤外(TIR)画像を導入する。 既存のrgb-tセマンティクスセグメンテーション法は、3つのクロスモーダル融合パラダイム、すなわちエンコーダ融合、デコーダ融合、特徴融合に従う。 残念なことに、いくつかのメソッドはRGBとTIRの特徴や異なるレベルの特徴を無視する。 本稿では,RGB-Tセマンティックセマンティックセグメンテーションのための新しいフュージョンベースネットワークであるemph{LASNet}を提案する。 LASNetの特長は、異なるレベルでのクロスモーダル機能の特徴を完全に考慮し、より良いセグメンテーションのための3つの特定のモジュールを提案することである。 具体的には,すべての潜在的なオブジェクトの探索を目的とした,高レベルなセマンティック機能のための協調配置モジュール(CLM)を提案する。 異なる対象の正確な領域を活性化することを目的とした,中間レベルの機能のための補完的アクティベーションモジュールを提案する。 低レベルのテクスチャ機能を実現するためのエッジシャープニングモジュール (ESM) を提案する。 さらに、トレーニング段階では、それぞれCLMとESMの後に位置監視とエッジ監視を付加し、デコーダ部に2つの意味的監督を課し、ネットワークの収束を促進する。 2つの公開データセットの実験結果から、LASNetが関連する最先端手法よりも優れていることが示された。 このメソッドのコードと結果は、https://github.com/mathlee/lasnetで入手できます。

Semantic segmentation is important for scene understanding. To address the scenes of adverse illumination conditions of natural images, thermal infrared (TIR) images are introduced. Most existing RGB-T semantic segmentation methods follow three cross-modal fusion paradigms, i.e. encoder fusion, decoder fusion, and feature fusion. Some methods, unfortunately, ignore the properties of RGB and TIR features or the properties of features at different levels. In this paper, we propose a novel feature fusion-based network for RGB-T semantic segmentation, named \emph{LASNet}, which follows three steps of location, activation, and sharpening. The highlight of LASNet is that we fully consider the characteristics of cross-modal features at different levels, and accordingly propose three specific modules for better segmentation. Concretely, we propose a Collaborative Location Module (CLM) for high-level semantic features, aiming to locate all potential objects. We propose a Complementary Activation Module for middle-level features, aiming to activate exact regions of different objects. We propose an Edge Sharpening Module (ESM) for low-level texture features, aiming to sharpen the edges of objects. Furthermore, in the training phase, we attach a location supervision and an edge supervision after CLM and ESM, respectively, and impose two semantic supervisions in the decoder part to facilitate network convergence. Experimental results on two public datasets demonstrate that the superiority of our LASNet over relevant state-of-the-art methods. The code and results of our method are available at https://github.com/MathLee/LASNet.
翻訳日:2022-10-27 15:00:03 公開日:2022-10-26
# 視覚質問応答のための事前学習モデル圧縮とデバイアス

Compressing And Debiasing Vision-Language Pre-Trained Models for Visual Question Answering ( http://arxiv.org/abs/2210.14558v1 )

ライセンス: Link先を確認
Qingyi Si, Yuanxin Liu, Zheng Lin, Peng Fu and Weiping Wang(参考訳) 従来の視覚的質問応答タスクにおける大規模視覚言語事前学習モデル(VLP)の優れたパフォーマンスにもかかわらず、それらはまだ2つの問題に悩まされている。 第二に、メモリフットプリントと計算の点で非効率である。 どちらの問題にも有望な進展があったが、既存の作業の多くは独立して対処している。 VLPのVQAタスクへの適用を容易にするため、VLP圧縮とOODロバスト性について共同研究することが不可欠であるが、まだ検討されていない。 本稿では, スパースとロバストなサブネットを探索することにより, VLPを同時に圧縮・脱バイアスできるかどうかを検討する。 そこで我々は,OODデータセットのVQA-CP v2上で,代表的VLPであるLXMERTを用いて広範な実験を行った。 我々は,サブネットワークを探索するためのトレーニングおよび圧縮パイプラインの設計と,異なるモダリティ固有のモジュールへのスパーシティの割り当てを体系的に検討する。 以上の結果から,LXMERTサブネットワークは,パラメータがはるかに少ない(偏りを伴わない)モデルよりもはるかに優れていることがわかった。 これらのサブネットワークは、同等または少ないパラメータを持つ現在のSoTAデバイアスモデルを超えている。 私たちは公開するコードをリリースします。

Despite the excellent performance of large-scale vision-language pre-trained models (VLPs) on conventional visual question answering task, they still suffer from two problems: First, VLPs tend to rely on language biases in datasets and fail to generalize to out-of-distribution (OOD) data. Second, they are inefficient in terms of memory footprint and computation. Although promising progress has been made in both problems, most existing works tackle them independently. To facilitate the application of VLP to VQA tasks, it is imperative to jointly study VLP compression and OOD robustness, which, however, has not yet been explored. In this paper, we investigate whether a VLP can be compressed and debiased simultaneously by searching sparse and robust subnetworks. To this end, we conduct extensive experiments with LXMERT, a representative VLP, on the OOD dataset VQA-CP v2. We systematically study the design of a training and compression pipeline to search the subnetworks, as well as the assignment of sparsity to different modality-specific modules. Our results show that there indeed exist sparse and robust LXMERT subnetworks, which significantly outperform the full model (without debiasing) with much fewer parameters. These subnetworks also exceed the current SoTA debiasing models with comparable or fewer parameters. We will release the codes on publication.
翻訳日:2022-10-27 14:59:31 公開日:2022-10-26
# FairCLIP:属性型学習と表現中立化に基づく社会的バイアス除去

FairCLIP: Social Bias Elimination based on Attribute Prototype Learning and Representation Neutralization ( http://arxiv.org/abs/2210.14562v1 )

ライセンス: Link先を確認
Junyang Wang, Yi Zhang and Jitao Sang(参考訳) CLIPのようなVision-Language Pre-Training(VLP)モデルは近年人気を集めている。 しかし、CLIPに隠された社会的バイアスは、下流のタスク、特に画像検索において容易に現れ、人間の社会に有害な影響を及ぼす可能性がある。 そこで本研究では,クリップベース画像検索における社会的バイアスを解消するために,デバイアス効果と検索性能との互換性を実現する検索性能を損なうことなく,fairclipを提案する。 FairCLIPはAPL(Atribute Prototype Learning)とRN(Representation Neutralization)の2つのステップに分けられる。 最初のステップでは、CLIPのデバイアス化に必要な概念を抽出する。 学習可能な単語ベクトルプレフィックスを用いた問合せを抽出構造として用いる。 第2のステップでは、まず属性をターゲット属性とバイアス属性に分割します。 分析により、両方の属性がバイアスに影響を与えることがわかった。 そこで,表現の中立化を実現するためにRe-Representation Matrix (RRM) を用いてバイアスを取り除く。 劣化効果と検索性能を他の手法と比較し,FairCLIPが最適な互換性を実現することを示す実験を行った。 FairCLIPは画像検索のバイアスを取り除くために使用されるが、すべてのCLIP下流タスクに共通する表現の中立化を実現する。 これは、FairCLIPがCLIPに関連する他のフェアネス問題に対する一般的なデバイアス法として適用可能であることを意味する。

The Vision-Language Pre-training (VLP) models like CLIP have gained popularity in recent years. However, many works found that the social biases hidden in CLIP easily manifest in downstream tasks, especially in image retrieval, which can have harmful effects on human society. In this work, we propose FairCLIP to eliminate the social bias in CLIP-based image retrieval without damaging the retrieval performance achieving the compatibility between the debiasing effect and the retrieval performance. FairCLIP is divided into two steps: Attribute Prototype Learning (APL) and Representation Neutralization (RN). In the first step, we extract the concepts needed for debiasing in CLIP. We use the query with learnable word vector prefixes as the extraction structure. In the second step, we first divide the attributes into target and bias attributes. By analysis, we find that both attributes have an impact on the bias. Therefore, we try to eliminate the bias by using Re-Representation Matrix (RRM) to achieve the neutralization of the representation. We compare the debiasing effect and retrieval performance with other methods, and experiments demonstrate that FairCLIP can achieve the best compatibility. Although FairCLIP is used to eliminate bias in image retrieval, it achieves the neutralization of the representation which is common to all CLIP downstream tasks. This means that FairCLIP can be applied as a general debiasing method for other fairness issues related to CLIP.
翻訳日:2022-10-27 14:59:09 公開日:2022-10-26
# 拡散モデルディープフェイクの検出に向けて

Towards the Detection of Diffusion Model Deepfakes ( http://arxiv.org/abs/2210.14571v1 )

ライセンス: Link先を確認
Jonas Ricker, Simon Damm, Thorsten Holz, Asja Fischer(参考訳) 拡散モデル(dms)は画像合成において有望な方法として最近登場した。 彼らは多様性と品質の両方においてgan(generative adversarial network)を上回っており、テキストから画像へのモデリングや画像から画像へのモデリングで印象的な成果を上げている。 しかし, DM生成画像の検出にはほとんど注意が払われていないため, 社会に悪影響を及ぼすおそれがある。 従来の研究では、自動手法でGAN生成画像が確実に検出できることが示されているが、DMに対して同じ方法が有効かどうかは不明である。 本研究では,この課題に対処し,DM生成画像の検出について検討する。 まず,様々なDM上での最先端検出器の性能評価を行った。 次に,dm生成画像を周波数領域で解析し,スペクトル特性に影響を与える要因について検討する。 最も重要なことは、ganとdmが異なる特性を持つ画像を生成することを示し、信頼性の高い検出のために既存の分類器を適応する必要がある。 我々はこの研究がDMディープフェイクを効果的に検出するための基礎と出発点となると信じている。

Diffusion models (DMs) have recently emerged as a promising method in image synthesis. They have surpassed generative adversarial networks (GANs) in both diversity and quality, and have achieved impressive results in text-to-image and image-to-image modeling. However, to date, only little attention has been paid to the detection of DM-generated images, which is critical to prevent adverse impacts on our society. Although prior work has shown that GAN-generated images can be reliably detected using automated methods, it is unclear whether the same methods are effective against DMs. In this work, we address this challenge and take a first look at detecting DM-generated images. We approach the problem from two different angles: First, we evaluate the performance of state-of-the-art detectors on a variety of DMs. Second, we analyze DM-generated images in the frequency domain and study different factors that influence the spectral properties of these images. Most importantly, we demonstrate that GANs and DMs produce images with different characteristics, which requires adaptation of existing classifiers to ensure reliable detection. We believe this work provides the foundation and starting point for further research to detect DM deepfakes effectively.
翻訳日:2022-10-27 14:58:48 公開日:2022-10-26
# マルチクエリ変換器によるエンドツーエンドトラッキング

End-to-end Tracking with a Multi-query Transformer ( http://arxiv.org/abs/2210.14601v1 )

ライセンス: Link先を確認
Bruno Korbar and Andrew Zisserman(参考訳) マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。 Our aim in this paper is to move beyond tracking-by-detection approaches, that perform well on datasets where the object classes are known, to class-agnostic tracking that performs well also for unknown object classes.To this end, we make the following three contributions: first, we introduce {\em semantic detector queries} that enable an object to be localized by specifying its approximate position, or its appearance, or both; second, we use these queries within an auto-regressive framework for tracking, and propose a multi-query tracking transformer (\textit{MQT}) model for simultaneous tracking and appearance-based re-identification (reID) based on the transformer architecture with deformable attention. この定式化により、トラッカーはクラスに依存しない方法で動作し、モデルをエンドツーエンドにトレーニングすることができる。最後に、 \textit{MQT} が標準MOTベンチマークで競争力を発揮し、一般化MOTで全てのベースラインを上回り、TAOデータセット上のオブジェクトをトラッキングするなど、より難しいトラッキング問題にうまく一般化する。

Multiple-object tracking (MOT) is a challenging task that requires simultaneous reasoning about location, appearance, and identity of the objects in the scene over time. Our aim in this paper is to move beyond tracking-by-detection approaches, that perform well on datasets where the object classes are known, to class-agnostic tracking that performs well also for unknown object classes.To this end, we make the following three contributions: first, we introduce {\em semantic detector queries} that enable an object to be localized by specifying its approximate position, or its appearance, or both; second, we use these queries within an auto-regressive framework for tracking, and propose a multi-query tracking transformer (\textit{MQT}) model for simultaneous tracking and appearance-based re-identification (reID) based on the transformer architecture with deformable attention. This formulation allows the tracker to operate in a class-agnostic manner, and the model can be trained end-to-end; finally, we demonstrate that \textit{MQT} performs competitively on standard MOT benchmarks, outperforms all baselines on generalised-MOT, and generalises well to a much harder tracking problems such as tracking any object on the TAO dataset.
翻訳日:2022-10-27 14:58:29 公開日:2022-10-26
# 3変数相互情報に基づく超スペクトル画像の次元性低減と分類のための新しいフィルタ

A novel filter based on three variables mutual information for dimensionality reduction and classification of hyperspectral images ( http://arxiv.org/abs/2210.14609v1 )

ライセンス: Link先を確認
Asma Elmaizi, Elkebir Sarhrouni, Ahmed hammouch, Chafik Nacir(参考訳) 超スペクトル画像(HSI)の高次元性は、同じ領域の100以上の帯域(画像)を含むため、画像処理に重い計算負担を課し、学習過程を複雑にすることが多い。 実際、無関係、ノイズ、冗長なバンドの除去は、分類精度を高めるのに役立つ。 実測情報に基づく帯域選択フィルタは次元減少のための一般的な手法である。 本稿では,評価過程に応じた次元性低減法の分類について述べる。 さらに, 3変数の相互情報に基づく新しいフィルタアプローチを開発し, 分類の帯域相関を計測し, バンドの関連性だけでなく, バンド間相互作用も考慮した。 提案手法は相互情報に基づく再生フィルタアルゴリズムと比較する。 HSI AVIRIS 92AV3Cの実験結果から,提案手法は非常に競争力が高く,有効であり,再現されたフィルタ戦略性能より優れていた。 キーワード - ハイパースペクトル画像、分類、バンド選択、3変数の相互情報、情報ゲイン。

The high dimensionality of hyperspectral images (HSI) that contains more than hundred bands (images) for the same region called Ground Truth Map, often imposes a heavy computational burden for image processing and complicates the learning process. In fact, the removal of irrelevant, noisy and redundant bands helps increase the classification accuracy. Band selection filter based on "Mutual Information" is a common technique for dimensionality reduction. In this paper, a categorization of dimensionality reduction methods according to the evaluation process is presented. Moreover, a new filter approach based on three variables mutual information is developed in order to measure band correlation for classification, it considers not only bands relevance but also bands interaction. The proposed approach is compared to a reproduced filter algorithm based on mutual information. Experimental results on HSI AVIRIS 92AV3C have shown that the proposed approach is very competitive, effective and outperforms the reproduced filter strategy performance. Keywords - Hyperspectral images, Classification, band Selection, Three variables Mutual Information, information gain.
翻訳日:2022-10-27 14:58:08 公開日:2022-10-26
# semformer:弱教師付き意味セグメンテーションのための意味誘導活性化トランスフォーマ

SemFormer: Semantic Guided Activation Transformer for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2210.14618v1 )

ライセンス: Link先を確認
Junliang Chen, Xiaodong Zhao, Cheng Luo, Linlin Shen(参考訳) 最近の主流のweakly supervised semantic segmentation(wsss)アプローチは、主にcnn(convolutional neural network)ベースの画像分類器によって生成されたクラスアクティベーションマップ(cam)に基づいている。 本稿では,WSSS用セマンティックガイド・アクティベーション・トランス(Semantic Guided Activation Transformer,Semantic Guided Activation Transformer)を提案する。 我々は、入力画像のクラス埋め込みを抽出し、データセットの全クラスのクラスセマンティクスを学習するトランスフォーマーベースのクラス認識オートエンコーダ(CAAE)を設計する。 次に、クラス埋め込みと学習されたクラスセマンティクスは、4つの損失、すなわち、クラスフォアグラウンド、クラスバックグラウンド、アクティベーション抑制、アクティベーション補完損失を含むアクティベーションマップの生成を導くために使用される。 実験の結果,SemFormer は textbf{74.3}\% mIoU を達成し,PASCAL VOC 2012 データセットにおいて多くの主要な WSSS アプローチをはるかに上回っていることがわかった。 コードは \url{https://github.com/JLChen-C/SemFormer} で入手できる。

Recent mainstream weakly supervised semantic segmentation (WSSS) approaches are mainly based on Class Activation Map (CAM) generated by a CNN (Convolutional Neural Network) based image classifier. In this paper, we propose a novel transformer-based framework, named Semantic Guided Activation Transformer (SemFormer), for WSSS. We design a transformer-based Class-Aware AutoEncoder (CAAE) to extract the class embeddings for the input image and learn class semantics for all classes of the dataset. The class embeddings and learned class semantics are then used to guide the generation of activation maps with four losses, i.e., class-foreground, class-background, activation suppression, and activation complementation loss. Experimental results show that our SemFormer achieves \textbf{74.3}\% mIoU and surpasses many recent mainstream WSSS approaches by a large margin on PASCAL VOC 2012 dataset. Code will be available at \url{https://github.com/JLChen-C/SemFormer}.
翻訳日:2022-10-27 14:57:53 公開日:2022-10-26
# ハイパースペクトル画像の縮小と分類のための情報理論とサポートベクターマシンに基づく新しい帯域選択手法

A new band selection approach based on information theory and support vector machine for hyperspectral images reduction and classification ( http://arxiv.org/abs/2210.14621v1 )

ライセンス: Link先を確認
A. Elmaizi, E. Sarhrouni, A. Hammouch, C. Nacir(参考訳) 複数のバンドからなる超スペクトル画像の高次元化は、画像処理に大きな計算課題をしばしば課す。 したがって、スペクトル帯域選択は、無関係、ノイズ、冗長な帯域を取り除くための重要なステップである。 その結果、分類精度が向上する。 しかし、何百、何千もの関連バンドから有用なバンドを識別するのは簡単な作業ではない。 本論文は,計算速度と予測精度を向上させるために,高識別帯域の小さな集合を同定することを目的とする。 そこで我々は,選択した帯域間の統計的依存性と相関を計測し,各バンドの相対的有用性を評価するための共同情報に基づく新しい戦略を提案する。 提案手法は,相互情報に基づく効率的な再生フィルタと比較する。 SVM分類器を用いたハイパーペクトラル画像HSI AVIRIS 92AV3Cのシミュレーション結果から,提案アルゴリズムが再現フィルタ戦略性能より優れていることが示された。 キーワード-ハイパースペクトル画像、分類、帯域選択、共同相互情報、次元減少、相関、SVM。

The high dimensionality of hyperspectral images consisting of several bands often imposes a big computational challenge for image processing. Therefore, spectral band selection is an essential step for removing the irrelevant, noisy and redundant bands. Consequently increasing the classification accuracy. However, identification of useful bands from hundreds or even thousands of related bands is a nontrivial task. This paper aims at identifying a small set of highly discriminative bands, for improving computational speed and prediction accuracy. Hence, we proposed a new strategy based on joint mutual information to measure the statistical dependence and correlation between the selected bands and evaluate the relative utility of each one to classification. The proposed filter approach is compared to an effective reproduced filters based on mutual information. Simulations results on the hyperpectral image HSI AVIRIS 92AV3C using the SVM classifier have shown that the effective proposed algorithm outperforms the reproduced filters strategy performance. Keywords-Hyperspectral images, Classification, band Selection, Joint Mutual Information, dimensionality reduction ,correlation, SVM.
翻訳日:2022-10-27 14:57:33 公開日:2022-10-26
# 頑健なディープフェイク検出器に向けて:共通アーティファクトディープフェイク検出モデル

Towards A Robust Deepfake Detector:Common Artifact Deepfake Detection Model ( http://arxiv.org/abs/2210.14457v1 )

ライセンス: Link先を確認
Shichao Dong, Jin Wang, Renhe Ji, Jiajun Liang, Haoqiang Fan and Zheng Ge(参考訳) 既存のディープフェイク検出手法は、顔操作アルゴリズムによって生成された顔の偽造が不十分である。 従来手法の一般化能力は手作りアーティファクトの特徴をモデル化することによって改善されている。 一方、このような性質はさらなる改善を妨げている。 本稿では,異なる顔操作アルゴリズムにおいて,共通の人工物の特徴を学習することを目的とした,新しいディープフェイク検出手法であるCommon Artifact Deepfake Detection Modelを提案する。 この目的のために、共通アーティファクトの特徴を学習する主な障害は、モデルが識別表現機能によって容易に誤解されることである。 この現象をIIL(Implicit Identity Leakage)と呼ぶ。 本手法は,アーティファクト検出モジュールの誘導により2値分類器を学習することにより,IILの影響を効果的に低減し,手作りの工芸品特徴検出器がディープフェイク問題に対処するには不可欠ではないことを示す。

Existing deepfake detection methods perform poorly on face forgeries generated by unseen face manipulation algorithms. The generalization ability of previous methods is mainly improved by modeling hand-crafted artifact features. Such properties, on the other hand, impede their further improvement. In this paper, we propose a novel deepfake detection method named Common Artifact Deepfake Detection Model, which aims to learn common artifact features in different face manipulation algorithms. To this end, we find that the main obstacle to learning common artifact features is that models are easily misled by the identity representation feature. We call this phenomenon Implicit Identity Leakage (IIL). Extensive experimental results demonstrate that, by learning the binary classifiers with the guidance of the Artifact Detection Module, our method effectively reduces the influence of IIL and outperforms the state-of-the-art by a large margin, proving that hand-crafted artifact feature detectors are not indispensable when tackling deepfake problems.
翻訳日:2022-10-27 14:49:17 公開日:2022-10-26
# prednas: 汎用的でサンプルの効率的なニューラルネットワーク検索フレームワーク

PredNAS: A Universal and Sample Efficient Neural Architecture Search Framework ( http://arxiv.org/abs/2210.14460v1 )

ライセンス: Link先を確認
Liuchun Yuan and Zehao Huang and Naiyan Wang(参考訳) 本稿では,ニューラルネットワーク探索のための汎用的で効果的なフレームワークであるPredNASを提案する。 その動機は、微分可能な性能推定関数が与えられた場合、単純な勾配上昇によってアーキテクチャを直接高い性能に最適化できるということである。 具体的には、性能予測器としてニューラル予測器を採用する。 驚くべきことに、prednaは数回のトレーニングサンプル(100未満)で、nasベンチマークで最先端のパフォーマンスを達成できる。 提案手法の普遍性を検証するため,大規模タスクに本手法を適用し,画像Net上のRegNetとMSCOCO上のYOLOXとの比較を行った。 その結果,PredNASは計算複雑性制約下での競合性能を持つ新しいアーキテクチャを探索できることを示した。

In this paper, we present a general and effective framework for Neural Architecture Search (NAS), named PredNAS. The motivation is that given a differentiable performance estimation function, we can directly optimize the architecture towards higher performance by simple gradient ascent. Specifically, we adopt a neural predictor as the performance predictor. Surprisingly, PredNAS can achieve state-of-the-art performances on NAS benchmarks with only a few training samples (less than 100). To validate the universality of our method, we also apply our method on large-scale tasks and compare our method with RegNet on ImageNet and YOLOX on MSCOCO. The results demonstrate that our PredNAS can explore novel architectures with competitive performances under specific computational complexity constraints.
翻訳日:2022-10-27 14:48:59 公開日:2022-10-26
# 工業用表面異常検出のための色差と勾配差を組み合わせたエッジ画像からの再構成

Reconstruction from edge image combined with color and gradient difference for industrial surface anomaly detection ( http://arxiv.org/abs/2210.14485v1 )

ライセンス: Link先を確認
Tongkun Liu, Bing Li, Zhuo Zhao, Xiao Du, Bingke Jiang, Leqi Geng(参考訳) リコンストラクションに基づく手法は産業用視覚異常検出において広く研究されている。 このような手法では, 正常なパターンを適切に再構成するモデルが必要となるが, 異常に失敗するため, 再構成誤差を評価すれば異常を検出できる。 しかし、実際には、モデルの一般化境界を制御するのは通常困難である。 過度に強い一般化能力を持つモデルは、異常領域を適切に再構成することができ、識別しにくいが、汎化能力の低いモデルは、通常領域で変更可能な高周波成分を再構築できないため、最終的には偽陽性となる。 そこで,本研究では,そのグレー値エッジ(edgrec)から元のrgb画像を再構成する新しい再構成ネットワークを提案する。 具体的には、スキップ接続を持つUNet型デノナイジングオートエンコーダによって実現される。 入力エッジとスキップ接続は、元の画像の高周波情報を十分に保存することができる。 一方,提案手法では,ネットワークに通常の低周波・カラー情報を記憶させることができる。 さらに、デノイジング設計は、モデルが元の高頻度コンポーネントを直接コピーすることを防ぐことができる。 そこで本研究では,色差と勾配差を考慮した新しい手作り評価関数を提案する。 本手法は, MVTec AD (検出では97.8 %, ローカライゼーションでは97.7 %, AUROCでは97.7 %) の試験結果を得る。 さらに、MVTec 3D-ADデータセットの実験を行い、RGB画像のみを用いて説得力のある結果を示す。 私たちのコードはhttps://github.com/liutongkun/EdgRec.comで公開されます。

Reconstruction-based methods are widely explored in industrial visual anomaly detection. Such methods commonly require the model to well reconstruct the normal patterns but fail in the anomalies, and thus the anomalies can be detected by evaluating the reconstruction errors. However, in practice, it's usually difficult to control the generalization boundary of the model. The model with an overly strong generalization capability can even well reconstruct the abnormal regions, making them less distinguishable, while the model with a poor generalization capability can not reconstruct those changeable high-frequency components in the normal regions, which ultimately leads to false positives. To tackle the above issue, we propose a new reconstruction network where we reconstruct the original RGB image from its gray value edges (EdgRec). Specifically, this is achieved by an UNet-type denoising autoencoder with skip connections. The input edge and skip connections can well preserve the high-frequency information in the original image. Meanwhile, the proposed restoration task can force the network to memorize the normal low-frequency and color information. Besides, the denoising design can prevent the model from directly copying the original high-frequent components. To evaluate the anomalies, we further propose a new interpretable hand-crafted evaluation function that considers both the color and gradient differences. Our method achieves competitive results on the challenging benchmark MVTec AD (97.8\% for detection and 97.7\% for localization, AUROC). In addition, we conduct experiments on the MVTec 3D-AD dataset and show convincing results using RGB images only. Our code will be available at https://github.com/liutongkun/EdgRec.
翻訳日:2022-10-27 14:48:48 公開日:2022-10-26
# 証明:テキストソースに対する知識グラフの自動生成検証のためのパイプライン

ProVe: A Pipeline for Automated Provenance Verification of Knowledge Graphs against Textual Sources ( http://arxiv.org/abs/2210.14846v1 )

ライセンス: Link先を確認
Gabriel Amaral, Odinaldo Rodrigues, Elena Simperl(参考訳) 知識グラフ(Knowledge Graphs)は、ウィキペディアのインフォボックスから検索エンジンまで、現代のウェブランドスケープにおける様々な重要なアプリケーションのための構造化データソースとして機能する、セマンティックトリプルの形で、複数のドメインやソースからデータを収集する情報のリポジトリである。 このようなグラフは、主に二次的な情報源として機能し、信頼性とユーザビリティを確保するために、十分に文書化され検証された証明に依存する。 しかしながら、グラフの情報を適切にサポートしているかどうかを最も重要視する、この証明の品質を体系的に評価し保証する能力は、主にサイズに応じてスケールしない手動プロセスに依存している。 ProVeは、パイプライン化されたアプローチで、文書化された証明から抽出されたテキストによって、知識グラフのトリプルがサポートされているかどうかを自動的に検証する。 ProVeは情報キュレーターを支援することを目的としており、ルールベースのメソッドと機械学習モデルを含む4つの主要なステップで構成されている。 proofはwikidataデータセット上で評価され、87.5%の精度と82.9%のf1-macroでテキストリッチソースからのサポートを検出するバイナリ分類タスクにおいて、全体的な有望な結果と優れたパフォーマンスを達成している。 この論文で使われている評価データとスクリプトは、githubとfigshareで入手できる。

Knowledge Graphs are repositories of information that gather data from a multitude of domains and sources in the form of semantic triples, serving as a source of structured data for various crucial applications in the modern web landscape, from Wikipedia infoboxes to search engines. Such graphs mainly serve as secondary sources of information and depend on well-documented and verifiable provenance to ensure their trustworthiness and usability. However, their ability to systematically assess and assure the quality of this provenance, most crucially whether it properly supports the graph's information, relies mainly on manual processes that do not scale with size. ProVe aims at remedying this, consisting of a pipelined approach that automatically verifies whether a Knowledge Graph triple is supported by text extracted from its documented provenance. ProVe is intended to assist information curators and consists of four main steps involving rule-based methods and machine learning models: text extraction, triple verbalisation, sentence selection, and claim verification. ProVe is evaluated on a Wikidata dataset, achieving promising results overall and excellent performance on the binary classification task of detecting support from provenance, with 87.5% accuracy and 82.9% F1-macro on text-rich sources. The evaluation data and scripts used in this paper are available on GitHub and Figshare.
翻訳日:2022-10-27 14:42:54 公開日:2022-10-26
# 複数アノテーション決定を用いた因果性検出

Causality Detection using Multiple Annotation Decision ( http://arxiv.org/abs/2210.14852v1 )

ライセンス: Link先を確認
Quynh Anh Nguyen, Arka Mitra(参考訳) 本稿は,第5回ワークショップ「テキストから社会・政治事象の自動抽出の課題と応用」に寄せられた成果について述べる(第2022例)。 この作業は、抗議ニュースコーパスの因果関係を検出することを目的としたShared Task 3のSubtask 1に関連している。 著者らは,アノテーション情報を利用するクロスエントロピー損失関数をカスタマイズした,異なる大規模言語モデルを用いた。 この実験は、洗練されたクロスエントロピーを持つbertベースのアンケースが他よりも優れており、因果性ニュースコーパスデータセットで0.8501のf1スコアを達成したことを示している。

The paper describes the work that has been submitted to the 5th workshop on Challenges and Applications of Automated Extraction of socio-political events from text (CASE 2022). The work is associated with Subtask 1 of Shared Task 3 that aims to detect causality in protest news corpus. The authors used different large language models with customized cross-entropy loss functions that exploit annotation information. The experiments showed that bert-based-uncased with refined cross-entropy outperformed the others, achieving a F1 score of 0.8501 on the Causal News Corpus dataset.
翻訳日:2022-10-27 14:42:27 公開日:2022-10-26
# HSVIはゼロサム部分観測確率ゲームを解くことができる

HSVI can solve zero-sum Partially Observable Stochastic Games ( http://arxiv.org/abs/2210.14640v1 )

ライセンス: Link先を確認
Aur\'elien Delage, Olivier Buffet, Jilles S. Dibangoye, Abdallah Saffidine(参考訳) 2-player 0-sumの不完全な情報ゲームを解決する最先端の手法はリニアプログラミングや後悔の最小化に依存しているが、動的プログラミング(DP)やヒューリスティック検索(HS)には依存しない。 部分的に観測可能あるいは協調的な設定(例えば、POMDPやDecPOMDP)では、DPとHSは最適な値関数のバウンディング(凸)近似と同様に、完全に観測可能な問題を誘導する適切な統計学を導入する必要がある。 このアプローチは、2-プレーヤ 0-sum の部分可観測確率ゲーム (zs- POSGs) のサブクラスにも成功したが、一般の場合でもどのように適用すればよいかはまだ未解決のままである。 私たちは答えます (i)これと同等のゲームを厳格に定義すること。 (ii)解戦略に付随する境界を導出できる最適値関数の数学的性質を証明すること。 (iii) 有限時間で$\epsilon$-optimal解に確実に収束するhsviライクな解法を初めて提案すること、及び (iv)経験的に分析する。 これは、線形プログラミングや反復的メソッドに依存する人たちを補完する、有望なアプローチの新たなファミリーへの扉を開く。

State-of-the-art methods for solving 2-player zero-sum imperfect information games rely on linear programming or regret minimization, though not on dynamic programming (DP) or heuristic search (HS), while the latter are often at the core of state-of-the-art solvers for other sequential decision-making problems. In partially observable or collaborative settings (e.g., POMDPs and Dec- POMDPs), DP and HS require introducing an appropriate statistic that induces a fully observable problem as well as bounding (convex) approximators of the optimal value function. This approach has succeeded in some subclasses of 2-player zero-sum partially observable stochastic games (zs- POSGs) as well, but how to apply it in the general case still remains an open question. We answer it by (i) rigorously defining an equivalent game to work with, (ii) proving mathematical properties of the optimal value function that allow deriving bounds that come with solution strategies, (iii) proposing for the first time an HSVI-like solver that provably converges to an $\epsilon$-optimal solution in finite time, and (iv) empirically analyzing it. This opens the door to a novel family of promising approaches complementing those relying on linear programming or iterative methods.
翻訳日:2022-10-27 14:42:19 公開日:2022-10-26
# スパース点アノテーションを用いた電子顕微鏡の領域適応セグメンテーション

Domain Adaptive Segmentation of Electron Microscopy with Sparse Point Annotations ( http://arxiv.org/abs/2210.13109v2 )

ライセンス: Link先を確認
Dafei Qiu, Jiajin Yi, Jialin Peng(参考訳) オルガネラインスタンス(例えばミトコンドリア)の正確なセグメンテーションは電子顕微鏡解析に必須である。 完全な教師付きメソッドのパフォーマンスは優れているが、十分なピクセル毎の注釈データに依存しており、ドメインシフトに敏感である。 競合性能を持つ高度にアノテーション効率の高いアプローチを開発するために、オブジェクトインスタンスの小さなサブセットのみにスパースポイントアノテーションを要求する極端にスパースで弱いアノテーションのタイプを持つ弱教師付きドメイン適応(WDA)に焦点を当てる。 ドメインシフトによる性能劣化を低減するため,ドメイン不変度の異なるタスクピラミッドを構成する3つの相補的タスク,すなわちカウント,検出,セグメンテーションを実行することで,多段階の伝達可能な知識を探索する。 この背景にある直観は、関連するソースドメインを調査した後、ターゲットドメイン内で類似したオブジェクトを見つけることが、それらの細かい境界を示すよりもずっと容易であるということである。 具体的には、スパース監視による検出のグローバル制約としてカウント推定を強制し、セグメンテーションをさらに導く。 アノテーションのスパース性をさらに補うために、クロスポジションカット・アンド・ペースト拡張が導入される。 広範囲な検証によって、15%のポイントアノテーションしか持たないモデルが教師付きモデルと同等のパフォーマンスを達成でき、アノテーションの選択に堅牢性を示している。

Accurate segmentation of organelle instances, e.g., mitochondria, is essential for electron microscopy analysis. Despite the outstanding performance of fully supervised methods, they highly rely on sufficient per-pixel annotated data and are sensitive to domain shift. Aiming to develop a highly annotation-efficient approach with competitive performance, we focus on weakly-supervised domain adaptation (WDA) with a type of extremely sparse and weak annotation demanding minimal annotation efforts, i.e., sparse point annotations on only a small subset of object instances. To reduce performance degradation arising from domain shift, we explore multi-level transferable knowledge through conducting three complementary tasks, i.e., counting, detection, and segmentation, constituting a task pyramid with different levels of domain invariance. The intuition behind this is that after investigating a related source domain, it is much easier to spot similar objects in the target domain than to delineate their fine boundaries. Specifically, we enforce counting estimation as a global constraint to the detection with sparse supervision, which further guides the segmentation. A cross-position cut-and-paste augmentation is introduced to further compensate for the annotation sparsity. Extensive validations show that our model with only 15% point annotations can achieve comparable performance as supervised models and shows robustness to annotation selection.
翻訳日:2022-10-27 14:41:05 公開日:2022-10-26
# 視覚トランスフォーマーによるminutiae誘導指紋埋め込み

Minutiae-Guided Fingerprint Embeddings via Vision Transformers ( http://arxiv.org/abs/2210.13994v2 )

ライセンス: Link先を確認
Steven A. Grosz, Joshua J. Engelsma, Rajeev Ranjan, Naveen Ramakrishnan, Manoj Aggarwal, Gerard G. Medioni, Anil K. Jain(参考訳) minutiaeマッチングは長い間、指紋認識の分野を支配してきた。 しかし、ディープネットワークは指紋から固定長の埋め込みを抽出することができる。 これまでCNNアーキテクチャを用いた埋め込みの抽出について研究してきた数少ない研究は、極めて有望であることを示している。 これらの初期の成果に触発され,視覚変換器 (ViT) を用いて識別可能な固定長指紋の埋め込みを学習する。 さらに,vitを局所的かつ最小的な機能に集中させることにより,認識性能を向上できることを実証する。 最後に、CNNとViTで学んだ埋め込みを融合させることで、商用のSOTA(State-of-the-art)マーカでほぼ同等に到達できることを示す。 特に、NIST SD 302のパブリックドメインデータセット上でTAR=94.23% @ FAR=0.1%を得るのに対し、SOTAの商用マーカはTAR=96.71% @ FAR=0.1%を得る。 さらに、固定長の埋め込みは、商用システムよりも桁違いに高速(50K/秒と比較して250万/秒)にできる。 私たちは、このトピックに関するさらなる研究を促進するために、コードとモデルを公開しています。

Minutiae matching has long dominated the field of fingerprint recognition. However, deep networks can be used to extract fixed-length embeddings from fingerprints. To date, the few studies that have explored the use of CNN architectures to extract such embeddings have shown extreme promise. Inspired by these early works, we propose the first use of a Vision Transformer (ViT) to learn a discriminative fixed-length fingerprint embedding. We further demonstrate that by guiding the ViT to focus in on local, minutiae related features, we can boost the recognition performance. Finally, we show that by fusing embeddings learned by CNNs and ViTs we can reach near parity with a commercial state-of-the-art (SOTA) matcher. In particular, we obtain a TAR=94.23% @ FAR=0.1% on the NIST SD 302 public-domain dataset, compared to a SOTA commercial matcher which obtains TAR=96.71% @ FAR=0.1%. Additionally, our fixed-length embeddings can be matched orders of magnitude faster than the commercial system (2.5 million matches/second compared to 50K matches/second). We make our code and models publicly available to encourage further research on this topic: https://github.com/tba.
翻訳日:2022-10-27 14:40:40 公開日:2022-10-26
# 右を見よ:抽出質問応答における相対的位置バイアスの緩和

Look to the Right: Mitigating Relative Position Bias in Extractive Question Answering ( http://arxiv.org/abs/2210.14541v1 )

ライセンス: Link先を確認
Kazutoshi Shinoda, Saku Sugawara, Akiko Aizawa(参考訳) 抽出的質問応答(QA)モデルは、トレーニングセットが意図しないバイアスを持つ場合、予備的な相関を利用して予測する傾向がある。 この傾向は、モデルが相関が持たない例に一般化できない結果となる。 実世界のアプリケーションにおいて、一般化可能なQAモデルを構築するためには、QAモデルが活用できるスプリアス相関を決定することが不可欠である。 本研究では,質問文脈重なり単語に対する回答の相対的距離として定義される回答の相対的位置を,qaモデルによって予測のための表層的手がかりとして活用できることを見出した。 具体的には、トレーニングセット内の相対位置が偏っている場合、トレーニング中の相対位置が不明な例での成績が著しく低下することを示す。 そこで本研究では, 相対位置の分布に関する事前知識を必要としないアンサンブルに基づくデバイアス手法を提案する。 提案手法は,バイアス付きおよび全スクワッドデータセットを用いて,相対的な位置依存度を軽減できることを実証する。 本研究により,実世界の応用におけるQAモデルの一般化能力の向上が期待できる。

Extractive question answering (QA) models tend to exploit spurious correlations to make predictions when a training set has unintended biases. This tendency results in models not being generalizable to examples where the correlations do not hold. Determining the spurious correlations QA models can exploit is crucial in building generalizable QA models in real-world applications; moreover, a method needs to be developed that prevents these models from learning the spurious correlations even when a training set is biased. In this study, we discovered that the relative position of an answer, which is defined as the relative distance from an answer span to the closest question-context overlap word, can be exploited by QA models as superficial cues for making predictions. Specifically, we find that when the relative positions in a training set are biased, the performance on examples with relative positions unseen during training is significantly degraded. To mitigate the performance degradation for unseen relative positions, we propose an ensemble-based debiasing method that does not require prior knowledge about the distribution of relative positions. We demonstrate that the proposed method mitigates the models' reliance on relative positions using the biased and full SQuAD dataset. We hope that this study can help enhance the generalization ability of QA models in real-world applications.
翻訳日:2022-10-27 14:32:59 公開日:2022-10-26
# ステレオタイプコンテンツモデルに基づくロバストなバイアス緩和手順

A Robust Bias Mitigation Procedure Based on the Stereotype Content Model ( http://arxiv.org/abs/2210.14552v1 )

ライセンス: Link先を確認
Eddie L. Ungless and Amy Rafferty and Hrichika Nag and Bj\"orn Ross(参考訳) Stereotype Content Model (SCM) では、少数派を冷たく、無能で、両方と認識する傾向がある。 本稿では,Stereotype Contentモデルが文脈的単語埋め込みに有効であることを実証するために既存の作業に適応し,これらの結果を用いて,少数群のステレオタイプ表現から言語モデルを遠ざけるよう設計された微調整プロセスを評価する。 SCM用語は、快楽に関連する人口統計学的用語よりも偏見を捉えることができる。 さらに,ダウンストリームのパフォーマンスを損なうことなく,最小限の人的・コンピュータ的資源を必要とする単純な微調整手順によって,モデル内のステレオタイプの存在を低減できた。 本研究は,モデルにおける偏見の具体的知識の事前知識の不要化を目的とした,偏見処理のプロトタイプとして提案する。

The Stereotype Content model (SCM) states that we tend to perceive minority groups as cold, incompetent or both. In this paper we adapt existing work to demonstrate that the Stereotype Content model holds for contextualised word embeddings, then use these results to evaluate a fine-tuning process designed to drive a language model away from stereotyped portrayals of minority groups. We find the SCM terms are better able to capture bias than demographic agnostic terms related to pleasantness. Further, we were able to reduce the presence of stereotypes in the model through a simple fine-tuning procedure that required minimal human and computer resources, without harming downstream performance. We present this work as a prototype of a debiasing procedure that aims to remove the need for a priori knowledge of the specifics of bias in the model.
翻訳日:2022-10-27 14:32:39 公開日:2022-10-26
# Virtual Adversarial Perturbation による不確かさサンプリング

Uncertainty Sentence Sampling by Virtual Adversarial Perturbation ( http://arxiv.org/abs/2210.14576v1 )

ライセンス: Link先を確認
Hanshan Zhang and Zhen Zhang and Hongfei Jiang and Yang Song(参考訳) 文理解のためのアクティブラーニングは、最も有意義な例を特定することによってアノテーションコストを削減しようとする。 アクティブラーニングの一般的な方法は、プールベースのシナリオで不確実性または多様性サンプリングを使用する。 本研究では,予測的不確実性とサンプルの多様性の両方を組み込むため,仮想逆摂動をモデル不確実性表現として用いる,不確実性と多様性の組み合わせフレームワークvapal(virtual adversarial perturbation for active learning)を提案する。 VAPALは、4つの文理解データセット(AGNEWS, IMDB, PUBMED, SST-2)の強力なベースラインよりも、一貫した、あるいはそれ以上のパフォーマンスを実現している。

Active learning for sentence understanding attempts to reduce the annotation cost by identifying the most informative examples. Common methods for active learning use either uncertainty or diversity sampling in the pool-based scenario. In this work, to incorporate both predictive uncertainty and sample diversity, we propose Virtual Adversarial Perturbation for Active Learning (VAPAL) , an uncertainty-diversity combination framework, using virtual adversarial perturbation (Miyato et al., 2019) as model uncertainty representation. VAPAL consistently performs equally well or even better than the strong baselines on four sentence understanding datasets: AGNEWS, IMDB, PUBMED, and SST-2, offering a potential option for active learning on sentence understanding tasks.
翻訳日:2022-10-27 14:32:24 公開日:2022-10-26
# ベトナム人求職者における職業スキル検出の実践的方法

A practical method for occupational skills detection in Vietnamese job listings ( http://arxiv.org/abs/2210.14607v1 )

ライセンス: Link先を確認
Viet-Trung Tran, Hai-Nam Cao and Tuan-Dung Cao(参考訳) ベトナムの労働市場は不均衡な発展を遂げている。 大学卒業者数は増加しているが、失業率も同様である。 この状況はしばしば、正確でタイムリーな労働市場情報の欠如によって引き起こされ、労働者の供給と実際の市場需要の間のスキルミスマッチにつながる。 労働市場のためのデータモニタリングおよび分析プラットフォームを構築するためには、履歴書や求人情報などの労働関連データから作業スキルを自動的に検出できることが主な課題の1つである。 従来のアプローチは、名前付きエンティティ認識(ner)モデルを構築するために、既存の分類法や大規模な注釈データに依存する。 費用がかかり、手作業の手間がかかる。 本稿では,ベトナムの職業名簿におけるスキル検出のための実践的手法を提案する。 タスクをNERタスクとして見るのではなく、タスクをランキング問題として考える。 本稿では,まずフレーズを抽出し,意味的類似度でランク付けするパイプラインを提案する。 そして、最終分類を用いてスキルフレーズを検出する。 3つのデータセットを収集し,広範な実験を行った。 その結果,本手法は少ないデータセットにおけるNERモデルよりも優れた性能を示した。

Vietnamese labor market has been under an imbalanced development. The number of university graduates is growing, but so is the unemployment rate. This situation is often caused by the lack of accurate and timely labor market information, which leads to skill miss-matches between worker supply and the actual market demands. To build a data monitoring and analytic platform for the labor market, one of the main challenges is to be able to automatically detect occupational skills from labor-related data, such as resumes and job listings. Traditional approaches rely on existing taxonomy and/or large annotated data to build Named Entity Recognition (NER) models. They are expensive and require huge manual efforts. In this paper, we propose a practical methodology for skill detection in Vietnamese job listings. Rather than viewing the task as a NER task, we consider the task as a ranking problem. We propose a pipeline in which phrases are first extracted and ranked in semantic similarity with the phrases' contexts. Then we employ a final classification to detect skill phrases. We collected three datasets and conducted extensive experiments. The results demonstrated that our methodology achieved better performance than a NER model in scarce datasets.
翻訳日:2022-10-27 14:32:05 公開日:2022-10-26
# MOCHA:認知的観点からのコヒーレントテキスト生成のためのマルチタスク学習手法

MOCHA: A Multi-Task Training Approach for Coherent Text Generation from Cognitive Perspective ( http://arxiv.org/abs/2210.14650v1 )

ライセンス: Link先を確認
Zhe Hu, Hou Pong Chan, Lifu Huang(参考訳) 物語コヒーレントテキストを生成するために神経モデルを教えることは重要な問題である。 最近の事前学習言語モデルは有望な結果を得たが、人間の文章と機械生成出力の間にはまだギャップがある。 本研究では,文の認知理論に基づくコヒーレントテキスト生成のための新しいマルチタスク学習戦略を提案する。 我々は,物語生成,ニュース記事作成,議論生成という3つのオープンエンド世代タスクに対して,我々のモデルを広範囲に評価する。 実験により,本モデルでは,強いベースラインよりも少数の設定と完全教師付き設定の方が良好な結果が得られることが示された。

Teaching neural models to generate narrative coherent texts is a critical problem. Recent pre-trained language models have achieved promising results, but there is still a gap between human written texts and machine-generated outputs. In this work, we propose a novel multi-task training strategy for coherent text generation grounded on the cognitive theory of writing, which empowers the model to learn essential subskills needed for writing including planning and reviewing besides end-to-end generation. We extensively evaluate our model on three open-ended generation tasks including story generation, news article writing and argument generation. Experiments show that our model achieves better results on both few-shot and fully-supervised settings than strong baselines, and human evaluations confirm that our model can generate more coherent outputs.
翻訳日:2022-10-27 14:31:48 公開日:2022-10-26
# 談話注釈付きバイリンガル並列コーパス

A Bilingual Parallel Corpus with Discourse Annotations ( http://arxiv.org/abs/2210.14667v1 )

ライセンス: Link先を確認
Yuchen Eleanor Jiang, Tianyu Liu, Shuming Ma, Dongdong Zhang, Mrinmaya Sachan, Ryan Cotterell(参考訳) 機械翻訳(MT)は、文レベルの翻訳において人間のパリティをほぼ達成している。 それに応えて、mtコミュニティは部分的にドキュメントレベルの翻訳に焦点を移した。 しかし、文書レベルのMTシステムの開発は、並列文書コーパスの欠如によって妨げられている。 本稿では,jiang et al. (2022) で初めて導入された大規模並列コーパスであるbwbとアノテーション付きテストセットについて述べる。 BWBコーパスは、専門家によって英語に翻訳された中国の小説で構成されており、注釈付きテストセットは、様々な談話現象をモデル化する機械翻訳システムの能力を調査するために設計されている。 私たちのリソースは無償で利用可能であり、ドキュメントレベルの機械翻訳のガイドとインスピレーションになることを期待しています。

Machine translation (MT) has almost achieved human parity at sentence-level translation. In response, the MT community has, in part, shifted its focus to document-level translation. However, the development of document-level MT systems is hampered by the lack of parallel document corpora. This paper describes BWB, a large parallel corpus first introduced in Jiang et al. (2022), along with an annotated test set. The BWB corpus consists of Chinese novels translated by experts into English, and the annotated test set is designed to probe the ability of machine translation systems to model various discourse phenomena. Our resource is freely available, and we hope it will serve as a guide and inspiration for more work in document-level machine translation.
翻訳日:2022-10-27 14:31:34 公開日:2022-10-26
# ニューラルコアレゾリューションシステムにおける中心理論の役割の検討

Investigating the Role of Centering Theory in the Context of Neural Coreference Resolution Systems ( http://arxiv.org/abs/2210.14678v1 )

ライセンス: Link先を確認
Yuchen Eleanor Jiang, Ryan Cotterell, Mrinmaya Sachan(参考訳) 中心理論 (ct; grosz et al., 1995) は言論の構造に関する言語学的分析を提供する。 この理論によれば、会話の局所的な一貫性は、連続する発話が同一の実体を参照する方法と範囲から生じる。 本稿では,中心理論と現代のコア参照分解システムとの関係について検討する。 本稿では,様々な談話指標を定義し,探索に基づく方法論を開発することにより,ニューラルコア参照レゾルバが中心理論の規則に準拠しているかどうかを運用し,体系的に検討する。 情報理論的な分析により、コリファレンスとセンタリングの正の依存性が明らかになると同時に、高品質なニューラルネットワークコリファレンスリゾルバは、アイデア中心の明示的なモデリングからはあまり利益が得られないことも示されている。 さらに,コンテクスト化された埋め込みはコヒーレンス情報を多く含んでいることを示し,事前学習された表現を用いた現代的ニューラルネットワークコリファレンスリゾルバに対して,ctがほとんど利益を得られない理由を説明する。 最後に,世界知識や正規バイアスといったctでモデル化されていないコリファレンスに寄与する要因について論じる。 また, 再発をモデルとしたCTのバージョンを定式化し, バニラCTよりも良質なコア参照情報を取得することを示した。

Centering theory (CT; Grosz et al., 1995) provides a linguistic analysis of the structure of discourse. According to the theory, local coherence of discourse arises from the manner and extent to which successive utterances make reference to the same entities. In this paper, we investigate the connection between centering theory and modern coreference resolution systems. We provide an operationalization of centering and systematically investigate if neural coreference resolvers adhere to the rules of centering theory by defining various discourse metrics and developing a search-based methodology. Our information-theoretic analysis reveals a positive dependence between coreference and centering; but also shows that high-quality neural coreference resolvers may not benefit much from explicitly modeling centering ideas. Our analysis further shows that contextualized embeddings contain much of the coherence information, which helps explain why CT can only provide little gains to modern neural coreference resolvers which make use of pretrained representations. Finally, we discuss factors that contribute to coreference which are not modeled by CT such as world knowledge and recency bias. We formulate a version of CT that also models recency and show that it captures coreference information better compared to vanilla CT.
翻訳日:2022-10-27 14:31:22 公開日:2022-10-26
# 言語モデルを用いた自己回帰構造予測

Autoregressive Structured Prediction with Language Models ( http://arxiv.org/abs/2210.14698v1 )

ライセンス: Link先を確認
Tianyu Liu, Yuchen Jiang, Nicholas Monath, Ryan Cotterell, Mrinmaya Sachan(参考訳) 近年、NLPは様々なタスクに事前訓練された言語モデル({PLM})を使用することにパラダイムシフトしている。 しかしながら、PLMによってキャプチャ可能な構造(タグ付きテキスト、コア参照チェーンなど)を表現することが難しい設計決定は数多く存在する。 plmによる構造化予測の以前の作業は、通常、構造化された出力をシーケンスにフラットにすることで、学習される構造情報の品質が制限され、従来の判別モデルに比べて性能が劣る。 本研究では, PLMによる自己回帰的な行動列として構造構造をモデル化する手法について述べる。 提案手法は,エンティティ認識,エンド・ツー・エンド関係抽出,コア参照解決といった,構造化された予測タスクのすべてにおいて,新たな最先端化を実現する。

Recent years have seen a paradigm shift in NLP towards using pretrained language models ({PLM}) for a wide range of tasks. However, there are many difficult design decisions to represent structures (e.g. tagged text, coreference chains) in a way such that they can be captured by PLMs. Prior work on structured prediction with PLMs typically flattens the structured output into a sequence, which limits the quality of structural information being learned and leads to inferior performance compared to classic discriminative models. In this work, we describe an approach to model structures as sequences of actions in an autoregressive manner with PLMs, allowing in-structure dependencies to be learned without any loss. Our approach achieves the new state-of-the-art on all the structured prediction tasks we looked at, namely, named entity recognition, end-to-end relation extraction, and coreference resolution.
翻訳日:2022-10-27 14:30:59 公開日:2022-10-26
# プロシット! Progressive SImilarity Thresholdsを用いた潜在変数発見

ProSiT! Latent Variable Discovery with PROgressive SImilarity Thresholds ( http://arxiv.org/abs/2210.14763v1 )

ライセンス: Link先を確認
Tommaso Fornaciari, Dirk Hovy, Federico Bianchi(参考訳) 潜在文書の次元を調べる最も一般的な方法はトピックモデルとクラスタリング手法である。 しかし、トピックモデルにはいくつかの欠点があり、例えば、先行する潜在次元の数を選ばなければならず、その結果は確率的である。 多くのクラスタリング手法は同じ問題を持ち、単一の文書に異なるトピックの影響を考慮しない、単語記述者が単一のトピック(ハードクラスタリング)に属さざるを得ない、あるいは必ずしも単語表現に依存するなど、様々な点で柔軟性に欠ける。 本稿では,入力形式によらない決定論的かつ解釈可能な手法であるprositを用いて,潜在次元の最適数を求め,グリッド探索によって効率的に設定可能な2つのハイパーパラメータのみを持つ漸進的類似性しきい値を提案する。 本研究では,この手法を4つのベンチマークデータセット上の幅広いトピックモデルとクラスタリング手法と比較する。 ほとんどの設定では、ProSiTはトピックのコヒーレンスと特徴性の6つの指標で他の手法と一致または比較し、複製可能な決定論的結果を生成する。

The most common ways to explore latent document dimensions are topic models and clustering methods. However, topic models have several drawbacks: e.g., they require us to choose the number of latent dimensions a priori, and the results are stochastic. Most clustering methods have the same issues and lack flexibility in various ways, such as not accounting for the influence of different topics on single documents, forcing word-descriptors to belong to a single topic (hard-clustering) or necessarily relying on word representations. We propose PROgressive SImilarity Thresholds - ProSiT, a deterministic and interpretable method, agnostic to the input format, that finds the optimal number of latent dimensions and only has two hyper-parameters, which can be set efficiently via grid search. We compare this method with a wide range of topic models and clustering methods on four benchmark data sets. In most setting, ProSiT matches or outperforms the other methods in terms six metrics of topic coherence and distinctiveness, producing replicable, deterministic results.
翻訳日:2022-10-27 14:30:44 公開日:2022-10-26
# 感覚埋め込みの$\ell_2$ノルムの奇妙な場合について

On the Curious Case of $\ell_2$ norm of Sense Embeddings ( http://arxiv.org/abs/2210.14815v1 )

ライセンス: Link先を確認
Yi Zhou and Danushka Bollegala(参考訳) 静的な感覚埋め込みの$\ell_2$ノルムは、感覚埋め込みを学ぶのに使用されるトレーニングコーパスにおいて、その感覚の頻度に関連する情報をエンコードする。 この発見は、以前知られていた単語埋め込みと埋め込みを感知するための関係の拡張と見なすことができる。 我々の実験結果によると、単純さにもかかわらず、$\ell_2$ norm of sense embeddedsは、単語感覚関連タスクにおいて驚くほど効果的である。 (a)最も頻繁な感覚予測 (b)Word-in-Context(WiC)、および (c)単語感覚曖昧さ解消(wsd)。 特に、分類器の機能としてのセンス埋め込みの$\ell_2$ノルムを単に含んで、静的なセンス埋め込みを使用するWiCおよびWSDメソッドを改善することができることを示す。

We show that the $\ell_2$ norm of a static sense embedding encodes information related to the frequency of that sense in the training corpus used to learn the sense embeddings. This finding can be seen as an extension of a previously known relationship for word embeddings to sense embeddings. Our experimental results show that, in spite of its simplicity, the $\ell_2$ norm of sense embeddings is a surprisingly effective feature for several word sense related tasks such as (a) most frequent sense prediction, (b) Word-in-Context (WiC), and (c) Word Sense Disambiguation (WSD). In particular, by simply including the $\ell_2$ norm of a sense embedding as a feature in a classifier, we show that we can improve WiC and WSD methods that use static sense embeddings.
翻訳日:2022-10-27 14:30:25 公開日:2022-10-26
# 対話読解のためのキー発話によるグラフモデルの実現

Question-Interlocutor Scope Realized Graph Modeling over Key Utterances for Dialogue Reading Comprehension ( http://arxiv.org/abs/2210.14456v1 )

ライセンス: Link先を確認
Jiangnan Li and Mo Yu and Fandong Meng and Zheng Lin and Peng Fu and Weiping Wang and Jie Zhou(参考訳) 本研究では,対話からの質問に対する回答を抽出する作業である対話読解(DRC)に焦点を当てる。 drcにおける対話コンテキストモデリングは、複雑な話者情報と騒がしい対話コンテキストのために難しい。 この2つの問題を解決するために,従来の研究では,ランダムにマスクされた話者が誰であるかを対話に従って推測し,対話中の発話が回答を含むかを予測するという2つの自己教師タスクが提案されている。 これらのタスクは有効であるが、(1)質問によらず話者をランダムにマスキングすることは、質問で言及されている話者を対話中の対応する話者にマップできない、そして発話の話者中心の性質を無視する、といった問題が残っている。 2) 質問に類似した発話を優先する単一発話予測は,質問に類似しない回答を含む発話の発見に限られる。 これらの問題を緩和するために,まず,新しいキー発話抽出法を提案する。 複数の連続した発話で形成された単位の予測を実行し、より多くの回答を含む発話を実現する。 抽出された単位の発話に基づいて、質問対話スコープ実現グラフ(quisg)モデルを提案する。 発話のテキスト上に構築されたグラフとして、QuISGは質問と質問をノードとして含む。 対話中の話者は、対話者スコープを実現するために、対応する発話中の単語と接続される。 ベンチマーク実験の結果,本手法は従来の手法よりも良好で競争力のある結果が得られることがわかった。

In this work, we focus on dialogue reading comprehension (DRC), a task extracting answer spans for questions from dialogues. Dialogue context modeling in DRC is tricky due to complex speaker information and noisy dialogue context. To solve the two problems, previous research proposes two self-supervised tasks respectively: guessing who a randomly masked speaker is according to the dialogue and predicting which utterance in the dialogue contains the answer. Although these tasks are effective, there are still urging problems: (1) randomly masking speakers regardless of the question cannot map the speaker mentioned in the question to the corresponding speaker in the dialogue, and ignores the speaker-centric nature of utterances. This leads to wrong answer extraction from utterances in unrelated interlocutors' scopes; (2) the single utterance prediction, preferring utterances similar to the question, is limited in finding answer-contained utterances not similar to the question. To alleviate these problems, we first propose a new key utterances extracting method. It performs prediction on the unit formed by several contiguous utterances, which can realize more answer-contained utterances. Based on utterances in the extracted units, we then propose Question-Interlocutor Scope Realized Graph (QuISG) modeling. As a graph constructed on the text of utterances, QuISG additionally involves the question and question-mentioning speaker names as nodes. To realize interlocutor scopes, speakers in the dialogue are connected with the words in their corresponding utterances. Experiments on the benchmarks show that our method can achieve better and competitive results against previous works.
翻訳日:2022-10-27 14:24:40 公開日:2022-10-26
# Bi-Link:トランスフォーマーとプロンプトの対比学習によるテキストからのインダクティブリンク予測

Bi-Link: Bridging Inductive Link Predictions from Text via Contrastive Learning of Transformers and Prompts ( http://arxiv.org/abs/2210.14463v1 )

ライセンス: Link先を確認
Bohua Peng, Shihao Liang and Mobarakol Islam(参考訳) 帰納的知識グラフの完成には、基礎となる意味論と関係の論理パターンを理解するモデルが必要である。 事前学習された言語モデルの進歩により、最近の研究はリンク予測タスクのためのトランスフォーマーを設計した。 しかし、経験的研究により、線形化三重項は反転や対称性といった関係パターンの学習に影響を及ぼすことが示された。 本稿では,確率論的構文を用いたリンク予測手法であるBi-Linkを提案する。 BERTの文法的知識を用いて,大規模知識グラフに一般化する学習的構文パターンに従って,関係性プロンプトを効率的に探索する。 対称関係をより良く表現するために,対称リンク予測モデルを設計し,前方予測と後方予測の双方向リンクを確立する。 この双方向リンクは、テスト時に柔軟なセルフアンサンブル戦略に対応する。 我々の実験では、Bi-Linkはリンク予測データセット(WN18RR、FB15K-237、Wikidata5M)の最近のベースラインよりも優れています。 さらに,環境を結合してバイリンクを評価するインダクティブエンティティとしてzeshel-indを構築した。 実験により,本手法は領域シフト下で一般化できるロバスト表現が得られることを示した。

Inductive knowledge graph completion requires models to comprehend the underlying semantics and logic patterns of relations. With the advance of pretrained language models, recent research have designed transformers for link prediction tasks. However, empirical studies show that linearizing triples affects the learning of relational patterns, such as inversion and symmetry. In this paper, we propose Bi-Link, a contrastive learning framework with probabilistic syntax prompts for link predictions. Using grammatical knowledge of BERT, we efficiently search for relational prompts according to learnt syntactical patterns that generalize to large knowledge graphs. To better express symmetric relations, we design a symmetric link prediction model, establishing bidirectional linking between forward prediction and backward prediction. This bidirectional linking accommodates flexible self-ensemble strategies at test time. In our experiments, Bi-Link outperforms recent baselines on link prediction datasets (WN18RR, FB15K-237, and Wikidata5M). Furthermore, we construct Zeshel-Ind as an in-domain inductive entity linking the environment to evaluate Bi-Link. The experimental results demonstrate that our method yields robust representations which can generalize under domain shift.
翻訳日:2022-10-27 14:24:15 公開日:2022-10-26
# Eeny, meeny, miny, moe. 形態素インフレクションのためのデータ選択方法

Eeny, meeny, miny, moe. How to choose data for morphological inflection ( http://arxiv.org/abs/2210.14465v1 )

ライセンス: Link先を確認
Saliha Muradoglu and Mans Hulden(参考訳) データ不足は、低リソース言語に対する多くの自然言語処理(NLP)タスクにおいて広範な問題である。 形態学において、データのタグ付けとグロースという労働集約的な作業は、NLPと言語ドキュメントの両方にとって深刻なボトルネックである。 アクティブラーニング(al)は、モデル改善に最も役立つデータを選択することで、データアノテーションのコストを削減することを目的としている。 本稿では,トランスフォーマーモデルを用いた形態的インフレクションの課題に対する4つのサンプリング戦略について検討する。1組のオラクル実験では,モデルがすでにテスト形式を正しく表現できるか否か,あるいは正しく表現できないか,および高低モデルの信頼性,エントロピー,ランダム選択に基づいて,データを選択する。 本研究では,30言語にまたがる戦略の堅牢性について検討する。 また,Nat\"ugu"のより詳細なケーススタディも実施する。 その結果,モデル信頼度とエントロピーに基づくデータ選択の利点が明らかとなった。 当然のことながら、言語コンサルタントのフィードバックのプロキシとして提示される、さらなるトレーニングのために不正に処理されたフォームのみが選択されるオラクル実験は、最も改善されている。 これに続いて、低信頼と高エントロピーの予測を選択する。 また,従来の大容量データセットの知恵により精度が向上し,高信頼や低エントロピー形式,あるいはモデルがすでに正確に表現できる形式の導入により,モデルの性能が低下することを示した。

Data scarcity is a widespread problem in numerous natural language processing (NLP) tasks for low-resource languages. Within morphology, the labour-intensive work of tagging/glossing data is a serious bottleneck for both NLP and language documentation. Active learning (AL) aims to reduce the cost of data annotation by selecting data that is most informative for improving the model. In this paper, we explore four sampling strategies for the task of morphological inflection using a Transformer model: a pair of oracle experiments where data is chosen based on whether the model already can or cannot inflect the test forms correctly, as well as strategies based on high/low model confidence, entropy, as well as random selection. We investigate the robustness of each strategy across 30 typologically diverse languages. We also perform a more in-depth case study of Nat\"ugu. Our results show a clear benefit to selecting data based on model confidence and entropy. Unsurprisingly, the oracle experiment, where only incorrectly handled forms are chosen for further training, which is presented as a proxy for linguist/language consultant feedback, shows the most improvement. This is followed closely by choosing low-confidence and high-entropy predictions. We also show that despite the conventional wisdom of larger data sets yielding better accuracy, introducing more instances of high-confidence or low-entropy forms, or forms that the model can already inflect correctly, can reduce model performance.
翻訳日:2022-10-27 14:23:56 公開日:2022-10-26
# sinhala文埋め込み:低リソース言語のための2層構造

Sinhala Sentence Embedding: A Two-Tiered Structure for Low-Resource Languages ( http://arxiv.org/abs/2210.14472v1 )

ライセンス: Link先を確認
Gihan Weeraprameshwara, Vihanga Jayawickrama, Nisansa de Silva, Yudhanjaya Wijeratne(参考訳) 自然言語を数値的にモデル化する過程では、言語埋め込みの開発が不可欠である。 しかし、十分に大きなコーパス、効果的な言語パーサ、その他の必要なリソースを見つけるのが困難であるSinhalaのような資源不足言語のための機能的な埋め込みを開発することは困難である。 このような状況下では、テキストを数値的に表現する効果的な埋め込み手法を考案する既存のモデルの利用は非常に実りある。 本稿では,感情分析領域におけるシンハラテキストの表現における,一層および二層埋め込みアーキテクチャの効果について検討する。 その結果,下層が単語埋め込み,上層が文埋め込みからなる2層埋め込みアーキテクチャは,単語埋め込みモデルによって達成された83.76%とは対照的に,最大F1スコア88.04%を達成し,一層埋め込みよりも優れた文埋め込みを実現することが証明された。 さらに、双曲空間への埋め込みも開発され、性能の観点からユークリッド埋め込みと比較される。 この研究には、Facebook投稿と関連する反応からなる感情データセットが使用されている。 異なる埋め込みシステムの性能を効果的に比較するために、同じディープニューラルネットワーク構造が、関連するテキストをエンコードするために使用される埋め込みシステムと感情データに基づいて訓練されている。

In the process of numerically modeling natural languages, developing language embeddings is a vital step. However, it is challenging to develop functional embeddings for resource-poor languages such as Sinhala, for which sufficiently large corpora, effective language parsers, and any other required resources are difficult to find. In such conditions, the exploitation of existing models to come up with an efficacious embedding methodology to numerically represent text could be quite fruitful. This paper explores the effectivity of several one-tiered and two-tiered embedding architectures in representing Sinhala text in the sentiment analysis domain. With our findings, the two-tiered embedding architecture where the lower-tier consists of a word embedding and the upper-tier consists of a sentence embedding has been proven to perform better than one-tier word embeddings, by achieving a maximum F1 score of 88.04% in contrast to the 83.76% achieved by word embedding models. Furthermore, embeddings in the hyperbolic space are also developed and compared with Euclidean embeddings in terms of performance. A sentiment data set consisting of Facebook posts and associated reactions have been used for this research. To effectively compare the performance of different embedding systems, the same deep neural network structure has been trained on sentiment data with each of the embedding systems used to encode the text associated.
翻訳日:2022-10-27 14:23:31 公開日:2022-10-26
# コード構文理解のためのベンチマーク言語モデル

Benchmarking Language Models for Code Syntax Understanding ( http://arxiv.org/abs/2210.14473v1 )

ライセンス: Link先を確認
Da Shen, Xinyun Chen, Chenguang Wang, Koushik Sen, Dawn Song(参考訳) 事前学習された言語モデルは、自然言語処理とプログラム理解の両方において、その構造を明示的にモデル化することなく、入力をトークンシーケンスとして表現する印象的な性能を示している。 事前学習された言語モデルは、構文理解タスクを微調整することなく、自然言語の構文規則を捉えることができる。 しかしながら、事前訓練されたモデルがコード構造をどのように理解しているかについては、限定的な理解がある。 本研究では,プログラムの構文構造を特定するための,最先端の事前訓練モデルの最初の徹底的なベンチマークを行う。 具体的には,対応する抽象構文木に構文関係を付加した大規模プログラムデータセットであるCodeSyntaxを紹介する。 私たちのキーとなる観察は、コードで事前訓練された既存の言語モデルは、コード構文の理解が欠けていることです。 実際、これらの事前学習されたプログラミング言語モデルは、位置オフセットとキーワードに基づく単純なベースラインのパフォーマンスにマッチしない。 また,自然言語とプログラミング言語の違いを構文構造理解の観点から強調するために,自然言語ベンチマークを提案する。 プログラミング言語における既存の事前学習手法の重要な限界を指摘し,コードの構文構造をモデル化することの重要性を示唆した。

Pre-trained language models have demonstrated impressive performance in both natural language processing and program understanding, which represent the input as a token sequence without explicitly modeling its structure. Some prior works show that pre-trained language models can capture the syntactic rules of natural languages without finetuning on syntax understanding tasks. However, there is limited understanding of how well pre-trained models understand the code structure so far. In this work, we perform the first thorough benchmarking of the state-of-the-art pre-trained models for identifying the syntactic structures of programs. Specifically, we introduce CodeSyntax, a large-scale dataset of programs annotated with the syntactic relationships in their corresponding abstract syntax trees. Our key observation is that existing language models pretrained on code still lack the understanding of code syntax. In fact, these pre-trained programming language models fail to match the performance of simple baselines based on positional offsets and keywords. We also present a natural language benchmark to highlight the differences between natural languages and programming languages in terms of syntactic structure understanding. Our findings point out key limitations of existing pre-training methods for programming languages, and suggest the importance of modeling code syntactic structures.
翻訳日:2022-10-27 14:23:07 公開日:2022-10-26
# 否定からの肯定的解釈の活用は自然言語理解を改善する

Leveraging Affirmative Interpretations from Negation Improves Natural Language Understanding ( http://arxiv.org/abs/2210.14486v1 )

ライセンス: Link先を確認
Md Mosharaf Hossain and Eduardo Blanco(参考訳) 否定は多くの自然言語理解タスクにおいて課題となる。 否定文の理解には肯定的解釈の推論がしばしば必要であるという事実に着想を得て,本論文では,3つの自然言語理解タスクに対して,そのような便益モデルを行うことが示される。 我々は,否定文と肯定解釈文のペアを収集し,その結果15万組以上の文を収集する自動手順を提案する。 実験の結果、これらのペアを活用することが (a)T5は、前回のベンチマークで否定から肯定的な解釈を生成し、 b)RoBERTaベースの分類器は自然言語推論の課題を解決する。 また、ペアを活用してプラグアンドプレイのニューラルジェネレータを構築し、否定的な文が肯定的な解釈を生成する。 そして,この事前学習したジェネレータを,感情分析のためのRoBERTaベースの分類器に組み込んで,その結果を改善することを示す。 重要なことに、我々の提案は手作業を必要としない。

Negation poses a challenge in many natural language understanding tasks. Inspired by the fact that understanding a negated statement often requires humans to infer affirmative interpretations, in this paper we show that doing so benefits models for three natural language understanding tasks. We present an automated procedure to collect pairs of sentences with negation and their affirmative interpretations, resulting in over 150,000 pairs. Experimental results show that leveraging these pairs helps (a) T5 generate affirmative interpretations from negations in a previous benchmark, and (b) a RoBERTa-based classifier solve the task of natural language inference. We also leverage our pairs to build a plug-and-play neural generator that given a negated statement generates an affirmative interpretation. Then, we incorporate the pretrained generator into a RoBERTa-based classifier for sentiment analysis and show that doing so improves the results. Crucially, our proposal does not require any manual effort.
翻訳日:2022-10-27 14:22:49 公開日:2022-10-26
# cs1qa: 入門プログラミングコースでコードベースの質問応答を支援するデータセット

CS1QA: A Dataset for Assisting Code-based Question Answering in an Introductory Programming Course ( http://arxiv.org/abs/2210.14494v1 )

ライセンス: Link先を確認
Changyoon Lee, Yeon Seonwoo, Alice Oh(参考訳) CS1QAはプログラミング教育分野におけるコードに基づく質問応答のためのデータセットである。 CS1QAは、Pythonを使った入門プログラミングクラスでチャットログから収集された9,237の質問応答ペアと、コード付き無注釈のチャットデータ17,698である。 各質問には学生のコードが添付され、その質問に答えるコードの一部が添付される。 我々は、CS1QAを構築するためのアノテーションプロセスを慎重に設計し、収集したデータセットを詳細に分析する。 CS1QAのタスクは、質問タイプ、関連するコードスニペットに与えられた質問とコードを予測し、注釈付きコーパスから回答を取得することである。 複数のベースラインモデルにおける実験の結果を報告し,徹底的に解析した。 CS1QAのタスクは、コードと自然言語の両方を理解するためにモデルに挑戦する。 このユニークなデータセットは、教育環境でソースコードの理解と質問応答のベンチマークとして使用できる。

We introduce CS1QA, a dataset for code-based question answering in the programming education domain. CS1QA consists of 9,237 question-answer pairs gathered from chat logs in an introductory programming class using Python, and 17,698 unannotated chat data with code. Each question is accompanied with the student's code, and the portion of the code relevant to answering the question. We carefully design the annotation process to construct CS1QA, and analyze the collected dataset in detail. The tasks for CS1QA are to predict the question type, the relevant code snippet given the question and the code and retrieving an answer from the annotated corpus. Results for the experiments on several baseline models are reported and thoroughly analyzed. The tasks for CS1QA challenge models to understand both the code and natural language. This unique dataset can be used as a benchmark for source code comprehension and question answering in the educational setting.
翻訳日:2022-10-27 14:22:34 公開日:2022-10-26
# SentBS:制御可能な要約のための文レベルビーム探索

SentBS: Sentence-level Beam Search for Controllable Summarization ( http://arxiv.org/abs/2210.14502v1 )

ライセンス: Link先を確認
Chenhui Shen, Liying Cheng, Lidong Bing, Yang You, Luo Si(参考訳) 制御可能なテキスト生成において、幅広い制御視点が検討されている。 近年,構造制御型要約が有用で興味深い研究方法として提案されている。 しかし、現在の構造制御手法では、所望の構造を強制する効果は限られている。 そこで本研究では,文レベルのビーム探索生成法(sentbs)を提案する。 我々は,SentBSがサブコンポーネントとして使用するデコード手法の異なる組み合わせを実験し,構造制御されたデータセットMReDの結果を評価する。 実験により、SentBSのすべての組み合わせが生成したテキストと所望の構造との一致を改善し、最良の方法は既存のモデルが抱える構造的差異を約68%削減できることが示されている。

A wide range of control perspectives have been explored in controllable text generation. Structure-controlled summarization is recently proposed as a useful and interesting research direction. However, current structure-controlling methods have limited effectiveness in enforcing the desired structure. To address this limitation, we propose a sentence-level beam search generation method (SentBS), where evaluation is conducted throughout the generation process to select suitable sentences for subsequent generations. We experiment with different combinations of decoding methods to be used as subcomponents by SentBS and evaluate results on the structure-controlled dataset MReD. Experiments show that all explored combinations for SentBS can improve the agreement between the generated text and the desired structure, with the best method significantly reducing the structural discrepancies suffered by the existing model, by approximately 68%.
翻訳日:2022-10-27 14:22:19 公開日:2022-10-26
# MultiWOZは解決されたタスクか? ユーザシミュレータを用いた対話型tod評価フレームワーク

Is MultiWOZ a Solved Task? An Interactive TOD Evaluation Framework with User Simulator ( http://arxiv.org/abs/2210.14529v1 )

ライセンス: Link先を確認
Qinyuan Cheng, Linyang Li, Guofeng Quan, Feng Gao, Xiaofeng Mou, Xipeng Qiu(参考訳) 近年,タスク指向対話(TOD)システムが注目されている。 現在の手法は,政策ミスマッチ問題によってTODの評価が制限される一方で,事前学習モデルや微調整戦略の構築に重点を置いている。 つまり、評価中は、ユーザ発話はアノテーション付きデータセットからであり、これらの発話は注釈付きテキスト以外に多くの代替手段を持つ可能性のある以前のレスポンスと相互作用すべきである。 そこで本研究では,TODのための対話型評価フレームワークを提案する。 まず,事前学習モデルに基づく目標指向ユーザシミュレータを構築し,ユーザシミュレータを用いて対話システムと対話し対話を生成する。 さらに,対話型評価における文流速とセッションコヒーレンスを測定するために,文レベルとセッションレベルスコアを導入する。 実験結果から,提案手法では,マルチウォズデータセットの対話的評価において,rlベースのtodシステムが98%近いインフォメーションと成功率を達成でき,提案スコアはインフォメーションと成功率以外に応答品質を測定した。 我々は,TODタスクにおけるシミュレータに基づくインタラクティブな評価を促進することを期待している。

Task-Oriented Dialogue (TOD) systems are drawing more and more attention in recent studies. Current methods focus on constructing pre-trained models or fine-tuning strategies while the evaluation of TOD is limited by a policy mismatch problem. That is, during evaluation, the user utterances are from the annotated dataset while these utterances should interact with previous responses which can have many alternatives besides annotated texts. Therefore, in this work, we propose an interactive evaluation framework for TOD. We first build a goal-oriented user simulator based on pre-trained models and then use the user simulator to interact with the dialogue system to generate dialogues. Besides, we introduce a sentence-level and a session-level score to measure the sentence fluency and session coherence in the interactive evaluation. Experimental results show that RL-based TOD systems trained by our proposed user simulator can achieve nearly 98% inform and success rates in the interactive evaluation of MultiWOZ dataset and the proposed scores measure the response quality besides the inform and success rates. We are hoping that our work will encourage simulator-based interactive evaluations in the TOD task.
翻訳日:2022-10-27 14:22:06 公開日:2022-10-26
# データパースペクティビズムとパーソナライズ:社会的ノルムへの応用

Unifying Data Perspectivism and Personalization: An Application to Social Norms ( http://arxiv.org/abs/2210.14531v1 )

ライセンス: Link先を確認
Joan Plepi, B\'ela Neuendorf, Lucie Flek, Charles Welch(参考訳) 言語処理タスクに単元真理を使用する代わりに、最近のいくつかの研究は、アノテーションのセットのラベルをどのように表現し、予測するかを調査した。 しかし、アノテータに関する情報はほとんど、あるいは全く知られておらず、また、アノテータの集合は小さい。 本研究では,13k アノテーションと210k の社会的規範判断の対立に関するソーシャルメディア投稿のコーパスについて検討する。 アノテーションのモデル化にパーソナライズ手法を適用し,その効果を社会規範の知覚予測に比較した新しい実験的な設定を提案する。 さらに、紛争中の当事者間の関係の密接性によって異なる社会的状況のサブセット間でのパフォーマンス分析を行い、パーソナライゼーションが最も役立つ場所を評価する。

Instead of using a single ground truth for language processing tasks, several recent studies have examined how to represent and predict the labels of the set of annotators. However, often little or no information about annotators is known, or the set of annotators is small. In this work, we examine a corpus of social media posts about conflict from a set of 13k annotators and 210k judgements of social norms. We provide a novel experimental setup that applies personalization methods to the modeling of annotators and compare their effectiveness for predicting the perception of social norms. We further provide an analysis of performance across subsets of social situations that vary by the closeness of the relationship between parties in conflict, and assess where personalization helps the most.
翻訳日:2022-10-27 14:21:43 公開日:2022-10-26
# 会話における談話認識感情の抽出

Discourse-Aware Emotion Cause Extraction in Conversations ( http://arxiv.org/abs/2210.14419v1 )

ライセンス: Link先を確認
Dexin Kong, Nan Yu, Yun Yuan, Guohong Fu, Chen Gong(参考訳) 会話における感情的原因抽出(ECEC)は、会話における感情的原因を含む発話を抽出することを目的としている。 従来の研究は、逐次符号化による会話コンテキストのモデル化に重点を置いており、ECECCにおける発話と会話特有の特徴の間の情報的相互作用を無視している。 本稿では,ECECにおける発話対話処理における会話構造の重要性について検討する。 そこで本研究では,この課題に対する談話認識モデル(DAM)を提案する。 具体的には,マルチタスク学習(MTL)フレームワークを用いた談話解析と協調してECECをモデル化し,ゲートグラフニューラルネットワーク(ゲートGNN)による談話構造を明示的に符号化する。 さらに、ゲートGNNを使用して、会話特化機能を備えたECECモデルをさらに強化します。 ベンチマークコーパスの結果、DAMは文学における最先端システム(SOTA)よりも優れていた。 このことは、談話構造が感情的発話とそれに対応する原因表現との潜在的なリンクを含んでいることを示唆している。 また、会話特有の機能の有効性を検証する。 この論文のコードはgithubで入手できる。

Emotion Cause Extraction in Conversations (ECEC) aims to extract the utterances which contain the emotional cause in conversations. Most prior research focuses on modelling conversational contexts with sequential encoding, ignoring the informative interactions between utterances and conversational-specific features for ECEC. In this paper, we investigate the importance of discourse structures in handling utterance interactions and conversationspecific features for ECEC. To this end, we propose a discourse-aware model (DAM) for this task. Concretely, we jointly model ECEC with discourse parsing using a multi-task learning (MTL) framework and explicitly encode discourse structures via gated graph neural network (gated GNN), integrating rich utterance interaction information to our model. In addition, we use gated GNN to further enhance our ECEC model with conversation-specific features. Results on the benchmark corpus show that DAM outperform the state-of-theart (SOTA) systems in the literature. This suggests that the discourse structure may contain a potential link between emotional utterances and their corresponding cause expressions. It also verifies the effectiveness of conversationalspecific features. The codes of this paper will be available on GitHub.
翻訳日:2022-10-27 14:13:12 公開日:2022-10-26
# nlp研究における地理的引用ギャップ

Geographic Citation Gaps in NLP Research ( http://arxiv.org/abs/2210.14424v1 )

ライセンス: Link先を確認
Mukund Rungta, Janvijay Singh, Saif M. Mohammad and Diyi Yang(参考訳) 公平な世界では、人々は教育、科学研究の実施、出版、自分の仕事に対する信用を得るための公平な機会を持っている。 しかし研究者の間では、トップnlpの会場で受け入れられる膨大な数の論文が、少数の西側諸国や中国(最後は中国)からのものであるのに対して、アフリカや南米からの論文はごくわずかである。 論文引用数にも同様の相違があると考えられている。 測ることができないもの、改善できないもの」という精神の中で、この研究は地理的な位置と出版の成功(トップのNLP会場での受け入れと引用の影響)との関係について一連の質問をする。 われわれはまず,ACLアンソロジーから7万件の論文のデータセットを作成し,そのメタ情報を抽出し,引用ネットワークを生成した。 次に,論文の受理や引用において地理的に大きな差異があるだけでなく,出版場所やNLPのサブフィールドなどの変数を制御しても,これらの格差は持続していることを示す。 さらに,NLPコミュニティの地理的多様性向上に向けた取組にも拘わらず,2000年代初め以降,地域ごとの出版指標の格差が増加傾向にあることを示す。 コードとデータセットはここでリリースします。 https://github.com/iamjanvijay/acl-cite-net

In a fair world, people have equitable opportunities to education, to conduct scientific research, to publish, and to get credit for their work, regardless of where they live. However, it is common knowledge among researchers that a vast number of papers accepted at top NLP venues come from a handful of western countries and (lately) China; whereas, very few papers from Africa and South America get published. Similar disparities are also believed to exist for paper citation counts. In the spirit of "what we do not measure, we cannot improve", this work asks a series of questions on the relationship between geographical location and publication success (acceptance in top NLP venues and citation impact). We first created a dataset of 70,000 papers from the ACL Anthology, extracted their meta-information, and generated their citation network. We then show that not only are there substantial geographical disparities in paper acceptance and citation but also that these disparities persist even when controlling for a number of variables such as venue of publication and sub-field of NLP. Further, despite some steps taken by the NLP community to improve geographical diversity, we show that the disparity in publication metrics across locations is still on an increasing trend since the early 2000s. We release our code and dataset here: https://github.com/iamjanvijay/acl-cite-net
翻訳日:2022-10-27 14:12:54 公開日:2022-10-26
# resel:検索と選択の学習による科学文書と表からのn-ary関係抽出

ReSel: N-ary Relation Extraction from Scientific Text and Tables by Learning to Retrieve and Select ( http://arxiv.org/abs/2210.14427v1 )

ライセンス: Link先を確認
Yuchen Zhuang, Yinghao Li, Jerry Junyang Cheung, Yue Yu, Yingjun Mou, Xiang Chen, Le Song, Chao Zhang(参考訳) 科学論文からn-アリ関係タプルを抽出する問題を考察する。 このタスクは、ターゲットの知識タプルがドキュメントの複数の部分とモダリティに存在するため、難しい。 提案手法では,まず最も関連する段落/テーブルを検索し,次に検索されたコンポーネントから対象エンティティを選択する2段階の手順に分解する。 高レベル検索の段階では、ReSelは単純で効果的な機能セットを設計し、クエリとコンポーネント間の複数レベルの語彙的および意味的な類似性をキャプチャする。 低レベルの選択段階のために、reselはエンティティ間の意味的および文書的構造的関係をモデル化するマルチビューアーキテクチャとともに、クロスモーダルなエンティティ相関グラフを設計する。 3つの科学情報抽出データセットを用いた実験の結果,reselは最先端のベースラインをかなり上回っていることがわかった。

We study the problem of extracting N-ary relation tuples from scientific articles. This task is challenging because the target knowledge tuples can reside in multiple parts and modalities of the document. Our proposed method ReSel decomposes this task into a two-stage procedure that first retrieves the most relevant paragraph/table and then selects the target entity from the retrieved component. For the high-level retrieval stage, ReSel designs a simple and effective feature set, which captures multi-level lexical and semantic similarities between the query and components. For the low-level selection stage, ReSel designs a cross-modal entity correlation graph along with a multi-view architecture, which models both semantic and document-structural relations between entities. Our experiments on three scientific information extraction datasets show that ReSel outperforms state-of-the-art baselines significantly.
翻訳日:2022-10-27 14:12:30 公開日:2022-10-26
# 確率的パラメータ化のための履歴ベースベイジアンクロージャ:Lorenz '96への応用

History-Based, Bayesian, Closure for Stochastic Parameterization: Application to Lorenz '96 ( http://arxiv.org/abs/2210.14488v1 )

ライセンス: Link先を確認
Mohamed Aziz Bhouri and Pierre Gentine(参考訳) 物理パラメータ化は、気象や地球規模の気候モデルや粗大な乱流モデルにおける未解決のサブグリッド過程の表現として用いられる。 これらのパラメータ化は通常、基礎となる小規模プロセスの物理的だが経験的な表現に基づいている。 機械学習に基づくパラメータ化は、最近代替案として提案され、小規模プロセスに関連する不確実性を削減するという大きな約束を示している。 しかし、これらのアプローチは、しばしば考慮されたプロセスにおける確率性に起因する重要なミスマッチを示している。 この確率性は、ノイズの多いデータ、未解決変数、あるいは単にプロセスの本質的なカオス性に起因する。 これらの問題に対処するために、ニューラルネットワークのベイズ形式に基づく新しいタイプのパラメータ化(クロージャ)を開発し、不確実な定量化を考慮し、クロージャの即時応答を考慮に入れたメモリを含む。 高次元空間におけるベイズ的手法の次元性の呪いを克服するために、ベイズ的戦略は、サンプリング過程を加速するパラメータに関して確率関数と運動エネルギーの勾配を利用するハミルトン的モンテカルロマルコフ・チェインサンプリング戦略に基づいている。 提案するベイズ歴史に基づくパラメータ化を,衛星観測と類似したノイズ・スパースデータの存在下でのlorenz '96モデルに適用し,異なる誤差源に対する信頼に値する不確かさの定量化を返しながら,解決された変数の熟練した予測を行う能力を示す。 このアプローチは閉包問題に対するベイズ的アプローチの活用の道を開く。

Physical parameterizations are used as representations of unresolved subgrid processes within weather and global climate models or coarse-scale turbulent models, whose resolutions are too coarse to resolve small-scale processes. These parameterizations are typically grounded on physically-based, yet empirical, representations of the underlying small-scale processes. Machine learning-based parameterizations have recently been proposed as an alternative and have shown great promises to reduce uncertainties associated with small-scale processes. Yet, those approaches still show some important mismatches that are often attributed to stochasticity in the considered process. This stochasticity can be due to noisy data, unresolved variables or simply to the inherent chaotic nature of the process. To address these issues, we develop a new type of parameterization (closure) which is based on a Bayesian formalism for neural networks, to account for uncertainty quantification, and includes memory, to account for the non-instantaneous response of the closure. To overcome the curse of dimensionality of Bayesian techniques in high-dimensional spaces, the Bayesian strategy is based on a Hamiltonian Monte Carlo Markov Chain sampling strategy that takes advantage of the likelihood function and kinetic energy's gradients with respect to the parameters to accelerate the sampling process. We apply the proposed Bayesian history-based parameterization to the Lorenz '96 model in the presence of noisy and sparse data, similar to satellite observations, and show its capacity to predict skillful forecasts of the resolved variables while returning trustworthy uncertainty quantifications for different sources of error. This approach paves the way for the use of Bayesian approaches for closure problems.
翻訳日:2022-10-27 14:06:49 公開日:2022-10-26
# Recurrenceは多様性を高めます! 変圧器ベース変分自動エンコーダにおける逐次潜時変分の再検討

Recurrence Boosts Diversity! Revisiting Recurrent Latent Variable in Transformer-Based Variational AutoEncoder for Diverse Text Generation ( http://arxiv.org/abs/2210.12409v2 )

ライセンス: Link先を確認
Jinyi Hu, Xiaoyuan Yi, Wenhao Li, Maosong Sun, Xing Xie(参考訳) 変分オートエンコーダ(vae)はテキスト生成に広く採用されている。 多くの変種の中で、recurrent vaeは前の変種で条件付けされたトークン毎の潜在変数を学習し、rnnの時代において逐次変動をよりよく捉える。 しかし、並列性のため、最近支配的なTransformerにそのようなリカレントダイナミクスを組み込む方法は不明である。 本研究では,TransformerをベースとしたリカレントVAE構造であるTRACEを提案する。 TRACEは、任意に分離されたテキストセグメントを持つセグメントワイド潜在変数に繰り返しを課し、残留パラメータ化を伴う後続分布を構築する。 さらに,潜在変数の条件依存を保ちながら並列性を実現する等等式行列を近似して加速法を設計する。 我々は、トレースが各セグメントと先行する潜在変数の絡み合いを強化し、kl項のゼロでない下界を推定し、生成の多様性を理論的に保証できることを実証する。 2つの非条件および1つの条件付き生成タスクの実験は、TRACEが良好な生成品質を維持しながら、多様性を著しく向上することを示した。

Variational Auto-Encoder (VAE) has been widely adopted in text generation. Among many variants, recurrent VAE learns token-wise latent variables with each conditioned on the preceding ones, which captures sequential variability better in the era of RNN. However, it is unclear how to incorporate such recurrent dynamics into the recently dominant Transformer due to its parallelism. In this work, we propose TRACE, a Transformer-based recurrent VAE structure. TRACE imposes recurrence on segment-wise latent variables with arbitrarily separated text segments and constructs the posterior distribution with residual parameterization. Besides, we design an acceleration method by approximating idempotent matrices, which allows parallelism while maintaining the conditional dependence of latent variables. We demonstrate that TRACE could enhance the entanglement of each segment and preceding latent variables and deduce a non-zero lower bound of the KL term, providing a theoretical guarantee of generation diversity. Experiments on two unconditional and one conditional generation tasks show that TRACE achieves significantly improved diversity while maintaining satisfactory generation quality.
翻訳日:2022-10-27 14:06:18 公開日:2022-10-26
# ectsum: 長期収支記録の弾丸点要約のための新しいベンチマークデータセット

ECTSum: A New Benchmark Dataset For Bullet Point Summarization of Long Earnings Call Transcripts ( http://arxiv.org/abs/2210.12467v2 )

ライセンス: Link先を確認
Rajdeep Mukherjee, Abhinav Bohra, Akash Banerjee, Soumya Sharma, Manjunath Hegde, Afreen Shaikh, Shivani Shrivastava, Koustuv Dasgupta, Niloy Ganguly, Saptarshi Ghosh, Pawan Goyal(参考訳) 自動要約の著しい進歩にもかかわらず、最先端の手法は、短いニュースワイヤー記事の要約や、科学的記事や政府の報告のような強力なレイアウトバイアスのある文書を多く訓練している。 事実や数字を含む財務文書を要約する効果的な手法は、主に適切なデータセットが利用できないため、明らかにされていない。 本稿では、公開企業による文書化や、Reutersの記事から派生した短い専門家による電報スタイルの弾丸点要約を含む、新たな収益計算(ECT)データセットであるECTSumを紹介する。 ECTは、所定の長さ制限やフォーマットのない長い非構造化文書である。 生成した要約の内容の質と事実の整合性を評価するため,さまざまな指標の最先端要約器を用いてデータセットをベンチマークした。 最後に、コールで議論された重要な事実を正確に捉えるために、単純なyet- Effective approachであるECT-BPSを提案する。

Despite tremendous progress in automatic summarization, state-of-the-art methods are predominantly trained to excel in summarizing short newswire articles, or documents with strong layout biases such as scientific articles or government reports. Efficient techniques to summarize financial documents, including facts and figures, have largely been unexplored, majorly due to the unavailability of suitable datasets. In this work, we present ECTSum, a new dataset with transcripts of earnings calls (ECTs), hosted by publicly traded companies, as documents, and short experts-written telegram-style bullet point summaries derived from corresponding Reuters articles. ECTs are long unstructured documents without any prescribed length limit or format. We benchmark our dataset with state-of-the-art summarizers across various metrics evaluating the content quality and factual consistency of the generated summaries. Finally, we present a simple-yet-effective approach, ECT-BPS, to generate a set of bullet points that precisely capture the important facts discussed in the calls.
翻訳日:2022-10-27 14:05:57 公開日:2022-10-26
# 中国の文法的誤り訂正に必要なのはフォーカス

Focus Is What You Need For Chinese Grammatical Error Correction ( http://arxiv.org/abs/2210.12692v2 )

ライセンス: Link先を確認
Jingheng Ye, Yinghui Li, Shirong Ma, Rui Xie, Wei Wu, Hai-Tao Zheng(参考訳) 中国語文法誤り訂正(英語: Chinese Grammatical Error Correction, CGEC)は、中国語テキストに含まれる文法的誤りを自動的に検出し、訂正することを目的としている。 長期的には、研究者はCGECをある種の不確実性のあるタスク、すなわち非文法的な文がしばしば複数の参照を持つものと見なしている。 しかし、これは非常に合理的な仮説であるにもかかわらず、この時代の主流モデルの知性には厳しすぎると論じる。 本稿では,まず,複数の参照がモデル学習に肯定的な利益をもたらしないことを示す。 それとは対照的に、cgecモデルでは、トレーニングプロセス中にモデルが小さいが不可欠なデータに注意を払うことができれば有益である。 さらに, CGECモデルのフォーカス能力を向上し, CGEC性能を向上させるため, OneTarget と呼ばれる簡易かつ効果的なトレーニング戦略を提案する。 広範な実験と詳細な分析により,本手法の正確性と有効性が示された。

Chinese Grammatical Error Correction (CGEC) aims to automatically detect and correct grammatical errors contained in Chinese text. In the long term, researchers regard CGEC as a task with a certain degree of uncertainty, that is, an ungrammatical sentence may often have multiple references. However, we argue that even though this is a very reasonable hypothesis, it is too harsh for the intelligence of the mainstream models in this era. In this paper, we first discover that multiple references do not actually bring positive gains to model training. On the contrary, it is beneficial to the CGEC model if the model can pay attention to small but essential data during the training process. Furthermore, we propose a simple yet effective training strategy called OneTarget to improve the focus ability of the CGEC models and thus improve the CGEC performance. Extensive experiments and detailed analyses demonstrate the correctness of our discovery and the effectiveness of our proposed method.
翻訳日:2022-10-27 14:05:41 公開日:2022-10-26
# コンタクトセンター電話会話におけるエンティティレベルの感情分析

Entity-level Sentiment Analysis in Contact Center Telephone Conversations ( http://arxiv.org/abs/2210.13401v2 )

ライセンス: Link先を確認
Xue-Yong Fu, Cheng Chen, Md Tahmid Rahman Laskar, Shayna Gardiner, Pooja Hiranandani, Shashi Bhushan TN(参考訳) エンティティレベルの感情分析は、与えられたテキストで言及されたエンティティに関する感情を予測する。 製品や企業のような特定のエンティティに対するユーザの感情を理解することは、ビジネスコンテキストにおいて非常に有用です。 本稿では,ビジネスインサイトを提供するために,コンタクトセンターにおける英語電話の会話書き起こしを解析するエンティティレベルの感情分析システムを構築した。 本稿では,変換器をベースとした DistilBERT モデルと,ヒューリスティックなルールを補足した畳み込みニューラルネットワークを用いた2つのアプローチを提案する。

Entity-level sentiment analysis predicts the sentiment about entities mentioned in a given text. It is very useful in a business context to understand user emotions towards certain entities, such as products or companies. In this paper, we demonstrate how we developed an entity-level sentiment analysis system that analyzes English telephone conversation transcripts in contact centers to provide business insight. We present two approaches, one entirely based on the transformer-based DistilBERT model, and another that uses a convolutional neural network supplemented with some heuristic rules.
翻訳日:2022-10-27 14:05:24 公開日:2022-10-26
# fedx: 構成的ペアワイズリスク最適化のための連合学習

FedX: Federated Learning for Compositional Pairwise Risk Optimization ( http://arxiv.org/abs/2210.14396v1 )

ライセンス: Link先を確認
Zhishuai Guo, Rong Jin, Jiebo Luo, Tianbao Yang(参考訳) 本稿では,既存のflアルゴリズムが適用されない構成的ペアワイズリスクのファミリーを最適化するための,新しい連合学習(fl)問題に取り組む。 特に、目的は $\mathbb E_{\mathbf z\sim \mathcal S_1} f(\mathbb E_{\mathbf z'\sim\mathcal S_2} \ell(\mathbf w, \mathbf z, \mathbf z')$, ここで、データの2つの集合 $\mathcal S_1, \mathcal S_2$ は複数のマシンに分散している。 この問題は、AUROCの最大化とAUROCの最大化と構成損失の最大化といった機械学習において重要な応用がある。 FLアルゴリズムを設計する際の課題は、複数のマシンに対する目的の非分解性と、異なるマシン間の相互依存にある。 線形および非線形の$f$を扱うための2つの provable fl algorithm (fedx) を提案する。 この課題に対処するために,我々は,グラデーションのコンポーネントを2つのタイプ,すなわちアクティブな部分と怠け者の部分に分ける。そこではアクティブな部分はローカルモデルで計算されるローカルデータに依存し,遅延な部分は歴史的なモデルやサンプルに基づいて通信/計算される他のマシンに依存する。 本稿では,遅延部分の遅延と局所モデルパラメータ間の相互依存性に対処する新たな理論解析法を開発し,局所勾配推定器の計算を行う。 繰り返しと通信の両複雑さを確立し、遅延部分の計算に歴史的なサンプルとモデルを用いることで、複雑さを劣化させないことを示す。 我々は,深部AUROCと部分AUROCの最大化のためのFedXの実証的研究を行い,それらの性能をいくつかのベースラインと比較した。

In this paper, we tackle a novel federated learning (FL) problem for optimizing a family of compositional pairwise risks, to which no existing FL algorithms are applicable. In particular, the objective has the form of $\mathbb E_{\mathbf z\sim \mathcal S_1} f(\mathbb E_{\mathbf z'\sim\mathcal S_2} \ell(\mathbf w, \mathbf z, \mathbf z'))$, where two sets of data $\mathcal S_1, \mathcal S_2$ are distributed over multiple machines, $\ell(\cdot; \cdot,\cdot)$ is a pairwise loss that only depends on the prediction outputs of the input data pairs $(\mathbf z, \mathbf z')$, and $f(\cdot)$ is possibly a non-linear non-convex function. This problem has important applications in machine learning, e.g., AUROC maximization with a pairwise loss, and partial AUROC maximization with a compositional loss. The challenges for designing an FL algorithm lie in the non-decomposability of the objective over multiple machines and the interdependency between different machines. We propose two provable FL algorithms (FedX) for handling linear and nonlinear $f$, respectively. To address the challenges, we decouple the gradient's components with two types, namely active parts and lazy parts, where the active parts depend on local data that are computed with the local model and the lazy parts depend on other machines that are communicated/computed based on historical models and samples. We develop a novel theoretical analysis to combat the latency of the lazy parts and the interdependency between the local model parameters and the involved data for computing local gradient estimators. We establish both iteration and communication complexities and show that using the historical samples and models for computing the lazy parts do not degrade the complexities. We conduct empirical studies of FedX for deep AUROC and partial AUROC maximization, and demonstrate their performance compared with several baselines.
翻訳日:2022-10-27 13:57:22 公開日:2022-10-26
# マルチビューデータにおける欠落値のインプット

Imputation of missing values in multi-view data ( http://arxiv.org/abs/2210.14484v1 )

ライセンス: Link先を確認
Wouter van Loon, Marjolein Fokkema, Mark de Rooij(参考訳) マルチビューデータに欠落する値が発生した場合、ビュー内のすべての機能が同時に欠落する可能性がある。 これは、特に高次元性と組み合わせた場合、計算的に不可能な条件付き計算手法を適用する、非常に大量の欠落データをもたらす。 本稿では,重み付きペナル化ロジスティック回帰(StaPLR)に基づくメタラーニング計算手法を提案する。 シミュレーションを用いて,いくつかの計算アルゴリズムを用いて新しい計算法を評価する。 その結果, 不足値のメタレベル計算は, 計算コストがはるかに低い場合によい結果をもたらすことが示され, 予測平均マッチングやミスフォレストのような高度な計算アルゴリズムが, 計算不能な設定で可能となることを示した。

When missing values occur in multi-view data, all features in a view are likely to be missing simultaneously. This leads to very large quantities of missing data which, especially when combined with high-dimensionality, makes the application of conditional imputation methods computationally infeasible. We introduce a new meta-learning imputation method based on stacked penalized logistic regression (StaPLR), which performs imputation in a dimension-reduced space. We evaluate the new imputation method with several imputation algorithms using simulations. The results show that meta-level imputation of missing values leads to good results at a much lower computational cost, and makes the use of advanced imputation algorithms such as missForest and predictive mean matching possible in settings where they would otherwise be computationally infeasible.
翻訳日:2022-10-27 13:56:37 公開日:2022-10-26
# 多様体仮説による適応的テスト時間防御

Adaptive Test-Time Defense with the Manifold Hypothesis ( http://arxiv.org/abs/2210.14404v1 )

ライセンス: Link先を確認
Zhaoyuan Yang, Zhiwei Xu, Jing Zhang, Richard Hartley, Peter Tu(参考訳) 本研究では, 多様体仮説を用いて, 対向ロバスト性の新たな枠組みを定式化する。 我々の枠組みは敵の例に対する防御に十分な条件を提供する。 定式化と変分推論によるテスト時間防御手法を開発した。 提案手法は, 多様体学習とベイズフレームワークを組み合わせることで, 対角的学習を必要とせずに, 対角的堅牢性を実現する。 提案手法は,攻撃者がテスト時間防衛の存在を知っていても,敵対的ロバスト性を提供できることを示す。 さらに,本手法は可変オートエンコーダのテスト時間防御機構としても機能する。

In this work, we formulate a novel framework of adversarial robustness using the manifold hypothesis. Our framework provides sufficient conditions for defending against adversarial examples. We develop a test-time defense method with our formulation and variational inference. The developed approach combines manifold learning with the Bayesian framework to provide adversarial robustness without the need for adversarial training. We show that our proposed approach can provide adversarial robustness even if attackers are aware of existence of test-time defense. In additions, our approach can also serve as a test-time defense mechanism for variational autoencoders.
翻訳日:2022-10-27 13:55:44 公開日:2022-10-26
# 注意的畳み込みニューラルネットワークによる逆ロバスト医療分類

Adversarially Robust Medical Classification via Attentive Convolutional Neural Networks ( http://arxiv.org/abs/2210.14405v1 )

ライセンス: Link先を確認
Isaac Wasserman(参考訳) 畳み込みニューラルネットワークに基づく医用画像分類器は、特に逆向きの例に影響を受けやすいことが示されている。 このような不安定性は、将来の自動診断では受け入れられない。 統計的対角的サンプル検出法は効果的な防御機構であることが証明されているが、ディープラーニングベースのシステムの基本的脆弱性と、従来的かつ堅牢な精度を共同で最大化するモデルの構築方法を研究するためには、さらなる研究が必要である。 本稿では,CNN ベースの医療画像分類器に注意機構を組み込むことによって,犠牲なく堅牢な精度を向上するための信頼性と効果的な戦略を提案する。 この手法は, 典型的なシナリオでは最大16%, 極端な場合では最大2700%の堅牢な精度を向上することができる。

Convolutional neural network-based medical image classifiers have been shown to be especially susceptible to adversarial examples. Such instabilities are likely to be unacceptable in the future of automated diagnoses. Though statistical adversarial example detection methods have proven to be effective defense mechanisms, additional research is necessary that investigates the fundamental vulnerabilities of deep-learning-based systems and how best to build models that jointly maximize traditional and robust accuracy. This paper presents the inclusion of attention mechanisms in CNN-based medical image classifiers as a reliable and effective strategy for increasing robust accuracy without sacrifice. This method is able to increase robust accuracy by up to 16% in typical adversarial scenarios and up to 2700% in extreme cases.
翻訳日:2022-10-27 13:55:35 公開日:2022-10-26
# RBP-DIP:Residual Back ProjectionとDeep Image Priorによる非拘束ニューラルネットワークを用いた高画質CT再構成

RBP-DIP: High-Quality CT Reconstruction Using an Untrained Neural Network with Residual Back Projection and Deep Image Prior ( http://arxiv.org/abs/2210.14416v1 )

ライセンス: Link先を確認
Ziyu Shu and Alireza Entezari(参考訳) 画像処理における前例のない成功により、ニューラルネットワーク関連の手法が、CT再構成における新しいツールセットとして登場し、フィールドを変更する可能性がある。 しかし、高品質なトレーニングデータや理論的な保証が欠如しており、ネットワーク構造も複雑化しており、実装は現実的ではない。 本稿では,Deep Image Prior(DIP)に基づく新しいフレームワーク(RBP-DIP)と,これらの課題に対処するためのRBP接続を提案する。 他のトレーニング済みニューラルネットワーク関連アルゴリズムと比較して、提案フレームワークはトレーニングデータやトレーニングプロセスを必要としないため、反復再構成(IR)アルゴリズムに近い。 その場合、提案するフレームワークは、必要に応じて(例えば、異なるハイパーパラメータや制約など)変更可能であり、異なる条件(例えば、異なる画像オブジェクト、イメージング機器、ノイズレベル)に対応できる。 実験により,提案手法は従来手法と類似のネットワーク構造を持つ事前学習モデル,特にスパースビュー,リミテッドアングル,低線量条件下での事前学習モデルよりも大幅に改善されていることが示された。

Neural network related methods, due to their unprecedented success in image processing, have emerged as a new set of tools in CT reconstruction with the potential to change the field. However, the lack of high-quality training data and theoretical guarantees, together with increasingly complicated network structures, make its implementation impractical. In this paper, we present a new framework (RBP-DIP) based on Deep Image Prior (DIP) and a special residual back projection (RBP) connection to tackle these challenges. Comparing to other pre-trained neural network related algorithms, the proposed framework is closer to an iterative reconstruction (IR) algorithm as it requires no training data or training process. In that case, the proposed framework can be altered (e.g, different hyperparameters and constraints) on demand, adapting to different conditions (e.g, different imaged objects, imaging instruments, and noise levels) without retraining. Experiments show that the proposed framework has significant improvements over other state-of-the-art conventional methods, as well as pre-trained and untrained models with similar network structures, especially under sparse-view, limited-angle, and low-dose conditions.
翻訳日:2022-10-27 13:55:23 公開日:2022-10-26
# masked modeling duo: 両方のネットワークに入力をモデル化させる学習表現

Masked Modeling Duo: Learning Representations by Encouraging Both Networks to Model the Input ( http://arxiv.org/abs/2210.14648v1 )

ライセンス: Link先を確認
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, and Kunio Kashino(参考訳) masked autoencodersは単純で強力な自己教師付き学習方法である。 しかし、マスクされた入力パッチを再構築することで間接的に表現を学習する。 いくつかの方法はマスクされたパッチの表現を予測して表現を直接学習するが、トレーニング信号の表現をエンコードする全てのパッチは最適ではないと考える。 マスク付きパッチのみを用いてトレーニング信号を取得しながら直接表現を学習するMasked Modeling Duo (M2D)を提案する。 m2dでは、オンラインネットワークが可視パッチをエンコードし、マスクパッチ表現を予測し、モメンタエンコーダであるターゲットネットワークがマスクパッチをエンコードする。 ターゲット表現の予測をより良くするために、オンラインネットワークは入力をうまくモデル化し、ターゲットネットワークはオンライン予測と一致するように適切にモデル化するべきである。 そして、学習した表現は入力をモデル化する方がよい。 汎用音声表現を学習することでm2dを検証し,urbansound8k,voxceleb1,audioset20k,gtzan, speechcommandsv2などのタスクで新たな最先端性能を設定した。

Masked Autoencoders is a simple yet powerful self-supervised learning method. However, it learns representations indirectly by reconstructing masked input patches. Several methods learn representations directly by predicting representations of masked patches; however, we think using all patches to encode training signal representations is suboptimal. We propose a new method, Masked Modeling Duo (M2D), that learns representations directly while obtaining training signals using only masked patches. In the M2D, the online network encodes visible patches and predicts masked patch representations, and the target network, a momentum encoder, encodes masked patches. To better predict target representations, the online network should model the input well, while the target network should also model it well to agree with online predictions. Then the learned representations should better model the input. We validated the M2D by learning general-purpose audio representations, and M2D set new state-of-the-art performance on tasks such as UrbanSound8K, VoxCeleb1, AudioSet20K, GTZAN, and SpeechCommandsV2.
翻訳日:2022-10-27 13:55:00 公開日:2022-10-26
# AIセグメントの腫瘍を改良する合成腫瘍

Synthetic Tumors Make AI Segment Tumors Better ( http://arxiv.org/abs/2210.14845v1 )

ライセンス: Link先を確認
Qixin Hu, Junfei Xiao, Yixiong Chen, Shuwen Sun, Jie-Neng Chen, Alan Yuille, Zongwei Zhou(参考訳) 我々は合成腫瘍を発生させる新しい戦略を開発した。 既存の研究とは違って,(1) 医療従事者でさえ実際の腫瘍と混同できる形状とテクスチャの現実性,(2) 実際の腫瘍で訓練されたモデルと同様の肝腫瘍セグメンテーションを行うAIモデルトレーニングに有効である,という2つの特徴がある。 この結果はまた、将来AIモデルをトレーニングするために、腫瘍(作成に数年を要した)のボクセル単位のアノテーションを開発するための手作業が大幅に削減される可能性があることを示唆している。 さらに,小型(あるいは小型)合成腫瘍の膨大な例を自動生成することにより,小型腫瘍検出の成功率を向上できる可能性が示唆された。

We develop a novel strategy to generate synthetic tumors. Unlike existing works, the tumors generated by our strategy have two intriguing advantages: (1) realistic in shape and texture, which even medical professionals can confuse with real tumors; (2) effective for AI model training, which can perform liver tumor segmentation similarly to a model trained on real tumors - this result is unprecedented because no existing work, using synthetic tumors only, has thus far reached a similar or even close performance to the model trained on real tumors. This result also implies that manual efforts for developing per-voxel annotation of tumors (which took years to create) can be considerably reduced for training AI models in the future. Moreover, our synthetic tumors have the potential to improve the success rate of small tumor detection by automatically generating enormous examples of small (or tiny) synthetic tumors.
翻訳日:2022-10-27 13:54:38 公開日:2022-10-26
# D-Shape:ゴールコンディショニングによるデモ型強化学習

D-Shape: Demonstration-Shaped Reinforcement Learning via Goal Conditioning ( http://arxiv.org/abs/2210.14428v1 )

ライセンス: Link先を確認
Caroline Wang, Garrett Warnell, Peter Stone(参考訳) 模倣学習(IL)と強化学習(RL)を組み合わせることは、自律的行動獲得におけるサンプル効率の低さに対処するための有望な方法であるが、通常、必要な行動実証はタスク報酬に関して最適に振舞う専門家によって提供される。 しかし、もし準最適実証が提供される場合、ILの実証マッチング目的がRLの戻り最大化目標と矛盾するという根本的な課題が現れる。 本稿では,ILとRLを組み合わせた新たな手法であるD-Shapeを紹介する。 d-shapeは、タスク報酬に関して最適なポリシーを見つける能力を保持しながら、サブ最適のデモンストレーションから学ぶことができる。 スパース・リワード・グリッドワールド領域におけるD-Shapeの有効性を実験的に検証し,サンプル効率の観点からRLよりも改善し,最適条件に収束することを示した。

While combining imitation learning (IL) and reinforcement learning (RL) is a promising way to address poor sample efficiency in autonomous behavior acquisition, methods that do so typically assume that the requisite behavior demonstrations are provided by an expert that behaves optimally with respect to a task reward. If, however, suboptimal demonstrations are provided, a fundamental challenge appears in that the demonstration-matching objective of IL conflicts with the return-maximization objective of RL. This paper introduces D-Shape, a new method for combining IL and RL that uses ideas from reward shaping and goal-conditioned RL to resolve the above conflict. D-Shape allows learning from suboptimal demonstrations while retaining the ability to find the optimal policy with respect to the task reward. We experimentally validate D-Shape in sparse-reward gridworld domains, showing that it both improves over RL in terms of sample efficiency and converges consistently to the optimal policy in the presence of suboptimal demonstrations.
翻訳日:2022-10-27 13:47:45 公開日:2022-10-26
# meta-node:不均一グラフの複雑な関係を効果的に学習するための簡潔なアプローチ

Meta-node: A Concise Approach to Effectively Learn Complex Relationships in Heterogeneous Graphs ( http://arxiv.org/abs/2210.14480v1 )

ライセンス: Link先を確認
Jiwoong Park, Jisu Jeong, Kyungmin Kim, Jin Young Choi(参考訳) 異種グラフに対する既存のメッセージパッシングニューラルネットワークは、異種グラフの本質的な性質のため、メタパスやメタグラフの概念に依存している。 しかし、メタパスとメタグラフは学習する前に事前設定されなければならず、それらを構築するための専門家の知識に大きく依存している。 この課題に対処するために,同種のノード間の関係を明示的にモデル化することにより,メタパスやメタグラフなしで複雑な異種グラフから豊富な関係知識を学習できる,メッセージパッシングのためのメタノードの概念を提案する。 メタパスやメタグラフとは異なり、メタノードは専門知識を必要とする事前処理ステップを必要としない。 さらに,メタノードメッセージパッシング方式を提案し,その手法を対照的な学習モデルに適用する。 ノードクラスタリングと分類タスクの実験において、提案するメタノードメッセージパッシング手法は、メタパスに依存する最先端技術を上回る。 この分野で頻繁に使用されるメタパスを必要とせずに、有効な異種グラフ学習が可能であることを示す。

Existing message passing neural networks for heterogeneous graphs rely on the concepts of meta-paths or meta-graphs due to the intrinsic nature of heterogeneous graphs. However, the meta-paths and meta-graphs need to be pre-configured before learning and are highly dependent on expert knowledge to construct them. To tackle this challenge, we propose a novel concept of meta-node for message passing that can learn enriched relational knowledge from complex heterogeneous graphs without any meta-paths and meta-graphs by explicitly modeling the relations among the same type of nodes. Unlike meta-paths and meta-graphs, meta-nodes do not require any pre-processing steps that require expert knowledge. Going one step further, we propose a meta-node message passing scheme and apply our method to a contrastive learning model. In the experiments on node clustering and classification tasks, the proposed meta-node message passing method outperforms state-of-the-arts that depend on meta-paths. Our results demonstrate that effective heterogeneous graph learning is possible without the need for meta-paths that are frequently used in this field.
翻訳日:2022-10-27 13:47:25 公開日:2022-10-26
# csi指紋を用いた無線測位用マルチ環境ベースメタラーニング

Multi-Environment based Meta-Learning with CSI Fingerprints for Radio Based Positioning ( http://arxiv.org/abs/2210.14510v1 )

ライセンス: Link先を確認
Anastasios Foliadis, Mario H. Casta\~neda Garcia, Richard A. Stirling-Gallacher, Reiner S. Thom\"a(参考訳) チャネル状態情報(CSI)指紋を用いた深層学習(DL)法に基づくユーザ機器(UE)の無線位置決めにより,有望な結果が得られた。 DLモデルは、特定の環境に関するCSIに埋め込まれた複雑なプロパティをキャプチャし、UEのCSIをUEの位置にマッピングすることができる。 しかし、そのような指紋で訓練されたCSI指紋とDLモデルは、特定の伝播環境に大きく依存しており、一般的にDLモデルの知識をある環境から別の環境へ伝達することを制限する。 本稿では,2つの部分からなるDLモデルを提案する。第1部は環境に依存しない特徴を学習することを目的としており,第2部は環境に依存した特徴を組み合わせている。 移動学習を改善するため,複数の環境上で第1部を学習するためのメタ学習手法を提案する。 新しい環境における位置決めについて,メタ学習環境独立関数を用いたdlモデルの初期化は,1つの環境から新しい環境への通常の転送学習よりも高いue位置決め精度を達成し,また,新たな環境からの指紋のみを用いてdlモデルをスクラッチからトレーニングすることと比較した。 提案手法は,複数の環境からの知識を埋め込み,新しい環境からより効果的に学習できる環境独立関数を作成することができる。

Radio based positioning of a user equipment (UE) based on deep learning (DL) methods using channel state information (CSI) fingerprints have shown promising results. DL models are able to capture complex properties embedded in the CSI about a particular environment and map UE's CSI to the UE's position. However, the CSI fingerprints and the DL models trained on such fingerprints are highly dependent on a particular propagation environment, which generally limits the transfer of knowledge of the DL models from one environment to another. In this paper, we propose a DL model consisting of two parts: the first part aims to learn environment independent features while the second part combines those features depending on the particular environment. To improve transfer learning, we propose a meta learning scheme for training the first part over multiple environments. We show that for positioning in a new environment, initializing a DL model with the meta learned environment independent function achieves higher UE positioning accuracy compared to regular transfer learning from one environment to the new environment, or compared to training the DL model from scratch with only fingerprints from the new environment. Our proposed scheme is able to create an environment independent function which can embed knowledge from multiple environments and more effectively learn from a new environment.
翻訳日:2022-10-27 13:47:08 公開日:2022-10-26
# 遅延スペースプリミティブによるデモの活用

Leveraging Demonstrations with Latent Space Priors ( http://arxiv.org/abs/2210.14685v1 )

ライセンス: Link先を確認
Jonas Gehring, Deepak Gopinath, Jungdam Won, Andreas Krause, Gabriel Synnaeve, Nicolas Usunier(参考訳) 実証は関連する状態や行動空間に関する洞察を与え、強化学習エージェントの効率性と実用性を高める大きな可能性を秘めている。 本稿では,スキル学習とシーケンスモデリングを組み合わせることで,実演データセットを活用することを提案する。 学習された共同潜在空間から始め、デモシーケンスの生成モデルとそれに伴う低レベルポリシーを別々に訓練する。 シーケンスモデルは、高レベルのポリシーの学習を加速するために、実証可能な行動よりも先に潜在空間を形成する。 状態のみのモーションキャプチャのデモンストレーションから、そのような優先順位を取得する方法を示し、転送タスクのポリシー学習にそれらを統合するいくつかの方法を検討する。 実験結果から,複雑でシミュレーションされたヒューマノイドを用いたスパース・リワード環境の学習速度と最終性能において,潜伏空間が顕著に向上することが確認された。 ビデオ、ソースコード、事前訓練済みモデルは、https://facebookresearch.github.io/latent-space-priors.comで公開されている。

Demonstrations provide insight into relevant state or action space regions, bearing great potential to boost the efficiency and practicality of reinforcement learning agents. In this work, we propose to leverage demonstration datasets by combining skill learning and sequence modeling. Starting with a learned joint latent space, we separately train a generative model of demonstration sequences and an accompanying low-level policy. The sequence model forms a latent space prior over plausible demonstration behaviors to accelerate learning of high-level policies. We show how to acquire such priors from state-only motion capture demonstrations and explore several methods for integrating them into policy learning on transfer tasks. Our experimental results confirm that latent space priors provide significant gains in learning speed and final performance in a set of challenging sparse-reward environments with a complex, simulated humanoid. Videos, source code and pre-trained models are available at the corresponding project website at https://facebookresearch.github.io/latent-space-priors .
翻訳日:2022-10-27 13:46:46 公開日:2022-10-26
# 健康データ貧困の軽減--時系列臨床データに対する生成的アプローチと再サンプリング

Mitigating Health Data Poverty: Generative Approaches versus Resampling for Time-series Clinical Data ( http://arxiv.org/abs/2210.13958v2 )

ライセンス: Link先を確認
Raffaele Marchesi, Nicolo Micheletti, Giuseppe Jurman, Venet Osmani(参考訳) マイノリティグループがトレーニングデータセットで不足している健康データ貧困から生じるアルゴリズムバイアスを軽減するために、いくつかのアプローチが開発されている。 再サンプリング(SMOTEなど)を使用したマイノリティクラスの拡張は、アルゴリズムの単純さのために広く使われているアプローチである。 しかし、これらのアルゴリズムはデータのばらつきを減らし、サンプル間の相関を導入し、GANに基づく生成的アプローチを使用する。 実データの広範な分布範囲を提供する高次元,時系列,認証データの生成は,再サンプリングとGANベースのアプローチの両面で難しい課題である。 本稿では,現在のアプローチの欠点のいくつかに対処するCA-GANアーキテクチャを提案する。このアーキテクチャでは,高次元の時系列,3343名の低血圧コーカサス患者と黒人患者の実データを用いて,SMOTEとWGAN-GP*の両者を詳細に比較する。 提案手法は,マイノリティクラスの真正データの生成と,実際のデータの元の分布に留まることの両方に優れていることを示す。

Several approaches have been developed to mitigate algorithmic bias stemming from health data poverty, where minority groups are underrepresented in training datasets. Augmenting the minority class using resampling (such as SMOTE) is a widely used approach due to the simplicity of the algorithms. However, these algorithms decrease data variability and may introduce correlations between samples, giving rise to the use of generative approaches based on GAN. Generation of high-dimensional, time-series, authentic data that provides a wide distribution coverage of the real data, remains a challenging task for both resampling and GAN-based approaches. In this work we propose CA-GAN architecture that addresses some of the shortcomings of the current approaches, where we provide a detailed comparison with both SMOTE and WGAN-GP*, using a high-dimensional, time-series, real dataset of 3343 hypotensive Caucasian and Black patients. We show that our approach is better at both generating authentic data of the minority class and remaining within the original distribution of the real data.
翻訳日:2022-10-27 13:46:30 公開日:2022-10-26
# マルチタスク学習は継続的学習の上位境界か?

Is Multi-Task Learning an Upper Bound for Continual Learning? ( http://arxiv.org/abs/2210.14797v1 )

ライセンス: Link先を確認
Zihao Wu, Huy Tran, Hamed Pirsiavash, Soheil Kolouri(参考訳) 連続学習とマルチタスク学習は、複数のタスクから学習するための一般的な機械学習アプローチである。 文学における既存の研究は、多タスク学習を様々な連続学習アルゴリズムの賢明な性能上限として捉えていることが多い。 この仮定は、異なる連続学習ベンチマークで実証的に検証されるが、厳密には正当化されない。 さらに、複数のタスクから学習する場合、これらのタスクの小さなサブセットは、マルチタスク環境での全体的な学習性能を低下させる敵のタスクとして振る舞うことができる。 対照的に、連続的な学習アプローチは、このような敵タスクによるパフォーマンス低下を回避し、タスクの残りの部分でパフォーマンスを維持することができ、マルチタスク学習者よりもパフォーマンスが向上する。 本稿では,各タスクがデータ拡張の特定のクラスに対する不変表現の学習に対応する,新しい連続的自己教師付き学習設定を提案する。 本稿では,MNIST, CIFAR-10, CIFAR-100などのベンチマークデータセットにおいて,連続学習がマルチタスク学習に勝ることを示す。

Continual and multi-task learning are common machine learning approaches to learning from multiple tasks. The existing works in the literature often assume multi-task learning as a sensible performance upper bound for various continual learning algorithms. While this assumption is empirically verified for different continual learning benchmarks, it is not rigorously justified. Moreover, it is imaginable that when learning from multiple tasks, a small subset of these tasks could behave as adversarial tasks reducing the overall learning performance in a multi-task setting. In contrast, continual learning approaches can avoid the performance drop caused by such adversarial tasks to preserve their performance on the rest of the tasks, leading to better performance than a multi-task learner. This paper proposes a novel continual self-supervised learning setting, where each task corresponds to learning an invariant representation for a specific class of data augmentations. In this setting, we show that continual learning often beats multi-task learning on various benchmark datasets, including MNIST, CIFAR-10, and CIFAR-100.
翻訳日:2022-10-27 13:39:33 公開日:2022-10-26
# セキュアデータ共有のための微分プライベート言語モデル

Differentially Private Language Models for Secure Data Sharing ( http://arxiv.org/abs/2210.13918v2 )

ライセンス: Link先を確認
Justus Mattern, Zhijing Jin, Benjamin Weggenmann, Bernhard Schoelkopf, Mrinmaya Sachan(参考訳) データの共有を行う個人のプライバシを保護するためには,研究者や企業がテキストデータを公開し,起因者に正式なプライバシ保証を提供することが重要である。 nlpの分野では、ローカルディファレンシャルプライバシの枠組みに従い、個別のテキストサンプルを解放する前に匿名化するためのメカニズムを構築することにかなりの努力が払われている。 実際には、これらのアプローチは、局所的な差分プライバシーに必要な強いノイズのため、出力言語の品質に不満を持つことが多い。 本稿では,グローバル・ディファレンシャル・プライバシを用いて問題にアプローチする。特に,生成言語モデルを差分的にプライベートな方法で訓練し,その結果からデータを取り出す。 自然言語のプロンプトと新しいプロンプトミスマッチロスを用いることで、感情やトピックといった特定の望ましい属性を取り入れ、トレーニングデータの統計特性に類似した高度に正確で流動的なテキストデータセットを作成できる。 本研究は,人工データセットが原データから情報を漏らすことなく,言語品質が高く,実世界データ解析のためのトレーニングモデルに極めて適していることを示す実験を徹底的に実施する。 また, DP-SGDを用いて, 個人合成データの学習分類器が実データ上で直接学習し, 性能的に優れていることを示す。

To protect the privacy of individuals whose data is being shared, it is of high importance to develop methods allowing researchers and companies to release textual data while providing formal privacy guarantees to its originators. In the field of NLP, substantial efforts have been directed at building mechanisms following the framework of local differential privacy, thereby anonymizing individual text samples before releasing them. In practice, these approaches are often dissatisfying in terms of the quality of their output language due to the strong noise required for local differential privacy. In this paper, we approach the problem at hand using global differential privacy, particularly by training a generative language model in a differentially private manner and consequently sampling data from it. Using natural language prompts and a new prompt-mismatch loss, we are able to create highly accurate and fluent textual datasets taking on specific desired attributes such as sentiment or topic and resembling statistical properties of the training data. We perform thorough experiments indicating that our synthetic datasets do not leak information from our original data and are of high language quality and highly suitable for training models for further analysis on real-world data. Notably, we also demonstrate that training classifiers on private synthetic data outperforms directly training classifiers on real data with DP-SGD.
翻訳日:2022-10-27 13:38:54 公開日:2022-10-26
# 自動音声認識のための単調セグメント注意

Monotonic segmental attention for automatic speech recognition ( http://arxiv.org/abs/2210.14742v1 )

ライセンス: Link先を確認
Albert Zeyer, Robin Schmitt, Wei Zhou, Ralf Schl\"uter, Hermann Ney(参考訳) 本稿では,自動音声認識のためのセグメント・アテンションモデルを提案する。 我々はデコーダの注意をセグメントに制限し、グローバルな注意の二次的実行を回避し、長いシーケンスをより一般化し、最終的にストリーミングを可能にする。 グローバルアテンションと異なるセグメンショナルアテンションモデリングのバリエーションを直接比較する。 我々は2つの異なる時間同期デコーダを開発し比較し、その1つはセグメント的性質を考慮に入れ、さらなる改善をもたらす。 セグメントモデルの時間同期デコーディングは新しく、ストリーミングアプリケーションへの一歩です。 実験では,セグメント境界を予測するための長さモデルの重要性を示す。 セグメントデコーディングを用いた最後の最適セグメントアテンションモデルは、文献における他のモノトニックアテンションアプローチとは対照的に、グローバルアテンションよりも優れている。 さらに,分節モデルは最大数分間の長い列に対してはるかによく一般化する。

We introduce a novel segmental-attention model for automatic speech recognition. We restrict the decoder attention to segments to avoid quadratic runtime of global attention, better generalize to long sequences, and eventually enable streaming. We directly compare global-attention and different segmental-attention modeling variants. We develop and compare two separate time-synchronous decoders, one specifically taking the segmental nature into account, yielding further improvements. Using time-synchronous decoding for segmental models is novel and a step towards streaming applications. Our experiments show the importance of a length model to predict the segment boundaries. The final best segmental-attention model using segmental decoding performs better than global-attention, in contrast to other monotonic attention approaches in the literature. Further, we observe that the segmental model generalizes much better to long sequences of up to several minutes.
翻訳日:2022-10-27 13:38:31 公開日:2022-10-26
# bionli: lexico-semantic constraintsを用いた生体医学的nliデータセットの作成

BioNLI: Generating a Biomedical NLI Dataset Using Lexico-semantic Constraints for Adversarial Examples ( http://arxiv.org/abs/2210.14814v1 )

ライセンス: Link先を確認
Mohaddeseh Bastan, Mihai Surdeanu, and Niranjan Balasubramanian(参考訳) 自然言語推論(NLI)は、生物医学領域における複雑な意思決定に重要である。 例えば、ある生体医学のメカニズムが実験的な証拠によって支持されているかどうかが重要な疑問である。 これはNLI問題と見なすことができるが、これに対処するデータセットは直接使用できない。 主な課題は、手動でこのタスクの有益なネガティブな例を作成することは困難でコストがかかることである。 我々は,NLIデータセットを既存のバイオメディカルデータセットからブートストラップし,機構と抽象的な実験的証拠をペアリングする,新たな半教師付き手順を導入する。 神経学的復号システムにおける論理的制約による摂動として、例えば、相互作用におけるエンティティの役割を反転させるなど、基礎となるメカニズムの構造を操作する9つの戦略を用いて、さまざまなネガティブな例を生成する。 この手法を用いて,バイオNLIと呼ばれる生物医学領域におけるNLIの新しいデータセットを作成し,最先端の2つのバイオメディカル分類器をベンチマークする。 最良の結果は、f1の70代半ばで、タスクの難しさを示唆するものです。 批判的には、異なる負のクラスにおけるパフォーマンスは、単純な役割変化の負の例における97% F1から、神経論理的復号法を用いて生成された負の例に対する確率よりもほとんど良くない。

Natural language inference (NLI) is critical for complex decision-making in biomedical domain. One key question, for example, is whether a given biomedical mechanism is supported by experimental evidence. This can be seen as an NLI problem but there are no directly usable datasets to address this. The main challenge is that manually creating informative negative examples for this task is difficult and expensive. We introduce a novel semi-supervised procedure that bootstraps an NLI dataset from existing biomedical dataset that pairs mechanisms with experimental evidence in abstracts. We generate a range of negative examples using nine strategies that manipulate the structure of the underlying mechanisms both with rules, e.g., flip the roles of the entities in the interaction, and, more importantly, as perturbations via logical constraints in a neuro-logical decoding system. We use this procedure to create a novel dataset for NLI in the biomedical domain, called BioNLI and benchmark two state-of-the-art biomedical classifiers. The best result we obtain is around mid 70s in F1, suggesting the difficulty of the task. Critically, the performance on the different classes of negative examples varies widely, from 97% F1 on the simple role change negative examples, to barely better than chance on the negative examples generated using neuro-logic decoding.
翻訳日:2022-10-27 13:38:15 公開日:2022-10-26
# 構造的画像共分散を用いたVAEによる圧縮センシングMRI再構成

Compressed Sensing MRI Reconstruction Regularized by VAEs with Structured Image Covariance ( http://arxiv.org/abs/2210.14586v1 )

ライセンス: Link先を確認
Margaret Duff, Ivor J. A. Simpson, Matthias J. Ehrhardt, Neill D. F. Campbell(参考訳) MRI再構成のための学習された正規化は、変分正規化法の制御と洞察を維持しながら、逆問題に対する複雑なデータ駆動の先行情報を提供することができる。 さらに、教師なし学習は、ペアトレーニングデータなしで、学習正規化器は、ノイズレベル、サンプリングパターン、コイル感度などの前方問題の変化に対して柔軟であり続けることができる。 そのようなアプローチの1つは、地平線画像に基づいて訓練された生成モデルを使い、逆問題の前兆として、ジェネレータが生成できる画像から遠く離れた再構成を罰する。 本研究では、画像だけでなく、各画像に対する共分散不確実性行列を生成する変分オートエンコーダ(VAE)を利用する。 共分散は、エッジやオブジェクトなどの画像の構造によって生じる不確実性依存をモデル化し、学習された画像の多様体からの新しい距離メトリックを提供する。 我々は、これらの新しい生成正則化器を、fMRIデータセットから放射状にサブサンプリングされたMRI膝計測で示し、他の未学習で教師なしで教師なしの方法と比較する。 その結果,提案手法は他の最先端手法と競合し,サンプリングパターンやノイズレベルの変化と一貫した動作を示す。

Learned regularization for MRI reconstruction can provide complex data-driven priors to inverse problems while still retaining the control and insight of a variational regularization method. Moreover, unsupervised learning, without paired training data, allows the learned regularizer to remain flexible to changes in the forward problem such as noise level, sampling pattern or coil sensitivities. One such approach uses generative models, trained on ground-truth images, as priors for inverse problems, penalizing reconstructions far from images the generator can produce. In this work, we utilize variational autoencoders (VAEs) that generate not only an image but also a covariance uncertainty matrix for each image. The covariance can model changing uncertainty dependencies caused by structure in the image, such as edges or objects, and provides a new distance metric from the manifold of learned images. We demonstrate these novel generative regularizers on radially sub-sampled MRI knee measurements from the fastMRI dataset and compare them to other unlearned, unsupervised and supervised methods. Our results show that the proposed method is competitive with other state-of-the-art methods and behaves consistently with changing sampling patterns and noise levels.
翻訳日:2022-10-27 13:37:51 公開日:2022-10-26
# 2次自動微分による学習率の適応的スケーリング

Adaptive scaling of the learning rate by second order automatic differentiation ( http://arxiv.org/abs/2210.14520v1 )

ライセンス: Link先を確認
Fr\'ed\'eric de Gournay (IMT, INSA Toulouse), Alban Gossard (IMT, UT3)(参考訳) 本稿では,Deep Neural Networksの最適化の文脈において,自動微分技術を用いて学習率を再スケールすることを提案する。 この手法は、勾配の計算とヘッセンベクトル積の計算の間に計算の複雑さがある2次情報である {\em curvature} の計算に依存する。 もし(1C,1M)が勾配法の計算時間とメモリフットプリントを表すならば、新しい手法は全体のコストを(1.5C,2M)または(2C,1M)に引き上げる。 この再スケーリングは、パラメータセットの探索とアルゴリズムの収束のどちらを選択できるように、自然な解釈を持つという魅力的な特徴を持っている。 再スケーリングは適応的であり、データと降下方向に依存する。 数値実験は、異なる探索/収束体制を浮き彫りにする。

In the context of the optimization of Deep Neural Networks, we propose to rescale the learning rate using a new technique of automatic differentiation. This technique relies on the computation of the {\em curvature}, a second order information whose computational complexity is in between the computation of the gradient and the one of the Hessian-vector product. If (1C,1M) represents respectively the computational time and memory footprint of the gradient method, the new technique increase the overall cost to either (1.5C,2M) or (2C,1M). This rescaling has the appealing characteristic of having a natural interpretation, it allows the practitioner to choose between exploration of the parameters set and convergence of the algorithm. The rescaling is adaptive, it depends on the data and on the direction of descent. The numerical experiments highlight the different exploration/convergence regimes.
翻訳日:2022-10-27 13:37:31 公開日:2022-10-26
# ロバスト文脈線形帯域

Robust Contextual Linear Bandits ( http://arxiv.org/abs/2210.14483v1 )

ライセンス: Link先を確認
Rong Zhu and Branislav Kveton(参考訳) モデル不特定は統計手法や機械学習の応用において大きな考慮事項である。 しかし、文脈的な盗賊では無視されることが多い。 本稿では, 文脈によって捉えられない共通の誤特定形態, 腕間不均質性について検討する。 この問題に対処するため、異種性はarm固有の確率変数によって生じると仮定し、そこから学ぶことができる。 これを堅牢な文脈的盗賊と呼ぶ。 アーム固有の変数は未知のアーム間の不均一性を説明し、平均報酬とその不確かさのロバストな文脈推定器に組み込む。 我々は,ロLinUCB という UCB アルゴリズムと,ロLinTS という後方サンプリングアルゴリズムという2つの効率的な帯域幅アルゴリズムを開発した。 両アルゴリズムを解析し、それらの$n$ラウンドベイズを後悔する。 実験により,ロリントは,誤特定度が低く,誤特定度が高い場合には頑健で,ナイーブな実装よりも計算効率が著しく高い古典的手法に比較して統計的に効率的であることが判明した。

Model misspecification is a major consideration in applications of statistical methods and machine learning. However, it is often neglected in contextual bandits. This paper studies a common form of misspecification, an inter-arm heterogeneity that is not captured by context. To address this issue, we assume that the heterogeneity arises due to arm-specific random variables, which can be learned. We call this setting a robust contextual bandit. The arm-specific variables explain the unknown inter-arm heterogeneity, and we incorporate them in the robust contextual estimator of the mean reward and its uncertainty. We develop two efficient bandit algorithms for our setting: a UCB algorithm called RoLinUCB and a posterior-sampling algorithm called RoLinTS. We analyze both algorithms and bound their $n$-round Bayes regret. Our experiments show that RoLinTS is comparably statistically efficient to the classic methods when the misspecification is low, more robust when the misspecification is high, and significantly more computationally efficient than its naive implementation.
翻訳日:2022-10-27 13:30:26 公開日:2022-10-26
# 完全多様体ガウス変分ベイズ

Exact Manifold Gaussian Variational Bayes ( http://arxiv.org/abs/2210.14598v1 )

ライセンス: Link先を確認
Martin Magris, Mostafa Shabani, Alexandros Iosifidis(参考訳) 複雑なモデルにおける変分推論(VI)の最適化アルゴリズムを提案する。 我々のアプローチは、変分空間がリーマン多様体であるような自然な勾配更新に依存する。 我々は,変分共分散行列上の正定値制約を暗黙的に満たすガウス変分推論のための効率的なアルゴリズムを開発した。 我々のExact manifold Gaussian Variational Bayes (EMGVB) は正確な更新ルールを提供するが、簡単に実装できる。 ブラックボックスの性質のため、EMGVBは複雑なモデルにおけるVIのための準備が整ったソリューションである。 5つ以上のデータセットで、異なる統計モデル、計量モデル、深層学習モデルに対する実現可能なアプローチを実証的に検証し、ベースラインメソッドのパフォーマンスについて議論する。

We propose an optimization algorithm for Variational Inference (VI) in complex models. Our approach relies on natural gradient updates where the variational space is a Riemann manifold. We develop an efficient algorithm for Gaussian Variational Inference that implicitly satisfies the positive definite constraint on the variational covariance matrix. Our Exact manifold Gaussian Variational Bayes (EMGVB) provides exact but simple update rules and is straightforward to implement. Due to its black-box nature, EMGVB stands as a ready-to-use solution for VI in complex models. Over five datasets, we empirically validate our feasible approach on different statistical, econometric, and deep learning models, discussing its performance with respect to baseline methods.
翻訳日:2022-10-27 13:30:09 公開日:2022-10-26
# アウト・オブ・ディストリビューション検出は学習可能か?

Is Out-of-Distribution Detection Learnable? ( http://arxiv.org/abs/2210.14707v1 )

ライセンス: Link先を確認
Zhen Fang, Yixuan Li, Jie Lu, Jiahua Dong, Bo Han, Feng Liu(参考訳) 教師付き学習は、トレーニングとテストデータが同じ分布から来ているという仮定のもと、分類器を訓練することを目的としている。 上記の仮定を緩和するために、研究者たちはより現実的な設定、すなわちOODデータ(out-of-distribution)検出(out-of-distriion:OOD)を研究した。 OODデータの有効性や多様性のため、有効なOOD検出アルゴリズムには優れた一般化能力が不可欠である。 本稿では,OOD検出の一般化を検討するために,OOD検出のほぼ正しい学習理論(PAC)について検討する。 まず,OOD検出の学習性に必要条件を見出す。 そして,この条件を用いて,OOD検出の学習可能性に関するいくつかの不合理性定理をいくつかのシナリオで証明する。 不可能定理はいらいらするが、これらの不可能定理のいくつかの条件は、いくつかの実用的なシナリオでは成立しない可能性がある。 そこで本研究では,OOD検出の学習性を評価するために必要かつ十分な条件をいくつか提示する。 最後に、OOD理論に基づくいくつかの代表的なOOD検出作業に対する理論的支援も提供する。

Supervised learning aims to train a classifier under the assumption that training and test data are from the same distribution. To ease the above assumption, researchers have studied a more realistic setting: out-of-distribution (OOD) detection, where test data may come from classes that are unknown during training (i.e., OOD data). Due to the unavailability and diversity of OOD data, good generalization ability is crucial for effective OOD detection algorithms. To study the generalization of OOD detection, in this paper, we investigate the probably approximately correct (PAC) learning theory of OOD detection, which is proposed by researchers as an open problem. First, we find a necessary condition for the learnability of OOD detection. Then, using this condition, we prove several impossibility theorems for the learnability of OOD detection under some scenarios. Although the impossibility theorems are frustrating, we find that some conditions of these impossibility theorems may not hold in some practical scenarios. Based on this observation, we next give several necessary and sufficient conditions to characterize the learnability of OOD detection in some practical scenarios. Lastly, we also offer theoretical supports for several representative OOD detection works based on our OOD theory.
翻訳日:2022-10-27 13:29:57 公開日:2022-10-26
# 分布自由有限サンプル保証と分割等角予測

Distribution-Free Finite-Sample Guarantees and Split Conformal Prediction ( http://arxiv.org/abs/2210.14735v1 )

ライセンス: Link先を確認
Roel Hulsman(参考訳) 現代のブラックボックス予測モデルは、データセットのサイズに漸近的に保持するか、強いパラメトリックな仮定を必要とする弱い性能保証を伴うことが多い。 これに対し、分割共形予測は、最小分布自由仮定の下で有限サンプル保証を得るための有望な道を示す。 予測セットの妥当性は、しばしば限界範囲に関係するが、関係するが異なる許容領域を探索し、ネストした予測セットの言語における既知の結果を修正し、限界範囲と許容領域の双対性を拡張する。 さらに,1940年代に開発されたスプリットコンフォメーション予測と古典的耐性予測との関係と,流通フリーリスク制御の最近の進展を浮き彫りにする。 古典的寛容予測器からの転送の結果の一つは、順序統計に基づく予測セットのカバレッジ、すなわちキャリブレーションセットの条件は、ベータ分布を確率的に支配する確率変数である。 共形量子回帰法 (CQR) と呼ばれる一般的な分割型共形予測法を用いて, 合成および実データに対する実験結果の有効性を実証した。

Modern black-box predictive models are often accompanied by weak performance guarantees that only hold asymptotically in the size of the dataset or require strong parametric assumptions. In response to this, split conformal prediction represents a promising avenue to obtain finite-sample guarantees under minimal distribution-free assumptions. Although prediction set validity most often concerns marginal coverage, we explore the related but different guarantee of tolerance regions, reformulating known results in the language of nested prediction sets and extending on the duality between marginal coverage and tolerance regions. Furthermore, we highlight the connection between split conformal prediction and classical tolerance predictors developed in the 1940s, as well as recent developments in distribution-free risk control. One result that transfers from classical tolerance predictors is that the coverage of a prediction set based on order statistics, conditional on the calibration set, is a random variable stochastically dominating the Beta distribution. We demonstrate the empirical effectiveness of our findings on synthetic and real datasets using a popular split conformal prediction procedure called conformalized quantile regression (CQR).
翻訳日:2022-10-27 13:29:38 公開日:2022-10-26
# シミュレーションに基づく推論のためのエネルギーベースモデルの最大確率学習

Maximum Likelihood Learning of Energy-Based Models for Simulation-Based Inference ( http://arxiv.org/abs/2210.14756v1 )

ライセンス: Link先を確認
Pierre Glaser, Michael Arbel, Arnaud Doucet, Arthur Gretton(参考訳) シミュレーションベース推論(SBI)では,高忠実度シミュレータが利用可能である場合,実験結果から,暗黙的あるいは標的的推論を行うための2つの方法を提案する。 いずれの手法も,提案分布から引き出されたパラメータに基づいて,シミュレータが生成した合成データを用いて条件付エネルギーベースモデル(ebm)を学習する。 得られた確率を事前に組み合わせて後続の推定値を得ることができ、そこからサンプルをMCMCを使って描画することができる。 我々の方法は、フレキシブルエネルギーベースのモデルとkl損失の最小化を一意に組み合わせる:これは、流れを正規化するか、スコアベースの目標を最小化する他の合成確率法とは対照的である。 第1の手法であるamortized unnormalized neural likelihood estimation (aunle)は,効率的なmcmc手法を活用し,推論の計算コストを大幅に削減する学習中の傾きトリックを導入する。 第2の手法であるシーケンシャル unle (sunle) は, シミュレーションデータを再利用し, 特定のデータセットにおける後方精度を向上させるため, 頑健な2重法を採用している。 そこで本研究では, 合成データセット上での両手法の特性を実証し, カニ癌における幽門ネットワークの神経科学モデルに適用し, シミュレーション予算のごく一部で他の合成可能性法の性能と一致させた。

We introduce two synthetic likelihood methods for Simulation-Based Inference (SBI), to conduct either amortized or targeted inference from experimental observations when a high-fidelity simulator is available. Both methods learn a conditional energy-based model (EBM) of the likelihood using synthetic data generated by the simulator, conditioned on parameters drawn from a proposal distribution. The learned likelihood can then be combined with any prior to obtain a posterior estimate, from which samples can be drawn using MCMC. Our methods uniquely combine a flexible Energy-Based Model and the minimization of a KL loss: this is in contrast to other synthetic likelihood methods, which either rely on normalizing flows, or minimize score-based objectives; choices that come with known pitfalls. Our first method, Amortized Unnormalized Neural Likelihood Estimation (AUNLE), introduces a tilting trick during training that allows to significantly lower the computational cost of inference by enabling the use of efficient MCMC techniques. Our second method, Sequential UNLE (SUNLE), employs a robust doubly intractable approach in order to re-use simulation data and improve posterior accuracy on a specific dataset. We demonstrate the properties of both methods on a range of synthetic datasets, and apply them to a neuroscience model of the pyloric network in the crab Cancer Borealis, matching the performance of other synthetic likelihood methods at a fraction of the simulation budget.
翻訳日:2022-10-27 13:29:18 公開日:2022-10-26
# GlobalFlowNet: 深部蒸留グローバルモーション推定によるビデオ安定化

GlobalFlowNet: Video Stabilization using Deep Distilled Global Motion Estimates ( http://arxiv.org/abs/2210.13769v2 )

ライセンス: Link先を確認
Jerin Geo James (1), Devansh Jain (1), Ajit Rajwade (1) ((1) Indian Institute of Technology Bombay)(参考訳) 手持ちのカメラを使ってレイメンが撮影したビデオには、望ましくない揺れが含まれている。 連続するフレーム間のグローバルな動きを、移動物体の影響を受けない方法で推定することは、多くのビデオ安定化技術の中心であるが、重大な課題を生じさせる。 大部分は2次元アフィン変換やホモグラフィーを大域運動に用いている。 しかし,本研究では,移動物体を無視するために既存の光フローネットワークを適用し,映像フレーム間の大域的な動きを空間的に滑らかに近似する,より一般的な表現方式を提案する。 そこで我々はまず,光フローネットワークに低域通過フィルタモジュールを導入し,予測された光フローの空間的スムーズさを抑える。 これは我々の学生ネットワークとなり、名前は \textsc{GlobalFlowNet} となる。 そして,教師ネットワークとしてオリジナル光学フローネットワークを用いて,ロバストな損失関数を用いて学生ネットワークを訓練する。 訓練された \textsc{globalflownet} が与えられると、2段階のプロセスでビデオを安定化する。 最初の段階では、ユーザ指定のトリミング制限によって制約された二次的プログラミング手法を用いて、アフィンパラメータの不安定性を補正し、視野の損失を制御する。 第2段階では, 少数の離散コサイン変換係数を用いて表現した大域的運動パラメータを平滑化することにより, 映像を安定化する。 様々なビデオに関する広範な実験において,本手法は主観的品質とビデオ安定性の異なる定量的尺度において,技術の現状よりも優れていた。 ソースコードは \href{https://github.com/GlobalFlowNet/GlobalFlowNet}{https://github.com/GlobalFlowNet/GlobalFlowNet} で公開されている。

Videos shot by laymen using hand-held cameras contain undesirable shaky motion. Estimating the global motion between successive frames, in a manner not influenced by moving objects, is central to many video stabilization techniques, but poses significant challenges. A large body of work uses 2D affine transformations or homography for the global motion. However, in this work, we introduce a more general representation scheme, which adapts any existing optical flow network to ignore the moving objects and obtain a spatially smooth approximation of the global motion between video frames. We achieve this by a knowledge distillation approach, where we first introduce a low pass filter module into the optical flow network to constrain the predicted optical flow to be spatially smooth. This becomes our student network, named as \textsc{GlobalFlowNet}. Then, using the original optical flow network as the teacher network, we train the student network using a robust loss function. Given a trained \textsc{GlobalFlowNet}, we stabilize videos using a two stage process. In the first stage, we correct the instability in affine parameters using a quadratic programming approach constrained by a user-specified cropping limit to control loss of field of view. In the second stage, we stabilize the video further by smoothing global motion parameters, expressed using a small number of discrete cosine transform coefficients. In extensive experiments on a variety of different videos, our technique outperforms state of the art techniques in terms of subjective quality and different quantitative measures of video stability. The source code is publicly available at \href{https://github.com/GlobalFlowNet/GlobalFlowNet}{https://github.com/GlobalFlowNet/GlobalFlowNet}
翻訳日:2022-10-27 13:28:51 公開日:2022-10-26
# トランスフォーマーの注意力は検出・追跡対象の不確実性に広まるか?

Can Transformer Attention Spread Give Insights Into Uncertainty of Detected and Tracked Objects? ( http://arxiv.org/abs/2210.14391v1 )

ライセンス: Link先を確認
Felicia Ruppel, Florian Faion, Claudius Gl\"aser, Klaus Dietmayer(参考訳) トランスフォーマーは、最近、自律運転の文脈で物体の検出と追跡に利用されている。 これらのモデルのユニークな特徴の1つは、各前方通過で注意重みが計算され、モデルの内部、特に与えられたタスクで興味深いと思われる入力データの一部について洞察を与えることである。 入力グリッドを持つこのような注意行列は、トランスデコーダ層ごとに検出された(または追跡された)オブジェクト毎に利用できる。 本研究では,これらの注意重みの分布について検討する。デコーダ層とトラックの寿命を通してどのように変化するか。 検出の不確実性など、オブジェクトに関する追加情報を推論するために使用できるか? 特に非構造化環境や訓練中に一般的でなかった環境では、システムがまだ信頼できるかどうかを判断するには、検出の不確かさの信頼できる尺度が不可欠である。

Transformers have recently been utilized to perform object detection and tracking in the context of autonomous driving. One unique characteristic of these models is that attention weights are computed in each forward pass, giving insights into the model's interior, in particular, which part of the input data it deemed interesting for the given task. Such an attention matrix with the input grid is available for each detected (or tracked) object in every transformer decoder layer. In this work, we investigate the distribution of these attention weights: How do they change through the decoder layers and through the lifetime of a track? Can they be used to infer additional information about an object, such as a detection uncertainty? Especially in unstructured environments, or environments that were not common during training, a reliable measure of detection uncertainty is crucial to decide whether the system can still be trusted or not.
翻訳日:2022-10-27 13:28:03 公開日:2022-10-26
# CADスケッチのデザイン概念の発見

Discovering Design Concepts for CAD Sketches ( http://arxiv.org/abs/2210.14451v1 )

ライセンス: Link先を確認
Yuezhi Yang, Hao Pan(参考訳) スケッチデザインの概念はパラメトリックCADスケッチで繰り返し見られるパターンである。 cad設計者によって明示的に形式化されることは滅多にないが、これらの概念はモジュラリティと規則性の設計において暗黙的に使用される。 本稿では,生スケッチ上での帰納化によるモジュラー概念の学習に基づくアプローチを提案する。 そこで本研究では,暗黙的検出と明示的な生成を可能にする概念構造の双対的暗黙的探索表現と,パラメータ化概念生成のための構造生成とパラメータインスタンス化の分離を提案する。 大規模CADスケッチデータセットを用いた設計概念学習を実演し,その設計意図の解釈と自動補完への応用を示す。

Sketch design concepts are recurring patterns found in parametric CAD sketches. Though rarely explicitly formalized by the CAD designers, these concepts are implicitly used in design for modularity and regularity. In this paper, we propose a learning based approach that discovers the modular concepts by induction over raw sketches. We propose the dual implicit-explicit representation of concept structures that allows implicit detection and explicit generation, and the separation of structure generation and parameter instantiation for parameterized concept generation, to learn modular concepts by end-to-end training. We demonstrate the design concept learning on a large scale CAD sketch dataset and show its applications for design intent interpretation and auto-completion.
翻訳日:2022-10-27 13:27:49 公開日:2022-10-26
# 深部変圧器と説明可能な人工知能を用いた心臓MRIにおける心筋炎の自動診断

Automatic Diagnosis of Myocarditis Disease in Cardiac MRI Modality using Deep Transformers and Explainable Artificial Intelligence ( http://arxiv.org/abs/2210.14611v1 )

ライセンス: Link先を確認
Mahboobeh Jafari, Afshin Shoeibi, Navid Ghassemi, Jonathan Heras, Abbas Khosravi, Sai Ho Ling, Roohallah Alizadehsani, Amin Beheshti, Yu-Dong Zhang, Shui-Hua Wang, Juan M. Gorriz, U. Rajendra Acharya, Hamid Alinejad Rokny(参考訳) 心筋炎は心血管疾患(CVD)の中でも最も重要な疾患であり、心筋を損傷することで多くの人の健康を脅かす。 HIVなどの微生物やウイルスは、心筋炎(MCD)の発症に重要な役割を果たす。 早期のmcd診断の欠如は不可逆的な合併症と関係している。 心臓磁気共鳴画像(CMRI)は、CVDの診断において、心臓科医の間で高い人気がある。 本稿では,CMRI画像を用いたMDDの診断のために,Deep Learning (DL) を用いたコンピュータ支援診断システム (CADS) を提案する。 提案するcadには、データセット、前処理、特徴抽出、分類、後処理ステップが含まれる。 まず実験のためにZ-Alizadehデータセットが選ばれた。 プリプロセッシングステップにはノイズ除去、画像リサイズ、データ拡張(da)が含まれる。 このステップでは、DAにはCutMixとMixUpの技術が使用された。 次に,cmri画像を用いた特徴抽出と分類に,最新の事前学習モデルとトランスフォーマーモデルを用いた。 本結果より, トランスモデルを用いたMDDの検出性能は, 事前学習アーキテクチャと比較して高いことがわかった。 DLアーキテクチャの中で、TNTアーキテクチャは10倍のクロスバリデーション戦略で99.73%の精度を達成した。 CMRI画像におけるMCD疑似領域の可視化には,説明可能なGrad Cam法が用いられている。

Myocarditis is among the most important cardiovascular diseases (CVDs), endangering the health of many individuals by damaging the myocardium. Microbes and viruses, such as HIV, play a vital role in myocarditis disease (MCD) incidence. Lack of MCD diagnosis in the early stages is associated with irreversible complications. Cardiac magnetic resonance imaging (CMRI) is highly popular among cardiologists to diagnose CVDs. In this paper, a deep learning (DL) based computer-aided diagnosis system (CADS) is presented for the diagnosis of MCD using CMRI images. The proposed CADS includes dataset, preprocessing, feature extraction, classification, and post-processing steps. First, the Z-Alizadeh dataset was selected for the experiments. The preprocessing step included noise removal, image resizing, and data augmentation (DA). In this step, CutMix, and MixUp techniques were used for the DA. Then, the most recent pre-trained and transformers models were used for feature extraction and classification using CMRI images. Our results show high performance for the detection of MCD using transformer models compared with the pre-trained architectures. Among the DL architectures, Turbulence Neural Transformer (TNT) architecture achieved an accuracy of 99.73% with 10-fold cross-validation strategy. Explainable-based Grad Cam method is used to visualize the MCD suspected areas in CMRI images.
翻訳日:2022-10-27 13:27:37 公開日:2022-10-26
# コード生成モデルの多言語評価

Multi-lingual Evaluation of Code Generation Models ( http://arxiv.org/abs/2210.14868v1 )

ライセンス: Link先を確認
Ben Athiwaratkun, Sanjay Krishna Gouda, Zijian Wang, Xiaopeng Li, Yuchen Tian, Ming Tan, Wasi Uddin Ahmad, Shiqi Wang, Qing Sun, Mingyue Shang, Sujan Kumar Gonugondla, Hantian Ding, Varun Kumar, Nathan Fulton, Arash Farahani, Siddhartha Jain, Robert Giaquinto, Haifeng Qian, Murali Krishna Ramanathan, Ramesh Nallapati, Baishakhi Ray, Parminder Bhatia, Sudipta Sengupta, Dan Roth, Bing Xiang(参考訳) 10以上のプログラミング言語における実行ベースのコード補完ベンチマークMBXPを提案する。 このデータセットのコレクションは変換フレームワークによって生成され、プロンプトとテストケースを元のMBPPデータセットからターゲット言語の対応するデータに変換する。 このベンチマークに基づいて、コード生成モデルを多言語方式で評価することができ、特に、ドメイン外言語における言語モデルの一般化能力、モノリンガルに対する大規模多言語モデルの利点、少ないプロンプトの利点、ゼロショット翻訳能力を見出すことができる。 さらに、コード生成モデルを用いて大規模なブートストラップを行い、複数の言語で合成標準解を得る。 これらのソリューションは、ベンチマークの一部として結果とリリースを示す挿入ベース、要約、コード翻訳タスクなど、他のコード関連の評価にも使用できます。

We present MBXP, an execution-based code completion benchmark in 10+ programming languages. This collection of datasets is generated by our conversion framework that translates prompts and test cases from the original MBPP dataset to the corresponding data in a target language. Based on this benchmark, we are able to evaluate code generation models in a multi-lingual fashion, and in particular discover generalization ability of language models on out-of-domain languages, advantages of large multi-lingual models over mono-lingual, benefits of few-shot prompting, and zero-shot translation abilities. In addition, we use our code generation model to perform large-scale bootstrapping to obtain synthetic canonical solutions in several languages. These solutions can be used for other code-related evaluations such as insertion-based, summarization, or code translation tasks where we demonstrate results and release as part of our benchmark.
翻訳日:2022-10-27 13:21:24 公開日:2022-10-26
# RedPen:非自然な音声の領域と推論アノテーション付きデータセット

RedPen: Region- and Reason-Annotated Dataset of Unnatural Speech ( http://arxiv.org/abs/2210.14406v1 )

ライセンス: Link先を確認
Kyumin Park, Keon Lee, Daeyoung Kim, Dongyeop Kang(参考訳) 近年の音声合成モデルの発展にもかかわらず、そのようなモデルの評価は、MOS(Mean Opinion Score)のような自然度スコアとして純粋に人間の判断に基づいている。 スコアベースのメトリクスは、音声のどの部分が不自然であるか、なぜ人間の判断が不自然であると信じているのかについて、それ以上の情報は提供しない。 非自然な音声領域に人間のアノテーションを付加した新しい音声データセットRedPenとその対応について述べる。 redpenは180個の合成音声からなり、群集作業員がアノテートした不自然な領域は、音声の震えや背景雑音などのエラータイプによって推論され分類される。 我々のデータセットは、モデル駆動の非自然性予測よりも、不自然な音声領域をよりよく説明できる。 分析の結果,各モデルに異なるタイプのエラーがあることがわかった。 要約すると、我々のデータセットは、様々なエラー領域と型が単一の自然度スコアの下にある可能性を示す。 我々は,我々のデータセットが将来,より解釈可能な音声モデルの評価と開発に光を当てると考えている。 私たちのデータセットは受け入れ次第公開されます。

Even with recent advances in speech synthesis models, the evaluation of such models is based purely on human judgement as a single naturalness score, such as the Mean Opinion Score (MOS). The score-based metric does not give any further information about which parts of speech are unnatural or why human judges believe they are unnatural. We present a novel speech dataset, RedPen, with human annotations on unnatural speech regions and their corresponding reasons. RedPen consists of 180 synthesized speeches with unnatural regions annotated by crowd workers; These regions are then reasoned and categorized by error types, such as voice trembling and background noise. We find that our dataset shows a better explanation for unnatural speech regions than the model-driven unnaturalness prediction. Our analysis also shows that each model includes different types of error types. Summing up, our dataset successfully shows the possibility that various error regions and types lie under the single naturalness score. We believe that our dataset will shed light on the evaluation and development of more interpretable speech models in the future. Our dataset will be publicly available upon acceptance.
翻訳日:2022-10-27 13:21:10 公開日:2022-10-26
# デジタル双子のai自動化のための知識グラフのスケーリング

Scaling Knowledge Graphs for Automating AI of Digital Twins ( http://arxiv.org/abs/2210.14596v1 )

ライセンス: Link先を確認
Joern Ploennigs, Konstantinos Semertzidis, Fabio Lorenzi, Nandana Mihindukulasooriya(参考訳) デジタルツイン(Digital Twins)は、IoT(Internet of Things)におけるシステムのデジタル表現であり、しばしばそれらのシステムからのデータに基づいてトレーニングされたAIモデルに基づいている。 セマンティックモデルは、IoTシステムのライフサイクルの各ステージからこれらのデータセットをリンクし、AIモデリングパイプラインを自動的に構成するために、ますます使用されている。 このセマンティクスモデルと外部データセット上で動作するaiパイプラインの組み合わせは、大規模に展開された場合に特有の課題を引き起こす。 本稿では,Digital Twinsの自動化に意味グラフを適用するというユニークな要件について検討する。 これらの特徴を反映したベンチマークデータセットDTBMを導入し、異なる知識グラフ技術のスケーリング課題について検討する。 これらの知見に基づいて、IBMの複数の製品で使われているリファレンスアーキテクチャを提案し、Digital TwinsのAIモデルを構成するための知識グラフのスケーリングで学んだ教訓を導き出す。

Digital Twins are digital representations of systems in the Internet of Things (IoT) that are often based on AI models that are trained on data from those systems. Semantic models are used increasingly to link these datasets from different stages of the IoT systems life-cycle together and to automatically configure the AI modelling pipelines. This combination of semantic models with AI pipelines running on external datasets raises unique challenges particular if rolled out at scale. Within this paper we will discuss the unique requirements of applying semantic graphs to automate Digital Twins in different practical use cases. We will introduce the benchmark dataset DTBM that reflects these characteristics and look into the scaling challenges of different knowledge graph technologies. Based on these insights we will propose a reference architecture that is in-use in multiple products in IBM and derive lessons learned for scaling knowledge graphs for configuring AI models for Digital Twins.
翻訳日:2022-10-27 13:20:51 公開日:2022-10-26
# 監査データの教師なし異常検出とカテゴリエンコーディングの影響

Unsupervised Anomaly Detection for Auditing Data and Impact of Categorical Encodings ( http://arxiv.org/abs/2210.14056v2 )

ライセンス: Link先を確認
Ajay Chawda, Stefanie Grimm, Marius Kloft(参考訳) 本稿では,自動車修理の不正保険請求からなる車両請求データセットについて紹介する。 データは、JournalsやNetwork Intrusionのデータを含む、監査データのより広いカテゴリに属します。 保険請求データは、多くのカテゴリー属性において、他の監査データ(ネットワーク侵入データなど)と明確に異なる。 私たちは、異常検出のためのベンチマークデータセットの欠如に関する一般的な問題に取り組む:データセットは、主に機密であり、パブリックな表型データセットには、関連する、十分なカテゴリ属性が含まれていない。 そのため、この目的のために大規模なデータセットが作成され、Vager Claims(VC)データセットと呼ばれる。 データセットは浅層および深層学習法で評価される。 カテゴリ属性の導入により、大きなデータセットのためにそれらをエンコードするという課題に直面する。 高基数データセットのOne Hotエンコーディングは「次元の曲線」を呼び起こすので、GELエンコーディングと埋め込み層を用いて分類属性を表現する実験を行う。 本研究は,ラベル,1つのホットゲルエンコーディングおよび埋め込み層に対する競合学習,再構成エラー,密度推定および対比学習アプローチを比較し,カテゴリ値を扱う。

In this paper, we introduce the Vehicle Claims dataset, consisting of fraudulent insurance claims for automotive repairs. The data belongs to the more broad category of Auditing data, which includes also Journals and Network Intrusion data. Insurance claim data are distinctively different from other auditing data (such as network intrusion data) in their high number of categorical attributes. We tackle the common problem of missing benchmark datasets for anomaly detection: datasets are mostly confidential, and the public tabular datasets do not contain relevant and sufficient categorical attributes. Therefore, a large-sized dataset is created for this purpose and referred to as Vehicle Claims (VC) dataset. The dataset is evaluated on shallow and deep learning methods. Due to the introduction of categorical attributes, we encounter the challenge of encoding them for the large dataset. As One Hot encoding of high cardinal dataset invokes the "curse of dimensionality", we experiment with GEL encoding and embedding layer for representing categorical attributes. Our work compares competitive learning, reconstruction-error, density estimation and contrastive learning approaches for Label, One Hot, GEL encoding and embedding layer to handle categorical values.
翻訳日:2022-10-27 13:20:36 公開日:2022-10-26
# 破壊的ニューラルスケーリング法則

Broken Neural Scaling Laws ( http://arxiv.org/abs/2210.14891v1 )

ライセンス: Link先を確認
Ethan Caballero, Kshitij Gupta, Irina Rish, David Krueger(参考訳) 本稿では,大規模かつ多様なアップストリームタスクと下流タスクのセットにおいて,ディープニューラルネットワークのスケーリング動作を正確にモデル化し,その評価指標がどのように変化するか,すなわち,トレーニングに使用する計算量,モデルパラメータ数,データセットのサイズが変化するか)をゼロショット,起動,微調整した設定で正確にモデル化し,外挿する,スムースなパワーロー機能形式を提案する。 このセットには、大規模ビジョンと教師なし言語タスク、画像の拡散生成モデリング、算術、強化学習が含まれる。 神経スケーリング行動の他の機能形式と比較すると、この関数形式は、しばしばかなり正確なスケーリング挙動の補間(その外挿のルート平均2乗ログ誤差は、以前の最先端平均の0.86倍)をもたらす。 さらに、この関数形式は、二重降下のような現象のスケーリング挙動に存在する非単調遷移や、算術のようなタスクのスケーリング挙動に存在する遅延、鋭いインフレクションポイントなど、他の関数形式が表現できないスケーリング挙動を正確にモデル化し、外挿する。 コードはhttps://github.com/ethancaballero/broken_neural_scaling_lawsで入手できる。

We present a smoothly broken power law functional form that accurately models and extrapolates the scaling behaviors of deep neural networks (i.e. how the evaluation metric of interest varies as the amount of compute used for training, number of model parameters, or training dataset size varies) for each task within a large and diverse set of upstream and downstream tasks, in zero-shot, prompted, and fine-tuned settings. This set includes large-scale vision and unsupervised language tasks, diffusion generative modeling of images, arithmetic, and reinforcement learning. When compared to other functional forms for neural scaling behavior, this functional form yields extrapolations of scaling behavior that often are considerably more accurate (root mean squared log error of its extrapolations are 0.86 times that of previous state-of-the-art on average) on this set. Moreover, this functional form accurately models and extrapolates scaling behavior that other functional forms are incapable of expressing such as the non-monotonic transitions present in the scaling behavior of phenomena such as double descent and the delayed, sharp inflection points present in the scaling behavior of tasks such as arithmetic. Code is available at https://github.com/ethancaballero/broken_neural_scaling_laws
翻訳日:2022-10-27 13:19:41 公開日:2022-10-26
# 動的治療レジームにおけるペシミズムの最適化:ベイズ学習アプローチ

Optimizing Pessimism in Dynamic Treatment Regimes: A Bayesian Learning Approach ( http://arxiv.org/abs/2210.14420v1 )

ライセンス: Link先を確認
Yunzhe Zhou, Zhengling Qi, Chengchun Shi and Lexin Li(参考訳) 本稿では,オフライン環境での最適動的処理レジームに対するペシミズムに基づくベイズ学習法を提案する。 オフラインデータに共通するカバレッジ条件が保持されない場合、既存のソリューションは最適なサブポリシーを生成する。 悲観主義の原則は、州における条件付けの少ない行動の推奨を妨げることでこの問題に対処する。 しかし、ほぼ全ての悲観主義に基づく手法は、悲観論の度合いを定量化する鍵のハイパーパラメータに依存しており、このパラメータの選択に非常に敏感である。 我々は,悲観主義の原理をトンプソンサンプリングとベイズ機械学習と統合し,悲観主義の度合いを最適化することを提案する。 最適Q-函数の境界が一様に低く、したがって悲観論の次数の追加的なチューニングを必要としない信頼可能な集合を導出する。 ベイズ線形基底モデルからベイズニューラルネットワークモデルまで,様々なモデルを扱う一般的なベイズ学習法を開発した。 本研究では,高効率かつスケーラブルな変分推論に基づく計算アルゴリズムを開発した。 提案手法の理論的保証を確立し、シミュレーションと実データ例の両方を通して既存の最先端ソリューションよりも優れていることを実証的に示す。

In this article, we propose a novel pessimism-based Bayesian learning method for optimal dynamic treatment regimes in the offline setting. When the coverage condition does not hold, which is common for offline data, the existing solutions would produce sub-optimal policies. The pessimism principle addresses this issue by discouraging recommendation of actions that are less explored conditioning on the state. However, nearly all pessimism-based methods rely on a key hyper-parameter that quantifies the degree of pessimism, and the performance of the methods can be highly sensitive to the choice of this parameter. We propose to integrate the pessimism principle with Thompson sampling and Bayesian machine learning for optimizing the degree of pessimism. We derive a credible set whose boundary uniformly lower bounds the optimal Q-function, and thus does not require additional tuning of the degree of pessimism. We develop a general Bayesian learning method that works with a range of models, from Bayesian linear basis model to Bayesian neural network model. We develop the computational algorithm based on variational inference, which is highly efficient and scalable. We establish the theoretical guarantees of the proposed method, and show empirically that it outperforms the existing state-of-the-art solutions through both simulations and a real data example.
翻訳日:2022-10-27 13:18:38 公開日:2022-10-26
# 抽象テキスト要約のためのマルチタスク学習の分析

Analyzing Multi-Task Learning for Abstractive Text Summarization ( http://arxiv.org/abs/2210.14606v1 )

ライセンス: Link先を確認
Frederic Kirstein, Jan Philip Wahle, Terry Ruas, Bela Gipp(参考訳) 最近のマルチタスク学習や自然言語理解のための事前調整の成功にもかかわらず、抽象的テキスト要約に対するタスクファミリーの影響についての研究は少ない。 タスクファミリ(task family)は、事前調整段階のタスクグルーピングの一種で、理解を読むなど、共通のスキルを学ぶ。 このギャップを埋めるために、英語抽象テキスト要約タスクにおけるタスクファミリーを用いたマルチタスク学習戦略の影響を分析する。 タスクをシーケンシャル,同時,継続的なマルチタスク学習という3つの戦略の1つにグループ化し,2つの下流タスクを通じてトレーニングモデルを評価する。 タスクファミリーの特定の組み合わせ(例えば、高度な読解と自然言語推論)が下流のパフォーマンスに肯定的な影響を及ぼすことがわかった。 さらに,タスクファミリの選択と組み合わせがトレーニング手法よりも下流のパフォーマンスに影響を与え,抽象的なテキスト要約のためのタスクファミリの使用を支援することが判明した。

Despite the recent success of multi-task learning and pre-finetuning for natural language understanding, few works have studied the effects of task families on abstractive text summarization. Task families are a form of task grouping during the pre-finetuning stage to learn common skills, such as reading comprehension. To close this gap, we analyze the influence of multi-task learning strategies using task families for the English abstractive text summarization task. We group tasks into one of three strategies, i.e., sequential, simultaneous, and continual multi-task learning, and evaluate trained models through two downstream tasks. We find that certain combinations of task families (e.g., advanced reading comprehension and natural language inference) positively impact downstream performance. Further, we find that choice and combinations of task families influence downstream performance more than the training scheme, supporting the use of task families for abstractive text summarization.
翻訳日:2022-10-27 13:12:03 公開日:2022-10-26
# Bloom Library:ダウンストリームタスクを多用する300以上の言語におけるマルチモーダルデータセット

Bloom Library: Multimodal Datasets in 300+ Languages for a Variety of Downstream Tasks ( http://arxiv.org/abs/2210.14712v1 )

ライセンス: Link先を確認
Colin Leong, Joshua Nemecek, Jacob Mansdorfer, Anna Filighera, Abraham Owodunni, and Daniel Whitenack(参考訳) 本稿では、言語モデル、画像キャプション、ビジュアルストーリーテリング、音声合成/認識のための多言語・多言語データセットであるbloom libraryを提案する。 これらのデータセットは、入力された下流タスクごとに最も、最も、最も、最も、多言語的なデータセットを表す。 Bloom Libraryデータセットの最初のリリースは、32の言語ファミリーにわたる363の言語をカバーしている。 我々は、データに表される様々な言語に対する下流タスクモデルを訓練し、低リソースのマルチモーダルNLPにおける将来の作業のためのデータの有効性を示し、特定の言語(例えば、Bisu[bzi]、推定人口700人)における下流タスクの最初の既知のベースラインを確立する。 これらの初歩的なベースラインのいくつかは、高ソース言語における最先端のパフォーマンスに匹敵するものだ。 Bloom Libraryデータセットは、Hugging Faceデータセットハブ上でCreative Commonsライセンス下でリリースされ、下流タスクのより言語的に多様な研究を触媒する。

We present Bloom Library, a linguistically diverse set of multimodal and multilingual datasets for language modeling, image captioning, visual storytelling, and speech synthesis/recognition. These datasets represent either the most, or among the most, multilingual datasets for each of the included downstream tasks. In total, the initial release of the Bloom Library datasets covers 363 languages across 32 language families. We train downstream task models for various languages represented in the data, showing the viability of the data for future work in low-resource, multimodal NLP and establishing the first known baselines for these downstream tasks in certain languages (e.g., Bisu [bzi], with an estimated population of 700 users). Some of these first-of-their-kind baselines are comparable to state-of-the-art performance for higher-resourced languages. The Bloom Library datasets are released under Creative Commons licenses on the Hugging Face datasets hub to catalyze more linguistically diverse research in the included downstream tasks.
翻訳日:2022-10-27 13:11:48 公開日:2022-10-26
# クロスモーダル相互知識伝達による視覚的回答定位

Visual Answer Localization with Cross-modal Mutual Knowledge Transfer ( http://arxiv.org/abs/2210.14823v1 )

ライセンス: Link先を確認
Yixuan Weng and Bin Li(参考訳) ビデオ中の視覚的応答ローカライゼーション(VAL)の目的は、与えられた自然言語質問に対する答えとして、ビデオから関連性があり簡潔なタイムクリップを取得することである。 初期の手法は映像とテキストの相互作用モデルに基づいており、視覚予測器によって視覚的な答えを予測する。 後に、VALの字幕付きテキスト予測器を使えば、より正確であることが証明される。 しかし、これらの既存の手法は、視覚フレームやテキスト字幕からのクロスモーダル知識の逸脱をまだ持っている。 本稿では,知識の偏りを低減するために,モーダルな相互知識伝達を局所化(MutualSL)法を提案する。 MutualSLには視覚予測器とテキスト予測器の両方があり、これらの予測結果が一致し、相互モダリティ間の意味的知識理解を促進することが期待できる。 そこで本研究では,知識伝達の割合を動的に調整する一方向動的損失関数を設計する。 評価のための3つの公開データセットについて広範な実験を行った。 実験結果から,本手法は他のSOTA法よりも優れた性能を示し,その有効性を示した。

The goal of visual answering localization (VAL) in the video is to obtain a relevant and concise time clip from a video as the answer to the given natural language question. Early methods are based on the interaction modeling between video and text to predict the visual answer by the visual predictor. Later, using textual predictor with subtitles for the VAL proves to be more precise. However, these existing methods still have cross-modal knowledge deviations from visual frames or textual subtitles. In this paper, we propose a cross-modal mutual knowledge transfer span localization (MutualSL) method to reduce the knowledge deviation. MutualSL has both visual predictor and textual predictor, where we expect the prediction results of these both to be consistent, so as to promote semantic knowledge understanding between cross-modalities. On this basis, we design a one-way dynamic loss function to dynamically adjust the proportion of knowledge transferring. We have conducted extensive experiments on three public datasets for evaluation. The experimental results show that our method outperforms other competitive state-of-the-art (SOTA) methods, demonstrating its effectiveness.
翻訳日:2022-10-27 13:11:16 公開日:2022-10-26
# 効率的かつ効果的なプロンプトによる多言語関係分類

Multilingual Relation Classification via Efficient and Effective Prompting ( http://arxiv.org/abs/2210.13838v2 )

ライセンス: Link先を確認
Yuxuan Chen, David Harbecke, Leonhard Hennig(参考訳) 事前訓練された言語モデルのプロンプティングは、様々なNLPタスク、特に低データレシエーションにおいて顕著なパフォーマンスを達成した。 単言語設定でのプロンプトの成功にもかかわらず、多言語シナリオにおけるプロンプトベースの手法の適用は、手作り多言語プロンプトのコストが高いため、限られたタスクに限られている。 本稿では,3重関係からプロンプトを合成し,クラスラベルの最小翻訳のみを含む効率的かつ効率的な手法を導入することにより,プロンプトベースの多言語関係分類(RC)に関する最初の研究を行う。 我々は,完全教師付き,少数,ゼロショットのシナリオでその性能を評価し,その効果を14言語,プロンプト変種,英語-タスク学習で解析した。 xlm-r_emとnullプロンプトを微調整するプロンプトメソッドは,完全な教師付きシナリオと少数ショットシナリオの両方において,競合ベースラインを上回っていることが分かりました。 また、ゼロショット実験において、ランダムベースラインを大きなマージンで上回る。 本手法は,言語知識をほとんど必要とせず,類似した多言語分類タスクの強力なベースラインとして利用できる。

Prompting pre-trained language models has achieved impressive performance on various NLP tasks, especially in low data regimes. Despite the success of prompting in monolingual settings, applying prompt-based methods in multilingual scenarios has been limited to a narrow set of tasks, due to the high cost of handcrafting multilingual prompts. In this paper, we present the first work on prompt-based multilingual relation classification (RC), by introducing an efficient and effective method that constructs prompts from relation triples and involves only minimal translation for the class labels. We evaluate its performance in fully supervised, few-shot and zero-shot scenarios, and analyze its effectiveness across 14 languages, prompt variants, and English-task training in cross-lingual settings. We find that in both fully supervised and few-shot scenarios, our prompt method beats competitive baselines: fine-tuning XLM-R_EM and null prompts. It also outperforms the random baseline by a large margin in zero-shot experiments. Our method requires little in-language knowledge and can be used as a strong baseline for similar multilingual classification tasks.
翻訳日:2022-10-27 13:11:00 公開日:2022-10-26
# 逐次GANを用いた低リソース言語のグラフ戦術のモデル化

Modeling the Graphotactics of Low-Resource Languages Using Sequential GANs ( http://arxiv.org/abs/2210.14409v1 )

ライセンス: Link先を確認
Isaac Wasserman(参考訳) GAN(Generative Adversarial Networks)は、大量の実データが入手困難である状況において、人工データの作成を支援することが示されている。 この問題は特に計算言語学の分野において顕著であり、研究者はしばしば低リソース言語の複雑な形態学的および文法的過程のモデル化に携わる。 本稿では,100個のサンプル文字列のみを用いて言語の文法をモデル化し,再現しようとするGANの実装とテストについて述べる。 これらの人工的だがグラフに準拠した文字列は、低リソース言語の形態的変形をモデル化するのに役立つ。

Generative Adversarial Networks (GANs) have been shown to aid in the creation of artificial data in situations where large amounts of real data are difficult to come by. This issue is especially salient in the computational linguistics space, where researchers are often tasked with modeling the complex morphologic and grammatical processes of low-resource languages. This paper will discuss the implementation and testing of a GAN that attempts to model and reproduce the graphotactics of a language using only 100 example strings. These artificial, yet graphotactically compliant, strings are meant to aid in modeling the morphological inflection of low-resource languages.
翻訳日:2022-10-27 13:10:23 公開日:2022-10-26
# インデューサチューニング:プレフィックスチューニングとアダプタチューニングの接続

Inducer-tuning: Connecting Prefix-tuning and Adapter-tuning ( http://arxiv.org/abs/2210.14469v1 )

ライセンス: Link先を確認
Yifan Chen, Devamanyu Hazarika, Mahdi Namazifar, Yang Liu, Di Jin, Dilek Hakkani-Tur(参考訳) プレフィックスチューニング、あるいはより一般的な連続的なプロンプトチューニングは、パラメータ効率の高い転送学習の重要なパラダイムとなっている。 大規模な事前学習言語モデル(PLM)を用いることで、プレフィックスチューニングは少数のパラメータのみをトレーニングすることで、強力なパフォーマンスを得ることができる。 本稿では,カーネルレンズによるプレフィックスチューニングについて理解し,さらに発展させることを提案する。 具体的には、カーネルメソッドで \textit{prefixes} と \textit{induced variables} を類推し、 \textit{prefixes} を \textit{induced variables} として機能させることで、全体的なメカニズムが改善されると仮定する。 カーネル推定器の観点からは,アダプティブチューニングの残形を利用して,プリフィックスチューニングとして正確なメカニズムを共有する,プレフィックスチューニング -\textit{inducer-tuning} の新たな変種を提案する。 これはプレフィックスチューニングの初期化問題を緩和する。 自然言語理解と生成タスクに関する包括的実証実験を通じて,インデューサチューニングがプレフィックスチューニングと微調整のパフォーマンスギャップを解消できることを実証する。

Prefix-tuning, or more generally continuous prompt tuning, has become an essential paradigm of parameter-efficient transfer learning. Using a large pre-trained language model (PLM), prefix-tuning can obtain strong performance by training only a small portion of parameters. In this paper, we propose to understand and further develop prefix-tuning through the kernel lens. Specifically, we make an analogy between \textit{prefixes} and \textit{inducing variables} in kernel methods and hypothesize that \textit{prefixes} serving as \textit{inducing variables} would improve their overall mechanism. From the kernel estimator perspective, we suggest a new variant of prefix-tuning -- \textit{inducer-tuning}, which shares the exact mechanism as prefix-tuning while leveraging the residual form found in adapter-tuning. This mitigates the initialization issue in prefix-tuning. Through comprehensive empirical experiments on natural language understanding and generation tasks, we demonstrate that inducer-tuning can close the performance gap between prefix-tuning and fine-tuning.
翻訳日:2022-10-27 13:10:13 公開日:2022-10-26
# 多言語表現学習のための英語中心のバイテキストを超えて

Beyond English-Centric Bitexts for Better Multilingual Language Representation Learning ( http://arxiv.org/abs/2210.14867v1 )

ライセンス: Link先を確認
Barun Patra, Saksham Singhal, Shaohan Huang, Zewen Chi, Li Dong, Furu Wei, Vishrav Chaudhary and Xia Song(参考訳) 本稿では,既存の最先端モデルと競合するだけでなく,パラメータ効率のよい多言語表現モデルを構築するためのレシピについて詳述する。 Electra と MLM の事前学習目標に対して,英語中心のbitext を超えて,トレーニングデータの低活用化を目的とした新たなサンプリング戦略が組み合わさって,モデルサイズにおける性能を大幅に向上させることを示す。 XY-LENT: X-Y bitext拡張Language ENcodings using Transformersは、すべてのモデルサイズバンド内で5つの言語間タスクで最先端のパフォーマンスを達成するだけでなく、バンド間で競合する。 XY-LENT XL は XLM-RXXL より優れ,mT5 XXL との競合性能は5倍,6倍小さい。 提案手法により,xy-lent xlは99.3%のグルー性能と98.5% squad 2.0 性能を達成し,同サイズ帯の sota english モデルと比較し,多言語性の呪いを和らげる効果を示した。 そして、非常に低いリソース言語でモデルのパフォーマンスを分析し、このシナリオのパフォーマンスを改善するのにスケーリングだけでは十分ではないと仮定します。

In this paper, we elaborate upon recipes for building multilingual representation models that are not only competitive with existing state-of-the-art models but are also more parameter efficient, thereby promoting better adoption in resource-constrained scenarios and practical applications. We show that going beyond English-centric bitexts, coupled with a novel sampling strategy aimed at reducing under-utilization of training data, substantially boosts performance across model sizes for both Electra and MLM pre-training objectives. We introduce XY-LENT: X-Y bitext enhanced Language ENcodings using Transformers which not only achieves state-of-the-art performance over 5 cross-lingual tasks within all model size bands, is also competitive across bands. Our XY-LENT XL variant outperforms XLM-RXXL and exhibits competitive performance with mT5 XXL while being 5x and 6x smaller respectively. We then show that our proposed method helps ameliorate the curse of multilinguality, with the XY-LENT XL achieving 99.3% GLUE performance and 98.5% SQuAD 2.0 performance compared to a SoTA English only model in the same size band. We then analyze our models performance on extremely low resource languages and posit that scaling alone may not be sufficient for improving the performance in this scenario
翻訳日:2022-10-27 13:09:50 公開日:2022-10-26
# 共同分類と複数明示的検出クラスによる対向ロバスト性の改善

Improving Adversarial Robustness via Joint Classification and Multiple Explicit Detection Classes ( http://arxiv.org/abs/2210.14410v1 )

ライセンス: Link先を確認
Sina Baharlouei, Fatemeh Sheikholeslami, Meisam Razaviyayn, Zico Kolter(参考訳) この研究は、敵の攻撃に対して確実に堅牢なディープネットワークの開発に関するものである。 共同頑健な分類検出は、最近認証された防御機構として導入され、敵の例は正しく分類されるか、"存在"クラスに割り当てられる。 本稿では,複数の明示的な抽象クラスを持つネットワークへの拡張によって,そのような証明可能なフレームワークがメリットを享受できることを示す。 そこで本研究では,複数のabstainクラスを付加することで「モデル縮退」につながることを示すとともに,複数のabstainクラスをフル活用することにより,この縮退に対応するための正規化手法とトレーニング手法を提案する。 実験の結果,提案手法は頑健な検証精度のトレードオフに対して常に有利な基準を満たしており,アブスタンクラス数の選択において最先端アルゴリズムよりも優れていることがわかった。

This work concerns the development of deep networks that are certifiably robust to adversarial attacks. Joint robust classification-detection was recently introduced as a certified defense mechanism, where adversarial examples are either correctly classified or assigned to the "abstain" class. In this work, we show that such a provable framework can benefit by extension to networks with multiple explicit abstain classes, where the adversarial examples are adaptively assigned to those. We show that naively adding multiple abstain classes can lead to "model degeneracy", then we propose a regularization approach and a training method to counter this degeneracy by promoting full use of the multiple abstain classes. Our experiments demonstrate that the proposed approach consistently achieves favorable standard vs. robust verified accuracy tradeoffs, outperforming state-of-the-art algorithms for various choices of number of abstain classes.
翻訳日:2022-10-27 13:04:00 公開日:2022-10-26
# ViNL: 障害物に対する視覚ナビゲーションと移動

ViNL: Visual Navigation and Locomotion Over Obstacles ( http://arxiv.org/abs/2210.14791v1 )

ライセンス: Link先を確認
Simar Kareer, Naoki Yokoyama, Dhruv Batra, Sehoon Ha, Joanne Truong(参考訳) 視覚ナビゲーションと障害物の移動(ViNL)は、人間やペットが歩きながら足を持ち上げるのと同じように、四足歩行ロボットが見えないアパートを移動しながら、その道にある小さな障害物(靴、おもちゃ、ケーブルなど)を踏むことができる。 ViNLは,(1)不慣れな屋内環境における目標座標にロボットを誘導する線形および角速度コマンドを出力する視覚的ナビゲーションポリシーと,(2)ロボットの関節を制御し,提供された速度コマンドに従って障害物を踏むことを避ける視覚的移動ポリシーとから構成される。 どちらのポリシーも完全に"モデルフリー"、すなわちエンドツーエンドにトレーニングされたセンサー間ニューラルネットワークである。 2つは2つの全く異なるシミュレータで独立に訓練され、ナビゲータからの速度コマンドをロコモターに供給することでシームレスに共存し、完全に「ゼロショット」となる(コトレーニングは一切行わない)。 従来,視覚的ナビゲーションや視覚的移動の学習手法が開発されてきたが,この手法は,(1)新しい環境におけるインテリジェントなナビゲーションと(2)障害物を乱さずに散らばった環境を横断するインテリジェントな視覚的移動の両方を達成するために,視覚を利用する最初の完全学習手法である。 未知環境における遠隔目標へのナビゲーションのタスクにおいて、vinlは、特権付き地形地図を用いたロバストなロコモーション(+32.8%の成功と4.42mの衝突)の以前の作業を大きく上回っている。 さらに,ロコモーションポリシを緩和して,アプローチの各側面が障害物衝突の低減に役立つことを示す。 ビデオとコード: http://www.joannetruong.com/projects/vinl.html

We present Visual Navigation and Locomotion over obstacles (ViNL), which enables a quadrupedal robot to navigate unseen apartments while stepping over small obstacles that lie in its path (e.g., shoes, toys, cables), similar to how humans and pets lift their feet over objects as they walk. ViNL consists of: (1) a visual navigation policy that outputs linear and angular velocity commands that guides the robot to a goal coordinate in unfamiliar indoor environments; and (2) a visual locomotion policy that controls the robot's joints to avoid stepping on obstacles while following provided velocity commands. Both the policies are entirely "model-free", i.e. sensors-to-actions neural networks trained end-to-end. The two are trained independently in two entirely different simulators and then seamlessly co-deployed by feeding the velocity commands from the navigator to the locomotor, entirely "zero-shot" (without any co-training). While prior works have developed learning methods for visual navigation or visual locomotion, to the best of our knowledge, this is the first fully learned approach that leverages vision to accomplish both (1) intelligent navigation in new environments, and (2) intelligent visual locomotion that aims to traverse cluttered environments without disrupting obstacles. On the task of navigation to distant goals in unknown environments, ViNL using just egocentric vision significantly outperforms prior work on robust locomotion using privileged terrain maps (+32.8% success and -4.42 collisions per meter). Additionally, we ablate our locomotion policy to show that each aspect of our approach helps reduce obstacle collisions. Videos and code at http://www.joannetruong.com/projects/vinl.html
翻訳日:2022-10-27 13:03:45 公開日:2022-10-26
# DiffusionDB: テキストから画像生成モデルのための大規模プロンプトギャラリーデータセット

DiffusionDB: A Large-scale Prompt Gallery Dataset for Text-to-Image Generative Models ( http://arxiv.org/abs/2210.14896v1 )

ライセンス: Link先を確認
Zijie J. Wang, Evan Montoya, David Munechika, Haoyang Yang, Benjamin Hoover, Duen Horng Chau(参考訳) 最近の拡散モデルの進歩により、ユーザーは自然言語でテキストプロンプトを書くことで高品質な画像を生成することができる。 しかし、所望の詳細な画像を生成するには適切なプロンプトが必要であり、モデルがどのように異なるプロンプトに反応するか、最良のプロンプトが何であるかはよく分からない。 これらの重要な課題に対処するために、我々はDiffusionDBを紹介した。 DiffusionDBには、実際のユーザが指定したプロンプトとハイパーパラメータを使用して、Stable Diffusionによって生成された200万の画像が含まれている。 データセット内のプロンプトを分析し,これらのプロンプトの重要な特性について考察する。 この前例のない規模のデータセットと多様性は、プロンプトと生成モデルの相互作用を理解し、ディープフェイクを検出し、これらのモデルをより簡単に使用するためのヒューマン・aiインタラクションツールを設計するための、エキサイティングな研究機会を提供します。 DiffusionDBは、https://poloclub.github.io/diffusiondb.comで公開されている。

With recent advancements in diffusion models, users can generate high-quality images by writing text prompts in natural language. However, generating images with desired details requires proper prompts, and it is often unclear how a model reacts to different prompts and what the best prompts are. To help researchers tackle these critical challenges, we introduce DiffusionDB, the first large-scale text-to-image prompt dataset. DiffusionDB contains 2 million images generated by Stable Diffusion using prompts and hyperparameters specified by real users. We analyze prompts in the dataset and discuss key properties of these prompts. The unprecedented scale and diversity of this human-actuated dataset provide exciting research opportunities in understanding the interplay between prompts and generative models, detecting deepfakes, and designing human-AI interaction tools to help users more easily use these models. DiffusionDB is publicly available at: https://poloclub.github.io/diffusiondb.
翻訳日:2022-10-27 13:03:13 公開日:2022-10-26
# 主成分分類

Principal Component Classification ( http://arxiv.org/abs/2210.12746v2 )

ライセンス: Link先を確認
Rozenn Dahyot(参考訳) そこで本研究では,PCAを用いてクラススコアを符号化した学習機能を用いて,分類推定を直接計算する。 その結果得られたモデルは,教師付き学習に適したエンコーダ・デコーダ構造を有し,計算効率が高く,複数のデータセットの分類に適している。

We propose to directly compute classification estimates by learning features encoded with their class scores using PCA. Our resulting model has a encoder-decoder structure suitable for supervised learning, it is computationally efficient and performs well for classification on several datasets.
翻訳日:2022-10-27 13:02:52 公開日:2022-10-26
# ビジネスプロセス固有の基礎モデルの事例

A Case for Business Process-Specific Foundation Models ( http://arxiv.org/abs/2210.14739v1 )

ライセンス: Link先を確認
Yara Rizk, Praveen Venkateswaran, Vatche Isahagian, Vinod Muthusamy(参考訳) 大規模言語モデルの導入は、多くの自然言語タスクにおける最先端のパフォーマンス向上に役立っている。 これはまた、他のドメインや画像、コード、音楽などのデータモダリティのための基礎モデルを開発するための扉を開いた。 本稿では,ビジネスプロセスデータ表現には,プロセスマイニングや最適化,意思決定といったタスクに対処する新たな基盤モデルの開発を保証するユニークな特徴がある,と論じる。 これらのモデルはまた、データ不足、マルチモーダル表現、ドメイン固有の用語、プライバシに関する懸念を含む、ビジネスプロセスにAIを適用するというユニークな課題に取り組む必要がある。

The inception of large language models has helped advance state-of-the-art performance on numerous natural language tasks. This has also opened the door for the development of foundation models for other domains and data modalities such as images, code, and music. In this paper, we argue that business process data representations have unique characteristics that warrant the development of a new class of foundation models to handle tasks like process mining, optimization, and decision making. These models should also tackle the unique challenges of applying AI to business processes which include data scarcity, multi-modal representations, domain specific terminology, and privacy concerns.
翻訳日:2022-10-27 13:02:47 公開日:2022-10-26
# 進化的ルール学習を用いたフェデレーションファジィニューラルネットワーク

Federated Fuzzy Neural Network with Evolutionary Rule Learning ( http://arxiv.org/abs/2210.14393v1 )

ライセンス: Link先を確認
Leijie Zhang, Ye Shi, Yu-Cheng Chang, Chin-Teng Lin(参考訳) 分散ファジィニューラルネットワーク(DFNN)は、分散シナリオにおけるデータの不確実性を扱う学習能力のため、近年注目を集めている。 しかし、DFNNがローカルデータが非独立で同一に分散している場合(非IID)を扱うことは困難である。 本稿では,非IID問題とデータ不確実性に対応するために,進化規則学習(ERL)を備えたフェデレーションファジィニューラルネットワーク(FedFNN)を提案する。 FedFNNは、サーバ内のグローバルなルールセットと、各ローカルクライアントに対するこれらのルールのパーソナライズされたサブセットを維持している。 ERLは生物進化の理論にインスパイアされ、優れたルールを活性化し、非IIDデータでローカルクライアントの劣るルールを非活性化する。 具体的には、erlは反復手順の2つの段階で構成されている: 活性化状態に基づいてローカルルールを集約してグローバルルールを更新するルール協調ステージと、グローバルルールを進化させ、ローカルルールのアクティベーション状態を更新するルール進化ステージである。 この手順は、非IID問題やデータ不確実性を扱うためのFedFNNの一般化とパーソナライズの両方を改善する。 様々なデータセットで実施された広範囲な実験により、fedfnnが最先端の手法よりも優れていることが示されている。

Distributed fuzzy neural networks (DFNNs) have attracted increasing attention recently due to their learning abilities in handling data uncertainties in distributed scenarios. However, it is challenging for DFNNs to handle cases in which the local data are non-independent and identically distributed (non-IID). In this paper, we propose a federated fuzzy neural network (FedFNN) with evolutionary rule learning (ERL) to cope with non-IID issues as well as data uncertainties. The FedFNN maintains a global set of rules in a server and a personalized subset of these rules for each local client. ERL is inspired by the theory of biological evolution; it encourages rule variations while activating superior rules and deactivating inferior rules for local clients with non-IID data. Specifically, ERL consists of two stages in an iterative procedure: a rule cooperation stage that updates global rules by aggregating local rules based on their activation statuses and a rule evolution stage that evolves the global rules and updates the activation statuses of the local rules. This procedure improves both the generalization and personalization of the FedFNN for dealing with non-IID issues and data uncertainties. Extensive experiments conducted on a range of datasets demonstrate the superiority of the FedFNN over state-of-the-art methods.
翻訳日:2022-10-27 13:02:36 公開日:2022-10-26
# 多言語知識とテキストのモデリング強化のためのアダプタ

Adapters for Enhanced Modeling of Multilingual Knowledge and Text ( http://arxiv.org/abs/2210.13617v2 )

ライセンス: Link先を確認
Yifan Hou, Wenxiang Jiao, Meizhen Liu, Carl Allen, Zhaopeng Tu, Mrinmaya Sachan(参考訳) 大きな言語モデルは、訓練された大きなテキストコーパスから事実を学ぶように見える。 このような事実は多くのパラメータに暗黙的にエンコードされるため、学習した知識の検証や操作が困難になる。 言語モデルは、最近MLLM(Multilingual Language Model)に拡張され、何百もの言語で知識を学ぶことができるようになった。 一方、知識グラフは事実を明示的な三重形式に含み、注意とコストのかかるキュレーションを必要とし、いくつかの高リソース言語でのみ利用可能であり、研究と応用を制限している。 これらの課題に対処するため,MLLMを多言語知識グラフ(MLKG)からの知識で拡張し,低リソース言語を含む多くの言語における言語および知識グラフタスクに取り組むことを提案する。 具体的には,言語間エンティティアライメントとMLKGからのファクトを多言語で実現する軽量なアダプタセットを提案する。 共通ベンチマークによる実験では、このような拡張はmllmとmlkgの両方に有益であり、(1)知識グラフ補完と、特に低リソース言語(知識グラフが使用できない言語)に対するエンティティアライメントに対する比較または改善、(2)多言語事実知識を必要とする言語理解タスクにおけるmllmの性能向上、そして、すべて他の汎用言語タスクのパフォーマンスを維持しながら達成されている。

Large language models appear to learn facts from the large text corpora they are trained on. Such facts are encoded implicitly within their many parameters, making it difficult to verify or manipulate what knowledge has been learned. Language models have recently been extended to multilingual language models (MLLMs), enabling knowledge to be learned across hundreds of languages. Meanwhile, knowledge graphs contain facts in an explicit triple format, which require careful and costly curation and are only available in a few high-resource languages, restricting their research and application. To address these issues, we propose to enhance MLLMs with knowledge from multilingual knowledge graphs (MLKGs) so as to tackle language and knowledge graph tasks across many languages, including low-resource ones. Specifically, we introduce a lightweight adapter set to enhance MLLMs with cross-lingual entity alignment and facts from MLKGs for many languages. Experiments on common benchmarks show that such enhancement benefits both MLLMs and MLKGs, achieving: (1) comparable or improved performance for knowledge graph completion and entity alignment relative to baselines, especially for low-resource languages (for which knowledge graphs are unavailable); and (2) improved MLLM performance on language understanding tasks that require multilingual factual knowledge; all while maintaining performance on other general language tasks.
翻訳日:2022-10-27 13:02:14 公開日:2022-10-26
# $n$-gram言語モデルを用いたニューラルテキスト生成の残差学習

Residual Learning of Neural Text Generation with $n$-gram Language Model ( http://arxiv.org/abs/2210.14431v1 )

ライセンス: Link先を確認
Huayang Li, Deng Cai, Jin Xu, Taro Watanabe(参考訳) N$-gram言語モデル(LM)は、より優れた性能を示すため、ニューラルなLMに取って代わられている。 しかし,$n$-gramモデルでは,比較的計算コストの低い言語知識を既に獲得していることから,多数のテストケースにおいて良好な性能が得られることがわかった。 この観察により,n$-gram lmと実データ分布の間の残差に適合するニューラルネットワークlmを学習することを提案する。 n$-gramとneural lmsの組み合わせにより、ニューラルネットワークは言語をより深く理解することに集中できるだけでなく、ニューラルモデルを変更することなく基礎となる$n$-gramモデルを切り替えることで、lmをカスタマイズするための柔軟な方法を提供する。 3つの典型的な言語タスク(言語モデリング、機械翻訳、要約)に関する実験結果から、我々のアプローチは、一般的なスタンドアロンニューラルネットワークモデルよりも、継続的にパフォーマンスが向上することを示した。 また、本手法はドメイン固有の$n$-gramモデルに切り替えるだけで、余分なトレーニングをすることなく、効果的なドメイン適応を可能にすることを示す。 私たちのコードはhttps://github.com/ghrua/ngramresでリリースしています。

$N$-gram language models (LM) have been largely superseded by neural LMs as the latter exhibits better performance. However, we find that $n$-gram models can achieve satisfactory performance on a large proportion of testing cases, indicating they have already captured abundant knowledge of the language with relatively low computational cost. With this observation, we propose to learn a neural LM that fits the residual between an $n$-gram LM and the real-data distribution. The combination of $n$-gram and neural LMs not only allows the neural part to focus on the deeper understanding of language but also provides a flexible way to customize an LM by switching the underlying $n$-gram model without changing the neural model. Experimental results on three typical language tasks (i.e., language modeling, machine translation, and summarization) demonstrate that our approach attains additional performance gains over popular standalone neural models consistently. We also show that our approach allows for effective domain adaptation by simply switching to a domain-specific $n$-gram model, without any extra training. Our code is released at https://github.com/ghrua/NgramRes.
翻訳日:2022-10-27 13:01:25 公開日:2022-10-26
# ユニモーダル符号化によるマルチモーダルコントラスト学習とマルチモーダル感情分析のためのクロスモーダル予測

Multimodal Contrastive Learning via Uni-Modal Coding and Cross-Modal Prediction for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2210.14556v1 )

ライセンス: Link先を確認
Ronghao Lin, Haifeng Hu(参考訳) マルチモーダル表現学習は、以前の研究が単モーダル事前学習とクロスモーダル融合に主に焦点をあてる難しい課題である。 実際、我々はマルチモーダル表現のモデリングを、安定した基礎を築き、主構造を設計することが等しく不可欠である超高層ビルの構築と見なしている。 前者はロバストなユニモダル表現を符号化するのと同様に、後者は異なるモダリティ間でインタラクティブな情報を統合するようなものです。 近年,高層建築物の柱として活用可能な表現学習にコントラスト学習が応用され,マルチモーダルデータに含まれる最も重要な特徴を抽出できるモデルが確立されている。 本稿では,マルチモーダル表現のためのマルチモーダルコントラスト学習(mmcl)と呼ばれる新しいフレームワークを提案する。 具体的には,音響的および視覚的モダリティに含まれる固有ノイズをフィルタリングし,より堅牢な一モダリティ表現を得るために,効率的な一モダリティ特徴拡張戦略を用いた一モダリティコントラスト符号化を提案する。 さらに、異なるモダリティ間の表現を予測するために擬似シマメネットワークが提示され、モダリティ間のダイナミクスをうまく捉えた。 さらに,インスタンスベースと感情ベースの2つのコントラスト学習タスクをデザインし,予測プロセスを促進し,感情に関連するよりインタラクティブな情報を学習する。 2つの公開データセットで行った大規模な実験は、我々の手法が最先端の手法を超えることを示した。

Multimodal representation learning is a challenging task in which previous work mostly focus on either uni-modality pre-training or cross-modality fusion. In fact, we regard modeling multimodal representation as building a skyscraper, where laying stable foundation and designing the main structure are equally essential. The former is like encoding robust uni-modal representation while the later is like integrating interactive information among different modalities, both of which are critical to learning an effective multimodal representation. Recently, contrastive learning has been successfully applied in representation learning, which can be utilized as the pillar of the skyscraper and benefit the model to extract the most important features contained in the multimodal data. In this paper, we propose a novel framework named MultiModal Contrastive Learning (MMCL) for multimodal representation to capture intra- and inter-modality dynamics simultaneously. Specifically, we devise uni-modal contrastive coding with an efficient uni-modal feature augmentation strategy to filter inherent noise contained in acoustic and visual modality and acquire more robust uni-modality representations. Besides, a pseudo siamese network is presented to predict representation across different modalities, which successfully captures cross-modal dynamics. Moreover, we design two contrastive learning tasks, instance- and sentiment-based contrastive learning, to promote the process of prediction and learn more interactive information related to sentiment. Extensive experiments conducted on two public datasets demonstrate that our method surpasses the state-of-the-art methods.
翻訳日:2022-10-27 13:01:05 公開日:2022-10-26
# 対話理解のためのプロンプティングによる弱修正データ拡張

Weakly Supervised Data Augmentation Through Prompting for Dialogue Understanding ( http://arxiv.org/abs/2210.14169v2 )

ライセンス: Link先を確認
Maximillian Chen, Alexandros Papangelis, Chenyang Tao, Andy Rosenbaum, Seokhwan Kim, Yang Liu, Zhou Yu, Dilek Hakkani-Tur(参考訳) 対話理解タスクは、優れたパフォーマンスを達成するために豊富な注釈データを必要とし、低リソース設定において課題を呈する。 この障壁を緩和するために, 大規模事前学習言語モデルによる対話理解のためのわずかなデータ拡張を探求し, 弱教師付きフィルタの適用による拡張品質の向上を反復する新しいアプローチを提案する。 我々は、デイリーダイアログにおける感情・行動分類タスクと、Facebook Multilingual Task-Oriented Dialogueにおける意図分類タスクについて評価した。 拡張データに微調整されたモデルと、最小限のグランド真実データを組み合わせて、両方のデータセットで既存の最先端のパフォーマンスにアプローチしたり、上回ったりすることが可能です。 特にDailyDialogでは、真理データの10%を使用して、100%のデータを使用する現在の最先端モデルよりも優れています。

Dialogue understanding tasks often necessitate abundant annotated data to achieve good performance and that presents challenges in low-resource settings. To alleviate this barrier, we explore few-shot data augmentation for dialogue understanding by prompting large pre-trained language models and present a novel approach that iterates on augmentation quality by applying weakly-supervised filters. We evaluate our methods on the emotion and act classification tasks in DailyDialog and the intent classification task in Facebook Multilingual Task-Oriented Dialogue. Models fine-tuned on our augmented data mixed with few-shot ground truth data are able to approach or surpass existing state-of-the-art performance on both datasets. For DailyDialog specifically, using 10% of the ground truth data we outperform the current state-of-the-art model which uses 100% of the data.
翻訳日:2022-10-27 12:55:12 公開日:2022-10-26
# OTSeq2Set: 極多ラベルテキスト分類のための最適トランスポート拡張シーケンス-セットモデル

OTSeq2Set: An Optimal Transport Enhanced Sequence-to-Set Model for Extreme Multi-label Text Classification ( http://arxiv.org/abs/2210.14523v1 )

ライセンス: Link先を確認
Jie Cao, Yin Zhang(参考訳) extreme multi-label text classification (xmtc) は、非常に大規模なラベルコレクションから最も関連するサブセットラベルを見つける作業である。 近年、いくつかのディープラーニングモデルはXMTCタスクで最先端の結果を得た。 これらのモデルは通常、モデルの最後の層として完全に連結された層によって全てのラベルのスコアを予測する。 しかし、そのようなモデルは、文書に関連する正のラベルを一定の閾値で選択したり、スコアの順にトップkのラベルを取るため、文書ごとに比較的完全で可変長のラベルサブセットを予測できない。 seq2seq(sequence-to-sequence)と呼ばれる、あまり一般的ではないディープラーニングモデルでは、シーケンススタイルの可変長正のラベルの予測に重点を置いている。 しかし、xmtcタスクのラベルは本質的に順序列ではなく順序付けされていない集合であり、ラベルのデフォルト順序はトレーニング中のseq2seqモデルを抑制する。 seq2seqのこの制限に対処するために、otseq2setと呼ばれるxmtcタスクの自己回帰シーケンスツーセットモデルを提案する。 本モデルは,学生の強制スキームにおける予測を生成し,置換不変性を実現する二分法マッチングに基づく損失関数を用いて学習する。 一方、最適輸送距離は、モデルにセマンティックラベル空間の最も近いラベルにフォーカスするよう強制するために用いられる。 実験によると、OTSeq2Setは4つのベンチマークデータセットで他の競合ベースラインを上回っている。 特に31kラベルのウィキペディアデータセットでは、最先端のSeq2Seqメソッドを16.34%のマイクロF1スコアで上回っている。 コードはhttps://github.com/caojie54/OTSeq2Setで入手できる。

Extreme multi-label text classification (XMTC) is the task of finding the most relevant subset labels from an extremely large-scale label collection. Recently, some deep learning models have achieved state-of-the-art results in XMTC tasks. These models commonly predict scores for all labels by a fully connected layer as the last layer of the model. However, such models can't predict a relatively complete and variable-length label subset for each document, because they select positive labels relevant to the document by a fixed threshold or take top k labels in descending order of scores. A less popular type of deep learning models called sequence-to-sequence (Seq2Seq) focus on predicting variable-length positive labels in sequence style. However, the labels in XMTC tasks are essentially an unordered set rather than an ordered sequence, the default order of labels restrains Seq2Seq models in training. To address this limitation in Seq2Seq, we propose an autoregressive sequence-to-set model for XMTC tasks named OTSeq2Set. Our model generates predictions in student-forcing scheme and is trained by a loss function based on bipartite matching which enables permutation-invariance. Meanwhile, we use the optimal transport distance as a measurement to force the model to focus on the closest labels in semantic label space. Experiments show that OTSeq2Set outperforms other competitive baselines on 4 benchmark datasets. Especially, on the Wikipedia dataset with 31k labels, it outperforms the state-of-the-art Seq2Seq method by 16.34% in micro-F1 score. The code is available at https://github.com/caojie54/OTSeq2Set.
翻訳日:2022-10-27 12:54:58 公開日:2022-10-26
# 急ぐな、検索! 言語モデルを用いたマイニングに基づくゼロショット学習

Don't Prompt, Search! Mining-based Zero-Shot Learning with Language Models ( http://arxiv.org/abs/2210.14803v1 )

ライセンス: Link先を確認
Mozes van de Kar, Mengzhou Xia, Danqi Chen, Mikel Artetxe(参考訳) BERTのようなマスキング言語モデルは、下流のタスクをテキストの埋め合わせとして書き換えることで、ゼロショットでテキスト分類を行うことができる。 しかし、このアプローチはモデルを促すために使用されるテンプレートに非常に敏感だが、厳密なゼロショット設定で設計する場合には実践者は盲目である。 本稿では,ゼロショット学習のための代替マイニングベースアプローチを提案する。 言語モデルをプロンプトする代わりに、ラベルのないコーパスからラベル付き例をマイニングするために正規表現を使用します。 提案手法はプロンプトよりも柔軟で解釈可能で,同等のテンプレートを使用する場合,幅広いタスクで処理性能が向上する。 この結果から,事前学習中に類似例に曝露したモデルにより,プロンプトの成功を部分的に説明できる可能性が示唆された。

Masked language models like BERT can perform text classification in a zero-shot fashion by reformulating downstream tasks as text infilling. However, this approach is highly sensitive to the template used to prompt the model, yet practitioners are blind when designing them in strict zero-shot settings. In this paper, we propose an alternative mining-based approach for zero-shot learning. Instead of prompting language models, we use regular expressions to mine labeled examples from unlabeled corpora, which can optionally be filtered through prompting, and used to finetune a pretrained model. Our method is more flexible and interpretable than prompting, and outperforms it on a wide range of tasks when using comparable templates. Our results suggest that the success of prompting can partly be explained by the model being exposed to similar examples during pretraining, which can be directly retrieved through regular expressions.
翻訳日:2022-10-27 12:54:30 公開日:2022-10-26
# バイナリフィードバックによる安全な強化学習

Provable Safe Reinforcement Learning with Binary Feedback ( http://arxiv.org/abs/2210.14492v1 )

ライセンス: Link先を確認
Andrew Bennett, Dipendra Misra, Nathan Kallus(参考訳) ロボット、自動車、医療など、強化学習(rl)の多くの応用において、安全性は不可欠である。 安全なRLに対する既存のアプローチの多くは、数値的安全性フィードバックの受信に依存しているが、多くの場合、このフィードバックはバイナリ値のみを取ることができる。 これは、フィードバックが人間の専門家から来るときに特に当てはまる。 そこで我々は、状態、行動ペアの安全性に関する二元的なフィードバックを提供するオフラインのオラクルへのアクセスを与えられた場合、安全なRLを保証できるという問題を考察する。 我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。 SABREは、アクティブラーニングから強化ラーニングまでの概念を適用し、安全オラクルへのクエリ数を確実に制御する。 SABREは、エージェントが現在安全について不確実な領域を見つけるために、州空間を反復的に探索する。 我々の主要な理論的結果は、適切な技術的前提の下では、SABREはトレーニング中に安全でない行動を取ることはなく、高い確率で準最適安全政策を返すことが保証されていることを示している。 我々は,我々のメタアルゴリズムが,理論的および実証的両方のフレームワークで研究された様々な設定にどのように適用されるかについて議論する。

Safety is a crucial necessity in many applications of reinforcement learning (RL), whether robotic, automotive, or medical. Many existing approaches to safe RL rely on receiving numeric safety feedback, but in many cases this feedback can only take binary values; that is, whether an action in a given state is safe or unsafe. This is particularly true when feedback comes from human experts. We therefore consider the problem of provable safe RL when given access to an offline oracle providing binary feedback on the safety of state, action pairs. We provide a novel meta algorithm, SABRE, which can be applied to any MDP setting given access to a blackbox PAC RL algorithm for that setting. SABRE applies concepts from active learning to reinforcement learning to provably control the number of queries to the safety oracle. SABRE works by iteratively exploring the state space to find regions where the agent is currently uncertain about safety. Our main theoretical results shows that, under appropriate technical assumptions, SABRE never takes unsafe actions during training, and is guaranteed to return a near-optimal safe policy with high probability. We provide a discussion of how our meta-algorithm may be applied to various settings studied in both theoretical and empirical frameworks.
翻訳日:2022-10-27 12:54:16 公開日:2022-10-26
# 構造方程式モデルを用いた製造領域における因果グラフの学習

Learning Causal Graphs in Manufacturing Domains using Structural Equation Models ( http://arxiv.org/abs/2210.14573v1 )

ライセンス: Link先を確認
Maximilian Kertel, Stefan Harmeling and Markus Pauly(参考訳) 多くの生産プロセスは、多数の複雑な原因と効果の関係によって特徴づけられる。 これらは部分的にしか知られていないため、効率的なプロセス制御に挑戦する。 本稿では,生産領域における事前知識とプロセスデータの組み合わせから原因・効果関係を導出するための構造方程式モデルについて述べる。 既存のアプリケーションと比較して、線形関係がより情報的な結果をもたらすとは考えていない。

Many production processes are characterized by numerous and complex cause-and-effect relationships. Since they are only partially known they pose a challenge to effective process control. In this work we present how Structural Equation Models can be used for deriving cause-and-effect relationships from the combination of prior knowledge and process data in the manufacturing domain. Compared to existing applications, we do not assume linear relationships leading to more informative results.
翻訳日:2022-10-27 12:53:48 公開日:2022-10-26
# rhino: 歴史依存ノイズを伴う深い因果関係学習

Rhino: Deep Causal Temporal Relationship Learning With History-dependent Noise ( http://arxiv.org/abs/2210.14706v1 )

ライセンス: Link先を確認
Wenbo Gong, Joel Jennings, Cheng Zhang and Nick Pawlowski(参考訳) 時系列データから異なる変数間の因果関係を発見することは、気候科学、金融、医療といった多くの分野にとって長年の課題だった。 実世界関係の複雑さと離散時間における観測の性質を考えると、因果発見法は変数、瞬時効果、履歴依存ノイズ(過去の行動によるノイズ分布の変化)の間の非線形関係を考慮する必要がある。 しかしながら、これらすべての問題に対処するソリューションを提供していない。 本稿では,ベクトル自己回帰,深層学習,変分推論を組み合わせた時系列データのための新たな因果関係学習フレームワークRhinoを提案する。 理論的には、rhinoの構造識別性を証明する。 大規模な合成実験と2つの実世界のベンチマークによる実験結果は、関連するベースラインと比較して発見性能が良いことを示す。

Discovering causal relationships between different variables from time series data has been a long-standing challenge for many domains such as climate science, finance, and healthcare. Given the complexity of real-world relationships and the nature of observations in discrete time, causal discovery methods need to consider non-linear relations between variables, instantaneous effects and history-dependent noise (the change of noise distribution due to past actions). However, previous works do not offer a solution addressing all these problems together. In this paper, we propose a novel causal relationship learning framework for time-series data, called Rhino, which combines vector auto-regression, deep learning and variational inference to model non-linear relationships with instantaneous effects while allowing the noise distribution to be modulated by historical observations. Theoretically, we prove the structural identifiability of Rhino. Our empirical results from extensive synthetic experiments and two real-world benchmarks demonstrate better discovery performance compared to relevant baselines, with ablation studies revealing its robustness under model misspecification.
翻訳日:2022-10-27 12:53:38 公開日:2022-10-26
# TuneUp: グラフニューラルネットワークの一般化を改善するためのトレーニング戦略

TuneUp: A Training Strategy for Improving Generalization of Graph Neural Networks ( http://arxiv.org/abs/2210.14843v1 )

ライセンス: Link先を確認
Weihua Hu, Kaidi Cao, Kexin Huang, Edward W Huang, Karthik Subbian, Jure Leskovec(参考訳) グラフニューラルネットワーク(gnns)の多くの進歩にもかかわらず、そのトレーニング戦略は単にグラフのノード上の損失を最小化することに集中している。 しかし、そのような単純なトレーニング戦略は、特定のノードが他のノードよりも正確な予測を行うのがはるかに難しいことを無視するため、準最適である可能性がある。 ここでは、GNNのトレーニングを改善するためのカリキュラム学習戦略であるTuneUpを紹介する。 重要なことに、TuneUpはGNNを2段階に分けて訓練している。 第1ステージは強いベースgnnの制作を目指している。 このようなベースGNNは、ヘッドノード(大きな次数を持つノード)ではよく機能するが、テールノード(小さな次数を持つノード)では性能が低い。 そのため、TuneUpの第2ステージは、テールノードの予測の改善に特化している。 具体的には、TuneUpは、ヘッドノードからエッジをドロップし、元のヘッドノードの監視を再利用することで、多くの教師付きテールノードデータを合成する。 tuneupは合成テールノードの損失を最小限にし、ベースgnnを微調整する。 TuneUpは、あらゆるGNNアーキテクチャと損失で使用できる一般的なトレーニング戦略であり、TuneUpは幅広い予測タスクに適用できる。 2つのGNNアーキテクチャ、3種類の予測タスク、およびインダクティブおよびトランスダクティブな設定によるTuneUpの広範囲な評価は、TuneUpが尾ノードのベースGNNのパフォーマンスを著しく改善する一方で、ヘッドノードのパフォーマンスも改善し、GNNの予測性能は58.5%向上したことを示している。 さらにtuneupは、2段階のカリキュラム学習や既存のグラフデータ拡張技術、テールノードのための他の特別な方法なしで、その変種を大きく上回っている。

Despite many advances in Graph Neural Networks (GNNs), their training strategies simply focus on minimizing a loss over nodes in a graph. However, such simplistic training strategies may be sub-optimal as they neglect that certain nodes are much harder to make accurate predictions on than others. Here we present TuneUp, a curriculum learning strategy for better training GNNs. Crucially, TuneUp trains a GNN in two stages. The first stage aims to produce a strong base GNN. Such base GNNs tend to perform well on head nodes (nodes with large degrees) but less so on tail nodes (nodes with small degrees). So, the second stage of TuneUp specifically focuses on improving prediction on tail nodes. Concretely, TuneUp synthesizes many additional supervised tail node data by dropping edges from head nodes and reusing the supervision on the original head nodes. TuneUp then minimizes the loss over the synthetic tail nodes to finetune the base GNN. TuneUp is a general training strategy that can be used with any GNN architecture and any loss, making TuneUp applicable to a wide range of prediction tasks. Extensive evaluation of TuneUp on two GNN architectures, three types of prediction tasks, and both inductive and transductive settings shows that TuneUp significantly improves the performance of the base GNN on tail nodes, while often even improving the performance on head nodes, which together leads up to 58.5% relative improvement in GNN predictive performance. Moreover, TuneUp significantly outperforms its variants without the two-stage curriculum learning, existing graph data augmentation techniques, as well as other specialized methods for tail nodes.
翻訳日:2022-10-27 12:53:10 公開日:2022-10-26
# IMU2CLIP:エゴセントリックビデオとテキストからのIMUモーションセンサのマルチモーダルコントラスト学習

IMU2CLIP: Multimodal Contrastive Learning for IMU Motion Sensors from Egocentric Videos and Text ( http://arxiv.org/abs/2210.14395v1 )

ライセンス: Link先を確認
Seungwhan Moon, Andrea Madotto, Zhaojiang Lin, Alireza Dirafzoon, Aparajita Saraf, Amy Bearman, Babak Damavandi(参考訳) Inertial Measurement Unit(IMU)モーションセンサ記録をビデオやテキストと整合させる新しい事前学習手法であるIMU2CLIPを,Contrastive Language- Image Pre-training(CLIP)の合同表現空間に投影することで提案する。 提案されたアプローチにより、IMU2CLIPは人間の動き(IMUセンサーによって測定される)を対応するテキスト記述やビデオに変換することができる。 動きに基づくメディア検索や自然言語推論タスクなど, imu2clip が実現可能な新しい imu ベースのアプリケーションをいくつか検討する。 さらに、IMU2CLIPは、各アプリケーションごとに微調整された場合(例えば、アクティビティ認識)、ダウンストリーム性能を著しく向上し、新しい事前学習リソースとしてIMU2CLIPの普遍的利用を示す。 私たちのコードは公開されます。

We present IMU2CLIP, a novel pre-training approach to align Inertial Measurement Unit (IMU) motion sensor recordings with video and text, by projecting them into the joint representation space of Contrastive Language-Image Pre-training (CLIP). The proposed approach allows IMU2CLIP to translate human motions (as measured by IMU sensors) into their corresponding textual descriptions and videos -- while preserving the transitivity across these modalities. We explore several new IMU-based applications that IMU2CLIP enables, such as motion-based media retrieval and natural language reasoning tasks with motion data. In addition, we show that IMU2CLIP can significantly improve the downstream performance when fine-tuned for each application (e.g. activity recognition), demonstrating the universal usage of IMU2CLIP as a new pre-trained resource. Our code will be made publicly available.
翻訳日:2022-10-27 12:52:41 公開日:2022-10-26
# 視覚意味解析:画像から抽象的意味表現へ

Visual Semantic Parsing: From Images to Abstract Meaning Representation ( http://arxiv.org/abs/2210.14862v1 )

ライセンス: Link先を確認
Mohamed Ashraf Abdelsalam, Zhan Shi, Federico Fancellu, Kalliopi Basioti, Dhaivat J. Bhatt, vladimir pavlovic and Afsaneh Fazly(参考訳) 視覚的なシーン理解のためのシーングラフの成功は、視覚的な入力(画像など)を構造化された表現に抽象化することで、エンティティ(人とオブジェクト)がエッジによって接続されたノードとなるというメリットに注目されている。 しかし、これらの表現を構築するには、シーングラフやフレームとペアリングした画像の形で、高価な手動アノテーションが必要である。 これらの形式主義は、彼らが捕らえることのできる実体や関係の性質に制限がある。 本稿では,自然言語処理の分野で広く使われている抽象的意味表現(abstract meaning representation, amr)を活用し,これらの欠点を解決することを提案する。 空間的関係を強調するシーングラフと比較すると、視覚的なamrグラフはより言語的にインフォームメントされ、視覚入力から高レベルな意味概念に焦点が当てられる。 さらに、メタAMRグラフを生成し、複数の画像記述に含まれる情報を1つの表現で統一する。 実験と分析により,既存のテキスト・トゥ・AMRパーサを再利用し,画像をAMRに解析できることが実証された。 本研究は,シーン理解の改善に向けた今後の重要な研究方向を示すものである。

The success of scene graphs for visual scene understanding has brought attention to the benefits of abstracting a visual input (e.g., image) into a structured representation, where entities (people and objects) are nodes connected by edges specifying their relations. Building these representations, however, requires expensive manual annotation in the form of images paired with their scene graphs or frames. These formalisms remain limited in the nature of entities and relations they can capture. In this paper, we propose to leverage a widely-used meaning representation in the field of natural language processing, the Abstract Meaning Representation (AMR), to address these shortcomings. Compared to scene graphs, which largely emphasize spatial relationships, our visual AMR graphs are more linguistically informed, with a focus on higher-level semantic concepts extrapolated from visual input. Moreover, they allow us to generate meta-AMR graphs to unify information contained in multiple image descriptions under one representation. Through extensive experimentation and analysis, we demonstrate that we can re-purpose an existing text-to-AMR parser to parse images into AMRs. Our findings point to important future research directions for improved scene understanding.
翻訳日:2022-10-27 12:52:23 公開日:2022-10-26
# バックプロパゲーションを超えたスケーリング法則

Scaling Laws Beyond Backpropagation ( http://arxiv.org/abs/2210.14593v1 )

ライセンス: Link先を確認
Matthew J. Filipovich, Alessandro Cappelli, Daniel Hesslow, Julien Launay(参考訳) バックプロパゲーションの代替手段は、生物学の脳がどのように学習するかをよりよく理解するために長い間研究されてきた。 最近では、ニューラルネットワークをより効率的に訓練する方法として関心を集めている。 バックプロパゲーションに固有の制約(例えば対称フィードフォワードやフィードバックの重み付け、逐次更新)を緩和することで、これらの手法はローカル学習のような有望な予測を可能にする。 しかし、最終的なタスク性能、収束速度、究極的には計算とデータ要求の観点から異なるメソッド間のトレードオフは、ほとんど説明されない。 本研究では、スケーリング法則を用いて、直接フィードバックアライメント~(DFA)を用いて因果デコーダのみのトランスフォーマーを効率的に訓練する。 スケーリングの法則は、モデリング決定が示唆するトレードオフの概要を提供し、それがますます大きなモデルにどのように移行するかを外挿する。 DFAはバックプロパゲーションよりも効率的なスケーリングを提供していないことが分かっています。 我々の発見は、代替訓練法コミュニティにおける以前の信念と一致し、モデリングの決定をより理解するための総合的な経験的アプローチの必要性を強調している。

Alternatives to backpropagation have long been studied to better understand how biological brains may learn. Recently, they have also garnered interest as a way to train neural networks more efficiently. By relaxing constraints inherent to backpropagation (e.g., symmetric feedforward and feedback weights, sequential updates), these methods enable promising prospects, such as local learning. However, the tradeoffs between different methods in terms of final task performance, convergence speed, and ultimately compute and data requirements are rarely outlined. In this work, we use scaling laws to study the ability of Direct Feedback Alignment~(DFA) to train causal decoder-only Transformers efficiently. Scaling laws provide an overview of the tradeoffs implied by a modeling decision, up to extrapolating how it might transfer to increasingly large models. We find that DFA fails to offer more efficient scaling than backpropagation: there is never a regime for which the degradation in loss incurred by using DFA is worth the potential reduction in compute budget. Our finding comes at variance with previous beliefs in the alternative training methods community, and highlights the need for holistic empirical approaches to better understand modeling decisions.
翻訳日:2022-10-27 12:43:47 公開日:2022-10-26
# データフリーネットワーク量子化のための条件付き生成逆ネットワークのゼロショット学習

Zero-Shot Learning of a Conditional Generative Adversarial Network for Data-Free Network Quantization ( http://arxiv.org/abs/2210.14392v1 )

ライセンス: Link先を確認
Yoojin Choi, Mostafa El-Khamy, Jungwon Lee(参考訳) 本稿では,CGAN(ZS-CGAN)のゼロショット学習(ゼロショット学習)と呼ばれる,学習データを用いることなく,条件付き生成対向ネットワーク(CGAN)を訓練する方法を提案する。 条件付きジェネレータのゼロショット学習は、事前訓練された判別(分類)モデルだけで、トレーニングデータを必要としない。 特に、予め訓練されたモデルのバッチ正規化層に格納された統計を用いて、元のトレーニングデータを模倣したラベル付き合成サンプルを作成するように訓練する。 深層ニューラルネットワークのデータ自由量子化におけるZS-CGANの有用性を示す。 ImageNetデータセットでトレーニングしたResNetおよびMobileNet分類モデルの最先端データフリーネットワーク量子化を実現した。 ZS-CGANを用いたデータフリー量子化は、従来のデータ依存量子化よりも精度が低い。

We propose a novel method for training a conditional generative adversarial network (CGAN) without the use of training data, called zero-shot learning of a CGAN (ZS-CGAN). Zero-shot learning of a conditional generator only needs a pre-trained discriminative (classification) model and does not need any training data. In particular, the conditional generator is trained to produce labeled synthetic samples whose characteristics mimic the original training data by using the statistics stored in the batch normalization layers of the pre-trained model. We show the usefulness of ZS-CGAN in data-free quantization of deep neural networks. We achieved the state-of-the-art data-free network quantization of the ResNet and MobileNet classification models trained on the ImageNet dataset. Data-free quantization using ZS-CGAN showed a minimal loss in accuracy compared to that obtained by conventional data-dependent quantization.
翻訳日:2022-10-27 12:43:26 公開日:2022-10-26
# リアルタイム車載LiDAR知覚のための点雲のディープラーニング表現の解析

Analyzing Deep Learning Representations of Point Clouds for Real-Time In-Vehicle LiDAR Perception ( http://arxiv.org/abs/2210.14612v1 )

ライセンス: Link先を確認
Marc Uecker and Tobias Fleck and Marcel Pflugfelder and J. Marius Z\"ollner(参考訳) LiDARセンサーは、車両の周囲の正確な高解像度の3D表現を提供するため、現代の自動運転車の不可欠な部分である。 しかし、複数の高分解能LiDARセンサからのデータ量の増加は計算的に困難である。 フレームレート、ポイントクラウドサイズ、センサー解像度が増加するにつれて、これらのポイントクラウドのリアルタイム処理は、車両環境のこのますます精密な図から意味を抽出する必要がある。 これらのポイントクラウドで動作するディープニューラルネットワークのランタイムパフォーマンスと精度の決定要因の1つは、基盤となるデータ表現とその計算方法である。 本研究では,ニューラルネットワークで使用される計算表現と,その性能特性との関係について検討する。 そこで本研究では,現代の深層ニューラルネットワークにおける3次元クラウド処理に使用されるLiDAR点クラウド表現の新しい計算分類法を提案する。 この分類法を用いて、異なる種類のアプローチを構造化解析する。 これにより,計算効率,メモリ要件,表現能力といった共通する利点と限界を,意味セグメンテーション性能で測定した。 最後に、ニューラルポイントクラウド処理手法の今後の発展に関する洞察とガイダンスを提供する。

LiDAR sensors are an integral part of modern autonomous vehicles as they provide an accurate, high-resolution 3D representation of the vehicle's surroundings. However, it is computationally difficult to make use of the ever-increasing amounts of data from multiple high-resolution LiDAR sensors. As frame-rates, point cloud sizes and sensor resolutions increase, real-time processing of these point clouds must still extract semantics from this increasingly precise picture of the vehicle's environment. One deciding factor of the run-time performance and accuracy of deep neural networks operating on these point clouds is the underlying data representation and the way it is computed. In this work, we examine the relationship between the computational representations used in neural networks and their performance characteristics. To this end, we propose a novel computational taxonomy of LiDAR point cloud representations used in modern deep neural networks for 3D point cloud processing. Using this taxonomy, we perform a structured analysis of different families of approaches. Thereby, we uncover common advantages and limitations in terms of computational efficiency, memory requirements, and representational capacity as measured by semantic segmentation performance. Finally, we provide some insights and guidance for future developments in neural point cloud processing methods.
翻訳日:2022-10-27 12:43:13 公開日:2022-10-26
# 量子深部繰り返し強化学習

Quantum deep recurrent reinforcement learning ( http://arxiv.org/abs/2210.14876v1 )

ライセンス: Link先を確認
Samuel Yen-Chi Chen(参考訳) 量子コンピューティング(QC)と機械学習(ML)の最近の進歩は、量子機械学習(QML)の発展に大きな注目を集めている。 強化学習(Reinforcement Learning, RL)は、複雑なシーケンシャルな意思決定問題を解決するために使用できるMLパラダイムの1つである。 古典的なRLは様々な課題を解くことができる。 しかし、量子世界のRLアルゴリズムはまだ初期段階にある。 まだ解決されていない課題の1つは、部分的に観測可能な環境で量子RLをトレーニングする方法である。 本稿では,量子リカレントニューラルネットワーク(qrnn)を用いたqrlエージェントの構築により,この問題にアプローチする。 具体的には、quantum long short-term memory (qlstm) をqrlエージェントのコアとして選択し、深い$q$-learningでモデル全体をトレーニングします。 我々は,QLSTM-DRQNが従来のDRQNよりも安定で平均スコアの高いCart-Poleのような標準ベンチマークを,類似したアーキテクチャとモデルパラメータの数で解くことができることを示す。

Recent advances in quantum computing (QC) and machine learning (ML) have drawn significant attention to the development of quantum machine learning (QML). Reinforcement learning (RL) is one of the ML paradigms which can be used to solve complex sequential decision making problems. Classical RL has been shown to be capable to solve various challenging tasks. However, RL algorithms in the quantum world are still in their infancy. One of the challenges yet to solve is how to train quantum RL in the partially observable environments. In this paper, we approach this challenge through building QRL agents with quantum recurrent neural networks (QRNN). Specifically, we choose the quantum long short-term memory (QLSTM) to be the core of the QRL agent and train the whole model with deep $Q$-learning. We demonstrate the results via numerical simulations that the QLSTM-DRQN can solve standard benchmark such as Cart-Pole with more stable and higher average scores than classical DRQN with similar architecture and number of model parameters.
翻訳日:2022-10-27 12:42:55 公開日:2022-10-26