このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221107となっている論文です。

PDF登録状況(公開日: 20221107)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子相対エントロピーの積分公式はデータ処理の不等式を意味する

Integral formula for quantum relative entropy implies data processing inequality ( http://arxiv.org/abs/2208.12194v2 )

ライセンス: Link先を確認
P\'eter E. Frenkel(参考訳) Integral representations of quantum relative entropy, and of the directional second and higher order derivatives of von Neumann entropy, are established, and used to give simple proofs of fundamental, known data processing inequalities: the Holevo bound on the quantity of information transmitted by a quantum communication channel, and, much more generally, the monotonicity of quantum relative entropy under trace-preserving positive linear maps -complete positivity of the map need not be assumed. 後者の結果は、ビギの業績に基づいてM\"uller-Hermes and Reebによって初めて証明された。 最後の節では、フォン・ノイマンのエントロピーの共空性や様々な既知の量子ダイバージェンスなど、量子測定下での非拡張性である任意の「ダイバージェンス」を考える。 hiai, ohya, tsukadaによるエレガントな議論は、特定のトレース距離を持つ量子状態の対におけるそのような「ダイバージェンス」のインフィムが、二元古典状態の対の対応するインフィムと同じであることを示すために用いられる。

Integral representations of quantum relative entropy, and of the directional second and higher order derivatives of von Neumann entropy, are established, and used to give simple proofs of fundamental, known data processing inequalities: the Holevo bound on the quantity of information transmitted by a quantum communication channel, and, much more generally, the monotonicity of quantum relative entropy under trace-preserving positive linear maps -- complete positivity of the map need not be assumed. The latter result was first proved by M\"uller-Hermes and Reeb, based on work of Beigi. In the last section, we consider any `divergence' that is non-increasing under quantum measurements, such as the concavity of von Neumann entropy, or various known quantum divergences. An elegant argument due to Hiai, Ohya, and Tsukada is used to show that the infimum of such a `divergence' on pairs of quantum states with prescribed trace distance is the same as the corresponding infimum on pairs of binary classical states.
翻訳日:2023-01-29 21:05:02 公開日:2022-11-07
# qubit-oscillator concatenated codes: decoding formalism and code comparison

Qubit-oscillator concatenated codes: decoding formalism & code comparison ( http://arxiv.org/abs/2209.04573v3 )

ライセンス: Link先を確認
Yijia Xu, Yixu Wang, En-Jui Kuo, and Victor V. Albert(参考訳) ボソニック誤り訂正符号と量子ビット符号を結合することで、元の量子ビット符号の誤り訂正能力を大幅に向上させることができる。 最近発見されたGKP安定化器符号 [arXiv:1903.12615] を含むいくつかのボソニック符号と連結スキームがあり、モードの共役変数のゆらぎから論理ボソニックモードを保護することができるため、どのように最適に結合するかは明らかではない。 本稿では, 量子ビット安定化符号, アナログ・ガウス安定化符号, gkp符号, gkp安定化符号, gkp安定化符号の3つの異なる結合符号の性能を, 効率良く解析する。 我々は、加算ガウス白色雑音に対するデコーダ性能をベンチマークし、解析計算により数値を照合する。 我々は、GKP安定化器符号を含む結合性は、GKP符号との従来の結合性よりも優れていることを観察した。 また、共役変数の変動を抑制し、制御SUMとアダマールゲートのみを用いて初期化できるGKP安定化器符号を提案し、GKP安定化器符号のquditバージョンを定式化する。

Concatenating bosonic error-correcting codes with qubit codes can substantially boost the error-correcting power of the original qubit codes. It is not clear how to concatenate optimally, given there are several bosonic codes and concatenation schemes to choose from, including the recently discovered GKP-stabilizer codes [arXiv:1903.12615] that allow protection of a logical bosonic mode from fluctuations of the mode's conjugate variables. We develop efficient maximum-likelihood decoders for and analyze the performance of three different concatenations of codes taken from the following set: qubit stabilizer codes, analog/Gaussian stabilizer codes, GKP codes, and GKP-stabilizer codes. We benchmark decoder performance against additive Gaussian white noise, corroborating our numerics with analytical calculations. We observe that the concatenation involving GKP-stabilizer codes outperforms the more conventional concatenation of a qubit stabilizer code with a GKP code in some cases. We also propose a GKP-stabilizer code that suppresses fluctuations in both conjugate variables and that can be initialized using only controlled-SUM and Hadamard gates, and formulate qudit versions of GKP-stabilizer codes.
翻訳日:2023-01-27 02:58:14 公開日:2022-11-07
# a family of $\mathbb{z}_n$ toric code におけるトーラスの基底状態縮退

Ground state degeneracy on torus in a family of $\mathbb{Z}_N$ toric code ( http://arxiv.org/abs/2211.00299v2 )

ライセンス: Link先を確認
Haruki Watanabe, Meng Cheng, Yohei Fuji(参考訳) 2+1$次元の位相的に順序付けられた位相は、一般的に3つの相互関連した特徴:分数化された(任意の)励起、位相的絡み合いエントロピー、対称性の保護や自発的対称性の破れを必要としないロバストな基底状態の縮退である。 このような縮退はトポロジカル縮退(topological degeneracy)と呼ばれ、通常、各方向のシステムサイズ$L_1$と$L_2$の選択にかかわらず、周期境界条件の下で見ることができる。 この作業では、北エフのトーリックコードの一連の拡張を$N$レベルスピン(N\geq2$)に導入する。 モデルはモデル内のパラメータによって位相的に順序付けられた位相または対称性で保護された位相を実現する。 位相的に順序付けられた位相の最も顕著な特徴は、モデルの翻訳対称性が未破壊のままであるにもかかわらず、基底状態が$L_1$と$L_2$に依存する場合である。 それでも位相的絡み合いエントロピーは非自明な値を取る。 我々は、この行動は、どの種も翻訳する非自明な行動に由来すると論じる。

Topologically ordered phases in $2+1$ dimensions are generally characterized by three mutually-related features: fractionalized (anyonic) excitations, topological entanglement entropy, and robust ground state degeneracy that does not require symmetry protection or spontaneous symmetry breaking. Such degeneracy is known as topological degeneracy and usually can be seen under the periodic boundary condition regardless of the choice of the system size $L_1$ and $L_2$ in each direction. In this work we introduce a family of extensions of the Kitaev toric code to $N$ level spins ($N\geq2$). The model realizes topologically ordered phases or symmetry-protected topological phases depending on parameters in the model. The most remarkable feature of the topologically ordered phases is that the ground state may be unique, depending on $L_1$ and $L_2$, despite that the translation symmetry of the model remains unbroken. Nonetheless, the topological entanglement entropy takes the nontrivial value. We argue that this behavior originates from the nontrivial action of translations permuting anyon species.
翻訳日:2023-01-20 19:44:59 公開日:2022-11-07
# コヒーレントエラーを伴う普遍的単一量子ゲート分解の普遍性

Universality of universal single-qubit-gate decomposition with coherent errors ( http://arxiv.org/abs/2211.00365v2 )

ライセンス: Link先を確認
Ruixia Wang, Peng Zhao, Haifeng Yu(参考訳) 任意の1ビットと2ビットのゲートを生成するために、普遍的な分解は通常量子コンピューティングで使用され、これらの分解の普遍性は証明されている。 しかし、現実的な実験では、ゲートエラーは普遍分解の普遍性に影響を与える可能性がある。 本稿では,単一キュービットゲート分解スキームに着目し,コヒーレントエラーが普遍性に与える影響について検討する。 私たちが研究したパラメータ空間では、ある種のコヒーレントエラーは元の普遍性には影響しないが、それを破壊するものもあることを証明します。 我々は,コヒーレントな誤りを伴う普遍性の定義と解析解を提供し,この分析に基づいてコヒーレントな誤りによる操作の精度を再開する手法を提案する。 また,多種多様なコヒーレント誤差を伴う分解スキームのレジリエンスを包括的に表現し,普遍性の別の指標となる3種類のフィデリティの解析結果を与える。 我々の研究は、既存の方法とは異なる量子コンパイルの考え方を導入している。

To generate arbitrary one- and two-qubit gates, the universal decompositions are usually used in quantum computing, and the universality of these decompositions has been demonstrated. However, in realistic experiments, gate errors may affect the universality of the universal decompositions. Here, we focus on the single-qubit-gate decomposition scheme and study the coherent-error effects on universality. We prove that, in the parameter space which we studied, some kinds of coherent errors will not affect the original universality, but some others will destroy it. We provide the definition and analytical solutions for universality with coherent errors and propose methods to resume the accuracy of the operations with coherent errors based on our analysis. We also give the analytical results for three kinds of fidelities, which provide another metric for universality and comprehensively depict the resilience of the decomposition scheme with various kinds of coherent errors. Our work introduces a different way of thinking for quantum compilation than existing methods.
翻訳日:2023-01-20 19:35:24 公開日:2022-11-07
# 2次元ingle-valley exciton qubitと光スピン磁化生成

Two-dimensional single-valley exciton qubit and optical spin magnetization generation ( http://arxiv.org/abs/2211.03334v1 )

ライセンス: Link先を確認
Jiawei Ruan, Zhenglu Li, Chin Shen Ong, Steven G. Louie(参考訳) コヒーレント量子状態の作成と操作は二次元(2次元)材料研究において活発に研究されている。 単層遷移金属ジアルコゲナイド(TMD)における2価エクイトン量子ビットの実現に向けた重要な取り組みが、k空間の2つの異なる谷の状態に基づいて行われた。 本稿では, 単一谷における新種の退化励起子状態を利用した2次元材料中の量子ビットの生成手法を提案する。 グループ理論解析と ab initio gw plus bethe-salpeter equation (gw-bse) 計算を組み合わせることで, 分子線エピタキシーを用いて成長した基板担持単分子層ビスマステンの量子状態を示す。 ブリルアンゾーンの2つの異なる谷のそれぞれにおいて、強いスピン軌道結合と$C_{3v}$対称性は、反対のスピン配置を持つ退化1s励起子状態のペアにつながる。 単一の谷における2つの退化励起子の特定のコヒーレントな線形結合は、特定の光偏光によって励起され、励起子量子ビットとそのスピン配置を完全に操作することができる。 特に、ネットスピン磁化を発生させることができる。 我々の発見は、2D素材でキュービットシステムを作成し、操作するための新しいルートを開く。

Creating and manipulating coherent qubit states are actively pursued in two-dimensional (2D) materials research. Significant efforts have been made towards the realization of two-valley exciton qubits in monolayer transition-metal dichalcogenides (TMDs), based on states from their two distinct valleys in k-space. Here, we propose a new scheme to create qubits in 2D materials utilizing a novel kind of degenerate exciton states in a single valley. Combining group theoretic analysis and ab initio GW plus Bethe-Salpeter equation (GW-BSE) calculations, we demonstrate such novel qubit states in substrate-supported monolayer bismuthene -- which has been successfully grown using molecular beam epitaxy. In each of the two distinct valleys in the Brillouin zone, strong spin-orbit coupling along with $C_{3v}$ symmetry leads to a pair of degenerate 1s exciton states with opposite spin configurations. Specific coherent linear combinations of the two degenerate excitons in a single valley can be excited with specific light polarizations, enabling full manipulation of the exciton qubits and their spin configurations. In particular, a net spin magnetization can be generated. Our finding opens new routes to create and manipulate qubit systems in 2D materials.
翻訳日:2023-01-20 02:09:52 公開日:2022-11-07
# 量子メッセージのための2サーバOblivious転送

Two-Server Oblivious Transfer for Quantum Messages ( http://arxiv.org/abs/2211.03308v1 )

ライセンス: Link先を確認
Masahito Hayashi and Seunghoan Song(参考訳) oblivious transferは量子ネットワーク上の量子情報処理のための暗号プリミティブタスクであると考えられている。 2つのサーバで可能だが、既存のプロトコルは古典的なメッセージのみで動作する。 本稿では,量子メッセージのための2サーバオブリビング転送プロトコルを提案する。

Oblivious transfer is considered as a cryptographic primitive task for quantum information processing over quantum network. Although it is possible with two servers, any existing protocol works only with classical messages. We propose two-server oblivious transfer protocols for quantum messages.
翻訳日:2023-01-20 02:09:06 公開日:2022-11-07
# パラメータ化多可観測サム不確かさ関係

Parameterized Multi-observable Sum Uncertainty Relations ( http://arxiv.org/abs/2211.03301v1 )

ライセンス: Link先を確認
Jing-Feng Wu, Qing-Hua Zhang, Shao-Ming Fei(参考訳) 不確実性原理は量子力学の基本的な特徴の1つであり、量子情報理論において重要な役割を果たす。 任意の有限 n$ 量子可観測値の分散に基づく不確かさ関係について検討する。 パラメタライズドノルムの不等式の観点から一連のパラメータ化された不確実性関係を定式化し, 分散に基づく不確実性関係を解消する。 不確かさの不等式の下限は、測定された状態がすべての可観測値の共通の固有ベクトルでない限りゼロではない。 詳細な例は、我々の不確実性関係の厳密さを示すものである。

The uncertainty principle is one of the fundamental features of quantum mechanics and plays an essential role in quantum information theory. We study uncertainty relations based on variance for arbitrary finite $N$ quantum observables. We establish a series of parameterized uncertainty relations in terms of the parameterized norm inequalities, which improve the exiting variance-based uncertainty relations. The lower bounds of our uncertainty inequalities are non-zero unless the measured state is the common eigenvector of all the observables. Detailed examples are provided to illustrate the tightness of our uncertainty relations.
翻訳日:2023-01-20 02:09:02 公開日:2022-11-07
# Masanes-Galley-M\uller と State-Update Postulate

Masanes-Galley-M\"uller and the State-Update Postulate ( http://arxiv.org/abs/2211.03299v1 )

ライセンス: Link先を確認
Blake C. Stacey(参考訳) Masanes、Galley、M\"ullerは、測定結果に基づいて量子状態更新のユニークな規則を導出したと主張している。 より綿密な検証を行うと、その証明は暗黙的に最初のステップ、すなわち状態更新規則が線形であることを仮定する。

Masanes, Galley and M\"uller claim to have derived a unique rule for quantum state update consequent upon a measurement outcome. Upon closer examination, their proof implicitly assumes its first step, namely that the state-update rule is linear.
翻訳日:2023-01-20 02:08:52 公開日:2022-11-07
# 重み付きグラフ上のUnion-Find Decoderの解釈

An interpretation of Union-Find Decoder on Weighted Graphs ( http://arxiv.org/abs/2211.03288v1 )

ライセンス: Link先を確認
Yue Wu, Namitha Liyanage, Lin Zhong(参考訳) Union-Find (UF) と Minimum-Weight Perfect Matching (MWPM) は、表面符号のデコーダとして人気がある。 前者は後者よりも時間複雑さが著しく低いが、復号精度では若干劣っていると考えられている。 本稿では,UFデコーダとMWPMデコーダが密接に機能する理由を説明するUFデコーダの解釈について述べる。 この解釈は、重み付きデコードグラフに対するUFデコーダの一般化を可能にし、UFデコーダが特定の曲面符号に対して高い精度を達成する理由を説明する。

Union-Find (UF) and Minimum-Weight Perfect Matching (MWPM) are popular decoder designs for surface codes. The former has significantly lower time complexity than the latter but is considered somewhat inferior, in terms of decoding accuracy. In this work we present an interpretation of UF decoders that explains why UF and MWPM decoders perform closely in some cases: the UF decoder is an approximate implementation of the blossom algorithm used for MWPM. This interpretation allows a generalization of UF decoders for weighted decoding graphs and explains why UF decoders achieve high accuracy for certain surface codes.
翻訳日:2023-01-20 02:08:46 公開日:2022-11-07
# N$-partite量子状態の$(k+1)$-partiteエンタングルメント測度

A $(k+1)$-partite entanglement measure of $N$-partite quantum states ( http://arxiv.org/abs/2211.03266v1 )

ライセンス: Link先を確認
Yan Hong, Xianfei Qi, Ting Gao, Fengli Yan(参考訳) 密度行列の置換不変部分の‘textquotedblright’という概念は、マルチキュービットシステムの絡み合いを特徴づけるための重要なツールとなっている。 本稿ではまず, 絡み合いの望ましい性質を持つ$(k+1)$-partite entanglement measure of $N$-partite quantum systemを提案する。 さらに、多部状態の置換不変部分を考慮することにより、この測度に強い境界を与える。 効率的な測定可能な次数(k+1)$-partite の2つの定義を与える。 最後に,結果の有効性を示す具体例をいくつか挙げる。

The concept of \textquotedblleft the permutationally invariant part of a density matrx\textquotedblright constitutes an important tool for entanglement characterization of multiqubit systems. In this paper, we first present $(k+1)$-partite entanglement measure of $N$-partite quantum system, which possesses desirable properties of an entanglement measure. Moreover, we give strong bounds on this measure by considering the permutationally invariant part of a multipartite state. We give two definitions of efficient measurable degree of $(k+1)$-partite entanglement. Finally, several concrete examples are given to illustrate the effectiveness of our results.
翻訳日:2023-01-20 02:08:35 公開日:2022-11-07
# 位置ウルトラ感応性巨大ラムシフトに基づくアングストローム高精度光局在と偏光顕微鏡

Optical localization and polarization microscopy with angstrom precision based on position-ultra-sensitive giant Lamb shift ( http://arxiv.org/abs/2211.03247v1 )

ライセンス: Link先を確認
Zeyang Liao, Yuwei Lu, and Xue-Hua Wang(参考訳) ラムシフトに基づくエミッタ(原子/分子/量子ドット)のサブナノメータ精度を持つ光局在・偏光顕微鏡スキームを提案する。 自由空間における3桁以上の大きさを持つ位置ウルトラ感応型巨大ラムシフトは、金属ナノ粒子の高次プラズモニックダークモードによって誘導されることが明らかとなった。 より重要なことに、この巨大ラムシフトは、サブナノメータステップでエミッタを走査することでナノ粒子の光学散乱スペクトルから超感度に観察することができ、ラムシフト像の向きを利用して、エミッタの双極子偏光を識別することができる。 これらはアングストローム精度と偏光同定を備えた光学スペクトル顕微鏡技術を可能にし、物理学、化学、医学、生命科学、材料科学など多くの分野に広く応用される。

We propose an optical localization and polarization microscopy scheme with sub-nanometer precision for an emitter (atom/molecule/quantum dot) based on its Lamb shift. It is revealed that the position-ultra-sensitive giant Lamb shift with three or more orders of magnitude larger than that in the free space, can be induced by higher-order plasmonic dark modes of a metal nanoparticle. More importantly, this giant Lamb shift can be ultra-sensitively observed from the optical scattering spectrum of the nanoparticle via scanning an emitter by a sub-nanometer step, and the orientation of the Lamb shift image can be utilized to identify the dipole polarization of the emitter. They enable the optical spectrum microscope technology with angstrom precision and polarization identification, which will bring about broad applications in many fields, such as physics, chemistry, medicine, life science and materials science.
翻訳日:2023-01-20 02:08:25 公開日:2022-11-07
# 実験的チート感応量子弱いコインフリップ

Experimental cheat-sensitive quantum weak coin flipping ( http://arxiv.org/abs/2211.03472v1 )

ライセンス: Link先を確認
Simon Neves, Verena Yacoub, Ulysse Chabaud, Mathieu Bozzio, Iordanis Kerenidis, Eleni Diamanti(参考訳) 現代の通信ネットワークと同様に、量子ネットワークのセキュリティは、いくつかの基本的なプリミティブに基づいた複雑な暗号処理に依存する。 WCF(Wak coin flipping)は、2つの不信な当事者が反対の結果を好む間にランダムなビットに合意できる重要なプリミティブである。 興味深いことに、完全情報理論のセキュリティは量子WCFの原理で達成できる。 ここでは,このプリミティブの実験的な実証を妨げた概念的かつ実践的な問題を克服し,量子リソースがいかにチート感性をもたらすかを実証し,各当事者が不正な相手を検知し,正直な当事者が決して認められないことを示す。 このような性質は、古典的に情報理論のセキュリティで達成できることは知られていない。 実験では,最近提案された理論プロトコルの高精細・耐損失バージョンを実装し,自発パラメトリックダウン変換によって生じる有界単一光子,可変反射率のビームスプリッタを含む線形干渉計,検証ステップ用の高速光スイッチを慎重に最適化した。 通信用光ファイバ数kmに対応する減衰のために,プロトコルベンチマークの高値が維持されている。

As in modern communication networks, the security of quantum networks will rely on complex cryptographic tasks that are based on a handful of fundamental primitives. Weak coin flipping (WCF) is a significant such primitive which allows two mistrustful parties to agree on a random bit while they favor opposite outcomes. Remarkably, perfect information-theoretic security can be achieved in principle for quantum WCF. Here, we overcome conceptual and practical issues that have prevented the experimental demonstration of this primitive to date, and demonstrate how quantum resources can provide cheat sensitivity, whereby each party can detect a cheating opponent, and an honest party is never sanctioned. Such a property is not known to be classically achievable with information-theoretic security. Our experiment implements a refined, loss-tolerant version of a recently proposed theoretical protocol and exploits heralded single photons generated by spontaneous parametric down conversion, a carefully optimized linear optical interferometer including beam splitters with variable reflectivities and a fast optical switch for the verification step. High values of our protocol benchmarks are maintained for attenuation corresponding to several kilometers of telecom optical fiber.
翻訳日:2023-01-20 02:03:22 公開日:2022-11-07
# ファインマン経路を生成するフーリエフローモデル

Fourier-Flow model generating Feynman paths ( http://arxiv.org/abs/2211.03470v1 )

ライセンス: Link先を確認
Shile Chen, Oleh Savchuk, Shiqi Zheng, Baoyi Chen, Horst Stoecker, Lingxiao Wang and Kai Zhou(参考訳) 量子物理学の代替として、ファインマン経路積分は古典的作用原理を確率論的視点に一般化し、物理観測可能性の推定はすべての可能な経路の重み付き和へと変換される。 根本的な難しさは、ファインマン伝達子ディクテッド確率分布を効果的に表現できる有限サンプルから経路多様体全体に取り組むことである。 機械学習における現代の生成モデルは、高い計算効率で学習と確率分布を表現できる。 本研究では,Fynmanプロパゲータをシミュレートし,量子系の経路を生成するフーリエフロー生成モデルを提案する。 実演として、高調波及び無調波発振器の経路発生器を検証する。 後者は解析解を持たない二重井戸系である。 システムの周期的状態を維持するため、フローモデルにフーリエ変換を導入し、松原表現にアプローチする。 この新たな展開により、基底状態波動関数と低エネルギー準位を正確に推定する。 本手法は、ファインマン経路積分解法を用いて量子システムを調べるための新しい方法を提供する。

As an alternative but unified and more fundamental description for quantum physics, Feynman path integrals generalize the classical action principle to a probabilistic perspective, under which the physical observables' estimation translates into a weighted sum over all possible paths. The underlying difficulty is to tackle the whole path manifold from finite samples that can effectively represent the Feynman propagator dictated probability distribution. Modern generative models in machine learning can handle learning and representing probability distribution with high computational efficiency. In this study, we propose a Fourier-flow generative model to simulate the Feynman propagator and generate paths for quantum systems. As demonstration, we validate the path generator on the harmonic and anharmonic oscillators. The latter is a double-well system without analytic solutions. To preserve the periodic condition for the system, the Fourier transformation is introduced into the flow model to approach a Matsubara representation. With this novel development, the ground-state wave function and low-lying energy levels are estimated accurately. Our method offers a new avenue to investigate quantum systems with machine learning assisted Feynman Path integral solving.
翻訳日:2023-01-20 02:03:03 公開日:2022-11-07
# 量子強化学習に関する調査研究

A Survey on Quantum Reinforcement Learning ( http://arxiv.org/abs/2211.03464v1 )

ライセンス: Link先を確認
Nico Meyer, Christian Ufrecht, Maniraman Periyasamy, Daniel D. Scherer, Axel Plinge, and Christopher Mutschler(参考訳) 量子強化学習は、量子コンピューティングと機械学習の交差する分野である。 量子強化学習に関する文献の概観(この用語の我々の解釈は後述する)を広く提示するが、近年の発展に特に重点を置いている。 既に利用可能なノイズの多い中間スケール量子デバイスに焦点を合わせ、古典的な強化学習環境で関数近似器として働く変分量子回路を含む。 さらに、将来のフォールトトレラントハードウェアに基づく量子強化学習アルゴリズムを調査し、その一部は証明可能な量子優位性を持つ。 本稿は,本分野の鳥眼ビューと,選択された文献の要約とレビューを提供する。

Quantum reinforcement learning is an emerging field at the intersection of quantum computing and machine learning. While we intend to provide a broad overview of the literature on quantum reinforcement learning (our interpretation of this term will be clarified below), we put particular emphasis on recent developments. With a focus on already available noisy intermediate-scale quantum devices, these include variational quantum circuits acting as function approximators in an otherwise classical reinforcement learning setting. In addition, we survey quantum reinforcement learning algorithms based on future fault-tolerant hardware, some of which come with a provable quantum advantage. We provide both a birds-eye-view of the field, as well as summaries and reviews for selected parts of the literature.
翻訳日:2023-01-20 02:02:44 公開日:2022-11-07
# 光子数エンコードされた測定デバイス非依存量子鍵分布プロトコルによるリピータレスバウンダリング

Surpassing the repeaterless bound with a photon-number encoded measurement-device-independent quantum key distribution protocol ( http://arxiv.org/abs/2211.03445v1 )

ライセンス: Link先を確認
Ozlem Erkilic, Lorcan Conlon, Biveen Shajilal, Sebastian Kish, Spyros Tserkis, Yong-Su Kim, Ping Koy Lam, and Syed M. Assad(参考訳) デコヒーレンスは、広範囲にわたる量子鍵分布(QKD)に有害である。 提案手法の1つは、ユーザ間の全距離を小さなセグメントに分割し、チャネルの損失の影響を最小限に抑える量子リピータを使用することである。 しかし、リピータプロトコルが達成できる秘密鍵レートは、近隣ノード間の分離によって根本的に制限される。 本稿では,2つの遠方の信頼者による高次元状態とコヒーレント全光子数検出を用いた計測デバイス非依存プロトコルを提案する。 本稿では,要求される状態が長距離で単光子レベルに低下するため,現在の技術で実装可能な実験的に実現可能なプロトコルを提案する。 本プロトコルは、純損失チャネルに対するリピータレスバウンドの基本限界を短い距離で越え、実験不完全性を考慮した場合の送信距離を総じて高くすることで、既存の測定デバイス非依存およびツインフィールドQKDプロトコルより優れる。

Decoherence is detrimental to quantum key distribution (QKD) over large distances. One of the proposed solutions is to use quantum repeaters, which divide the total distance between the users into smaller segments to minimise the effects of the losses in the channel. However, the secret key rates that repeater protocols can achieve are fundamentally bounded by the separation between each neighbouring node. Here we introduce a measurement-device-independent protocol which uses high-dimensional states prepared by two distant trusted parties and a coherent total photon number detection for the entanglement swapping measurement at the repeater station. We present an experimentally feasible protocol that can be implemented with current technology as the required states reduce down to the single-photon level over large distances. This protocol outperforms the existing measurement-device-independent and twin-field QKD protocols by surpassing the fundamental limit of the repeaterless bound for the pure-loss channel at a shorter distance and achieves a higher transmission distance in total when experimental imperfections are considered.
翻訳日:2023-01-20 02:02:33 公開日:2022-11-07
# 相互作用強化量子熱エンジン

Interaction enhanced quantum heat engine ( http://arxiv.org/abs/2211.03394v1 )

ライセンス: Link先を確認
Mohamed Boubakour, Thom\'as Fogarty, Thomas Busch(参考訳) そこで, 量子オットー熱エンジンについて検討し, 作動媒質はハーモニックトラップ内の相互作用する少数体系からなる。 これにより、相互作用強度をワークストローク中に追加の調整可能なパラメータとして考えることができる。 このエンジンの長所の数値を温度の関数として計算し,その相互作用がエンジンの性能を補助するパラメータレジームを明確に示す。 また,有限時間ダイナミクスと,それに続く効率と電力のトレードオフについても検討し,相互作用強化サイクルと,システムがスケール不変のままである場合との比較を行った。

We study a minimal quantum Otto heat engine, where the working medium consists of an interacting few-body system in a harmonic trap. This allows us to consider the interaction strength as an additional tunable parameter during the work strokes. We calculate the figures of merit of this engine as a function of the temperature and show clearly in which parameter regimes the interactions assist in engine performance. We also study the finite time dynamics and the subsequent trade-off between the efficiency and the power, comparing the interaction enhanced cycle with the case where the system remains scale-invariant.
翻訳日:2023-01-20 02:01:37 公開日:2022-11-07
# 量子光学におけるビームスプリッターの理論:光子の量子絡み合いとその統計、hom効果

Theory for the beam splitter in quantum optics: quantum entanglement of photons and their statistics, HOM effect ( http://arxiv.org/abs/2211.03359v1 )

ライセンス: Link先を確認
D.N. Makarov(参考訳) 量子光学におけるビームスプリッター(bs)の理論は、非常に単純な数学的、物理的基礎に基づいている。 この理論は任意の種類の bs に対して開発され、反射係数 $r$(または、伝達係数、ただし $r+t=1$)と位相シフト $\phi$ の定数に基づいている。 最近、これらの係数の濃度は常に導波路BSに対して満たされないことが示され、そこでは$R$と$\phi$は光子周波数に特別な方法で依存する。 これに基づいて、このレビューは量子光学におけるBSの概念を ‘Conventional'' と周波数依存BSに体系化し、そのようなBSの理論を提示する。 このようなBSに対する量子絡み合い、出力ポートでの光子統計、Hong-Ou-Mandel(HOM)効果は、非常に異なる可能性がある。 導波路BSは現在、その小型化の可能性から量子技術において重要な役割を担っているという事実を考慮すると、このレビューは理論家だけでなく実験者にとっても有用である。

The theory of the beam splitter (BS) in quantum optics is well developed and based on fairly simple mathematical and physical foundations. This theory has been developed for any type of BS and is based on the constancy of the reflection coefficients $R$ (or the transmission coefficient, where $R+T=1$) and the phase shift $\phi$. It has recently been shown that the constancy of these coefficients cannot always be satisfied for a waveguide BS, where $R$ and $\phi$ depend in a special way on photon frequencies. Based on this, this review systematizes the concept of BS in quantum optics into ``Conventional'' and frequency-dependent BS, and also presents the theory of such BS. It is shown that the quantum entanglement, photon statistics at the output ports, and the Hong-Ou-Mandel (HOM) effect for such BS can be very different. Taking into account the fact that the waveguide BS is currently acquiring an important role in quantum technologies due to the possibility of its miniaturization, this review will be useful not only for theoreticians, but also for experimenters.
翻訳日:2023-01-20 02:01:27 公開日:2022-11-07
# 軌道最適化変分量子固有解法のための2次エネルギー誘導体の解析的定式化:偏光性への応用

Analytical formulation of the second-order derivative of energy for orbital-optimized variational quantum eigensolver: application to polarizability ( http://arxiv.org/abs/2211.03343v1 )

ライセンス: Link先を確認
Yuya O. Nakagawa, Jiabao Chen, Shotaro Sudo, Yu-ya Ohnishi, and Wataru Mizukami(参考訳) 本研究では,軌道最適化型変分量子固有解器(OO-VQE)のエネルギーの2次微分を解析的に算出する量子古典ハイブリッドアルゴリズムを開発した。 アルゴリズムが微分を計算するのに必要な全ての量は、量子コンピュータ上で、量子ビットを使わずに標準量子期待値として評価できることを示した。 電場に対するエネルギーの2階微分である水分子の偏光性を計算するための量子回路の数値シミュレーションにより,我々の式を検証した。 さらに, チオフェンおよびフラン分子の偏極性と屈折率を, 工業応用可能な試験台として算出した。 解析微分法により得られた推定偏光度と有限差分法により得られた数値との誤差スケーリングを最終的に解析する。 数値計算により,量子コンピュータにおける解析微分は,同一の精度を達成するために,数値微分よりも少ない測定(実行)を必要とする可能性が示唆された。

We develop a quantum-classical hybrid algorithm to calculate the analytical second-order derivative of the energy for the orbital-optimized variational quantum eigensolver (OO-VQE), which is a method to calculate eigenenergies of a given molecular Hamiltonian by utilizing near-term quantum computers and classical computers. We show that all quantities required in the algorithm to calculate the derivative can be evaluated on quantum computers as standard quantum expectation values without using any ancillary qubits. We validate our formula by numerical simulations of quantum circuits for computing the polarizability of the water molecule, which is the second-order derivative of the energy with respect to the electric field. Moreover, the polarizabilities and refractive indices of thiophene and furan molecules are calculated as a testbed for possible industrial applications. We finally analyze the error-scaling of the estimated polarizabilities obtained by the proposed analytical derivative versus the numerical one obtained by the finite difference. Numerical calculations suggest that our analytical derivative may require fewer measurements (runs) on quantum computers than the numerical derivative to achieve the same fixed accuracy.
翻訳日:2023-01-20 02:01:05 公開日:2022-11-07
# デチューン2次系における解析解

An Analytical Solution in Detuned Two Level Systems ( http://arxiv.org/abs/2211.03342v1 )

ライセンス: Link先を確認
Zhi-Cheng He, Yi-Xuan Wu and Zheng-Yuan Xue(参考訳) 2レベルハミルトニアンの進化を見つけることは、量子実験制御の必要性から、量子計算と量子精度操作において非常に重要である。 しかし、任意の時間依存2レベルハミルトニアンのシュル=オディンガー方程式は、異なる時間における非可換ハミルトニアンのため、ほとんど解けない。 本稿では、いくつかの制限のある一般二段階系に対するシュリンガー方程式の厳密な解を拡張して実演する。 この解析解には多くの操作パラメータといくつかの境界制限があり、多くのアプリケーションを駆動することができる。 さらに,提案手法を広く活用した適応能力を示し,実験ハミルトニアンのほとんどに適応させる。

Finding the evolution of two level Hamiltonian is of great importance in quantum computation and quantum precision manipulation due to the requirement of quantum experiment control. However, the Schr\"odinger equation of an arbitrary time-dependent two level Hamiltonian is hardly solvable due to its non-commutativity Hamiltonian in different times. In this article, we expand and demonstrate an exact solution of Schr\"odinger equation respect to general two level systems with a few limitations. This analytical solution has lots of manipulative parameters and a few boundary restrictions, which could drive many applications. Furthermore, we show the adaptive capacity of our scheme, which demonstrated the widely use of our scheme, and make it suitable for most of experiment Hamiltonian directly.
翻訳日:2023-01-20 02:00:48 公開日:2022-11-07
# 2粒子位相トレススピンポンプ

Two-particle topological Thouless spin pump ( http://arxiv.org/abs/2211.03338v1 )

ライセンス: Link先を確認
J. Mumford(参考訳) スピン交換により相互作用する2つの粒子は1次元単一粒子格子モデルで見られる位相的特徴を示す。 これは格子の空間自由度を2つの粒子の自由度に吸収することによって達成される。 スピン系とSu-Schrieffer-Heegerモデルを比較すると、位相的に保護されたエッジスピン状態の存在を示し、バルクエッジ対応を確立する。 スピン系をキラル対称性の破断項で修飾すると、米-メレモデルに類似し、周期的かつ断続的に駆動される場合、粒子の1つのthoulessスピンポンプとして作用する。 スピン状態を合成空間次元として用いることで、2つの粒子が凝縮物物理学においてよく知られた位相的性質をシミュレートするのに十分なことを示した。

We show that two particles interacting via spin exchange exhibit topological features found in one-dimensional single particle lattice models. This is accomplished by absorbing all of the spatial degrees of freedom of the lattices into the spin degrees of freedom of the two particles. Comparing the spin system with the Su-Schrieffer-Heeger model, we show the existence of topologically protected edge spin states and establish the bulk-edge correspondence. Modifying the spin system with a chiral symmetry breaking term results in it resembling the Rice-Mele model and can therefore act as a Thouless spin pump of one of the particles when periodically and adiabatically driven. By using the spin states as a synthetic spatial dimension, we show two particles are enough to simulate well known topological properties in condensed matter physics.
翻訳日:2023-01-20 02:00:38 公開日:2022-11-07
# 超高速光駆動ワイル反強磁性Mn$_3$Snの例として

Quantum-classical approach to spin and charge pumping and the ensuing radiation in THz spintronics with example of ultrafast-light-driven Weyl antiferromagnet Mn$_3$Sn ( http://arxiv.org/abs/2211.03645v1 )

ライセンス: Link先を確認
Abhin Suresh, Branislav K. Nikolic(参考訳) fs光パルスと磁気材料との相互作用は、単一磁性層における超高速脱磁や2層からのthz放出を非磁性スピン軌道(so)材料と理解するために、20年以上にわたって激しく研究されてきた。 Here we develop a multiscale quantum-classical formalism -- where conduction electrons are described by quantum master equation of the Lindblad type; classical dynamics of local magnetization is described by the Landau-Lifshitz-Gilbert (LLG) equation; and incoming light is described by classical vector potential while outgoing electromagnetic radiation is computed using Jefimenko equations for retarded electric and magnetic fields -- and apply it a bilayer of antiferromagnetic Weyl semimetal Mn$_3$Sn with noncollinear local magnetization in contact with SO-coupled nonmagnetic material. 我々のQME+LLG+Jefimenko方式は、fs光パルスが直接スピンと電荷ポンプと電磁放射を後者によってどのように生成するかを理解することができる。 直接励起されたスピン電流は局所磁化にスピントルクを作用させ、そのダイナミクスはTHz範囲で放射される追加のスピンと電荷電流を励起する。 llgダイナミックスおよびsoカップリングをオン・オフすることで、その内部にmn$_3$snの局所磁化によるチャージポンプ機構が、隣り合う非磁性のsoカップリング材料におけるスピンポンプおよびその後のスピン・ツー・チャージ変換よりも極めて重要であることを解明する。

The interaction of fs light pulses with magnetic materials has been intensely studied for more than two decades in order to understand ultrafast demagnetization in single magnetic layers or THz emission from their bilayers with nonmagnetic spin-orbit (SO) materials. Here we develop a multiscale quantum-classical formalism -- where conduction electrons are described by quantum master equation of the Lindblad type; classical dynamics of local magnetization is described by the Landau-Lifshitz-Gilbert (LLG) equation; and incoming light is described by classical vector potential while outgoing electromagnetic radiation is computed using Jefimenko equations for retarded electric and magnetic fields -- and apply it a bilayer of antiferromagnetic Weyl semimetal Mn$_3$Sn with noncollinear local magnetization in contact with SO-coupled nonmagnetic material. Our QME+LLG+Jefimenko scheme makes it possible to understand how fs light pulse generates directly spin and charge pumping and electromagnetic radiation by the latter, including both odd and even high harmonics (of the pulse center frequency) up to order $n \le 7$. The directly pumped spin current then exert spin torque on local magnetization whose dynamics, in turn, pumps additional spin and charge currents radiating in the THz range. By switching on and off LLG dynamics and SO couplings, we unravel which microscopic mechanism contribute the most to emitted THz radiation -- charge pumping by local magnetization of Mn$_3$Sn in the presence of its intrinsic SO coupling is far more important than standardly assumed (for other types of magnetic layers) spin pumping and subsequent spin-to-charge conversion within the neighboring nonmagnetic SO-coupled material.
翻訳日:2023-01-20 01:54:39 公開日:2022-11-07
# 量子測定の固有ランダム性の定量化

Quantifying the intrinsic randomness of quantum measurements ( http://arxiv.org/abs/2211.03581v1 )

ライセンス: Link先を確認
Gabriel Senno, Thomas Strohm, Antonio Ac\'in(参考訳) 本質的な量子ランダム性は、与えられた基底上の射影的測定が基底の元でない純粋な状態上で実行されたときに生成される。 得られた状態と実装された測定は完全に知られているが、測定結果は決定論的に予測することはできない。 しかし現実的な状況では、測定と状態準備は常にうるさいので、量子論の本質的なランダム性の結果ではない出力に確率性の成分を導入する。 運用面では、この確率性は、実験で得られた結果について最善の推測を行うことを目標とする、盗聴者eveとの古典的あるいは量子的相関によってモデル化される。 本研究では,イヴの最大推定確率を,状態と測定値の両方と相関させることを許された場合に検討する。 一般化された測度と混合状態の設定において、射影的測度(既に知られているように)や純粋な状態(証明されているように)とは異なり、イヴの推測確率は古典的あるいは量子的に相関した戦略を準備できるかどうかによって異なる。

Intrinsic quantum randomness is produced when a projective measurement on a given basis is implemented on a pure state that is not an element of the basis. The prepared state and implemented measurement are perfectly known, yet the measured result cannot be deterministically predicted. In realistic situations, however, measurements and state preparation are always noisy, which introduces a component of stochasticity in the outputs that is not a consequence of the intrinsic randomness of quantum theory. Operationally, this stochasticity is modelled through classical or quantum correlations with an eavesdropper, Eve, whose goal is to make the best guess about the outcomes produced in the experiment. In this work, we study Eve's maximum guessing probability when she is allowed to have correlations with, both, the state and the measurement. We show that, unlike the case of projective measurements (as it was already known) or pure states (as we prove), in the setting of generalized measurements and mixed states, Eve's guessing probability differs depending on whether she can prepare classically or quantumly correlated strategies.
翻訳日:2023-01-20 01:52:27 公開日:2022-11-07
# オープン量子系における演算子サイズ成長の動的遷移

Dynamical Transition of Operator Size Growth in Open Quantum Systems ( http://arxiv.org/abs/2211.03535v1 )

ライセンス: Link先を確認
Pengfei Zhang and Zhenhua Yu(参考訳) 非自明なシステム演算子の数を数えることで演算子のサイズが定義される全対全相互作用を持つオープン量子系における演算子サイズの成長について検討する。 システムバス結合 $\gamma$ がその臨界値 $\gamma_c$ にチューニングされたとき、演算子サイズダイナミクスの遷移が存在するという一般的な議論を提供する。 さらに、可解ブラウンSYKモデルにおける演算子サイズ分布の解析的計算による遷移を実証する。 結果はこう示しています (i)$\gamma>\gamma_c$の場合、システムオペレータのサイズが$\sim (\gamma-\gamma_c)$で崩壊する散逸相にあり、システムの初期情報が最終的に入浴することを示している。 (ii)$\gamma<\gamma_c$の場合、システムはスクランブルフェーズを保ち、平均作用素のサイズはスクランブル時間$t_s\sim (\gamma_c-\gamma)^{-1}\log N$まで指数関数的に増加し、長時間の極限で$O(N)$値に飽和する。 (iii) 2つの位相を分離する臨界点 $\gamma=\gamma_c$ において、有限サイズの作用素サイズ分布は時間とともにパワーロー減衰を示す。

We study the operator size growth in open quantum systems with all-to-all interactions, in which the operator size is defined by counting the number of non-trivial system operators. We provide a general argument for the existence of a transition of the operator size dynamics when the system-bath coupling $\gamma$ is tuned to its critical value $\gamma_c$. We further demonstrate the transition through the analytical calculation of the operator size distribution in a solvable Brownian SYK model. Our results show that: (i) For $\gamma>\gamma_c$, the system is in a dissipative phase where the system operator size decays with a rate $\sim (\gamma-\gamma_c)$, which indicates the initial information of the system all dives into the bath eventually. (ii) For $\gamma<\gamma_c$, the system sustains a scrambling phase, where the average operator size grows exponentially up to the scrambling time $t_s\sim (\gamma_c-\gamma)^{-1}\log N$ and saturates to a $O(N)$ value in the long-time limit. (iii) At the critical point $\gamma=\gamma_c$, which separates the two phases, the operator size distribution at finite size shows a power-law decay over time.
翻訳日:2023-01-20 01:51:53 公開日:2022-11-07
# AD-BERT-事前学習による軽度認知障害からアルツハイマー病への進展予測

AD-BERT: Using Pre-trained contextualized embeddings to Predict the Progression from Mild Cognitive Impairment to Alzheimer's Disease ( http://arxiv.org/abs/2212.06042v1 )

ライセンス: Link先を確認
Chengsheng Mao, Jie Xu, Luke Rasmussen, Yikuan Li, Prakash Adekkanattu, Jennifer Pacheco, Borna Bonakdarpour, Robert Vassar, Guoqian Jiang, Fei Wang, Jyotishman Pathak, Yuan Luo(参考訳) 目的:電子健康記録(ehrs)の非構造化臨床記録を用いたトランスフォーマ(bert)モデルから事前学習した双方向エンコーダ表現に基づくディープラーニングフレームワークを開発し,軽度認知障害(mci)からアルツハイマー病(ad)への疾患進行リスクを予測する。 資料と方法:2000年から2020年の間,ノースウェスタン・メディカル・エンタープライズ・データウェアハウス(NMEDW)の経過ノートとともに,MCIと診断された3657例を同定した。 プログレスノートは、最初のmci診断が予測に使用されたのは、後日になってからであった。 筆者らはまず, 文書の同定, クリーニング, 分割を行い, その上で, 一般に公開されているBio+Clinical BERTに基づいて, AD(AD-BERT)のBERTモデルを事前訓練した。 AD-BERTにより処理された患者のメモのすべての部分の埋め込みをMaxPoolingと組み合わせて、MCI-AD進行の確率を計算した。 同時期にWeill Cornell Medicine (WCM) で診断された2563人のMCI患者を対象に, 同様の実験を行った。 結果:AD-BERTモデルと7つのベースラインモデルを比較し,エリアアンダーの動作特性であるCurve(AUC)は0.8170,F1はNMEDWデータセットで0.4178,AUCは0.8830,F1は0.6836であった。 結論: BERTモデルを用いた深層学習フレームワークを開発し, 臨床ノート分析によるMCI-AD進行予測に有効なソリューションを提供する。

Objective: We develop a deep learning framework based on the pre-trained Bidirectional Encoder Representations from Transformers (BERT) model using unstructured clinical notes from electronic health records (EHRs) to predict the risk of disease progression from Mild Cognitive Impairment (MCI) to Alzheimer's Disease (AD). Materials and Methods: We identified 3657 patients diagnosed with MCI together with their progress notes from Northwestern Medicine Enterprise Data Warehouse (NMEDW) between 2000-2020. The progress notes no later than the first MCI diagnosis were used for the prediction. We first preprocessed the notes by deidentification, cleaning and splitting, and then pretrained a BERT model for AD (AD-BERT) based on the publicly available Bio+Clinical BERT on the preprocessed notes. The embeddings of all the sections of a patient's notes processed by AD-BERT were combined by MaxPooling to compute the probability of MCI-to-AD progression. For replication, we conducted a similar set of experiments on 2563 MCI patients identified at Weill Cornell Medicine (WCM) during the same timeframe. Results: Compared with the 7 baseline models, the AD-BERT model achieved the best performance on both datasets, with Area Under receiver operating characteristic Curve (AUC) of 0.8170 and F1 score of 0.4178 on NMEDW dataset and AUC of 0.8830 and F1 score of 0.6836 on WCM dataset. Conclusion: We developed a deep learning framework using BERT models which provide an effective solution for prediction of MCI-to-AD progression using clinical note analysis.
翻訳日:2023-01-20 01:45:46 公開日:2022-11-07
# SU(N)リー群の相空間における非断熱環高分子分子動力学

Non-adiabatic Ring Polymer Molecular Dynamics in the Phase Space of the SU(N) Lie Group ( http://arxiv.org/abs/2211.04330v1 )

ライセンス: Link先を確認
Duncan Bossion, Sutirtha N. Chowdhury, and Pengfei Huo(参考訳) 我々はSU(N)リー群の相空間における非断熱環高分子分子動力学(RPMD)アプローチを導出した。 この手法はスピンマッピング非断熱RPMD(SM-NRPMD)と呼ばれ、電子自由度(DOF)のスピンマッピング形式と核DOFのリングポリマーパス積分記述に基づいている。 電子ドフに対するストラトノヴィチ・ワイル変換と核ドフに対するウィグナー変換を用いて、kubo-transformed time-correlation function (tcf) の正確な表現を導出した。 さらに,tcfの高周波核正常モードを除去し,リウビリアンの虚部を捨てて非断熱松原力学からsm-nrpmdアプローチを導出する松原近似を用いて,スピンマッピング非断熱松原力学を導出する。 SM-NRPMD法は、元の系の対称性を保存する SU(N) Lie Group を用いたより自然な写像により、MMST写像形式に基づく元の NRPMD 法と比較して、数値的な利点がある。 3状態モデルシステムにおけるKubo変換位置自動相関関数と電子集団相関関数を数値計算する。 数値計算の結果,SM-NRPMD法の精度はMMSTベースのNRPMDよりも優れていた。 SM-NRPMD法は電子非断熱力学と核量子効果を正確にシミュレートする強力な手法であると考えられる。

We derive the non-adiabatic ring polymer molecular dynamics (RPMD) approach in the phase space of the SU(N) Lie Group. This method, which we refer to as the spin mapping non-adiabatic RPMD (SM-NRPMD), is based on the spin-mapping formalism for the electronic degrees of freedom (DOFs) and ring polymer path-integral description for the nuclear DOFs. Using the Stratonovich-Weyl transform for the electronic DOFs, and the Wigner transform for the nuclear DOFs, we derived an exact expression of the Kubo-transformed time-correlation function (TCF). We further derive the spin mapping non-adiabatic Matsubara dynamics using the Matsubara approximation that removes the high frequency nuclear normal modes in the TCF and derive the SM-NRPMD approach from the non-adiabatic Matsubara dynamics by discarding the imaginary part of the Liouvillian. The SM-NRPMD method has numerical advantages compared to the original NRPMD method based on the MMST mapping formalism, due to a more natural mapping using the SU(N) Lie Group that preserves the symmetry of the original system. We numerically compute the Kubo-transformed position auto-correlation function and electronic population correlation function for three-state model systems. The numerical results demonstrate the accuracy of the SM-NRPMD method, which outperforms the original MMST-based NRPMD. We envision that the SM-NRPMD method will be a powerful approach to simulate electronic non-adiabatic dynamics and nuclear quantum effects accurately.
翻訳日:2023-01-20 01:45:16 公開日:2022-11-07
# 量子スピン系のギャップをブートストラップする

Bootstrapping the gap in quantum spin systems ( http://arxiv.org/abs/2211.03819v1 )

ライセンス: Link先を確認
Colin Oscar Nancarrow, Yuan Xin(参考訳) 本研究では,共形場理論(CFT)のセットアップを密接に反映した量子力学問題に対する新しいブートストラップ法について報告する。 運動方程式を用いて、行列要素の共形ブロック展開のアナログを開発し、それらの値に境界を置くために交叉対称性を課す。 本手法は,局所ハミルトニアンを持つ任意の量子力学系に適用可能であり,非調和振動子モデルと (1+1)-次元横場イジングモデル(TFIM)を用いて実験を行う。 非調和振動子モデルについて、少数の交叉方程式がスペクトルと行列要素の正確な解を与えることを示した。 TFIM に対して、ハミルトン方程式、翻訳不変性、大域対称性選択規則は熱力学極限における TFIM のギャップと行列要素に厳密な境界を課すことを示す。 境界は、交差方程式のより大きな系を考えると改善され、より有限体積の解を除外する。 本手法は、ハミルトニアンから無限格子の低エネルギースペクトルを厳密かつ近似なしで探究する方法を提供する。

In this work we report on a new bootstrap method for quantum mechanical problems that closely mirrors the setup from conformal field theory (CFT). We use the equations of motion to develop an analogue of the conformal block expansion for matrix elements and impose crossing symmetry in order to place bounds on their values. The method can be applied to any quantum mechanical system with a local Hamiltonian, and we test it on an anharmonic oscillator model as well as the (1+1)-dimensional transverse field Ising model (TFIM). For the anharmonic oscillator model we show that a small number of crossing equations provides an accurate solution to the spectrum and matrix elements. For the TFIM we show that the Hamiltonian equations of motion, translational invariance and global symmetry selection rules imposes a rigorous bound on the gap and the matrix elements of TFIM in the thermodynamic limit. The bound improves as we consider larger systems of crossing equations, ruling out more finite-volume solutions. Our method provides a way to probe the low energy spectrum of an infinite lattice from the Hamiltonian rigorously and without approximation.
翻訳日:2023-01-20 01:44:08 公開日:2022-11-07
# 多粒子一重項状態は二分割に対して最大に絡み合うことができない

Multiparticle singlet states cannot be maximally entangled for the bipartitions ( http://arxiv.org/abs/2211.03813v1 )

ライセンス: Link先を確認
Fabian Bernards, Otfried G\"uhne(参考訳) 多粒子の絡み合いを探索する一つの方法は、異なる二分割に関して極大絡み合いを求めることであり、絶対極大絡み合い状態や完全テンソルの概念につながる。 異なる経路はユニタリ不変性と対称性を使用し、結果として多粒子一重項状態の概念が導かれる。 これらの2つの概念は、純多粒子一重項状態の空間が2つの粒子と残りの粒子のすべての分割が最大に絡み合っている状態を含んでいないという意味では相容れない。 これにより量子符号の構成が制限され、AdS/CFT対応と量子重力の文脈での議論に寄与する。

One way to explore multiparticle entanglement is to ask for maximal entanglement with respect to different bipartitions, leading to the notion of absolutely maximally entangled states or perfect tensors. A different path uses unitary invariance and symmetries, resulting in the concept of multiparticle singlet states. We show that these two concepts are incompatible in the sense that the space of pure multiparticle singlet states does not contain any state for which all partitions of two particles versus the rest are maximally entangled. This puts restrictions on the construction of quantum codes and contributes to discussions in the context of the AdS/CFT correspondence and quantum gravity.
翻訳日:2023-01-20 01:43:45 公開日:2022-11-07
# アベリア・エノン理論のパウリ位相サブシステム

Pauli topological subsystem codes from Abelian anyon theories ( http://arxiv.org/abs/2211.03798v1 )

ライセンス: Link先を確認
Tyler D. Ellison, Yu-An Chen, Arpit Dua, Wilbur Shirley, Nathanan Tantivasadakarn, and Dominic J. Williamson(参考訳) 任意の2次元アベリアノン理論によって特徴づけられるパウリ位相的部分系符号を構築し、縮退するブレイディング関係を持つ任意の理論と真空の境界のない理論を含む。 我々の研究は2次元ポーリ位相サブシステムコードの分類を複合次元クオードの系に拡張し、その分類が少なくともアーベル・アノン理論と同等のリッチであることを示すものである。 本研究では, 4次元qudits上で定義される位相サブシステム符号の構成を, 縮退ブレイディング関係を持つ$\mathbb{z}_4^{(1)}$ anyon理論と, 位相安定化符号では捉えられないキラルセミオン理論に基づいて例示する。 構成は、トポロジカル安定化符号の任意の型を"ゲージアウト"することで進行する。 これは、位相安定器符号の安定化群によって生成されるゲージ群と、ゲージアウトされるエノンタイプのアノニカル弦演算子の集合を定義することに相当する。 結果のトポロジカル部分系符号は、トポロジカル安定化器符号の任意の部分集合を含むエノン理論によって特徴づけられる。 したがって、すべてのアベリア・エノン理論はトーリック符号のスタックと、二重セミオン・エノン理論を一般化するツイスト量子双対の族の部分定理であることを示す。 さらに、変換不変位相サブシステムコードの論理演算子に関する多くの一般的なステートメントを証明し、それらの関連する任意のオン理論を高次対称性の観点から定義する。

We construct Pauli topological subsystem codes characterized by arbitrary two-dimensional Abelian anyon theories--this includes anyon theories with degenerate braiding relations and those without a gapped boundary to the vacuum. Our work both extends the classification of two-dimensional Pauli topological subsystem codes to systems of composite-dimensional qudits and establishes that the classification is at least as rich as that of Abelian anyon theories. We exemplify the construction with topological subsystem codes defined on four-dimensional qudits based on the $\mathbb{Z}_4^{(1)}$ anyon theory with degenerate braiding relations and the chiral semion theory--both of which cannot be captured by topological stabilizer codes. The construction proceeds by "gauging out" certain anyon types of a topological stabilizer code. This amounts to defining a gauge group generated by the stabilizer group of the topological stabilizer code and a set of anyonic string operators for the anyon types that are gauged out. The resulting topological subsystem code is characterized by an anyon theory containing a proper subset of the anyons of the topological stabilizer code. We thereby show that every Abelian anyon theory is a subtheory of a stack of toric codes and a certain family of twisted quantum doubles that generalize the double semion anyon theory. We further prove a number of general statements about the logical operators of translation invariant topological subsystem codes and define their associated anyon theories in terms of higher-form symmetries.
翻訳日:2023-01-20 01:43:32 公開日:2022-11-07
# 一次元量子格子モデルの双対性:位相セクター

Dualities in one-dimensional quantum lattice models: topological sectors ( http://arxiv.org/abs/2211.03777v1 )

ライセンス: Link先を確認
Laurens Lootens, Clement Delcamp, Frank Verstraete(参考訳) 双対理論のスペクトルを相互に関連付けるための一般的な枠組みを構築することは長年の未解決問題であった。 ref (複数形 refs) arxiv:2112.09091] 加群圏の選択でのみ異なる(カテゴリー的に)対称なモデル間で双対性が定義されるので、対称性に富む境界条件を持つ1次元量子格子モデルの場合、この問題を解く。 行列積作用素を用いて、境界条件を保存するモジュール関手明示対称性作用素のデータから構成し、双対モデルの位相セクターを互いにマッピングする。 我々は、スピン-$\frac{1}{2}$ Heisenberg XXZ モデルの双対類に属する一連の例を用いて、我々の構成を説明する。 あるモデルは対称作用素を持ち、群 $\mathcal s_3$ の表現の融合圏 $\mathsf{rep}(\mathcal s_3)$ を形成する。 そのトポロジカルセクターとXXZモデルのマッピングは、ドリンフェル中心が$\mathsf{Rep}(\mathcal S_3)$の非自明な自己同値と関係している。

It has been a long-standing open problem to construct a general framework for relating the spectra of dual theories to each other. Building on ref. [arXiv:2112.09091], whereby dualities are defined between (categorically) symmetric models that only differ in a choice of module category, we solve this problem for the case of one-dimensional quantum lattice models with symmetry-twisted boundary conditions. Using matrix product operators, we construct from the data of module functors explicit symmetry operators preserving boundary conditions as well as intertwiners mapping topological sectors of dual models onto one another. We illustrate our construction with a family of examples that are in the duality class of the spin-$\frac{1}{2}$ Heisenberg XXZ model. One model has symmetry operators forming the fusion category $\mathsf{Rep}(\mathcal S_3)$ of representations of the group $\mathcal S_3$. We find that the mapping between its topological sectors and those of the XXZ model is associated with the non-trivial braided auto-equivalence of the Drinfel'd center of $\mathsf{Rep}(\mathcal S_3)$.
翻訳日:2023-01-20 01:43:03 公開日:2022-11-07
# 量子自然重力の空間量子エンタングルメント証人

Spatial Qubit Entanglement Witness for Quantum Natured Gravity ( http://arxiv.org/abs/2211.03661v1 )

ライセンス: Link先を確認
Bin Yi, Urbasi Sinha, Dipankar Home, Anupam Mazumdar and Sougato Bose(参考訳) 2つの質量の絡み合いによる重力の量子的性質の証明が最近提案されている。 この絡み合いを目撃するために量子ビットを用いる提案は、完全な1/r相互作用が(テイラー展開の2次展開とは対照的に)十分に近くなり、マイクロンサイズの質量が10-100ミクロン(電磁遮蔽の有無にかかわらず)で分離され、0.01-1hzの絡み合いの増大率が得られる。 しかし、これまで提案された量子ビットの証人を得るための唯一の有効な方法は、質量に埋め込まれたスピンを使うことであり、その相関関係は干渉法で質量間の絡み合いを観測するために用いられる。 これは、スピンコヒーレンス保存手法をプロトコルに組み込むという2つの課題と、スピンヘルプ干渉法(stern-gerlach interferometry)の正確な完了のための制御フィールドの精度の要求が伴う。 ここで、各質量の異なる空間的局在状態の重ね合わせが作成できるならば、その方法が何であれ、単純な位置相関測定だけでは質量間の絡み合いの空間的立方体となる。 プロトコルの特定の段階での重要なスキューズが、その生存性に対する(空間量子コヒーレンスを維持する必要に加えて)主要な新しい要件であることがわかった。

Evidencing the quantum nature of gravity through the entanglement of two masses has recently been proposed. Proposals using qubits to witness this entanglement can afford to bring two masses close enough so that the complete 1/r interaction is at play (as opposed to its second-order Taylor expansion), and micron-sized masses separated by 10-100 microns (with or without electromagnetic screening) suffice to provide a 0.01-1 Hz rate of growth of entanglement. Yet the only viable method proposed for obtaining qubit witnesses so far has been to employ spins embedded in the masses, whose correlations are used to witness the entanglement developed between masses during interferometry. This comes with the dual challenge of incorporating spin coherence-preserving methodologies into the protocol, as well as a demanding precision of control fields for the accurate completion of spin-aided (Stern-Gerlach) interferometry. Here we show that if superpositions of distinct spatially localized states of each mass can be created, whatever the means, simple position correlation measurements alone can yield a spatial qubit witness of entanglement between the masses. We find that a significant squeezing at a specific stage of the protocol is the principal new requirement (in addition to the need to maintain spatial quantum coherence) for its viability
翻訳日:2023-01-20 01:42:25 公開日:2022-11-07
# CRONOS: Wi-Fi CSI信号を用いたNLoSヒトプレゼンス検出のカラー化とコントラスト学習

CRONOS: Colorization and Contrastive Learning Enhanced NLoS Human Presence Detection using Wi-Fi CSI Signals ( http://arxiv.org/abs/2211.10354v1 )

ライセンス: Link先を確認
Li-Hsiang Shen, Chia-Che Hsieh, An-Hung Hsiao, Kai-Ten Feng(参考訳) 近年、普及するスマートサービスやアプリケーションの需要は爆発的に増加している。 センサーやカメラによるデバイスなしの人間検出は広く採用されているが、プライバシーの問題や、無動者に対する誤検知は多い。 これらの欠陥を解決するために、商用Wi-Fiデバイスから取得したチャネル状態情報(CSI)は、正確な検出のための豊富な信号特性を提供することができる。 既存のシステムは、部屋の隅に立っている人の非視線 (non-line-of-sight, nlos) と静止シナリオ (stationery scenario) の下の不正確な分類を持っている。 そこで本研究では,NLoSヒト存在検出システム(CRONOS)のカラー化とコントラスト学習を提案する。 CRONOSは動的反復プロット(RP)を生成し、CSI比を色付けすることで、それぞれが移動人と部屋の空きを区別することができる。 さらに、教師付きコントラスト学習を考案し、コンサルテーション損失を定式化し、動的ケースと定常ケースの代表的な距離を区別する。 さらに,自己スイッチング静的特徴強化分類器 (S3FEC) を提案した。 最後に,提案するcronosは,空白,移動性,ロス,nlosのシナリオにおいて,最も高い存在検出精度と適度な計算複雑性を達成するオープン文献において,機械学習や非学習に基づく手法,非csiに基づく特徴を応用した既存システムよりも優れることを明らかにした。

In recent years, demands of pervasive smart services and applications increase explosively. Device-free human detection through sensors or cameras has been widely adopted but with privacy issues as well as misdetection for motionless people. To resolve these defects, channel state information (CSI) captured from commercialized Wi-Fi devices is capable of providing plentiful signal features for accurate detection. The existing systems has inaccurate classification under a non-line-of-sight (NLoS) and stationery scenario of a person standing still at corner in a room. In this work, we have proposed a colorization and contrastive learning enhanced NLoS human presence detection (CRONOS) system. CRONOS is capable of generating dynamic recurrence plots (RPs) and coloring CSI ratios to distinguish mobile people and vacancy of a room, respectively. Furthermore, supervised contrastive learning is conceived to retrieve substantial representations, where consultation loss is formulated to differentiate the representative distances between dynamic and stationery cases. Furthermore, a self-switched static feature enhanced classifier (S3FEC) is proposed to determine the utilization of either RPs or coloring CSI ratio. Finally, comprehensive experimental results have revealed that our proposed CRONOS outperforms the existing systems applying machine learning, non-learning based methods as well as non-CSI based features in open literature, which achieves the highest presence detection accuracy and moderate computational complexity in vacancy, mobility, LoS and NLoS scenarios.
翻訳日:2022-11-27 13:35:57 公開日:2022-11-07
# ピアレビューにおけるフェアネス格差の調査--言語モデル強化アプローチ

Investigating Fairness Disparities in Peer Review: A Language Model Enhanced Approach ( http://arxiv.org/abs/2211.06398v1 )

ライセンス: Link先を確認
Jiayao Zhang, Hongming Zhang, Zhun Deng, Dan Roth(参考訳) 二重盲検レビュー機構は、コンピュータ科学を含む複数の分野にわたる学術研究の骨格となっているが、いくつかの研究はピアレビューの品質に疑問を呈し、プロセスの潜在的なバイアスに対する懸念を提起している。 本稿では,大言語モデル(lms)の助けを借りて,ピアレビューにおける公平性格差に関する徹底的かつ厳密な研究を行う。 我々は、2017年から現在までのiclr(international conference on learning representations)カンファレンスにおいて、openreview、google scholar、arxiv、csrankingのデータを集約し、言語モデルを用いたハイレベルな機能を抽出し、包括的なリレーショナルデータベースを収集、組み立て、保守する。 我々は、著者の性別、地理、著者、制度上の権威を含む、複数の保護的属性に関する公平性の違いを仮定し、研究する。 予測モデルにおけるバイアスの低減には, 差のレベルが異なり, テキストの特徴が不可欠である。 我々は,大規模なlmsの助けを借りてピアレビュープロセスの研究に関する分析から,いくつかの知見を抽出した。 我々のデータベースは、ピアレビューメカニズムの理解を容易にする新しい自然言語処理(NLP)手法の研究の道筋も提供している。 本稿では,自動機械レビューシステムに対する具体的な事例を考察し,データベースをベンチマークとして使用できるようなレビュー生成およびスコアリングタスクのベースラインモデルを提供する。

Double-blind peer review mechanism has become the skeleton of academic research across multiple disciplines including computer science, yet several studies have questioned the quality of peer reviews and raised concerns on potential biases in the process. In this paper, we conduct a thorough and rigorous study on fairness disparities in peer review with the help of large language models (LMs). We collect, assemble, and maintain a comprehensive relational database for the International Conference on Learning Representations (ICLR) conference from 2017 to date by aggregating data from OpenReview, Google Scholar, arXiv, and CSRanking, and extracting high-level features using language models. We postulate and study fairness disparities on multiple protective attributes of interest, including author gender, geography, author, and institutional prestige. We observe that the level of disparity differs and textual features are essential in reducing biases in the predictive modeling. We distill several insights from our analysis on study the peer review process with the help of large LMs. Our database also provides avenues for studying new natural language processing (NLP) methods that facilitate the understanding of the peer review mechanism. We study a concrete example towards automatic machine review systems and provide baseline models for the review generation and scoring tasks such that the database can be used as a benchmark.
翻訳日:2022-11-20 13:34:00 公開日:2022-11-07
# モバイルnpus, mobile ai & aim 2022 チャレンジ : 効率的・高精度量子化画像超解像

Efficient and Accurate Quantized Image Super-Resolution on Mobile NPUs, Mobile AI & AIM 2022 challenge: Report ( http://arxiv.org/abs/2211.05910v1 )

ライセンス: Link先を確認
Andrey Ignatov and Radu Timofte and Maurizio Denna and Abdel Younes and Ganzorig Gankhuyag and Jingang Huh and Myeong Kyun Kim and Kihwan Yoon and Hyeon-Cheol Moon and Seungho Lee and Yoonsik Choe and Jinwoo Jeong and Sungjei Kim and Maciej Smyl and Tomasz Latkowski and Pawel Kubik and Michal Sokolski and Yujie Ma and Jiahao Chao and Zhou Zhou and Hongfan Gao and Zhengfeng Yang and Zhenbing Zeng and Zhengyang Zhuge and Chenghua Li and Dan Zhu and Mengdi Sun and Ran Duan and Yan Gao and Lingshun Kong and Long Sun and Xiang Li and Xingdong Zhang and Jiawei Zhang and Yaqi Wu and Jinshan Pan and Gaocheng Yu and Jin Zhang and Feng Zhang and Zhe Ma and Hongbin Wang and Hojin Cho and Steve Kim and Huaen Li and Yanbo Ma and Ziwei Luo and Youwei Li and Lei Yu and Zhihong Wen and Qi Wu and Haoqiang Fan and Shuaicheng Liu and Lize Zhang and Zhikai Zong and Jeremy Kwon and Junxi Zhang and Mengyuan Li and Nianxiang Fu and Guanchen Ding and Han Zhu and Zhenzhong Chen and Gen Li and Yuanfan Zhang and Lei Sun and Dafeng Zhang and Neo Yang and Fitz Liu and Jerry Zhao and Mustafa Ayazoglu and Bahri Batuhan Bilecen and Shota Hirose and Kasidis Arunruangsirilert and Luo Ao and Ho Chun Leung and Andrew Wei and Jie Liu and Qiang Liu and Dahai Yu and Ao Li and Lei Luo and Ce Zhu and Seongmin Hong and Dongwon Park and Joonhee Lee and Byeong Hyun Lee and Seunggyu Lee and Se Young Chun and Ruiyuan He and Xuhao Jiang and Haihang Ruan and Xinjian Zhang and Jing Liu and Garas Gendy and Nabil Sabor and Jingchao Hou and Guanghui He(参考訳) 画像の超解像度は、モバイルデバイスやIoTデバイスで一般的なタスクであり、低解像度の画像やビデオフレームをスケールアップして拡張する必要があることが多い。 この問題に対する多くの解決策が提案されてきたが、通常は計算やメモリの制約の多い低消費電力モバイルNPUと互換性がない。 このモバイルAIチャレンジでは、この問題に対処し、モバイルNPU上でリアルタイムのパフォーマンスを実演できる効率的な量子化画像超解ソリューションを設計する参加者を提案する。 参加者はDIV2KデータセットとINT8モデルをトレーニングし、高品質な3Xイメージアップスケーリングを実現した。 全てのモデルのランタイムをSynaptics VS680 Smart Homeボード上で評価し、量子化されたニューラルネットワークを高速化する専用エッジNPUを使用した。 提案手法はすべて上記のNPUと完全に互換性があり、フルHD解像度画像の再構成時に最大60FPSの速度を示す。 本論文では,本課題で開発されたモデルについて詳述する。

Image super-resolution is a common task on mobile and IoT devices, where one often needs to upscale and enhance low-resolution images and video frames. While numerous solutions have been proposed for this problem in the past, they are usually not compatible with low-power mobile NPUs having many computational and memory constraints. In this Mobile AI challenge, we address this problem and propose the participants to design an efficient quantized image super-resolution solution that can demonstrate a real-time performance on mobile NPUs. The participants were provided with the DIV2K dataset and trained INT8 models to do a high-quality 3X image upscaling. The runtime of all models was evaluated on the Synaptics VS680 Smart Home board with a dedicated edge NPU capable of accelerating quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 60 FPS rate when reconstructing Full HD resolution images. A detailed description of all models developed in the challenge is provided in this paper.
翻訳日:2022-11-20 13:32:49 公開日:2022-11-07
# モバイルGPU、モバイルAI、AIM 2022における現実的なボケ効果レンダリング:レポート

Realistic Bokeh Effect Rendering on Mobile GPUs, Mobile AI & AIM 2022 challenge: Report ( http://arxiv.org/abs/2211.06769v1 )

ライセンス: Link先を確認
Andrey Ignatov and Radu Timofte and Jin Zhang and Feng Zhang and Gaocheng Yu and Zhe Ma and Hongbin Wang and Minsu Kwon and Haotian Qian and Wentao Tong and Pan Mu and Ziping Wang and Guangjing Yan and Brian Lee and Lei Fei and Huaijin Chen and Hyebin Cho and Byeongjun Kwon and Munchurl Kim and Mingyang Qian and Huixin Ma and Yanan Li and Xiaotao Wang and Lei Lei(参考訳) コンパクトな光学を持つモバイルカメラは強力なボケ効果をもたらすことができないため、現在多くの関心が深層学習ベースのソリューションに向けられている。 このMobile AIチャレンジでは、TensorFlow Liteを使用して最新のスマートフォンGPU上で実行できる効率的なエンドツーエンドのAIベースのボケ効果レンダリングアプローチを開発することが目標だった。 参加者は、canon 7d dslrカメラで撮影した5kの浅く広い視野のイメージペアからなる大規模なebb! bokehデータセットを提供した。 得られたモデルのランタイムはKirin 9000のMali GPUで評価され、一般的なディープラーニング運用の大部分で優れた加速結果が得られた。 本論文では,本課題で開発された全モデルについて詳述する。

As mobile cameras with compact optics are unable to produce a strong bokeh effect, lots of interest is now devoted to deep learning-based solutions for this task. In this Mobile AI challenge, the target was to develop an efficient end-to-end AI-based bokeh effect rendering approach that can run on modern smartphone GPUs using TensorFlow Lite. The participants were provided with a large-scale EBB! bokeh dataset consisting of 5K shallow / wide depth-of-field image pairs captured using the Canon 7D DSLR camera. The runtime of the resulting models was evaluated on the Kirin 9000's Mali GPU that provides excellent acceleration results for the majority of common deep learning ops. A detailed description of all models developed in this challenge is provided in this paper.
翻訳日:2022-11-20 13:32:33 公開日:2022-11-07
# HaarPoolingメッセージパッシングを用いたグラフネットワークのジェットタグ付けアルゴリズム

A jet tagging algorithm of graph network with HaarPooling message passing ( http://arxiv.org/abs/2210.13869v2 )

ライセンス: Link先を確認
Fei Ma, Feiyi Liu, and Wei Li(参考訳) 近年,高エネルギー物理学 (HEP) における問題を解くためにグラフニューラルネットワーク (GNN) の手法が適用され, ジェット事象のグラフ表現を用いたクォークグルーオンタギングの大きな可能性を示している。 本稿では,HarPooling Message Passing Neural Network(HMPNet)と呼ばれる,GNNのアプローチとHaarPooling操作を組み合わせることで,事象を解析する手法を提案する。 HMPNetでは、HaarPoolingはグラフの特徴を抽出するだけでなく、異なる粒子観測可能なk平均のクラスタリングによって得られる追加情報を埋め込む。 絶対エネルギー $\log e$, 横運動量 $\log p_t$ , 相対座標 $(\delta\eta,\delta\phi)$ の3つの異なる観測値からハールプールを構築し、それらのタグ付けへの影響を議論し、mpnn と particlenet (pn) で得られた結果と比較する。 その結果, hmpnet に $\log p_t$ の付加情報を追加することにより, クォークグルーオンタグ付けの精度が向上すると同時に, 相対座標情報 $(\delta\eta,\delta\phi)$ を追加することは有益ではないことがわかった。

Recently methods of graph neural networks (GNNs) have been applied to solving the problems in high energy physics (HEP) and have shown its great potential for quark-gluon tagging with graph representation of jet events. In this paper, we introduce an approach of GNNs combined with a HaarPooling operation to analyze the events, called HaarPooling Message Passing neural network (HMPNet). In HMPNet, HaarPooling not only extract the features of graph, but also embed additional information obtained by clustering of k-means of different particle observables. We construct Haarpooling from three different observables: absolute energy $\log E$, transverse momentum $\log p_T$ , and relative coordinates $(\Delta\eta,\Delta\phi)$, then discuss their impacts on the tagging and compare the results with those obtained via MPNN and ParticleNet (PN). The results show that an appropriate selection of information for HaarPooling enhance the accuracy of quark-gluon tagging, for adding extra information of $\log P_T$ to the HMPNet outperforms all the others, meanwhile adding relative coordinates information $(\Delta\eta,\Delta\phi)$ is not very beneficial.
翻訳日:2022-11-13 23:54:30 公開日:2022-11-07
# ニューロンアンサンブル推論のための生成モデルの一般化

Generalization of generative model for neuronal ensemble inference method ( http://arxiv.org/abs/2211.05634v1 )

ライセンス: Link先を確認
Shun Kimura, Koujin Takeda(参考訳) 生命活動を維持するために必要な様々な脳機能は、無数のニューロンの相互作用を通じて実現される。 したがって,機能神経ネットワークの構造を解析することが重要である。 脳機能のメカニズムを明らかにするために、神経科学のあらゆる領域を含む機能的神経アンサンブルとハブの構造について、多くの研究が活発に行われている。 さらに,機能的ニューロンアンサンブルやハブの存在が情報処理の効率化に寄与することが示唆されている。 これらの理由から,神経活動データから機能的ニューロンアンサンブルを推定する方法が求められており,ベイズ推定に基づく手法が提案されている。 しかし、ベイズ推定における活動のモデル化には問題がある。 各ニューロンの活動の特徴は生理的条件によって非定常性を持つ。 その結果、ベイズ推論モデルにおける定常性の仮定は推論を阻害し、推論結果の不安定化と推論精度の低下につながる。 本研究では,前回の研究ではモデルの表現性を拡張し,非定常な活動データに適用可能なソフトクラスタリング法に改善する。 また, 本手法の有効性について, 漏れ積分・火災モデルにより生成された合成データに適用し, 結果について考察する。

Various brain functions that are necessary to maintain life activities materialize through the interaction of countless neurons. Therefore, it is important to analyze the structure of functional neuronal network. To elucidate the mechanism of brain function, many studies are being actively conducted on the structure of functional neuronal ensemble and hub, including all areas of neuroscience. In addition, recent study suggests that the existence of functional neuronal ensembles and hubs contributes to the efficiency of information processing. For these reasons, there is a demand for methods to infer functional neuronal ensembles from neuronal activity data, and methods based on Bayesian inference have been proposed. However, there is a problem in modeling the activity in Bayesian inference. The features of each neuron's activity have non-stationarity depending on physiological experimental conditions. As a result, the assumption of stationarity in Bayesian inference model impedes inference, which leads to destabilization of inference results and degradation of inference accuracy. In this study, we extend the expressivity of the model in the previous study and improve it to a soft clustering method, which can be applied to activity data with non-stationarity. In addition, for the effectiveness of the method, we apply the developed method to synthetic data generated by the leaky-integrate-and-fire model, and discuss the result.
翻訳日:2022-11-11 16:29:29 公開日:2022-11-07
# YOLOv3-CNNを用いた数値プレート自動認識(ANPR)

Automatic Number Plate Recognition (ANPR) with YOLOv3-CNN ( http://arxiv.org/abs/2211.05229v1 )

ライセンス: Link先を確認
Rajdeep Adak, Abhishek Kumbhar, Rajas Pathare, Sagar Gowda(参考訳) 本稿では,車両検出,ナンバープレートの分離,最終認識文字の局所保存のためのYOLOv3-CNNパイプラインを提案する。 車両識別は、環境要因(知覚の角度、光度、動きブルリング、多行カスタムフォントなど)の影響を決定するため、様々な画像補正方式で行われる。 交通画像のデータセットから車両を識別するために、YOLOv3オブジェクト検出モデルを訓練した。 第2のYOLOv3層は車両画像からナンバープレートを特定するために訓練された。 補正方式に基づき, 個々の文字を分離し, 実時間データに対して検証し, この手法の精度を算出した。 直視下での文字は正確に認識されるが, 環境要因の影響を受けやすい数板では精度が低下した。 実時間データに対する各種環境要因に基づいて結果を要約し,パイプラインモデル全体の精度を推定する。

We present a YOLOv3-CNN pipeline for detecting vehicles, segregation of number plates, and local storage of final recognized characters. Vehicle identification is performed under various image correction schemes to determine the effect of environmental factors (angle of perception, luminosity, motion-blurring, and multi-line custom font etc.). A YOLOv3 object detection model was trained to identify vehicles from a dataset of traffic images. A second YOLOv3 layer was trained to identify number plates from vehicle images. Based upon correction schemes, individual characters were segregated and verified against real-time data to calculate accuracy of this approach. While characters under direct view were recognized accurately, some numberplates affected by environmental factors had reduced levels of accuracy. We summarize the results under various environmental factors against real-time data and produce an overall accuracy of the pipeline model.
翻訳日:2022-11-11 15:59:03 公開日:2022-11-07
# ディープラーニングとモバイルaiとaim 2022チャレンジによるモバイルnpusの高能率ビデオ超解像

Power Efficient Video Super-Resolution on Mobile NPUs with Deep Learning, Mobile AI & AIM 2022 challenge: Report ( http://arxiv.org/abs/2211.05256v1 )

ライセンス: Link先を確認
Andrey Ignatov and Radu Timofte and Cheng-Ming Chiang and Hsien-Kai Kuo and Yu-Syuan Xu and Man-Yu Lee and Allen Lu and Chia-Ming Cheng and Chih-Cheng Chen and Jia-Ying Yong and Hong-Han Shuai and Wen-Huang Cheng and Zhuang Jia and Tianyu Xu and Yijian Zhang and Long Bao and Heng Sun and Diankai Zhang and Si Gao and Shaoli Liu and Biao Wu and Xiaofeng Zhang and Chengjian Zheng and Kaidi Lu and Ning Wang and Xiao Sun and HaoDong Wu and Xuncheng Liu and Weizhan Zhang and Caixia Yan and Haipeng Du and Qinghua Zheng and Qi Wang and Wangdu Chen and Ran Duan and Ran Duan and Mengdi Sun and Dan Zhu and Guannan Chen and Hojin Cho and Steve Kim and Shijie Yue and Chenghua Li and Zhengyang Zhuge and Wei Chen and Wenxu Wang and Yufeng Zhou and Xiaochen Cai and Hengxing Cai and Kele Xu and Li Liu and Zehua Cheng and Wenyi Lian and Wenjing Lian(参考訳) ビデオ超解像度はモバイルデバイスで最も一般的なタスクの1つであり、低ビットレートと低解像度のビデオストリームの自動改善に広く利用されている。 この問題に対する多くの解決策が提案されているが、通常は非常に計算的に要求され、モバイルデバイス上で低いFPSレートと電力効率を示す。 このモバイルaiチャレンジでは,この問題に対処し,低消費電力に最適化されたモバイルnpuのための,エンドツーエンドのリアルタイムビデオスーパーレゾリューションソリューションの設計を参加者に提案する。 参加者には4倍のビデオスケールアップタスク用のビデオシーケンスを含むredsトレーニングデータセットが提供された。 全てのモデルのランタイムと電力効率は、浮動小数点および量子化されたニューラルネットワークを加速できる専用のAI処理ユニットを備えた強力なMediaTek Dimensity 9000プラットフォームで評価された。 提案したすべてのソリューションは上記のNPUと完全に互換性があり、最大500FPSレートと0.2[Watt / 30FPS]電力消費を示す。 本論文では,本課題で開発されたモデルについて詳述する。

Video super-resolution is one of the most popular tasks on mobile devices, being widely used for an automatic improvement of low-bitrate and low-resolution video streams. While numerous solutions have been proposed for this problem, they are usually quite computationally demanding, demonstrating low FPS rates and power efficiency on mobile devices. In this Mobile AI challenge, we address this problem and propose the participants to design an end-to-end real-time video super-resolution solution for mobile NPUs optimized for low energy consumption. The participants were provided with the REDS training dataset containing video sequences for a 4X video upscaling task. The runtime and power efficiency of all models was evaluated on the powerful MediaTek Dimensity 9000 platform with a dedicated AI processing unit capable of accelerating floating-point and quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 500 FPS rate and 0.2 [Watt / 30 FPS] power consumption. A detailed description of all models developed in the challenge is provided in this paper.
翻訳日:2022-11-11 15:58:36 公開日:2022-11-07
# モダリティ間のスクラッチプログラムにおける自動創造性測定

Automatic Creativity Measurement in Scratch Programs Across Modalities ( http://arxiv.org/abs/2211.05227v1 )

ライセンス: Link先を確認
Anastasia Kovalkov and Benjamin Paa{\ss}en and Avi Segal and Niels Pinkwart and Kobi Gal(参考訳) クリエイティビティの推進は教育の重要な目標と考えられているが、創造性の測定が困難であることが知られており、本論文では、創造性の公式な尺度の定義から実践的な領域への適用までを効率的に計算する。 この尺度は一般に、創造性理論のコア理論的概念、すなわち流束性、柔軟性、独創性に依存しており、先行する認知科学文献と統合されている。 我々は、Scratchプロジェクトの創造性を予測するための機械学習モデルを設計し、広範囲なユーザスタディにおいて、人間の専門家による創造性評価をトレーニングし、評価した。 その結果,クリエイティビティに関する意見は専門家によって大きく異なっていた。 自動創造性評価は、専門家が合意するよりも、人間の専門家の評価と一致した。 これは、教育技術に適用可能な創造性を測定するための計算モデルを提供し、学校における創造性教育の利点を拡大するための第一歩である。

Promoting creativity is considered an important goal of education, but creativity is notoriously hard to measure.In this paper, we make the journey fromdefining a formal measure of creativity that is efficientlycomputable to applying the measure in a practical domain. The measure is general and relies on coretheoretical concepts in creativity theory, namely fluency, flexibility, and originality, integratingwith prior cognitive science literature. We adapted the general measure for projects in the popular visual programming language Scratch.We designed a machine learning model for predicting the creativity of Scratch projects, trained and evaluated on human expert creativity assessments in an extensive user study. Our results show that opinions about creativity in Scratch varied widely across experts. The automatic creativity assessment aligned with the assessment of the human experts more than the experts agreed with each other. This is a first step in providing computational models for measuring creativity that can be applied to educational technologies, and to scale up the benefit of creativity education in schools.
翻訳日:2022-11-11 14:49:15 公開日:2022-11-07
# okapi: 統計的マッチングによる一般化

Okapi: Generalising Better by Making Statistical Matches Match ( http://arxiv.org/abs/2211.05236v1 )

ライセンス: Link先を確認
Myles Bartlett, Sara Romiti, Viktoriia Sharmanska, Novi Quadrianto(参考訳) 本稿では,オンライン統計マッチングに基づくロバストな半教師付き学習手法であるokapiを提案する。 本手法は,一貫性損失に対するクロスドメインビューの生成に最も近いneighboursベースのマッチング手順を用いる。 実行時およびメモリ効率のよい方法でオンラインマッチングを行うために,自己教師付き文献を作成し,メモリバンクとスローモーションモーメントエンコーダを組み合わせる。 整合性損失は、予測分布ではなく特徴空間内で適用され、その方法が問題となるモダリティとタスクの両方に非依存となる。 我々は,実世界における教師なし適応の研究とベンチマークに利用可能なモダリティ,応用,シフトの範囲を大幅に拡大するWILDS 2.0データセットを実験する。 佐川らとは対照的に,経験的リスク最小化(ERM)の結果を正しい方法で改善するために,非ラベルデータを活用することが可能である。 提案手法は,iwildcam (multi-class classification task) と povertymap (regressive task) 画像データセットおよびcivilcomments (binary classification task) テキストデータセットにおけるout-of-distribution (ood) 一般化の観点から,ベースラインメソッドを上回っている。 さらに,定性的な観点からは,学習エンコーダから得られたマッチングが,意味的に強く関連していることを示す。 私たちの論文のコードはhttps://github.com/wearepal/okapi/で公開されています。

We propose Okapi, a simple, efficient, and general method for robust semi-supervised learning based on online statistical matching. Our method uses a nearest-neighbours-based matching procedure to generate cross-domain views for a consistency loss, while eliminating statistical outliers. In order to perform the online matching in a runtime- and memory-efficient way, we draw upon the self-supervised literature and combine a memory bank with a slow-moving momentum encoder. The consistency loss is applied within the feature space, rather than on the predictive distribution, making the method agnostic to both the modality and the task in question. We experiment on the WILDS 2.0 datasets Sagawa et al., which significantly expands the range of modalities, applications, and shifts available for studying and benchmarking real-world unsupervised adaptation. Contrary to Sagawa et al., we show that it is in fact possible to leverage additional unlabelled data to improve upon empirical risk minimisation (ERM) results with the right method. Our method outperforms the baseline methods in terms of out-of-distribution (OOD) generalisation on the iWildCam (a multi-class classification task) and PovertyMap (a regression task) image datasets as well as the CivilComments (a binary classification task) text dataset. Furthermore, from a qualitative perspective, we show the matches obtained from the learned encoder are strongly semantically related. Code for our paper is publicly available at https://github.com/wearepal/okapi/.
翻訳日:2022-11-11 14:38:09 公開日:2022-11-07
# FIXED: Mixupで簡単にドメインを一般化できる

FIXED: Frustratingly Easy Domain Generalization with Mixup ( http://arxiv.org/abs/2211.05228v1 )

ライセンス: Link先を確認
Wang Lu, Jindong Wang, Han Yu, Lei Huang, Xiang Zhang, Yiqiang Chen, Xing Xie(参考訳) ドメイン一般化(Domain Generalization, DG)は、複数のトレーニングドメインから一般化可能なモデルを学ぶことを目的としている。 一般的な戦略は、Mixup~\cite{zhang2018mixup}のようなメソッドによる一般化のためにトレーニングデータを拡張することである。 バニラミックスアップは直接適用できるが、理論的および実証的な調査は、その性能を制限するいくつかの欠点を明らかにする。 まず、mixupは不変表現の学習に使用できるドメインとクラス情報を効果的に識別することはできない。 第二に、Mixupはランダム補間によって合成ノイズデータポイントを導入し、識別能力を低下させる。 この分析に基づき、MixupベースのDG、すなわちドメイン不変の特徴mIXup(FIX)の簡易かつ効果的な拡張を提案する。 Mixupのドメイン不変表現を学習する。 差別をさらに強化するために、既存の手法を活用し、クラス間のマージンを拡大し、拡張識別(FIXED)アプローチによるドメイン不変の特徴MIXupをさらに提案する。 我々はその有効性に関する保証に関する理論的知見を示す。 画像分類 (Digits-DG, PACS, Office-Home) と時系列 (DSADS, PAMAP2, UCI-HAR, USC-HAD) を含む2つのモードの公開データセットに対する大規模な実験により, 提案手法は9つの最先端関連手法を著しく上回り, 平均6.5倍のベースラインを達成できた。

Domain generalization (DG) aims to learn a generalizable model from multiple training domains such that it can perform well on unseen target domains. A popular strategy is to augment training data to benefit generalization through methods such as Mixup~\cite{zhang2018mixup}. While the vanilla Mixup can be directly applied, theoretical and empirical investigations uncover several shortcomings that limit its performance. Firstly, Mixup cannot effectively identify the domain and class information that can be used for learning invariant representations. Secondly, Mixup may introduce synthetic noisy data points via random interpolation, which lowers its discrimination capability. Based on the analysis, we propose a simple yet effective enhancement for Mixup-based DG, namely domain-invariant Feature mIXup (FIX). It learns domain-invariant representations for Mixup. To further enhance discrimination, we leverage existing techniques to enlarge margins among classes to further propose the domain-invariant Feature MIXup with Enhanced Discrimination (FIXED) approach. We present theoretical insights about guarantees on its effectiveness. Extensive experiments on seven public datasets across two modalities including image classification (Digits-DG, PACS, Office-Home) and time series (DSADS, PAMAP2, UCI-HAR, and USC-HAD) demonstrate that our approach significantly outperforms nine state-of-the-art related methods, beating the best performing baseline by 6.5\% on average in terms of test accuracy.
翻訳日:2022-11-11 14:11:34 公開日:2022-11-07
# モバイルデバイス、モバイルAI、AIM 2022における効率的な単一画像深度推定:レポート

Efficient Single-Image Depth Estimation on Mobile Devices, Mobile AI & AIM 2022 Challenge: Report ( http://arxiv.org/abs/2211.04470v1 )

ライセンス: Link先を確認
Andrey Ignatov and Grigory Malivenko and Radu Timofte and Lukasz Treszczotko and Xin Chang and Piotr Ksiazek and Michal Lopuszynski and Maciej Pioro and Rafal Rudnicki and Maciej Smyl and Yujie Ma and Zhenyu Li and Zehui Chen and Jialei Xu and Xianming Liu and Junjun Jiang and XueChao Shi and Difan Xu and Yanan Li and Xiaotao Wang and Lei Lei and Ziyu Zhang and Yicheng Wang and Zilong Huang and Guozhong Luo and Gang Yu and Bin Fu and Jiaqi Li and Yiran Wang and Zihao Huang and Zhiguo Cao and Marcos V. Conde and Denis Sapozhnikov and Byeong Hyun Lee and Dongwon Park and Seongmin Hong and Joonhee Lee and Seunggyu Lee and Se Young Chun(参考訳) さまざまな深度推定モデルは、画像セグメンテーション、ボケ効果レンダリング、オブジェクトトラッキング、その他多くのモバイルタスクのために、多くのモバイルおよびIoTデバイスで広く使用されている。 したがって、低消費電力のモバイルチップセットで高速に実行できる効率的で正確な深度推定モデルを持つことは非常に重要である。 このMobile AIチャレンジでは、IoTプラットフォームやスマートフォン上でリアルタイムのパフォーマンスを示すことができるディープラーニングベースの単一画像深度推定ソリューションを開発することが目標だった。 このために参加者は、最大50メートルの物体の深度マップを生成できるzedステレオカメラで収集した大規模なrgb-to-depthデータセットを使用した。 すべてのモデルのランタイムはraspberry pi 4プラットフォーム上で評価され、開発したソリューションは最大27fpsのvga解像度深度マップを生成でき、高い忠実度を達成した。 このチャレンジで開発されたすべてのモデルは、AndroidやLinuxベースのモバイルデバイスとも互換性があり、詳細はこの論文で述べられている。

Various depth estimation models are now widely used on many mobile and IoT devices for image segmentation, bokeh effect rendering, object tracking and many other mobile tasks. Thus, it is very crucial to have efficient and accurate depth estimation models that can run fast on low-power mobile chipsets. In this Mobile AI challenge, the target was to develop deep learning-based single image depth estimation solutions that can show a real-time performance on IoT platforms and smartphones. For this, the participants used a large-scale RGB-to-depth dataset that was collected with the ZED stereo camera capable to generated depth maps for objects located at up to 50 meters. The runtime of all models was evaluated on the Raspberry Pi 4 platform, where the developed solutions were able to generate VGA resolution depth maps at up to 27 FPS while achieving high fidelity results. All models developed in the challenge are also compatible with any Android or Linux-based mobile devices, their detailed description is provided in this paper.
翻訳日:2022-11-10 16:57:22 公開日:2022-11-07
# リスト学習能力の特徴付け

A Characterization of List Learnability ( http://arxiv.org/abs/2211.04956v1 )

ライセンス: Link先を確認
Moses Charikar, Chirag Pabbaraju(参考訳) 学習理論における古典的な結果は、二項仮説クラスのPAC学習可能性の等価性とVC次元の有限性を示している。 これをマルチクラスに拡張することはオープンな問題であり、Daniely と Shalev-Shwartz が以前に導入したDS次元による多クラスPAC学習性を特徴付ける最近のブレークスルーで解決された。 この作業では、$k$の予測リストを出力することを目標とするPAC学習について検討する。 リスト学習アルゴリズムは,これまでいくつかの設定で開発されてきたが,近年のマルチクラス学習性評価において,リスト学習が重要な役割を担っている。 k$-listで仮説クラスを学ぶことはいつ可能でしょうか? 我々は、$k$-DS次元と呼ぶDS次元の一般化の観点から、$k$-listの学習可能性を完全に特徴づける。 最近のマルチクラス学習可能性の特徴を一般化すると、仮説クラスが$k$-list学習可能であることと、$k$-DS次元が有限であることは同値である。

A classical result in learning theory shows the equivalence of PAC learnability of binary hypothesis classes and the finiteness of VC dimension. Extending this to the multiclass setting was an open problem, which was settled in a recent breakthrough result characterizing multiclass PAC learnability via the DS dimension introduced earlier by Daniely and Shalev-Shwartz. In this work we consider list PAC learning where the goal is to output a list of $k$ predictions. List learning algorithms have been developed in several settings before and indeed, list learning played an important role in the recent characterization of multiclass learnability. In this work we ask: when is it possible to $k$-list learn a hypothesis class? We completely characterize $k$-list learnability in terms of a generalization of DS dimension that we call the $k$-DS dimension. Generalizing the recent characterization of multiclass learnability, we show that a hypothesis class is $k$-list learnable if and only if the $k$-DS dimension is finite.
翻訳日:2022-11-10 16:19:43 公開日:2022-11-07
# ラベルシフト推定と定量化に対するセミパラメトリック効率的アプローチ

A Semiparametric Efficient Approach To Label Shift Estimation and Quantification ( http://arxiv.org/abs/2211.04274v1 )

ライセンス: Link先を確認
Brandon Tse Wei Chow(参考訳) モデルトレーニングに利用可能なデータが、モデルがうまく機能することを期待しているデータと質的に異なる場合、私たちはどのように学習アルゴリズムを構築するのでしょうか? この論文では、ラベルシフトと呼ばれる転送学習の特定の領域に焦点を当て、量子化(quantification)とも呼ばれる。 定量化において、上記不一致を応答変数の分布のシフトとして分離する。 このような設定では、応答変数の新たな分布を正確に推定することは、それ自体が重要な推定タスクであり、学習アルゴリズムが新しいデータに適応できることを保証する重要なステップである。 私たちはこの分野に2つの貢献をしている。 まず、応答変数の分布の変化を推定するSELSEと呼ばれる新しい手順を提案する。 第二に、SELSEは量子化アルゴリズムの大規模なファミリーの中で半パラメトリック効率が良いこと、すなわち、SELSEの正規化誤差は、そのファミリーの他のどのアルゴリズムよりも最小の漸近分散行列を持つことを示す。 この科には、ACC/PACC量子化器や、EMQやMLLSのような最大可能性に基づく量子化器を含む、ほとんど全ての既存のアルゴリズムが含まれている。 実証実験により,SELSEは既存の最先端の定量化手法よりも優れており,試験サンプル数が列車サンプル数よりはるかに多い場合には,この改良が特に重要であることが明らかになった。

Transfer Learning is an area of statistics and machine learning research that seeks answers to the following question: how do we build successful learning algorithms when the data available for training our model is qualitatively different from the data we hope the model will perform well on? In this thesis, we focus on a specific area of Transfer Learning called label shift, also known as quantification. In quantification, the aforementioned discrepancy is isolated to a shift in the distribution of the response variable. In such a setting, accurately inferring the response variable's new distribution is both an important estimation task in its own right and a crucial step for ensuring that the learning algorithm can adapt to the new data. We make two contributions to this field. First, we present a new procedure called SELSE which estimates the shift in the response variable's distribution. Second, we prove that SELSE is semiparametric efficient among a large family of quantification algorithms, i.e., SELSE's normalized error has the smallest possible asymptotic variance matrix compared to any other algorithm in that family. This family includes nearly all existing algorithms, including ACC/PACC quantifiers and maximum likelihood based quantifiers such as EMQ and MLLS. Empirical experiments reveal that SELSE is competitive with, and in many cases outperforms, existing state-of-the-art quantification methods, and that this improvement is especially large when the number of test samples is far greater than the number of train samples.
翻訳日:2022-11-09 17:30:18 公開日:2022-11-07
# 生成モデルと異常検出のための量子確率ハミルトン学習

Quantum-probabilistic Hamiltonian learning for generative modelling & anomaly detection ( http://arxiv.org/abs/2211.03803v1 )

ライセンス: Link先を確認
Jack Y. Araz and Michael Spannowsky(参考訳) 孤立量子力学系のハミルトニアンはその力学と物理的挙動を決定する。 本研究では,システムのハミルトニアンを学習し,その変動熱状態推定をデータ解析に活用する可能性について検討する。 そこで本研究では,シミュレーションによる大型ハドロン衝突型加速器データの生成モデルとして量子ハミルトニアンモデルを用いて,混合状態として表現可能性を示す。 さらに、学習したハミルトニアンを用いて異常検出を行い、異なるサンプル型が量子多体系として扱われたときの異なる動的挙動を形成することを示した。 これらの特徴を利用してサンプルタイプの違いを定量化する。 本研究は,フィールド理論計算のための手法を機械学習アプリケーションに応用し,データ解析手法の理論的アプローチを応用できることを示唆する。

The Hamiltonian of an isolated quantum mechanical system determines its dynamics and physical behaviour. This study investigates the possibility of learning and utilising a system's Hamiltonian and its variational thermal state estimation for data analysis techniques. For this purpose, we employ the method of Quantum Hamiltonian-Based Models for the generative modelling of simulated Large Hadron Collider data and demonstrate the representability of such data as a mixed state. In a further step, we use the learned Hamiltonian for anomaly detection, showing that different sample types can form distinct dynamical behaviours once treated as a quantum many-body system. We exploit these characteristics to quantify the difference between sample types. Our findings show that the methodologies designed for field theory computations can be utilised in machine learning applications to employ theoretical approaches in data analysis techniques.
翻訳日:2022-11-09 17:29:17 公開日:2022-11-07
# アトラスレベル細胞型転写の不確かさの定量化

Uncertainty Quantification for Atlas-Level Cell Type Transfer ( http://arxiv.org/abs/2211.03793v1 )

ライセンス: Link先を確認
Jan Engelmann, Leon Hetzel, Giovanni Palla, Lisa Sikkema, Malte Luecken, Fabian Theis(参考訳) シングルセル参照アトラス(英: Single-cell reference atlas)は、単一の細胞ゲノムを用いて臓器内の細胞多様性を捉える大規模な細胞レベルマップである。 サイズと細胞の多様性を考えると、これらのアトラスは細胞型ラベルを新しいデータセットに転送するための高品質なトレーニングデータとして機能する。 しかし、そのようなラベル伝達は、測定技術、実験室特異性、より一般的なバッチ効果による遺伝子発現の領域シフトに対して堅牢でなければならない。 これは、正しい解釈を保証するために、セルタイプ予測の不確実性推定を提供する方法を必要とする。 ここでは,単細胞基準アトラスを用いた細胞型分類のための不確実な定量化手法を初めて紹介する。 4つのモデルクラスをベンチマークし、現在使用されているモデルに校正、堅牢性、動作可能な不確実性スコアがないことを示す。 さらに,不確かさを定量化するモデルがアトラスレベルセルトランスファーの設定において未検出の細胞タイプを検出するのにどのように適しているかを示す。

Single-cell reference atlases are large-scale, cell-level maps that capture cellular heterogeneity within an organ using single cell genomics. Given their size and cellular diversity, these atlases serve as high-quality training data for the transfer of cell type labels to new datasets. Such label transfer, however, must be robust to domain shifts in gene expression due to measurement technique, lab specifics and more general batch effects. This requires methods that provide uncertainty estimates on the cell type predictions to ensure correct interpretation. Here, for the first time, we introduce uncertainty quantification methods for cell type classification on single-cell reference atlases. We benchmark four model classes and show that currently used models lack calibration, robustness, and actionable uncertainty scores. Furthermore, we demonstrate how models that quantify uncertainty are better suited to detect unseen cell types in the setting of atlas-level cell type transfer.
翻訳日:2022-11-09 17:22:54 公開日:2022-11-07
# FED-CD: 干渉・観測データによるフェデレーション因果発見

FED-CD: Federated Causal Discovery from Interventional and Observational Data ( http://arxiv.org/abs/2211.03846v1 )

ライセンス: Link先を確認
Amin Abyaneh, Nino Scherrer, Patrick Schwab, Stefan Bauer, Bernhard Sch\"olkopf, Arash Mehrjou(参考訳) データから因果関係を推定する因果発見は、すべての科学領域において基本的な重要性のコアタスクであり、因果発見問題に対処する新しい機械学習手法が近年提案されている。 しかし、因果発見のための既存の機械学習手法では、推論に使用されるデータはプールされ、集中した場所で利用可能である必要がある。 医療など多くの領域において、データはローカルなデータ生成エンティティ(例えば、医療における病院)でのみ利用可能であり、プライバシや規制上の理由から複数のエンティティ間で共有することはできない。 本研究では,観測データと介入データの両方を,サンプルの代わりに更新を交換することで,プライバシ保存方式で格納した分散データセットから,有向非循環グラフ(dag)の形式で因果構造を推測する問題に対処する。 この目的のために,干渉共変量のセットが分散エンティティ間で同じである場合と干渉共変量のセットが結合しない場合の両方において,グローバルな因果構造の発見を可能にする新しいフェデレートフレームワークであるfederated-cdを導入する。 我々は、FED-CDが直接サンプル共有なしで因果発見のための分散データを効果的に集約できることを示す合成データに関する総合的な実験的な評価を行う。 分散データセットにおける効果的な因果発見手法は、ローカルサイト間でデータの共有が困難または禁止されている医療など、重要な設定において科学的発見と知識共有を著しく前進させる可能性がある。

Causal discovery, the inference of causal relations from data, is a core task of fundamental importance in all scientific domains, and several new machine learning methods for addressing the causal discovery problem have been proposed recently. However, existing machine learning methods for causal discovery typically require that the data used for inference is pooled and available in a centralized location. In many domains of high practical importance, such as in healthcare, data is only available at local data-generating entities (e.g. hospitals in the healthcare context), and cannot be shared across entities due to, among others, privacy and regulatory reasons. In this work, we address the problem of inferring causal structure - in the form of a directed acyclic graph (DAG) - from a distributed data set that contains both observational and interventional data in a privacy-preserving manner by exchanging updates instead of samples. To this end, we introduce a new federated framework, FED-CD, that enables the discovery of global causal structures both when the set of intervened covariates is the same across decentralized entities, and when the set of intervened covariates are potentially disjoint. We perform a comprehensive experimental evaluation on synthetic data that demonstrates that FED-CD enables effective aggregation of decentralized data for causal discovery without direct sample sharing, even when the contributing distributed data sets cover disjoint sets of interventions. Effective methods for causal discovery in distributed data sets could significantly advance scientific discovery and knowledge sharing in important settings, for instance, healthcare, in which sharing of data across local sites is difficult or prohibited.
翻訳日:2022-11-09 17:22:38 公開日:2022-11-07
# Astronomia ex machina:天文学におけるニューラルネットワークの歴史,プライマー,展望

Astronomia ex machina: a history, primer, and outlook on neural networks in astronomy ( http://arxiv.org/abs/2211.03796v1 )

ライセンス: Link先を確認
Michael J. Smith (Hertfordshire), James E. Geach (Hertfordshire)(参考訳) 近年、ディープラーニングは触れたあらゆる分野に浸透し、専門知識の必要性を減らし、データから知識発見のプロセスを自動化している。 このレビューでは、天文学は変わらないし、天文学のやり方を変えつつある深層学習革命の真っ最中にある、と論じています。 我々は、多層パーセプトロンの初期から、畳み込みおよび再帰的なニューラルネットワークの第二波を経て、現在の自己教師なし・教師なし深層学習の第3波まで、天文学的接続の歴史を追跡する。 次に、私たちは間もなく、専門的に作られたディープラーニングモデルを置き換える「基礎」モデルの微調整されたバージョンが、天文学的接続主義の第4の波に入ると予測します。 このようなモデルは、天文学とコネクショナリズムの共生関係を通じてのみもたらされるため、天文学は基礎モデルを訓練するために高品質のマルチモーダルデータを提供し、基礎モデルが天文学研究の進展に使用される。

In recent years, deep learning has infiltrated every field it has touched, reducing the need for specialist knowledge and automating the process of knowledge discovery from data. This review argues that astronomy is no different, and that we are currently in the midst of a deep learning revolution that is transforming the way we do astronomy. We trace the history of astronomical connectionism from the early days of multilayer perceptrons, through the second wave of convolutional and recurrent neural networks, to the current third wave of self-supervised and unsupervised deep learning. We then predict that we will soon enter a fourth wave of astronomical connectionism, in which finetuned versions of an all-encompassing 'foundation' model will replace expertly crafted deep learning models. We argue that such a model can only be brought about through a symbiotic relationship between astronomy and connectionism, whereby astronomy provides high quality multimodal data to train the foundation model, and in turn the foundation model is used to advance astronomical research.
翻訳日:2022-11-09 17:03:24 公開日:2022-11-07
# 密集地区におけるWi-Fiチャネル選択の最適化

Optimizing Wi-Fi Channel Selection in a Dense Neighborhood ( http://arxiv.org/abs/2211.03872v1 )

ライセンス: Link先を確認
Yonatan Vaizman and Hongcheng Wang(参考訳) 密集した地区では、近隣に数十の住宅があることが多い。 これは、多くの一戸建て住宅(SFH)と密集した都市ブロックや、複数の住宅ユニット(MDU)複合施設(大きなアパートやマンションなど)のどちらかである。 そのような地区の各家庭(SFHまたはMDUコンプレックスの1つのユニット)には独自のWi-Fiアクセスポイント(AP)がある。 Wi-Fiの非重なりの無線チャンネルがほとんどない(通常は2ないし3つ)ため、近隣の家庭はチャンネルを共有し、インターネットが遅い場合(長時間の遅延、映画をストリーミングする際のバッファリングなど)に悪影響を及ぼす可能性がある。 密集した地区のすべてのAPに対してWi-Fiを最適化することは、最高のユーザー体験を提供するために非常に望ましい。 密集地におけるすべてのAPに対して集中的にWi-Fiチャネル選択を行う方法を提案する。 それぞれのAPに対して、同じチャネル上にいる場合、Wi-Fi-Pain同士がどれだけの頻度で発生するかを推定するために、最近の観測方法を説明します。 最適化問題を定式化する - 近隣のwi-fi-painを最小化するチャネル割り当て(各家庭が使用するチャネル)を見つける。 最適化問題を解くために,ニューラルネットワーク上の勾配降下を用いた最適化アルゴリズムを設計する。 最適化解法と市販混合整数プログラミング解法を比較したオフライン実験の初期結果について述べる。 私たちの実験では、オフザシェルフソルバが、列車データ(最近のもの)において、より良い(より低い)全痛みのソリューションを見つけることができましたが、ニューラルネットワークソルバがより良く一般化し、テストデータ(明日)の総痛みの低減を実現するソリューションを見つけました。

In dense neighborhoods, there are often dozens of homes in close proximity. This can either be a tight city-block with many single-family homes (SFHs), or a multiple dwelling units (MDU) complex (such as a big apartment building or condominium). Each home in such a neighborhood (either a SFH or a single unit in a MDU complex) has its own Wi-Fi access point (AP). Because there are few (typically 2 or 3) non-overlapping radio channels for Wi-Fi, neighboring homes may find themselves sharing a channel and competing over airtime, which may cause bad experience of slow internet (long latency, buffering while streaming movies, etc.). Wi-Fi optimization over all the APs in a dense neighborhood is highly desired to provide the best user experience. We present a method for Wi-Fi channel selection in a centralized way for all the APs in a dense neighborhood. We describe how to use recent observations to estimate the potential-pain matrix - for each pair of APs, how much Wi-Fi-pain would they cause each other if they were on the same channel. We formulate an optimization problem - finding a channel allocation (which channel each home should use) that minimizes the total Wi-Fi-pain in the neighborhood. We design an optimization algorithm that uses gradient descent over a neural network to solve the optimization problem. We describe initial results from offline experiments comparing our optimization solver to an off-the-shelf mixed-integer-programming solver. In our experiments we show that the off-the-shelf solver manages to find a better (lower total pain) solution on the train data (from the recent days), but our neural-network solver generalizes better - it finds a solution that achieves lower total pain for the test data (tomorrow).
翻訳日:2022-11-09 16:56:05 公開日:2022-11-07
# ディープラーニング、モバイルAI、AIM 2022によるモバイルGPU上のスマートフォンISPの学習:レポート

Learned Smartphone ISP on Mobile GPUs with Deep Learning, Mobile AI & AIM 2022 Challenge: Report ( http://arxiv.org/abs/2211.03885v1 )

ライセンス: Link先を確認
Andrey Ignatov and Radu Timofte and Shuai Liu and Chaoyu Feng and Furui Bai and Xiaotao Wang and Lei Lei and Ziyao Yi and Yan Xiang and Zibin Liu and Shaoqing Li and Keming Shi and Dehui Kong and Ke Xu and Minsu Kwon and Yaqi Wu and Jiesi Zheng and Zhihao Fan and Xun Wu and Feng Zhang and Albert No and Minhyeok Cho and Zewen Chen and Xiaze Zhang and Ran Li and Juan Wang and Zhiming Wang and Marcos V. Conde and Ui-Jin Choi and Georgy Perevozchikov and Egor Ershov and Zheng Hui and Mengchuan Dong and Xin Lou and Wei Zhou and Cong Pang and Haina Qin and Mingxuan Cai(参考訳) モバイルカメラの役割はここ数年で劇的に向上し、自動画質向上とraw写真処理の分野で研究が増えている。 このMobile AIチャレンジでは、TensorFlow Liteを使用して最新のスマートフォンGPU上で実行できる標準のモバイルISPを置き換える、効率的なエンドツーエンドAIベースの画像信号処理(ISP)パイプラインを開発することが目標だった。 参加者は、通常のモバイルカメラセンサーで撮影した数千枚の写真と、プロの102MPのFujiFilm GFX100カメラからなる大規模なFujifilm UltraISPデータセットが提供された。 その結果得られたモデルのランタイムはSnapdragonの8 Gen 1 GPUで評価され、一般的なディープラーニング運用の大部分で優れた加速結果が得られた。 提案されたソリューションは、最近のすべてのモバイルGPUと互換性があり、フルHD写真を20-50ミリ秒未満で処理でき、高い忠実度を達成できる。 本論文では,本課題で開発された全モデルについて詳述する。

The role of mobile cameras increased dramatically over the past few years, leading to more and more research in automatic image quality enhancement and RAW photo processing. In this Mobile AI challenge, the target was to develop an efficient end-to-end AI-based image signal processing (ISP) pipeline replacing the standard mobile ISPs that can run on modern smartphone GPUs using TensorFlow Lite. The participants were provided with a large-scale Fujifilm UltraISP dataset consisting of thousands of paired photos captured with a normal mobile camera sensor and a professional 102MP medium-format FujiFilm GFX100 camera. The runtime of the resulting models was evaluated on the Snapdragon's 8 Gen 1 GPU that provides excellent acceleration results for the majority of common deep learning ops. The proposed solutions are compatible with all recent mobile GPUs, being able to process Full HD photos in less than 20-50 milliseconds while achieving high fidelity results. A detailed description of all models developed in this challenge is provided in this paper.
翻訳日:2022-11-09 16:29:41 公開日:2022-11-07
# 3Dの共通ペット:リアルライフの変形可能なカテゴリの動的新ビュー合成

Common Pets in 3D: Dynamic New-View Synthesis of Real-Life Deformable Categories ( http://arxiv.org/abs/2211.03889v1 )

ライセンス: Link先を確認
Samarth Sinha, Roman Shapovalov, Jeremy Reizenstein, Ignacio Rocco, Natalia Neverova, Andrea Vedaldi, David Novotny(参考訳) スパースビューからのオブジェクトの光現実的再構成は本質的に曖昧であり、適切な再構築前を学習することでのみ達成できる。 初期の研究は、CO3Dのような大規模なデータセットから、厳密なオブジェクト再構成をうまく学んでいた。 本稿では、このアプローチを動的オブジェクトにも拡張する。 猫と犬を代表例として用いており、約4200匹の異なるペットをクラウドソーシングしたビデオ集であるCommon Pets in 3D(CoP3D)を紹介している。 CoP3Dは、非厳密な3D再構築を"野生"でベンチマークするための最初の大規模データセットの1つである。 また,データセットから4次元再構成を学習するトラッカー-NeRFを提案する。 テスト時には、目に見えないオブジェクトの少数のビデオフレームが与えられたとき、Tracker-NeRFはその3Dポイントの軌跡を予測し、新しいビューを生成し、視点と時間を補間する。 CoP3Dの結果は、既存のベースラインよりも、厳密でない新規ビュー合成性能が著しく向上した。

Obtaining photorealistic reconstructions of objects from sparse views is inherently ambiguous and can only be achieved by learning suitable reconstruction priors. Earlier works on sparse rigid object reconstruction successfully learned such priors from large datasets such as CO3D. In this paper, we extend this approach to dynamic objects. We use cats and dogs as a representative example and introduce Common Pets in 3D (CoP3D), a collection of crowd-sourced videos showing around 4,200 distinct pets. CoP3D is one of the first large-scale datasets for benchmarking non-rigid 3D reconstruction "in the wild". We also propose Tracker-NeRF, a method for learning 4D reconstruction from our dataset. At test time, given a small number of video frames of an unseen object, Tracker-NeRF predicts the trajectories of its 3D points and generates new views, interpolating viewpoint and time. Results on CoP3D reveal significantly better non-rigid new-view synthesis performance than existing baselines.
翻訳日:2022-11-09 16:29:22 公開日:2022-11-07
# visClust:直交射影に基づく視覚的クラスタリングアルゴリズム

visClust: A visual clustering algorithm based on orthogonal projections ( http://arxiv.org/abs/2211.03894v1 )

ライセンス: Link先を確認
Anna Breger, Clemens Karner, Martin Ehler(参考訳) 本稿では,低次元データ表現と視覚的解釈に基づく新しいクラスタリングアルゴリズムであるvisclustを提案する。 そこで我々は、データをバイナリ整数配列で表現できる変換をデザインし、画像処理手法のさらなる利用による分割の選択を可能にする。 定性的かつ定量的な分析により、アルゴリズムは高い精度(調整された一方的なRand-Indexで測定)を獲得し、低ランタイムとRAMを必要とすることが示された。 その結果を最先端アルゴリズム6種と比較し,ほとんどの実験で有意な結果を得た。 さらに、アルゴリズムは、オプションパラメータによる最適化を可能にしながら、義務入力パラメータを1つだけ要求する。 コードはGitHubで公開されている。

We present a novel clustering algorithm, visClust, that is based on lower dimensional data representations and visual interpretation. Thereto, we design a transformation that allows the data to be represented by a binary integer array enabling the further use of image processing methods to select a partition. Qualitative and quantitative analyses show that the algorithm obtains high accuracy (measured with an adjusted one-sided Rand-Index) and requires low runtime and RAM. We compare the results to 6 state-of-the-art algorithms, confirming the quality of visClust by outperforming in most experiments. Moreover, the algorithm asks for just one obligatory input parameter while allowing optimization via optional parameters. The code is made available on GitHub.
翻訳日:2022-11-09 16:29:06 公開日:2022-11-07
# tourette 症候群の未撮影ビデオにおける顔面tic検出

Facial Tic Detection in Untrimmed Videos of Tourette Syndrome Patients ( http://arxiv.org/abs/2211.03895v1 )

ライセンス: Link先を確認
Yutao Tang, Benjam\'in B\'ejar, Joey K.-Y. Essoe, Joseph F. McGuire and Ren\'e Vidal(参考訳) トゥレット・シンドローム(ts)は、小児期に発症する行動障害であり、不随意運動と一般的にticsと呼ばれる音の発現が特徴である。 行動療法は、TS患者の第一線治療であり、患者が tic の発生に対する認識を高め、 tic の抑制戦略を発達させるのに役立つ。 しかし、セラピストの可用性が制限され、在宅での作業が困難になるため、その効果は制限される。 展開が容易なtic自動検出システムは、ticの認知度を高めながら患者にフィードバックを提供することで、ホームセラピーの困難を軽減できる。 そこで本研究では,非トリミングビデオの自動検出と分類のための新しいアーキテクチャ(T-Net)を提案する。 t-netは時間的検出とセグメンテーションを結合し、臨床医に解釈可能な特徴に基づいて動作する。 我々は,T-Netと,生のビデオから抽出した深部機能を利用する最先端システムを比較し,T-Netは臨床実習に必要な解釈可能な機能に依存しながら,平均精度で同等の性能を発揮する。

Tourette Syndrome (TS) is a behavior disorder that onsets in childhood and is characterized by the expression of involuntary movements and sounds commonly referred to as tics. Behavioral therapy is the first-line treatment for patients with TS, and it helps patients raise awareness about tic occurrence as well as develop tic inhibition strategies. However, the limited availability of therapists and the difficulties for in-home follow up work limits its effectiveness. An automatic tic detection system that is easy to deploy could alleviate the difficulties of home-therapy by providing feedback to the patients while exercising tic awareness. In this work, we propose a novel architecture (T-Net) for automatic tic detection and classification from untrimmed videos. T-Net combines temporal detection and segmentation and operates on features that are interpretable to a clinician. We compare T-Net to several state-of-the-art systems working on deep features extracted from the raw videos and T-Net achieves comparable performance in terms of average precision while relying on interpretable features needed in clinical practice.
翻訳日:2022-11-09 16:28:53 公開日:2022-11-07
# データ効率の良いファインチューニングのためのマルチヘッドアダプタルーティング

Multi-Head Adapter Routing for Data-Efficient Fine-Tuning ( http://arxiv.org/abs/2211.03831v1 )

ライセンス: Link先を確認
Lucas Caccia, Edoardo Ponti, Lucas Liu, Matheus Pereira, Nicolas Le Roux, Alessandro Sordoni(参考訳) パラメータ効率のよい微調整(PEFT)手法は、少数の新しいパラメータをトレーニングすることで、大きな言語モデルを下流タスクに適応させることができる。 マルチタスク設定では、PEFTアダプタは、通常、各タスクを個別にトレーニングし、タスク間の転送を阻害し、または全てのタスクの連結を阻害し、負の干渉を引き起こす。 これを解決するために、Polytropon (Ponti et al.)はPEFTアダプタの在庫と、タスク間で可変サイズのアダプタセットを共有するルーティング関数を共同で学習する。 その後、アダプタを再結合して、限られたデータでも新しいタスクで微調整することができる。 本稿では,各タスクに対してどのアダプタがアクティブかを制御する能力が,サンプル効率の一般化につながるかを検討する。 したがって、ルーティング関数を学習する代わりに、少数ショット適応(Poly-mu)の前に、アダプタの重み付け平均化を行うような表現の少ない変種を提案する。 さらに,マルチヘッドルーティング機能(poly-s)により,より粒度の細かいタスク適応アロケーションが学習される,より表現豊かな変種を導入する。 マルチタスク学習のための3つのベンチマークでこれらの変種をテストする。 この結果から,Poly-S は3点 (平均5.3 点まで) で高いベースラインを上回り,パラメータカウントの無視可能な追加コストが生じることがわかった。 特に,各タスクの自然言語命令に対してモデルを完全に微調整する命令チューニングは,ポリトロポンや提案した変種のようなモジュラー手法に劣ることがわかった。

Parameter-efficient fine-tuning (PEFT) methods can adapt large language models to downstream tasks by training a small amount of newly added parameters. In multi-task settings, PEFT adapters typically train on each task independently, inhibiting transfer across tasks, or on the concatenation of all tasks, which can lead to negative interference. To address this, Polytropon (Ponti et al.) jointly learns an inventory of PEFT adapters and a routing function to share variable-size sets of adapters across tasks. Subsequently, adapters can be re-combined and fine-tuned on novel tasks even with limited data. In this paper, we investigate to what extent the ability to control which adapters are active for each task leads to sample-efficient generalization. Thus, we propose less expressive variants where we perform weighted averaging of the adapters before few-shot adaptation (Poly-mu) instead of learning a routing function. Moreover, we introduce more expressive variants where finer-grained task-adapter allocation is learned through a multi-head routing function (Poly-S). We test these variants on three separate benchmarks for multi-task learning. We find that Poly-S achieves gains on all three (up to 5.3 points on average) over strong baselines, while incurring a negligible additional cost in parameter count. In particular, we find that instruction tuning, where models are fully fine-tuned on natural language instructions for each task, is inferior to modular methods such as Polytropon and our proposed variants.
翻訳日:2022-11-09 16:20:56 公開日:2022-11-07
# データ・知識獲得ワークショップ2022(PKAW 2022)の原則と実践

Proceedings of Principle and practice of data and Knowledge Acquisition Workshop 2022 (PKAW 2022) ( http://arxiv.org/abs/2211.03888v1 )

ライセンス: Link先を確認
Qing Liu, Wenli Yang, Shiqing Wu(参考訳) 過去20年間にわたり、pkawは研究者や実践者に対して、知識獲得と機械学習(mi、同じく人工知能、ai)の分野での最新技術について議論するフォーラムを提供してきた。 PKAW2022は上記の焦点を継続し、AI技術やアプリケーションだけでなく、人間とビッグデータによる知識獲得の多分野的アプローチへの貢献を歓迎する。

Over the past two decades, PKAW has provided a forum for researchers and practitioners to discuss the state-of-the-arts in the area of knowledge acquisition and machine intelligence (MI, also Artificial Intelligence, AI). PKAW2022 will continue the above focus and welcome the contributions on the multi-disciplinary approach of human and big data-driven knowledge acquisition, as well as AI techniques and applications.
翻訳日:2022-11-09 16:20:31 公開日:2022-11-07
# 人間はユーティリティと計算コストのトレードオフによってタスクを分解する

Humans decompose tasks by trading off utility and computational cost ( http://arxiv.org/abs/2211.03890v1 )

ライセンス: Link先を確認
Carlos G. Correa, Mark K. Ho, Frederick Callaway, Nathaniel D. Daw, Thomas L. Griffiths(参考訳) 人間の振る舞いは、タスクの精巧な分解を目標、サブゴール、低レベルのアクションに計画することから生まれる。 これらの分解はどのように作成され、使用されるか? 本稿では,タスク性能を維持しつつ,計画全体のコストを削減するために,タスクを分解する,というシンプルな考え方に基づいて,タスク分解の規範的枠組みを提案し,評価する。 11,117の異なるグラフ構造化計画タスクを分析し、我々のフレームワークはタスク分解のためのいくつかの既存のヒューリスティックを正当化し、2つの代替規範的アカウントと区別できる予測を行う。 本稿では,30個のランダムサンプリンググラフを用いたタスク分解(N=806$)の行動学的研究について報告する。 人間の反応は、代替の規範的アカウントよりもタスク分解の枠組みと一致しており、我々のアプローチによって正当化されるヒューリスティックな-相互中心性-と最も一致している。 その結果,目標指向行動の知的構造化の基礎となる計算原理に関する新たな理論的知見が得られた。

Human behavior emerges from planning over elaborate decompositions of tasks into goals, subgoals, and low-level actions. How are these decompositions created and used? Here, we propose and evaluate a normative framework for task decomposition based on the simple idea that people decompose tasks to reduce the overall cost of planning while maintaining task performance. Analyzing 11,117 distinct graph-structured planning tasks, we find that our framework justifies several existing heuristics for task decomposition and makes predictions that can be distinguished from two alternative normative accounts. We report a behavioral study of task decomposition ($N=806$) that uses 30 randomly sampled graphs, a larger and more diverse set than that of any previous behavioral study on this topic. We find that human responses are more consistent with our framework for task decomposition than alternative normative accounts and are most consistent with a heuristic -- betweenness centrality -- that is justified by our approach. Taken together, our results provide new theoretical insight into the computational principles underlying the intelligent structuring of goal-directed behavior.
翻訳日:2022-11-09 16:20:22 公開日:2022-11-07
# 無人航空機の機械学習支援操作と通信--現代調査

Machine Learning-Aided Operations and Communications of Unmanned Aerial Vehicles: A Contemporary Survey ( http://arxiv.org/abs/2211.04324v1 )

ライセンス: Link先を確認
Harrison Kurunathan, Hailong Huang, Kai Li, Wei Ni, and Ekram Hossain(参考訳) UAVとMLの技術の融合が進行中であることは、前例のない知性と自律性を備えたUAVの大きなシナジーと強化を生み出している。 本調査は,UAV運用および通信に使用されるML技術の概要をタイムリーかつ包括的に把握し,潜在的な成長領域と研究ギャップを特定することを目的としている。 我々は,UAV操作とコミュニケーションにおいて,認識と特徴抽出,特徴解釈と再生,軌道計画とミッション計画,空力制御と運用の4つの重要な要素を強調した。 最新のMLツールを4つのコンポーネントへの応用に基づいて分類し、ギャップ分析を行う。 この調査は、MLが支援する自動UAV操作と通信の領域における、今後の課題を指摘し、一歩前進する。 異なるML技術がUAV操作と通信の4つの重要なモジュールのアプリケーションを支配していることが明らかとなった。 クロスモジュール設計のトレンドは増えているが、知覚や特徴抽出から空力制御や操作に至るまで、エンドツーエンドのmlフレームワークへの取り組みは少ない。 また、UAVの運用や応用におけるMLの信頼性と信頼性は、UAVの完全自動化や、UAVと人間との潜在的な協力が実現される前にかなりの注意が必要であることも明らかにされた。

The ongoing amalgamation of UAV and ML techniques is creating a significant synergy and empowering UAVs with unprecedented intelligence and autonomy. This survey aims to provide a timely and comprehensive overview of ML techniques used in UAV operations and communications and identify the potential growth areas and research gaps. We emphasise the four key components of UAV operations and communications to which ML can significantly contribute, namely, perception and feature extraction, feature interpretation and regeneration, trajectory and mission planning, and aerodynamic control and operation. We classify the latest popular ML tools based on their applications to the four components and conduct gap analyses. This survey also takes a step forward by pointing out significant challenges in the upcoming realm of ML-aided automated UAV operations and communications. It is revealed that different ML techniques dominate the applications to the four key modules of UAV operations and communications. While there is an increasing trend of cross-module designs, little effort has been devoted to an end-to-end ML framework, from perception and feature extraction to aerodynamic control and operation. It is also unveiled that the reliability and trust of ML in UAV operations and applications require significant attention before full automation of UAVs and potential cooperation between UAVs and humans come to fruition.
翻訳日:2022-11-09 16:03:49 公開日:2022-11-07
# 電力系統故障定位に対する物理制約バックドア攻撃

Physics-Constrained Backdoor Attacks on Power System Fault Localization ( http://arxiv.org/abs/2211.04445v1 )

ライセンス: Link先を確認
Jianing Bai, Ren Wang, Zuyi Li(参考訳) ディープラーニング(DL)技術の進歩は、不確実性や非線形性の増加に苦しむ現代の電力システムにおいて、多くの複雑なタスクに革新的な技術的ブレークスルーをもたらす可能性がある。 しかし、DLの脆弱性は、様々な物理的制約の下での電力系統タスクにおいて、まだ徹底的に調査されていない。 本研究は, 新たに物理制約されたバックドア中毒攻撃を提案し, 検出不能な攻撃信号を学習モデルに埋め込み, 対応する信号に遭遇した場合のみ攻撃を行う。 本論文は,リアルタイム故障ラインローカライズアプリケーションに対する攻撃手法について述べる。 さらに,68バス電力系統のシミュレーション結果から,dlベースの故障ライン位置推定手法が提案する攻撃に対して頑健ではないことを証明し,バックドア中毒攻撃が電力系統におけるdl実装に真の脅威をもたらすことを示唆した。 提案する攻撃パイプラインは他の電力系統タスクに容易に一般化できる。

The advances in deep learning (DL) techniques have the potential to deliver transformative technological breakthroughs to numerous complex tasks in modern power systems that suffer from increasing uncertainty and nonlinearity. However, the vulnerability of DL has yet to be thoroughly explored in power system tasks under various physical constraints. This work, for the first time, proposes a novel physics-constrained backdoor poisoning attack, which embeds the undetectable attack signal into the learned model and only performs the attack when it encounters the corresponding signal. The paper illustrates the proposed attack on the real-time fault line localization application. Furthermore, the simulation results on the 68-bus power system demonstrate that DL-based fault line localization methods are not robust to our proposed attack, indicating that backdoor poisoning attacks pose real threats to DL implementations in power systems. The proposed attack pipeline can be easily generalized to other power system tasks.
翻訳日:2022-11-09 16:02:45 公開日:2022-11-07
# 細胞 : 生物医学的レイ言語生成のための並列コーパス

CELLS: A Parallel Corpus for Biomedical Lay Language Generation ( http://arxiv.org/abs/2211.03818v1 )

ライセンス: Link先を確認
Yue Guo, Wei Qiu, Gondy Leroy, Sheng Wang, Trevor Cohen(参考訳) 最近のlay言語生成システムは、並列コーパスでトレーニングされたトランスフォーマモデルを使用して、健康情報アクセシビリティを高めている。 しかし、これらのモデルの適用性は、利用可能なコーパスのサイズとトピックの幅に制限されている。 本稿では,最大 (63kペア) および最大 (12ジャーナル) 並列コーパスである CellS を紹介した。 抽象化とそれに対応するレイ言語要約はドメインの専門家によって書かれ、データセットの品質が保証されます。 さらに,専門家による素言語要約の質的評価により,アクセシビリティ向上の鍵となる背景説明が明らかになった。 このような説明は、ソースにないコンテンツを追加することで単純化を超越するため、神経モデルにとって難しい。 我々はCellSから2つの特別なペアコーパスを抽出し、素言語生成における重要な課題に対処する。 我々は,背景説明生成作業に直感的に適合する検索拡張モデルを採用し,事実的正確性を維持しつつ,要約品質と簡易性の向上を示す。 本研究は,科学的知識を幅広い読者に広める道筋をたどった,在来語生成の背景説明に関する最初の総合的研究である。 CellS は https://github.com/LinguisticAnomalies/pls_retrieval で公開されている。

Recent lay language generation systems have used Transformer models trained on a parallel corpus to increase health information accessibility. However, the applicability of these models is constrained by the limited size and topical breadth of available corpora. We introduce CELLS, the largest (63k pairs) and broadest-ranging (12 journals) parallel corpus for lay language generation. The abstract and the corresponding lay language summary are written by domain experts, assuring the quality of our dataset. Furthermore, qualitative evaluation of expert-authored plain language summaries has revealed background explanation as a key strategy to increase accessibility. Such explanation is challenging for neural models to generate because it goes beyond simplification by adding content absent from the source. We derive two specialized paired corpora from CELLS to address key challenges in lay language generation: generating background explanations and simplifying the original abstract. We adopt retrieval-augmented models as an intuitive fit for the task of background explanation generation, and show improvements in summary quality and simplicity while maintaining factual correctness. Taken together, this work presents the first comprehensive study of background explanation for lay language generation, paving the path for disseminating scientific knowledge to a broader audience. CELLS is publicly available at: https://github.com/LinguisticAnomalies/pls_retrieval.
翻訳日:2022-11-09 16:02:31 公開日:2022-11-07
# AX-MABSA: 極端に弱められたマルチラベルアスペクトに基づく知覚分析のためのフレームワーク

AX-MABSA: A Framework for Extremely Weakly Supervised Multi-label Aspect Based Sentiment Analysis ( http://arxiv.org/abs/2211.03837v1 )

ライセンス: Link先を確認
Sabyasachi Kamila, Walid Magdy, Sourav Dutta and MingXue Wang(参考訳) アスペクトベースのセンチメント分析は、ソーシャルメディア分析、ビジネス、ファイナンス、健康に潜在的な応用を持つ主要な研究分野である。 この分野の先行研究は、主に教師付き手法に基づいており、レビュー文あたりの1つのアスペクトカテゴリの予測に制限された弱い監督技術を用いている。 本稿では,ラベル付きデータを使用しない,非常に弱い教師付きマルチラベルAspect Category Sentiment Analysisフレームワークを提案する。 初歩的な情報としてクラスごとに1つの単語しか頼りにしません。 さらに,これらの種別と感情語を自動選択する単語選択手法を提案する。 我々は,教師なし言語モデルによる学習を総合的な性能向上のために検討し,レビュー文毎に複数のアスペクトカテゴリ・強調ペアを生成するマルチラベル生成モデルを提案する。 4つのベンチマークデータセットで行った実験では、他の弱い教師付きベースラインをかなりの差で上回る方法を示した。

Aspect Based Sentiment Analysis is a dominant research area with potential applications in social media analytics, business, finance, and health. Prior works in this area are primarily based on supervised methods, with a few techniques using weak supervision limited to predicting a single aspect category per review sentence. In this paper, we present an extremely weakly supervised multi-label Aspect Category Sentiment Analysis framework which does not use any labelled data. We only rely on a single word per class as an initial indicative information. We further propose an automatic word selection technique to choose these seed categories and sentiment words. We explore unsupervised language model post-training to improve the overall performance, and propose a multi-label generator model to generate multiple aspect category-sentiment pairs per review sentence. Experiments conducted on four benchmark datasets showcase our method to outperform other weakly supervised baselines by a significant margin.
翻訳日:2022-11-09 16:02:10 公開日:2022-11-07
# 概観する:自然言語推論における単語オーバーラップバイアスの分析

Looking at the Overlooked: An Analysis on the Word-Overlap Bias in Natural Language Inference ( http://arxiv.org/abs/2211.03862v1 )

ライセンス: Link先を確認
Sara Rajaee, Yadollah Yaghoobzadeh, Mohammad Taher Pilehvar(参考訳) nliモデルは通常、前提と仮説の間の単語オーバーラップに関して偏りがあることが示されている。 本稿では、NLIモデルにおける重複バイアスの見過ごされた側面、すなわち逆ワードオーバーラップバイアスに焦点を当てる。 実験の結果,現状のnliモデルでは,重複度の低いインスタンスでは非制限ラベルに対して高いバイアスがかかっており,既存の課題データセットで成功したとされる既存のデバイアス手法は,一般的にはバイアスのカテゴリに対処できないことがわかった。 本稿では,重複バイアスの発生原因と,その緩和における少数例の役割について検討する。 前者にとって、単語オーバーラップバイアスは事前学習に起因していないことが分かり、後者については、受け入れられた仮定とは対照的に、少数例を排除することは、重複バイアスに関するデバイアス手法の一般化に影響を及ぼさない。

It has been shown that NLI models are usually biased with respect to the word-overlap between premise and hypothesis; they take this feature as a primary cue for predicting the entailment label. In this paper, we focus on an overlooked aspect of the overlap bias in NLI models: the reverse word-overlap bias. Our experimental results demonstrate that current NLI models are highly biased towards the non-entailment label on instances with low overlap, and the existing debiasing methods, which are reportedly successful on existing challenge datasets, are generally ineffective in addressing this category of bias. We investigate the reasons for the emergence of the overlap bias and the role of minority examples in its mitigation. For the former, we find that the word-overlap bias does not stem from pre-training, and for the latter, we observe that in contrast to the accepted assumption, eliminating minority examples does not affect the generalizability of debiasing methods with respect to the overlap bias.
翻訳日:2022-11-09 16:01:56 公開日:2022-11-07
# 識別情報を用いたプライベートセット生成

Private Set Generation with Discriminative Information ( http://arxiv.org/abs/2211.04446v1 )

ライセンス: Link先を確認
Dingfan Chen, Raouf Kerkouche, Mario Fritz(参考訳) 機密ドメインの科学的な進歩に不可欠な厳密なプライバシー保証を遵守しながら、データの共有を可能にする。 残念なことに、高次元分布のモデル化の固有の複雑さによって制限された既存のプライベート生成モデルは、合成サンプルの有用性に苦しめられている。 完全データ分布に適合することを目的とした既存の作業とは対照的に,ダウンストリームタスクからの識別情報の監督の下で分布を代表する少数のサンプルに対して直接最適化を行う。 本研究は,高次元データの差分プライベート生成のための代替的視点を提供し,最先端手法のサンプルの有用性を大幅に向上させる,単純かつ効果的な手法を提案する。

Differentially private data generation techniques have become a promising solution to the data privacy challenge -- it enables sharing of data while complying with rigorous privacy guarantees, which is essential for scientific progress in sensitive domains. Unfortunately, restricted by the inherent complexity of modeling high-dimensional distributions, existing private generative models are struggling with the utility of synthetic samples. In contrast to existing works that aim at fitting the complete data distribution, we directly optimize for a small set of samples that are representative of the distribution under the supervision of discriminative information from downstream tasks, which is generally an easier task and more suitable for private training. Our work provides an alternative view for differentially private generation of high-dimensional data and introduces a simple yet effective method that greatly improves the sample utility of state-of-the-art approaches.
翻訳日:2022-11-09 15:53:54 公開日:2022-11-07
# ランダム超完全モデル上のテンソルパワー反復の収束に対する下限

Lower Bounds for the Convergence of Tensor Power Iteration on Random Overcomplete Models ( http://arxiv.org/abs/2211.03827v1 )

ライセンス: Link先を確認
Yuchen Wu and Kangjie Zhou(参考訳) テンソル分解は統計学と機械学習において強力なプリミティブである。 本稿では、過完全乱数テンソルを分解するためにパワーイテレーションを使うことに焦点をあてる。 テンソルパワーイテレーションの性質を研究する過去の研究は、非自明なデータ独立初期化を必要とするか、あるいは不完全状態に制限されている。 さらに、いくつかの論文は暗黙的に、(入力次元の観点から)多くの反復はテンソル成分の1つを回復するパワー法に十分であると示唆している。 本稿では,過完全レジームにおけるランダム初期化からテンソルパワー反復のダイナミクスを解析する。 意外なことに、テンソルパワー反復の真成分への収束には多項式的な多くのステップが必要であることが示され、これは以前の予想に反する。 一方, 数値実験により, テンソルパワーの反復は, 多項式的に収束に多くのステップを要するにもかかわらず, 幅広いパラメータのテンソル成分を十分に回収できることが示唆された。 さらに実証的な証拠を補うために、テンソル分解の一般的な目的関数が電力反復経路に沿って厳密に増加することを証明した。 この証明は, 近似メッセージパッシング (AMP) アルゴリズムの解析に応用されたガウス条件付け法に基づいている。 この議論の主な要素は条件付き補題であり、AMP型解析を非局所的極限に一般化し、パワーメソッドの多項式的に多くの反復を可能にする。

Tensor decomposition serves as a powerful primitive in statistics and machine learning. In this paper, we focus on using power iteration to decompose an overcomplete random tensor. Past work studying the properties of tensor power iteration either requires a non-trivial data-independent initialization, or is restricted to the undercomplete regime. Moreover, several papers implicitly suggest that logarithmically many iterations (in terms of the input dimension) are sufficient for the power method to recover one of the tensor components. In this paper, we analyze the dynamics of tensor power iteration from random initialization in the overcomplete regime. Surprisingly, we show that polynomially many steps are necessary for convergence of tensor power iteration to any of the true component, which refutes the previous conjecture. On the other hand, our numerical experiments suggest that tensor power iteration successfully recovers tensor components for a broad range of parameters, despite that it takes at least polynomially many steps to converge. To further complement our empirical evidence, we prove that a popular objective function for tensor decomposition is strictly increasing along the power iteration path. Our proof is based on the Gaussian conditioning technique, which has been applied to analyze the approximate message passing (AMP) algorithm. The major ingredient of our argument is a conditioning lemma that allows us to generalize AMP-type analysis to non-proportional limit and polynomially many iterations of the power method.
翻訳日:2022-11-09 15:53:42 公開日:2022-11-07
# 深層学習による時系列変化点の自動検出

Automatic Change-Point Detection in Time Series via Deep Learning ( http://arxiv.org/abs/2211.03860v1 )

ライセンス: Link先を確認
Jie Li, Paul Fearnhead, Piotr Fryzlewicz, Tengyao Wang(参考訳) データにおける変更点の検出は、変更がない場合にデータの種類や動作のタイプが変更される可能性があるため、難しい。 統計的に効率的な変化検出手法はこれらの特徴の双方に依存しており、実践者が関心をそそる適切な検出方法を開発することは困難である。 ニューラルネットワークのトレーニングに基づいて,新しい検出手法を自動生成する方法を示す。 我々のアプローチは、変更点の存在を単純なニューラルネットワークで表現できるような既存の多くのテストによって動機付けられており、十分なデータでトレーニングされたニューラルネットワークは、これらの手法に匹敵するパフォーマンスを持つべきである。 このようなアプローチの誤り率を定量化する理論と、トレーニングデータの量に依存する方法を提案する。 実験結果によると, 訓練データに制限がある場合でも, ノイズが独立かつガウス的である場合の平均変化を検出するための標準CUSUMテストと競合し, オートコラージュノイズやヘビーテールノイズの存在下では著しく優れることがわかった。 また,加速度計データに基づく活動変化の検出と位置推定にも強い効果が得られた。

Detecting change-points in data is challenging because of the range of possible types of change and types of behaviour of data when there is no change. Statistically efficient methods for detecting a change will depend on both of these features, and it can be difficult for a practitioner to develop an appropriate detection method for their application of interest. We show how to automatically generate new detection methods based on training a neural network. Our approach is motivated by many existing tests for the presence of a change-point being able to be represented by a simple neural network, and thus a neural network trained with sufficient data should have performance at least as good as these methods. We present theory that quantifies the error rate for such an approach, and how it depends on the amount of training data. Empirical results show that, even with limited training data, its performance is competitive with the standard CUSUM test for detecting a change in mean when the noise is independent and Gaussian, and can substantially outperform it in the presence of auto-correlated or heavy-tailed noise. Our method also shows strong results in detecting and localising changes in activity based on accelerometer data.
翻訳日:2022-11-09 15:53:17 公開日:2022-11-07
# 単一経路からの政策評価:多段階法・混合・誤特定

Policy evaluation from a single path: Multi-step methods, mixing and mis-specification ( http://arxiv.org/abs/2211.03899v1 )

ライセンス: Link先を確認
Yaqi Duan, Martin J. Wainwright(参考訳) 無限水平$\gamma$-discounted Markov reward process (MRP) の値関数のパラメトリック推定を単一軌道からの観測により検討した。 我々は、カーネルベースの多段階時間差(td)推定の一般ファミリーに対して、k = 1, 2, \ldots$ に対して、k$-step look-ahead td を、特別な場合として、td$(\lambda)$ family を $\lambda \in [0,1)$ とする非漸近的保証を提供する。 我々の境界はベルマンの揺らぎ、マルコフ連鎖の混合時間、モデル内の任意の誤特定、および推定器自身を定義する重み関数の選択に依存し、混合時間とモデルの誤特定の間の微妙な相互作用を明らかにする。 適切に特定されたモデルに適用された与えられたTD法の場合、軌道データの下での統計誤差はサンプル遷移ペアのものと似ているが、データ中の時間的依存は統計誤差を膨らませる。 しかし、このような劣化はルックアヘッドの増加によって緩和できる。 我々は,TD手法の最適性を適切に選択したルックアヘッドと重み付けで証明するミニマックス下界を証明し,値関数推定と通常の非パラメトリック回帰の基本的な相違を明らかにする。

We study non-parametric estimation of the value function of an infinite-horizon $\gamma$-discounted Markov reward process (MRP) using observations from a single trajectory. We provide non-asymptotic guarantees for a general family of kernel-based multi-step temporal difference (TD) estimates, including canonical $K$-step look-ahead TD for $K = 1, 2, \ldots$ and the TD$(\lambda)$ family for $\lambda \in [0,1)$ as special cases. Our bounds capture its dependence on Bellman fluctuations, mixing time of the Markov chain, any mis-specification in the model, as well as the choice of weight function defining the estimator itself, and reveal some delicate interactions between mixing time and model mis-specification. For a given TD method applied to a well-specified model, its statistical error under trajectory data is similar to that of i.i.d. sample transition pairs, whereas under mis-specification, temporal dependence in data inflates the statistical error. However, any such deterioration can be mitigated by increased look-ahead. We complement our upper bounds by proving minimax lower bounds that establish optimality of TD-based methods with appropriately chosen look-ahead and weighting, and reveal some fundamental differences between value function estimation and ordinary non-parametric regression.
翻訳日:2022-11-09 15:52:57 公開日:2022-11-07
# スコアベース前の強い重力レンズにおける源銀河の後方サンプル

Posterior samples of source galaxies in strong gravitational lenses with score-based priors ( http://arxiv.org/abs/2211.03812v1 )

ライセンス: Link先を確認
Alexandre Adam, Adam Coogan, Nikolay Malkin, Ronan Legin, Laurence Perreault-Levasseur, Yashar Hezaveh and Yoshua Bengio(参考訳) 重力レンズの光源の輝度の高次元表現のための正確な後方推定は、事前の正確な定量化が難しいこともあって、大きな課題である。 本稿では、背景銀河の未観測画像の推測に先行する値をエンコードするためのスコアベースモデルの利用について報告する。 このモデルは、歪んだ銀河の高解像度画像に基づいて訓練されている。 確率スコアを前値に加え、逆時間確率微分方程式解法を用いて後値からサンプルを得る。 提案手法は, 独立した後部サンプルを生成し, ほぼノイズレベルまでデータをモデル化する。 分散データを用いた実験で,確率と事前のバランスが期待を満たしていることを示す。

Inferring accurate posteriors for high-dimensional representations of the brightness of gravitationally-lensed sources is a major challenge, in part due to the difficulties of accurately quantifying the priors. Here, we report the use of a score-based model to encode the prior for the inference of undistorted images of background galaxies. This model is trained on a set of high-resolution images of undistorted galaxies. By adding the likelihood score to the prior score and using a reverse-time stochastic differential equation solver, we obtain samples from the posterior. Our method produces independent posterior samples and models the data almost down to the noise level. We show how the balance between the likelihood and the prior meet our expectations in an experiment with out-of-distribution data.
翻訳日:2022-11-09 15:52:13 公開日:2022-11-07
# ToDD:コンピュータ支援ドラッグ発見におけるトポロジカル化合物フィンガープリント

ToDD: Topological Compound Fingerprinting in Computer-Aided Drug Discovery ( http://arxiv.org/abs/2211.03808v1 )

ライセンス: Link先を確認
Andac Demir, Baris Coskunuzer, Ignacio Segovia-Dominguez, Yuzhou Chen, Yulia Gel, Bulent Kiziltan(参考訳) コンピュータ支援薬物発見(CADD)において、仮想スクリーニング(VS)は、化合物の大きなライブラリーにおいて分子標的に結合する可能性が最も高い薬物候補を特定するために用いられる。 これまでのVSのほとんどの手法は、標準化合物表現(SMILES文字列、モーガン指紋など)の使用や、より複雑な変分オートエンコーダ(VAE)とグラフニューラルネットワーク(GNN)の訓練によって、化合物の代替指紋の生成に重点を置いてきた。 VAEとGNNはVSのパフォーマンスを大幅に改善したが、これらのメソッドは大規模な仮想複合データセットへのスケーリング時のパフォーマンス低下に悩まされている。 これらの手法のパフォーマンスは、過去数年間で漸進的な改善しか示していない。 この問題に対処するため,多次元ベクトルとして化合物のトポロジ的指紋を生成する多パラメータ持続性(MP)ホモロジーを用いた新しい手法を開発した。 我々の主要な貢献は、原子の周期的性質から情報を得た化合物を化学サブ構造に分割し、それらの持続的ホモロジー特徴を複数の解像度レベルで抽出することで、vsプロセスを新しいトポロジーベースのグラフランキング問題としてフレーミングすることである。 プレトレーニングトトリプルトネットワークのマージン損失微調整は, 組込み空間における化合物の相違や, 有効な薬物候補になる可能性のランク付けにおいて, 高い競争力を発揮することを示す。 さらに、提案MPシグネチャの安定性に関する理論的保証を確立し、MPシグネチャによって強化された我々のモデルが、幅広い統計的に有意な差(例えば、Cleves-Jainの93%、DUD-E Diverseの54%の利得)でベンチマークデータセットの最先端手法より優れていることを示す。

In computer-aided drug discovery (CADD), virtual screening (VS) is used for identifying the drug candidates that are most likely to bind to a molecular target in a large library of compounds. Most VS methods to date have focused on using canonical compound representations (e.g., SMILES strings, Morgan fingerprints) or generating alternative fingerprints of the compounds by training progressively more complex variational autoencoders (VAEs) and graph neural networks (GNNs). Although VAEs and GNNs led to significant improvements in VS performance, these methods suffer from reduced performance when scaling to large virtual compound datasets. The performance of these methods has shown only incremental improvements in the past few years. To address this problem, we developed a novel method using multiparameter persistence (MP) homology that produces topological fingerprints of the compounds as multidimensional vectors. Our primary contribution is framing the VS process as a new topology-based graph ranking problem by partitioning a compound into chemical substructures informed by the periodic properties of its atoms and extracting their persistent homology features at multiple resolution levels. We show that the margin loss fine-tuning of pretrained Triplet networks attains highly competitive results in differentiating between compounds in the embedding space and ranking their likelihood of becoming effective drug candidates. We further establish theoretical guarantees for the stability properties of our proposed MP signatures, and demonstrate that our models, enhanced by the MP signatures, outperform state-of-the-art methods on benchmark datasets by a wide and highly statistically significant margin (e.g., 93% gain for Cleves-Jain and 54% gain for DUD-E Diverse dataset).
翻訳日:2022-11-09 15:45:14 公開日:2022-11-07
# EEG-Fest:脳波信号を用いた運転者の視線推定のためのFew-shotベースの注意ネットワーク

EEG-Fest: Few-shot based Attention Network for Driver's Vigilance Estimation with EEG Signals ( http://arxiv.org/abs/2211.03878v1 )

ライセンス: Link先を確認
Ning Ding, Ce Zhang, Azim Eskandarian(参考訳) 運転士の警戒の欠如は、ほとんどの車両事故の主な原因である。 脳電図(EEG)は、運転者の眠気推定のための信頼性と効率的なツールである。 従来の研究では、正確で堅牢なドライバーの警戒検出アルゴリズムが開発されていたが、これらの手法は以下の領域で課題に直面している。 (a)小規模サンプルサイズの訓練。 (b)異常信号検出、及び (c)主観非依存分類 本稿では,上記の欠点を改善するために,脳波フェストという一般化された少数ショットモデルを提案する。 EEG-Festモデル (a)クエリサンプルの眠気をいくつかのサンプルで分類する。 (b)クエリサンプルが異常信号であるか否かを識別する、 (c)主観的独立分類を達成する。 提案アルゴリズムは,SEED-VIGデータセットとSADTデータセットの最先端結果を実現する。 ドローシークラスの精度は、SEED-VIGデータセットで1ショットと5ショットのサポートサンプルで92%と94%、SADTデータセットで1ショットと5ショットのサポートサンプルで62%と78%となる。

A lack of driver's vigilance is the main cause of most vehicle crashes. Electroencephalography(EEG) has been reliable and efficient tool for drivers' drowsiness estimation. Even though previous studies have developed accurate and robust driver's vigilance detection algorithms, these methods are still facing challenges on following areas: (a) small sample size training, (b) anomaly signal detection, and (c) subject-independent classification. In this paper, we propose a generalized few-shot model, namely EEG-Fest, to improve aforementioned drawbacks. The EEG-Fest model can (a) classify the query sample's drowsiness with a few samples, (b) identify whether a query sample is anomaly signals or not, and (c) achieve subject independent classification. The proposed algorithm achieves state-of-the-art results on the SEED-VIG dataset and the SADT dataset. The accuracy of the drowsy class achieves 92% and 94% for 1-shot and 5-shot support samples in the SEED-VIG dataset, and 62% and 78% for 1-shot and 5-shot support samples in the SADT dataset.
翻訳日:2022-11-09 15:44:38 公開日:2022-11-07
# FedGrad: 分散機械学習の最適化

FedGrad: Optimisation in Decentralised Machine Learning ( http://arxiv.org/abs/2211.04254v1 )

ライセンス: Link先を確認
Mann Patel(参考訳) フェデレートラーニング(Federated Learning)は、機械学習モデルを分散形式でトレーニングすることを目的とした機械学習パラダイムである。 多くのクライアント/エッジデバイスは、中央で単一のモデルをトレーニングするために互いに協力します。 クライアントは自身のデータセットを互いに共有せず、同じデバイス上で計算とデータを分離する。 本稿では,新たな適応型フェデレーション最適化法と,フェデレーション学習分野における他のアイデアを提案する。 また,これらの手法を用いて実験を行い,連合学習の全体的な性能改善を示す。

Federated Learning is a machine learning paradigm where we aim to train machine learning models in a distributed fashion. Many clients/edge devices collaborate with each other to train a single model on the central. Clients do not share their own datasets with each other, decoupling computation and data on the same device. In this paper, we propose yet another adaptive federated optimization method and some other ideas in the field of federated learning. We also perform experiments using these methods and showcase the improvement in the overall performance of federated learning.
翻訳日:2022-11-09 15:37:33 公開日:2022-11-07
# 大規模地図自動化のための畳み込みニューラルネットワークアーキテクチャの探索

Exploration of Convolutional Neural Network Architectures for Large Region Map Automation ( http://arxiv.org/abs/2211.03854v1 )

ライセンス: Link先を確認
R. M. Tsenov, C. J. Henry, J. L. Storie, C. D. Storie, B. Murray, M. Sokolov(参考訳) 深層学習セマンティックセグメンテーションアルゴリズムは、Land-UseとLand-Cover(LULC)マップの自動生産のための改良されたフレームワークを提供する。 本研究では,lulcマップの精度を向上させるため,28種類のモデルのバリエーションについて検討した。 実験は、ランドサット5/7またはランドサット8の衛星画像を北米のランドチェンジ監視システムラベルを用いて行った。 様々なCNNと拡張組み合わせの性能を評価し、VGGNetと出力ストライドが4で、修正されたU-Netアーキテクチャが最良の結果となった。 生成したLULCマップのさらなる拡張分析も提供された。 ディープニューラルネットワークを用いて、この研究はマニトバ南部の13のLULCクラスに対して92.4%の精度を達成し、NALCMSの結果よりも15.8%改善した。 利害関係が大きい地域では、ランドサット8号の放射能分解能が高く、16のllcクラスでランドサット5/7 (80.66%) と比較すると、全体的な精度(88.04%)が向上した。 これは、これまで公表されたNALCMS結果と比較して11.44%と4.06%の精度向上を示しており、また、他のLULCマップ自動化手法と比較して、より大きな土地面積とLULCクラスがモデルに組み込まれている。

Deep learning semantic segmentation algorithms have provided improved frameworks for the automated production of Land-Use and Land-Cover (LULC) maps, which significantly increases the frequency of map generation as well as consistency of production quality. In this research, a total of 28 different model variations were examined to improve the accuracy of LULC maps. The experiments were carried out using Landsat 5/7 or Landsat 8 satellite images with the North American Land Change Monitoring System labels. The performance of various CNNs and extension combinations were assessed, where VGGNet with an output stride of 4, and modified U-Net architecture provided the best results. Additional expanded analysis of the generated LULC maps was also provided. Using a deep neural network, this work achieved 92.4% accuracy for 13 LULC classes within southern Manitoba representing a 15.8% improvement over published results for the NALCMS. Based on the large regions of interest, higher radiometric resolution of Landsat 8 data resulted in better overall accuracies (88.04%) compare to Landsat 5/7 (80.66%) for 16 LULC classes. This represents an 11.44% and 4.06% increase in overall accuracy compared to previously published NALCMS results, including larger land area and higher number of LULC classes incorporated into the models compared to other published LULC map automation methods.
翻訳日:2022-11-09 15:36:03 公開日:2022-11-07
# nsnet: 充足可能性問題の汎用的確率的枠組み

NSNet: A General Neural Probabilistic Framework for Satisfiability Problems ( http://arxiv.org/abs/2211.03880v1 )

ライセンス: Link先を確認
Zhaoyu Li and Xujie Si(参考訳) 本稿では、確率論的推論として満足度問題をモデル化し、適切な説明可能性を示す一般的なニューラルネットワークフレームワークNSNetを提案する。 Belief Propagation (BP)にインスパイアされたNSNetは、新しいグラフニューラルネットワーク(GNN)を使用して潜伏空間におけるBPをパラメータ化し、その隠れ表現はBPと同じ確率論的解釈を維持する。 NSNetは、異なる学習目標を適用することでSATと#SATの問題を解決するように柔軟に設定できる。 SATでは、満足度の高い代入を直接予測する代わりに、NSNetは満足度の高いすべてのソリューションの限界推論を実行します。 推定限界により、確率的局所探索を丸めて実行することにより、満足度の高い割当を効率的に生成することができる。 nsnetは#satに対して分割関数の近似を学習して近似モデルカウントを行う。 評価の結果,NSNet は複数の SAT および #SAT データセット上での推測精度と時間効率の点で競合する結果が得られることがわかった。

We present the Neural Satisfiability Network (NSNet), a general neural framework that models satisfiability problems as probabilistic inference and meanwhile exhibits proper explainability. Inspired by the Belief Propagation (BP), NSNet uses a novel graph neural network (GNN) to parameterize BP in the latent space, where its hidden representations maintain the same probabilistic interpretation as BP. NSNet can be flexibly configured to solve both SAT and #SAT problems by applying different learning objectives. For SAT, instead of directly predicting a satisfying assignment, NSNet performs marginal inference among all satisfying solutions, which we empirically find is more feasible for neural networks to learn. With the estimated marginals, a satisfying assignment can be efficiently generated by rounding and executing a stochastic local search. For #SAT, NSNet performs approximate model counting by learning the Bethe approximation of the partition function. Our evaluations show that NSNet achieves competitive results in terms of inference accuracy and time efficiency on multiple SAT and #SAT datasets.
翻訳日:2022-11-09 15:26:42 公開日:2022-11-07
# 政治教師:相互学習と擬似ラベル認識による半教師付きインスタンスセグメンテーション

Polite Teacher: Semi-Supervised Instance Segmentation with Mutual Learning and Pseudo-Label Thresholding ( http://arxiv.org/abs/2211.03850v1 )

ライセンス: Link先を確認
Dominik Filipiak and Andrzej Zapa{\l}a and Piotr Tempczyk and Anna Fensel and Marek Cygan(参考訳) 本稿では,半教師付きインスタンスセグメンテーションのタスクに対して,シンプルかつ効果的な方法であるPolite Teacherを提案する。 提案したアーキテクチャは、Teacher-Student相互学習フレームワークに依存している。 ノイズの多い擬似ラベルをフィルタするために、バウンディングボックスの信頼しきい値とマスクのマスクスコアを用いる。 このアプローチは、シングルステージアンカーフリー検出器であるcentermaskでテストされている。 COCO 2017 valデータセットでテストした結果、アーキテクチャ(マスクAPで+8 pp.)は、さまざまな監督体制でベースラインをはるかに上回っています。 我々の知る限りでは、これは半教師付きインスタンスセグメンテーションの問題に取り組む最初の研究の1つであり、最初はアンカーフリー検出器に向けられたものである。

We present Polite Teacher, a simple yet effective method for the task of semi-supervised instance segmentation. The proposed architecture relies on the Teacher-Student mutual learning framework. To filter out noisy pseudo-labels, we use confidence thresholding for bounding boxes and mask scoring for masks. The approach has been tested with CenterMask, a single-stage anchor-free detector. Tested on the COCO 2017 val dataset, our architecture significantly (approx. +8 pp. in mask AP) outperforms the baseline at different supervision regimes. To the best of our knowledge, this is one of the first works tackling the problem of semi-supervised instance segmentation and the first one devoted to an anchor-free detector.
翻訳日:2022-11-09 15:08:23 公開日:2022-11-07
# ソースフリーシングルおよびマルチターゲットドメイン適応のためのconmix

CoNMix for Source-free Single and Multi-target Domain Adaptation ( http://arxiv.org/abs/2211.03876v1 )

ライセンス: Link先を確認
Vikash Kumar, Rohit Lal, Himanshu Patil, Anirban Chakraborty(参考訳) 本研究は、ソースフリーマルチターゲットドメイン適応の新しいタスクを紹介し、この問題の解決策として、 \textbf{Co}nsistency と \textbf{N}uclear-Norm Maximization と \textbf{Mix}Up knowledge distillation (\textit{CoNMix})からなる適応フレームワークを提案する。 この研究の主な動機は、ソースフリーパラダイムに対するSMTDA(Single and Multi target Domain Adaptation)の解決である。 ソースフリーのアプローチでは、ターゲット適応性を改善するためにノイズの多いターゲット擬似ラベルを活用する。 ラベル保存強化の整合性を導入し、擬似ラベルリファインメント法を用いてノイズの多い擬似ラベルを減らす。 さらに、様々なソースフリーSTDAモデルを用いて、複数のターゲットドメインに対してより良い一般化を行うための新しいMixUp Knowledge Distillation (MKD)を提案する。 また、vision transformer(vt)バックボーンは、ドメイン転送性とクラス識別性を改善した優れた機能表現を提供する。 提案するフレームワークは,Office-Home,Office-Caltech,DomainNetなどの一般的なドメイン適応データセットに対して,ソースフリーのSTDAおよびMTDA設定のさまざまなパラダイムを実現する。 プロジェクトページ: https://sites.google.com/view/conmix-vcl

This work introduces the novel task of Source-free Multi-target Domain Adaptation and proposes adaptation framework comprising of \textbf{Co}nsistency with \textbf{N}uclear-Norm Maximization and \textbf{Mix}Up knowledge distillation (\textit{CoNMix}) as a solution to this problem. The main motive of this work is to solve for Single and Multi target Domain Adaptation (SMTDA) for the source-free paradigm, which enforces a constraint where the labeled source data is not available during target adaptation due to various privacy-related restrictions on data sharing. The source-free approach leverages target pseudo labels, which can be noisy, to improve the target adaptation. We introduce consistency between label preserving augmentations and utilize pseudo label refinement methods to reduce noisy pseudo labels. Further, we propose novel MixUp Knowledge Distillation (MKD) for better generalization on multiple target domains using various source-free STDA models. We also show that the Vision Transformer (VT) backbone gives better feature representation with improved domain transferability and class discriminability. Our proposed framework achieves the state-of-the-art (SOTA) results in various paradigms of source-free STDA and MTDA settings on popular domain adaptation datasets like Office-Home, Office-Caltech, and DomainNet. Project Page: https://sites.google.com/view/conmix-vcl
翻訳日:2022-11-09 15:08:11 公開日:2022-11-07
# $\ell^{4}$-Norm Maximizationによる分散完全辞書学習

Decentralized Complete Dictionary Learning via $\ell^{4}$-Norm Maximization ( http://arxiv.org/abs/2211.03628v1 )

ライセンス: Link先を確認
Qiheng Lu, Lixiang Lian(参考訳) 情報技術の急速な発展に伴い、中央集権的なデータ処理には、計算オーバーヘッド、通信遅延、データプライバシーの漏洩など、多くの制限がある。 ネットワーク化された端末ノード上での分散データ処理は、ビッグデータの時代において重要な技術となる。 辞書学習は,高次元データから低次元構造を利用する強力な表現学習手法である。 低次元構造を利用することにより、データの記憶と処理オーバーヘッドを効果的に低減することができる。 本稿では,$\ell^{4}$-normの最大化に基づく分散完全辞書学習アルゴリズムを提案する。 既存の分散辞書学習アルゴリズムと比較すると,本アルゴリズムの計算量,通信コスト,収束率など多くのシナリオにおいて,本アルゴリズムは有意なアドバンテージを持つことが示された。 さらに, 厳密な理論解析により, 提案アルゴリズムによって学習された辞書は, 一定の条件下で確率の高い線形率で, 集中型辞書学習アルゴリズムによって学習された辞書に収束することを示した。

With the rapid development of information technologies, centralized data processing is subject to many limitations, such as computational overheads, communication delays, and data privacy leakage. Decentralized data processing over networked terminal nodes becomes an important technology in the era of big data. Dictionary learning is a powerful representation learning method to exploit the low-dimensional structure from the high-dimensional data. By exploiting the low-dimensional structure, the storage and the processing overhead of data can be effectively reduced. In this paper, we propose a novel decentralized complete dictionary learning algorithm, which is based on $\ell^{4}$-norm maximization. Compared with existing decentralized dictionary learning algorithms, comprehensive numerical experiments show that the novel algorithm has significant advantages in terms of per-iteration computational complexity, communication cost, and convergence rate in many scenarios. Moreover, a rigorous theoretical analysis shows that the dictionaries learned by the proposed algorithm can converge to the one learned by a centralized dictionary learning algorithm at a linear rate with high probability under certain conditions.
翻訳日:2022-11-08 19:31:10 公開日:2022-11-07
# シミュレーションに基づく推論における大規模誤差とミスデータに対処するモンテカルロ手法

Monte Carlo Techniques for Addressing Large Errors and Missing Data in Simulation-based Inference ( http://arxiv.org/abs/2211.03747v1 )

ライセンス: Link先を確認
Bingjie Wang, Joel Leja, Ashley Villar, Joshua S. Speagle(参考訳) これからの天文学的な調査は、数十億の銀河を宇宙時間にわたって観測し、銀河集合の多くの経路を驚くほど高解像度にマッピングするユニークな機会を提供する。 銀河の光からパラメータを推測する現在のツールは、適合するのに1時間あたり$\gtrsim 10$である。 これは必然的に高価です。 シミュレーションベースの推論(SBI)は有望なソリューションである。 しかし、観測データと同一の特性を持つシミュレーションデータが必要であり、実際の天文学調査は観測が欠如しており、空と望遠鏡の条件によって不確実性が決定されるため、非常に不均一であることが多い。 本稿では,標準SBIツールを用いて分布外測定誤差と欠落データを扱うモンテカルロ法を提案する。 本研究では, 標準SBI評価を用いて, 分布外測定誤差を近似することができ, トレーニングセット内の近傍データ実現よりも, SBI評価を用いて欠落データをマージできることを示す。 これらのテクニックは推論プロセスを$\sim 1$ sec から $\sim 1.5$ min に遅くするが、それでも標準アプローチよりもはるかに高速でありながら、SBIの適用性を劇的に拡張している。 この拡張された体制は将来の天文学的な調査に幅広い意味を持つ。

Upcoming astronomical surveys will observe billions of galaxies across cosmic time, providing a unique opportunity to map the many pathways of galaxy assembly to an incredibly high resolution. However, the huge amount of data also poses an immediate computational challenge: current tools for inferring parameters from the light of galaxies take $\gtrsim 10$ hours per fit. This is prohibitively expensive. Simulation-based Inference (SBI) is a promising solution. However, it requires simulated data with identical characteristics to the observed data, whereas real astronomical surveys are often highly heterogeneous, with missing observations and variable uncertainties determined by sky and telescope conditions. Here we present a Monte Carlo technique for treating out-of-distribution measurement errors and missing data using standard SBI tools. We show that out-of-distribution measurement errors can be approximated by using standard SBI evaluations, and that missing data can be marginalized over using SBI evaluations over nearby data realizations in the training set. While these techniques slow the inference process from $\sim 1$ sec to $\sim 1.5$ min per object, this is still significantly faster than standard approaches while also dramatically expanding the applicability of SBI. This expanded regime has broad implications for future applications to astronomical surveys.
翻訳日:2022-11-08 19:30:54 公開日:2022-11-07
# 不規則領域に対するニューラルPDE解法

Neural PDE Solvers for Irregular Domains ( http://arxiv.org/abs/2211.03241v1 )

ライセンス: Link先を確認
Biswajit Khara, Ethan Herron, Zhanhong Jiang, Aditya Balu, Chih-Hsuan Yang, Kumar Saurabh, Anushrut Jignasu, Soumik Sarkar, Chinmay Hegde, Adarsh Krishnamurthy, Baskar Ganapathysubramanian(参考訳) ニューラルネットワークによる偏微分方程式(PDE)の解法が最近注目されている。 しかし、ほとんどのニューラルPDE解法は直交領域にのみ適用され、不規則領域境界上のディリクレ/ノイマン境界条件を体系的に解決するものではない。 本稿では,不規則な(直交でない)幾何学的境界を持つ領域上の偏微分方程式をニューラルネットワークで解く枠組みを提案する。 我々のネットワークは、入力としてドメインの形状(非構造点雲や非一様論理的B-スプラインなどのパラメトリック表現を用いて表現される)を取り入れ、新しい(目に見えない)不規則なドメインに一般化することができる。 また、モデル構築プロセスで発生する誤りの原因に関する理論的知見を明らかにするための注意深い誤り解析を行う。 最後に、さまざまなアプリケーションを紹介し、基盤となる真理のソリューションと比較します。

Neural network-based approaches for solving partial differential equations (PDEs) have recently received special attention. However, the large majority of neural PDE solvers only apply to rectilinear domains, and do not systematically address the imposition of Dirichlet/Neumann boundary conditions over irregular domain boundaries. In this paper, we present a framework to neurally solve partial differential equations over domains with irregularly shaped (non-rectilinear) geometric boundaries. Our network takes in the shape of the domain as an input (represented using an unstructured point cloud, or any other parametric representation such as Non-Uniform Rational B-Splines) and is able to generalize to novel (unseen) irregular domains; the key technical ingredient to realizing this model is a novel approach for identifying the interior and exterior of the computational grid in a differentiable manner. We also perform a careful error analysis which reveals theoretical insights into several sources of error incurred in the model-building process. Finally, we showcase a wide variety of applications, along with favorable comparisons with ground truth solutions.
翻訳日:2022-11-08 19:25:59 公開日:2022-11-07
# SLOPT:変異に基づくファジリングのための帯域最適化フレームワーク

SLOPT: Bandit Optimization Framework for Mutation-Based Fuzzing ( http://arxiv.org/abs/2211.03285v1 )

ライセンス: Link先を確認
Yuki Koike, Hiroyuki Katsura, Hiromu Yakura, Yuma Kurogome(参考訳) 突然変異ベースのファジングは、過去10年間で最も一般的な脆弱性発見ソリューションの1つになっている。 ファジィングは特定のプログラムをターゲットにする際に最適化できるが、ある研究ではオンライン最適化手法を用いてプログラムに依存しない方法でファジィアをチューニングしている。 しかし、従来の研究では、オンライン最適化手法に適した突然変異スキームや、突然変異スキームに適したオンライン最適化手法が完全に検討されていない。 本研究では,banditフレンドリーな変異スキームと,schemeフレンドリーなbanditアルゴリズムを包含するsloptと呼ばれる最適化フレームワークを提案する。 SLOPTの利点は、AFLやHongfuzzのような既存のファザーに組み込むことができることである。 概念実証として,SLOPTをAFL++に統合してSLOPT-AFL++を実装し,SLOPT-AFL++によるプログラムに依存しない最適化により,現実のFuzzBenchプログラム10プログラムすべてにおいて,AFL++よりも高いコードカバレッジを実現することができた。 さらに、OSS-Fuzzの実際のプログラムに対してSLOPT-AFL++を実行し、OSS-Fuzz上でかなり多くのCPU日間AFL++にファジィされたにもかかわらず、3つの既知の脆弱性を特定した。

Mutation-based fuzzing has become one of the most common vulnerability discovery solutions over the last decade. Fuzzing can be optimized when targeting specific programs, and given that, some studies have employed online optimization methods to do it automatically, i.e., tuning fuzzers for any given program in a program-agnostic manner. However, previous studies have neither fully explored mutation schemes suitable for online optimization methods, nor online optimization methods suitable for mutation schemes. In this study, we propose an optimization framework called SLOPT that encompasses both a bandit-friendly mutation scheme and mutation-scheme-friendly bandit algorithms. The advantage of SLOPT is that it can generally be incorporated into existing fuzzers, such as AFL and Honggfuzz. As a proof of concept, we implemented SLOPT-AFL++ by integrating SLOPT into AFL++ and showed that the program-agnostic optimization delivered by SLOPT enabled SLOPT-AFL++ to achieve higher code coverage than AFL++ in all of ten real-world FuzzBench programs. Moreover, we ran SLOPT-AFL++ against several real-world programs from OSS-Fuzz and successfully identified three previously unknown vulnerabilities, even though these programs have been fuzzed by AFL++ for a considerable number of CPU days on OSS-Fuzz.
翻訳日:2022-11-08 19:25:43 公開日:2022-11-07
# 条件付き変分オートエンコーダを用いたアクセントテキスト音声合成

Accented Text-to-Speech Synthesis with a Conditional Variational Autoencoder ( http://arxiv.org/abs/2211.03316v1 )

ライセンス: Link先を確認
Jan Melechovsky, Ambuj Mehrish, Berrak Sisman, Dorien Herremans(参考訳) アクセントは音声コミュニケーションにおいて重要な役割を担い、理解能力に影響を与え、また個人のアイデンティティを伝達する。 本稿では,条件付き変分オートエンコーダに基づくアクセント付きテキスト音声合成のための,新しい,効率的なフレームワークを提案する。 任意のターゲットアクセントに変換される選択された話者の音声を合成する能力を持つ。 提案手法の有効性を客観的評価と主観評価の両方を用いて検証した。 また,合成音声のアクセントを操作できることや,将来的なアクセント付きTS研究の道筋として期待できることを示す。

Accent plays a significant role in speech communication, influencing understanding capabilities and also conveying a person's identity. This paper introduces a novel and efficient framework for accented Text-to-Speech (TTS) synthesis based on a Conditional Variational Autoencoder. It has the ability to synthesize a selected speaker's speech that is converted to any desired target accent. Our thorough experiments validate the effectiveness of our proposed framework using both objective and subjective evaluations. The results also show remarkable performance in terms of the ability to manipulate accents in the synthesized speech and provide a promising avenue for future accented TTS research.
翻訳日:2022-11-08 19:25:14 公開日:2022-11-07
# モデル中毒攻撃に対する無線アドホックフェデレーション学習のレジリエンス

Resilience of Wireless Ad Hoc Federated Learning against Model Poisoning Attacks ( http://arxiv.org/abs/2211.03489v1 )

ライセンス: Link先を確認
Naoya Tezuka, Hideya Ochiai, Yuwei Sun, Hiroshi Esaki(参考訳) wireless ad hoc federated learning (wafl) は、日和見的に遭遇したモバイルノードによって組織された、完全に分散した機械学習フレームワークである。 従来のフェデレート学習と比較して、WAFLはモデルパラメータと他者とを弱い同期でモデルトレーニングを行い、攻撃者が注入した有毒モデルに対して大きな回復力を示す。 本稿では, WAFLのモデル中毒に対するレジリエンスに関する理論的解析を行い, 毒性モデルと正統モデルとの力バランスを定式化する。 実験によると、攻撃者が直接遭遇したノードは、何らかの形で毒殺モデルに汚染されているが、他のノードは大きなレジリエンスを示している。 さらに重要なのは、攻撃者がネットワークを離れた後、すべてのノードが、有毒なモデルと組み合わせたより強力なモデルパラメータを見つけました。 攻撃経験例の多くは、攻撃経験例よりも精度が高い。

Wireless ad hoc federated learning (WAFL) is a fully decentralized collaborative machine learning framework organized by opportunistically encountered mobile nodes. Compared to conventional federated learning, WAFL performs model training by weakly synchronizing the model parameters with others, and this shows great resilience to a poisoned model injected by an attacker. In this paper, we provide our theoretical analysis of the WAFL's resilience against model poisoning attacks, by formulating the force balance between the poisoned model and the legitimate model. According to our experiments, we confirmed that the nodes directly encountered the attacker has been somehow compromised to the poisoned model but other nodes have shown great resilience. More importantly, after the attacker has left the network, all the nodes have finally found stronger model parameters combined with the poisoned model. Most of the attack-experienced cases achieved higher accuracy than the no-attack-experienced cases.
翻訳日:2022-11-08 19:25:03 公開日:2022-11-07
# 偏微分方程式を解くためのディープダブルリッツ法

A Deep Double Ritz Method for solving Partial Differential Equations ( http://arxiv.org/abs/2211.03627v1 )

ライセンス: Link先を確認
Carlos Uriarte and David Pardo and Ignacio Muga and Judit Mu\~noz-Matute(参考訳) 残留最小化は偏微分方程式を変分形式で解くために広く用いられる手法である。 これは残差の双対ノルムを最小化し、いわゆる試行空間とテスト空間に対して自然にサドル点(min-max)問題を生じる。 このような min-max 問題は非常に非線型であり、伝統的な方法はしばしばそれを近似するために異なる混合定式化を用いる。 あるいは、あるネットワークがグローバルトライアル最小値に近似し、別のネットワークがテスト最大値を求める場合、逆ニューラルネットワークを用いることで、上記のサドルポイント問題に対処することが可能である。 しかし,本手法は,厳密解に接近する試行関数に関して,テキスト最大化器の連続性が欠如しているため,数値的に不安定である。 これを解決するために、残差最小化を、他のリッツ函数最小化から計算された最適テスト関数によって与えられるリッツ函数の等価最小化として再構成する。 結果のDeep Double Ritz Methodは、2つのニューラルネットワークを組み合わせて試行錯誤と最適なテスト関数を近似する。 複数の1次元拡散対流問題の数値計算により,ネットワークとオプティマイザの近似性とトレーニング可能性まで,我々の手法の堅牢性を支持する。

Residual minimization is a widely used technique for solving Partial Differential Equations in variational form. It minimizes the dual norm of the residual, which naturally yields a saddle-point (min-max) problem over the so-called trial and test spaces. Such min-max problem is highly non-linear, and traditional methods often employ different mixed formulations to approximate it. Alternatively, it is possible to address the above saddle-point problem by employing Adversarial Neural Networks: one network approximates the global trial minimum, while another network seeks the test maximizer. However, this approach is numerically unstable due to a lack of continuity of the text maximizers with respect to the trial functions as we approach the exact solution. To overcome this, we reformulate the residual minimization as an equivalent minimization of a Ritz functional fed by optimal test functions computed from another Ritz functional minimization. The resulting Deep Double Ritz Method combines two Neural Networks for approximating the trial and optimal test functions. Numerical results on several 1D diffusion and convection problems support the robustness of our method up to the approximability and trainability capacity of the networks and the optimizer.
翻訳日:2022-11-08 19:24:34 公開日:2022-11-07
# 集合被覆を用いた総合的ステグアナリシスのためのデータベース作成

Using Set Covering to Generate Databases for Holistic Steganalysis ( http://arxiv.org/abs/2211.03447v1 )

ライセンス: Link先を確認
Rony Abecidan (CRIStAL, CNRS), Vincent Itier (CRIStAL, IMT Nord Europe, CNRS), J\'er\'emie Boulanger (CRIStAL, CNRS), Patrick Bas (CRIStAL, CNRS), Tom\'a\v{s} Pevn\'y (CTU)(参考訳) 運用フレームワーク内では、ステガノグラフィーが使用するカバーは、研究者がステガナリシスモデルをトレーニングするために使用するものと異なるセンサーと異なる処理パイプラインから来る可能性が高い。 したがって、アウト・オブ・ディストリビューションに関してはパフォーマンスギャップは避けられない。CSM(Cover Source Mismatch)と呼ばれる非常に頻繁に発生するシナリオだ。 ここでは,csmの起源を研究するための処理パイプラインのグリッドを調査し,その理解を深め,それに取り組む。 集合被覆グリードアルゴリズムを用いて、集合内の代表とパイプライン間の最大の後悔を最小限に抑える代表パイプラインを選択する。 私たちの主な貢献は、運用上のcsmに取り組むことのできる関連するベースを生成するための方法論です。 実験的な検証では、特定の数のトレーニングサンプルに対して、ランダムなパイプラインの選択や利用可能なパイプラインをすべて使用するよりも、選択をカバーする方が優れた戦略であることを強調しています。 分析の結果,脱音,シャープ化,ダウンサンプリングといったパラメータが多様性を育む上で非常に重要であることが明らかとなった。 最後に、古典データベースと野生データベースのベンチマークは、抽出したデータベースの優れた一般化特性を示している。 追加のリソースはgithub.com/ronyabecidan/holisticsteg analysiswithsetcoveringで入手できる。

Within an operational framework, covers used by a steganographer are likely to come from different sensors and different processing pipelines than the ones used by researchers for training their steganalysis models. Thus, a performance gap is unavoidable when it comes to out-of-distributions covers, an extremely frequent scenario called Cover Source Mismatch (CSM). Here, we explore a grid of processing pipelines to study the origins of CSM, to better understand it, and to better tackle it. A set-covering greedy algorithm is used to select representative pipelines minimizing the maximum regret between the representative and the pipelines within the set. Our main contribution is a methodology for generating relevant bases able to tackle operational CSM. Experimental validation highlights that, for a given number of training samples, our set covering selection is a better strategy than selecting random pipelines or using all the available pipelines. Our analysis also shows that parameters as denoising, sharpening, and downsampling are very important to foster diversity. Finally, different benchmarks for classical and wild databases show the good generalization property of the extracted databases. Additional resources are available at github.com/RonyAbecidan/HolisticSteganalysisWithSetCovering.
翻訳日:2022-11-08 19:09:15 公開日:2022-11-07
# XAI-BayesHAR: 統合的不確実性と形状的価値を持つ人間活動認識のための新しいフレームワーク

XAI-BayesHAR: A novel Framework for Human Activity Recognition with Integrated Uncertainty and Shapely Values ( http://arxiv.org/abs/2211.03451v1 )

ライセンス: Link先を確認
Anand Dubey, Niall Lyons, Avik Santra, Ashutosh Pandey(参考訳) IMUセンサー(加速度計とジャイロスコープ)を用いたヒューマンアクティビティ認識(HAR)は、スマートホーム、ヘルスケア、ヒューマンマシンインタフェースシステムにいくつかの応用がある。 実際には、IMUベースのHARシステムは、センサ劣化、異種環境、またはセンサノイズによる測定のばらつきに遭遇し、未知の活動を受けることが期待されている。 ソリューションの実践的展開の観点からは、アクティビティクラススコアに対する統計的信頼度の分析が重要な指標である。 そこで本稿では,IMUベースのHARソリューションにおいて,機能埋め込みベクトルとその関連不確かさをカルマンフィルタを用いて再帰的に追跡することにより,全体のアクティビティ分類精度を向上させる,統合ベイズフレームワークであるXAI-BayesHARを提案する。 さらに、xai-bayesharは予測の不確実性を利用してout of data distribution (ood)検出器として働き、エイリアンの入力データ分布を評価し検出するのに役立つ。 さらに,提案フレームワークのShapley値に基づく性能評価を行い,特徴埋め込みベクトルの重要性を把握し,モデル圧縮に使用する。

Human activity recognition (HAR) using IMU sensors, namely accelerometer and gyroscope, has several applications in smart homes, healthcare and human-machine interface systems. In practice, the IMU-based HAR system is expected to encounter variations in measurement due to sensor degradation, alien environment or sensor noise and will be subjected to unknown activities. In view of practical deployment of the solution, analysis of statistical confidence over the activity class score are important metrics. In this paper, we therefore propose XAI-BayesHAR, an integrated Bayesian framework, that improves the overall activity classification accuracy of IMU-based HAR solutions by recursively tracking the feature embedding vector and its associated uncertainty via Kalman filter. Additionally, XAI-BayesHAR acts as an out of data distribution (OOD) detector using the predictive uncertainty which help to evaluate and detect alien input data distribution. Furthermore, Shapley value-based performance of the proposed framework is also evaluated to understand the importance of the feature embedding vector and accordingly used for model compression
翻訳日:2022-11-08 19:08:58 公開日:2022-11-07
# 離散ソボレフ空間における塗装:不確実性低減のための構造情報

Inpainting in discrete Sobolev spaces: structural information for uncertainty reduction ( http://arxiv.org/abs/2211.03711v1 )

ライセンス: Link先を確認
Marco Seracini, Stephen R. Brown(参考訳) 本稿では,前例に基づくアプローチを用いて,復元の質を最小化する新しい数学的機能を導入することで,インパインティング問題を検討する。 この新しい関数式は、理論的なソボレフ空間で起こるのと同様の方法で、fnite差分項を考慮に入れている。 さらに,不確かさの低減を優先して,非塗装点の走査順序を決定するための新たな優先度指標を導入する。 その結果,パッチ処理による塗布の理論的に重要な側面が明らかになった。

In this article, using an exemplar-based approach, we investigate the inpainting problem, introducing a new mathematical functional, whose minimization determines the quality of the reconstructions. The new functional expression takes into account of fnite differences terms, in a similar fashion to what happens in the theoretical Sobolev spaces. Moreover, we introduce a new priority index to determine the scanning order of the points to inpaint, prioritizing the uncertainty reduction in the choice. The achieved results highlight important theoretical-connected aspects of the inpainting by patch procedure.
翻訳日:2022-11-08 19:08:27 公開日:2022-11-07
# 圧縮型クライオ集束イオンビーム走査電子顕微鏡のためのターゲットサンプリング戦略

A Targeted Sampling Strategy for Compressive Cryo Focused Ion Beam Scanning Electron Microscopy ( http://arxiv.org/abs/2211.03494v1 )

ライセンス: Link先を確認
Daniel Nicholls, Jack Wells, Alex W. Robinson, Amirafshar Moshtaghpour, Maryna Kobylynska, Roland A. Fleck, Angus I. Kirkland, Nigel D. Browning(参考訳) Cryo Focused Ion-Beam Scanning Electron Microscopy (cryo FIB-SEM)は、スライスとビュー機構によって生体試料の3次元およびナノスケールイメージングを可能にする。 しかし、FIB-SEM実験は遅い(典型的には数時間)取得プロセスによって制限され、ビーム感度試験体に照射される高電子線量による損傷を引き起こす可能性がある。 本研究では,Cryo FIB-SEMの電子線量を低減し,速度を向上できる圧縮センシング式について述べる。 本稿では,次のサブサンプリングマスクの設計に先立って,前回のサンプル層の再構成画像を活用する2つのターゲットサンプリング戦略を提案する。 我々のイメージリカバリは、ブラインドベイズ辞書学習アプローチ、すなわちBeta Process Factor Analysis (BPFA)に基づいています。 BPFAの超高速GPU実装により,本手法は実験的に実現可能である。 人工圧縮FIB-SEM測定のシミュレーションは提案手法の成功を実証する。 これらの手法は, ビーム損傷を伴わない生体材料のイメージングが重要である, 低温FIB-SEMコミュニティに大きな影響を及ぼす。

Cryo Focused Ion-Beam Scanning Electron Microscopy (cryo FIB-SEM) enables three-dimensional and nanoscale imaging of biological specimens via a slice and view mechanism. The FIB-SEM experiments are, however, limited by a slow (typically, several hours) acquisition process and the high electron doses imposed on the beam sensitive specimen can cause damage. In this work, we present a compressive sensing variant of cryo FIB-SEM capable of reducing the operational electron dose and increasing speed. We propose two Targeted Sampling (TS) strategies that leverage the reconstructed image of the previous sample layer as a prior for designing the next subsampling mask. Our image recovery is based on a blind Bayesian dictionary learning approach, i.e., Beta Process Factor Analysis (BPFA). This method is experimentally viable due to our ultra-fast GPU-based implementation of BPFA. Simulations on artificial compressive FIB-SEM measurements validate the success of proposed methods: the operational electron dose can be reduced by up to 20 times. These methods have large implications for the cryo FIB-SEM community, in which the imaging of beam sensitive biological materials without beam damage is crucial.
翻訳日:2022-11-08 19:01:03 公開日:2022-11-07
# スパース機構シフトモデルによる単一細胞の因果表現の学習

Learning Causal Representations of Single Cells via Sparse Mechanism Shift Modeling ( http://arxiv.org/abs/2211.03553v1 )

ライセンス: Link先を確認
Romain Lopez, Nata\v{s}a Tagasovska, Stephen Ra, Kyunghyn Cho, Jonathan K. Pritchard, Aviv Regev(参考訳) 変分オートエンコーダ(VAE)のような潜在変数モデルは、特に単細胞ゲノミクスの分野において、生物学的データを解析するためのゴーツーツールとなっている。 残る課題の1つは、細胞のアイデンティティを定義する生物学的プロセスとしての潜在変数の解釈である。 生物学的応用以外では、この問題は一般に学習不整合表現と呼ばれる。 単細胞ゲノミクスデータにいくつかの不整合促進型が導入されたが、このタスクは追加構造を持たず、独立かつ同一に分散した測定から不可能であることが示されている。 代わりに、近年の手法では、非定常データとスパース機構シフト仮定を利用して、因果意味を持つ非絡み合った表現を学習することを提案する。 本稿では、遺伝学的・化学的摂動を伴う単細胞ゲノミクスデータの解析への方法論的進歩の応用について述べる。 より正確には、各摂動を未知だがスパースな潜在変数のサブセットを対象とする確率的介入として扱う、単一細胞遺伝子発現データの深い生成モデルを提案する。 これらの手法を単細胞シミュレーションデータにベンチマークし,潜在ユニットのリカバリ,因果目標同定,ドメイン外一般化における性能評価を行った。 最後に,この手法を実世界の2つの大規模遺伝子摂動データセットに適用し,スパース機構シフト仮説を応用したモデルが,トランスファー学習タスクにおける現代手法を上回っていることを見出した。 我々は scvi-tools ライブラリを使って新しいモデルとベンチマークを実装し、それをオープンソースソフトウェアとして \url{https://github.com/romain-lopez/svae} でリリースする。

Latent variable models such as the Variational Auto-Encoder (VAE) have become a go-to tool for analyzing biological data, especially in the field of single-cell genomics. One remaining challenge is the interpretability of latent variables as biological processes that define a cell's identity. Outside of biological applications, this problem is commonly referred to as learning disentangled representations. Although several disentanglement-promoting variants of the VAE were introduced and applied to single-cell genomics data, this task has been shown to be infeasible from independent and identically distributed measurements, without additional structure. Instead, recent methods propose to leverage non-stationary data, as well as the sparse mechanism shift assumption in order to learn disentangled representations with a causal semantic. Here, we extend the application of these methodological advances to the analysis of single-cell genomics data with genetic or chemical perturbations. More precisely, we propose a deep generative model of single-cell gene expression data for which each perturbation is treated as a stochastic intervention targeting an unknown, but sparse, subset of latent variables. We benchmark these methods on simulated single-cell data to evaluate their performance at latent units recovery, causal target identification and out-of-domain generalization. Finally, we apply those approaches to two real-world large-scale gene perturbation data sets and find that models that exploit the sparse mechanism shift hypothesis surpass contemporary methods on a transfer learning task. We implement our new model and benchmarks using the scvi-tools library, and release it as open-source software at \url{https://github.com/romain-lopez/svae}.
翻訳日:2022-11-08 19:00:45 公開日:2022-11-07
# TLP: テンソルプログラムチューニングのためのディープラーニングベースのコストモデル

TLP: A Deep Learning-based Cost Model for Tensor Program Tuning ( http://arxiv.org/abs/2211.03578v1 )

ライセンス: Link先を確認
Yi Zhai, Yu Zhang, Shuo Liu, Xiaomeng Chu, Jie Peng, Jianmin Ji, Yanyong Zhang(参考訳) テンソルプログラムチューニングは、探索に基づくアプローチが効果的であることを証明した非凸目的最適化問題である。 検索ベースのアプローチの中核は、コストモデルの設計にある。 ディープラーニングベースのコストモデルは、他の方法よりもかなりパフォーマンスが良いが、それでも不足し、以下の問題に苦しむ。 まず、機能抽出はハードウェアアーキテクチャのエキスパートレベルのドメイン知識に大きく依存します。 それでも、抽出された機能はしばしば不十分であり、cpuとgpuを別々に考慮する必要がある。 第2に、あるハードウェアプラットフォームでトレーニングされたコストモデルは、通常、別のハードウェアでパフォーマンスが悪くなります。 これらの問題を解決するため,TLPとMTLTLPを提案する。 TLPは、テンソルプログラムチューニングを容易にするディープラーニングベースのコストモデルである。 TLPはテンソルプログラムから特徴を抽出する代わりに、スケジュールプリミティブから特徴を抽出する。 スケジュールプリミティブをテンソル言語として扱う。 したがって、TLPはテンソル言語処理タスクである。 このようにして、コストモデルを通じてテンソルプログラムのレイテンシを予測するタスクは、自然言語処理(nlp)回帰タスクに変換される。 MTL-TLPはマルチタスク学習とTLPを組み合わせて、クロスハードウェアの非可用性問題に対処する。 これらの手法をansorフレームワークに取り入れ,詳細な実験を行う。 結果は、TLPが最先端の実装と比較して、CPUおよびGPUワークロードの平均検索時間を9.1Xと3.0Xで高速化できることを示している。 MTL-TLPはCPUとGPUのワークロードでそれぞれ4.7Xと2.9Xのスピードアップを達成することができる。

Tensor program tuning is a non-convex objective optimization problem, to which search-based approaches have proven to be effective. At the core of the search-based approaches lies the design of the cost model. Though deep learning-based cost models perform significantly better than other methods, they still fall short and suffer from the following problems. First, their feature extraction heavily relies on expert-level domain knowledge in hardware architectures. Even so, the extracted features are often unsatisfactory and require separate considerations for CPUs and GPUs. Second, a cost model trained on one hardware platform usually performs poorly on another, a problem we call cross-hardware unavailability. In order to address these problems, we propose TLP and MTLTLP. TLP is a deep learning-based cost model that facilitates tensor program tuning. Instead of extracting features from the tensor program itself, TLP extracts features from the schedule primitives. We treat schedule primitives as tensor languages. TLP is thus a Tensor Language Processing task. In this way, the task of predicting the tensor program latency through the cost model is transformed into a natural language processing (NLP) regression task. MTL-TLP combines Multi-Task Learning and TLP to cope with the cross-hardware unavailability problem. We incorporate these techniques into the Ansor framework and conduct detailed experiments. Results show that TLP can speed up the average search time by 9.1X and 3.0X on CPU and GPU workloads, respectively, compared to the state-of-the-art implementation. MTL-TLP can achieve a speed-up of 4.7X and 2.9X on CPU and GPU workloads, respectively, using only 7% of the target hardware data.
翻訳日:2022-11-08 19:00:15 公開日:2022-11-07
# pyGSL: グラフ構造学習ツールキット

pyGSL: A Graph Structure Learning Toolkit ( http://arxiv.org/abs/2211.03583v1 )

ライセンス: Link先を確認
Max Wasserman, Gonzalo Mateos(参考訳) 我々は、PythonライブラリpyGSLを紹介し、最新のグラフ構造学習モデルの効率的な実装と、それらを評価するための多様なデータセットを提供する。 実装はGPUフレンドリな方法で書かれており、より大きなネットワークタスクにスケールすることができる。 アルゴリズムアンロール法では,最新の最先端技術の実装を統一し,基盤となるアンロールインフラストラクチャの再構築を回避して,新たな手法を迅速に開発可能にする共通インターフェースが導入された。 微分可能なグラフ構造学習モデルの実装はPyTorchで記述されており、ロギング、ハイパーパラメータサーチ、GPU通信などに存在するリッチなソフトウェアエコシステムを活用することができる。 これはまた、グラフ構造の微分可能な推定値が有用である、例えば潜時グラフ学習において、これらのモデルをより大きな勾配に基づく学習システムに組み込むのを容易にする。 さまざまなデータセットとパフォーマンスメトリクスは、この急成長分野におけるモデル間で一貫した比較を可能にする。 完全なコードリポジトリはhttps://github.com/maxwass/pyGSLにある。

We introduce pyGSL, a Python library that provides efficient implementations of state-of-the-art graph structure learning models along with diverse datasets to evaluate them on. The implementations are written in GPU-friendly ways, allowing one to scale to much larger network tasks. A common interface is introduced for algorithm unrolling methods, unifying implementations of recent state-of-the-art techniques and allowing new methods to be quickly developed by avoiding the need to rebuild the underlying unrolling infrastructure. Implementations of differentiable graph structure learning models are written in PyTorch, allowing us to leverage the rich software ecosystem that exists e.g., around logging, hyperparameter search, and GPU-communication. This also makes it easy to incorporate these models as components in larger gradient based learning systems where differentiable estimates of graph structure may be useful, e.g. in latent graph learning. Diverse datasets and performance metrics allow consistent comparisons across models in this fast growing field. The full code repository can be found on https://github.com/maxwass/pyGSL.
翻訳日:2022-11-08 18:59:51 公開日:2022-11-07
# quantile geometry-enhanced graph neural networkによるクロマトグラフィーエナントオースパレーションの保持時間予測

Retention Time Prediction for Chromatographic Enantioseparation by Quantile Geometry-enhanced Graph Neural Network ( http://arxiv.org/abs/2211.03602v1 )

ライセンス: Link先を確認
Hao Xu, Jinglong Lin, Dongxiao Zhang, Fanyang Mo(参考訳) クロマトグラフィーのエナンチオセパレーションを促進するため, 実験化学分野に機械学習技術を統合する新しい研究フレームワークが提案されている。 高速液体クロマトグラフィーにおけるキラル分子保持時間(CMRTデータセット)のドキュメンタリーデータセットを構築し,データ取得の課題に対処する。 cmrtデータセットに基づいて, 定位幾何エンハンスドグラフニューラルネットワークを提案し, エナンチオマーの予測能力を示す分子構造保持時間関係を学習した。 クロマトグラフィーの領域知識を機械学習モデルに組み込んでマルチカラム予測を行い、分離確率を計算してクロマトグラフィーのエナンチオス化予測の道を開く。 実験により,提案手法が保持時間予測とクロマトグラフィーエナンチオス分離促進に有効であることが確認され,実験シーンへの機械学習技術の適用に光を当て,科学的発見を高速化するための実験者の効率を向上させる。

A new research framework is proposed to incorporate machine learning techniques into the field of experimental chemistry to facilitate chromatographic enantioseparation. A documentary dataset of chiral molecular retention times (CMRT dataset) in high-performance liquid chromatography is established to handle the challenge of data acquisition. Based on the CMRT dataset, a quantile geometry-enhanced graph neural network is proposed to learn the molecular structure-retention time relationship, which shows a satisfactory predictive ability for enantiomers. The domain knowledge of chromatography is incorporated into the machine learning model to achieve multi-column prediction, which paves the way for chromatographic enantioseparation prediction by calculating the separation probability. Experiments confirm that the proposed research framework works well in retention time prediction and chromatographic enantioseparation facilitation, which sheds light on the application of machine learning techniques to the experimental scene and improves the efficiency of experimenters to speed up scientific discovery.
翻訳日:2022-11-08 18:59:35 公開日:2022-11-07
# 概念ボトルネックモデルによる説明の学習 : 情報漏洩の軽減

Towards learning to explain with concept bottleneck models: mitigating information leakage ( http://arxiv.org/abs/2211.03656v1 )

ライセンス: Link先を確認
Joshua Lockhart, Nicolas Marchesotti, Daniele Magazzeni, Manuela Veloso(参考訳) 概念ボトルネックモデルは、まずデータポイントについて、提供された概念のどれが正しいかを予測することによって分類を行う。 次に、下流モデルがこれらの予測された概念ラベルを使用してターゲットラベルを予測する。 予測された概念は、ターゲット予測の根拠として機能する。 モデル信頼問題は、ソフトなコンセプトラベルを使用する際に、このパラダイムに現れます。以前は、データ分散に関する余分な情報がコンセプト予測に漏れることが観察されています。 本研究では,モンテカルロ・ドロップアウトを用いて,漏洩情報を含まないソフトな概念予測を実現する方法を示す。

Concept bottleneck models perform classification by first predicting which of a list of human provided concepts are true about a datapoint. Then a downstream model uses these predicted concept labels to predict the target label. The predicted concepts act as a rationale for the target prediction. Model trust issues emerge in this paradigm when soft concept labels are used: it has previously been observed that extra information about the data distribution leaks into the concept predictions. In this work we show how Monte-Carlo Dropout can be used to attain soft concept predictions that do not contain leaked information.
翻訳日:2022-11-08 18:59:17 公開日:2022-11-07
# 点雲の所望距離関係へのユークリッド空間の計量化

Metricizing the Euclidean Space towards Desired Distance Relations in Point Clouds ( http://arxiv.org/abs/2211.03674v1 )

ライセンス: Link先を確認
Stefan Rass, Sandra K\"onig, Shahzad Ahmad, Maksim Goman(参考訳) ユークリッド空間 $\mathbb{r}^\ell$ with $\ell>1$ の点の集合が与えられると、それらの点の間の対距離は、その空間的位置と、$\mathbb{r}^\ell$ with を与える計量 $d$ によって決定される。 したがって、2つの点の間の距離 $d(\mathbf x,\mathbf y)=\delta$ は、$\mathbf x$ と $\mathbf y$ と $d$ の選択によって固定される。 我々は、値 $\delta$ と点 $\mathbf x,\mathbf y$ を固定する関連する問題を研究し、所望距離 $\delta$ を計算する位相計量 $d$ が存在するかどうかを問う。 この問題は、最大$o(\sqrt\ell)$ の点間の所望の対距離を$\mathbb{r}^\ell$ で同時に与えるメトリックを構築して解くことができることを示した。 We then introduce the notion of an $\varepsilon$-semimetric $\tilde{d}$ to formulate our main result: for all $\varepsilon>0$, for all $m\geq 1$, for any choice of $m$ points $\mathbf y_1,\ldots,\mathbf y_m\in\mathbb{R}^\ell$, and all chosen sets of values $\{\delta_{ij}\geq 0: 1\leq i<j\leq m\}$, there exists an $\varepsilon$-semimetric $\tilde{\delta}:\mathbb{R}^\ell\times \mathbb{R}^\ell\to\mathbb{R}$ such that $\tilde{d}(\mathbf y_i,\mathbf y_j)=\delta_{ij}$, i.e., the desired distances are accomplished, irrespectively of the topology that the Euclidean or other norms would induce. 本稿では,教師なし学習アルゴリズム,具体的には$k$-Means and density-based clustering algorithm(DBSCAN)に対する攻撃効果を示す。 これらには人工知能における多様体的応用があり、以下に示すように、外部から提供される距離測度で実行させることで、クラスタアルゴリズムが事前に決定され、従って可鍛性を持つ結果を生成することができる。 このことはクラスタリングアルゴリズムの結果が、特定の距離関数を使用するための標準化された固定された処方令がない限り、一般的には信頼できないことを示している。

Given a set of points in the Euclidean space $\mathbb{R}^\ell$ with $\ell>1$, the pairwise distances between the points are determined by their spatial location and the metric $d$ that we endow $\mathbb{R}^\ell$ with. Hence, the distance $d(\mathbf x,\mathbf y)=\delta$ between two points is fixed by the choice of $\mathbf x$ and $\mathbf y$ and $d$. We study the related problem of fixing the value $\delta$, and the points $\mathbf x,\mathbf y$, and ask if there is a topological metric $d$ that computes the desired distance $\delta$. We demonstrate this problem to be solvable by constructing a metric to simultaneously give desired pairwise distances between up to $O(\sqrt\ell)$ many points in $\mathbb{R}^\ell$. We then introduce the notion of an $\varepsilon$-semimetric $\tilde{d}$ to formulate our main result: for all $\varepsilon>0$, for all $m\geq 1$, for any choice of $m$ points $\mathbf y_1,\ldots,\mathbf y_m\in\mathbb{R}^\ell$, and all chosen sets of values $\{\delta_{ij}\geq 0: 1\leq i<j\leq m\}$, there exists an $\varepsilon$-semimetric $\tilde{\delta}:\mathbb{R}^\ell\times \mathbb{R}^\ell\to\mathbb{R}$ such that $\tilde{d}(\mathbf y_i,\mathbf y_j)=\delta_{ij}$, i.e., the desired distances are accomplished, irrespectively of the topology that the Euclidean or other norms would induce. We showcase our results by using them to attack unsupervised learning algorithms, specifically $k$-Means and density-based (DBSCAN) clustering algorithms. These have manifold applications in artificial intelligence, and letting them run with externally provided distance measures constructed in the way as shown here, can make clustering algorithms produce results that are pre-determined and hence malleable. This demonstrates that the results of clustering algorithms may not generally be trustworthy, unless there is a standardized and fixed prescription to use a specific distance function.
翻訳日:2022-11-08 18:59:08 公開日:2022-11-07
# ユーザレベルの局所微分プライバシーに基づく離散分布推定

Discrete Distribution Estimation under User-level Local Differential Privacy ( http://arxiv.org/abs/2211.03757v1 )

ライセンス: Link先を確認
Jayadev Acharya, Yuhan Liu, Ziteng Sun(参考訳) ユーザレベルの局所差分プライバシー(LDP)に基づく離散分布推定について検討した。 ユーザレベルの$\varepsilon$-LDPでは、各ユーザは$m\ge1$サンプルを持ち、すべての$m$サンプルのプライバシを同時に保存する必要がある。 一方、ユーザ1人当たりのサンプル数が増えると、基礎となるディストリビューションに関するより多くの情報を提供する必要があるが、一方で、すべての$m$サンプルのプライバシを保証することで、見積もりタスクがより難しくなる。 ほぼ全てのパラメータ規則の下でこの問題の厳密な境界を得る。 おそらく驚くことに、適切なパラメータレジームでは、1ユーザ当たり$m$のサンプルを持つのは、それぞれ1つのサンプルを持つ$m$倍のユーザを持つのと同値である。 以上より,推定リスクにおいて,プライバシパラメータである$\varepsilon$と,$m$の興味深いフェーズ遷移を示す。 最後に, シャッフルDPにおける最近の結果から, ランダムシャッフルと組み合わせることで, パラメータ構造におけるユーザレベルDPの中央モデルの下で, アルゴリズムが最適誤差保証(対数係数まで)をもたらすことを示す。 理論的結果を検証するため,いくつかのシミュレーションを行った。

We study discrete distribution estimation under user-level local differential privacy (LDP). In user-level $\varepsilon$-LDP, each user has $m\ge1$ samples and the privacy of all $m$ samples must be preserved simultaneously. We resolve the following dilemma: While on the one hand having more samples per user should provide more information about the underlying distribution, on the other hand, guaranteeing the privacy of all $m$ samples should make the estimation task more difficult. We obtain tight bounds for this problem under almost all parameter regimes. Perhaps surprisingly, we show that in suitable parameter regimes, having $m$ samples per user is equivalent to having $m$ times more users, each with only one sample. Our results demonstrate interesting phase transitions for $m$ and the privacy parameter $\varepsilon$ in the estimation risk. Finally, connecting with recent results on shuffled DP, we show that combined with random shuffling, our algorithm leads to optimal error guarantees (up to logarithmic factors) under the central model of user-level DP in certain parameter regimes. We provide several simulations to verify our theoretical findings.
翻訳日:2022-11-08 18:58:28 公開日:2022-11-07
# コンピュータビジョンによるCOVID-19時代の人的分析に関する調査

A Survey on Computer Vision based Human Analysis in the COVID-19 Era ( http://arxiv.org/abs/2211.03705v1 )

ライセンス: Link先を確認
Fevziye Irem Eyiokur, Alperen Kantarc{\i}, Mustafa Ekrem Erak{\i}n, Naser Damer, Ferda Ofli, Muhammad Imran, Janez Kri\v{z}aj, Albert Ali Salah, Alexander Waibel, Vitomir \v{S}truc, Haz{\i}m Kemal Ekenel(参考訳) 新型コロナウイルス(covid-19)の出現は、社会全体だけでなく個人の生活にも、世界的かつ重大な影響を与えてきた。 マスク、社会的距離の制限、公共空間での定期的な消毒、スクリーニングアプリケーションの使用など、さまざまな予防策が世界中で導入された。 これらの発展は、新しいコンピュータビジョン技術の必要性も引き起こした。 一 視覚データの自動解析による予防対策への支援を一方的に行うこと。 (ii)生体認証などの既存のビジョンベースのサービスの正常な運用を容易にすること。 特に重要なのは、視覚データにおける人や顔の分析に焦点をあてるコンピュータビジョン技術であり、顔マスクの委任によって導入された部分閉塞の影響が最も大きいことである。 このようなコンピュータビジョンに基づく人的分析手法には、顔とマスクの検出アプローチ、顔認識技術、群集カウントソリューション、年齢と表現推定手順、顔と手の動きを検出するモデルなどがあり、近年注目されている。 本調査の目的は、このような研究にCOVID-19によって引き起こされる問題を紹介し、コンピュータビジョンに基づく人間分析分野における研究の包括的なレビューを行うことである。 顔のマスクが様々な手法の性能に与える影響や、この問題を緩和するための最近の解決策に特に注意が払われている。 さらに、covid-19関連アプリケーションのための手法の開発と評価に有用な既存のデータセットの詳細なレビューも提供されている。 最後に、この分野をさらに前進させるため、主要なオープンチャレンジと今後の研究方向性に関する議論が行われる。

The emergence of COVID-19 has had a global and profound impact, not only on society as a whole, but also on the lives of individuals. Various prevention measures were introduced around the world to limit the transmission of the disease, including face masks, mandates for social distancing and regular disinfection in public spaces, and the use of screening applications. These developments also triggered the need for novel and improved computer vision techniques capable of (i) providing support to the prevention measures through an automated analysis of visual data, on the one hand, and (ii) facilitating normal operation of existing vision-based services, such as biometric authentication schemes, on the other. Especially important here, are computer vision techniques that focus on the analysis of people and faces in visual data and have been affected the most by the partial occlusions introduced by the mandates for facial masks. Such computer vision based human analysis techniques include face and face-mask detection approaches, face recognition techniques, crowd counting solutions, age and expression estimation procedures, models for detecting face-hand interactions and many others, and have seen considerable attention over recent years. The goal of this survey is to provide an introduction to the problems induced by COVID-19 into such research and to present a comprehensive review of the work done in the computer vision based human analysis field. Particular attention is paid to the impact of facial masks on the performance of various methods and recent solutions to mitigate this problem. Additionally, a detailed review of existing datasets useful for the development and evaluation of methods for COVID-19 related applications is also provided. Finally, to help advance the field further, a discussion on the main open challenges and future research direction is given.
翻訳日:2022-11-08 18:43:16 公開日:2022-11-07
# rita: インタラクティブな交通の流れで自動運転シミュレータを強化

RITA: Boost Autonomous Driving Simulators with Realistic Interactive Traffic Flow ( http://arxiv.org/abs/2211.03408v1 )

ライセンス: Link先を確認
Zhengbang Zhu, Shenyu Zhang, Yuzheng Zhuang, Yuecheng Liu, Minghuan Liu, Liyuan Mao, Ziqing Gong, Weinan Zhang, Shixiong Kai, Qiang Gu, Bin Wang, Siyuan Cheng, Xinyu Wang, Jianye Hao and Yong Yu(参考訳) 高品質な交通フロー生成は、自動運転シミュレータ構築における中核モジュールである。 しかし、利用可能なシミュレータのほとんどは、実世界のデータの様々な特徴を正確に反映したトラフィックパターンを複製することができず、テストされたオートパイロット駆動戦略に対する人間のような反応をシミュレートすることができない。 このような問題に対処するために,既存の運転シミュレータの統合コンポーネントとしてRealistic Interactive TrAffic Flow (RITA)を提案する。 RITAは、忠実さ、多様性、制御性を考慮して開発されており、RITABackendとRITAKitと呼ばれる2つのコアモジュールから構成されている。 RITABackendは実世界のデータセットからトラフィック生成モデルを提供するために構築されており、RITAKitはRITABackendを介して制御可能なトラフィック生成のための使いやすいインターフェースで開発されている。 本稿では,多種多様かつ高忠実な交通シミュレーションを実現するRITAの能力について述べる。 実験の結果, 生成したRITAトラヒックフローは3つの設計目標をすべて満たし, 運転戦略評価の完全性を高めた。 さらに、RITAトラフィックフローを用いたオンライン微調整によるベースライン戦略の改善の可能性を示す。

High-quality traffic flow generation is the core module in building simulators for autonomous driving. However, the majority of available simulators are incapable of replicating traffic patterns that accurately reflect the various features of real-world data while also simulating human-like reactive responses to the tested autopilot driving strategies. Taking one step forward to addressing such a problem, we propose Realistic Interactive TrAffic flow (RITA) as an integrated component of existing driving simulators to provide high-quality traffic flow for the evaluation and optimization of the tested driving strategies. RITA is developed with fidelity, diversity, and controllability in consideration, and consists of two core modules called RITABackend and RITAKit. RITABackend is built to support vehicle-wise control and provide traffic generation models from real-world datasets, while RITAKit is developed with easy-to-use interfaces for controllable traffic generation via RITABackend. We demonstrate RITA's capacity to create diversified and high-fidelity traffic simulations in several highly interactive highway scenarios. The experimental findings demonstrate that our produced RITA traffic flows meet all three design goals, hence enhancing the completeness of driving strategy evaluation. Moreover, we showcase the possibility for further improvement of baseline strategies through online fine-tuning with RITA traffic flows.
翻訳日:2022-11-08 18:41:08 公開日:2022-11-07
# Recommenderシステムの結果の正当性:サービスベースのアプローチ

Justification of Recommender Systems Results: A Service-based Approach ( http://arxiv.org/abs/2211.03452v1 )

ライセンス: Link先を確認
Noemi Mauro, Zhongli Filippo Hu and Liliana Ardissono(参考訳) 予測可能で説明可能な人工知能の需要が高まる中、推奨システムの結果を説明するか正当化する能力が、アイテムの推奨方法や関連理由を特定することによって、主要な目標になってきた。 しかしながら、現在のモデルは、ユーザがアイテムとの全体的なインタラクション中に遭遇する可能性のあるサービスやアクターを、選択から使用まで明示的に表現していない。 したがって、ユーザエクスペリエンスへの影響を評価することはできない。 この問題に対処するため,サービスモデルを用いた新たな正当化アプローチを提案する。 (i)項目との相互作用の全段階、異なる粒度レベルでのレビューから経験データを抽出する。 (ii)これらの段階に関する勧告の正当化を整理する。 ユーザスタディでは,提案手法を,推奨システムの結果の正当性を反映したベースラインと比較した。 被験者は,ベースラインが提供するものよりもサービスベースの正当化モデルによって提供されるユーザ意識サポートを高く評価した。 さらに,CfC (Low Need for Cognition) やCfC (Low Need for Cognition) のレベルが異なるユーザに対して,インターフェースの妥当性と満足度を高く評価した。 異なる点として、高いNfC参加者は項目レビューの直接検査を好んだ。 これらの発見は、レコメンダシステムの結果を正当化するためにサービスモデルの採用を奨励するが、多様なインタラクションニーズに対応するパーソナライズ戦略の調査を示唆する。

With the increasing demand for predictable and accountable Artificial Intelligence, the ability to explain or justify recommender systems results by specifying how items are suggested, or why they are relevant, has become a primary goal. However, current models do not explicitly represent the services and actors that the user might encounter during the overall interaction with an item, from its selection to its usage. Thus, they cannot assess their impact on the user's experience. To address this issue, we propose a novel justification approach that uses service models to (i) extract experience data from reviews concerning all the stages of interaction with items, at different granularity levels, and (ii) organize the justification of recommendations around those stages. In a user study, we compared our approach with baselines reflecting the state of the art in the justification of recommender systems results. The participants evaluated the Perceived User Awareness Support provided by our service-based justification models higher than the one offered by the baselines. Moreover, our models received higher Interface Adequacy and Satisfaction evaluations by users having different levels of Curiosity or low Need for Cognition (NfC). Differently, high NfC participants preferred a direct inspection of item reviews. These findings encourage the adoption of service models to justify recommender systems results but suggest the investigation of personalization strategies to suit diverse interaction needs.
翻訳日:2022-11-08 18:40:48 公開日:2022-11-07
# prompter: データ効率の良いエンボディドインストラクションのための大規模言語モデルプロンプトの利用

Prompter: Utilizing Large Language Model Prompting for a Data Efficient Embodied Instruction Following ( http://arxiv.org/abs/2211.03267v1 )

ライセンス: Link先を確認
Yuki Inoue and Hiroki Ohashi(参考訳) embodied instruction following (eif)は、自然言語命令で指定される長時間ホリゾンタスクを達成するために、モバイルマニピュレータロボットをどのように制御すべきかを研究する。 EIFに関するほとんどの研究はシミュレーターで行われているが、最終的な目標はエージェントを現実に展開することである。 したがって、エージェントのトレーニングに必要なデータコストを最小限に抑え、simからrealへの移行を支援することが重要です。 しかしながら、多くの研究は、パフォーマンスのみに注目し、データコストを見落としている -- 追加データに対する個別のトレーニングを必要とするモジュールは、デプロイ性に配慮せずに導入されることが多い。 本研究では,既存のワークフィルムに余分なデータを必要としない修正を加えた film++ を提案する。 データ駆動モジュールはすべて一定だが、FILM++はFILMのパフォーマンスを倍増させる。 さらに,FILM++のセマンティック検索モジュールを言語モデルプロンプトに置き換えたPrompterを提案する。 追加のデータセットのトレーニングを必要とするFILM++の実装とは異なり、プロンプトベースの実装ではトレーニングは必要ありません。 Prompter は ALFRED ベンチマークで 42.64% と 45.72% を達成し、高いレベルの命令のみとステップバイステップの命令で、それぞれ6.57% と 10.31% を上回っている。

Embodied Instruction Following (EIF) studies how mobile manipulator robots should be controlled to accomplish long-horizon tasks specified by natural language instructions. While most research on EIF are conducted in simulators, the ultimate goal of the field is to deploy the agents in real life. As such, it is important to minimize the data cost required for training an agent, to help the transition from sim to real. However, many studies only focus on the performance and overlook the data cost -- modules that require separate training on extra data are often introduced without a consideration on deployability. In this work, we propose FILM++ which extends the existing work FILM with modifications that do not require extra data. While all data-driven modules are kept constant, FILM++ more than doubles FILM's performance. Furthermore, we propose Prompter, which replaces FILM++'s semantic search module with language model prompting. Unlike FILM++'s implementation that requires training on extra sets of data, no training is needed for our prompting based implementation while achieving better or at least comparable performance. Prompter achieves 42.64% and 45.72% on the ALFRED benchmark with high-level instructions only and with step-by-step instructions, respectively, outperforming the previous state of the art by 6.57% and 10.31%.
翻訳日:2022-11-08 18:32:24 公開日:2022-11-07
# mmウェーブレーダに基づく人間のジェスチャー知覚のための神経構造非線形前処理

Neural Architectural Nonlinear Pre-Processing for mmWave Radar-based Human Gesture Perception ( http://arxiv.org/abs/2211.03502v1 )

ライセンス: Link先を確認
Hankyul Baek and Yoo Jeong (Anna) Ha and Minjae Yoo and Soyi Jung and Joongheon Kim(参考訳) 現代の自動運転コンピューティング環境では、多くのセンサーがコンテキスト認識アプリケーションに使われている。 本稿では,畳み込みニューラルネットワーク(cnn)からなる2つのディープラーニングモデル u-net と efficientnet を用いて,ミリ波 (mmwave) レーダを用いて測定した距離ドップラーマップ画像における手指ジェスチャーの検出とノイズ除去を行う。 分類性能を向上させるためには,精度の高い前処理アルゴリズムが不可欠である。 したがって、第1深層学習モデルステージに入る前に、画像の識別を行う新しい事前処理手法は、分類の精度を高める。 そこで本論文では,ディープニューラルネットワークを用いた高性能非線形前処理法を提案する。

In modern on-driving computing environments, many sensors are used for context-aware applications. This paper utilizes two deep learning models, U-Net and EfficientNet, which consist of a convolutional neural network (CNN), to detect hand gestures and remove noise in the Range Doppler Map image that was measured through a millimeter-wave (mmWave) radar. To improve the performance of classification, accurate pre-processing algorithms are essential. Therefore, a novel pre-processing approach to denoise images before entering the first deep learning model stage increases the accuracy of classification. Thus, this paper proposes a deep neural network based high-performance nonlinear pre-processing method.
翻訳日:2022-11-08 18:32:02 公開日:2022-11-07
# コントラスト摂動を伴うgan生成画像検出器に対するブラックボックス攻撃

Black-Box Attack against GAN-Generated Image Detector with Contrastive Perturbation ( http://arxiv.org/abs/2211.03509v1 )

ライセンス: Link先を確認
Zijie Lou, Gang Cao, Man Lin(参考訳) 視覚的なgan生成顔画像は、潜在的な誤用に対する明らかな懸念を引き起こす。 近年,このような合成画像を検出するために多くの有効な法医学アルゴリズムが開発されている。 敵攻撃に対する法医学的検知器の脆弱性を評価することは重要である。 本稿では,GAN生成画像検出器に対するブラックボックス攻撃法を提案する。 対照的な損失関数の下で,エンコーダ・デコーダネットワークに基づく反法学モデルをトレーニングするために,新しいコントラスト学習戦略を採用する。 GAN画像とシミュレーションされた実画像はそれぞれ正と負のサンプルとして構成される。 訓練されたアタックモデルを利用することで,gan指紋をある程度除去するための合成画像入力に不可避なコントラスト摂動を適用することができた。 そのため、既存のGAN生成画像検出器は騙されることが期待される。 大規模な実験結果から,提案した攻撃により,6種類のGANの3つの最先端検出器の精度が効果的に低下することが確認された。 攻撃された画像の高画質も達成される。 ソースコードはhttps://github.com/ZXMMD/BAttGANDで入手できる。

Visually realistic GAN-generated facial images raise obvious concerns on potential misuse. Many effective forensic algorithms have been developed to detect such synthetic images in recent years. It is significant to assess the vulnerability of such forensic detectors against adversarial attacks. In this paper, we propose a new black-box attack method against GAN-generated image detectors. A novel contrastive learning strategy is adopted to train the encoder-decoder network based anti-forensic model under a contrastive loss function. GAN images and their simulated real counterparts are constructed as positive and negative samples, respectively. Leveraging on the trained attack model, imperceptible contrastive perturbation could be applied to input synthetic images for removing GAN fingerprint to some extent. As such, existing GAN-generated image detectors are expected to be deceived. Extensive experimental results verify that the proposed attack effectively reduces the accuracy of three state-of-the-art detectors on six popular GANs. High visual quality of the attacked images is also achieved. The source code will be available at https://github.com/ZXMMD/BAttGAND.
翻訳日:2022-11-08 18:31:52 公開日:2022-11-07
# 生成逆ネットワークモデルを用いた水中画像の高分解能化

Underwater Images Super-Resolution Using Generative Adversarial Network-based Model ( http://arxiv.org/abs/2211.03550v1 )

ライセンス: Link先を確認
Alireza Aghelan(参考訳) 単一画像超解像法(SISR)は水中画像の解像度と品質を高めることができる。 水中画像の解像度向上は、自律型水中車両の性能向上につながる。 本研究では,水中画像の分解能を高めるために,Real-Enhanced Super-Resolution Generative Adversarial Network (Real-ESRGAN)モデルを微調整する。 提案手法では,Real-ESRGANモデルの事前学習発電機と識別器ネットワークを水中画像データセットを用いて微調整する。 我々はUSR-248とUFO-120データセットを用いてReal-ESRGANモデルを微調整した。 微調整されたモデルは、元のモデルよりも解像度と画質が良い画像を生成する。

Single image super-resolution (SISR) methods can enhance the resolution and quality of underwater images. Enhancing the resolution of underwater images leads to better performance of autonomous underwater vehicles. In this work, we fine-tune the Real-Enhanced Super-Resolution Generative Adversarial Network (Real-ESRGAN) model to increase the resolution of underwater images. In our proposed approach, the pre-trained generator and discriminator networks of the Real-ESRGAN model are fine-tuned using underwater image datasets. We used the USR-248 and UFO-120 datasets to fine-tune the Real-ESRGAN model. Our fine-tuned model produces images with better resolution and quality compared to the original model.
翻訳日:2022-11-08 18:31:38 公開日:2022-11-07
# ウェーブレット分解によるスケール不変プライバシー保護ビデオ

Scale Invariant Privacy Preserving Video via Wavelet Decomposition ( http://arxiv.org/abs/2211.03690v1 )

ライセンス: Link先を確認
Chengkai Yu and Charles Fleming and Hai-Ning Liang(参考訳) 現代の世界ではビデオ監視が普及している。 モバイルデバイス、監視カメラ、iotデバイスはすべて、プライバシーを侵害する可能性のあるビデオを記録できます。 提案されている解決策の1つは、プライバシ保存ビデオであり、作成中のビデオから識別情報を削除できる。 いくつかのアルゴリズムが提案されているが、これらは全てスケールの問題に悩まされている。 本稿では,ウェーブレット分解に基づくスケール不変法を提案する。

Video surveillance has become ubiquitous in the modern world. Mobile devices, surveillance cameras, and IoT devices, all can record video that can violate our privacy. One proposed solution for this is privacy-preserving video, which removes identifying information from the video as it is produced. Several algorithms for this have been proposed, but all of them suffer from scale issues: in order to sufficiently anonymize near-camera objects, distant objects become unidentifiable. In this paper, we propose a scale-invariant method, based on wavelet decomposition.
翻訳日:2022-11-08 18:31:09 公開日:2022-11-07
# ERNIE-SAT:多言語多話者音声合成のための音声・テキスト共同学習

ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual Multi-Speaker Text-to-Speech ( http://arxiv.org/abs/2211.03545v1 )

ライセンス: Link先を確認
Xiaoran Fan, Chao Pang, Tian Yuan, He Bai, Renjie Zheng, Pengfei Zhu, Shuohuan Wang, Junkun Chen, Zeyu Chen, Liang Huang, Yu Sun, Hua Wu(参考訳) 音声表現学習は、単一言語における音声理解と音声合成の両タスクを改善した。 しかし、言語間シナリオにおけるその能力は検討されていない。 本稿では,言語間複数話者音声クローニングと言語間複数話者音声編集を含む,言語間複数話者音声合成タスクの事前学習手法を拡張する。 本稿では,音声の例と書き起こしが与えられたスペクトルと音素をランダムにマスキングする,音声-テキスト共同事前学習フレームワークを提案する。 入力のマスキング部分を異なる言語で再構築する方法を学習することで,話者埋め込み型マルチスピーカーtts法よりも優れた改善が得られた。 さらに、当社のフレームワークは、トレーニングと推論の両方に対して、微調整の必要なくエンドツーエンドです。 クロスリンガル・マルチスピーカー音声クローニングおよびクロスリンガル・マルチスピーカー音声編集タスクにおいて,本モデルが話者埋め込み型マルチスピーカーtts法よりも優れていることを示す。 コードとモデルはPaddleSpeechで公開されている。

Speech representation learning has improved both speech understanding and speech synthesis tasks for single language. However, its ability in cross-lingual scenarios has not been explored. In this paper, we extend the pretraining method for cross-lingual multi-speaker speech synthesis tasks, including cross-lingual multi-speaker voice cloning and cross-lingual multi-speaker speech editing. We propose a speech-text joint pretraining framework, where we randomly mask the spectrogram and the phonemes given a speech example and its transcription. By learning to reconstruct the masked parts of the input in different languages, our model shows great improvements over speaker-embedding-based multi-speaker TTS methods. Moreover, our framework is end-to-end for both the training and the inference without any finetuning effort. In cross-lingual multi-speaker voice cloning and cross-lingual multi-speaker speech editing tasks, our experiments show that our model outperforms speaker-embedding-based multi-speaker TTS methods. The code and model are publicly available at PaddleSpeech.
翻訳日:2022-11-08 18:25:44 公開日:2022-11-07
# エゴセントリックな騒音抑制

Egocentric Audio-Visual Noise Suppression ( http://arxiv.org/abs/2211.03643v1 )

ライセンス: Link先を確認
Roshan Sharma, Weipeng He, Ju Lin, Egor Lakomkin, Yang Liu and Kaustubh Kalgaonkar(参考訳) 本稿は、ビデオの中で話者を捉えないエゴセントリックビデオの音声・視覚的抑制について研究する。 代わりに、潜在的なノイズ源はスクリーン上に見え、カメラは外界のオフスクリーンスピーカーのビューをエミュレートする。 この設定は、唇と顔面の視覚に依存する音声・視覚強調の以前の作業とは異なる。 本稿では,エゴセントリックな視覚情報が雑音抑制に有効であることを示す。 オブジェクト認識と行動分類に基づく視覚特徴抽出器を比較し,音声と視覚表現の整合性を検討する。 そこで,同調した特徴に対する異なる融合戦略と騒音抑制モデル内の位置について検討し,視覚情報を取り入れた。 実験により、視覚機能は補正マスクの生成に最も有用であることが示されている。 最後に,様々なノイズタイプに対して視覚的な特徴が判別可能であることを保証するため,音声-視覚雑音抑圧と映像ベースの音響イベント検出を共同で最適化するマルチタスク学習フレームワークを提案する。 このマルチタスクフレームワークは、0.16 pesqの改善を含む、すべてのメトリクスでオーディオのみのベースラインを上回っている。 広汎な改善により、複数のアクティブなイントラクタを持つモデルが、全てのノイズタイプと異なるSNRにわたって改善されたことを示す。

This paper studies audio-visual suppression for egocentric videos -- where the speaker is not captured in the video. Instead, potential noise sources are visible on screen with the camera emulating the off-screen speaker's view of the outside world. This setting is different from prior work in audio-visual speech enhancement that relies on lip and facial visuals. In this paper, we first demonstrate that egocentric visual information is helpful for noise suppression. We compare object recognition and action classification based visual feature extractors, and investigate methods to align audio and visual representations. Then, we examine different fusion strategies for the aligned features, and locations within the noise suppression model to incorporate visual information. Experiments demonstrate that visual features are most helpful when used to generate additive correction masks. Finally, in order to ensure that the visual features are discriminative with respect to different noise types, we introduce a multi-task learning framework that jointly optimizes audio-visual noise suppression and video based acoustic event detection. This proposed multi-task framework outperforms the audio only baseline on all metrics, including a 0.16 PESQ improvement. Extensive ablations reveal the improved performance of the proposed model with multiple active distractors, over all noise types and across different SNRs.
翻訳日:2022-11-08 18:25:24 公開日:2022-11-07
# 音声-視覚クロスモーダル検索のためのラベル空間における完全クロストリップレット損失

Complete Cross-triplet Loss in Label Space for Audio-visual Cross-modal Retrieval ( http://arxiv.org/abs/2211.03434v1 )

ライセンス: Link先を確認
Donghuo Zeng, Yanan Wang, Jianming Wu, and Kazushi Ikeda(参考訳) 異質性ギャップ問題はクロスモーダル検索の主要な課題である。 クロスモーダルデータ(例えばaudiovisual)は、直接比較できない異なる分布と表現を持っているためである。 そこで,音声・視覚データの自然同期における内在的相関を注釈付きラベルの助けを借りて,それらの共通部分空間を学習する。 TNN-CCCAは、これまでで最高のオーディオ・ビジュアル・クロスモーダル検索(AV-CMR)モデルであるが、入力間の相対距離を予測するためにトリプルトロスを適用することで、共通部分空間を学習する際の強負のサンプルに敏感である。 本稿では,表現学習におけるハード・ネガティブなサンプルの干渉を減らすために,ラベルを直接予測することで意味的特徴を最適化し,完全クロストリプル損失を用いた音声・視覚データ間の固有相関を測定する新しいav-cmrモデルを提案する。 特に,特徴投影後の予測ラベル特徴と基底ラベル表現との間の距離を最小化することにより,音声・視覚特徴をラベル空間に投影する。 さらに,全ての類似点と類似点の相違点情報の関係を利用して,予測されたラベル特徴の最適化を行う。 2つの視聴覚二重チェックデータセットの広範な実験結果から,av-cmrタスクにおける現在の最先端手法tnn-cccaの平均マップの約2.1%の改善がみられ,提案モデルの有効性が示された。

The heterogeneity gap problem is the main challenge in cross-modal retrieval. Because cross-modal data (e.g. audiovisual) have different distributions and representations that cannot be directly compared. To bridge the gap between audiovisual modalities, we learn a common subspace for them by utilizing the intrinsic correlation in the natural synchronization of audio-visual data with the aid of annotated labels. TNN-CCCA is the best audio-visual cross-modal retrieval (AV-CMR) model so far, but the model training is sensitive to hard negative samples when learning common subspace by applying triplet loss to predict the relative distance between inputs. In this paper, to reduce the interference of hard negative samples in representation learning, we propose a new AV-CMR model to optimize semantic features by directly predicting labels and then measuring the intrinsic correlation between audio-visual data using complete cross-triple loss. In particular, our model projects audio-visual features into label space by minimizing the distance between predicted label features after feature projection and ground label representations. Moreover, we adopt complete cross-triplet loss to optimize the predicted label features by leveraging the relationship between all possible similarity and dissimilarity semantic information across modalities. The extensive experimental results on two audio-visual double-checked datasets have shown an improvement of approximately 2.1% in terms of average MAP over the current state-of-the-art method TNN-CCCA for the AV-CMR task, which indicates the effectiveness of our proposed model.
翻訳日:2022-11-08 18:15:37 公開日:2022-11-07
# 信頼・信頼された自動車インタフェースに対する適応型ユーザ中心型マルチモーダルインタラクション

Adaptive User-Centered Multimodal Interaction towards Reliable and Trusted Automotive Interfaces ( http://arxiv.org/abs/2211.03539v1 )

ライセンス: Link先を確認
Amr Gomaa(参考訳) 近年の現代の車両の能力向上に伴い、従来のタッチベースや音声コマンドのアプローチを超越したインタラクションの新たなアプローチが出現した。 そこで, 自動車の物体選択・参照への応用において, 手のジェスチャー, 頭部ポーズ, 視線, 発話が広く研究されている。 これらの大きな進歩にもかかわらず、既存のアプローチはユーザー行動や個人差の変化に適さない1-model-fits-allアプローチを採用している。 さらに、現在の参照アプローチでは、これらのモダリティを別々に考えるか、定常的な状況にフォーカスする一方、移動車両の状況は極めてダイナミックで、安全性に制約がある。 本稿では,移動体から外部オブジェクトを参照するためのユーザ中心型適応型マルチモーダル融合手法の研究計画を提案する。 提案する計画では,ユーザの観察とヒューリスティックス,マルチモーダル融合,クラスタリング,モデル適応のための学習の伝達,および継続的学習を用いて,ユーザ中心の適応とパーソナライズのためのオープンソースフレームワークの提供を目的としている。

With the recently increasing capabilities of modern vehicles, novel approaches for interaction emerged that go beyond traditional touch-based and voice command approaches. Therefore, hand gestures, head pose, eye gaze, and speech have been extensively investigated in automotive applications for object selection and referencing. Despite these significant advances, existing approaches mostly employ a one-model-fits-all approach unsuitable for varying user behavior and individual differences. Moreover, current referencing approaches either consider these modalities separately or focus on a stationary situation, whereas the situation in a moving vehicle is highly dynamic and subject to safety-critical constraints. In this paper, I propose a research plan for a user-centered adaptive multimodal fusion approach for referencing external objects from a moving vehicle. The proposed plan aims to provide an open-source framework for user-centered adaptation and personalization using user observations and heuristics, multimodal fusion, clustering, transfer-of-learning for model adaptation, and continuous learning, moving towards trusted human-centered artificial intelligence.
翻訳日:2022-11-08 18:15:09 公開日:2022-11-07
# 人工知能の核医学への応用の課題と課題 --Bethesda Report (AI Summit 2022)

Issues and Challenges in Applications of Artificial Intelligence to Nuclear Medicine -- The Bethesda Report (AI Summit 2022) ( http://arxiv.org/abs/2211.03783v1 )

ライセンス: Link先を確認
Arman Rahmim, Tyler J. Bradshaw, Ir\`ene Buvat, Joyita Dutta, Abhinav K. Jha, Paul E. Kinahan, Quanzheng Li, Chi Liu, Melissa D. McCradden, Babak Saboury, Eliot Siegel, John J. Sunderland, Richard L. Wahl(参考訳) SNMMI AI Task Forceが主催するSNMMI人工知能(SNMMI-AI)サミットが2022年3月21日から22日にかけてMDのベセスダで開催された。 学術、医療、産業、患者代表、政府(NIH、FDA)から様々なコミュニティメンバーと利害関係者を集め、核医学におけるAIの日常的で信頼できる使用を想定し、促進するための様々な重要なテーマを検討した。 以下は、会議で強調された本質的な問題、課題、論争、結論である。

The SNMMI Artificial Intelligence (SNMMI-AI) Summit, organized by the SNMMI AI Task Force, took place in Bethesda, MD on March 21-22, 2022. It brought together various community members and stakeholders from academia, healthcare, industry, patient representatives, and government (NIH, FDA), and considered various key themes to envision and facilitate a bright future for routine, trustworthy use of AI in nuclear medicine. In what follows, essential issues, challenges, controversies and findings emphasized in the meeting are summarized.
翻訳日:2022-11-08 18:14:50 公開日:2022-11-07
# クロスモーダル監督による視覚運動の学習

Learning Visual Locomotion with Cross-Modal Supervision ( http://arxiv.org/abs/2211.03785v1 )

ライセンス: Link先を確認
Antonio Loquercio, Ashish Kumar, Jitendra Malik(参考訳) 本研究では,単眼のRGBカメラとプロプレセプションのみを用いた視覚的歩行ポリシーの学習方法について述べる。 RGBのシミュレーションは難しいので、現実の世界でビジョンを学ぶ必要がある。 まず、シミュレーションで訓練された盲目の歩行方針から始める。 この方針は現実世界の幾らかの地形を横切ることができるが、今後の幾何学の知識が不足しているため、しばしば苦労する。 これは視覚を用いることで解決できる。 提案するアルゴリズムクロスモーダル監督(cms)を用いて,実世界の視覚モジュールを訓練し,今後の地形を予測する。 CMSは、視覚を監督するために時間シフトのプロプレオーセプションを使用し、より現実的な体験でポリシーを継続的に改善することを可能にする。 我々は、階段(最大19cm)、滑りやすい斜面(傾斜35度)、縁石と高い階段(最大20cm)、複雑な離散地形を含む、様々な地形における視覚に基づく歩行方針を評価した。 実世界のデータの30分未満でこのパフォーマンスを実現します。 最後に,我々の政策は,現実体験の少ない視野における変化に適応できることを示す。 ビデオ結果とコードはhttps://antonilo.github.io/vision_locomotion/。

In this work, we show how to learn a visual walking policy that only uses a monocular RGB camera and proprioception. Since simulating RGB is hard, we necessarily have to learn vision in the real world. We start with a blind walking policy trained in simulation. This policy can traverse some terrains in the real world but often struggles since it lacks knowledge of the upcoming geometry. This can be resolved with the use of vision. We train a visual module in the real world to predict the upcoming terrain with our proposed algorithm Cross-Modal Supervision (CMS). CMS uses time-shifted proprioception to supervise vision and allows the policy to continually improve with more real-world experience. We evaluate our vision-based walking policy over a diverse set of terrains including stairs (up to 19cm high), slippery slopes (inclination of 35 degrees), curbs and tall steps (up to 20cm), and complex discrete terrains. We achieve this performance with less than 30 minutes of real-world data. Finally, we show that our policy can adapt to shifts in the visual field with a limited amount of real-world experience. Video results and code at https://antonilo.github.io/vision_locomotion/.
翻訳日:2022-11-08 18:14:38 公開日:2022-11-07
# チェーンイベントグラフモデル選択の超越性

Beyond Conjugacy for Chain Event Graph Model Selection ( http://arxiv.org/abs/2211.03427v1 )

ライセンス: Link先を確認
Aditi Shenvi, Silvia Liverani(参考訳) 連鎖イベントグラフはベイジアンネットワークを一般化する確率的グラフィカルモデルの一群であり、幅広い領域にうまく適用されている。 ベイズネットワークとは異なり、これらのモデルは、プロセスの進化における非対称な発展と同様に、文脈固有の条件付き非依存を符号化することができる。 近年,連鎖イベントグラフファミリーに属する新しいモデルクラスが開発され,時間からイベントまでのデータをモデル化し,プロセスの時間的ダイナミクスを研究する。 しかし、チェーンイベントグラフとその変種に対する既存のモデル選択アルゴリズムは共役事前を持つすべてのパラメータに依存している。 多くの実世界のアプリケーションでは非現実的です。 本稿では,共役性に依存しない連鎖イベントグラフにおけるモデル選択のための混合モデリング手法を提案する。 また,本手法は,既存のモデル選択アルゴリズムよりも頑健に拡張可能であることを示す。 本手法をシミュレーションデータセットで実証する。

Chain event graphs are a family of probabilistic graphical models that generalise Bayesian networks and have been successfully applied to a wide range of domains. Unlike Bayesian networks, these models can encode context-specific conditional independencies as well as asymmetric developments within the evolution of a process. More recently, new model classes belonging to the chain event graph family have been developed for modelling time-to-event data to study the temporal dynamics of a process. However, existing model selection algorithms for chain event graphs and its variants rely on all parameters having conjugate priors. This is unrealistic for many real-world applications. In this paper, we propose a mixture modelling approach to model selection in chain event graphs that does not rely on conjugacy. Moreover, we also show that this methodology is more amenable to being robustly scaled than the existing model selection algorithms used for this family. We demonstrate our techniques on simulated datasets.
翻訳日:2022-11-08 18:14:04 公開日:2022-11-07
# 暗黙のグラフェン神経表現

Implicit Graphon Neural Representation ( http://arxiv.org/abs/2211.03329v1 )

ライセンス: Link先を確認
Xinyue Xia, Gal Mishne, Yusu Wang(参考訳) グラフェンは、様々なサイズのグラフを生成するための一般的かつ強力なモデルである。 本稿では,ニューラルネットワークを用いて直接グラフをモデル化し,Implicit Graphon Neural Representation (IGNR) を得る。 グラノンのモデリングと再構成における既存の作業は、しばしば固定解像度のピースワイド定数表現によって標的グラノンを近似する。 我々のIGNRは、任意の解像度までグラフを表現できることの利点があり、モデルが学習されると、所望の構造を持つ任意のサイズのグラフを自然かつ効率的に生成できる。 さらに,Gromov-Wasserstein距離を利用して,入力グラフデータを不整合にし,異なるサイズにすることができる。 まず,グラフ学習タスクにおいて,その優れた性能を示すことにより,モデルの有効性を実証する。 次に,自動エンコーダフレームワークに組み込むことができるignrの拡張を提案し,graphon学習のより一般的な設定下でその優れた性能を示す。 また,このモデルがグラフ表現学習やグラフ生成に適していることを示す。

Graphons are general and powerful models for generating graphs of varying size. In this paper, we propose to directly model graphons using neural networks, obtaining Implicit Graphon Neural Representation (IGNR). Existing work in modeling and reconstructing graphons often approximates a target graphon by a fixed resolution piece-wise constant representation. Our IGNR has the benefit that it can represent graphons up to arbitrary resolutions, and enables natural and efficient generation of arbitrary sized graphs with desired structure once the model is learned. Furthermore, we allow the input graph data to be unaligned and have different sizes by leveraging the Gromov-Wasserstein distance. We first demonstrate the effectiveness of our model by showing its superior performance on a graphon learning task. We then propose an extension of IGNR that can be incorporated into an auto-encoder framework, and demonstrate its good performance under a more general setting of graphon learning. We also show that our model is suitable for graph representation learning and graph generation.
翻訳日:2022-11-08 18:06:50 公開日:2022-11-07
# カリキュラムに基づく非対称マルチタスク強化学習

Curriculum-based Asymmetric Multi-task Reinforcement Learning ( http://arxiv.org/abs/2211.03352v1 )

ライセンス: Link先を確認
Hanchi Huang, Deheng Ye, Li Shen, Wei Liu(参考訳) camrlは,複数の強化学習(rl)タスクをすべて扱うための,最初のカリキュラムベースの非対称マルチタスク学習(amtl)アルゴリズムである。 カリキュラムベースAMTLにおけるワンオフトレーニング順序のカスタマイズによる悪影響を軽減するため、CAMRLは、トレーニング時間、全体的なパフォーマンス、タスク間のパフォーマンスギャップに関する指標に基づいて、並列シングルタスクRLと非対称マルチタスクRL(MTRL)のトレーニングモードを切り替える。 マルチソースの事前知識を柔軟に活用し、AMTLにおける負の伝達を低減すべく、複数の異なるランク関数を持つ合成損失をカスタマイズし、交互最適化とFrank-Wolfeアルゴリズムを用いて損失を最適化する。 また,不確実性に基づくハイパーパラメータの自動調整も適用され,最適化時の厳密なハイパーパラメータ解析の必要性が排除された。 複合損失を最適化することにより、CAMRLは次のトレーニングタスクを予測し、転送行列とネットワーク重みを継続的に再検討する。 我々は,Gym-minigrid,Meta-world,Atariビデオゲーム,ビジョンベースのPyBulletタスク,RLBenchなど,マルチタスクRLの幅広いベンチマーク実験を行い,対応するシングルタスクRLアルゴリズムと最先端MTRLアルゴリズムに対するCAMRLの改善を示す。 コードは、https://github.com/huanghanchi/CAMRLで入手できる。

We introduce CAMRL, the first curriculum-based asymmetric multi-task learning (AMTL) algorithm for dealing with multiple reinforcement learning (RL) tasks altogether. To mitigate the negative influence of customizing the one-off training order in curriculum-based AMTL, CAMRL switches its training mode between parallel single-task RL and asymmetric multi-task RL (MTRL), according to an indicator regarding the training time, the overall performance, and the performance gap among tasks. To leverage the multi-sourced prior knowledge flexibly and to reduce negative transfer in AMTL, we customize a composite loss with multiple differentiable ranking functions and optimize the loss through alternating optimization and the Frank-Wolfe algorithm. The uncertainty-based automatic adjustment of hyper-parameters is also applied to eliminate the need of laborious hyper-parameter analysis during optimization. By optimizing the composite loss, CAMRL predicts the next training task and continuously revisits the transfer matrix and network weights. We have conducted experiments on a wide range of benchmarks in multi-task RL, covering Gym-minigrid, Meta-world, Atari video games, vision-based PyBullet tasks, and RLBench, to show the improvements of CAMRL over the corresponding single-task RL algorithm and state-of-the-art MTRL algorithms. The code is available at: https://github.com/huanghanchi/CAMRL
翻訳日:2022-11-08 18:06:35 公開日:2022-11-07
# 遠隔クラスタ型無線フェデレート学習

Over-The-Air Clustered Wireless Federated Learning ( http://arxiv.org/abs/2211.03363v1 )

ライセンス: Link先を確認
Ayush Madhan-Sohini, Divin Dominic, Nazreen Shah, Ranjitha Prasad(参考訳) プライバシ、セキュリティ、帯域幅の制約により、無線システムにおけるフェデレーション学習(FL)は、生データを共有せずに機械学習(ML)モデルのトレーニングを共同で行うことができる。 このようなコラボレーティブなFL戦略は、しばしば、サーバでのモデルアグリゲーションを必要とします。 一方、分散flでは、参加者の顧客はパラメータ更新を交換することでコンセンサスmlモデルに到達する必要がある。 本研究では,集中型無線FL (CWFL) 戦略を提案する。これは集中型サーバの必要性を排除し,サーバベースの戦略と同様の精度を達成できるが,分散型FLに比べてチャネル使用率が少ない。 理論的には,クラスタ毎のCWFLの収束速度はO(1/T)であり,ノイズの影響を緩和する。 MNIST と CIFAR のデータセットを用いて,通信ラウンド毎に異なるクラスタ数に対して,CWFL の精度性能を示す。

Privacy, security, and bandwidth constraints have led to federated learning (FL) in wireless systems, where training a machine learning (ML) model is accomplished collaboratively without sharing raw data. Often, such collaborative FL strategies necessitate model aggregation at a server. On the other hand, decentralized FL necessitates that participating clients reach a consensus ML model by exchanging parameter updates. In this work, we propose the over-the-air clustered wireless FL (CWFL) strategy, which eliminates the need for a strong central server and yet achieves an accuracy similar to the server-based strategy while using fewer channel uses as compared to decentralized FL. We theoretically show that the convergence rate of CWFL per cluster is O(1/T) while mitigating the impact of noise. Using the MNIST and CIFAR datasets, we demonstrate the accuracy performance of CWFL for the different number of clusters across communication rounds.
翻訳日:2022-11-08 18:06:08 公開日:2022-11-07
# ヘテロジニアスフェデレーション学習におけるクライアントとグローバルモデルのパフォーマンスのギャップを埋める

Closing the Gap between Client and Global Model Performance in Heterogeneous Federated Learning ( http://arxiv.org/abs/2211.03457v1 )

ライセンス: Link先を確認
Hongrui Shi, Valentin Radu, Po Yang(参考訳) ハードウェアとデータの異質性は、ヘテロジニアスな環境で動作しているフェデレーション学習(fl)コミュニティでよく知られ、研究されている問題である。 近年、知識蒸留(KD)で訓練されたカスタムサイズのクライアントモデルが、異種性問題に取り組むための実行可能な戦略として登場した。 しかし、この方向のこれまでの取り組みは、グローバルモデルの知識集約に対する影響よりも、クライアントモデルチューニングを目標としている。 flシステムの主な目的はグローバルモデルの性能であるにもかかわらず、異種設定下ではクライアントモデルの方が注目されている。 ここでは、カスタムクライアントモデルをトレーニングするための選択されたアプローチがグローバルモデルにどのように影響するかについて、より深い洞察を提供する。 我々は,グローバルモデルが異種データを用いたkdの強みを十分に活用できることを示す。 さらに、経験的観察により、KDとLwoF(LwoF)を併用して、改良されたパーソナライズドモデルを生成する新しいアプローチを提案する。 我々は、クライアントを落として現実的な配置シナリオにおいて、異種FLを、同種FLの強大なFedAvgと組み合わせて導入する。

The heterogeneity of hardware and data is a well-known and studied problem in the community of Federated Learning (FL) as running under heterogeneous settings. Recently, custom-size client models trained with Knowledge Distillation (KD) has emerged as a viable strategy for tackling the heterogeneity challenge. However, previous efforts in this direction are aimed at client model tuning rather than their impact onto the knowledge aggregation of the global model. Despite performance of global models being the primary objective of FL systems, under heterogeneous settings client models have received more attention. Here, we provide more insights into how the chosen approach for training custom client models has an impact on the global model, which is essential for any FL application. We show the global model can fully leverage the strength of KD with heterogeneous data. Driven by empirical observations, we further propose a new approach that combines KD and Learning without Forgetting (LwoF) to produce improved personalised models. We bring heterogeneous FL on pair with the mighty FedAvg of homogeneous FL, in realistic deployment scenarios with dropping clients.
翻訳日:2022-11-08 18:05:50 公開日:2022-11-07
# 悪い解は稀であるため、高過パラメータ分類器が一般化する

Highly over-parameterized classifiers generalize since bad solutions are rare ( http://arxiv.org/abs/2211.03570v1 )

ライセンス: Link先を確認
Julius Martinetz, Thomas Martinetz(参考訳) 経験的リスク最小化(ERM)が学習誤差をゼロにする過パラメータ化分類器の一般化について検討する。 このような過度なパラメータ設定では、トレーニングエラーがゼロのグローバルなミニマが多数存在する。 ある条件下では、真の誤差が {\epsilon} より大きい「悪い」大域最小値の分数は、訓練データ n の個数で指数関数的にゼロに崩壊することを示す。 境界は、与えられた分類問題に使用される分類子関数の集合上の真の誤差の分布に依存し、必ずしも分類子関数集合のサイズや複雑さ(例えばパラメータの数)に依存するとは限らない。 これは、高パラメータのニューラルネットワークでさえ予期せぬほどよい一般化を説明するかもしれない。 我々は、合成データセットとMNISTのサブセットの実験により、数学的枠組みをサポートする。

We study the generalization of over-parameterized classifiers where Empirical Risk Minimization (ERM) for learning leads to zero training error. In these over-parameterized settings there are many global minima with zero training error, some of which generalize better than others. We show that under certain conditions the fraction of "bad" global minima with a true error larger than {\epsilon} decays to zero exponentially fast with the number of training data n. The bound depends on the distribution of the true error over the set of classifier functions used for the given classification problem, and does not necessarily depend on the size or complexity (e.g. the number of parameters) of the classifier function set. This might explain the unexpectedly good generalization even of highly over-parameterized Neural Networks. We support our mathematical framework with experiments on a synthetic data set and a subset of MNIST.
翻訳日:2022-11-08 18:05:31 公開日:2022-11-07
# グラフニューラルネットワークとグラフ記述子のグラフ分類への応用

Application of Graph Neural Networks and graph descriptors for graph classification ( http://arxiv.org/abs/2211.03666v1 )

ライセンス: Link先を確認
Jakub Adamczyk(参考訳) グラフ分類は現代の研究と産業の両方において重要な分野である。 化学や新しい創薬における複数の応用は、この分野における機械学習モデルの急速な発展を促進する。 新しい研究のペースに合わせて、適切な実験設計、公正な評価、独立したベンチマークが不可欠である。 強ベースラインの設計はそのような作品の必須要素である。 本論文では,グラフ分類に対する複数のアプローチについて検討する。 グラフ表現学習のためのデファクトスタンダードなディープラーニング技術として登場したグラフニューラルネットワーク(gnns)に注目した。 グラフ記述子や分子指紋といった古典的なアプローチも取り組まれている。 我々は、公正な評価実験プロトコルを設計し、適切なデータセット収集を選択する。 これにより、多数の実験を行い、現代的なアプローチを厳格に分析することができます。 我々は多くの結論に達し、新しいアルゴリズムの性能と品質に新たな光を当てた。 本稿では,ジャンピング知識gnnアーキテクチャのグラフ分類への応用について検討し,ベースグラフニューラルネットワークアーキテクチャを改善するための効率的なツールであることを証明した。 ベースラインモデルに対する複数の改良も提案され、実験的に検証され、フェアモデル比較の分野に重要な貢献をする。

Graph classification is an important area in both modern research and industry. Multiple applications, especially in chemistry and novel drug discovery, encourage rapid development of machine learning models in this area. To keep up with the pace of new research, proper experimental design, fair evaluation, and independent benchmarks are essential. Design of strong baselines is an indispensable element of such works. In this thesis, we explore multiple approaches to graph classification. We focus on Graph Neural Networks (GNNs), which emerged as a de facto standard deep learning technique for graph representation learning. Classical approaches, such as graph descriptors and molecular fingerprints, are also addressed. We design fair evaluation experimental protocol and choose proper datasets collection. This allows us to perform numerous experiments and rigorously analyze modern approaches. We arrive to many conclusions, which shed new light on performance and quality of novel algorithms. We investigate application of Jumping Knowledge GNN architecture to graph classification, which proves to be an efficient tool for improving base graph neural network architectures. Multiple improvements to baseline models are also proposed and experimentally verified, which constitutes an important contribution to the field of fair model comparison.
翻訳日:2022-11-08 18:05:17 公開日:2022-11-07
# 敵の攻撃による表現の偏差

Deviations in Representations Induced by Adversarial Attacks ( http://arxiv.org/abs/2211.03714v1 )

ライセンス: Link先を確認
Daniel Steinberg, Paul Munro(参考訳) ディープラーニングは人気のあるトピックであり、多くの分野で成功しています。 研究者や機械学習の実践者たちも注目しており、様々な設定に開発モデルが展開されている。 その成果とともに、ディープラーニングモデルは敵の攻撃に弱いことが研究で示されている。 この発見は研究の新しい方向性をもたらし、脆弱性のあるネットワークを攻撃して防御するためにアルゴリズムが開発された。 我々の関心は、これらの攻撃がディープラーニングモデルの中間表現にどのように影響するかを理解することである。 本稿では, 敵攻撃によって引き起こされる表現の偏差を, 選択的に測定し, 解析する手法を提案する。 CIFAR-10データセット上で、ネットワーク内の異なる層にまたがる敵攻撃の影響を可視化するプロットを用いて、一連の攻撃アルゴリズムを用いて実験を行う。

Deep learning has been a popular topic and has achieved success in many areas. It has drawn the attention of researchers and machine learning practitioners alike, with developed models deployed to a variety of settings. Along with its achievements, research has shown that deep learning models are vulnerable to adversarial attacks. This finding brought about a new direction in research, whereby algorithms were developed to attack and defend vulnerable networks. Our interest is in understanding how these attacks effect change on the intermediate representations of deep learning models. We present a method for measuring and analyzing the deviations in representations induced by adversarial attacks, progressively across a selected set of layers. Experiments are conducted using an assortment of attack algorithms, on the CIFAR-10 dataset, with plots created to visualize the impact of adversarial attacks across different layers in a network.
翻訳日:2022-11-08 18:05:03 公開日:2022-11-07
# 不均一フィルタスペクトルヒントによる画像補完

Image Completion with Heterogeneously Filtered Spectral Hints ( http://arxiv.org/abs/2211.03700v1 )

ライセンス: Link先を確認
Xingqian Xu, Shant Navasardyan, Vahram Tadevosyan, Andranik Sargsyan, Yadong Mu, Humphrey Shi(参考訳) 大規模なフリーフォーム欠落領域による画像補完は、コンピュータビジョンコミュニティにとって最も困難なタスクの1つだ。 研究者はより良い解を追求する一方で、パターンの無意識、ぼやけたテクスチャ、構造歪みといった欠点は目立たずであり、改善のためのスペースを残している。 これらの課題を克服するため、我々は新しいStyleGANベースの画像補完ネットワークであるSpectral Hint GAN(SH-GAN)を提案し、内部に慎重に設計されたスペクトル処理モジュールであるSpectral Hint Unitを導入する。 また,新しい2次元スペクトル処理手法であるヘテロジニアスフィルタとガウシアンスプリットを提案する。 実験の結果,ベンチマークデータセットffhqとplaces2において,fidスコアが3.4134と7.0277に達し,先行研究よりも優れ,新たな最先端に到達できることを実証した。 また, 上記の課題, すなわち, パターンの無意識, ぼやけたテクスチャ, 構造歪みが顕著に解決できることに気付くようなアブレーション研究により, 設計の有効性を実証する。 私たちのコードは、https://github.com/SHI-Labs/SH-GANでオープンソース化されます。

Image completion with large-scale free-form missing regions is one of the most challenging tasks for the computer vision community. While researchers pursue better solutions, drawbacks such as pattern unawareness, blurry textures, and structure distortion remain noticeable, and thus leave space for improvement. To overcome these challenges, we propose a new StyleGAN-based image completion network, Spectral Hint GAN (SH-GAN), inside which a carefully designed spectral processing module, Spectral Hint Unit, is introduced. We also propose two novel 2D spectral processing strategies, Heterogeneous Filtering and Gaussian Split that well-fit modern deep learning models and may further be extended to other tasks. From our inclusive experiments, we demonstrate that our model can reach FID scores of 3.4134 and 7.0277 on the benchmark datasets FFHQ and Places2, and therefore outperforms prior works and reaches a new state-of-the-art. We also prove the effectiveness of our design via ablation studies, from which one may notice that the aforementioned challenges, i.e. pattern unawareness, blurry textures, and structure distortion, can be noticeably resolved. Our code will be open-sourced at: https://github.com/SHI-Labs/SH-GAN.
翻訳日:2022-11-08 17:49:32 公開日:2022-11-07
# ヘイトスピーチカウンティングのための対話データセット構築のためのヒューマンマシンコラボレーションアプローチ

Human-Machine Collaboration Approaches to Build a Dialogue Dataset for Hate Speech Countering ( http://arxiv.org/abs/2211.03433v1 )

ライセンス: Link先を確認
Helena Bonaldi, Sara Dellantonio, Serra Sinem Tekiroglu, Marco Guerini(参考訳) オンラインヘイトスピーチと戦うことは、通常、ヘイトコンテンツの自動検出と削除を通じて自然言語処理を使用して対処される課題である。 このアプローチに加えて、ソーシャルメディアプラットフォーム上でのオンライン憎悪に対応するためにNGOが採用する効果的なツールとしてカウンターナラティブが登場している。 そのため、現在、対談文の自動化手段として自然言語生成が研究されている。 しかし、NLGモデルのトレーニングに必要な既存のリソースは2ターンのインタラクション(ヘイトスピーチと応答としての逆の物語)に限られる一方、実生活では、インタラクションは複数のターンから構成される。 本論文では,19の異なる構成を用いて得られた機械生成対話に対する人間の専門家アノテータの介入を組み合わせた対話型データ収集のハイブリッド手法を提案する。 この研究の結果、DIALOCONANは、憎悪者とNGOオペレーターの間の3000以上の架空のマルチターン対話からなる最初のデータセットであり、6つのヘイトターゲットをカバーする。

Fighting online hate speech is a challenge that is usually addressed using Natural Language Processing via automatic detection and removal of hate content. Besides this approach, counter narratives have emerged as an effective tool employed by NGOs to respond to online hate on social media platforms. For this reason, Natural Language Generation is currently being studied as a way to automatize counter narrative writing. However, the existing resources necessary to train NLG models are limited to 2-turn interactions (a hate speech and a counter narrative as response), while in real life, interactions can consist of multiple turns. In this paper, we present a hybrid approach for dialogical data collection, which combines the intervention of human expert annotators over machine generated dialogues obtained using 19 different configurations. The result of this work is DIALOCONAN, the first dataset comprising over 3000 fictitious multi-turn dialogues between a hater and an NGO operator, covering 6 targets of hate.
翻訳日:2022-11-08 17:48:17 公開日:2022-11-07
# ビデオフレーム補間のための統一ピラミッドリカレントネットワーク

A Unified Pyramid Recurrent Network for Video Frame Interpolation ( http://arxiv.org/abs/2211.03456v1 )

ライセンス: Link先を確認
Xin Jin, Longhai Wu, Jie Chen, Youxin Chen, Jayoon Koo, Cheul-hee Hahm(参考訳) フローガイド合成は、一般的にピラミッドネットワークによって光学フローが推定されるフレーム補間のための共通のフレームワークを提供し、合成ネットワークを導いて入力フレーム間の中間フレームを生成する。 本稿では,フレーム補間のための新しい統一ピラミッドリカレントネットワークupr-netを提案する。 フレキシブルなピラミッドフレームワークでキャストされたUPR-Netは、双方向フロー推定と中間フレーム合成の両方に軽量リカレントモジュールを利用する。 各ピラミッドレベルでは、推定された双方向の流れを利用してフレーム合成のための前方のウォープ表現を生成し、ピラミッドレベルでは、光学フローと中間フレームの両方を反復的に洗練することができる。 特に,我々の反復合成は,大きな動きの場合にフレーム補間のロバスト性を大幅に改善できることを示す。 非常に軽量な(1.7Mパラメータ)にもかかわらず、UPR-Netは幅広いベンチマークで優れた性能を発揮する。 コードはもうすぐ入手できる。

Flow-guide synthesis provides a common framework for frame interpolation, where optical flow is typically estimated by a pyramid network, and then leveraged to guide a synthesis network to generate intermediate frames between input frames. In this paper, we present UPR-Net, a novel Unified Pyramid Recurrent Network for frame interpolation. Cast in a flexible pyramid framework, UPR-Net exploits lightweight recurrent modules for both bi-directional flow estimation and intermediate frame synthesis. At each pyramid level, it leverages estimated bi-directional flow to generate forward-warped representations for frame synthesis; across pyramid levels, it enables iterative refinement for both optical flow and intermediate frame. In particular, we show that our iterative synthesis can significantly improve the robustness of frame interpolation on large motion cases. Despite being extremely lightweight (1.7M parameters), UPR-Net achieves excellent performance on a large range of benchmarks. Code will be available soon.
翻訳日:2022-11-08 17:41:13 公開日:2022-11-07
# ニューラルネットワークは外挿可能か? ペドロ・ドミンゴスによる定理の考察

Can neural networks extrapolate? Discussion of a theorem by Pedro Domingos ( http://arxiv.org/abs/2211.03566v1 )

ライセンス: Link先を確認
Adrien Courtois, Jean-Michel Morel, Pablo Arias(参考訳) 損失を最小限にすることでトレーニングされたニューラルネットワークは、特にコンピュータビジョン、画像処理、自然言語処理において、データサイエンス問題を解決する最先端のアプローチとなっている。 その驚くべき結果にもかかわらず、ニューラルネットワークの動作に関する理論的理解は限られています。 特に、トレーニングニューラルネットワークの補間能力はどのようなものか? 本稿では,「連続勾配降下によって学習される全ての機械は概してカーネルマシンである」というドミンゴの定理について述べる。 ドミンゴスによれば、この事実はデータで訓練された全てのマシンは単なるカーネルマシンであると結論づける。 まずドミンゴの結果を離散の場合とベクトル値の出力を持つネットワークに拡張する。 次に、その妥当性と意義を簡単な例で研究する。 単純な場合において、ドミンゴスの定理で生じる「神経接核」は、ネットワークの予測を理解する。 さらに、ネットワークに与えられたタスクが複雑化すると、ネットワークの補間能力はドミンゴスの定理によって効果的に説明され、したがって制限される。 この事実を古典的な知覚理論問題、すなわち境界から形状を復元する問題に説明する。

Neural networks trained on large datasets by minimizing a loss have become the state-of-the-art approach for resolving data science problems, particularly in computer vision, image processing and natural language processing. In spite of their striking results, our theoretical understanding about how neural networks operate is limited. In particular, what are the interpolation capabilities of trained neural networks? In this paper we discuss a theorem of Domingos stating that "every machine learned by continuous gradient descent is approximately a kernel machine". According to Domingos, this fact leads to conclude that all machines trained on data are mere kernel machines. We first extend Domingo's result in the discrete case and to networks with vector-valued output. We then study its relevance and significance on simple examples. We find that in simple cases, the "neural tangent kernel" arising in Domingos' theorem does provide understanding of the networks' predictions. Furthermore, when the task given to the network grows in complexity, the interpolation capability of the network can be effectively explained by Domingos' theorem, and therefore is limited. We illustrate this fact on a classic perception theory problem: recovering a shape from its boundary.
翻訳日:2022-11-08 17:40:59 公開日:2022-11-07
# 顔検出モデルはバイアスか?

Are Face Detection Models Biased? ( http://arxiv.org/abs/2211.03588v1 )

ライセンス: Link先を確認
Surbhi Mittal, Kartik Thakral, Puspita Majumdar, Mayank Vatsa, Richa Singh(参考訳) 深層モデルにおけるバイアスの存在は、特定の集団サブグループに対して不公平な結果をもたらす。 偏見の研究は主に顔認識と属性予測に焦点を当て、顔検出に重点を置いている。 既存の研究では、顔検出は「顔」クラスと「非顔」クラスに分けられている。 本研究では,現在探索されていない顔領域の局所化による顔検出領域のバイアスについて検討する。 顔領域のローカライゼーションは、すべての顔認識パイプラインにとって必須のタスクであるため、一般的な深層モデルにおけるそのようなバイアスの存在を分析することが不可欠である。 既存の顔検出データセットの多くは、そのような分析に適切なアノテーションを欠いている。 したがって、Fair Face Localization with Attributes (F2LA) データセットをウェブキュレートし、顔のローカライゼーション情報を含む10以上の属性を手動でアノテートする。 F2LAからの広範なアノテーションを利用して、4つの事前訓練された顔検出器の性能を調べる実験装置が設計されている。 観察します (i)性別および肌色における検出精度の差が高いこと、及び (ii)デモグラフィ以外の複合因子の相互作用 F2LAのデータとアノテーションはhttp://iab-rubric.org/index.php/F2LAでアクセスできる。

The presence of bias in deep models leads to unfair outcomes for certain demographic subgroups. Research in bias focuses primarily on facial recognition and attribute prediction with scarce emphasis on face detection. Existing studies consider face detection as binary classification into 'face' and 'non-face' classes. In this work, we investigate possible bias in the domain of face detection through facial region localization which is currently unexplored. Since facial region localization is an essential task for all face recognition pipelines, it is imperative to analyze the presence of such bias in popular deep models. Most existing face detection datasets lack suitable annotation for such analysis. Therefore, we web-curate the Fair Face Localization with Attributes (F2LA) dataset and manually annotate more than 10 attributes per face, including facial localization information. Utilizing the extensive annotations from F2LA, an experimental setup is designed to study the performance of four pre-trained face detectors. We observe (i) a high disparity in detection accuracies across gender and skin-tone, and (ii) interplay of confounding factors beyond demography. The F2LA data and associated annotations can be accessed at http://iab-rubric.org/index.php/F2LA.
翻訳日:2022-11-08 17:40:42 公開日:2022-11-07
# Group DETR v2: Encoder-Decoder Pretraining 付き強力なオブジェクト検出器

Group DETR v2: Strong Object Detector with Encoder-Decoder Pretraining ( http://arxiv.org/abs/2211.03594v1 )

ライセンス: Link先を確認
Qiang Chen, Jian Wang, Chuchu Han, Shan Zhang, Zexian Li, Xiaokang Chen, Jiahui Chen, Xiaodi Wang, Shuming Han, Gang Zhang, Haocheng Feng, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang(参考訳) エンコーダデコーダプリトレーニングと微調整を備えた強い物体検出器を提案する。 本手法は,視覚変換器のViT-Huge~\cite{dosovitskiy2020image},DTRの変種であるDINO〜\cite{zhang2022dino},DTRの効率的な訓練方法であるグループDETR〜\cite{chen2022group}に基づいて構築されている。 トレーニングプロセスは、ImageNet-1KでVT-Hugeエンコーダを自己指導して微調整し、Object365で検出器を事前訓練し、最後にCOCOで微調整する。 Group DETR v2 は COCO test-dev 上で $\textbf{64.5}$ mAP を獲得し、COCO のリーダーボード https://paperswithcode.com/sota/object-detection-on-coco 上に新たな SoTA を確立する。

We present a strong object detector with encoder-decoder pretraining and finetuning. Our method, called Group DETR v2, is built upon a vision transformer encoder ViT-Huge~\cite{dosovitskiy2020image}, a DETR variant DINO~\cite{zhang2022dino}, and an efficient DETR training method Group DETR~\cite{chen2022group}. The training process consists of self-supervised pretraining and finetuning a ViT-Huge encoder on ImageNet-1K, pretraining the detector on Object365, and finally finetuning it on COCO. Group DETR v2 achieves $\textbf{64.5}$ mAP on COCO test-dev, and establishes a new SoTA on the COCO leaderboard https://paperswithcode.com/sota/object-detection-on-coco
翻訳日:2022-11-08 17:40:24 公開日:2022-11-07
# ビデオ人物リードにおける領域適応のためのカメラアライメントと重み付きコントラスト学習

Camera Alignment and Weighted Contrastive Learning for Domain Adaptation in Video Person ReID ( http://arxiv.org/abs/2211.03626v1 )

ライセンス: Link先を確認
Djebril Mekhazni, Maximilien Dufau, Christian Desrosiers, Marco Pedersoli, Eric Granger(参考訳) 人物再識別システム(ReID)は、大規模な完全ラベル画像データセットでトレーニングした場合、高い精度を達成することができる。 しかし、通常、様々な運用状況(例えば、カメラの視点や照明)に関連する領域シフトは、性能の大幅な低下につながる可能性がある。 本稿では、ビデオベースのReIDのための教師なしドメイン適応(UDA)に焦点を当てる。 このシナリオでは、ReIDモデルは、トラックレット情報に基づく多様なビデオカメラのネットワークによって定義された複雑なターゲットドメインに適応する必要がある。 State-of-art method cluster unlabeled target data, yet domain shifts across target camera (sub-domains) は、エポック間のノイズを伝播するクラスタリングメソッドの初期化を損なう可能性があるため、ReIDモデルは同一のアイデンティティのサンプルを正確に関連付けることができない。 本稿では,映像トラッカーの知識を生かした映像人物ReIDと,ターゲットカメラ上で撮影したフレームの分布を利用して,擬似ラベルを用いてトレーニングしたCNNバックボーンの性能を向上させるためのUDA手法を提案する。 本手法は,カメラ識別ネットワークを用いて識別対象のカメラ非依存表現を抽出し,それに続くクラスタリングを容易にする,敵対的アプローチに依拠する。 さらに、クラスタの信頼を生かし、誤識別関連のリスクを軽減するために、重み付けされた対照的な損失を提案する。 PRID 2011, iLIDS-VID, MARSの3つの挑戦的人物ReIDデータセットを用いた実験結果から, 提案手法が最先端の手法より優れていることを示す。 私たちのコードは、 \url{https://github.com/dmekhazni/cawcl-reid} で利用可能です。

Systems for person re-identification (ReID) can achieve a high accuracy when trained on large fully-labeled image datasets. However, the domain shift typically associated with diverse operational capture conditions (e.g., camera viewpoints and lighting) may translate to a significant decline in performance. This paper focuses on unsupervised domain adaptation (UDA) for video-based ReID - a relevant scenario that is less explored in the literature. In this scenario, the ReID model must adapt to a complex target domain defined by a network of diverse video cameras based on tracklet information. State-of-art methods cluster unlabeled target data, yet domain shifts across target cameras (sub-domains) can lead to poor initialization of clustering methods that propagates noise across epochs, thus preventing the ReID model to accurately associate samples of same identity. In this paper, an UDA method is introduced for video person ReID that leverages knowledge on video tracklets, and on the distribution of frames captured over target cameras to improve the performance of CNN backbones trained using pseudo-labels. Our method relies on an adversarial approach, where a camera-discriminator network is introduced to extract discriminant camera-independent representations, facilitating the subsequent clustering. In addition, a weighted contrastive loss is proposed to leverage the confidence of clusters, and mitigate the risk of incorrect identity associations. Experimental results obtained on three challenging video-based person ReID datasets - PRID2011, iLIDS-VID, and MARS - indicate that our proposed method can outperform related state-of-the-art methods. Our code is available at: \url{https://github.com/dmekhazni/CAWCL-ReID}
翻訳日:2022-11-08 17:39:59 公開日:2022-11-07
# 分散検出のためのディープラーニング出力の解釈

Interpreting deep learning output for out-of-distribution detection ( http://arxiv.org/abs/2211.03637v1 )

ライセンス: Link先を確認
Damian Matuszewski, Ida-Maria Sintorn(参考訳) 一般的に使われているAIネットワークは、ある決定の証拠が疑わしいとしても、予測に非常に自信を持っている。 ディープラーニングモデルのアウトプットの調査は、意思決定プロセスを理解し、その能力と限界を評価する上で重要である。 生のネットワーク出力ベクトルの分布を解析することにより、各クラスが独自の決定境界を持ち、同じ生の出力値が異なるクラスに対して異なるサポートを持つことが分かる。 この事実に触発されて,我々は分散検出の新しい手法を開発した。 本手法は、モデル学習過程とその出力の理解及び解釈に向けて、ソフトマックス出力の単純なしきい値を超えた説明ステップを提供する。 ネットワークに提示された各新しいサンプルに、最も高いロジットのクラスラベルを割り当てる代わりに、すべてのクラスにわたる分散を考慮に入れます。 確率スコアインタプリタ(PSI)は、それぞれの正と誤のクラス分布に関する共同ロジット値に基づいて作成される。 PSIは、サンプルが特定のクラスに属する可能性があるか、ネットワークが不確実であるか、サンプルがネットワークの外れやすいか未知のタイプであるかを示唆している。 単純なPSIは、既に訓練済みのネットワークに適用できる利点がある。 トレーニングされたネットワークを介してトレーニング例を実行するだけで、各出力ノードの正しいクラスと間違ったクラスの分布を確立することができる。 我々は,透過型電子顕微鏡ウイルス画像データセットのOOD検出手法を実証した。 我々は、訓練されたウイルス分類器に未知のウイルスのイメージを未知の現実世界のアプリケーションでシミュレートし、同じ手順と機器で取得し、OODサンプルを構成する。

Commonly used AI networks are very self-confident in their predictions, even when the evidence for a certain decision is dubious. The investigation of a deep learning model output is pivotal for understanding its decision processes and assessing its capabilities and limitations. By analyzing the distributions of raw network output vectors, it can be observed that each class has its own decision boundary and, thus, the same raw output value has different support for different classes. Inspired by this fact, we have developed a new method for out-of-distribution detection. The method offers an explanatory step beyond simple thresholding of the softmax output towards understanding and interpretation of the model learning process and its output. Instead of assigning the class label of the highest logit to each new sample presented to the network, it takes the distributions over all classes into consideration. A probability score interpreter (PSI) is created based on the joint logit values in relation to their respective correct vs wrong class distributions. The PSI suggests whether the sample is likely to belong to a specific class, whether the network is unsure, or whether the sample is likely an outlier or unknown type for the network. The simple PSI has the benefit of being applicable on already trained networks. The distributions for correct vs wrong class for each output node are established by simply running the training examples through the trained network. We demonstrate our OOD detection method on a challenging transmission electron microscopy virus image dataset. We simulate a real-world application in which images of virus types unknown to a trained virus classifier, yet acquired with the same procedures and instruments, constitute the OOD samples.
翻訳日:2022-11-08 17:39:31 公開日:2022-11-07
# SC-DepthV3:動的シーンに対するロバストな自己教師型単眼深度推定

SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for Dynamic Scenes ( http://arxiv.org/abs/2211.03660v1 )

ライセンス: Link先を確認
Libo Sun, Jia-Wang Bian, Huangying Zhan, Wei Yin, Ian Reid, Chunhua Shen(参考訳) 自己監督型単眼深度推定は静的な場面で顕著な結果を示した。 トレーニングネットワークのマルチビュー一貫性の仮定に依存しているが、ダイナミックなオブジェクト領域やオクルージョンでは違反している。 その結果、既存の手法ではダイナミックなシーンでは精度が悪く、推定された深度マップは、他のトレーニングビューでは無視されるため、オブジェクト境界でぼやけている。 本稿では,課題に対処するためのSC-DepthV3を提案する。 具体的には, 自己教師付き学習を促進させる新たな損失について提案する, 先行する単眼深度推定モデル, すなわち擬似深度モデルを提案する。 その結果,高度にダイナミックなシーンの単眼映像から訓練しても,シャープで正確な深度マップを予測できることがわかった。 提案手法は,6つの挑戦的データセットに対して,従来の手法よりもはるかに優れた性能を示し,提案手法について詳細なアブレーション研究を行った。 ソースコードとデータはhttps://github.com/JiawangBian/sc_depth_plで公開される。

Self-supervised monocular depth estimation has shown impressive results in static scenes. It relies on the multi-view consistency assumption for training networks, however, that is violated in dynamic object regions and occlusions. Consequently, existing methods show poor accuracy in dynamic scenes, and the estimated depth map is blurred at object boundaries because they are usually occluded in other training views. In this paper, we propose SC-DepthV3 for addressing the challenges. Specifically, we introduce an external pretrained monocular depth estimation model for generating single-image depth prior, namely pseudo-depth, based on which we propose novel losses to boost self-supervised training. As a result, our model can predict sharp and accurate depth maps, even when training from monocular videos of highly-dynamic scenes. We demonstrate the significantly superior performance of our method over previous methods on six challenging datasets, and we provide detailed ablation studies for the proposed terms. Source code and data will be released at https://github.com/JiawangBian/sc_depth_pl
翻訳日:2022-11-08 17:39:07 公開日:2022-11-07
# サイクルアソシエーションによるビデオからの一般化可能な再同定

Generalizable Re-Identification from Videos with Cycle Association ( http://arxiv.org/abs/2211.03663v1 )

ライセンス: Link先を確認
Zhongdao Wang, Zhaopeng Dou, Jingwei Zhang, Liang Zhen, Yifan Sun, Yali Li, Shengjin Wang(参考訳) 本稿では,ラベルなしビデオから一般化可能な人物再識別(re-ID)表現を学習することに興味がある。 比較すると 1) トレーニングセットとテストセットが通常同じドメイン下にある、一般的な教師なしのリID設定 2) トレーニングサンプルをラベル付けした一般的なドメイン一般化(DG) re-ID設定では,トレーニングサンプルはラベル付けされず,テストドメインと整合しないさまざまなドメインで収集されるという,新たなシナリオが両立している。 言い換えれば、教師なしの方法で表現を学習し、新しいドメインでのre-IDに直接使用することを目指している。 この目標を達成するために、我々は、トレーニングの複雑さを低く抑えるスケーラブルな自己教師型学習手法であるCycle Association (CycAs) と、提案手法に合わせてLMP-videoという名の大規模未ラベルのre-IDデータセットを構築した。 具体的には、CycAsは、時間的に連続したビデオフレームペア間のインスタンス関連のサイクル一貫性を強制することにより、re-ID特徴を学習し、トレーニングコストはデータサイズにのみ線形であり、大規模なトレーニングを可能にする。 一方、LMPビデオデータセットは非常に巨大で、10万本以上のYoutubeビデオから収集された5000万枚の未ラベルの人物画像を含んでいるため、自己教師による学習に十分な土壌として機能する。 CycAsは,LMPビデオで学習し,新しいドメインに対して優れた一般化を学習している。 達成された結果は、時には教師付き領域一般化可能なモデルよりも優れる。 注目すべきは、CycAsがマーケット1501で82.2\% Rank-1、MSMT17で49.0\% Rank-1を達成し、最先端のDG re-IDメソッドを超越していることである。 また,CycAsの非教師付きre-IDおよびプレトレイン・アンド・ファネチューンシナリオ下での優位性も示す。

In this paper, we are interested in learning a generalizable person re-identification (re-ID) representation from unlabeled videos. Compared with 1) the popular unsupervised re-ID setting where the training and test sets are typically under the same domain, and 2) the popular domain generalization (DG) re-ID setting where the training samples are labeled, our novel scenario combines their key challenges: the training samples are unlabeled, and collected form various domains which do no align with the test domain. In other words, we aim to learn a representation in an unsupervised manner and directly use the learned representation for re-ID in novel domains. To fulfill this goal, we make two main contributions: First, we propose Cycle Association (CycAs), a scalable self-supervised learning method for re-ID with low training complexity; and second, we construct a large-scale unlabeled re-ID dataset named LMP-video, tailored for the proposed method. Specifically, CycAs learns re-ID features by enforcing cycle consistency of instance association between temporally successive video frame pairs, and the training cost is merely linear to the data size, making large-scale training possible. On the other hand, the LMP-video dataset is extremely large, containing 50 million unlabeled person images cropped from over 10K Youtube videos, therefore is sufficient to serve as fertile soil for self-supervised learning. Trained on LMP-video, we show that CycAs learns good generalization towards novel domains. The achieved results sometimes even outperform supervised domain generalizable models. Remarkably, CycAs achieves 82.2\% Rank-1 on Market-1501 and 49.0\% Rank-1 on MSMT17 with zero human annotation, surpassing state-of-the-art supervised DG re-ID methods. Moreover, we also demonstrate the superiority of CycAs under the canonical unsupervised re-ID and the pretrain-and-finetune scenarios.
翻訳日:2022-11-08 17:38:49 公開日:2022-11-07
# 人物再認識のための身体部分に基づく表現学習

Body Part-Based Representation Learning for Occluded Person Re-Identification ( http://arxiv.org/abs/2211.03679v1 )

ライセンス: Link先を確認
Vladimir Somers and Christophe De Vleeschouwer and Alexandre Alahi(参考訳) occluded person re-identification(reid)は、被写体画像と全体像のマッチングを目的とした人物検索タスクである。 隠蔽されたReIDに対処するためには、細かな情報を提供し、部分的に見える人間の身体を表現するのに適した部分ベースの方法が有用であることが示されている。 しかしながら、パートベースモデルのトレーニングは2つの理由から難しい作業である。 第一に、個々の身体部分の外観は、グローバルな外観ほど差別的ではない(2つの異なるIDは、同じローカルな外観を持つかもしれない)。 第2に、ReIDデータセットには人間の地形アノテーションがない。 本稿では,上記問題を解決するための体部型reidモデルbpbreidを提案する。 まず,体部注意マップの予測とreidターゲットの体部に基づく特徴生成のためのモジュールを2つ設計した。 そこで我々は,オクルージョンや非差別的局所外観に頑健なパートベース表現を学習するための新しい学習手法であるGiLtを提案する。 一般の包括的および包括的データセットに対する大規模な実験により,提案手法の有効性が示され,課題であるOccluded-Dukeデータセットにおいて,最先端の手法を0.7%mAP,ランク1精度5.6%で上回った。 私たちのコードはhttps://github.com/vlsomers/bpbreidで利用可能です。

Occluded person re-identification (ReID) is a person retrieval task which aims at matching occluded person images with holistic ones. For addressing occluded ReID, part-based methods have been shown beneficial as they offer fine-grained information and are well suited to represent partially visible human bodies. However, training a part-based model is a challenging task for two reasons. Firstly, individual body part appearance is not as discriminative as global appearance (two distinct IDs might have the same local appearance), this means standard ReID training objectives using identity labels are not adapted to local feature learning. Secondly, ReID datasets are not provided with human topographical annotations. In this work, we propose BPBreID, a body part-based ReID model for solving the above issues. We first design two modules for predicting body part attention maps and producing body part-based features of the ReID target. We then propose GiLt, a novel training scheme for learning part-based representations that is robust to occlusions and non-discriminative local appearance. Extensive experiments on popular holistic and occluded datasets show the effectiveness of our proposed method, which outperforms state-of-the-art methods by 0.7% mAP and 5.6% rank-1 accuracy on the challenging Occluded-Duke dataset. Our code is available at https://github.com/VlSomers/bpbreid.
翻訳日:2022-11-08 17:38:12 公開日:2022-11-07
# 腹腔鏡下肝登録のための術前および術中クラウドマッチングのための特徴記述子

Learning Feature Descriptors for Pre- and Intra-operative Point Cloud Matching for Laparoscopic Liver Registration ( http://arxiv.org/abs/2211.03688v1 )

ライセンス: Link先を確認
Zixin Yang, Richard Simon, Cristian A.Linte(参考訳) 目的: 腹腔鏡下肝手術(LLS)では, 3D術前モデルを腹腔鏡下画像から再構成した術中部分面に登録することにより, 術前情報を手術現場にオーバーレイすることができる。 この課題を補助するため,我々は,腹腔鏡下肝登録では使用できない学習に基づく特徴記述子の使用について検討した。 さらに、学習ベースの記述子の使用を訓練し評価するデータセットは存在しない。 方法: 術前モデル16と術中3次元表面を模擬したLiverMatchデータセットを提案する。 また,ポイント毎の機能記述子,可視性スコア,マッチングポイントを出力する,このタスク用に設計されたリバマッチネットワークを提案する。 結果: 提案したLiverMatchネットワークと,LiverMatchに最も近いネットワークと,LiverMatchデータセットのテスト分割に関するヒストグラムベースの3D記述子を比較した。 その結果,我々のリバマッチネットワークは,他の2つの手法よりも精度の高い一致を予測でき,正確な初期アライメントを実現するために,ransac-icpベースの登録アルゴリズムとシームレスに統合できることが示唆された。 結論:LLRにおける学習ベースの特徴記述子の使用は、正確な初期剛性アライメントを達成するのに役立ち、その後の非厳密な登録の初期化に役立ちます。 受け入れ次第、データセットとコードをリリースします。

Purpose: In laparoscopic liver surgery (LLS), pre-operative information can be overlaid onto the intra-operative scene by registering a 3D pre-operative model to the intra-operative partial surface reconstructed from the laparoscopic video. To assist with this task, we explore the use of learning-based feature descriptors, which, to our best knowledge, have not been explored for use in laparoscopic liver registration. Furthermore, a dataset to train and evaluate the use of learning-based descriptors does not exist. Methods: We present the LiverMatch dataset consisting of 16 preoperative models and their simulated intra-operative 3D surfaces. We also propose the LiverMatch network designed for this task, which outputs per-point feature descriptors, visibility scores, and matched points. Results: We compare the proposed LiverMatch network with anetwork closest to LiverMatch, and a histogram-based 3D descriptor on the testing split of the LiverMatch dataset, which includes two unseen pre-operative models and 1400 intra-operative surfaces. Results suggest that our LiverMatch network can predict more accurate and dense matches than the other two methods and can be seamlessly integrated with a RANSAC-ICP-based registration algorithm to achieve an accurate initial alignment. Conclusion: The use of learning-based feature descriptors in LLR is promising, as it can help achieve an accurate initial rigid alignment, which, in turn, serves as an initialization for subsequent non-rigid registration. We will release the dataset and code upon acceptance.
翻訳日:2022-11-08 17:37:49 公開日:2022-11-07
# 木構造画像の高速キーポイント検出とマッチング

Fast Key Points Detection and Matching for Tree-Structured Images ( http://arxiv.org/abs/2211.03242v1 )

ライセンス: Link先を確認
Hao Wang, Xiwen Chen, Abolfazl Razi(参考訳) 本稿では,木型パターンを用いたナノ解像度視覚識別子の画像マッチングに基づく新しい認証アルゴリズムを提案する。 このアルゴリズムは、フラクタルパターンスケルトンを鮮やかな抽出によって画像からツリーへの変換と、スケーリング、回転、スクラッチ、照明変更などの画像アーティファクトに対して堅牢な独自のグラフマッチングアルゴリズムを含む。 提案アルゴリズムは様々な木構造画像マッチングに適用できるが,近年開発された視覚的識別子であるデンドライトに注目する。 デンドライトは、天然のランダム性、ナノ解像度の粒度、および3Dファセットのため、既存の2Dおよび3Dプリンタではエントロピーに富み、制約を受けないため、サプライチェーンのトレースやトラッキングといったセキュリティアプリケーションには適している。 提案アルゴリズムは標準画像記述子とのグラフマッチングを改善する。 例えば、カメラセンサノイズによる画像の不整合は、予期せぬ特徴抽出を引き起こし、不正確なツリー変換と認証の失敗につながる可能性がある。 また、従来の木抽出アルゴリズムは、大規模システムへの拡張性を阻害している。 本稿では,新しいスケルトン抽出法,新しいキーポイント探索アルゴリズム,最適化されたキーポイントマッチングアルゴリズムを実装することにより,[1]の現在の問題を修正し,最大10倍の速度でキーポイント抽出を高速化する。 最小の囲い込み円と中心点を用いて、アルゴリズムをパターン形状の選択に頑健にする。 [1]とは対照的に、我々のアルゴリズムはループ接続を持つ一般的なグラフを扱うため、輸送地図解析、指紋、網膜血管イメージングなどの幅広い応用に適用できる。

This paper offers a new authentication algorithm based on image matching of nano-resolution visual identifiers with tree-shaped patterns. The algorithm includes image-to-tree conversion by greedy extraction of the fractal pattern skeleton along with a custom-built graph matching algorithm that is robust against imaging artifacts such as scaling, rotation, scratch, and illumination change. The proposed algorithm is applicable to a variety of tree-structured image matching, but our focus is on dendrites, recently-developed visual identifiers. Dendrites are entropy rich and unclonable with existing 2D and 3D printers due to their natural randomness, nano-resolution granularity, and 3D facets, making them an appropriate choice for security applications such as supply chain trace and tracking. The proposed algorithm improves upon graph matching with standard image descriptors. For instance, image inconsistency due to the camera sensor noise may cause unexpected feature extraction leading to inaccurate tree conversion and authentication failure. Also, previous tree extraction algorithms are prohibitively slow hindering their scalability to large systems. In this paper, we fix the current issues of [1] and accelerate the key points extraction up to 10-times faster by implementing a new skeleton extraction method, a new key points searching algorithm, as well as an optimized key point matching algorithm. Using minimum enclosing circle and center points, make the algorithm robust to the choice of pattern shape. In contrast to [1] our algorithm handles general graphs with loop connections, therefore is applicable to a wider range of applications such as transportation map analysis, fingerprints, and retina vessel imaging.
翻訳日:2022-11-08 17:32:18 公開日:2022-11-07
# 拡散モデルによる少数ショット画像生成

Few-shot Image Generation with Diffusion Models ( http://arxiv.org/abs/2211.03264v1 )

ライセンス: Link先を確認
Jingyuan Zhu, Huimin Ma, Jiansheng Chen, Jian Yuan(参考訳) denoising diffusion probabilistic models (ddpms) は、大量のデータでトレーニングされた場合、非常に多様な高品質な画像を合成できることが証明されている。 しかし、我々の知る限り、DDPMベースのアプローチではほとんど画像生成タスクは研究されていない。 現代のアプローチは、主にgan(generative adversarial network)に基づいて構築され、利用可能なサンプルを使用して、大きなソースドメインで事前トレーニングされたモデルをターゲットドメインに適応させる。 本稿では,ddpmsが過度に適合し,訓練データ不足により多様性が低下する状況について,初めて検討する。 次に,大規模ソースドメインで事前学習されたddpmを,限られたデータを用いてターゲットドメインに適用することを提案する。 その結果,事前学習したDDPMの知識を利用することで,コンバージェンスを著しく加速し,生成画像の品質と多様性を向上させることができることがわかった。 さらに,ドメイン適応中に生成されたサンプル間の相対的な距離を保存するため,DDPMに基づくペアワイズ類似度損失を提案する。 このようにして,提案するddpmに基づく手法の多様性をさらに向上させる。 本研究は, 画像生成タスクの質的, 定量的に評価し, 品質と多様性における現状のGANベースのアプローチよりも優れた結果が得られることを示す。

Denoising diffusion probabilistic models (DDPMs) have been proven capable of synthesizing high-quality images with remarkable diversity when trained on large amounts of data. However, to our knowledge, few-shot image generation tasks have yet to be studied with DDPM-based approaches. Modern approaches are mainly built on Generative Adversarial Networks (GANs) and adapt models pre-trained on large source domains to target domains using a few available samples. In this paper, we make the first attempt to study when do DDPMs overfit and suffer severe diversity degradation as training data become scarce. Then we propose to adapt DDPMs pre-trained on large source domains to target domains using limited data. Our results show that utilizing knowledge from pre-trained DDPMs can significantly accelerate convergence and improve the quality and diversity of the generated images. Moreover, we propose a DDPM-based pairwise similarity loss to preserve the relative distances between generated samples during domain adaptation. In this way, we further improve the generation diversity of the proposed DDPM-based approaches. We demonstrate the effectiveness of our approaches qualitatively and quantitatively on a series of few-shot image generation tasks and achieve results better than current state-of-the-art GAN-based approaches in quality and diversity.
翻訳日:2022-11-08 17:31:51 公開日:2022-11-07
# クロスドメイン局所特性強化ディープフェイクビデオ検出

Cross-Domain Local Characteristic Enhanced Deepfake Video Detection ( http://arxiv.org/abs/2211.03346v1 )

ライセンス: Link先を確認
Zihan Liu, Hanyi Wang, Shilin Wang(参考訳) 超現実的な顔偽造技術が出現するにつれて、セキュリティ上の懸念からディープフェイク検出が注目を集めている。 多くの検出器は、既知の偽造の優れた性能にもかかわらず、見当たらない操作を検出すると正確な結果を得ることができない。 本稿では,実映像と偽映像の相違が極めて微妙で局所化され,様々な情報領域にまたがる重要な顔領域に不整合や不規則性が存在する可能性があることに注目した。 そこで本研究では,より一般的なディープフェイクビデオ検出のための新しいパイプラインであるクロスドメインローカルフォレスティクス(XDLF)を提案する。 提案するパイプラインでは,空間領域,周波数領域,時間領域から局所的な偽造パターンを同時に活用するために,クロスドメイン特徴を学習して偽造を検出するための特別なフレームワークが提示されている。 さらに、このフレームワークは人間の顔の4つの高レベルな偽装感受性局所領域を利用して、微妙なアーティファクトの強化と潜在的な異常の局所化を誘導する。 いくつかのベンチマークデータセットに対する大規模な実験により,提案手法の優れた性能が示され,また,クロスデータセットの一般化における最先端手法よりも優れた結果が得られた。 また, クロスドメイン局所特性の活用がより一般的なディープフェイク検出器の開発に有効な方向であることを示すため, アブレーションによる性能向上に寄与する要因についても検討した。

As ultra-realistic face forgery techniques emerge, deepfake detection has attracted increasing attention due to security concerns. Many detectors cannot achieve accurate results when detecting unseen manipulations despite excellent performance on known forgeries. In this paper, we are motivated by the observation that the discrepancies between real and fake videos are extremely subtle and localized, and inconsistencies or irregularities can exist in some critical facial regions across various information domains. To this end, we propose a novel pipeline, Cross-Domain Local Forensics (XDLF), for more general deepfake video detection. In the proposed pipeline, a specialized framework is presented to simultaneously exploit local forgery patterns from space, frequency, and time domains, thus learning cross-domain features to detect forgeries. Moreover, the framework leverages four high-level forgery-sensitive local regions of a human face to guide the model to enhance subtle artifacts and localize potential anomalies. Extensive experiments on several benchmark datasets demonstrate the impressive performance of our method, and we achieve superiority over several state-of-the-art methods on cross-dataset generalization. We also examined the factors that contribute to its performance through ablations, which suggests that exploiting cross-domain local characteristics is a noteworthy direction for developing more general deepfake detectors.
翻訳日:2022-11-08 17:31:29 公開日:2022-11-07
# buildmapper - ベクタライズドビル輪郭抽出のための完全学習可能なフレームワーク

BuildMapper: A Fully Learnable Framework for Vectorized Building Contour Extraction ( http://arxiv.org/abs/2211.03373v1 )

ライセンス: Link先を確認
Shiqing Wei, Tao Zhang, Shunping Ji, Muying Luo, Jianya Gong(参考訳) 深層学習に基づく手法は,リモートセンシング画像からの建物自動抽出の研究を著しく促進している。 しかし,この手法の難しさ,建築構造物の多様性,不完全な撮像条件などの理由から,ベクタ化および正規建築輪郭の配置はいまだに困難である。 本稿では,人間と同じように多角形を直接的かつ効率的に記述できるBuildMapperという,エンドツーエンドで学習可能な最初の構造パターン抽出フレームワークを提案する。 BuildMapperは2つの主要コンポーネントから構成される。 1)初期建物輪郭を生成する輪郭初期化モジュール,及び 2) 輪郭頂点変形と縮小を両立させる輪郭進化モジュールであって, 既存の方法による複雑な後処理の必要性を解消する。 In both components, we provide new ideas, including a learnable contour initialization method to replace the empirical methods, dynamic predicted and ground truth vertex pairing for the static vertex correspondence problem, and a lightweight encoder for vertex information extraction and aggregation, which benefit a general contour-based method; and a well-designed vertex classification head for building corner vertices detection, which casts light on direct structured building contour extraction. また,輪郭構造抽出手法の研究に役立てるために,大規模建築データセットであるWHU-Mix構築データセットを構築した。 whu-mix(vector)データセット、whuデータセット、およびcrowdaiデータセットで行った広範な実験により、buildmapperはセグメンテーションベースと輪郭ベースの両方の方法よりも高いマスク平均精度(ap)と境界 apで最先端のパフォーマンスを達成できることが確認された。

Deep learning based methods have significantly boosted the study of automatic building extraction from remote sensing images. However, delineating vectorized and regular building contours like a human does remains very challenging, due to the difficulty of the methodology, the diversity of building structures, and the imperfect imaging conditions. In this paper, we propose the first end-to-end learnable building contour extraction framework, named BuildMapper, which can directly and efficiently delineate building polygons just as a human does. BuildMapper consists of two main components: 1) a contour initialization module that generates initial building contours; and 2) a contour evolution module that performs both contour vertex deformation and reduction, which removes the need for complex empirical post-processing used in existing methods. In both components, we provide new ideas, including a learnable contour initialization method to replace the empirical methods, dynamic predicted and ground truth vertex pairing for the static vertex correspondence problem, and a lightweight encoder for vertex information extraction and aggregation, which benefit a general contour-based method; and a well-designed vertex classification head for building corner vertices detection, which casts light on direct structured building contour extraction. We also built a suitable large-scale building dataset, the WHU-Mix (vector) building dataset, to benefit the study of contour-based building extraction methods. The extensive experiments conducted on the WHU-Mix (vector) dataset, the WHU dataset, and the CrowdAI dataset verified that BuildMapper can achieve a state-of-the-art performance, with a higher mask average precision (AP) and boundary AP than both segmentation-based and contour-based methods.
翻訳日:2022-11-08 17:31:04 公開日:2022-11-07
# AlphaPose:全身体的マルチパーソンポーズ推定とリアルタイムでの追跡

AlphaPose: Whole-Body Regional Multi-Person Pose Estimation and Tracking in Real-Time ( http://arxiv.org/abs/2211.03375v1 )

ライセンス: Link先を確認
Hao-Shu Fang, Jiefeng Li, Hongyang Tang, Chao Xu, Haoyi Zhu, Yuliang Xiu, Yong-Lu Li, Cewu Lu(参考訳) 人体全体の正確なポーズ推定と追跡はコンピュータビジョンにおいて重要な課題である。 複雑な行動分析のために人間の微妙な行動を捉えるためには、顔、体、手、足を含む全身のポーズ推定が従来の身体のみのポーズ推定よりも不可欠である。 本稿では,リアルタイムに動作中の身体の正確なポーズ推定とトラッキングを行うシステムであるalphaposeを提案する。 そこで本研究では, 高速かつ微細な位置推定のためのSIKR(Symmetric Integral Keypoint Regression), 冗長な人間の検出を除去するためのP-NMS(Parametric Pose Non-Maximum-Suppression), 共同ポーズ推定と追跡のためのPose Aware Identity Embeddingを提案する。 トレーニング中、さらに精度を向上させるために、Part-Guided Proposal Generator(PGPG)とマルチドメイン知識蒸留を利用する。 提案手法は,人体全体のキーポイントを高精度にローカライズし,不正確な境界ボックスと冗長な検出を同時に追跡する。 我々は,COCO-全体,COCO,PoseTrack,提案したHalpe-FullBodyポーズ推定データセットにおいて,現在の最先端手法よりも高速かつ高精度であることを示す。 我々のモデル、ソースコード、データセットはhttps://github.com/MVIG-SJTU/AlphaPose.comで公開されています。

Accurate whole-body multi-person pose estimation and tracking is an important yet challenging topic in computer vision. To capture the subtle actions of humans for complex behavior analysis, whole-body pose estimation including the face, body, hand and foot is essential over conventional body-only pose estimation. In this paper, we present AlphaPose, a system that can perform accurate whole-body pose estimation and tracking jointly while running in realtime. To this end, we propose several new techniques: Symmetric Integral Keypoint Regression (SIKR) for fast and fine localization, Parametric Pose Non-Maximum-Suppression (P-NMS) for eliminating redundant human detections and Pose Aware Identity Embedding for jointly pose estimation and tracking. During training, we resort to Part-Guided Proposal Generator (PGPG) and multi-domain knowledge distillation to further improve the accuracy. Our method is able to localize whole-body keypoints accurately and tracks humans simultaneously given inaccurate bounding boxes and redundant detections. We show a significant improvement over current state-of-the-art methods in both speed and accuracy on COCO-wholebody, COCO, PoseTrack, and our proposed Halpe-FullBody pose estimation dataset. Our model, source codes and dataset are made publicly available at https://github.com/MVIG-SJTU/AlphaPose.
翻訳日:2022-11-08 17:30:36 公開日:2022-11-07
# 実効連続手話のための時間重畳クロスオーバーモジュール

Temporal superimposed crossover module for effective continuous sign language ( http://arxiv.org/abs/2211.03387v1 )

ライセンス: Link先を確認
Qidan Zhu, Jing Li, Fei Yuan, Quan Gan(参考訳) 継続的手話認識(cslr)の最終的な目標は、モデルのある程度のリアルタイムとデプロイ可能性を必要とする、特殊人と正常な人々とのコミュニケーションを促進することである。 しかし、CSLRに関する以前の研究では、リアルタイムとデプロイ能力にはほとんど注意が払われていない。 モデルの実時間および展開性を改善するために,ゼロパラメータ,ゼロ計算時間重畳クロスオーバーモジュール (TSCM) を提案し,それを2次元畳み込みと組み合わせて「TSCM+2D畳み込み」ハイブリッド畳み込み(TSCM+2D畳み込み)を形成する。 本稿では,tscmに基づくcslrモデル全体を改良されたresblocktネットワーク上に構築する。 tscm+2d畳み込み」のハイブリッド畳み込みをresnetネットワークのresblockに応用して新しいresblocktを形成し、ランダム勾配停止とマルチレベルctc損失を導入してモデルをトレーニングし、トレーニングメモリ使用量を減らしながら最終認識 werを削減し、resnetネットワークを画像分類タスクからビデオ認識タスクに拡張する。 さらに,CSLRでは,手話ビデオの時間空間的特徴を2次元畳み込み抽出のみを用いて認識のためのエンドツーエンド学習を行った。 2つの大規模連続手話データセットの実験は,提案手法の有効性を実証し,高い競争力を発揮する。

The ultimate goal of continuous sign language recognition(CSLR) is to facilitate the communication between special people and normal people, which requires a certain degree of real-time and deploy-ability of the model. However, in the previous research on CSLR, little attention has been paid to the real-time and deploy-ability. In order to improve the real-time and deploy-ability of the model, this paper proposes a zero parameter, zero computation temporal superposition crossover module(TSCM), and combines it with 2D convolution to form a "TSCM+2D convolution" hybrid convolution, which enables 2D convolution to have strong spatial-temporal modelling capability with zero parameter increase and lower deployment cost compared with other spatial-temporal convolutions. The overall CSLR model based on TSCM is built on the improved ResBlockT network in this paper. The hybrid convolution of "TSCM+2D convolution" is applied to the ResBlock of the ResNet network to form the new ResBlockT, and random gradient stop and multi-level CTC loss are introduced to train the model, which reduces the final recognition WER while reducing the training memory usage, and extends the ResNet network from image classification task to video recognition task. In addition, this study is the first in CSLR to use only 2D convolution extraction of sign language video temporal-spatial features for end-to-end learning for recognition. Experiments on two large-scale continuous sign language datasets demonstrate the effectiveness of the proposed method and achieve highly competitive results.
翻訳日:2022-11-08 17:30:07 公開日:2022-11-07
# PeSOTIF: 長距離交通シナリオにおけるSOTIF問題認識用ビジュアルデータセット

PeSOTIF: a Challenging Visual Dataset for Perception SOTIF Problems in Long-tail Traffic Scenarios ( http://arxiv.org/abs/2211.03402v1 )

ライセンス: Link先を確認
Liang Peng, Jun Li, Wenbo Shao, and Hong Wang(参考訳) 自律運転システムにおける認識アルゴリズムは、アルゴリズム性能の欠如と動的運用環境によってSOTIF(Safety of the Intended Functionality)の問題が引き起こされるような、長距離交通シナリオにおいて大きな課題に直面している。 しかし、このようなシナリオは現在のオープンソースデータセットには体系的に含まれておらず、そのギャップを埋める。 トリガ条件の分析と列挙に基づいて、複数のリソースから収集された様々なロングテールトラフィックシナリオを含む高品質な多様なデータセットがリリースされる。 確率的オブジェクト検出(POD)の開発を考えると、このデータセットは、シナリオ内のSOTIF問題をキーオブジェクトとして知覚する引き金源をマークする。 さらに,不確実性による鍵オブジェクトの識別におけるPODアルゴリズムの有効性を検証するための評価プロトコルを提案する。 データセットは拡張を停止せず、最初のオープンソースデータは、平均2.27のキーオブジェクトと2.47のノーマルオブジェクトを持つ1126のフレームを含む。 本稿では、このデータセットをSOTIF研究に活用する方法を示すために、SOTIFエントロピーの知覚を定量化し、シナリオが未知であり、認識システムに安全でないかどうかを確認する。 実験の結果,定量化エントロピーは知覚アルゴリズムの故障を効果的かつ効率的に反映できることがわかった。

Perception algorithms in autonomous driving systems confront great challenges in long-tail traffic scenarios, where the problems of Safety of the Intended Functionality (SOTIF) could be triggered by the algorithm performance insufficiencies and dynamic operational environment. However, such scenarios are not systematically included in current open-source datasets, and this paper fills the gap accordingly. Based on the analysis and enumeration of trigger conditions, a high-quality diverse dataset is released, including various long-tail traffic scenarios collected from multiple resources. Considering the development of probabilistic object detection (POD), this dataset marks trigger sources that may cause perception SOTIF problems in the scenarios as key objects. In addition, an evaluation protocol is suggested to verify the effectiveness of POD algorithms in identifying the key objects via uncertainty. The dataset never stops expanding, and the first batch of open-source data includes 1126 frames with an average of 2.27 key objects and 2.47 normal objects in each frame. To demonstrate how to use this dataset for SOTIF research, this paper further quantifies the perception SOTIF entropy to confirm whether a scenario is unknown and unsafe for a perception system. The experimental results show that the quantified entropy can effectively and efficiently reflect the failure of the perception algorithm.
翻訳日:2022-11-08 17:29:37 公開日:2022-11-07
# 3次元高調波損失:知的交通システムのためのエッジ上でのタスク一貫性と時間フレンドリーな3次元物体検出に向けて

3D Harmonic Loss: Towards Task-consistent and Time-friendly 3D Object Detection on Edge for Intelligent Transportation System ( http://arxiv.org/abs/2211.03407v1 )

ライセンス: Link先を確認
Haolin Zhang, M S Mekala, Zulkar Nain, Ju H. Park, Ho-Youl Jung(参考訳) エッジコンピューティングに基づく3D認識は、交通候補のリアルタイム監視がV2Xオーケストレーションを強化する可能性があるため、インテリジェントトランスポートシステム(ITS)において注目を集めている。 LiDARの周囲の深度情報を正確に測定する能力のおかげで、LiDARはライダーベースの3D検出に焦点を合わせ、三次元知覚の発達を著しく促進する。 高い計算集約操作のため、エッジデプロイメントのリアルタイム要件を満たす手法はほとんどなかった。 さらに、pointcloudドメインでは、オブジェクト検出の不整合問題が大きなスパースのために発見されている。 本稿では,画像専門化における不整合問題を決定する最近の研究から,この問題を包括的に解析する。 そこで我々は,ポイントクラウドに基づく不整合予測を緩和する3次元高調波損失関数を提案する。 さらに,数理最適化の観点から3次元高調波損失の実現可能性を示す。 KITTIデータセットとDAIR-V2X-Iデータセットをシミュレーションに使用し,提案手法はベンチマークモデルよりも大幅に性能を向上する。 さらに,エッジデバイス(Jetson Xavier TX)へのシミュレーション配置により,提案モデルの有効性が検証された。 私たちのコードはオープンソースで公開されています。

Edge computing-based 3D perception has received attention in intelligent transportation systems (ITS) because real-time monitoring of traffic candidates potentially strengthens Vehicle-to-Everything (V2X) orchestration. Thanks to the capability of precisely measuring the depth information on surroundings from LiDAR, the increasing studies focus on lidar-based 3D detection, which significantly promotes the development of 3D perception. Few methods met the real-time requirement of edge deployment because of high computation-intensive operations. Moreover, an inconsistency problem of object detection remains uncovered in the pointcloud domain due to large sparsity. This paper thoroughly analyses this problem, comprehensively roused by recent works on determining inconsistency problems in the image specialisation. Therefore, we proposed a 3D harmonic loss function to relieve the pointcloud based inconsistent predictions. Moreover, the feasibility of 3D harmonic loss is demonstrated from a mathematical optimization perspective. The KITTI dataset and DAIR-V2X-I dataset are used for simulations, and our proposed method considerably improves the performance than benchmark models. Further, the simulative deployment on an edge device (Jetson Xavier TX) validates our proposed model's efficiency. Our code is open-source and publicly available.
翻訳日:2022-11-08 17:29:12 公開日:2022-11-07
# QRF:量子放射場を用いた入射ニューラル表現

QRF: Implicit Neural Representations with Quantum Radiance Fields ( http://arxiv.org/abs/2211.03418v1 )

ライセンス: Link先を確認
YuanFu Yang, Min Sun(参考訳) mr(mixed reality)やvr(mixed reality)など、幅広いアプリケーションにおいて、現実世界のシーンのフォトリアリスティックなレンダリングは極めて難しい課題だ。 微分方程式の解法で長年研究されてきたニューラルネットワークは、これまでフォトリアリスティックなレンダリングのための暗黙表現として紹介されてきた。 しかし、古典計算を用いたリアルなレンダリングは、時間を要する光線マーチが必要であり、次元の呪いによる計算ボトルネックに悩まされるため、難しい。 本稿では,暗黙的なシーン表現のための量子回路,量子アクティベーション関数,量子ボリュームレンダリングを統合したQRF(Quantum Radiance Fields)を提案する。 その結果、QRFは高速、高速収束、高並列化といった量子コンピューティング技術の利点を生かしただけでなく、ボリュームレンダリングの質も保証していることがわかった。

Photorealistic rendering of real-world scenes is a tremendous challenge with a wide range of applications, including MR (Mixed Reality), and VR (Mixed Reality). Neural networks, which have long been investigated in the context of solving differential equations, have previously been introduced as implicit representations for Photorealistic rendering. However, realistic rendering using classic computing is challenging because it requires time-consuming optical ray marching, and suffer computational bottlenecks due to the curse of dimensionality. In this paper, we propose Quantum Radiance Fields (QRF), which integrate the quantum circuit, quantum activation function, and quantum volume rendering for implicit scene representation. The results indicate that QRF not only takes advantage of the merits of quantum computing technology such as high speed, fast convergence, and high parallelism, but also ensure high quality of volume rendering.
翻訳日:2022-11-08 17:28:53 公開日:2022-11-07
# 関係領域を用いた確率的時間安全特性の学習

Learning Probabilistic Temporal Safety Properties from Examples in Relational Domains ( http://arxiv.org/abs/2211.03461v1 )

ライセンス: Link先を確認
Gavin Rens, Wen-Chi Yang, Jean-Fran\c{c}ois Raskin, Luc De Raedt(参考訳) 本稿では,確率計算ツリー論理(pCTL)の断片を,安全あるいは安全でないとラベル付けされた状態の集合から学習するためのフレームワークを提案する。 我々はリレーショナル環境で作業し、リレーショナルマルコフ決定プロセスとpCTLモデルチェックのアイデアを組み合わせる。 より具体的には、安全な状態のみによって満たされ、最大$k$ステップとしきい値確率$\alpha$を持つ未知のpCTLターゲット公式が存在すると仮定する。 タスクは、ドメインの専門家によって安全または安全でないとラベル付けされた状態から、この未知の公式を学ぶことで構成される。 我々はリレーショナル・ラーニングの原則を適用し、すべての安全な状態と安全でない状態によって満たされるpctl公式を誘導する。 この公式はこのドメインの安全仕様として使用できるため、システムは将来危険な状況に陥ることを避けることができる。 関係学習の原則に従って、候補式生成プロセスを導入し、与えられたラベル付き状態に対してどの候補式が満足のいく仕様であるかを決定する方法を紹介する。 専門家がシステムポリシーを知っており、知らない場合については、どちらの場合も学習プロセスの多くは同じである。 合成関係領域に対する我々のアプローチを評価する。

We propose a framework for learning a fragment of probabilistic computation tree logic (pCTL) formulae from a set of states that are labeled as safe or unsafe. We work in a relational setting and combine ideas from relational Markov Decision Processes with pCTL model-checking. More specifically, we assume that there is an unknown relational pCTL target formula that is satisfied by only safe states, and has a horizon of maximum $k$ steps and a threshold probability $\alpha$. The task then consists of learning this unknown formula from states that are labeled as safe or unsafe by a domain expert. We apply principles of relational learning to induce a pCTL formula that is satisfied by all safe states and none of the unsafe ones. This formula can then be used as a safety specification for this domain, so that the system can avoid getting into dangerous situations in future. Following relational learning principles, we introduce a candidate formula generation process, as well as a method for deciding which candidate formula is a satisfactory specification for the given labeled states. The cases where the expert knows and does not know the system policy are treated, however, much of the learning process is the same for both cases. We evaluate our approach on a synthetic relational domain.
翻訳日:2022-11-08 17:14:03 公開日:2022-11-07
# C3PO:大規模エントロピー事前学習による任意ゴール達成の学習

C3PO: Learning to Achieve Arbitrary Goals via Massively Entropic Pretraining ( http://arxiv.org/abs/2211.03521v1 )

ライセンス: Link先を確認
Alexis Jacq, Manu Orsini, Gabriel Dulac-Arnold, Olivier Pietquin, Matthieu Geist, Olivier Bachem(参考訳) 特定の実施形態が与えられた場合,任意の立場や姿勢を実現できる方針を学習する新しい手法(c3po)を提案する。 このようなポリシーにより、制御が容易になり、下流タスクのキービルディングブロックとして再利用できる。 まず、一様カバレッジを最適化し、達成可能な状態の集合を発見できる新しい探索アルゴリズムを導入し、高いカバレッジと難解な状態の両方を達成する能力について検討し、また、この達成可能な状態の集合を、ゴールベースSACの汎用的な目標達成ポリシーのトレーニングデータとして活用する。 我々は多数の新規状態を達成するための訓練されたポリシーのパフォーマンスを実証する。 最後に, ホッパー, ウォーカー, ハーフチータ, ヒューマノイド, アントエンボディメントの最先端のポーズベース制御による目標達成政策の大規模教師なし訓練の影響について述べる。

Given a particular embodiment, we propose a novel method (C3PO) that learns policies able to achieve any arbitrary position and pose. Such a policy would allow for easier control, and would be re-useable as a key building block for downstream tasks. The method is two-fold: First, we introduce a novel exploration algorithm that optimizes for uniform coverage, is able to discover a set of achievable states, and investigates its abilities in attaining both high coverage, and hard-to-discover states; Second, we leverage this set of achievable states as training data for a universal goal-achievement policy, a goal-based SAC variant. We demonstrate the trained policy's performance in achieving a large number of novel states. Finally, we showcase the influence of massive unsupervised training of a goal-achievement policy with state-of-the-art pose-based control of the Hopper, Walker, Halfcheetah, Humanoid and Ant embodiments.
翻訳日:2022-11-08 17:13:43 公開日:2022-11-07
# BigCilin: 微細なハイパーネム・ヒポニム関係を持つ中国のオープンドメイン知識グラフ

BigCilin: An Automatic Chinese Open-domain Knowledge Graph with Fine-grained Hypernym-Hyponym Relations ( http://arxiv.org/abs/2211.03612v1 )

ライセンス: Link先を確認
Ming Liu, Yaojia LV, Jingrun Zhang, Ruiji Fu, Bing Qin(参考訳) 本稿では,中国初のオープンドメイン知識グラフであるBigCilinについて紹介する。 きめ細かいhypernym-hyponym関係により、bigcilinは柔軟な意味的階層構造を持っている。 ハイパーニムハイプニムパスが自動生成され、1つのエンティティが複数のセンスを持つ可能性があるので、パスとセンスが同じ意味を示す条件で、1つのエンティティのハイパーニムハイプニムパスをその1つのセンスにマッピングするパス非アンビグルーションソリューションを提供する。 BigCilin Knowle-dgeグラフを便利にアクセスするために、Webインターフェースを2つの方法で提供します。 ひとつは、中国の名前付きエンティティのクエリと、抽出されたhypernym-hyponymパスの閲覧が、クエリエンティティを代理化する。 もうひとつは、サムパードエンティティ上のBigCilinナレッジグラフの全体的な階層構造を照会する上で、トップダウンのブラウジングビューを提供することです。

This paper presents BigCilin, the first Chinese open-domain knowledge graph with fine-grained hypernym-hyponym re-lations which are extracted automatically from multiple sources for Chinese named entities. With the fine-grained hypernym-hyponym relations, BigCilin owns flexible semantic hierarchical structure. Since the hypernym-hyponym paths are automati-cally generated and one entity may have several senses, we provide a path disambi-guation solution to map a hypernym-hyponym path of one entity to its one sense on the condition that the path and the sense express the same meaning. In order to conveniently access our BigCilin Knowle-dge graph, we provide web interface in two ways. One is that it supports querying any Chinese named entity and browsing the extracted hypernym-hyponym paths surro-unding the query entity. The other is that it gives a top-down browsing view to illust-rate the overall hierarchical structure of our BigCilin knowledge graph over some sam-pled entities.
翻訳日:2022-11-08 17:13:26 公開日:2022-11-07
# ニュース記事中のメディアバイアス検出のためのトランスフォーマーに基づくマルチタスク学習

Exploiting Transformer-based Multitask Learning for the Detection of Media Bias in News Articles ( http://arxiv.org/abs/2211.03491v1 )

ライセンス: Link先を確認
Timo Spinde, Jan-David Krieger, Terry Ruas, Jelena Mitrovi\'c, Franz G\"otz-Hahn, Akiko Aizawa, and Bela Gipp(参考訳) メディアはイベントに対する大衆の認識に大きな影響を与えている。 任意の話題に対する片面的あるいは偏りのある視点は、通常、メディアバイアスとして記述される。 ニュース記事に偏見を導入する方法の1つは、単語の選択を変えることである。 バイアスドワードの選択は必ずしも明確ではないし、文脈依存度も高い。 したがって、バイアスを検出することはしばしば困難である。 本稿では,メディアバイアス検出問題に対処する6つのバイアス関連データセットを用いて,マルチタスク学習を用いて学習したトランスフォーマーに基づくディープラーニングアーキテクチャを提案する。 最もパフォーマンスの高い実装は 0.776 のマクロ $f_{1}$ を達成し、ベースラインと比較してパフォーマンスが 3\% 向上し、既存のメソッドよりも優れています。 以上の結果から,マルチタスク学習は,既存のベースラインモデルを改善するための有望な代替手段であることが示唆された。

Media has a substantial impact on the public perception of events. A one-sided or polarizing perspective on any topic is usually described as media bias. One of the ways how bias in news articles can be introduced is by altering word choice. Biased word choices are not always obvious, nor do they exhibit high context-dependency. Hence, detecting bias is often difficult. We propose a Transformer-based deep learning architecture trained via Multi-Task Learning using six bias-related data sets to tackle the media bias detection problem. Our best-performing implementation achieves a macro $F_{1}$ of 0.776, a performance boost of 3\% compared to our baseline, outperforming existing methods. Our results indicate Multi-Task Learning as a promising alternative to improve existing baseline models in identifying slanted reporting.
翻訳日:2022-11-08 17:04:44 公開日:2022-11-07
# 基礎数学学習のための音声対話システムのエンドツーエンド評価

End-to-End Evaluation of a Spoken Dialogue System for Learning Basic Mathematics ( http://arxiv.org/abs/2211.03511v1 )

ライセンス: Link先を確認
Eda Okur, Saurav Sahay, Roddy Fuentes Alba, Lama Nachman(参考訳) 教育アプリケーション構築に応用された言語ベースの人工知能(AI)技術の進歩は、より広いポジティブな影響で、社会的な良い機会にAIを提示することができる。 多くの分野において、数学教育の質の向上は、批判的思考と問題解決のスキルを構築する上で重要である。 会話型AIシステムは、学生が基本的な数学の概念を学ぶのを助けるために重要な役割を果たすように成熟し始めた。 本研究は,幼児期における基本数学概念のプレイベース学習を支援するタスク指向音声対話システム(SDS)を提案する。 このシステムは、学生がマルチモーダルインタラクションで初期の数学概念を実践している間に、実世界の学校での展開を通じて評価されている。 本研究では,自然言語理解(NLU)モジュールの潜在的な拡張のために MathBERT 表現を活用することを目的とした数学学習用 SDS パイプラインの改良について論じる。 自動音声認識(asr)、意図認識(intent recognition)、対話マネージャ(dm)コンポーネントからの実世界の配置出力を用いてエンドツーエンド評価を行い、実世界のシナリオにおけるエラー伝搬が全体的なパフォーマンスに与える影響を理解する。

The advances in language-based Artificial Intelligence (AI) technologies applied to build educational applications can present AI for social-good opportunities with a broader positive impact. Across many disciplines, enhancing the quality of mathematics education is crucial in building critical thinking and problem-solving skills at younger ages. Conversational AI systems have started maturing to a point where they could play a significant role in helping students learn fundamental math concepts. This work presents a task-oriented Spoken Dialogue System (SDS) built to support play-based learning of basic math concepts for early childhood education. The system has been evaluated via real-world deployments at school while the students are practicing early math concepts with multimodal interactions. We discuss our efforts to improve the SDS pipeline built for math learning, for which we explore utilizing MathBERT representations for potential enhancement to the Natural Language Understanding (NLU) module. We perform an end-to-end evaluation using real-world deployment outputs from the Automatic Speech Recognition (ASR), Intent Recognition, and Dialogue Manager (DM) components to understand how error propagation affects the overall performance in real-world scenarios.
翻訳日:2022-11-08 17:04:33 公開日:2022-11-07
# マルチモーダル変圧器における適応的コントラスト学習

Adaptive Contrastive Learning on Multimodal Transformer for Review Helpfulness Predictions ( http://arxiv.org/abs/2211.03524v1 )

ライセンス: Link先を確認
Thong Nguyen, Xiaobao Wu, Anh-Tuan Luu, Cong-Duy Nguyen, Zhen Hai, Lidong Bing(参考訳) Modern Review Helpfulness Prediction システムは、テキストや画像など、複数のモードに依存している。 残念なことに、これらの現代的アプローチはポーランドのクロスモーダル関係の表現にあまり注意を払わず、劣った最適化に苦しむ傾向がある。 これは多くのケースでモデルの予測に害をもたらす可能性がある。 上記の課題を克服するために, 入力モダリティ間の相互情報から, 明瞭な相互関係へと集中したMRHP(Multimodal Contrastive Learning for Multimodal Review Helpfulness Prediction)問題を提案する。 さらに,最適化の柔軟性を高めるために,コントラスト学習手法に適応的重み付けスキームを導入する。 最後に,マルチモーダルデータの不一致性に対処し,より合理的なマルチモーダル表現を生成するモデルを支援するマルチモーダルインタラクションモジュールを提案する。 実験の結果,MRHP問題に対する2つのベンチマークデータセットにおいて,提案手法が先行ベースラインより優れ,最先端の結果が得られた。

Modern Review Helpfulness Prediction systems are dependent upon multiple modalities, typically texts and images. Unfortunately, those contemporary approaches pay scarce attention to polish representations of cross-modal relations and tend to suffer from inferior optimization. This might cause harm to model's predictions in numerous cases. To overcome the aforementioned issues, we propose Multimodal Contrastive Learning for Multimodal Review Helpfulness Prediction (MRHP) problem, concentrating on mutual information between input modalities to explicitly elaborate cross-modal relations. In addition, we introduce Adaptive Weighting scheme for our contrastive learning approach in order to increase flexibility in optimization. Lastly, we propose Multimodal Interaction module to address the unalignment nature of multimodal data, thereby assisting the model in producing more reasonable multimodal representations. Experimental results show that our method outperforms prior baselines and achieves state-of-the-art results on two publicly available benchmark datasets for MRHP problem.
翻訳日:2022-11-08 17:04:12 公開日:2022-11-07
# 気候変動ツイートの感情支援姿勢検出のためのマルチタスクモデル

A Multi-task Model for Sentiment Aided Stance Detection of Climate Change Tweets ( http://arxiv.org/abs/2211.03533v1 )

ライセンス: Link先を確認
Apoorva Upadhyaya, Marco Fisichella, Wolfgang Nejdl(参考訳) 気候変動は、我々の時代における最大の課題の1つになった。 Twitterのようなソーシャルメディアプラットフォームは、公衆の認識を高め、現在の気候危機の危険性に関する知識を広げる上で重要な役割を担っている。 ソーシャルメディアを通じた気候変動に関するキャンペーンやコミュニケーションが増えれば、情報はさらに認知され、一般大衆や政策立案者に届けられるようになる。 しかし、これらのtwitterコミュニケーションは、信念の分断、意見が支配するイデオロギー、しばしば気候変動を否定する者と信者の2つのコミュニティに分かれる。 本稿では,twitter上でデニエ・ステートメントを識別し,気候変動に対する2つの態度(デニエ・ベライバー)の1つにそのスタンスを分類する枠組みを提案する。 Twitterの気候変動に関するデータは、気候変動に対する一般大衆の態度に深く根ざしている。 そこで本研究は,気候変動ツイートのスタンス検出と感性分析という,密接に関連する2つのタスクの学習に焦点を当てた。 本稿では,姿勢検出(主タスク)と感情分析(副タスク)を同時に行うマルチタスクフレームワークを提案する。 提案モデルでは特徴特化フレームワークと共有特化アテンションフレームワークを取り入れ,複数の特徴を融合させ,両タスクの一般的な特徴を学習する。 実験結果から,提案手法は主課題,すなわち補助課題の恩恵による姿勢検出,すなわち,一様・単タスクの変種と比較して感情分析の性能を向上させることが示された。

Climate change has become one of the biggest challenges of our time. Social media platforms such as Twitter play an important role in raising public awareness and spreading knowledge about the dangers of the current climate crisis. With the increasing number of campaigns and communication about climate change through social media, the information could create more awareness and reach the general public and policy makers. However, these Twitter communications lead to polarization of beliefs, opinion-dominated ideologies, and often a split into two communities of climate change deniers and believers. In this paper, we propose a framework that helps identify denier statements on Twitter and thus classifies the stance of the tweet into one of the two attitudes towards climate change (denier/believer). The sentimental aspects of Twitter data on climate change are deeply rooted in general public attitudes toward climate change. Therefore, our work focuses on learning two closely related tasks: Stance Detection and Sentiment Analysis of climate change tweets. We propose a multi-task framework that performs stance detection (primary task) and sentiment analysis (auxiliary task) simultaneously. The proposed model incorporates the feature-specific and shared-specific attention frameworks to fuse multiple features and learn the generalized features for both tasks. The experimental results show that the proposed framework increases the performance of the primary task, i.e., stance detection by benefiting from the auxiliary task, i.e., sentiment analysis compared to its uni-modal and single-task variants.
翻訳日:2022-11-08 17:03:56 公開日:2022-11-07
# 言葉埋め込みモデルは完璧ではない:メディアにおけるソーシャルバイアスの表現精度の評価

No Word Embedding Model Is Perfect: Evaluating the Representation Accuracy for Social Bias in the Media ( http://arxiv.org/abs/2211.03634v1 )

ライセンス: Link先を確認
Maximilian Splieth\"over, Maximilian Keiff, Henning Wachsmuth(参考訳) ニュース記事は、政治的スペクトル全体の世論を形作り、反映する。 社会的偏見の分析は、社会におけるステレオタイプやメディアなど、それぞれのデータに基づいて訓練されたNLPモデルによってしばしば採用される、貴重な洞察を与えることができる。 最近の研究はWEATのような単語埋め込みバイアス尺度に依存している。 しかし、埋め込みのいくつかの表現問題は、低リソース設定やトークン頻度の違いなど、測定値の精度を損なう可能性がある。 本研究では,米国オンラインニュース記事における社会的バイアスの種類を正確に測定するために,どのような組込みアルゴリズムが最適かを検討する。 米国における政治的偏見の全範囲をカバーするため、500万記事を収集し、予想される社会的偏見に関する心理学文献をレビューする。 次に、WEATを用いた社会的偏見と、上記の問題を考慮に入れた埋め込みアルゴリズムを定量化する。 ニュース記事のアルゴリズムでトレーニングされたモデルが、期待される社会的バイアスを表しているかを比較する。 バイアスを定量化する標準的な方法は,心理学の知識とよく一致しないことが示唆された。 提案されたアルゴリズムは、~gapを減少させるが、まだ文献と完全に一致していない。

News articles both shape and reflect public opinion across the political spectrum. Analyzing them for social bias can thus provide valuable insights, such as prevailing stereotypes in society and the media, which are often adopted by NLP models trained on respective data. Recent work has relied on word embedding bias measures, such as WEAT. However, several representation issues of embeddings can harm the measures' accuracy, including low-resource settings and token frequency differences. In this work, we study what kind of embedding algorithm serves best to accurately measure types of social bias known to exist in US online news articles. To cover the whole spectrum of political bias in the US, we collect 500k articles and review psychology literature with respect to expected social bias. We then quantify social bias using WEAT along with embedding algorithms that account for the aforementioned issues. We compare how models trained with the algorithms on news articles represent the expected social bias. Our results suggest that the standard way to quantify bias does not align well with knowledge from psychology. While the proposed algorithms reduce the~gap, they still do not fully match the literature.
翻訳日:2022-11-08 17:03:30 公開日:2022-11-07
# タスク指向対話システムにおける過剰生成応答の優先順位付け

Reranking Overgenerated Responses for End-to-End Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2211.03648v1 )

ライセンス: Link先を確認
Songbo Hu, Ivan Vuli\'c, Fangyu Liu, Anna Korhonen(参考訳) エンドツーエンド(e2e)タスク指向対話(tod)システムはいわゆる「いいね!トラップ」に陥りやすいため、退屈で反復的で、対話履歴と矛盾することが多い。 複数生成した応答のランクリストと'ゴールドレスポンス'(トレーニングデータから)を比較すると、応答品質の多様性が明らかになり、ランクリストの下位に良い応答が多数置かれる。 この研究で取り組んだ主な課題は、厳密に生成されたシステム応答を越えて、金の応答が得られない推論で過剰に生成された応答のリストから、そのような高品質な応答をどうやって取得し、選択するかである。 そこで本研究では,システムによって最初に生成された応答のリストから高品質な項目を選択することを目的とした,簡便かつ効果的なリランキング手法を提案する。 その考え方は、シーケンスレベル(類似性)スコアリング関数を使用して、応答の意味空間を高スケーリングと低スケーリングの分割に分割することである。 訓練時には、金反応との類似性が金反応に対するグリード反応の類似性よりも高い全ての生成応答を含む。 推論では、前回の対話履歴のみを考慮し、各過剰生成された応答がハイスケーリングパーティションに属する確率を推定する。 我々は,提案手法のロバスト性および汎用性を標準のMultiWOZデータセット上で検証する:我々の手法は,最先端のE2E ToDシステムを2.4BLEU,3.2ROUGE,2.8METEORスコアで改善し,新たなピーク値を達成する。 BiTODデータセットと人体評価に関する追加実験により、提案フレームワークの汎用性と有効性をさらに確認した。

End-to-end (E2E) task-oriented dialogue (ToD) systems are prone to fall into the so-called 'likelihood trap', resulting in generated responses which are dull, repetitive, and often inconsistent with dialogue history. Comparing ranked lists of multiple generated responses against the 'gold response' (from training data) reveals a wide diversity in response quality, with many good responses placed lower in the ranked list. The main challenge, addressed in this work, is then how to reach beyond greedily generated system responses, that is, how to obtain and select such high-quality responses from the list of overgenerated responses at inference without availability of the gold response. To this end, we propose a simple yet effective reranking method which aims to select high-quality items from the lists of responses initially overgenerated by the system. The idea is to use any sequence-level (similarity) scoring function to divide the semantic space of responses into high-scoring versus low-scoring partitions. At training, the high-scoring partition comprises all generated responses whose similarity to the gold response is higher than the similarity of the greedy response to the gold response. At inference, the aim is to estimate the probability that each overgenerated response belongs to the high-scoring partition, given only previous dialogue history. We validate the robustness and versatility of our proposed method on the standard MultiWOZ dataset: our methods improve a state-of-the-art E2E ToD system by 2.4 BLEU, 3.2 ROUGE, and 2.8 METEOR scores, achieving new peak results. Additional experiments on the BiTOD dataset and human evaluation further ascertain the generalisability and effectiveness of the proposed framework.
翻訳日:2022-11-08 17:03:12 公開日:2022-11-07
# DPCSpell: Bangla と Resource Scarce Indic Language の誤り訂正をスペルするトランスフォーマーベースのインタプリケータ・コレクタフレームワーク

DPCSpell: A Transformer-based Detector-Purificator-Corrector Framework for Spelling Error Correction of Bangla and Resource Scarce Indic Languages ( http://arxiv.org/abs/2211.03730v1 )

ライセンス: Link先を確認
Mehedi Hasan Bijoy, Nahid Hossain, Salekul Islam, Swakkhar Shatabda(参考訳) 誤字訂正は、テキスト中の誤字を識別し、修正するタスクである。 自然言語処理において、人間の言語理解に多くの応用があるため、潜在的かつ活発な研究テーマである。 音声的または視覚的に類似しているが意味的に異なる文字は、あらゆる言語において困難なタスクである。 バングラ語とリソーススカルス言語におけるスペル誤り訂正の取り組みは、ルールベース、統計的、機械学習ベースの方法に焦点が当てられていた。 特に、ルールベースや統計的手法に優れた性能を示す機械学習ベースのアプローチは、その適切性に関係なく各文字を補正するので効果がない。 本研究では, 従来の問題に対処し, 変圧器のデノゲーションに基づく新しい検出器・ピューリフィエータ・コレクタフレームワークを提案する。 さらに,スクラッチから大規模なコーパス作成を行う手法を提案する。 実験結果から,バングラの綴り誤り訂正の有意なマージンは,従来の最先端手法を上回った手法の有効性を示す。 モデルとコーパスはhttps://tinyurl.com/DPCSpell.comで公開されている。

Spelling error correction is the task of identifying and rectifying misspelled words in texts. It is a potential and active research topic in Natural Language Processing because of numerous applications in human language understanding. The phonetically or visually similar yet semantically distinct characters make it an arduous task in any language. Earlier efforts on spelling error correction in Bangla and resource-scarce Indic languages focused on rule-based, statistical, and machine learning-based methods which we found rather inefficient. In particular, machine learning-based approaches, which exhibit superior performance to rule-based and statistical methods, are ineffective as they correct each character regardless of its appropriateness. In this work, we propose a novel detector-purificator-corrector framework based on denoising transformers by addressing previous issues. Moreover, we present a method for large-scale corpus creation from scratch which in turn resolves the resource limitation problem of any left-to-right scripted language. The empirical outcomes demonstrate the effectiveness of our approach that outperforms previous state-of-the-art methods by a significant margin for Bangla spelling error correction. The models and corpus are publicly available at https://tinyurl.com/DPCSpell.
翻訳日:2022-11-08 17:02:38 公開日:2022-11-07
# 自然言語による論理推論によるゼロショット分類

Zero-Shot Classification by Logical Reasoning on Natural Language Explanations ( http://arxiv.org/abs/2211.03252v1 )

ライセンス: Link先を確認
Chi Han, Hengzhi Pei, Xinya Du, Heng Ji(参考訳) 人間は言語の説明に基づいて、目に見えないカテゴリーを分類することができる。 この能力は言語の合成の性質によるもので、以前の概念を組み合わせて新しいカテゴリを記述することができる。 例えば、mavenを"黒い羽を持つ大きな鳥の一種"と表現して、"大きな鳥"と"黒い羽"という概念の知識を使ってmavenを認識できるようにするかもしれません。 この観察から着想を得た本研究では,自然言語説明を論理的に解析し推論することにより,ゼロショット分類課題に取り組む。 そこで本研究では,CLORE (LOGical Reasoning on Explanations) というフレームワークを提案する。 従来の方法はテキスト情報を暗黙的な特徴とみなすが、CLOREは説明を論理構造に解析し、入力のこの構造に沿って理由を解析して分類スコアを生成する。 説明に基づくゼロショット分類ベンチマークの実験結果は、CLOREがベースラインよりも優れていることを示す。 分類決定の他に、CLOREは論理解析と推論の過程を合理化の一形態として提供することができる。 経験的分析を通して、CLOREはベースラインよりも言語バイアスの影響を受けないことを示した。

Humans can classify an unseen category by reasoning on its language explanations. This ability is owing to the compositional nature of language: we can combine previously seen concepts to describe the new category. For example, we might describe mavens as "a kind of large birds with black feathers", so that others can use their knowledge of concepts "large birds" and "black feathers" to recognize a maven. Inspired by this observation, in this work we tackle zero-shot classification task by logically parsing and reasoning on natural language explanations. To this end, we propose the framework CLORE (Classification by LOgical Reasoning on Explanations). While previous methods usually regard textual information as implicit features, CLORE parses the explanations into logical structure the and then reasons along this structure on the input to produce a classification score. Experimental results on explanation-based zero-shot classification benchmarks demonstrate that CLORE is superior to baselines, mainly because it performs better on tasks requiring more logical reasoning. Alongside classification decisions, CLORE can provide the logical parsing and reasoning process as a form of rationale. Through empirical analysis we demonstrate that CLORE is also less affected by linguistic biases than baselines.
翻訳日:2022-11-08 16:55:34 公開日:2022-11-07
# Few-shot Named Entity Recognitionにおける事前学習モデルとプロトタイプニューラルネットワークの再構成

Reconciliation of Pre-trained Models and Prototypical Neural Networks in Few-shot Named Entity Recognition ( http://arxiv.org/abs/2211.03270v1 )

ライセンス: Link先を確認
Youcheng Huang, Wenqiang Lei, Jie Fu and Jiancheng Lv(参考訳) 原型ニューラルネットワークによる大規模事前学習モデルの導入は、少数ショットのエンティティ認識におけるデファクトパラダイムである。 残念ながら、既存の手法では、事前訓練されたモデルからの埋め込みが単語の周波数に関する顕著な量の情報を含んでいるという事実を意識していない。 この相違は2つのモデルのシナジーを制約する。 そこで本研究では,経験的・理論的根拠と一致しない一行正規化手法を提案する。 9つのベンチマークデータセットに基づく実験では,提案手法が対応するモデルよりも優れていることを示し,最先端手法に匹敵する結果を得た。 モデルの強化に加えて、本研究は、事前訓練されたモデルやプロトタイプのニューラルネットワークに依存する、少数の名前のエンティティ認識やその他のタスクにおける一般的な問題に対処するための分析的視点を提供する。

Incorporating large-scale pre-trained models with the prototypical neural networks is a de-facto paradigm in few-shot named entity recognition. Existing methods, unfortunately, are not aware of the fact that embeddings from pre-trained models contain a prominently large amount of information regarding word frequencies, biasing prototypical neural networks against learning word entities. This discrepancy constrains the two models' synergy. Thus, we propose a one-line-code normalization method to reconcile such a mismatch with empirical and theoretical grounds. Our experiments based on nine benchmark datasets show the superiority of our method over the counterpart models and are comparable to the state-of-the-art methods. In addition to the model enhancement, our work also provides an analytical viewpoint for addressing the general problems in few-shot name entity recognition or other tasks that rely on pre-trained models or prototypical neural networks.
翻訳日:2022-11-08 16:55:13 公開日:2022-11-07
# 質問分解による複雑読解の理解

Complex Reading Comprehension Through Question Decomposition ( http://arxiv.org/abs/2211.03277v1 )

ライセンス: Link先を確認
Xiao-Yu Guo, Yuan-Fang Li, and Gholamreza Haffari(参考訳) マルチホップ読解には、生のテキストを推論する能力だけでなく、複数のエビデンスを組み合わせる能力も必要である。 本稿では,言語モデルが難しいマルチホップ質問をより理解し,「複雑で構成的」な推論を行うための新しい学習手法を提案する。 まず、学習可能な質問分解器を用いて、複数の質問を複数の質問に分解することを学ぶ。 これらのサブクエリに答える代わりに、元の質問とコンテキストと直接結合し、読み理解モデルを利用して、シーケンスからシーケンスまでの方法で回答を予測します。 これら2つのコンポーネントで同じ言語モデルを使用することで、DROPデータセットのハードサブセット上の7.2/6.1絶対F1ポイントのベースラインを上回っます。

Multi-hop reading comprehension requires not only the ability to reason over raw text but also the ability to combine multiple evidence. We propose a novel learning approach that helps language models better understand difficult multi-hop questions and perform "complex, compositional" reasoning. Our model first learns to decompose each multi-hop question into several sub-questions by a trainable question decomposer. Instead of answering these sub-questions, we directly concatenate them with the original question and context, and leverage a reading comprehension model to predict the answer in a sequence-to-sequence manner. By using the same language model for these two components, our best seperate/unified t5-base variants outperform the baseline by 7.2/6.1 absolute F1 points on a hard subset of DROP dataset.
翻訳日:2022-11-08 16:54:57 公開日:2022-11-07
# コントラスト学習による著者型見出し生成

Contrastive Learning enhanced Author-Style Headline Generation ( http://arxiv.org/abs/2211.03305v1 )

ライセンス: Link先を確認
Hui Liu, Weidong Guo, Yige Chen and Xiangyang Li(参考訳) 見出し生成は、与えられた記事に対して適切な見出しを生成するタスクであり、さらに機械支援の書き込みやクリックスルー比の向上に使用できる。 現在の作品では、記事自体を世代でのみ使用するが、見出しの書き方が考慮されていない。 本稿では、著者が過去に書いた記事の歴史的見出しを利用して、現在の記事の見出し生成を改善するclh3g(contrastive learning enhanced historical headlines based headline generation)と呼ばれる新しいseq2seqモデルを提案する。 過去の見出しを考慮に入れることで、著者のスタイル的特徴を私たちのモデルに統合し、記事にふさわしいだけでなく、著者のスタイルと整合した見出しを生成することができる。 さらに,著者のスタイリスティックな特徴を効率的に学習するために,モデルエンコーダのためのコントラスト学習に基づく補助タスクを導入する。 さらに,生成中のポインタとデコーダの両方をガイドするために,学習スタイリスティックな特徴を用いた2つの手法を提案する。 実験の結果,同一ユーザの過去の見出しは見出し生成を著しく改善し,コントラスト学習モジュールと2つのスタイル特徴融合手法の両方により,さらなる性能向上が期待できることがわかった。

Headline generation is a task of generating an appropriate headline for a given article, which can be further used for machine-aided writing or enhancing the click-through ratio. Current works only use the article itself in the generation, but have not taken the writing style of headlines into consideration. In this paper, we propose a novel Seq2Seq model called CLH3G (Contrastive Learning enhanced Historical Headlines based Headline Generation) which can use the historical headlines of the articles that the author wrote in the past to improve the headline generation of current articles. By taking historical headlines into account, we can integrate the stylistic features of the author into our model, and generate a headline not only appropriate for the article, but also consistent with the author's style. In order to efficiently learn the stylistic features of the author, we further introduce a contrastive learning based auxiliary task for the encoder of our model. Besides, we propose two methods to use the learned stylistic features to guide both the pointer and the decoder during the generation. Experimental results show that historical headlines of the same user can improve the headline generation significantly, and both the contrastive learning module and the two style features fusion methods can further boost the performance.
翻訳日:2022-11-08 16:54:40 公開日:2022-11-07
# 自然言語パッチによるモデルバグの修正

Fixing Model Bugs with Natural Language Patches ( http://arxiv.org/abs/2211.03318v1 )

ライセンス: Link先を確認
Shikhar Murty, Christopher D. Manning, Scott Lundberg, Marco Tulio Ribeiro(参考訳) NLPモデルの体系的な問題(例えば、Regexのパッチ、より多くのデータの微調整)を修正するための現在のアプローチは脆く、労働集約的でショートカットに責任がある。 対照的に、人間はしばしば自然言語を通じて相互に修正を行う。 Taking inspiration from this, we explore natural language patches -- declarative statements that allow developers to provide corrective feedback at the right level of abstraction, either overriding the model (``if a review gives 2 stars, the sentiment is negative'') or providing additional information the model may lack (``if something is described as the bomb, then it is good''). We model the task of determining if a patch applies separately from the task of integrating patch information, and show that with a small amount of synthetic data, we can teach models to effectively use real patches on real data -- 1 to 7 patches improve accuracy by ~1-4 accuracy points on different slices of a sentiment analysis dataset, and F1 by 7 points on a relation extraction dataset. 最後に、100以上のラベル付き例の微調整は、言語パッチの小さなセットのパフォーマンスにマッチする可能性があることを示します。

Current approaches for fixing systematic problems in NLP models (e.g. regex patches, finetuning on more data) are either brittle, or labor-intensive and liable to shortcuts. In contrast, humans often provide corrections to each other through natural language. Taking inspiration from this, we explore natural language patches -- declarative statements that allow developers to provide corrective feedback at the right level of abstraction, either overriding the model (``if a review gives 2 stars, the sentiment is negative'') or providing additional information the model may lack (``if something is described as the bomb, then it is good''). We model the task of determining if a patch applies separately from the task of integrating patch information, and show that with a small amount of synthetic data, we can teach models to effectively use real patches on real data -- 1 to 7 patches improve accuracy by ~1-4 accuracy points on different slices of a sentiment analysis dataset, and F1 by 7 points on a relation extraction dataset. Finally, we show that finetuning on as many as 100 labeled examples may be needed to match the performance of a small set of language patches.
翻訳日:2022-11-08 16:54:19 公開日:2022-11-07
# 教師なし文埋め込みのためのpromply-from virtual semantic prototypesによるコントラスト学習

Contrastive Learning with Prompt-derived Virtual Semantic Prototypes for Unsupervised Sentence Embedding ( http://arxiv.org/abs/2211.03348v1 )

ライセンス: Link先を確認
Jiali Zeng, Yongjing Yin, Yufan Jiang, Shuangzhi Wu, Yunbo Cao(参考訳) コントラスト学習は教師なし文埋め込みの新しいパラダイムとなった。 以前の研究では、インスタンス間のコントラスト学習に注目し、テキストデータ拡張によるポジティブペアの構築を試みた。 本稿では, Prompt- derived Virtual semantic Prototypes (ConPVP) を用いたコントラスト学習手法を提案する。 具体的には、プロンプトの助けを借りて、各インスタンスに仮想意味プロトタイプを構築し、プロンプトの負の形式を用いて負のプロトタイプを導出する。 原型的なコントラスト損失を用いて,アンカー文の埋め込みを,対応する意味的プロトタイプに近いものに強制し,否定的なプロトタイプや他の文のプロトタイプからはるかに離れている。 セマンティックテキスト類似性,移動,クラスタリングタスクに関する大規模な実験結果から,提案モデルの有効性を強いベースラインと比較した。 コードはhttps://github.com/lemon0830/promptCSEで入手できる。

Contrastive learning has become a new paradigm for unsupervised sentence embeddings. Previous studies focus on instance-wise contrastive learning, attempting to construct positive pairs with textual data augmentation. In this paper, we propose a novel Contrastive learning method with Prompt-derived Virtual semantic Prototypes (ConPVP). Specifically, with the help of prompts, we construct virtual semantic prototypes to each instance, and derive negative prototypes by using the negative form of the prompts. Using a prototypical contrastive loss, we enforce the anchor sentence embedding to be close to its corresponding semantic prototypes, and far apart from the negative prototypes as well as the prototypes of other sentences. Extensive experimental results on semantic textual similarity, transfer, and clustering tasks demonstrate the effectiveness of our proposed model compared to strong baselines. Code is available at https://github.com/lemon0830/promptCSE.
翻訳日:2022-11-08 16:54:03 公開日:2022-11-07
# NAPG:ハイブリッド質問応答のための非自己回帰型プログラム生成

NAPG: Non-Autoregressive Program Generation for Hybrid Tabular-Textual Question Answering ( http://arxiv.org/abs/2211.03462v1 )

ライセンス: Link先を確認
Tengxun Zhang, Hongfei Xu, Josef van Genabith, Deyi Xiong, Hongying Zan(参考訳) ハイブリッド表文質問応答(QA)は異種情報からの推論を必要とし、推論のタイプは主に数値的推論とスパン抽出に分けられる。 抽出QAと比較してタスクの主な課題であるにもかかわらず、現在の数値推論法はLSTMを使ってプログラムシーケンスを自動回帰的にデコードし、各デコードステップは演算子またはオペランドを生成する。 しかし、ステップバイステップのデコーディングは露光バイアスに悩まされ、プログラム生成の精度はプログレッシブデコーディングとともに急激に低下する。 本稿では,プログラムの並列生成を容易にする非自己回帰型プログラム生成フレームワークを提案する。 演算子とオペランドの両方を含むプログラムタプルを独立に生成する我々のフレームワークは,エラー蓄積問題に対処しながらプログラム生成速度を大幅に向上させることができる。 MultiHierttデータセットに対する我々の実験は、我々のモデルが強力なベースラインに対して大きな改善(+7.97 EMと+6.38 F1ポイント)をもたらし、新しい最先端のパフォーマンスを確立しつつ、プログラム生成においてはるかに高速(21倍)であることを示しています。 また,本手法の性能低下は,数値的推論ステップの増加とともに,ベースラインよりもかなり小さい。

Hybrid tabular-textual question answering (QA) requires reasoning from heterogeneous information, and the types of reasoning are mainly divided into numerical reasoning and span extraction. Despite being the main challenge of the task compared to extractive QA, current numerical reasoning method simply uses LSTM to autoregressively decode program sequences, and each decoding step produces either an operator or an operand. However, the step-by-step decoding suffers from exposure bias, and the accuracy of program generation drops sharply with progressive decoding. In this paper, we propose a non-autoregressive program generation framework, which facilitates program generation in parallel. Our framework, which independently generates complete program tuples containing both operators and operands, can significantly boost the speed of program generation while addressing the error accumulation issue. Our experiments on the MultiHiertt dataset shows that our model can bring about large improvements (+7.97 EM and +6.38 F1 points) over the strong baseline, establishing the new state-of-the-art performance, while being much faster (21x) in program generation. The performance drop of our method is also significantly smaller than the baseline with increasing numbers of numerical reasoning steps.
翻訳日:2022-11-08 16:53:49 公開日:2022-11-07
# TempoWiCにおける単語意味変化検出のための深層混合手法

Using Deep Mixture-of-Experts to Detect Word Meaning Shift for TempoWiC ( http://arxiv.org/abs/2211.03466v1 )

ライセンス: Link先を確認
Ze Chen, Kangxu Wang, Zijian Cai, Jiewen Zheng, Jiarong He, Max Gao, Jason Zhang(参考訳) 本稿では,マクロf1スコア77.05%を達成し,この課題において第1位となるdmaのテンポジックタスクへの提出について述べる。 まず,さまざまな事前学習された言語モデルの影響について検討する。 次に,モデルの一般化と堅牢性を高めるために,データのクリーニング,データ拡張,敵対的トレーニング戦略を採用する。 さらに改良するために、Mixture-of-Experts (MoE) アプローチを用いてPOS情報と単語意味表現を統合する。 実験の結果,MoEは機能の過剰使用を克服し,コンテキスト,POS,単語の意味的特徴をうまく組み合わせることができることがわかった。 さらに, モデルアンサンブル法を用いて最終予測を行い, 多くの研究で有効であることが証明されている。

This paper mainly describes the dma submission to the TempoWiC task, which achieves a macro-F1 score of 77.05% and attains the first place in this task. We first explore the impact of different pre-trained language models. Then we adopt data cleaning, data augmentation, and adversarial training strategies to enhance the model generalization and robustness. For further improvement, we integrate POS information and word semantic representation using a Mixture-of-Experts (MoE) approach. The experimental results show that MoE can overcome the feature overuse issue and combine the context, POS, and word semantic features well. Additionally, we use a model ensemble method for the final prediction, which has been proven effective by many research works.
翻訳日:2022-11-08 16:53:26 公開日:2022-11-07
# 設計概念生成のための生成トランス

Generative Transformers for Design Concept Generation ( http://arxiv.org/abs/2211.03468v1 )

ライセンス: Link先を確認
Qihao Zhu and Jianxi Luo(参考訳) 先進的な設計思考能力と設計者からの幅広い知識を必要とする様々な設計機会を探求するために、新規で有用な概念を生成することは、初期の設計段階で不可欠である。 コンピュータ支援ツールの研究は、設計データから知識とヒューリスティックの検索を探求している。 しかし、限定的な側面からデザイナーに刺激を与えるだけである。 本研究では、人工知能(AI)分野における自然言語生成技術(NLG)の最近の進歩を探求し、初期設計概念生成を自動化する。 具体的には,テキストデータから知識と推論を活用し,理解可能な言語における新しい概念に変換するために,生成前学習トランスフォーマ(gpt)を用いた新しい手法を提案する。 3つの概念生成タスクは、異なる知識と推論(ドメイン知識合成、問題駆動合成、アナログ駆動合成)を活用するために定義される。 人的およびデータ駆動評価による実験は、新規で有用な概念を生成する上で優れた性能を示す。

Generating novel and useful concepts is essential during the early design stage to explore a large variety of design opportunities, which usually requires advanced design thinking ability and a wide range of knowledge from designers. Growing works on computer-aided tools have explored the retrieval of knowledge and heuristics from design data. However, they only provide stimuli to inspire designers from limited aspects. This study explores the recent advance of the natural language generation (NLG) technique in the artificial intelligence (AI) field to automate the early-stage design concept generation. Specifically, a novel approach utilizing the generative pre-trained transformer (GPT) is proposed to leverage the knowledge and reasoning from textual data and transform them into new concepts in understandable language. Three concept generation tasks are defined to leverage different knowledge and reasoning: domain knowledge synthesis, problem-driven synthesis, and analogy-driven synthesis. The experiments with both human and data-driven evaluation show good performance in generating novel and useful concepts.
翻訳日:2022-11-08 16:53:13 公開日:2022-11-07
# 医用拡散-3次元医用画像生成のための拡散確率モデル

Medical Diffusion -- Denoising Diffusion Probabilistic Models for 3D Medical Image Generation ( http://arxiv.org/abs/2211.03364v1 )

ライセンス: Link先を確認
Firas Khader, Gustav Mueller-Franzes, Soroosh Tayebi Arasteh, Tianyu Han, Christoph Haarburger, Maximilian Schulze-Hagen, Philipp Schad, Sandy Engelhardt, Bettina Baessler, Sebastian Foersch, Johannes Stegmaier, Christiane Kuhl, Sven Nebelung, Jakob Nikolas Kather, Daniel Truhn(参考訳) コンピュータビジョンの最近の進歩は、画像生成に有望な結果をもたらしている。 特に拡散確率モデルは、dall-e 2 と imagen で示されるように、テキスト入力から現実的な画像を生成する。 しかし、画像データが通常3次元ボリュームからなる医学におけるそれらの使用は体系的に評価されていない。 合成画像は、プライバシ保護人工知能において重要な役割を果たすと同時に、小さなデータセットの強化にも使用できる。 本稿では,拡散確率モデルを用いて高品質な医用画像データを合成し,磁気共鳴画像(MRI)とCT画像(CT)に応用できることを示す。 本研究は,合成画像の品質を3つのカテゴリに分類した2人の医療専門家を対象に,実写画像の外観,解剖学的正確性,スライス間の整合性について定量的に測定した。 さらに, 自己教師付き事前学習において合成画像が利用可能であり, データ不足時の乳房分節モデルの性能向上が期待できることを示した(合成データでは0.91 点対 0.95 点)。

Recent advances in computer vision have shown promising results in image generation. Diffusion probabilistic models in particular have generated realistic images from textual input, as demonstrated by DALL-E 2, Imagen and Stable Diffusion. However, their use in medicine, where image data typically comprises three-dimensional volumes, has not been systematically evaluated. Synthetic images may play a crucial role in privacy preserving artificial intelligence and can also be used to augment small datasets. Here we show that diffusion probabilistic models can synthesize high quality medical imaging data, which we show for Magnetic Resonance Images (MRI) and Computed Tomography (CT) images. We provide quantitative measurements of their performance through a reader study with two medical experts who rated the quality of the synthesized images in three categories: Realistic image appearance, anatomical correctness and consistency between slices. Furthermore, we demonstrate that synthetic images can be used in a self-supervised pre-training and improve the performance of breast segmentation models when data is scarce (dice score 0.91 vs. 0.95 without vs. with synthetic data).
翻訳日:2022-11-08 16:36:36 公開日:2022-11-07
# 解釈可能な睡眠ステージングにおけるパフォーマンスとユーティリティトレードオフ

Performance and utility trade-off in interpretable sleep staging ( http://arxiv.org/abs/2211.03282v1 )

ライセンス: Link先を確認
Irfan Al-Hussaini, Cassie S. Mitchell(参考訳) 近年のディープラーニングの進歩は、人間の精度に近づくモデルの開発につながっている。 しかし、医療は広く普及していない分野である。 医療の安全性に欠かせない性質は、これらのブラックボックスのディープラーニングモデルを実践するために自然なレチレンスをもたらす。 本稿では,脳波,EOG,筋電図などの生理学的信号に基づいて,臨床診断支援システム,睡眠ステージングの解釈方法について検討する。 最近の研究では、単純なモデルを使って睡眠ステージングを示しており、徹底した機能セットは、ディープラーニングのアプローチと同様に、特定のデータセットでのみ実行できる。 また,これらの特徴の臨床的有用性は明らかでない。 一方,推奨フレームワークであるnormintsleepでは,正規化特徴を用いたディープラーニング組込みを表現すれば,さまざまなデータセットで優れたパフォーマンスが得られることを示す。 normintsleepは機能ベースアプローチよりも4.5%、他の表現学習アプローチよりも1.5%優れている。 これらのモデルの解釈の実用性に対する実証的な比較は、パフォーマンスがわずかにトレードオフされたときに臨床上の期待と整合性が改善されていることを強調している。

Recent advances in deep learning have led to the development of models approaching human level of accuracy. However, healthcare remains an area lacking in widespread adoption. The safety-critical nature of healthcare results in a natural reticence to put these black-box deep learning models into practice. In this paper, we explore interpretable methods for a clinical decision support system, sleep staging, based on physiological signals such as EEG, EOG, and EMG. A recent work has shown sleep staging using simple models and an exhaustive set of features can perform nearly as well as deep learning approaches but only for certain datasets. Moreover, the utility of these features from a clinical standpoint is unclear. On the other hand, the proposed framework, NormIntSleep shows that by representing deep learning embeddings using normalized features, great performance can be obtained across different datasets. NormIntSleep performs 4.5% better than the exhaustive feature-based approach and 1.5% better than other representation learning approaches. An empirical comparison between the utility of the interpretations of these models highlights the improved alignment with clinical expectations when performance is traded-off slightly.
翻訳日:2022-11-08 16:28:08 公開日:2022-11-07
# hfedms:産業メタバースにおける記憶可能なデータセマンティクスを用いたヘテロジニアスフェデレート学習

HFedMS: Heterogeneous Federated Learning with Memorable Data Semantics in Industrial Metaverse ( http://arxiv.org/abs/2211.03300v1 )

ライセンス: Link先を確認
Shenglai Zeng, Zonghang Li, Hongfang Yu, Zhihao Zhang, Long Luo, Bo Li, Dusit Niyato(参考訳) フェデレートラーニング(FL)は、急速に進化するプライバシ保護協調機械学習パラダイムであり、新興産業メタバースにおけるエッジインテリジェンスを実現するための有望なアプローチである。 理論上、多くの成功事例がFLの実現可能性を示しているが、Metaverseの産業実践では、非独立で同一に分散したデータ、ストリーミング産業データによる忘れの学習、通信帯域幅の不足といった問題は、実際にFLを実現する上で重要な障壁である。 本稿では,これら3つの課題を同時に解決し,実用FLを産業メタバースに組み込んだ高性能かつ効率的なHFEDMSを提案する。 HFEDMSは動的グループ化とトレーニングモード変換(Dynamic Sequential-to-Parallel Training, STP)によってデータの均一性を低下させる。 そして、圧縮された履歴データセマンティクスとカリブラート分類パラメータ(Semantic Compression and Compensation, SCC)を融合することにより、忘れられた知識を補償する。 最後に、特徴抽出器と分類器のネットワークパラメータを異なる周波数(Layer-wise Alternative Synchronization Protocol, LASP)で同期させ、通信コストを削減する。 これらの技術により、flは産業機器によって連続的に生成される異種ストリーミングデータに適応しやすくなり、従来の方法(フェデレート平均化など)よりも通信効率が向上する。 ストリーム化されていないFEMNISTデータセットに対して,368個のシミュレーションデバイスを用いて大規模な実験を行った。 HFEDMSは8つのベンチマークと比較して少なくとも6.4%の分類精度を向上し、全体のランタイムと転送バイトの両方を最大98%削減し、精度と効率の優位性を証明した。

Federated Learning (FL), as a rapidly evolving privacy-preserving collaborative machine learning paradigm, is a promising approach to enable edge intelligence in the emerging Industrial Metaverse. Even though many successful use cases have proved the feasibility of FL in theory, in the industrial practice of Metaverse, the problems of non-independent and identically distributed (non-i.i.d.) data, learning forgetting caused by streaming industrial data, and scarce communication bandwidth remain key barriers to realize practical FL. Facing the above three challenges simultaneously, this paper presents a high-performance and efficient system named HFEDMS for incorporating practical FL into Industrial Metaverse. HFEDMS reduces data heterogeneity through dynamic grouping and training mode conversion (Dynamic Sequential-to-Parallel Training, STP). Then, it compensates for the forgotten knowledge by fusing compressed historical data semantics and calibrates classifier parameters (Semantic Compression and Compensation, SCC). Finally, the network parameters of the feature extractor and classifier are synchronized in different frequencies (Layer-wiseAlternative Synchronization Protocol, LASP) to reduce communication costs. These techniques make FL more adaptable to the heterogeneous streaming data continuously generated by industrial equipment, and are also more efficient in communication than traditional methods (e.g., Federated Averaging). Extensive experiments have been conducted on the streamed non-i.i.d. FEMNIST dataset using 368 simulated devices. Numerical results show that HFEDMS improves the classification accuracy by at least 6.4% compared with 8 benchmarks and saves both the overall runtime and transfer bytes by up to 98%, proving its superiority in precision and efficiency.
翻訳日:2022-11-08 16:27:52 公開日:2022-11-07
# MAISON -- 高齢者のためのマルチモーダルAIベースのセンサプラットフォーム

MAISON -- Multimodal AI-based Sensor platform for Older Individuals ( http://arxiv.org/abs/2211.03615v1 )

ライセンス: Link先を確認
Ali Abedi, Faranak Dayyani, Charlene Chu, Shehroz S. Khan(参考訳) 高齢者は、高齢者の自立性を高め、自宅での老化を可能にするための適切なツールが必要であり、医療従事者の支援も必要である。 高齢者の行動、機能、心理データを監視し分析する医療従事者を支援する予測モデルを構築することで、この目的を達成することが可能である。 このようなモデルを開発するには、通常大量のマルチモーダルセンサデータが必要である。 本稿では,高齢者や自宅で生活している患者から所望のマルチモーダルセンサデータを収集できる,商用スマートデバイスのスケーラブルなクラウドベースプラットフォームであるMAISONを提案する。 maisonプラットフォームは、既存のプラットフォームよりも多種多様なデータモダリティを収集できる能力と、デジタル字幕のない高齢者向けにシームレスなデータ収集と使いやすさをもたらす新機能によって、斬新である。 大規模リハビリテーションセンターから退院した高齢者2名のメイソン・プラットフォームの実現可能性を示した。 その結果,MAISONプラットフォームは機能的不具合や性能劣化を伴わずに,センサデータをクラウドに収集,保存することができた。 本稿では,高齢者の家庭におけるプラットフォーム開発とデータ収集に直面する課題についても考察する。 MAISONは、マルチモーダルデータを収集し、社会的孤立、抑うつ、機能低下を含む主要な健康指標を検出するための予測モデルの開発を促進するために設計された新しいプラットフォームであり、地域社会の高齢者での使用が可能である。

There is a global aging population requiring the need for the right tools that can enable older adults' greater independence and the ability to age at home, as well as assist healthcare workers. It is feasible to achieve this objective by building predictive models that assist healthcare workers in monitoring and analyzing older adults' behavioral, functional, and psychological data. To develop such models, a large amount of multimodal sensor data is typically required. In this paper, we propose MAISON, a scalable cloud-based platform of commercially available smart devices capable of collecting desired multimodal sensor data from older adults and patients living in their own homes. The MAISON platform is novel due to its ability to collect a greater variety of data modalities than the existing platforms, as well as its new features that result in seamless data collection and ease of use for older adults who may not be digitally literate. We demonstrated the feasibility of the MAISON platform with two older adults discharged home from a large rehabilitation center. The results indicate that the MAISON platform was able to collect and store sensor data in a cloud without functional glitches or performance degradation. This paper will also discuss the challenges faced during the development of the platform and data collection in the homes of older adults. MAISON is a novel platform designed to collect multimodal data and facilitate the development of predictive models for detecting key health indicators, including social isolation, depression, and functional decline, and is feasible to use with older adults in the community.
翻訳日:2022-11-08 16:27:18 公開日:2022-11-07
# alphazeroライクなエージェントは敵対的摂動に対して堅牢か?

Are AlphaZero-like Agents Robust to Adversarial Perturbations? ( http://arxiv.org/abs/2211.03769v1 )

ライセンス: Link先を確認
Li-Cheng Lan, Huan Zhang, Ti-Rong Wu, Meng-Yu Tsai, I-Chen Wu, Cho-Jui Hsieh(参考訳) AlphaZero(AZ)の成功は、ニューラルネットワークベースのGo AIが人間のパフォーマンスを大きく上回ることを示した。 Goの国家空間が極めて大きく、人間のプレイヤーが法的状態からゲームをすることができることを考慮すれば、Go AIに対して敵国が存在するかどうかを問う。 本稿では,まず,goゲームに敵の例の概念を最初に拡張する。我々は,ゲームに意味のない動きを加えることによって,本来の状態と同値である‘semantically’となる摂動状態を生成し,その逆の状態を,go初心者にとっても明らかな劣った動作につながる摂動状態とする。 しかし、逆境状態の探索は、大きくて離散的で、非微分可能な探索空間のため困難である。 この課題に取り組むため,我々は,検索空間を戦略的に縮小することにより,効率的に敵国を探索できる,go aisに対する最初の敵対的攻撃を開発した。 この方法は、NoGoのような他のボードゲームにも拡張できる。 例えば,AlphaGo Zero の 58 % の自己プレイゲームでは,MCTS の 50 個のシミュレーションで広く使われている KataGo エージェントが,2 個の無意味なストーンを追加することで,その動作を損なうことができる。 さらに,このアルゴリズムで見いだされた敵の例をアマチュアの人間goプレーヤーで評価し,その90%はgoエージェントに明らかに劣るアクションをさせた。 私たちのコードは \url{https://PaperCode.cc/GoAttack} で利用可能です。

The success of AlphaZero (AZ) has demonstrated that neural-network-based Go AIs can surpass human performance by a large margin. Given that the state space of Go is extremely large and a human player can play the game from any legal state, we ask whether adversarial states exist for Go AIs that may lead them to play surprisingly wrong actions. In this paper, we first extend the concept of adversarial examples to the game of Go: we generate perturbed states that are ``semantically'' equivalent to the original state by adding meaningless moves to the game, and an adversarial state is a perturbed state leading to an undoubtedly inferior action that is obvious even for Go beginners. However, searching the adversarial state is challenging due to the large, discrete, and non-differentiable search space. To tackle this challenge, we develop the first adversarial attack on Go AIs that can efficiently search for adversarial states by strategically reducing the search space. This method can also be extended to other board games such as NoGo. Experimentally, we show that the actions taken by both Policy-Value neural network (PV-NN) and Monte Carlo tree search (MCTS) can be misled by adding one or two meaningless stones; for example, on 58\% of the AlphaGo Zero self-play games, our method can make the widely used KataGo agent with 50 simulations of MCTS plays a losing action by adding two meaningless stones. We additionally evaluated the adversarial examples found by our algorithm with amateur human Go players and 90\% of examples indeed lead the Go agent to play an obviously inferior action. Our code is available at \url{https://PaperCode.cc/GoAttack}.
翻訳日:2022-11-08 16:26:56 公開日:2022-11-07
# 確率的解釈による比較分類と表現学習

Contrastive Classification and Representation Learning with Probabilistic Interpretation ( http://arxiv.org/abs/2211.03646v1 )

ライセンス: Link先を確認
Rahaf Aljundi, Yash Patel, Milan Sulc, Daniel Olmeda, Nikolay Chumerin(参考訳) クロスエントロピー損失は、分類に基づくタスクの主要な目的関数となっている。 ニューラルネットワーク分類器を学習するために広くデプロイされ、有効性と確率論的解釈の両方を示す。 近年,自己指導型コントラスト表現学習法の成功により,自己指導型コントラスト表現学習法が提案されている。 しかし、最終分類層を訓練するにはクロスエントロピー損失が必要である。 本研究では,コントラスト学習の頑健性とクロスエントロピー損失の確率論的解釈を組み合わせた1つの目的関数を用いた表現と分類器の学習の可能性を検討する。 まず,クロスエントロピー損失を近似したコントラストに基づく目的関数を再検討し,分類器を協調的に学習するための簡単な拡張を提案する。 第2に,分類器のパラメータとネットワークのバックボーンを協調的に学習する教師付きコントラスト訓練の新バージョンを提案する。 提案する目的関数は,様々な課題において,標準クロスエントロピー損失よりも高いトレーニング安定性とロバスト性を示すことが実証的に示されている。

Cross entropy loss has served as the main objective function for classification-based tasks. Widely deployed for learning neural network classifiers, it shows both effectiveness and a probabilistic interpretation. Recently, after the success of self supervised contrastive representation learning methods, supervised contrastive methods have been proposed to learn representations and have shown superior and more robust performance, compared to solely training with cross entropy loss. However, cross entropy loss is still needed to train the final classification layer. In this work, we investigate the possibility of learning both the representation and the classifier using one objective function that combines the robustness of contrastive learning and the probabilistic interpretation of cross entropy loss. First, we revisit a previously proposed contrastive-based objective function that approximates cross entropy loss and present a simple extension to learn the classifier jointly. Second, we propose a new version of the supervised contrastive training that learns jointly the parameters of the classifier and the backbone of the network. We empirically show that our proposed objective functions show a significant improvement over the standard cross entropy loss with more training stability and robustness in various challenging settings.
翻訳日:2022-11-08 16:19:51 公開日:2022-11-07
# 移動ロボットインタラクションのためのセマンティック・アウェア環境認識

Semantic-Aware Environment Perception for Mobile Human-Robot Interaction ( http://arxiv.org/abs/2211.03367v1 )

ライセンス: Link先を確認
Thorsten Hempel, Marc-Andr\'e Fiedler, Aly Khalifa, Ayoub Al-Hamadi, Laslo Dinges(参考訳) 最近の技術進歩は、人間と機械の相互作用を新しいレベルの人間中心の協力に導く新しい機会を開く。 この文脈では、モバイルロボットがより複雑なインタラクションと人間とのコミュニケーションを容易にするために、環境の意味的理解が鍵となる。 前提条件は、視覚に基づくセマンティックオブジェクトと人間登録であり、後者は潜在的な相互作用パートナーのためにさらに分析される。 重要な研究成果にもかかわらず、セマンティック情報の信頼性と迅速な登録は、現実のシナリオにおける移動ロボットにとって依然として困難な課題である。 本稿では,a-prioriの知識を付加することなく,意味認識環境の認識を可能にする視覚支援ロボットのためのシステムを提案する。 実世界のアプリケーションで我々の手法をテストすることができる移動型ヒューマノイドロボットにシステムをデプロイする。

Current technological advances open up new opportunities for bringing human-machine interaction to a new level of human-centered cooperation. In this context, a key issue is the semantic understanding of the environment in order to enable mobile robots more complex interactions and a facilitated communication with humans. Prerequisites are the vision-based registration of semantic objects and humans, where the latter are further analyzed for potential interaction partners. Despite significant research achievements, the reliable and fast registration of semantic information still remains a challenging task for mobile robots in real-world scenarios. In this paper, we present a vision-based system for mobile assistive robots to enable a semantic-aware environment perception without additional a-priori knowledge. We deploy our system on a mobile humanoid robot that enables us to test our methods in real-world applications.
翻訳日:2022-11-08 16:19:11 公開日:2022-11-07
# 暗黙的拡張によるグラフコントラスト学習

Graph Contrastive Learning with Implicit Augmentations ( http://arxiv.org/abs/2211.03710v1 )

ライセンス: Link先を確認
Huidong Liang, Xingjian Du, Bilei Zhu, Zejun Ma, Ke Chen, Junbin Gao(参考訳) 既存のグラフコントラスト学習法は、ランダムな摂動(例えば、エッジとノードをランダムに追加またはドロップする)に基づく拡張技術に依存している。 それでも、特定のエッジやノードを変更することで予期せぬグラフ特性が変化し、データセットごとに最適な摂動比を選択するには、簡単な手動チューニングが必要となる。 本稿では,グラフトポロジ構造を再構築することにより,変分グラフオートエンコーダから学習した潜時空間の増分を利用するImplicit Graph Contrastive Learning (iGCL)を提案する。 重要なのは,潜在分布からの補足を明示的にサンプリングする代わりに,学習アルゴリズムの効率を改善するために,期待するコントラスト損失の上限を提案することである。 したがって、グラフのセマンティクスは任意の手動設計や事前の人間の知識なしに、知的な方法で拡張内で保存することができる。 グラフレベルとノードレベルの両方のタスクに対する実験結果から,提案手法が他のベンチマークと比較して最先端性能を実現していることが明らかとなった。

Existing graph contrastive learning methods rely on augmentation techniques based on random perturbations (e.g., randomly adding or dropping edges and nodes). Nevertheless, altering certain edges or nodes can unexpectedly change the graph characteristics, and choosing the optimal perturbing ratio for each dataset requires onerous manual tuning. In this paper, we introduce Implicit Graph Contrastive Learning (iGCL), which utilizes augmentations in the latent space learned from a Variational Graph Auto-Encoder by reconstructing graph topological structure. Importantly, instead of explicitly sampling augmentations from latent distributions, we further propose an upper bound for the expected contrastive loss to improve the efficiency of our learning algorithm. Thus, graph semantics can be preserved within the augmentations in an intelligent way without arbitrary manual design or prior human knowledge. Experimental results on both graph-level and node-level tasks show that the proposed method achieves state-of-the-art performance compared to other benchmarks, where ablation studies in the end demonstrate the effectiveness of modules in iGCL.
翻訳日:2022-11-08 16:11:23 公開日:2022-11-07
# AskewSGD : 量子ニューラルネットワークの訓練のためのアニール付き間隔制約最適化法

AskewSGD : An Annealed interval-constrained Optimisation method to train Quantized Neural Networks ( http://arxiv.org/abs/2211.03741v1 )

ライセンス: Link先を確認
Louis Leconte, Sholom Schechtman, Eric Moulines(参考訳) 本稿では,量子化重み付き深層ニューラルネットワーク(dnn)を訓練するための新しいアルゴリズムである annealed strained sgd - askewsgd を開発した。 まず、間隔制約のある最適化問題のスムーズなシーケンスとして量子ニューラルネットワーク(QNN)のトレーニングを定式化する。 次に,制約付き最適化部分問題を解くための新しい一階確率法askewsgdを提案する。 アクティブな集合と実行可能な方向を持つアルゴリズムとは異なり、askewsgdは実行可能集合全体の射影や最適化を避け、実現不可能なイテレートを可能にする。 AskewSGDの数値複雑性は、BinaryConnectで使用されるストレートスルー勾配推定器(ProxQuant, LUQ)など、QNNをトレーニングするための既存のアプローチに匹敵する。 AskewSGD に対する収束保証を確立する(目的関数の一般仮定の下で)。 実験の結果,askewsgdアルゴリズムは,古典的ベンチマークにおけるart法と同等か同等の性能を示すことがわかった。

In this paper, we develop a new algorithm, Annealed Skewed SGD - AskewSGD - for training deep neural networks (DNNs) with quantized weights. First, we formulate the training of quantized neural networks (QNNs) as a smoothed sequence of interval-constrained optimization problems. Then, we propose a new first-order stochastic method, AskewSGD, to solve each constrained optimization subproblem. Unlike algorithms with active sets and feasible directions, AskewSGD avoids projections or optimization under the entire feasible set and allows iterates that are infeasible. The numerical complexity of AskewSGD is comparable to existing approaches for training QNNs, such as the straight-through gradient estimator used in BinaryConnect, or other state of the art methods (ProxQuant, LUQ). We establish convergence guarantees for AskewSGD (under general assumptions for the objective function). Experimental results show that the AskewSGD algorithm performs better than or on par with state of the art methods in classical benchmarks.
翻訳日:2022-11-08 16:11:04 公開日:2022-11-07
# 離散生成モデルに対する固有損失

Proper losses for discrete generative models ( http://arxiv.org/abs/2211.03761v1 )

ライセンス: Link先を確認
Rafael Frongillo, Dhamma Kimpara, Bo Waggoner(参考訳) 離散的設定における生成モデル評価のための適切な損失の研究を開始する。 従来の固有損失とは異なり、生成モデルと対象分布の両方をブラックボックスとして扱い、i.i.d.サンプルを描画する能力のみを仮定する。 予測損失を最小限にした生成分布が対象分布と等しい場合、損失をブラックボックス固有と定義する。 統計的推定理論の手法を用いて、ブラックボックスの適切な損失の一般的な構成と特徴を与える:それらは多項式形式を取る必要があり、モデルと対象分布からのドローの数は多項式の次数を超えなければならない。 キャラクタリゼーションは、目標分布とモデルの間のクロスエントロピーを期待する損失を除外する。 しかし、ポアソンサンプリングのような任意のサンプリングスキームに構成を拡張することにより、そのような損失を構築できることを示す。

We initiate the study of proper losses for evaluating generative models in the discrete setting. Unlike traditional proper losses, we treat both the generative model and the target distribution as black-boxes, only assuming ability to draw i.i.d. samples. We define a loss to be black-box proper if the generative distribution that minimizes expected loss is equal to the target distribution. Using techniques from statistical estimation theory, we give a general construction and characterization of black-box proper losses: they must take a polynomial form, and the number of draws from the model and target distribution must exceed the degree of the polynomial. The characterization rules out a loss whose expectation is the cross-entropy between the target distribution and the model. By extending the construction to arbitrary sampling schemes such as Poisson sampling, however, we show that one can construct such a loss.
翻訳日:2022-11-08 16:10:45 公開日:2022-11-07
# 期待最大化によるスパースホースシュー推定

Sparse Horseshoe Estimation via Expectation-Maximisation ( http://arxiv.org/abs/2211.03248v1 )

ライセンス: Link先を確認
Shu Yu Tew, Daniel F. Schmidt, Enes Makalic(参考訳) ホースシュー事前はスパースパラメータベクトルのベイズ推定に多くの望ましい性質を持つことが知られているが、その密度関数には解析形式が欠けている。 そのため、後部モードの閉形式解を見つけることは困難である。 従来のホースシュー推定器は後方平均を使ってパラメータを推定するが、これらの推定値はばらばらではない。 標準線形モデルの場合,パラメータのMAP推定を計算するための新しい予測最大化(EM)手法を提案する。 我々のアプローチの特に強みは、M-ステップは前者の形式にのみ依存し、それは可能性の形式とは独立であるということである。 一般化線形モデルへの直接拡張を可能にするEM手順のいくつかの簡単な修正を導入する。 シミュレーションおよび実データを用いた実験では,統計的性能と計算コストの観点から,最先端のスパース推定法に匹敵する,あるいは優れている。

The horseshoe prior is known to possess many desirable properties for Bayesian estimation of sparse parameter vectors, yet its density function lacks an analytic form. As such, it is challenging to find a closed-form solution for the posterior mode. Conventional horseshoe estimators use the posterior mean to estimate the parameters, but these estimates are not sparse. We propose a novel expectation-maximisation (EM) procedure for computing the MAP estimates of the parameters in the case of the standard linear model. A particular strength of our approach is that the M-step depends only on the form of the prior and it is independent of the form of the likelihood. We introduce several simple modifications of this EM procedure that allow for straightforward extension to generalised linear models. In experiments performed on simulated and real data, our approach performs comparable, or superior to, state-of-the-art sparse estimation methods in terms of statistical performance and computational cost.
翻訳日:2022-11-08 15:59:54 公開日:2022-11-07
# 減数化拡散から減数化マルコフモデルへ

From Denoising Diffusions to Denoising Markov Models ( http://arxiv.org/abs/2211.03595v1 )

ライセンス: Link先を確認
Joe Benton, Yuyang Shi, Valentin De Bortoli, George Deligiannidis, Arnaud Doucet(参考訳) デノイジング拡散は最先端の生成モデルであり、顕著な経験的性能を示し、理論的保証をもたらす。 これらのモデルの中核となる考え方は、拡散を用いてノイズを加えることにより、経験的データ分布を単純なガウス分布に変換することである。 本研究では,この「ノイズ」拡散の時間反転を近似する「ノイズ拡散」をシミュレーションし,データ分布に近い分布を示す新しいサンプルを得る。 このノイズ拡散は、スコアマッチングによって得られるノイズデータ密度(スコアとして知られる)の対数微分の近似に依存する。 このようなモデルを簡単に拡張して、前者からのみサンプルを採取し、確率から合成観測をシミュレートできる高次元シナリオで近似後続シミュレーションを行うことができる。 これらの手法は主に$\mathbb{r}^d$のデータに対して開発され、より一般的な空間への拡張はケースバイケースで開発されている。 ここでは、この手法を広い種類の空間に統一・一般化するだけでなく、スコアマッチングのオリジナル拡張につながる一般的なフレームワークを提案する。 様々なアプリケーション上でマルコフモデルを記述する結果のクラスについて説明する。

Denoising diffusions are state-of-the-art generative models which exhibit remarkable empirical performance and come with theoretical guarantees. The core idea of these models is to progressively transform the empirical data distribution into a simple Gaussian distribution by adding noise using a diffusion. We obtain new samples whose distribution is close to the data distribution by simulating a "denoising" diffusion approximating the time reversal of this "noising" diffusion. This denoising diffusion relies on approximations of the logarithmic derivatives of the noised data densities, known as scores, obtained using score matching. Such models can be easily extended to perform approximate posterior simulation in high-dimensional scenarios where one can only sample from the prior and simulate synthetic observations from the likelihood. These methods have been primarily developed for data on $\mathbb{R}^d$ while extensions to more general spaces have been developed on a case-by-case basis. We propose here a general framework which not only unifies and generalizes this approach to a wide class of spaces but also leads to an original extension of score matching. We illustrate the resulting class of denoising Markov models on various applications.
翻訳日:2022-11-08 15:59:40 公開日:2022-11-07
# 逆予測クラスタリング

Reward-Predictive Clustering ( http://arxiv.org/abs/2211.03281v1 )

ライセンス: Link先を確認
Lucas Lehnert, Michael J. Frank, Michael L. Littman(参考訳) 強化学習研究の最近の進歩は、複雑なタスクで人間より優れるアルゴリズムの構築において印象的な結果を示している。 それでも、新たなコンテキストでの学習を加速するために、経験の抽象化を構築するための強化学習システムの構築は、依然として活発な研究領域である。 これまでの研究では、報酬予測状態の抽象化がこの目標を達成できたが、表の設定にのみ適用できた。 そこで我々は,このような状態抽象化をディープラーニング設定に適用可能なクラスタリングアルゴリズムを提案し,エージェントの入力の圧縮表現を提供することにより,報酬の列を予測できることを示す。 収束定理とシミュレーションにより、結果の報酬予測深いネットワークはエージェントの入力を最大に圧縮し、高次元視覚制御タスクにおける学習を著しく高速化することを示した。 さらに, 学習を加速させることなく, 事前学習した報酬予測表現ネットワークを再利用できる条件について, 異なる一般化実験を行い, 分析を行った。

Recent advances in reinforcement-learning research have demonstrated impressive results in building algorithms that can out-perform humans in complex tasks. Nevertheless, creating reinforcement-learning systems that can build abstractions of their experience to accelerate learning in new contexts still remains an active area of research. Previous work showed that reward-predictive state abstractions fulfill this goal, but have only be applied to tabular settings. Here, we provide a clustering algorithm that enables the application of such state abstractions to deep learning settings, providing compressed representations of an agent's inputs that preserve the ability to predict sequences of reward. A convergence theorem and simulations show that the resulting reward-predictive deep network maximally compresses the agent's inputs, significantly speeding up learning in high dimensional visual control tasks. Furthermore, we present different generalization experiments and analyze under which conditions a pre-trained reward-predictive representation network can be re-used without re-training to accelerate learning -- a form of systematic out-of-distribution transfer.
翻訳日:2022-11-08 15:52:05 公開日:2022-11-07
# 深い因果学習:表現、発見、推論

Deep Causal Learning: Representation, Discovery and Inference ( http://arxiv.org/abs/2211.03374v1 )

ライセンス: Link先を確認
Zizhen Deng, Xiaolong Zheng, Hu Tian, and Daniel Dajun Zeng(参考訳) 因果関係が物事の本質的な関係を明らかにし、世界がどのように進行するかを示すため、因果学習は近年多くの注目を集めている。 しかし, 従来の因果学習手法には, 高次元の非構造変数, 組合せ最適化問題, 未知の介入, 未観測の共同設立者, 選択バイアス, 推定バイアスなど,多くの問題とボトルネックが存在する。 深層因果学習、すなわち深層ニューラルネットワークに基づく因果学習は、これらの問題に対処するための新たな洞察をもたらす。 深層学習に基づく因果関係の発見と因果関係の推論手法が数多く提案されているが、因果関係の学習を改善するための深層学習の内部メカニズムを探求するレビューは乏しい。 本稿では,表現,発見,推論という3つの側面から,従来の課題に対処することで,ディープラーニングが因果学習にどのように貢献できるかを包括的にレビューする。 深い因果学習は因果科学の理論的拡張と応用拡大に重要であり,汎用人工知能の必須部分でもある。 この記事はオープンイシューと今後の作業への潜在的な方向性を要約して締めくくります。

Causal learning has attracted much attention in recent years because causality reveals the essential relationship between things and indicates how the world progresses. However, there are many problems and bottlenecks in traditional causal learning methods, such as high-dimensional unstructured variables, combinatorial optimization problems, unknown intervention, unobserved confounders, selection bias and estimation bias. Deep causal learning, that is, causal learning based on deep neural networks, brings new insights for addressing these problems. While many deep learning-based causal discovery and causal inference methods have been proposed, there is a lack of reviews exploring the internal mechanism of deep learning to improve causal learning. In this article, we comprehensively review how deep learning can contribute to causal learning by addressing conventional challenges from three aspects: representation, discovery, and inference. We point out that deep causal learning is important for the theoretical extension and application expansion of causal science and is also an indispensable part of general artificial intelligence. We conclude the article with a summary of open issues and potential directions for future work.
翻訳日:2022-11-08 15:51:47 公開日:2022-11-07
# モデルミス種別に対するワーストケースロバスト性に着目した最大極小オフポリティアクタ臨界法

Max-Min Off-Policy Actor-Critic Method Focusing on Worst-Case Robustness to Model Misspecification ( http://arxiv.org/abs/2211.03413v1 )

ライセンス: Link先を確認
Takumi Tanabe, Rei Sato, Kazuto Fukuchi, Jun Sakuma, Youhei Akimoto(参考訳) 強化学習の分野では、実世界における政策訓練のコストとリスクが高いため、政策はシミュレーション環境で訓練され、対応する実世界環境に移される。 しかし、シミュレーション環境は現実世界の環境を完全に模倣するものではなく、モデルのミススペクテーションにつながる。 複数の研究が実環境における政策性能の著しい劣化を報告している。 本研究では,不確実性パラメータを含むシミュレーション環境と,不確実性パラメータセットと呼ばれる,可能な値の集合を含むシナリオに着目した。 本研究の目的は,不確実性パラメータセットの最悪の性能を最適化し,対応する実環境における性能を保証することである。 最適化のためのポリシを得るために,最大勾配上昇降下法を用いて最大最小最適化問題を解決するMax-Min Twin Delayed Deep Deterministic Policy Gradient Algorithm (M2TD3)という,非政治的なアクター批判的アプローチを提案する。 マルチジョイント・ダイナミックス(MuJoCo)環境における実験により,提案手法はいくつかのベースライン・アプローチよりも最悪の性能を示した。

In the field of reinforcement learning, because of the high cost and risk of policy training in the real world, policies are trained in a simulation environment and transferred to the corresponding real-world environment. However, the simulation environment does not perfectly mimic the real-world environment, lead to model misspecification. Multiple studies report significant deterioration of policy performance in a real-world environment. In this study, we focus on scenarios involving a simulation environment with uncertainty parameters and the set of their possible values, called the uncertainty parameter set. The aim is to optimize the worst-case performance on the uncertainty parameter set to guarantee the performance in the corresponding real-world environment. To obtain a policy for the optimization, we propose an off-policy actor-critic approach called the Max-Min Twin Delayed Deep Deterministic Policy Gradient algorithm (M2TD3), which solves a max-min optimization problem using a simultaneous gradient ascent descent approach. Experiments in multi-joint dynamics with contact (MuJoCo) environments show that the proposed method exhibited a worst-case performance superior to several baseline approaches.
翻訳日:2022-11-08 15:51:26 公開日:2022-11-07
# 外因性因子をもつ軌道形状の不規則性の時空間予測

Spatiotemporal forecasting of track geometry irregularities with exogenous factors ( http://arxiv.org/abs/2211.03549v1 )

ライセンス: Link先を確認
Katsuya Kosukegawa, Yasukuni Mori, Hiroki Suyari, Kazuhiko Kawamoto(参考訳) 鉄道運転の安全性を確保するためには,軌道形状の不規則性を監視し,予測することが重要である。 高い安全性は、時空間周波数の高い予測を必要とする。 高時空間周波数で予測するには,空間相関を捉える必要がある。 さらに、トラック幾何の不規則性は複数の外因性因子に影響される。 本研究では,空間的および外生的因子計算を取り入れた1種類のトラック形状の不規則性,垂直方向の予測手法を提案する。 提案手法は外因性因子を埋め込み,畳み込み長短期記憶(ConvLSTM)を用いて時空間相関を捉える。 実験では,提案手法を予測性能の観点から他の手法と比較した。 また, 予測性能への寄与を検討するため, 外因性因子のアブレーション研究を行った。 その結果,空間計算と維持記録データにより,鉛直アライメントの予測精度が向上した。

To ensure the safety of railroad operations, it is important to monitor and forecast track geometry irregularities. A higher safety requires forecasting with a higher spatiotemporal frequency. For forecasting with a high spatiotemporal frequency, it is necessary to capture spatial correlations. Additionally, track geometry irregularities are influenced by multiple exogenous factors. In this study, we propose a method to forecast one type of track geometry irregularity, vertical alignment, by incorporating spatial and exogenous factor calculations. The proposed method embeds exogenous factors and captures spatiotemporal correlations using a convolutional long short-term memory (ConvLSTM). In the experiment, we compared the proposed method with other methods in terms of the forecasting performance. Additionally, we conducted an ablation study on exogenous factors to examine their contribution to the forecasting performance. The results reveal that spatial calculations and maintenance record data improve the forecasting of the vertical alignment.
翻訳日:2022-11-08 15:51:05 公開日:2022-11-07
# 高速フーリエ変換による複素双曲的知識グラフ埋め込み

Complex Hyperbolic Knowledge Graph Embeddings with Fast Fourier Transform ( http://arxiv.org/abs/2211.03635v1 )

ライセンス: Link先を確認
Huiru Xiao, Xin Liu, Yangqiu Song, Ginny Y. Wong, Simon See(参考訳) 知識グラフ(KG)埋め込みのための幾何学的空間の選択は、KG完了タスクの性能に大きな影響を与える。 双曲幾何学はユークリッド埋め込みモデルの限界に対処する木のような計量のために階層的なパターンを捉えることが示されている。 複素双曲幾何学の最近の研究は、様々な階層構造を取り込む双曲埋め込みをさらに改善した。 しかし、非推移関係に対する双曲型kg埋め込みモデルの性能はいまだに期待できないが、複素双曲型埋め込みは多重関係を扱わない。 本稿では,多項kg埋め込みにおける複素双曲幾何学の表現能力を活用することを目的とする。 複素双曲空間における異なる関係と注意機構を考慮した幾何学的変換を適用するために、実空間と複素双曲空間の間の変換として高速フーリエ変換(fft)を用いることを提案する。 複素空間における注意に基づく変換の構成は非常に困難であるが、提案されたフーリエ変換に基づく複素双曲的アプローチは単純で効果的な解を与える。 実験の結果,本手法はユークリッドおよび実双曲埋め込みモデルを含むベースラインよりも優れていた。

The choice of geometric space for knowledge graph (KG) embeddings can have significant effects on the performance of KG completion tasks. The hyperbolic geometry has been shown to capture the hierarchical patterns due to its tree-like metrics, which addressed the limitations of the Euclidean embedding models. Recent explorations of the complex hyperbolic geometry further improved the hyperbolic embeddings for capturing a variety of hierarchical structures. However, the performance of the hyperbolic KG embedding models for non-transitive relations is still unpromising, while the complex hyperbolic embeddings do not deal with multi-relations. This paper aims to utilize the representation capacity of the complex hyperbolic geometry in multi-relational KG embeddings. To apply the geometric transformations which account for different relations and the attention mechanism in the complex hyperbolic space, we propose to use the fast Fourier transform (FFT) as the conversion between the real and complex hyperbolic space. Constructing the attention-based transformations in the complex space is very challenging, while the proposed Fourier transform-based complex hyperbolic approaches provide a simple and effective solution. Experimental results show that our methods outperform the baselines, including the Euclidean and the real hyperbolic embedding models.
翻訳日:2022-11-08 15:50:53 公開日:2022-11-07
# どれくらいの注意が必要か? 予習変圧器における注意の重要性

How Much Does Attention Actually Attend? Questioning the Importance of Attention in Pretrained Transformers ( http://arxiv.org/abs/2211.03495v1 )

ライセンス: Link先を確認
Michael Hassid, Hao Peng, Daniel Rotem, Jungo Kasai, Ivan Montero, Noah A. Smith and Roy Schwartz(参考訳) 注意機構は広く使われているTransformerアーキテクチャのバックボーンと考えられている。 入力特有の注意行列を計算して入力をコンテキスト化する。 このメカニズムは強力でエレガントですが、事前訓練された言語モデルの場合ほど重要ではありません。 本稿では,入力依存の注意行列を一定値に置き換える新しい探索手法PAPAを紹介する。 PAPAを用いて、6つの下流タスクで既に訓練済みのトランスフォーマーを解析する。 入力依存の注意を払わずに、全てのモデルが競争的なパフォーマンスを達成することが分かりました。 さらに、入力依存のアテンション行列の半分を定数(入力非依存)のアテンション行列に置き換える場合、ほとんど、あるいは全く性能低下が観察されない。 興味深いことに,より高性能なモデルでは,より弱いモデルよりも方法を適用することによる損失が多く,入力依存的注意機構の利用が成功の要因となる可能性が示唆された。 本研究は,入力依存型アテンションの簡易な代替手法と,トランスフォーマーアーキテクチャにおけるこのメカニズムのより良い活用方法に関する研究を動機付けている。

The attention mechanism is considered the backbone of the widely-used Transformer architecture. It contextualizes the input by computing input-specific attention matrices. We find that this mechanism, while powerful and elegant, is not as important as typically thought for pretrained language models. We introduce PAPA, a new probing method that replaces the input-dependent attention matrices with constant ones -- the average attention weights over multiple inputs. We use PAPA to analyze several established pretrained Transformers on six downstream tasks. We find that without any input-dependent attention, all models achieve competitive performance -- an average relative drop of only 8% from the probing baseline. Further, little or no performance drop is observed when replacing half of the input-dependent attention matrices with constant (input-independent) ones. Interestingly, we show that better-performing models lose more from applying our method than weaker models, suggesting that the utilization of the input-dependent attention mechanism might be a factor in their success. Our results motivate research on simpler alternatives to input-dependent attention, as well as on methods for better utilization of this mechanism in the Transformer architecture.
翻訳日:2022-11-08 15:45:05 公開日:2022-11-07
# 移動フレームネット:SE(3)-equivariant Network for Volumes

Moving Frame Net: SE(3)-Equivariant Network for Volumes ( http://arxiv.org/abs/2211.03420v1 )

ライセンス: Link先を確認
Mateus Sangalli (CMM), Samy Blusseau (CMM), Santiago Velasco-Forero (CMM), Jesus Angulo (CMM)(参考訳) ニューラルネットワークから変換への等価性は、対称性(スケーリング、回転、変換など)を示すデータセットに適用されるため、コンピュータビジョンタスクのパフォーマンス向上と一般化エラーの低減に寄与する。 移動フレームの手法は,多様体内のリー群の作用に不変な演算子を導出するために古典的であり,近年,移動フレームのアプローチに基づいて画像データの回転・変換同変ニューラルネットワークが提案されている。 本稿では,各層で繰り返し計算を行うのではなく,移動フレームの計算を入力段階で1つに減らすことにより,このアプローチを大幅に改善する。 得られたアーキテクチャの等価性は理論的に証明され、3次元空間上の信号のボリュームを処理する回転変換同変ニューラルネットワークを構築する。 我々の訓練されたモデルは、MedMNIST3Dの試験されたデータセットの大部分の医療ボリューム分類におけるベンチマークを上回ります。

Equivariance of neural networks to transformations helps to improve their performance and reduce generalization error in computer vision tasks, as they apply to datasets presenting symmetries (e.g. scalings, rotations, translations). The method of moving frames is classical for deriving operators invariant to the action of a Lie group in a manifold.Recently, a rotation and translation equivariant neural network for image data was proposed based on the moving frames approach. In this paper we significantly improve that approach by reducing the computation of moving frames to only one, at the input stage, instead of repeated computations at each layer. The equivariance of the resulting architecture is proved theoretically and we build a rotation and translation equivariant neural network to process volumes, i.e. signals on the 3D space. Our trained model overperforms the benchmarks in the medical volume classification of most of the tested datasets from MedMNIST3D.
翻訳日:2022-11-08 15:44:47 公開日:2022-11-07
# TAP-Vid:ビデオ中の任意のポイントを追跡するベンチマーク

TAP-Vid: A Benchmark for Tracking Any Point in a Video ( http://arxiv.org/abs/2211.03726v1 )

ライセンス: Link先を確認
Carl Doersch, Ankush Gupta, Larisa Markeeva, Adri\`a Recasens, Lucas Smaira, Yusuf Aytar, Jo\~ao Carreira, Andrew Zisserman, Yi Yang(参考訳) 映像からのジェネリックモーションの理解は、物体の追跡だけでなく、その表面がどのように変形し動くかも知覚する。 この情報は3次元形状、物理的特性、物体の相互作用に関する推論に有用である。 より長いビデオクリップよりも表面上の任意の物理点を追跡するという問題は注目されているが、これまで評価のためのデータセットやベンチマークは存在しなかった。 本稿では,まず問題を定式化し,任意の点(TAP)を追尾する。 そこで本研究では,実世界の映像に正確な点線アノテーションを付加したTAP-Vidと,完全な接地木線トラックを付加した合成ビデオを組み合わせたベンチマークを行った。 ベンチマークの作成の中心となるのは、光学フローの推定値を使って、カメラシェイクのような簡単で短期的な動きを補償する、新しい半自動的なクラウドソーシングパイプラインです。 合成データに関するパイプラインを検証するとともに、単純なエンドツーエンドのポイントトラッキングモデルtap-netを提案し、合成データでトレーニングされた場合のベンチマークのすべてのメソッドを上回っています。

Generic motion understanding from video involves not only tracking objects, but also perceiving how their surfaces deform and move. This information is useful to make inferences about 3D shape, physical properties and object interactions. While the problem of tracking arbitrary physical points on surfaces over longer video clips has received some attention, no dataset or benchmark for evaluation existed, until now. In this paper, we first formalize the problem, naming it tracking any point (TAP). We introduce a companion benchmark, TAP-Vid, which is composed of both real-world videos with accurate human annotations of point tracks, and synthetic videos with perfect ground-truth point tracks. Central to the construction of our benchmark is a novel semi-automatic crowdsourced pipeline which uses optical flow estimates to compensate for easier, short-term motion like camera shake, allowing annotators to focus on harder sections of video. We validate our pipeline on synthetic data and propose a simple end-to-end point tracking model TAP-Net, showing that it outperforms all prior methods on our benchmark when trained on synthetic data.
翻訳日:2022-11-08 15:44:33 公開日:2022-11-07
# 非小細胞肺癌予後のマルチモーダル学習

Multimodal Learning for Non-small Cell Lung Cancer Prognosis ( http://arxiv.org/abs/2211.03280v1 )

ライセンス: Link先を確認
Yujiao Wu, Yaxiong Wang, Xiaoshui Huang, Fan Yang, Sai Ho Ling and Steven Weidong Su(参考訳) 本稿では,肺癌の生存時間分析の課題に焦点を当てた。 近年,この問題には多くの進展があるが,既存の手法の性能はまだまだ十分ではない。 肺癌に対する従来的およびいくつかの深層学習に基づく生存時間分析は、主にステージング、年齢、組織学などのテキスト臨床情報に基づいている。 単一モードで予測する既存の方法とは異なり、人間の臨床医は通常、テキスト臨床データや視覚スキャンなどのマルチモーダルデータを用いて生存時間を推定する。 そこで本研究では,人間の意思決定方法をシミュレートするLite-ProSENetという,生存分析ネットワークのための,スマートな相互モダリティネットワークを提案する。 がん画像アーカイブ(tcia)の422名のnsclc患者のデータを用いて広範な実験を行った。 その結果、Lite-ProSENetは、全ての比較手法を好適に上回り、89.3%の一致で新たな技術状態を達成することがわかった。 コードは公開される予定だ。

This paper focuses on the task of survival time analysis for lung cancer. Although much progress has been made in this problem in recent years, the performance of existing methods is still far from satisfactory. Traditional and some deep learning-based survival time analyses for lung cancer are mostly based on textual clinical information such as staging, age, histology, etc. Unlike existing methods that predicting on the single modality, we observe that a human clinician usually takes multimodal data such as text clinical data and visual scans to estimate survival time. Motivated by this, in this work, we contribute a smart cross-modality network for survival analysis network named Lite-ProSENet that simulates a human's manner of decision making. Extensive experiments were conducted using data from 422 NSCLC patients from The Cancer Imaging Archive (TCIA). The results show that our Lite-ProSENet outperforms favorably again all comparison methods and achieves the new state of the art with the 89.3% on concordance. The code will be made publicly available.
翻訳日:2022-11-08 15:33:45 公開日:2022-11-07
# 効率的なマルチオーダーゲートアグリゲーションネットワーク

Efficient Multi-order Gated Aggregation Network ( http://arxiv.org/abs/2211.03295v1 )

ライセンス: Link先を確認
Siyuan Li, Zedong Wang, Zicheng Liu, Cheng Tan, Haitao Lin, Di Wu, Zhiyuan Chen, Jiangbin Zheng, Stan Z. Li(参考訳) ビジョントランスフォーマー(ViT)が最近成功して以来、トランスフォーマースタイルのアーキテクチャへの探索は、現代のConvNetの復活を引き起こしている。 本研究では,相互作用複雑性のレンズによるDNNの表現能力について検討する。 対話の複雑さは視覚認識において見過ごされているが必須の指標であることを示す。 そのため、純粋なConvNetベースのモデルで情報的コンテキストマイニングを追求するために、MogaNetと呼ばれる効率的なConvNetの新しいファミリーが提示される。 MogaNetでは、空間的およびチャネル的相互作用空間において、2つの特別に設計された集約ブロックを活用することにより、複数の複雑度間の相互作用を容易にし、コンテキスト化することができる。 ImageNet分類、COCOオブジェクト検出、ADE20Kセマンティックセグメンテーションタスクについて、広範囲にわたる研究を行った。 その結果、MogaNetは主流のシナリオやすべてのモデルスケールにおいて、他の一般的なメソッドよりも新しい最先端技術を確立しています。 通常、軽量のMogaNet-Tは、ImageNet-1Kの洗練されたトレーニング設定を使用して、わずか1.44GのFLOPで80.0\%のトップ-1の精度を達成し、ParC-Net-Sを1.4\%上回ったが、59\% (2.04G)のFLOPを節約した。

Since the recent success of Vision Transformers (ViTs), explorations toward transformer-style architectures have triggered the resurgence of modern ConvNets. In this work, we explore the representation ability of DNNs through the lens of interaction complexities. We empirically show that interaction complexity is an overlooked but essential indicator for visual recognition. Accordingly, a new family of efficient ConvNets, named MogaNet, is presented to pursue informative context mining in pure ConvNet-based models, with preferable complexity-performance trade-offs. In MogaNet, interactions across multiple complexities are facilitated and contextualized by leveraging two specially designed aggregation blocks in both spatial and channel interaction spaces. Extensive studies are conducted on ImageNet classification, COCO object detection, and ADE20K semantic segmentation tasks. The results demonstrate that our MogaNet establishes new state-of-the-art over other popular methods in mainstream scenarios and all model scales. Typically, the lightweight MogaNet-T achieves 80.0\% top-1 accuracy with only 1.44G FLOPs using a refined training setup on ImageNet-1K, surpassing ParC-Net-S by 1.4\% accuracy but saving 59\% (2.04G) FLOPs.
翻訳日:2022-11-08 15:33:27 公開日:2022-11-07
# 推定確率の単語理解のためのニューラルネットワークモデルの提案

Probing neural language models for understanding of words of estimative probability ( http://arxiv.org/abs/2211.03358v1 )

ライセンス: Link先を確認
Damien Sileo and Marie-Francine Moens(参考訳) 推定確率 (etimative probability, wep) は、ある言明の正当性を表す表現である(おそらく、おそらく、疑わしい、あり得ない、あり得ない、あり得ない、不可能...)。 複数の調査では、数値確率レベルをWEPに割り当てる際の人間評価者の合意が示されている。 例えば、Fagen-Ulmschneider (2015) の調査では、0.90+-0.08と高い確率で一致している。 本研究では,ニューラルネットワーク処理モデルを用いて,各WEPに関連付けられた合意確率レベルを計測する。 まず、UNLIデータセット(Chen et al., 2020)を用いて、前提条件と仮説を認識された共同確率pに関連付け、例えば「[PREMISE][WEP], [HYPOTHESIS]」などのプロンプトを構築し、WEP合意確率レベルがpに近いかどうかを言語モデルが予測できるかどうかを評価する。 次に,WEP を用いた確率論的推論のデータセットを構築し,WEP 合成で言語モデルが推論できるかどうかを検証する。 eventa]はありそうにない、[eventb]は不可能”と促されたとき、因果言語モデルは[eventa&b]がありそうなことを表現すべきではありません。 両タスクは、既成の英語モデルでは未解決であるが、微調整は伝達可能な改善をもたらす。

Words of estimative probability (WEP) are expressions of a statement's plausibility (probably, maybe, likely, doubt, likely, unlikely, impossible...). Multiple surveys demonstrate the agreement of human evaluators when assigning numerical probability levels to WEP. For example, highly likely corresponds to a median chance of 0.90+-0.08 in Fagen-Ulmschneider (2015)'s survey. In this work, we measure the ability of neural language processing models to capture the consensual probability level associated to each WEP. Firstly, we use the UNLI dataset (Chen et al., 2020) which associates premises and hypotheses with their perceived joint probability p, to construct prompts, e.g. "[PREMISE]. [WEP], [HYPOTHESIS]." and assess whether language models can predict whether the WEP consensual probability level is close to p. Secondly, we construct a dataset of WEP-based probabilistic reasoning, to test whether language models can reason with WEP compositions. When prompted "[EVENTA] is likely. [EVENTB] is impossible.", a causal language model should not express that [EVENTA&B] is likely. We show that both tasks are unsolved by off-the-shelf English language models, but that fine-tuning leads to transferable improvement.
翻訳日:2022-11-08 15:25:53 公開日:2022-11-07
# インド裁判所判決における名前付きエンティティ認識

Named Entity Recognition in Indian court judgments ( http://arxiv.org/abs/2211.03442v1 )

ライセンス: Link先を確認
Prathamesh Kalamkar, Astha Agarwal, Aman Tiwari, Smita Gupta, Saurabh Karn, Vivek Raghavan(参考訳) 法的テキストから名前付きエンティティを識別することは、他の法的な人工知能アプリケーションを開発する上で必須の構成要素である。 法的文書における名前付きエンティティは、人名、組織名、位置などのよく使われるエンティティと少し異なり、よりきめ細かな粒度である。 本稿では,14種類の法人にマッピングされた46545の注釈付き法人を新たに導入する。 判決文から法的に命名されたエンティティを抽出するベースラインモデルも開発されている。

Identification of named entities from legal texts is an essential building block for developing other legal Artificial Intelligence applications. Named Entities in legal texts are slightly different and more fine-grained than commonly used named entities like Person, Organization, Location etc. In this paper, we introduce a new corpus of 46545 annotated legal named entities mapped to 14 legal entity types. The Baseline model for extracting legal named entities from judgment text is also developed.
翻訳日:2022-11-08 15:25:25 公開日:2022-11-07
# トピックインフォームド離散潜在変数による意味テキストの類似性学習

Learning Semantic Textual Similarity via Topic-informed Discrete Latent Variables ( http://arxiv.org/abs/2211.03616v1 )

ライセンス: Link先を確認
Erxin Yu, Lan Du, Yuan Jin, Zhepei Wei and Yi Chang(参考訳) 近年,自然言語処理(nlp)とコンピュータビジョン(cv)の両方において,離散的潜在変数モデルへの関心が高まっている。 本稿では,ベクトル量子化による文対表現のための共有潜在空間を学習する,意味的テキスト類似性のためのトピックインフォームド離散潜在変数モデルを開発する。 局所的な意味的文脈に限定した従来のモデルと比較して,我々はトピックモデリングを通じてより豊かな意味的情報を探索できる。 我々は, 適切に設計された意味駆動注意機構を備えたトランスフォーマト言語モデルに量子化表現を注入することにより, 意味的類似性の性能をさらに向上させる。 我々は,様々な英語データセットにわたる広範囲な実験を通じて,意味的テキスト類似性タスクにおいて,複数の強力なニューラルネットワークベースラインを超越できることを実証する。

Recently, discrete latent variable models have received a surge of interest in both Natural Language Processing (NLP) and Computer Vision (CV), attributed to their comparable performance to the continuous counterparts in representation learning, while being more interpretable in their predictions. In this paper, we develop a topic-informed discrete latent variable model for semantic textual similarity, which learns a shared latent space for sentence-pair representation via vector quantization. Compared with previous models limited to local semantic contexts, our model can explore richer semantic information via topic modeling. We further boost the performance of semantic similarity by injecting the quantized representation into a transformer-based language model with a well-designed semantic-driven attention mechanism. We demonstrate, through extensive experiments across various English language datasets, that our model is able to surpass several strong neural baselines in semantic textual similarity tasks.
翻訳日:2022-11-08 15:25:20 公開日:2022-11-07
# 自動音声認識のためのストリーミング、高速、高精度な逆テキスト正規化

Streaming, fast and accurate on-device Inverse Text Normalization for Automatic Speech Recognition ( http://arxiv.org/abs/2211.03721v1 )

ライセンス: Link先を確認
Yashesh Gaur, Nick Kibre, Jian Xue, Kangyuan Shu, Yuhui Wang, Issac Alphanso, Jinyu Li, Yifan Gong(参考訳) 自動音声認識(ASR)システムは通常、語彙形式で出力を出力する。 しかし、人間は文章の出力を好む。 このギャップを埋めるため、asrシステムは通常、逆テキスト正規化 (itn) を用いる。 以前の作品では、ITNを行うためにWFST(Weighted Finite State Transducers)が使用されている。 WFSTはこのタスクに適していますが、そのサイズと実行時のコストは、組み込みアプリケーションへのデプロイを困難にします。 本稿では,ストリーミング,軽量,高精度なオンデバイスITNシステムの開発について述べる。 私たちのシステムの中核はストリーミングトランスフォーマータグであり、ASRから語彙トークンをタグ付けします。 このタグは、どのITNカテゴリが適用されるのかを通知する。 その後、タグ付きテキストのみにITN固有のWFSTを適用し、ITN変換を確実に行う。 提案したITNソリューションは,サイズが大幅に小さく,カスタマイズ能力も保ちながら,強力なベースラインに匹敵する性能を示した。

Automatic Speech Recognition (ASR) systems typically yield output in lexical form. However, humans prefer a written form output. To bridge this gap, ASR systems usually employ Inverse Text Normalization (ITN). In previous works, Weighted Finite State Transducers (WFST) have been employed to do ITN. WFSTs are nicely suited to this task but their size and run-time costs can make deployment on embedded applications challenging. In this paper, we describe the development of an on-device ITN system that is streaming, lightweight & accurate. At the core of our system is a streaming transformer tagger, that tags lexical tokens from ASR. The tag informs which ITN category might be applied, if at all. Following that, we apply an ITN-category-specific WFST, only on the tagged text, to reliably perform the ITN conversion. We show that the proposed ITN solution performs equivalent to strong baselines, while being significantly smaller in size and retaining customization capabilities.
翻訳日:2022-11-08 15:25:05 公開日:2022-11-07
# CLOP: 知識正規化によるビデオとランゲージの事前学習

CLOP: Video-and-Language Pre-Training with Knowledge Regularizations ( http://arxiv.org/abs/2211.03314v1 )

ライセンス: Link先を確認
Guohao Li, Hu Yang, Feng He, Zhifan Feng, Yajuan Lyu, Hua Wu, Haifeng Wang(参考訳) ビデオと言語による事前学習は、一般化された表現の学習に有望な結果を示している。 ほとんどの既存のアプローチは、通常、マルチモーダルコンテンツの明示的な構造表現を考慮せずに、暗黙的にビデオやテキストをモデル化する。 このような表現形式を構造的知識として表現し、複数の粒度の豊富な意味論を表現する。 類似した知識を入力として注入するオブジェクト指向アプローチを提案する関連研究がある。 しかし、既存の手法は通常、より優れたクロスモーダル表現空間を形成するための正規化のような知識を効果的に利用できない。 そこで本研究では,知識正規化を用いたCLOP(Cross-modaL knOwledge-enhanced Pre-training)手法を提案する。 私たちの重要なデザインは2つあります 1)類似動画の潜在表現をまとめる簡易かつ効果的な構造知識予測(SKP)タスク 2) コントラスト学習のための新しい知識誘導サンプリング手法 (kcl) により, クロスモーダル・ハード・ネガティブなサンプルを分離する。 本手法は4つのテキストビデオ検索タスクと1つのマルチ選択QAタスクで評価する。 実験は明確な改善を示し、以前の成果をかなりのマージンで上回った。 さらに,本手法が潜在表現空間にどのように影響するかをアブレーションし,映像・言語事前学習に知識正規化を組み込む価値を示す。

Video-and-language pre-training has shown promising results for learning generalizable representations. Most existing approaches usually model video and text in an implicit manner, without considering explicit structural representations of the multi-modal content. We denote such form of representations as structural knowledge, which express rich semantics of multiple granularities. There are related works that propose object-aware approaches to inject similar knowledge as inputs. However, the existing methods usually fail to effectively utilize such knowledge as regularizations to shape a superior cross-modal representation space. To this end, we propose a Cross-modaL knOwledge-enhanced Pre-training (CLOP) method with Knowledge Regularizations. There are two key designs of ours: 1) a simple yet effective Structural Knowledge Prediction (SKP) task to pull together the latent representations of similar videos; and 2) a novel Knowledge-guided sampling approach for Contrastive Learning (KCL) to push apart cross-modal hard negative samples. We evaluate our method on four text-video retrieval tasks and one multi-choice QA task. The experiments show clear improvements, outperforming prior works by a substantial margin. Besides, we provide ablations and insights of how our methods affect the latent representation space, demonstrating the value of incorporating knowledge regularizations into video-and-language pre-training.
翻訳日:2022-11-08 15:24:36 公開日:2022-11-07
# 簡単にアクセスできるテキスト・画像生成は大規模な画像ステレオタイプを増幅する

Easily Accessible Text-to-Image Generation Amplifies Demographic Stereotypes at Large Scale ( http://arxiv.org/abs/2211.03759v1 )

ライセンス: Link先を確認
Federico Bianchi, Pratyusha Kalluri, Esin Durmus, Faisal Ladhak, Myra Cheng, Debora Nozza, Tatsunori Hashimoto, Dan Jurafsky, James Zou, Aylin Caliskan(参考訳) 機械学習モデルは、ユーザ記述のテキスト記述を自然なイメージに変換することができる。 これらのモデルはオンラインで誰でも利用でき、毎日何百万もの画像を生成するのに使われている。 これらのモデルを調査し、危険で複雑なステレオタイプを増幅する。 また,増幅ステレオタイプは予測が困難であり,ユーザやモデル所有者が容易に緩和できないことがわかった。 これらの画像生成モデルがステレオタイプとそれらの大量展開を持続し増幅する程度は、深刻な懸念を引き起こす。

Machine learning models are now able to convert user-written text descriptions into naturalistic images. These models are available to anyone online and are being used to generate millions of images a day. We investigate these models and find that they amplify dangerous and complex stereotypes. Moreover, we find that the amplified stereotypes are difficult to predict and not easily mitigated by users or model owners. The extent to which these image-generation models perpetuate and amplify stereotypes and their mass deployment is cause for serious concern.
翻訳日:2022-11-08 15:24:17 公開日:2022-11-07
# CRIPP-VQA:ビデオ質問応答による不適切な物性の逆推論

CRIPP-VQA: Counterfactual Reasoning about Implicit Physical Properties via Video Question Answering ( http://arxiv.org/abs/2211.03779v1 )

ライセンス: Link先を確認
Maitreya Patel and Tejas Gokhale and Chitta Baral and Yezhou Yang(参考訳) ビデオは、しばしばオブジェクト、その可視性、動き、そして異なるオブジェクト間の相互作用をキャプチャする。 物体は質量などの物理的性質を持ち、撮像パイプラインを直接捉えることができない。 しかし、これらの性質は相対的な物体の動きと衝突によって引き起こされる力学の手がかりを利用して推定できる。 本稿では,シーン内のオブジェクトの暗黙的な物理的特性を推論するビデオ質問応答データセットであるCRIPP-VQAを紹介する。 CRIPP-VQAには、動作中のオブジェクトのビデオが含まれており、アクションの効果に関する反事実的推論、目標に到達するための計画に関する質問、オブジェクトの可視性に関する記述的な質問が含まれている。 CRIPP-VQAテストセットは、トレーニング分布で観測されていない質量、摩擦係数、初期速度の動画を含む、いくつかのアウト・オブ・ディストリビューション・セッティングでの評価を可能にする。 実験の結果,対象の暗黙的特性(本論文の焦点)と明示的特性(先行作業の焦点)に関する疑問に答える上で,驚くべき,重要なパフォーマンスギャップが明らかとなった。

Videos often capture objects, their visible properties, their motion, and the interactions between different objects. Objects also have physical properties such as mass, which the imaging pipeline is unable to directly capture. However, these properties can be estimated by utilizing cues from relative object motion and the dynamics introduced by collisions. In this paper, we introduce CRIPP-VQA, a new video question answering dataset for reasoning about the implicit physical properties of objects in a scene. CRIPP-VQA contains videos of objects in motion, annotated with questions that involve counterfactual reasoning about the effect of actions, questions about planning in order to reach a goal, and descriptive questions about visible properties of objects. The CRIPP-VQA test set enables evaluation under several out-of-distribution settings -- videos with objects with masses, coefficients of friction, and initial velocities that are not observed in the training distribution. Our experiments reveal a surprising and significant performance gap in terms of answering questions about implicit properties (the focus of this paper) and explicit properties of objects (the focus of prior work).
翻訳日:2022-11-08 15:24:09 公開日:2022-11-07
# ビジュアル文書理解のためのWebベースビジュアルコーパス構築技術報告

Technical Report on Web-based Visual Corpus Construction for Visual Document Understanding ( http://arxiv.org/abs/2211.03256v1 )

ライセンス: Link先を確認
Donghyun Kim, Teakgyu Hong, Moonbin Yim, Yoonsik Kim, Geewook Kim(参考訳) Web ベースの Visual Corpus Builder (Webvicob) というデータセット生成エンジンを提案する。 webvicobは、wikipediaの生のhtmlダンプから、大規模なビジュアルコーパス(テキストアノテーション付き画像)を簡単に構築できる。 本報告では,webvicobが生成するデータは幅広い文脈と知識をカバーし,実践者が強力な視覚文書理解(vdu)バックボーンを構築するのに役立つことを検証する。 提案されたエンジンはhttps://github.com/clovaai/webvicob.comで公開されている。

We present a dataset generator engine named Web-based Visual Corpus Builder (Webvicob). Webvicob can readily construct a large-scale visual corpus (i.e., images with text annotations) from a raw Wikipedia HTML dump. In this report, we validate that Webvicob-generated data can cover a wide range of context and knowledge and helps practitioners to build a powerful Visual Document Understanding (VDU) backbone. The proposed engine is publicly available at https://github.com/clovaai/webvicob.
翻訳日:2022-11-08 15:17:49 公開日:2022-11-07
# 雑音環境下でのマルチモーダル表現学習のための汎用製品

Generalized Product-of-Experts for Learning Multimodal Representations in Noisy Environments ( http://arxiv.org/abs/2211.03587v1 )

ライセンス: Link先を確認
Abhinav Joshi and Naman Gupta and Jinang Shah and Binod Bhattarai and Ashutosh Modi and Danail Stoyanov(参考訳) 現実世界のアプリケーションや設定は、様々なモダリティ(例えば、ビデオ、スピーチ、テキスト)間の相互作用を含む。 マルチモーダル情報を自動的に処理してエンドアプリケーションに利用するために,近年,多モーダル表現学習(MRL)が研究の活発な領域として出現している。 MRLは、不均一なソースから情報の信頼性と堅牢な表現を学び、それらを融合させる。 しかし、実際には、異なるソースから取得したデータは一般に騒がしい。 極端なケースでは、大きな大きさのノイズがデータのセマンティクスを完全に変え、並列マルチモーダルデータの一貫性を損なうことがある。 本稿では,提案手法を用いて,雑音環境におけるマルチモーダル表現学習のための新しい手法を提案する。 提案手法では,そのモダリティから得られる情報の信頼性を評価するために,各モダリティに対して別々のネットワークを訓練し,その後,ジョイント分布を推定しながら、各モダリティからの貢献を動的に変化させる。 本手法は,マルチモーダル3次元ハンドポーズ推定とマルチモーダル手術ビデオセグメンテーションの2つの難解なベンチマークを用いて評価した。 両方のベンチマークで最先端のパフォーマンスを達成します。 定量的および定性的評価は,従来の手法と比較して,本手法の利点を示している。

A real-world application or setting involves interaction between different modalities (e.g., video, speech, text). In order to process the multimodal information automatically and use it for an end application, Multimodal Representation Learning (MRL) has emerged as an active area of research in recent times. MRL involves learning reliable and robust representations of information from heterogeneous sources and fusing them. However, in practice, the data acquired from different sources are typically noisy. In some extreme cases, a noise of large magnitude can completely alter the semantics of the data leading to inconsistencies in the parallel multimodal data. In this paper, we propose a novel method for multimodal representation learning in a noisy environment via the generalized product of experts technique. In the proposed method, we train a separate network for each modality to assess the credibility of information coming from that modality, and subsequently, the contribution from each modality is dynamically varied while estimating the joint distribution. We evaluate our method on two challenging benchmarks from two diverse domains: multimodal 3D hand-pose estimation and multimodal surgical video segmentation. We attain state-of-the-art performance on both benchmarks. Our extensive quantitative and qualitative evaluations show the advantages of our method compared to previous approaches.
翻訳日:2022-11-08 15:17:40 公開日:2022-11-07
# 非線形特徴写像を用いた少数の例から学ぶ数学的理解に向けて

Towards a mathematical understanding of learning from few examples with nonlinear feature maps ( http://arxiv.org/abs/2211.03607v1 )

ライセンス: Link先を確認
Oliver J. Sutton, Alexander N. Gorban, Ivan Y. Tyukin(参考訳) トレーニングセットがわずか数個のデータポイントから構成されるデータ分類の問題を考える。 この現象を数学的に検討し、aiモデルの特徴空間の幾何構造、基礎となるデータ分布の構造、モデルの一般化能力との間の重要な関係を明らかにする。 我々の分析の主な推進力は、元のデータを高次元かつ無限次元空間にマッピングする非線形特徴変換のモデル一般化能力への影響を明らかにすることである。

We consider the problem of data classification where the training set consists of just a few data points. We explore this phenomenon mathematically and reveal key relationships between the geometry of an AI model's feature space, the structure of the underlying data distributions, and the model's generalisation capabilities. The main thrust of our analysis is to reveal the influence on the model's generalisation capabilities of nonlinear feature transformations mapping the original data into high, and possibly infinite, dimensional spaces.
翻訳日:2022-11-08 15:17:22 公開日:2022-11-07
# ガウス分布を超えた予測符号化

Predictive Coding beyond Gaussian Distributions ( http://arxiv.org/abs/2211.03481v1 )

ライセンス: Link先を確認
Luca Pinchetti, Tommaso Salvatori, Yordan Yordanov, Beren Millidge, Yuhang Song, Thomas Lukasiewicz(参考訳) 最近の多くの研究は、バックプロパゲーション(BP)の代替として機能するディープニューラルネットワークのトレーニング方法を見つけるという、はるかに大きな目標を持っている。 有名な例は予測符号化 (pc) であり、階層的ガウス生成モデル上で推論を行う神経科学に触発された手法である。 しかしこれらの手法は、複雑な層やアクティベーション関数のダイナミクスを再現できないため、現代のニューラルネットワークに追いつこうとしない。 本研究では,PCを任意の確率分布に一般化し,ガウス的仮定にのみ近似し難いトランスフォーマーなどのアーキテクチャのトレーニングを可能にすることで,この問題を解決する。 我々は3つの実験分析を行う。 まず,本手法とPCの標準定式化のギャップを,複数の玩具の例で検討する。 第2に,提案手法がBPと同じ再現品質に達するような変分オートエンコーダの再構成品質をテストする。 第3に, 条件付き言語モデルにおいて, トランスフォーマネットワークをトレーニングし, BPに匹敵する性能を実現できることを示す。 より広範に、この方法は、内部分布が使用されるデータ、タスク、アーキテクチャに柔軟に適応できるため、神経科学にインスパイアされた学習を複数の領域に適用することができる。

A large amount of recent research has the far-reaching goal of finding training methods for deep neural networks that can serve as alternatives to backpropagation (BP). A prominent example is predictive coding (PC), which is a neuroscience-inspired method that performs inference on hierarchical Gaussian generative models. These methods, however, fail to keep up with modern neural networks, as they are unable to replicate the dynamics of complex layers and activation functions. In this work, we solve this problem by generalizing PC to arbitrary probability distributions, enabling the training of architectures, such as transformers, that are hard to approximate with only Gaussian assumptions. We perform three experimental analyses. First, we study the gap between our method and the standard formulation of PC on multiple toy examples. Second, we test the reconstruction quality on variational autoencoders, where our method reaches the same reconstruction quality as BP. Third, we show that our method allows us to train transformer networks and achieve a performance comparable with BP on conditional language models. More broadly, this method allows neuroscience-inspired learning to be applied to multiple domains, since the internal distributions can be flexibly adapted to the data, tasks, and architectures used.
翻訳日:2022-11-08 15:17:05 公開日:2022-11-07
# AfroLM:23のアフリカ言語を対象とした自己学習に基づく多言語事前訓練言語モデル

AfroLM: A Self-Active Learning-based Multilingual Pretrained Language Model for 23 African Languages ( http://arxiv.org/abs/2211.03263v1 )

ライセンス: Link先を確認
Bonaventure F. P. Dossou, Atnafu Lambebo Tonja, Oreen Yousuf, Salomey Osei, Abigail Oppong, Iyanuoluwa Shode, Oluwabusayo Olufunke Awoyomi, Chris Chinenye Emezue(参考訳) 近年,多くの下流自然言語処理タスク(NLP)において,多言語事前学習型言語モデルの性能が顕著に向上している。 しかし、これらの大きな多言語モデルの事前学習には多くのトレーニングデータが必要であり、アフリカ語では利用できない。 アクティブラーニングは半教師付き学習アルゴリズムであり、モデルが継続的に動的に学習し、下流タスクにおけるより良い最適化とパフォーマンスを達成するために、トレーニングする上で最も有益なサンプルを特定する。 さらに、アクティブラーニングは実世界のデータ不足に効果的に対処する。 NLPの文脈、特に多言語言語モデルの事前学習において、その利点や積極的学習は、ほとんど考慮されていない。 本稿では,新たな自己活動学習フレームワークを用いて,23のアフリカ語(現在までの最大の取り組み)をスクラッチから事前訓練した多言語言語モデルであるAfroLMを提案する。 既存のベースラインよりもはるかに小さいデータセット(14倍)で事前訓練されたAfroLMは、さまざまなNLP下流タスク(NER、テキスト分類、感情分析)において、多くの多言語事前訓練された言語モデル(AfriBERTa、XLMR-base、mBERT)より優れています。 追加のドメイン外感情分析実験により、 \textbf{AfroLM} は様々なドメインにわたってうまく一般化できることが示された。 ソースコードと、フレームワークで使用されるデータセットはhttps://github.com/bonaventuredossou/MLM_ALで公開しています。

In recent years, multilingual pre-trained language models have gained prominence due to their remarkable performance on numerous downstream Natural Language Processing tasks (NLP). However, pre-training these large multilingual language models requires a lot of training data, which is not available for African Languages. Active learning is a semi-supervised learning algorithm, in which a model consistently and dynamically learns to identify the most beneficial samples to train itself on, in order to achieve better optimization and performance on downstream tasks. Furthermore, active learning effectively and practically addresses real-world data scarcity. Despite all its benefits, active learning, in the context of NLP and especially multilingual language models pretraining, has received little consideration. In this paper, we present AfroLM, a multilingual language model pretrained from scratch on 23 African languages (the largest effort to date) using our novel self-active learning framework. Pretrained on a dataset significantly (14x) smaller than existing baselines, AfroLM outperforms many multilingual pretrained language models (AfriBERTa, XLMR-base, mBERT) on various NLP downstream tasks (NER, text classification, and sentiment analysis). Additional out-of-domain sentiment analysis experiments show that \textbf{AfroLM} is able to generalize well across various domains. We release the code source, and our datasets used in our framework at https://github.com/bonaventuredossou/MLM_AL.
翻訳日:2022-11-08 15:07:57 公開日:2022-11-07
# 知識グラフ埋め込み:表現空間の観点からの考察

Knowledge Graph Embedding: A Survey from the Perspective of Representation Spaces ( http://arxiv.org/abs/2211.03536v1 )

ライセンス: Link先を確認
Jiahang Cao, Jinyuan Fang, Zaiqiao Meng, Shangsong Liang(参考訳) 知識グラフ埋め込み(KGE)は、知識グラフの実体と関係を低次元の意味空間に表現することを目的として、リンク予測、知識推論、知識完成などの幅広い応用のために、ますます普及しつつある技術である。 本稿では,表現空間に基づく既存のKGE手法の体系的なレビューを行う。 特に,(1)代数的視点,(2)幾何学的視点,(3)解析的視点という3つの数学的視点に基づいて,モデルを分類するための細粒度分類を構築する。 我々は、KGEモデルとその数学的性質に飛び込む前に、基本数学的空間の厳密な定義を導入する。 さらに3つのカテゴリにまたがる異なるKGE手法について議論し、異なる埋め込みニーズに対して空間的優位性がどのように機能するかを要約する。 下流タスクによる実験結果を照合することにより、異なるシナリオにおける数学的空間の利点とそれらの背後にある理由についても検討する。 さらに,表現空間の観点から有望な研究の方向性を述べるとともに,kgeモデルの設計を研究者に促し,数学的な空間特性を考慮し,関連する応用を奨励したい。

Knowledge graph embedding (KGE) is a increasingly popular technique that aims to represent entities and relations of knowledge graphs into low-dimensional semantic spaces for a wide spectrum of applications such as link prediction, knowledge reasoning and knowledge completion. In this paper, we provide a systematic review of existing KGE techniques based on representation spaces. Particularly, we build a fine-grained classification to categorise the models based on three mathematical perspectives of the representation spaces: (1) Algebraic perspective, (2) Geometric perspective, and (3) Analytical perspective. We introduce the rigorous definitions of fundamental mathematical spaces before diving into KGE models and their mathematical properties. We further discuss different KGE methods over the three categories, as well as summarise how spatial advantages work over different embedding needs. By collating the experimental results from downstream tasks, we also explore the advantages of mathematical space in different scenarios and the reasons behind them. We further state some promising research directions from a representation space perspective, with which we hope to inspire researchers to design their KGE models as well as their related applications with more consideration of their mathematical space properties.
翻訳日:2022-11-08 15:07:30 公開日:2022-11-07
# 会話における感情の原因を抽出するマルチタスク学習フレームワーク

Multi-Task Learning Framework for Extracting Emotion Cause Span and Entailment in Conversations ( http://arxiv.org/abs/2211.03742v1 )

ライセンス: Link先を確認
Ashwani Bhat and Ashutosh Modi(参考訳) テキストで表現された感情を予測することは、NLPコミュニティでよく研究されている問題である。 近年,テキストで表現された感情の原因を抽出する研究が活発に行われている。 以前の作品のほとんどが文書に因果感情を伴っている。 そこで本研究では,会話における感情の原因を抽出するニューラルモデルを提案する。 このようなモデルの学習には、発話レベルで原因スパンでアノテートされたrecconデータセットを使用する。 特に,MuteCは,会話における感情や感情の因果関係を抽出する,エンドツーエンドのマルチタスク学習フレームワークである。 これは、根拠となる真実の感情を使って原因を抽出する既存のベースラインモデルとは対照的である。 MuTECは、データセットで提供されるほとんどのデータフォールドのベースラインよりもパフォーマンスがよい。

Predicting emotions expressed in text is a well-studied problem in the NLP community. Recently there has been active research in extracting the cause of an emotion expressed in text. Most of the previous work has done causal emotion entailment in documents. In this work, we propose neural models to extract emotion cause span and entailment in conversations. For learning such models, we use RECCON dataset, which is annotated with cause spans at the utterance level. In particular, we propose MuTEC, an end-to-end Multi-Task learning framework for extracting emotions, emotion cause, and entailment in conversations. This is in contrast to existing baseline models that use ground truth emotions to extract the cause. MuTEC performs better than the baselines for most of the data folds provided in the dataset.
翻訳日:2022-11-08 15:07:15 公開日:2022-11-07
# 教師なし表現学習における最小変動について

On minimal variations for unsupervised representation learning ( http://arxiv.org/abs/2211.03782v1 )

ライセンス: Link先を確認
Vivien Cabannes, Alberto Bietti, Randall Balestriero(参考訳) 教師なし表現学習は、さまざまな下流タスクを解決するために、生データを効率的に記述することを目的としている。 多様体学習、拡散写像、最近では自己教師付き学習など、多くの手法でアプローチされてきた。 これらの手法はすべて、将来の下流タスクに関連するターゲット関数が、入力空間の密集した領域において低い変動を持つという前提に基づいている。 教師なし表現学習の背後にある原則として最小限のバリエーションを解放することは、自己教師付き学習アルゴリズムの実践的ガイドラインを改善する道を開く。

Unsupervised representation learning aims at describing raw data efficiently to solve various downstream tasks. It has been approached with many techniques, such as manifold learning, diffusion maps, or more recently self-supervised learning. Those techniques are arguably all based on the underlying assumption that target functions, associated with future downstream tasks, have low variations in densely populated regions of the input space. Unveiling minimal variations as a guiding principle behind unsupervised representation learning paves the way to better practical guidelines for self-supervised learning algorithms.
翻訳日:2022-11-08 15:07:04 公開日:2022-11-07