このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221220となっている論文です。

PDF登録状況(公開日: 20221220)

TitleAuthorsAbstract論文公表日・翻訳日
# 複数の頂点を持つ量子ウォークに基づく探索アルゴリズム

Quantum walk-based search algorithms with multiple marked vertices ( http://arxiv.org/abs/2103.12878v4 )

ライセンス: Link先を確認
G. A. Bezerra, P. H. G. Lug\~ao, and R. Portugal(参考訳) 量子ウォーク(quantum walk)は、量子アルゴリズムを開発するための強力なツールであり、通常、複数のマークされた頂点を持つグラフ内の頂点の探索に基づいている。 本研究では,任意のグラフ上に複数のマークされた頂点を持つ量子ウォークに基づく探索アルゴリズムを用いて,マークされた頂点を見つけるのに要する時間複雑性の分析式を計算し,szegedyの量子ウォークに基づく従来の解析手法を拡張した。 2次元格子とハイパーキューブ上の量子ウォークに基づく2つの例は、我々の方法の詳細を示している。

The quantum walk is a powerful tool to develop quantum algorithms, which usually are based on searching for a vertex in a graph with multiple marked vertices, Ambainis's quantum algorithm for solving the element distinctness problem being the most shining example. In this work, we address the problem of calculating analytical expressions of the time complexity of finding a marked vertex using quantum walk-based search algorithms with multiple marked vertices on arbitrary graphs, extending previous analytical methods based on Szegedy's quantum walk, which can be applied only to bipartite graphs. Two examples based on the coined quantum walk on two-dimensional lattices and hypercubes show the details of our method.
翻訳日:2023-04-07 01:46:09 公開日:2022-12-20
# 近似モデルにおける光子凝縮の非摂動的ノーゴー定理

A non-perturbative no-go theorem for photon condensation in approximate models ( http://arxiv.org/abs/2104.09468v5 )

ライセンス: Link先を確認
G.M. Andolina, F.M.D. Pellegrino, A. Mercurio, O. Di Stefano, M. Polini, and S. Savasta(参考訳) 正規状態と光子凝縮状態(超ラジアント相転移とも呼ばれる)の間の平衡相転移は、非常に議論を呼んだ研究テーマであり、そこではそれらの発生の提案とノーゴー定理が過去40年間互いに追随してきた。 最近のno-go定理は、キャビティ-フォトンモードが空間的に均一であると仮定した場合、ゲージ不変性は光子凝縮状態への2次相転移を許すことを示した。 しかし、理論上は光に結合した3レベル系の集合が光子凝縮状態への一階相転移を示すことができると予測されている。 %{it} はまた、物質系のヒルベルト空間の切断が理論のゲージ不変性に影響を及ぼすことも最近示されている。 しかし、有界ヒルベルト空間においてゲージ原理に従う近似ハミルトニアンを得ることは常に可能である。 ここでは、磁場とのカップリングが存在しない場合の1次および2次超ラジアント相転移を禁止した、切り離されたゲージ不変モデルに対しても有効な一般のno-go定理を示す。 特に、格子および$m$-レベル系における相互作用電子の場合を明示的に検討する。

Equilibrium phase transitions between a normal and a photon condensate state (also known as superradiant phase transitions) are a highly debated research topic, where proposals for their occurrence and no-go theorems have chased each other for the past four decades. Recent no-go theorems have demonstrated that gauge invariance forbids second-order phase transitions to a photon condensate state when the cavity-photon mode is assumed to be {\it spatially uniform}. However, it has been theoretically predicted that a collection of three-level systems coupled to light can display a first-order phase transition to a photon condensate state. %{It has also been recently shown that truncation of the Hilbert space of the matter system can affect the gauge invariance of the theory. However, it is always possible to obtain approximate Hamiltonians obeying the gauge principle in the truncated Hilbert space.} Here, we demonstrate a general no-go theorem valid also for truncated, gauge-invariant models which forbid first-order as well as second-order superradiant phase transitions in the absence of a coupling with a magnetic field. In particular, we explicitly consider the cases of interacting electrons in a lattice and $M$-level systems.
翻訳日:2023-04-03 04:42:41 公開日:2022-12-20
# 固定周波数超伝導量子ビットのための高忠実3ビットiToffoliゲート

High-fidelity three-qubit iToffoli gate for fixed-frequency superconducting qubits ( http://arxiv.org/abs/2108.10288v2 )

ライセンス: Link先を確認
Yosep Kim, Alexis Morvan, Long B. Nguyen, Ravi K. Naik, Christian J\"unger, Larry Chen, John Mark Kreikebaum, David I. Santiago, Irfan Siddiqi(参考訳) ノイズの多い中間規模量子(NISQ)デバイスの開発により、高忠実度単一および2ビットゲートを持つ実行可能な量子回路の範囲が拡張された。 NISQデバイスを3ビットゲートで取得することで、より複雑な量子アルゴリズムと回路深度を低減した効率的な量子誤り訂正プロトコルの実現が可能になる。 超伝導量子ビットのためにいくつかの3量子ビットゲートが実装されているが、ゲート合成における使用は低忠実性のため制限されている。 ここでは、固定周波数超伝導量子ビットを用いて、2量子相互作用、いわゆるクロス共鳴効果に基づく高忠実iToffoliゲートを示す。 toffoliゲートと同様に、この3量子ビットゲートは普遍量子計算の実行に使うことができる。 iToffoliゲートは3量子ビットの線形鎖にマイクロ波パルスを同時に印加し、98.26(2)%のプロセス忠実度を示す。 さらに,我々はトフォリゲートやiToffoliゲートよりも効率的なゲート合成を実現する3ビットゲートを新たに作成できることを数値的に示す。 我々の研究は、現在の超伝導量子プロセッサに高忠実なiToffoliゲートをもたらすだけでなく、2量子ビット相互作用に基づくマルチキュービットゲートを開発するための経路を開く。

The development of noisy intermediate-scale quantum (NISQ) devices has extended the scope of executable quantum circuits with high-fidelity single- and two-qubit gates. Equipping NISQ devices with three-qubit gates will enable the realization of more complex quantum algorithms and efficient quantum error correction protocols with reduced circuit depth. Several three-qubit gates have been implemented for superconducting qubits, but their use in gate synthesis has been limited due to their low fidelity. Here, using fixed-frequency superconducting qubits, we demonstrate a high-fidelity iToffoli gate based on two-qubit interactions, the so-called cross-resonance effect. As with the Toffoli gate, this three-qubit gate can be used to perform universal quantum computation. The iToffoli gate is implemented by simultaneously applying microwave pulses to a linear chain of three qubits, revealing a process fidelity as high as 98.26(2)%. Moreover, we numerically show that our gate scheme can produce additional three-qubit gates which provide more efficient gate synthesis than the Toffoli and iToffoli gates. Our work not only brings a high-fidelity iToffoli gate to current superconducting quantum processors but also opens a pathway for developing multi-qubit gates based on two-qubit interactions.
翻訳日:2023-03-17 11:49:26 公開日:2022-12-20
# 超伝導ナノワイヤからのダークマターの新しい制約

New constraints on dark matter from superconducting nanowires ( http://arxiv.org/abs/2110.01586v3 )

ライセンス: Link先を確認
Yonit Hochberg, Benjamin V. Lehmann, Ilya Charaev, Jeff Chiles, Marco Colangelo, Sae Woo Nam and Karl K. Berggren(参考訳) 量子センシングのために開発された成熟した技術である超伝導ナノワイヤは、電子とのダークマター相互作用を探索するターゲットとセンサーとして使用できる。 本稿では,4.3ナノグラムのタングステンシリサイド超電導ナノワイヤ装置の180時間測定について報告する。 ダークマター-電子相互作用に新たな制約を課し、散乱(吸収)過程を介して電子と相互作用するサブMeV(サブeV)ダークマターに、これまでで最も強い地球上の制約を含む。

Superconducting nanowires, a mature technology originally developed for quantum sensing, can be used as a target and sensor with which to search for dark matter interactions with electrons. Here we report on a 180-hour measurement of a tungsten silicide superconducting nanowire device with a mass of 4.3 nanograms. We use this to place new constraints on dark matter--electron interactions, including the strongest terrestrial constraints to date on sub-MeV (sub-eV) dark matter that interacts with electrons via scattering (absorption) processes.
翻訳日:2023-03-12 13:58:03 公開日:2022-12-20
# 窒素原子価中心と電子スピンラベルによる分子遷移の検出

Detection of Molecular Transitions with Nitrogen-Vacancy Centers and Electron-Spin Labels ( http://arxiv.org/abs/2110.14255v2 )

ライセンス: Link先を確認
C. Munuera-Javaloy, R. Puebla, B. D'Anjou, M. B. Plenio, J. Casanova(参考訳) ダイヤモンド中の二酸化窒素電子スピンラベルと窒素空孔(NV)中心との分子配座変化を検出するプロトコルを提案する。 具体的には、NVが電子-スピンラベル間の結合によって引き起こされるエネルギーシフトを検出することを実証する。 このプロトコルは、安定な一酸化窒素共鳴を保証する様々なパラメータにおけるマイクロ波および高周波パルスの法医学的応用に依存している。 さらに, 窒素同位体の異なるニトロキシドを用いることにより, 提案手法を最適化できることを実証する。 詳細な数値シミュレーションとベイズ推定を用いて, ダイヤモンド表面近傍および亜酸化窒素熱化機構の結果, 強いnv劣化率を含む現実的な条件下でのコンフォメーション変化の検出が可能であることを実証した。 最後に、ランダムな分子タンブリングを利用して、ラベル間距離を抽出できることを示す。

We present a protocol that detects molecular conformational changes with two nitroxide electron-spin labels and a nitrogen-vacancy (NV) center in diamond. More specifically, we demonstrate that the NV can detect energy shifts induced by the coupling between electron-spin labels. The protocol relies on the judicious application of microwave and radiofrequency pulses in a range of parameters that ensures stable nitroxide resonances. Furthermore, we demonstrate that our scheme is optimized by using nitroxides with distinct nitrogen isotopes. We use detailed numerical simulations and Bayesian inference techniques to demonstrate that our method enables the detection of conformational changes under realistic conditions including strong NV dephasing rates as a consequence of the diamond surface proximity and nitroxide thermalization mechanisms. Finally, we show that random molecular tumbling can be exploited to extract the inter-label distance.
翻訳日:2023-03-10 03:36:56 公開日:2022-12-20
# 第三部領域生態系のトポロジーと幾何学:測定と応用

Topology and Geometry of the Third-Party Domains Ecosystem: Measurement and Applications ( http://arxiv.org/abs/2112.04381v2 )

ライセンス: Link先を確認
Costas Iordanou, Fragkiskos Papadopoulos(参考訳) 長年にわたって、Webコンテンツは、単一のサーバにホストされる単純なテキストと静的イメージから、異なるサーバにホストされる複雑でインタラクティブでマルチメディアリッチなコンテンツへと進化してきた。 その結果、ロード時間中の現代的なWebサイトは、その所有者のドメインだけでなく、追加機能やサービスを提供するさまざまなサードパーティドメインからコンテンツを取得する。 ここでは、ユーザのブラウザ内のドメインのインタラクションを世界中から観察することにより、サードパーティドメインのネットワークを推定する。 このネットワークは、パワー・ロー次数分布、強いクラスタリング、小世界の特性など、複雑なネットワークでよく見られる構造的特性を持つ。 これらの性質は双曲幾何学が生態系のトポロジーの下にあることを暗示している。 統計的推論手法を用いて、この幾何学における領域の座標を求め、ドメインがどの程度人気で類似しているかを抽象化する。 私たちが得る双曲マップは意味があり、エコシステムの大規模組織を明らかにする。 さらに, 予測能力を持ち, 第三者ドメインが共同ホストされている可能性, 同一の法的エンティティに属している可能性, あるいは企業買収に関して, 将来同じエンティティの下で合併する可能性を示す。 また、類似性ではなく相補性が将来のドメインの合併を駆動する支配的な力であることもわかりました。 これらの結果は、エコシステムの組織を理解し、関連する推論と予測を実行するための新しい視点を提供する。

Over the years, web content has evolved from simple text and static images hosted on a single server to a complex, interactive and multimedia-rich content hosted on different servers. As a result, a modern website during its loading time fetches content not only from its owner's domain but also from a range of third-party domains providing additional functionalities and services. Here, we infer the network of the third-party domains by observing the domains' interactions within users' browsers from all over the globe. We find that this network possesses structural properties commonly found in complex networks, such as power-law degree distribution, strong clustering, and small-world property. These properties imply that a hyperbolic geometry underlies the ecosystem's topology. We use statistical inference methods to find the domains' coordinates in this geometry, which abstract how popular and similar the domains are. The hyperbolic map we obtain is meaningful, revealing the large-scale organization of the ecosystem. Furthermore, we show that it possesses predictive power, providing us the likelihood that third-party domains are co-hosted; belong to the same legal entity; or merge under the same entity in the future in terms of company acquisition. We also find that complementarity instead of similarity is the dominant force driving future domains' merging. These results provide a new perspective on understanding the ecosystem's organization and performing related inferences and predictions.
翻訳日:2023-03-05 09:48:11 公開日:2022-12-20
# 地中準備促進のための想像時間リアプノフ制御の変動量子シミュレーション

Variational quantum simulation of the imaginary-time Lyapunov control for accelerating the ground-state preparation ( http://arxiv.org/abs/2112.11782v2 )

ライセンス: Link先を確認
Yu-Cheng Chen, Yu-Qin Chen, Alice Hu, Chang-Yu Hsieh, Shengyu Zhang(参考訳) 量子コンピュータは化学や物理学において難しいハミルトニアンの基底状態を得る上で大きな利点をもたらすと広く推測されている。 そこで本研究では,まずライプノフ制御に触発された基底状態形成のための仮定時間法を高速化する戦略を提案する。 また,リアプノフ制御の下での仮想時間過程の加速源を理論的理解と動的プロセス可視化により探索する。 ノイズの多い中間スケール量子時代にこの手法を利用可能にするため,我々はさらに,浅層量子回路で動作するアルゴリズムの変分形式を提案する。 分子系, 2次元ハイゼンベルクモデル, シェリントン・キルクパトリックモデルを含む多岐にわたる現実的なモデルに関する数値実験を通じて, 仮想時間制御は全ての系における仮想時間発展を実質的に加速し, 小さいエネルギーギャップを伴う分子ハミルトニアンを特別な場合として挑むために, 桁違いの加速度(指数的加速)を発生させることを示した。 最後に、制御ハミルトニアンを適切に選択することで、新しい変分量子アルゴリズムは、元の変分量子イマジナリタイムアルゴリズムと比較して追加の測定コストを発生させない。

Quantum computers have been widely speculated to offer significant advantages in obtaining the ground state of difficult Hamiltonian in chemistry and physics. In this work, we first propose a Lyapunov control-inspired strategy to accelerate the well-established imaginary-time method for ground-state preparation. We also dig for the source of acceleration of the imaginary-time process under Lyapunov control with theoretical understanding and dynamic process visualization. To make the method accessible in the noisy intermediate-scale quantum era, we further propose a variational form of the algorithm that could work with shallow quantum circuits. Through numerical experiments on a broad spectrum of realistic models, including molecular systems, 2D Heisenberg models, and Sherrington-Kirkpatrick models, we show that imaginary-time control may substantially accelerate the imaginary time evolution for all systems and even generate orders of magnitude acceleration (suggesting exponential-like acceleration) for challenging molecular Hamiltonians involving small energy gaps as impressive special cases. Finally, with a proper selection of the control Hamiltonian, the new variational quantum algorithm does not incur additional measurement costs compared to the original variational quantum imaginary-time algorithm.
翻訳日:2023-03-03 20:22:38 公開日:2022-12-20
# ソーシャルネットワークにおけるオピニオンダイナミクス:モデルからデータへ

Opinion dynamics in social networks: From models to data ( http://arxiv.org/abs/2201.01322v4 )

ライセンス: Link先を確認
Antonio F. Peralta, J\'anos Kert\'esz, Gerardo I\~niguez(参考訳) 意見は、世界とお互いをどう知覚するかに不可欠な部分です。 彼らは集団行動を形成し、民主的なプロセス、規範の進化、文化の変化に重要な役割を果たしている。 何十年もの間、社会科学と自然科学の研究者たちは、個人の視点と社会交流の転換が、コンセンサスや分極化のような世論の原型的状態にどのようにつながるかを説明してきた。 本稿では,この分野への多くの貢献を概観し,意見のダイナミクスの理想化モデルと,観察データと社会学的実験による検証の試みの両方に焦点を当てた。 これらの取り組みは、モデルとデータのギャップをさらに埋めることによって、経済不平等、気候変動、社会政治的景観の継続的な破壊といった複雑なシナリオにおける大勢の人々の合意を必要とする現在の課題にどのように対処するかを理解するのに役立つかもしれない。

Opinions are an integral part of how we perceive the world and each other. They shape collective action, playing a role in democratic processes, the evolution of norms, and cultural change. For decades, researchers in the social and natural sciences have tried to describe how shifting individual perspectives and social exchange lead to archetypal states of public opinion like consensus and polarization. Here we review some of the many contributions to the field, focusing both on idealized models of opinion dynamics, and attempts at validating them with observational data and controlled sociological experiments. By further closing the gap between models and data, these efforts may help us understand how to face current challenges that require the agreement of large groups of people in complex scenarios, such as economic inequality, climate change, and the ongoing fracture of the sociopolitical landscape.
翻訳日:2023-03-02 07:31:25 公開日:2022-12-20
# n$-qubitシステムのための既約のマジックセット

Irreducible magic sets for $n$-qubit systems ( http://arxiv.org/abs/2202.13141v2 )

ライセンス: Link先を確認
Stefan Trandafir, Petr Lison\v{e}k, Ad\'an Cabello(参考訳) オブザーバブルの魔法のセットは、n\ge 2$ qubitsのシステムに対する量子状態非依存の利点を捉え、従って古典物理学と量子物理学の間のインターフェイスを調べるための基本的なツールである。 arkhipov (arxiv:1209.3819) による定理では、それぞれの可観測性がちょうど2つの可観測性部分集合に含まれるような$n$-qubit のマジック集合は、2量子のマジックスクエアか3量子のマジックペンタグラムに還元できる(n. d. mermin, phys. rev. lett. 65, 3373 (1990)]。 オープンな疑問は、正方形やペンタグラムに還元できないマジックセットが存在するかどうかである。 第二の鍵となる疑問は、それらが$n > 3$ qubitsを必要とするかどうかである。なぜなら、もしそうであるなら、これらのマジックセットは、$n$ qubitsの特定の値を持つ$n$-qubitシステムに特有の最小の状態独立量子優位性をキャプチャするからである。 ここでは、両方の質問に答える。 正方形やペンタグラムに還元できず、n=3,4,5$または6ドルのキュービットを必要とするマジックセットを識別します。 さらに、arkhipovの定理の一般化版を証明し、超グラフが与えられたとき、それがマジック集合に適合できるかどうかを判断し、それに関連する非文脈性不等式(noncontextuality inequality)の厳密な境界を得る別の開問題を解く効率的なアルゴリズムを提供する。

Magic sets of observables are minimal structures that capture quantum state-independent advantage for systems of $n\ge 2$ qubits and are, therefore, fundamental tools for investigating the interface between classical and quantum physics. A theorem by Arkhipov (arXiv:1209.3819) states that $n$-qubit magic sets in which each observable is in exactly two subsets of compatible observables can be reduced either to the two-qubit magic square or the three-qubit magic pentagram [N. D. Mermin, Phys. Rev. Lett. 65, 3373 (1990)]. An open question is whether there are magic sets that cannot be reduced to the square or the pentagram. If they exist, a second key question is whether they require $n >3$ qubits, since, if this is the case, these magic sets would capture minimal state independent quantum advantage that is specific for $n$-qubit systems with specific values of $n$. Here, we answer both questions affirmatively. We identify magic sets which cannot be reduced to the square or the pentagram and require $n=3,4,5$, or $6$ qubits. In addition, we prove a generalized version of Arkhipov's theorem providing an efficient algorithm for, given a hypergraph, deciding whether or not it can accommodate a magic set, and solve another open problem, namely, given a magic set, obtaining the tight bound of its associated noncontextuality inequality.
翻訳日:2023-02-23 21:31:06 公開日:2022-12-20
# グループを越えたランダム化ベンチマーク

Randomized Benchmarking Beyond Groups ( http://arxiv.org/abs/2203.12703v2 )

ライセンス: Link先を確認
Jianxin Chen, Dawei Ding, Cupjin Huang(参考訳) ランダム化ベンチマーク(RB)は、量子演算の質を実験的に評価するための金の標準である。 現在のrbのフレームワークはグループとその表現に集中しているが、これは問題となる可能性がある。 例えば、clifford回路は最大$o(n^2)$ゲートを必要とするため、clifford rbはより大きなデバイスにスケールできない。 この対策には、線形クロスエントロピーベンチマーク(XEB)、サイクルベンチマーク、非一様RBなどの新しいスキームが含まれるが、これらはグループベースのRBフレームワークには含まれない。 本研究では,グループ構造を廃止し,回収ゲート+測定成分を一般の ‘post-processing' の POVM に置き換えた 'emph{universal randomized benchmarking (URB) framework} を定式化する。 このフレームワークは、既存のベンチマークスキームの大部分をカバーするだけでなく、新しいスキームの定式化のための言語を提供し、刺激するのに役立つ。 具体的には、 \emph{twirling schemes} と呼ばれる urb スキームのクラスを考える。 twirlingスキームでは、後処理povmはおよそ中間チャネルに分解され、マップを反転させ、最終的な測定を行う。 これにより、スキームによって特定されるゲートアンサンブルに対応するtwirlingマップを研究できる。 この回転写像が誘導ダイヤモンドノルムにおけるハール・スワーリング写像の単位距離内にあるとすると、ゲート長の関数としての計測の確率は、小さな誤差項までの指数関数的減衰である。 私たちが使用している技術ツールは、量子チャネル上の線形作用素の行列摂動理論である。

Randomized benchmarking (RB) is the gold standard for experimentally evaluating the quality of quantum operations. The current framework for RB is centered on groups and their representations, but this can be problematic. For example, Clifford circuits need up to $O(n^2)$ gates, and thus Clifford RB cannot scale to larger devices. Attempts to remedy this include new schemes such as linear cross-entropy benchmarking (XEB), cycle benchmarking, and non-uniform RB, but they do not fall within the group-based RB framework. In this work, we formulate the \emph{universal randomized benchmarking (URB) framework} which does away with the group structure and also replaces the recovery gate plus measurement component with a general ``post-processing'' POVM. Not only does this framework cover most of the existing benchmarking schemes, but it also gives the language for and helps inspire the formulation of new schemes. We specifically consider a class of URB schemes called \emph{twirling schemes}. For twirling schemes, the post-processing POVM approximately factorizes into an intermediate channel, inverting maps, and a final measurement. This leads us to study the twirling map corresponding to the gate ensemble specified by the scheme. We prove that if this twirling map is strictly within unit distance of the Haar twirling map in induced diamond norm, the probability of measurement as a function of gate length is a single exponential decay up to small error terms. The core technical tool we use is the matrix perturbation theory of linear operators on quantum channels.
翻訳日:2023-02-21 00:35:02 公開日:2022-12-20
# 量子増幅ドップラーライダー

Quantum-enhanced Doppler lidar ( http://arxiv.org/abs/2203.16424v2 )

ライセンス: Link先を確認
Maximilian Reichert, Roberto Di Candia, Moe Z. Win, Mikel Sanz(参考訳) 本研究では,圧縮および周波数絡み込み信号とアイドラービームを用いたターゲットの放射速度を推定する量子エンハンシングlidarシステムを提案する。 その性能を、同じパルス持続時間とエネルギーを持つコヒーレント状態を用いた古典的なプロトコルと比較し、量子リソースが物体の速度の推定精度を向上させることを示した。 スクイーズ量と周波数絡み合いを特徴とする3つのパラメータレジームを同定した。 2つのうち、標準量子限界を超える量子長所は光子損失を仮定して達成される。 さらに、損失のないケースにおいてこれらの結果を達成するための最適な測定は周波数分解光子計数であることを示す。 最後に,光子損失の影響について考察し,この結果から推定器の分散度が3ドル/dBを超える定数係数の量子的優位性が50ドル/%以上のラウンドトリップライダー対目標対ライダーの透過率に作用することを示した。

We propose a quantum-enhanced lidar system to estimate a target's radial velocity which employs squeezed and frequency entangled signal and idler beams. We compare its performance against a classical protocol using a coherent state with the same pulse duration and energy, showing that quantum resources provide a precision enhancement in the estimation of the velocity of the object. We identify three distinct parameter regimes characterized by the amount of squeezing and frequency entanglement. In two of them, a quantum advantage exceeding the standard quantum limit is achieved assuming no photon losses. Additionally, we show that an optimal measurement to attain these results in the lossless case is frequency-resolved photon counting. Finally, we consider the effect of photon losses for the high-squeezing regime, which leads to a constant factor quantum advantage higher than $3$ dB in the variance of the estimator, given a roundtrip lidar-to-target-to-lidar transmissivity larger than $50\%$.
翻訳日:2023-02-20 07:06:29 公開日:2022-12-20
# マスク氏のtwitter買収は、物議を醸す俳優を増加させたのか?

Did the Musk Takeover Boost Contentious Actors on Twitter? ( http://arxiv.org/abs/2212.10646v1 )

ライセンス: Link先を確認
Christopher Barrie(参考訳) Twitterは、アカウント検証とコンテンツモデレーションポリシーにリベラルな偏見があるとして非難されている。 Elon Muskは、同社の買収後、検証とモデレーションポリシーの見直しによってプラットフォーム上での言論の自由を促進することを約束した。 これらの出来事は、特に政治的権利から、論争を巻き起こす俳優の影響力の高まりを恐れた。 この記事では、11月9日から2022年11月11日までのオープンウィンドウでblue checkの認証を購入した138万のtwitterアカウントの公開リストを使っています。 政治的に批判的なアカウントのサンプルから490万のツイートを検索します。 その後、muskの買収前後の論争的なユーザー投稿のエンゲージメントを比較する。 Muskの買収以降の期間は、ポストエンゲージメントの実質的な増加が見られた。 ブルーティッチの検証以降、追加的な増加はない。 本研究は,新たな交感神経系ユーザベースによる活動増加について説明する。

Twitter has been accused of a liberal bias in its account verification and content moderation policies. Elon Musk pledged, after his acquisition of the company, to promote free speech on the platform by overhauling verification and moderation policies. These events sparked fears of a rise in influence of contentious actors -- notably from the political right. In this article, I use a publicly released list of 138k Twitter accounts that purchased blue check verification during the open window of November 9-November 11, 2022. I retrieve 4.9m tweets from a sample of politically contentious accounts. I then compare engagement on contentious user posts before and after the Musk acquisition. I find that the period following the Musk acquisition saw a substantive increase in post engagement. There is no additional increase following blue tick verification. I explain the findings with reference to an increase in activity by a newly sympathetic user base.
翻訳日:2023-02-19 13:13:59 公開日:2022-12-20
# PreFair: 公正な合成データをプライベートに生成する

PreFair: Privately Generating Justifiably Fair Synthetic Data ( http://arxiv.org/abs/2212.10310v1 )

ライセンス: Link先を確認
David Pujol, Amir Gilad, Ashwin Machanavajjhala(参考訳) データベースがディファレンシャルプライバシ(DP)によって保護されている場合、そのユーザビリティはスコープに制限される。 このシナリオでは、プライベートデータのプロパティを模倣したデータの合成バージョンを生成することにより、ユーザは、元のデータのプライバシを維持しながら、合成データの操作を実行できる。 そのため、DP合成データ生成のためのシステム開発に複数の研究が費やされている。 しかし、このようなシステムは不公平なデータの性質を保存または拡大し、使用に不適な合成データに耐えることができる。 本研究では,DP公正な合成データ生成を可能にするシステムであるPreFairを提案する。 PreFairは、公正な合成データを保証する因果フェアネス基準を組み込むことで、最先端のDPデータ生成メカニズムを拡張している。 我々は、合成データ生成シナリオに適合する正当性の概念に適応する。 さらに,DPの公正な合成データ生成の問題について検討し,その抽出性や設計アルゴリズムが一定の仮定で最適であることを示す。 また,PreFairはDPデータ生成機構が生成するデータよりもはるかに公平な合成データを生成する一方で,プライベートデータに忠実なままであることを示す,広範な実験評価を行った。

When a database is protected by Differential Privacy (DP), its usability is limited in scope. In this scenario, generating a synthetic version of the data that mimics the properties of the private data allows users to perform any operation on the synthetic data, while maintaining the privacy of the original data. Therefore, multiple works have been devoted to devising systems for DP synthetic data generation. However, such systems may preserve or even magnify properties of the data that make it unfair, endering the synthetic data unfit for use. In this work, we present PreFair, a system that allows for DP fair synthetic data generation. PreFair extends the state-of-the-art DP data generation mechanisms by incorporating a causal fairness criterion that ensures fair synthetic data. We adapt the notion of justifiable fairness to fit the synthetic data generation scenario. We further study the problem of generating DP fair synthetic data, showing its intractability and designing algorithms that are optimal under certain assumptions. We also provide an extensive experimental evaluation, showing that PreFair generates synthetic data that is significantly fairer than the data generated by leading DP data generation mechanisms, while remaining faithful to the private data.
翻訳日:2023-02-19 13:13:45 公開日:2022-12-20
# データを経済的善として考える:データガバナンスについて教えられるもの(そうでないもの)

Thinking of data as an economic good: what it can (not) teach us about data governance ( http://arxiv.org/abs/2212.10244v1 )

ライセンス: Link先を確認
Nadezhda Purtova and Gijs van Maanen(参考訳) 本稿では,データに関する経済文献を経済財として体系的かつ批判的にレビューし,そのレビューに基づいてデータガバナンスの教訓を引き出す。 我々は、ガバナンスの取り組みにおける経済的善としてのデータの重視は、より多くのデータ生産をもたらすだけで、文献や政策でしばしば主張されるものと逆らって、他の社会的目標を達成できないと結論付けている。 データガバナンスは、しばしば他のデジタル問題に気を散らす赤いひもです。 デジタル社会のガバナンスは、データ中心の経済モデルにのみ依存することはできない。 代わりに、ガバナンス問題に対するエコロジー的思考と、問題をフレーミングし、それらのエコロジー的構成をマッピングするという政治的性質の認識によって定義される、デジタル社会を統治する政治生態学的アプローチを提案する。

This paper provides a systematic and critical review of the economics literature on data as an economic good and draws lessons for data governance based on that review. We conclude that focusing on data as an economic good in governance efforts is hardwired to only result in more data production and cannot deliver other societal goals contrary to what is often claimed in the literature and policy. Data governance is often a red herring which distracts from other digital problems. The governance of digital society cannot rely exclusively on data-centric economic models. Instead, we propose a political-ecological approach to governing the digital society, defined by ecological thinking about governance problems and the awareness of the political nature of framing the problems and mapping their ecological makeup.
翻訳日:2023-02-19 13:13:27 公開日:2022-12-20
# 保護された属性は、どのように行動が教えてくれるかを教えてくれる:公平な学生成功モデルのための人口統計と行動オーバーサンプリングの比較

Protected Attributes Tell Us Who, Behavior Tells Us How: A Comparison of Demographic and Behavioral Oversampling for Fair Student Success Modeling ( http://arxiv.org/abs/2212.10166v1 )

ライセンス: Link先を確認
Jade Ma\"i Cock, Muhammad Bilal, Richard Davis, Mirko Marras, Tanja K\"aser(参考訳) 教育に配備されたアルゴリズムは、学生の学習経験と成功を形作ることができる。 したがって、そのようなアルゴリズムが不等式を生み出したり、既存のバイアスを増幅するかどうかを理解することが重要である。 本稿では,行動データを用いて生徒を識別するモデルの公平性を分析し,バイアス緩和のための2つの新しい前処理手法を提案する。 交差性の概念に基づいて、第一のアプローチは、人口統計特性の組み合わせによるインテリジェントなオーバーサンプリングである。 第二のアプローチは、人口統計特性の知識を一切必要とせず、そのような属性が学生の行動の(うるさい)プロキシであるという仮定に基づいている。 したがって、クラスタ分析で識別される異なる種類の振る舞いを直接オーバーサンプリングする提案を行う。 私たちはデータに対するアプローチを評価し (i)開放的な学習環境、及び (ii)ひっくり返した教室。 その結果,どちらのアプローチもモデルのバイアスを軽減できることがわかった。 人口統計学的メタデータが利用できない場合、振る舞いのオーバーサンプリングは価値ある代替手段である。 ソースコードと拡張結果はhttps://github.com/epfl-ml4ed/behavioral-oversampling}{https://github.com/epfl-ml4ed/behavioral-oversampling で提供されている。

Algorithms deployed in education can shape the learning experience and success of a student. It is therefore important to understand whether and how such algorithms might create inequalities or amplify existing biases. In this paper, we analyze the fairness of models which use behavioral data to identify at-risk students and suggest two novel pre-processing approaches for bias mitigation. Based on the concept of intersectionality, the first approach involves intelligent oversampling on combinations of demographic attributes. The second approach does not require any knowledge of demographic attributes and is based on the assumption that such attributes are a (noisy) proxy for student behavior. We hence propose to directly oversample different types of behaviors identified in a cluster analysis. We evaluate our approaches on data from (i) an open-ended learning environment and (ii) a flipped classroom course. Our results show that both approaches can mitigate model bias. Directly oversampling on behavior is a valuable alternative, when demographic metadata is not available. Source code and extended results are provided in https://github.com/epfl-ml4ed/behavioral-oversampling}{https://github.com/epfl-ml4ed/behavioral-oversampling .
翻訳日:2023-02-19 13:13:12 公開日:2022-12-20
# 調査実験による議論に基づく意見力学の検証

Validating argument-based opinion dynamics with survey experiments ( http://arxiv.org/abs/2212.10143v1 )

ライセンス: Link先を確認
Sven Banisch and Hawal Shamon(参考訳) モデルの実証的な検証は、意見のダイナミクスにおける最も重要な課題の1つです。 本稿では,調査実験データと意見形成の計算モデルを組み合わせた最近の研究について報告する。 我々は、偏り処理が原則となる意見力学のための議論ベースモデルの実証検証に関する以前の研究を拡張した。 これまでの研究では,議論による意見変化に関する実験データを用いて,マイクロメカニズムの校正に重点を置いてきたが,本研究では,調査実験で収集した経験的データを用いてマクロレベルの妥当性を検証した。 この目的のために、議論モデルはバランスの取れた情報の外部ソースによって拡張され、他のノイズのあるプロセスと比較してピア影響プロセスの影響を制御できる。 その結果,調査対象の意見分布はパラメータ空間内の特定の領域において高い精度で一致し,社会的影響と外部騒音の影響が等しいことが示された。 さらに重要なことに、マクロデータに対するバイアス処理の推定強度は、マイクロレベルで高い可能性を達成するこれらの値と互換性がある。 この論文の主な貢献は、拡張された議論ベースモデルが、議論によって引き起こされる態度変化のマイクロプロセスからマクロレベルの意見分布への固い橋渡しとなることを示すことである。 さらに、議論に基づくモデルの開発を概観し、モデル結果の自動分類のための新しい方法を提案する。

The empirical validation of models remains one of the most important challenges in opinion dynamics. In this contribution, we report on recent developments on combining data from survey experiments with computational models of opinion formation. We extend previous work on the empirical validation of an argument-based model for opinion dynamics in which biased processing is the principle mechanism. While previous work has focused on calibrating the micro mechanism with experimental data on argument-induced opinion change, this paper concentrates on macro-level validity using the empirical data gathered in the survey experiment. For this purpose, the argument model is extended by an external source of balanced information which allows to control for the impact of peer influence processes relative to other noisy processes. We show that surveyed opinion distributions are matched with a high level of accuracy in a specific region in the parameter space, indicating an equal impact of social influence and external noise. More importantly, the estimated strength of biased processing given the macro data is compatible with those values that achieve high likelihood at the micro level. The main contribution of the paper is hence to show that the extended argument-based model provides a solid bridge from the micro processes of argument-induced attitude change to macro level opinion distributions. Beyond that, we review the development of argument-based models and present a new method for the automated classification of model outcomes.
翻訳日:2023-02-19 13:12:51 公開日:2022-12-20
# 神経疾患の物語的可視化

Narrative Visualization to Communicate Neurological Diseases ( http://arxiv.org/abs/2212.10121v1 )

ライセンス: Link先を確認
Sarah Mittenentzwei, Veronika Wei{\ss}, Stefanie Schreiber, Laura A. Garrison, Stefan Bruckner, Malte Pfister, Bernhard Preim, and Monique Meuschke(参考訳) 物語の可視化は、様々な応用において、物語の形式で科学的なデータを一般の聴衆に伝えるために使われてきたが、医学的なデータには当てはまらない。 非専門家に表型医療データを提示する例外はわずかである。 しかし、医学的視覚化の重要な要素は、解剖学的構造の3dモデルのような3dデータのインタラクティブな分析である。 本研究では,脳神経疾患データを可視化技術を用いて,一般の聴衆に理解可能な方法で伝達する方法を検討する。 脳血管疾患を説明する物語の可視化をデザインした。 避けられるリスク要因について学ぶことは、結果のビジュアルデータストーリーを見る観客を動機付けるのに役立つ。 この例を用いて,基本的物語成分の適応について論じる。 これには、ストーリーの競合やキャラクター、ストーリーの構造や内容が含まれ、医療データの特定の特徴に対処し、伝達する。 さらに,基礎となるデータやエビデンスを歪ませることなく,一般のオーディエンスが理解できるように,複雑な医療関係を単純化する必要性について検討する。 特に、非専門家のための事前処理が必要であり、適切なインタラクション形式を見出す必要がある。 我々は、架空の患者を含め、データをより個人的に再利用可能にするアプローチを探求する。 デザインストーリーのWebベース実装において,40名の参加者によるユーザスタディにおいて,我々のアプローチを評価した。 注意深い考察と明確なメッセージの組み合わせ、魅力的な視覚化と使いやすいインタラクションの組み合わせ、そして信頼できる参照の組み合わせは、オーディエンスを対象とする神経疾患に関する物語の可視化に不可欠であることがわかった。

While narrative visualization has been used successfully in various applications to communicate scientific data in the format of a story to a general audience, the same has not been true for medical data. There are only a few exceptions that present tabular medical data to non-experts. However, a key component of medical visualization is the interactive analysis of 3D data, such as 3D models of anatomical structures, which were rarely included in narrative visualizations so far. In this design study, we investigate how neurological disease data can be communicated through narrative visualization techniques to a general audience in an understandable way. We designed a narrative visualization explaining cerebral small vessel disease. Learning about its avoidable risk factors serves to motivate the audience watching the resulting visual data story. Using this example, we discuss the adaption of basic narrative components. This includes the conflict and characters of a story, as well as the story's structure and content to address and communicate specific characteristics of medical data. Furthermore, we explore the extent to which complex medical relationships need to be simplified to be understandable to a general audience without distorting the underlying data and evidence. In particular, the data needs to be preprocessed for non-experts and appropriate forms of interaction must be found. We explore approaches to make the data more personally relatable, such as including a fictional patient. We evaluated our approach in a user study with 40 participants in a web-based implementation of the designed story. We found that the combination of a carefully thought-out storyline with a clear key message, appealing visualizations combined with easy-to-use interactions, and credible references are crucial for creating a narrative visualization about a neurological disease that engages an audience.
翻訳日:2023-02-19 13:12:32 公開日:2022-12-20
# バイアス処理と意見分極--エネルギー討論の文脈における議論コミュニケーション理論の実験的洗練

Biased processing and opinion polarization: experimental refinement of argument communication theory in the context of the energy debate ( http://arxiv.org/abs/2212.10117v1 )

ライセンス: Link先を確認
Sven Banisch and Hawal Shamon(参考訳) 社会学的研究において、意見分極のようなマクロ過程の研究は、いわゆるマイクロマクロ問題と呼ばれる根本的な問題に直面している。 この問題を克服するために、偏りの議論における偏りの処理の役割を明らかにするために、偏りの議論処理に関する実証実験と群論の計算理論を組み合わせる。 この実験は、現在の態度に合致した議論をもっと説得力強く考える傾向を示し、反対意見を下げる傾向を示している。 これは、ある話題について議論を交わし、それに応じて意見を調整する議論コミュニケーション理論の枠組みに統合される。 特定の実験条件を考慮すれば,バイアス処理の強度と期待姿勢の変化を関連付ける数学的モデルが導出され,適度なバイアス処理の明確な特徴を見出すことができる。 さらに, このモデルは, 従来モデルの中立な引数処理仮定よりも, 実験的に観察された姿勢変化に適合することを示した。 このアプローチはバイアス処理と意見分極の関係について新たな洞察を与える。 個人レベルで分析すると、姿勢のモデレーションから偏光への鋭い質的変化が明らかになる。 集団レベルでは、弱いバイアス処理がグループ決定プロセスを著しく加速するのに対し、(ii)強いバイアス処理は、部分群分極の永続的な競合状態をもたらす。 これは偏光の発生には偏光処理だけで十分であることを示しているが、ホモフィリーは偏光処理のかなり低い速度でグループ内衝突を引き起こすことも示している。

In sociological research, the study of macro processes, such as opinion polarization, faces a fundamental problem, the so-called micro-macro problem. To overcome this problem, we combine empirical experimental research on biased argument processing with a computational theory of group deliberation in order to clarify the role of biased processing in debates around energy. The experiment reveals a strong tendency to consider arguments aligned with the current attitude more persuasive and to downgrade those speaking against it. This is integrated into the framework of argument communication theory in which agents exchange arguments about a certain topic and adapt opinions accordingly. We derive a mathematical model that allows to relate the strength of biased processing to expected attitude changes given the specific experimental conditions and find a clear signature of moderate biased processing. We further show that this model fits significantly better to the experimentally observed attitude changes than the neutral argument processing assumption made in previous models. Our approach provides new insight into the relationship between biased processing and opinion polarization. At the individual level our analysis reveals a sharp qualitative transition from attitude moderation to polarization. At the collective level we find (i.) that weak biased processing significantly accelerates group decision processes whereas (ii.) strong biased processing leads to a persistent conflictual state of subgroup polarization. While this shows that biased processing alone is sufficient for the emergence of polarization, we also demonstrate that homophily may lead to intra-group conflict at significantly lower rates of biased processing.
翻訳日:2023-02-19 13:11:45 公開日:2022-12-20
# MEMEとは何か? ミームにおける視覚的意味的役割ラベリングのための説明の生成

What do you MEME? Generating Explanations for Visual Semantic Role Labelling in Memes ( http://arxiv.org/abs/2212.00715v2 )

ライセンス: Link先を確認
Shivam Sharma, Siddhant Agarwal, Tharun Suresh, Preslav Nakov, Md. Shad Akhtar, Tanmoy Chakraborty(参考訳) ミームはソーシャルメディア上で効果的なコミュニケーションのための強力な手段である。 バイラルなビジュアルと魅力的なメッセージの融合は、適切なマーケティングに大きく影響する可能性がある。 ミームに関するこれまでの研究は、彼らの感情的なスペクトルの特徴付けと、ミームのメッセージが、憎しみ、犯罪、人種差別など、意図した損害を与えるかどうかの検出に重点を置いてきた。 しかし、ミームはしばしば抽象的(抽象的)を使う。 ここでは,ミームにおける視覚的意味的役割ラベリングのための説明を生成する新しいタスクについて紹介する。 この目的のために,3Kミームに存在する4,680個のエンティティを含む3種類のエンティティ(ヒーロー,悪役,被害者)について,意味的役割を自然言語で説明する新しいデータセットであるExHVをキュレートする。 また、ExHVVをいくつかの強力な単モーダルおよびマルチモーダルベースラインでベンチマークする。 さらに, 適切な意味的役割を予測し, 適切な自然言語説明を生成するために, 協調学習により, 最適な評価に最善を尽くす, 新たなマルチモーダルマルチタスク学習フレームワーク lumen を提案する。 LUMENは18の標準自然言語生成評価指標で明らかに最高のベースラインを上回っている。 体系的な評価と分析により,意味的役割を判断するのに必要な特徴的マルチモーダル手がかりが,適切な説明を生成するのに有用であることが示された。

Memes are powerful means for effective communication on social media. Their effortless amalgamation of viral visuals and compelling messages can have far-reaching implications with proper marketing. Previous research on memes has primarily focused on characterizing their affective spectrum and detecting whether the meme's message insinuates any intended harm, such as hate, offense, racism, etc. However, memes often use abstraction, which can be elusive. Here, we introduce a novel task - EXCLAIM, generating explanations for visual semantic role labeling in memes. To this end, we curate ExHVV, a novel dataset that offers natural language explanations of connotative roles for three types of entities - heroes, villains, and victims, encompassing 4,680 entities present in 3K memes. We also benchmark ExHVV with several strong unimodal and multimodal baselines. Moreover, we posit LUMEN, a novel multimodal, multi-task learning framework that endeavors to address EXCLAIM optimally by jointly learning to predict the correct semantic roles and correspondingly to generate suitable natural language explanations. LUMEN distinctly outperforms the best baseline across 18 standard natural language generation evaluation metrics. Our systematic evaluation and analyses demonstrate that characteristic multimodal cues required for adjudicating semantic roles are also helpful for generating suitable explanations.
翻訳日:2023-02-19 12:46:19 公開日:2022-12-20
# EPA 粒子状物質データ ローカル制御戦略を用いた分析

EPA Particulate Matter Data -- Analyses using Local Control Strategy ( http://arxiv.org/abs/2209.05461v3 )

ライセンス: Link先を確認
Robert L. Obenchain and S. Stanley Young(参考訳) 横断観測データの大規模な収集を統計的に解析する手法は, 提案手法が非パラメトリックかつ教師なしである場合に有効である。 我々は,2016年の米国環境疫学データに対して,自由に利用可能なnu学習手法を応用した。 PM2.5粒子状物質中の二次有機エアロゾル(主に生物起源または人為起源の揮発性有機化合物)の循環および/または呼吸死に対する潜在的影響について、他の研究者がこれらのデータをダウンロードし、必要な方法論を適用することを奨励する。 本研究は,「空気中生起性粒子状物質が比較的高い地域は,比較的循環性および/または呼吸性死亡率が高いと期待されているか?」という問いに焦点をあてた。

Statistical Learning methodology for analysis of large collections of cross-sectional observational data can be most effective when the approach used is both Nonparametric and Unsupervised. We illustrate use of our NU Learning approach on 2016 US environmental epidemiology data that we have made freely available. We encourage other researchers to download these data, apply whatever methodology they wish, and contribute to development of a broad-based ``consensus view'' of potential effects of Secondary Organic Aerosols (volatile organic compounds of predominantly biogenic or anthropogenic origin) within PM2.5 particulate matter on circulatory and/or respiratory mortality. Our analyses here focus on the question: ``Are regions with relatively high air-borne biogenic particulate matter also expected to have relatively high circulatory and/or respiratory mortality?''
翻訳日:2023-02-19 11:07:19 公開日:2022-12-20
# 地球回転縁走査による2光子干渉計のアストロメトリ

Astrometry in two-photon interferometry using Earth rotation fringe scan ( http://arxiv.org/abs/2205.09091v3 )

ライセンス: Link先を確認
Zhi Chen, Andrei Nomerotski, An\v{z}e Slosar, Paul Stankus, Stephen Vintskevich(参考訳) 光干渉計はステーション間の位相安定な光リンクを必要とせず、代わりに量子力学的に絡み合ったペアの源を提供することができ、長いベースラインを可能にする。 我々は、このアイデアの新たなバリエーションを開発し、2つの異なる天文源からの光子を2つの分離したステーションで妨害することができることを提唱した。 干渉生成物は後処理で計算したり、ステーション間の遅い古典的な接続しか必要としない。 本研究では,本手法の実現可能性について検討した。 本研究では,地球回転縞走査法のベイズ解析法を開発し,高信号対雑音比の限界において単純なフィッシャー行列解析の結果を再現した。 本手法を適用可能な北半球の候補階段対を同定した。 効果的な収集面積が$\sim 2$ m$^2$の2つの望遠鏡では、過去の推定値と一致する数時間の観測で、フレーミングを検知し、ソースの天文的分離を$\sim 10\,\mu$asの精度で測定することができた。

Optical interferometers may not require a phase-stable optical link between the stations if instead sources of quantum-mechanically entangled pairs could be provided to them, enabling long baselines. We developed a new variation of this idea, proposing that photons from two different astronomical sources could be interfered at two decoupled stations. Interference products can then be calculated in post-processing or requiring only a slow, classical connection between stations. In this work, we investigated practical feasibility of this approach. We developed a Bayesian analysis method for the earth rotation fringe scanning technique and showed that in the limit of high signal-to-noise ratio it reproduced the results from a simple Fisher matrix analysis. We identify candidate stair pairs in the northern hemisphere, where this technique could be applied. With two telescopes with an effective collecting area of $\sim 2$ m$^2$, we could detect fringing and measure the astrometric separation of the sources at $\sim 10\,\mu$as precision in a few hours of observations, in agreement with previous estimates.
翻訳日:2023-02-12 18:03:47 公開日:2022-12-20
# 断熱的Rydbergドレッシングによる中性原子の絡み合い

Neutral atom entanglement using adiabatic Rydberg dressing ( http://arxiv.org/abs/2205.12866v3 )

ライセンス: Link先を確認
Anupam Mitra, Sivaprasad Omanakuttan, Michael J. Martin, Grant W. Biedermann, Ivan H. Deutsch(参考訳) 我々は[Phys. Rev. A 101, 030301 (R) (2020)] で研究されたように, 中性原子の断熱的ドレッシングパラダイムを用いた2量子エンタングゲート M{\o}lmer-S{\o}rensen ゲートの実装を再検討する。 超紫外レーザーの使用を必要としない2光子遷移を用いた急速断熱路の実現について検討し、全てのレーザ周波数を固定した1フィールドの振幅変調のみを用いて実装可能である。 1光子励起に匹敵する絡み合ったゲートフィディティは、2光子励起と実現可能であることが判明した。 さらに, 断熱ドレッシングプロトコルを用いて, 完全なライドバーグ封鎖体制の外部へのゲートの絡み込みを実装する方法についても検討した。 断熱ドレッシングを用いることで,2つの励起されたRydberg状態の限られた人口を維持しながら,Rydberg相互作用によって生じる絡み合いに対する基本的な制限によって設定されたゲート忠実度のスケーリングを実現することができることを示す。 これにより、封鎖半径を超えて分離された原子の高速高忠実性ゲートが可能になる。

We revisit the implementation of a two-qubit entangling gate, the M{\o}lmer-S{\o}rensen gate, using the adiabatic Rydberg dressing paradigm for neutral atoms as studied in [Phys. Rev. A 101, 030301 (R) (2020)]. We study the implementation of rapid adiabatic passage using a two-photon transition, which does not require the use of an ultra-violet laser, and can be implemented using only amplitude modulation of one field with all laser frequencies fixed. We find that entangling gate fidelities, comparable to the one-photon excitation, are achievable with the two-photon excitation. Moreover, we address how the adiabatic dressing protocol can be used to implement entangling gates outside the regime of a perfect Rydberg blockade. We show that using adiabatic dressing we can achieve scaling of gate fidelity set by the fundamental limits to entanglement generated by the Rydberg interactions while simultaneously retaining a limited population in the doubly-excited Rydberg state. This allows for fast high fidelity gates for atoms separated beyond the blockade radius.
翻訳日:2023-02-11 19:15:32 公開日:2022-12-20
# 連続時間量子ウォークによる頂点とエッジの歩行

Walking on Vertices and Edges by Continuous-Time Quantum Walk ( http://arxiv.org/abs/2206.03375v3 )

ライセンス: Link先を確認
Caue F. T. Silva, Daniel Posner, and Renato Portugal(参考訳) 量子ウォーク力学は、量子力学の法則に従って局所性制約を課し、進化作用素が局所的であることを要求する。 通常、ハミルトニアンはグラフの隣接行列またはラプラシアン行列と、頂点から隣接する頂点へのウォーカーホップから得られる。 本研究では,連続時間量子ウォークのバージョンを定義し,ウォーカーが頂点からエッジへ跳躍し,その逆も可能とした。 本研究では,標準連続時間量子ウォークモデルと類似した,マークされた頂点やマークされたエッジの位置に依存する余分な項でハミルトニアンの新しいバージョンを変更することにより,完全二部グラフ上の空間探索アルゴリズムを分析する。 頂点または辺を見つけるのに最適な実行時間は、成功確率1-o(1)$で$o(\sqrt{n_e})$であり、ここで$n_e$は完全二成分グラフの辺の数である。

The quantum walk dynamics obey the laws of quantum mechanics with an extra locality constraint, which demands that the evolution operator is local in the sense that the walker must visit the neighboring locations before endeavoring to distant places. Usually, the Hamiltonian is obtained from either the adjacency or the laplacian matrix of the graph and the walker hops from vertices to neighboring vertices. In this work, we define a version of the continuous-time quantum walk that allows the walker to hop from vertices to edges and vice versa. As an application, we analyze the spatial search algorithm on the complete bipartite graph by modifying the new version of the Hamiltonian with an extra term that depends on the location of the marked vertex or marked edge, similar to what is done in the standard continuous-time quantum walk model. We show that the optimal running time to find either a vertex or an edge is $O(\sqrt{N_e})$ with success probability $1-o(1)$, where $N_e$ is the number of edges of the complete bipartite graph.
翻訳日:2023-02-10 06:46:05 公開日:2022-12-20
# 位相量子計算のためのMajoranaナノワイヤ

Majorana nanowires for topological quantum computation ( http://arxiv.org/abs/2206.14828v3 )

ライセンス: Link先を確認
Pasquale Marra(参考訳) マヨラナ境界状態は、位相的に非自明な超伝導体の境界に局在した準粒子励起である。 これらはゼロエネルギー、電荷ニュートラル、粒子ホール対称性、および超伝導状態の粒子ホール対称性によって位相的に保護される空間分離端モードである。 トポロジカルな性質のため、局所的な摂動に対して頑丈であり、理想的な環境ではデコヒーレンスがない。 さらに、通常のフェルミオンやボソンとは異なり、マヨラナモードの断熱的な交換は非可換であり、2つ以上のマヨラナモードの交換の結果は交換が行われる順序に依存する。 これらの性質は、トポロジカル量子コンピュータの実現に理想的な候補となる。 このチュートリアルでは、量子ナノワイヤにおける1次元超伝導体とマヨラナモードの教育的レビューを行う。 キタエフモデルとより現実的なオレグ・ルチンモデルの概要を述べ、マヨラナモードの実験的なシグネチャを議論し、トポロジカル量子計算の分野におけるそれらの関連性を強調する。 このチュートリアルは、大学院生や新入生のための教育的かつ比較的自己完結的な紹介や、この分野の現在の技術の概要、専門家へのリファレンスガイドとして機能する。

Majorana bound states are quasiparticle excitations localized at the boundaries of a topologically nontrivial superconductor. They are zero-energy, charge-neutral, particle-hole symmetric, and spatially-separated end modes which are topologically protected by the particle-hole symmetry of the superconducting state. Due to their topological nature, they are robust against local perturbations and, in an ideal environment, free from decoherence. Furthermore, unlike ordinary fermions and bosons, the adiabatic exchange of Majorana modes is noncommutative, i.e., the outcome of exchanging two or more Majorana modes depends on the order in which exchanges are performed. These properties make them ideal candidates for the realization of topological quantum computers. In this tutorial, I will present a pedagogical review of 1D topological superconductors and Majorana modes in quantum nanowires. I will give an overview of the Kitaev model and the more realistic Oreg-Lutchyn model, discuss the experimental signatures of Majorana modes, and highlight their relevance in the field of topological quantum computation. This tutorial may serve as a pedagogical and relatively self-contained introduction for graduate students and researchers new to the field, as well as an overview of the current state-of-the-art of the field and a reference guide to specialists.
翻訳日:2023-02-07 07:20:15 公開日:2022-12-20
# 集束ニュートリノ振動のトラップイオン量子シミュレーション

Trapped-Ion Quantum Simulation of Collective Neutrino Oscillations ( http://arxiv.org/abs/2207.03189v2 )

ライセンス: Link先を確認
Valentina Amitrano, Alessandro Roggero, Piero Luchi, Francesco Turro, Luca Vespucci, Francesco Pederiva(参考訳) 極超物理環境におけるニュートリノのフレーバーは、真空振動、周囲の物質との相互作用、異なるニュートリノ間の相互作用による集合振動の3つの寄与によって変化することが知られている。 後者は運動方程式に非線形的な寄与を加え、それらの力学の記述を複雑にする。 本研究では,nニュートリノ系のコヒーレント集団振動を量子計算を用いて2相近似でシミュレートする手法について検討する。 これは、ニュートリノ-ニュートリノ項の存在下でフレーバーハミルトニアンが全対全相互作用を示し、進化の実装がキュービット位相に依存するという事実を説明するために設計されたペアニュートリノ分解を用いて達成された。 本稿では, 時間発展の複雑さがニュートリノ数と多項式的にスケールすること, 量子回路分解の最適化と全量子接続の活用により, 短期量子デバイスシミュレーションからのノイズを低減できることを示す分解によるトロッター誤差を分析する。 2次トロッタースズキ公式を用いたゲートの複雑さは、量子信号処理などの他の分解方法よりもシステムサイズに優れていた。 最後に,本アルゴリズムの応用と結果について,トラップイオン量子ビットに基づく実量子デバイス上で提示する。

It is well known that the neutrino flavor in extreme astrophysical environments changes under the effect of three contributions: the vacuum oscillation, the interaction with the surrounding matter, and the collective oscillations due to interactions between different neutrinos. The latter adds a non-linear contribution to the equations of motion, making the description of their dynamics complex. In this work we study various strategies to simulate the coherent collective oscillations of a system of N neutrinos in the two-flavor approximation using quantum computation. This was achieved by using a pair-neutrino decomposition designed to account for the fact that the flavor Hamiltonian, in the presence of the neutrino-neutrino term, presents an all-to-all interaction that makes the implementation of the evolution dependent on the qubit topology. We analyze the Trotter error caused by the decomposition demonstrating that the complexity of the implementation of time evolution scales polynomially with the number of neutrinos and that the noisy from near-term quantum device simulation can be reduced by optimizing the quantum circuit decomposition and exploiting a full-qubit connectivity. We find that the gate complexity using second order Trotter-Suzuki formulae scales better with system size than with other decomposition methods such as Quantum Signal Processing. We finally present the application and the results of our algorithm on a real quantum device based on trapped-ions qubits.
翻訳日:2023-02-06 07:18:29 公開日:2022-12-20
# キューディット量子空間と量子波門の波動-粒子双対性

The wave-particle duality of the qudit quantum space and the quantum wave gates ( http://arxiv.org/abs/2207.05213v2 )

ライセンス: Link先を確認
Zixuan Hu and Sabre Kais(参考訳) 3つの核となるアイデアを提案しました 1. キューディット量子空間の波動-粒子双対性 2. 順序対のキューディ関数によるすべての基本量子ゲートの分類 3.「量子ウェーブゲート」と呼ばれる新しいタイプの量子ゲート。 まず、量子状態との関係が基本量子物理学における運動量と位置波動関数の関係に類似する量子汎函数について研究する:フーリエ変換とエントロピーの不確実性原理は双対表現の間で定義される。 量子汎関数は数学的構成ではなく、明確な物理的意味と量子回路実現を持つ。 クディット汎関数の分割解釈と量子ゲートの効果を結びつけ、すべての初等量子ゲートをクディット汎関数の順序対で分類する。 量子汎関数を量子汎関数に一般化することで、新しいタイプの量子波動ゲートは従来の量子ゲートの量子バージョンとして発見される。

We propose three core ideas: 1. the wave-particle duality of the qudit quantum space; 2. the classification of all elementary quantum gates by ordered pairs of qudit functionals; 3. a new type of quantum gates called the "quantum wave gates". We first study the quantum functionals whose relation to the quantum states is analogous to that between the momentum and position wavefunctions in fundamental quantum physics: a Fourier transform and an entropic uncertainty principle can be defined between the dual representations. The quantum functionals are not just mathematical constructs but have clear physical meanings and quantum circuit realizations. Connecting the partition interpretation of the qudit functionals to the effects of quantum gates we classify all elementary quantum gates by ordered pairs of qudit functionals. By generalizing the qudit functionals to quantum functionals, the new type of "quantum wave gates" are discovered as quantum versions of the conventional quantum gates.
翻訳日:2023-02-05 12:05:17 公開日:2022-12-20
# Dice-Haldaneモデルにおける非ハーモニティ誘導例外点と皮膚効果

Non-Hermiticity induced Exceptional Points and Skin Effect in the Dice-Haldane Model ( http://arxiv.org/abs/2207.14612v3 )

ライセンス: Link先を確認
Ronika Sarkar, Arka Bandyopadhyay, Awadhesh Narayan(参考訳) トポロジーと非hermiticityの相互作用は、多種多様なシステムにおいて多様でエキサイティングな表現を生み出した。 本研究では,ダイス格子上のチャーン絶縁ハルダンモデルにおける非ヘルミティシティの役割を体系的に検討する。 非分散フラットバンドが存在するため、ディス=ハルダンモデルはチャーン数 $\pm 2$ に対応する非自明な位相をもつ位相図をホストする。 このモデルに非エルミキシー性を導入するには、バランスのとれた非エルミキアン利得と損失、そして一方向の非反向ホッピングの2つの方法がある。 これら二つの非エルミーティ性は、位数3の高階例外点を誘導する。 位相剛性とそのスケーリングを用いて、これらの高次の例外点の存在と順序を実証する。 さらに,これらの例外点をパラメータ空間内で同定し,同定するための位相図を構築する。 非ヘルミティック性は有限サイズの格子に対してさらに興味深い結果をもたらす。 バランスの取れた利得と損失とは異なり、非相反ホッピングの場合、周期境界条件下で最近傍のダイス格子系は複素平面内の有限の非零スペクトル領域に対応する。 これは開境界条件が呼び出されると非エルミート皮膚効果として現れる。 ディース・ハルダン格子モデルのより一般的な場合、非エルミート皮膚効果は、利得と損失の両方または非相反性によって引き起こされる。 興味深いことに、固有状態の局在の方向は非ハーミティティーの性質と強さに依存する。 我々は,状態の局所密度,逆参加率,エッジ確率を用いて皮膚効果の発生を確立し,その障害に対する堅牢性を示す。 結果は,非エルミート物理学を探求するためのエキサイティングなプラットフォームとして,サイス・ハルダンモデルを用いる。

The interplay of topology and non-Hermiticity has led to diverse, exciting manifestations in a plethora of systems. In this work, we systematically investigate the role of non-Hermiticity in the Chern insulating Haldane model on a dice lattice. Due to the presence of a non-dispersive flat band, the dice-Haldane model hosts a topologically rich phase diagram with the non-trivial phases accommodating Chern numbers $\pm 2$. We introduce non-Hermiticity into this model in two ways -- through balanced non-Hermitian gain and loss, and by non-reciprocal hopping in one direction. Both these types of non-Hermiticity induce higher-order exceptional points of order three. We substantiate the presence and the order of these higher-order exceptional points using the phase rigidity and its scaling. Further, we construct a phase diagram to identify and locate the occurrence of these exceptional points in the parameter space. Non-Hermiticity has yet more interesting consequences on a finite-sized lattice. Unlike for balanced gain and loss, in the case of non-reciprocal hopping, the nearest-neighbour dice lattice system under periodic boundary conditions accommodates a finite, non-zero spectral area in the complex plane. This manifests as the non-Hermitian skin effect when open boundary conditions are invoked. In the more general case of the dice-Haldane lattice model, the non-Hermitian skin effect can be caused by both gain and loss or non-reciprocity. Fascinatingly, the direction of localization of the eigenstates depends on the nature and strength of the non-Hermiticity. We establish the occurrence of the skin effect using the local density of states, inverse participation ratio and the edge probability, and demonstrate its robustness to disorder. Our results place the dice-Haldane model as an exciting platform to explore non-Hermitian physics.
翻訳日:2023-02-03 02:26:52 公開日:2022-12-20
# 二層FeSeとFe基超格子

Twisted-bilayer FeSe and the Fe-based superlattices ( http://arxiv.org/abs/2208.11142v2 )

ライセンス: Link先を確認
P. Myles Eugenio and Oskar Vafek(参考訳) fe-カルコゲナイド単分子層からなる超格子ヘテロ構造のバンドのbm様連続体モデルを導出する: (${\bf\text i}$) 外部周期ポテンシャルを持つ単一単分子層と、長距離moireトンネルを持つ(${\bf\text ii}$)ツイスト二分子層である。 層間moireトンネルの対称性は、$\gamma$ と $m$ の両方の高対称性点に対して与えられる。 本稿では,\gamma$を中心とするホールバンド・マキシマから形成されるmoireバンドに着目し,時間反転対称性を破ることなく,c=0$ または $\pm 1$ の位相量子数を持つmoireバンドの可能性を示す。 c=0$ 領域では、$\theta\rightarrow 0$(および${\bf\text i}$ に対する大きな超格子周期の限界も同様)、系は2次元調和振動子の正方格子となる。 モデルをFeSeに適合させ、調整可能な相互作用強度を持つ正方形Hubbardモデルのシミュレーションのための実行可能なプラットフォームであると主張する。

We derive BM-like continuum models for the bands of superlattice heterostructures formed out of Fe-chalcogenide monolayers: (${\bf\text I}$) a single monolayer experiencing an external periodic potential, and (${\bf\text II}$) twisted bilayers with long-range moire tunneling. A symmetry derivation for the inter-layer moire tunnelling is provided for both the $\Gamma$ and $M$ high-symmetry points. In this paper, we focus on moire bands formed from hole-band maxima centered on $\Gamma$, and show the possibility of moire bands with $C=0$ or $\pm 1$ topological quantum numbers without breaking time-reversal symmetry. In the $C=0$ region for $\theta\rightarrow 0$ (and similarly in the limit of large superlattice period for ${\bf\text I}$), the system becomes a square lattice of 2D harmonic oscillators. We fit our model to FeSe and argue that it is a viable platform for the simulation of the square Hubbard model with tunable interaction strength.
翻訳日:2023-01-30 02:18:07 公開日:2022-12-20
# 絡み合う状態における幾何学的位相とバーズ距離の関係

Connection between the Geometric phase and the Bures distance for entangled states ( http://arxiv.org/abs/2208.14021v2 )

ライセンス: Link先を確認
M. E. Tunalioglu, H. O. Cildiroglu and A. U. Yilmazer(参考訳) 干渉計の2つの別々のアームによって散乱された一対の絡み合った粒子のスピン測定の異なるハイブリッド装置における相関関係について検討した。 幾何相が初期二部体状態にどのように影響するかを明らかにするために、共起、形成の絡み合い、量子忠実度、バーズ距離の概念が用いられる。

Correlation relations for the spin measurements on a pair of entangled particles scattered by the two separate arms of the interferometers in hybrid setups of different types are investigated. Concepts of concurrence, entanglement of formation, quantum fidelity, Bures distance are used to clarify how the geometric phase affects the initial bipartite state.
翻訳日:2023-01-28 12:10:49 公開日:2022-12-20
# 量子クロスエントロピーに基づく非平衡情報生産のジャジンスキー的平等

Jarzynski-like Equality of Nonequilibrium Information Production Based on Quantum Cross Entropy ( http://arxiv.org/abs/2209.01761v2 )

ライセンス: Link先を確認
Akira Sone and Naoki Yamamoto and Tharon Holdsworth and Prineha Narang(参考訳) 2時間測定スキームは量子ゆらぎ定理の文脈でよく研究されている。 しかし、単一の測定軌道によって決定される確率変数が量子状態のフォン・ノイマンエントロピーに関連付けられると実現不可能になる。 量子クロスエントロピーに基づく情報生成分布を提案することにより,非平衡情報生成のジャージンスキー様等式を導出するために,一時間計測方式を用いる。 導出された等式により、量子通信、量子機械学習、量子熱力学における量子クロスエントロピーの役割を探求することができる。

The two-time measurement scheme is well studied in the context of quantum fluctuation theorem. However, it becomes infeasible when the random variable determined by a single measurement trajectory is associated with the von-Neumann entropy of the quantum states. We employ the one-time measurement scheme to derive a Jarzynski-like equality of nonequilibrium information production by proposing an information production distribution based on the quantum cross entropy. The derived equality further enables one to explore the roles of the quantum cross entropy in quantum communications, quantum machine learning and quantum thermodynamics.
翻訳日:2023-01-27 21:05:11 公開日:2022-12-20
# 離散系と連続系の量子テレポーテーション制御

Controlled quantum teleportation between discrete and continuous physical systems ( http://arxiv.org/abs/2209.02460v2 )

ライセンス: Link先を確認
M. El Kirdi, A. Slaoui, N. Ikken, M. Daoud and R. Ahl Laamara(参考訳) 離散値状態 (dv) と連続値状態 (cv) の相互作用に基づく未知状態の量子テレポーテーションは、量子技術において特に問題となった。 ここでは、異なる位相のコヒーレント状態によって符号化された振幅整合CV量子ビットの制御量子テレポーテーションの問題を、2つの遠いパートナーであるアリスとボブの間の真空および単光子光学状態の重ね合わせとして、チャーリーの同意を得て検討する。 この課題を達成するために、コヒーレント部がアリスに属する量子資源としてハイブリッド三部交絡状態(離散変数状態と連続変数状態の間の相互作用)を用い、一方単光子はボブとチャーリーに属し、CV量子ビットはアリスの処理を行う。 高透過性ビームスプリッターで離散連続相互作用を実現する。 テレポートの完全性は、テレポートする状態の位相と送信者のモードの位相の位相差に依存することを証明し、0 または $\pi$ に近づく位相について、振幅 $\alpha$ とスクイージングパラメータ $\zeta$ とは独立に、完全制御された量子テレポーテーションに近い値が得られることを示した。 実験では,ビームスプリッタ,位相シフタ,光子カウンタなどの線形光学部品を用いて提案手法を実装した。

Quantum teleportation of an unknown state basing on the interaction between discrete-valued states (DV) and continuous-valued states (CV) presented a particular challenge in quantum technologies. Here we consider the problem of controlled quantum teleportation of an amplitude-matched CV qubit, encoded by a coherent state of a varied phase as a superposition of the vacuum- and single-photon optical states among two distant partners Alice and Bob, with the consent of controller, Charlie. To achieve this task, we use an hybrid tripartite entangled state (interaction between the discrete and continuous variables states) as the quantum resource where the coherent part belongs to Alice, while the single-photon belongs to Bob and Charlie and the CV qubit is at the disposal of Alice. The discrete-continuous interaction is realized on highly transmissive beam-splitter. We have shown that the perfectly of teleportation fidelity depends on the phase difference between the phase of the state to teleport and the phase of the sender's mode, we found that for a difference which approaches 0 or $\pi$, near perfect controlled quantum teleportation can be obtained in terms of the fidelity and independently of the amplitude $\alpha$ and the squeezing parameter $\zeta$. Experimentally, this proposed scheme has been implemented using linear optical components such as beam splitter, phase shifters and photon counters.
翻訳日:2023-01-27 18:30:34 公開日:2022-12-20
# 量子状態に対する濃度境界と多項式近似からのQAOA上の極限

Concentration bounds for quantum states and limitations on the QAOA from polynomial approximations ( http://arxiv.org/abs/2209.02715v2 )

ライセンス: Link先を確認
Anurag Anshu, Tony Metger(参考訳) 量子状態の次のクラスに対する濃度境界を証明する。 (i)[DPMRF22]からのオープン質問に応答する浅い量子回路の出力状態 (ii) 射出行列生成物 (iii)密ハミルトン進化の出力状態、すなわち、任意のn$-量子ビット積状態に対して、{e^{\iota h^{(p)}} \cdots e^{\iota h^{(1)}} |\psi_0\rangle$、すなわち各$h^{} の形の状態。 i)$ はノルム制約を満たす任意の局所通勤ハミルトニアンであり、任意のクビット間の相互作用を持つ高密度ハミルトニアンを含む。 我々の証明は多項式近似を用いてこれらの状態が局所作用素に近いことを示す。 これは、計算基底測定(および他の関連する観測可能量)のハミング重みの分布が集中していることを意味する。 一例 (iii)は量子近似最適化アルゴリズム(QAOA)によって生成される状態である。 これらの状態に対する集中結果を用いて、ランダムスピンモデルでは、QAOAは、いわゆるオーバーラップギャップ特性の強化バージョンを仮定して、超コンスタントレベル$p = o(\log \log n)$でも無視可能な確率でしか成功できないことを示す。 これにより、超定常レベルでの高密度インスタンスに対するQAOAの最初の制限が得られ、最近の結果 [BGMZ22] により改善される。

We prove concentration bounds for the following classes of quantum states: (i) output states of shallow quantum circuits, answering an open question from [DPMRF22]; (ii) injective matrix product states; (iii) output states of dense Hamiltonian evolution, i.e. states of the form $e^{\iota H^{(p)}} \cdots e^{\iota H^{(1)}} |\psi_0\rangle$ for any $n$-qubit product state $|\psi_0\rangle$, where each $H^{(i)}$ can be any local commuting Hamiltonian satisfying a norm constraint, including dense Hamiltonians with interactions between any qubits. Our proofs use polynomial approximations to show that these states are close to local operators. This implies that the distribution of the Hamming weight of a computational basis measurement (and of other related observables) concentrates. An example of (iii) are the states produced by the quantum approximate optimisation algorithm (QAOA). Using our concentration results for these states, we show that for a random spin model, the QAOA can only succeed with negligible probability even at super-constant level $p = o(\log \log n)$, assuming a strengthened version of the so-called overlap gap property. This gives the first limitations on the QAOA on dense instances at super-constant level, improving upon the recent result [BGMZ22].
翻訳日:2023-01-27 18:11:16 公開日:2022-12-20
# マルチツイーザーアルゴリズムによる任意の欠陥のない原子配列の並列アセンブリ

Parallel assembly of arbitrary defect-free atom arrays with a multi-tweezer algorithm ( http://arxiv.org/abs/2209.08038v2 )

ライセンス: Link先を確認
Weikun Tian, Wen Jun Wee, An Qu, Billy Jun Ming Lim, Prithvi Raj Datla, Vanessa Pei Wen Koh, Huanqian Loh(参考訳) 欠陥のない原子配列は、量子情報処理と量子シミュレーションの重要な前駆体である。 しかし、確率的に装填された原子を所望のターゲット配列に再構成する際に発生する損失のため、大規模な欠陥のない原子配列を実現することは困難である。 本稿では,複数の移動tweezerを用いて,原子衝突を自然に回避する方法でアトム配列を独立にソート・圧縮する並列再配置アルゴリズムを提案する。 並列性が高いため,本アルゴリズムはシングルトワイザーアルゴリズムと既存のマルチトワイザーアルゴリズムと比較して移動複雑性が低減される。 さらに,並列性の最適度をアルゴリズムの高速化とマルチトウィーザー不均一性効果のバランスとして決定する。 225原子アレイの欠陥フリー確率は、複数の再配置サイクルを経て室温設定において33(1)%に達することが示されている。 ここで提示されるアルゴリズムは、基礎となる周期構造を持つ任意のターゲット配列幾何に対して実装することができる。

Defect-free atom arrays are an important precursor for quantum information processing and quantum simulation. Yet, large-scale defect-free atom arrays can be challenging to realize, due to the losses encountered when rearranging stochastically loaded atoms to achieve a desired target array. Here, we demonstrate a novel parallel rearrangement algorithm that uses multiple mobile tweezers to independently sort and compress atom arrays in a way that naturally avoids atom collisions. With a high degree of parallelism, our algorithm offers a reduced move complexity compared to both single-tweezer algorithms and existing multi-tweezer algorithms. We further determine the optimal degree of parallelism to be a balance between an algorithmic speedup and multi-tweezer inhomogeneity effects. The defect-free probability for a 225-atom array is demonstrated to be as high as 33(1)% in a room temperature setup after multiple cycles of rearrangement. The algorithm presented here can be implemented for any target array geometry with an underlying periodic structure.
翻訳日:2023-01-26 09:26:17 公開日:2022-12-20
# テンソル誘電体媒体におけるマクスウェル方程式のダイソンマップとユニタリ展開

Dyson Maps and Unitary Evolution for Maxwell Equations in Tensor Dielectric Media ( http://arxiv.org/abs/2209.08523v2 )

ライセンス: Link先を確認
Efstratios Koukoutsis, Kyriakos Hizanidis, Abhay K. Ram and George Vahala(参考訳) 不均一、異方性、受動的、非分散媒体に対するマクスウェル方程式の再構成は、ユニタリ時間進化を許容する量子ライクなディラック方程式をもたらす。 他のアプローチとは対照的に、リーマン・シルバーシュタイン・ウェーバーベクトル(RSW)のアプリオリ導入は存在しないが、マックスウェル方程式はそれらの標準分野において、構成的関係を与えられる。 電磁保存量から、擬エルミート力学は、ユニタリ進化の物理的概念を記述する拡張ヒルベルト空間における力学の完全ヘリミティを回復するダイソン写像とともに発見される。 例えば、一軸テンソル誘電体媒体を考えると、明示的なダイソン写像は一般化されたrswベクトルの集合において最適な表現を与える。 この新たに発見された形態では、複雑な媒体における電磁波伝搬のシミュレーションのための量子コンピューティング(QC)の実装が可能であり、プラズマへのさらなる拡張が可能である。

A reformulation of Maxwell equations for an inhomogeneous, anisotropic, passive and non-dispersive medium results in a quantum-like Dirac equation that admits unitary time evolution. In contrast to other approaches, there is no a-priori introduction of the Riemann-Silberstein-Weber (RSW) vector but the Maxwell equations are considered in their standard fields, with given constitutive relations. From the electromagnetic conservation quantities a pseudo-Hermitian dynamics is found together with a Dyson map that recovers the full Hermicity of the dynamics in an extended Hilbert space that describes the physical notion of unitary evolution. As an example, a uniaxial tensor dielectric medium is considered, with the explicit Dyson map yielding an optimal representation in a set of generalized RSW vectors. In this newly discovered form, a Quantum Computing (QC) implementation for simulation of electromagnetic wave propagation in complex media can be made, with further extension into plasmas.
翻訳日:2023-01-26 04:39:52 公開日:2022-12-20
# クローズド・オープン系におけるシミュレート量子アニールの収束条件

Convergence condition of simulated quantum annealing for closed and open systems ( http://arxiv.org/abs/2209.15523v2 )

ライセンス: Link先を確認
Yusuke Kimura and Hidetoshi Nishimori(参考訳) シミュレート量子アニーリング(シミュレート量子アニーリング)は、量子アニーリングのいくつかの側面をシミュレートするための一般的な古典的プロトコルであり、古典的イジングモデルの基底状態を見つける際に量子アニーリングに代わる古典的方法と見なされることがある。 シミュレーション量子アニールの一般的な条件を導出し、所定の温度(典型的には低温)で熱平衡に収束する。 クローズドシステムとオープンシステムの両方が扱われる。 シミュレーション量子アニーリングの古典的マスター方程式を虚時Schr\"odinger方程式に書き直し、漸近的断熱条件の虚時変分を適用して収束条件を導出する。 この結果は、閉系に対するシミュレーション量子アニーリングの厳密な収束条件と定性的に一致し、これは不均質マルコフ過程の理論から導かれる。 また、実時間シュリンガー力学の下での閉系に対する量子アニールの厳密な収束条件との定性的一致も観察されている。 量子アニーリングシミュレーションのための古典的確率過程と量子アニーリングのリアルタイム量子力学の収束条件の一致は非常に非自明であり、さらなる精査が必要である。

Simulated quantum annealing is a generic classical protocol to simulate some aspects of quantum annealing and is sometimes regarded as a classical alternative to quantum annealing in finding the ground state of a classical Ising model. We derive a generic condition for simulated quantum annealing to converge to thermal equilibrium at a given, typically low, temperature. Both closed and open systems are treated. We rewrite the classical master equation for simulated quantum annealing into an imaginary-time Schr\"odinger equation, to which we apply the imaginary-time variant of asymptotic adiabatic condition to deduce the convergence condition. The result agrees qualitatively with a rigorous convergence condition of simulated quantum annealing for closed systems, which was derived from the theory of inhomogeneous Markov process. Also observed is qualitative agreement with a rigorous convergence condition of quantum annealing for closed systems under the real-time Schr\"odinger dynamics. This coincidence of convergence conditions for classical stochastic processes for simulated quantum annealing and the real-time quantum dynamics for quantum annealing is highly non-trivial and calls for further scrutiny.
翻訳日:2023-01-24 07:40:25 公開日:2022-12-20
# 位相位相と共鳴光応答への特異接続アプローチ

Singular connection approach to topological phases and resonant optical responses ( http://arxiv.org/abs/2210.06844v2 )

ライセンス: Link先を確認
Bruno Mera, Tomoki Ozawa(参考訳) パラメータ空間上で定義された任意の量子状態の族に対するベリー接続の代替として特異接続のクラスを導入する。 2つのバンド間の遷移双極子の文脈における特異接続の自然な応用を見いだす。 シフトベクトルは、特異接続と、関連するバンドのベリー接続によって引き起こされる接続との差にすぎず、シフトベクトルのゲージ不変性は、この表現から透明である。 特異接続を用いて、2つのバンド間の光遷移に関連する2次元の位相不変量は、この接続により、2つのバンドの遷移双極子行列要素の零点の点を代数的に数えることによって計算可能であることを示す。 この不変量は、光子を吸収することで電子が1つのブロッホバンドからもう1つのバンドに励起できないブリルアンゾーンのモーメントの数に自然な位相下界を与える。

We introduce a class of singular connections as an alternative to the Berry connection for any family of quantum states defined over a parameter space. We find a natural application of the singular connection in the context of transition dipoles between two bands. We find that the shift vector is nothing but the difference between the singular connection and the connection induced from the Berry connections of involved bands; the gauge invariance of the shift vector is transparent from this expression. We show, using singular connections, that the topological invariant in two dimensions associated with optical transitions between the two bands can be computed, by means of this connection, by algebraically counting the points in the zero locus of a transition dipole matrix element of the two bands involved. It follows that this invariant provides a natural topological lower bound on the number of momenta in the Brillouin zone for which an electron cannot be excited from one Bloch band to the other by absorbing a photon.
翻訳日:2023-01-22 17:04:40 公開日:2022-12-20
# 時間平均古典的影による強相関系のRevealing Microcanonical Phase Diagram

Revealing microcanonical phase diagrams of strongly correlated systems via time-averaged classical shadows ( http://arxiv.org/abs/2211.01259v2 )

ライセンス: Link先を確認
Gaurav Gyawali, Mabrur Ahmed, Eric Aspling, Luke Ellert-Beck, Michael J. Lawler(参考訳) 量子コンピュータとシミュレーターは、強く相関した量子システムの研究を可能にすることを約束する。 しかし、驚くべきことに、基底状態を計算するのは困難である。 しかし、閉じた量子系のダイナミクスを効率的に計算することができる。 本稿では,密度行列の時間平均であるフォン・ノイマンアンサンブルの時間平均古典影(TACS)を導入し,拡散写像による機械学習と組み合わせることで,量子コンピュータ上のマイクロカノニカル位相と位相遷移を研究する手法を提案する。 1次元逆場イジングモデル(1DTFIM)と古典的影のために開発されたカーネル関数を用いて,100量子ビット系の基底状態計算に適用し,磁化と磁場の幾何学的関係を明らかにする。 次に、量子力学シミュレーションによるTACSデータの拡散マップは、位相決定特性を効率よく学習し、量子臨界領域を正しく同定することを示した。 機械学習の特徴は、量子臨界点における特異点を示す観測可能と、マイクロカノニカルアンサンブルの主要な熱力学ポテンシャルであるエントロピーである。 これを検証するために,これらの特徴をTACSを用いて直接計算し,ベイズ推定モデルを用いて推定した第2のRenyiエントロピーに適合する。 その結果, 量子シミュレータや計算機は, 古典的計算機を上回ることができ, 量子力学的に有利な量子熱力学データを生成する可能性が示唆された。

Quantum computers and simulators promise to enable the study of strongly correlated quantum systems. Yet surprisingly, it is hard for them to compute ground states. They can, however, efficiently compute the dynamics of closed quantum systems. We propose a method to study microcanonical phases and phase transitions on a quantum computer from quantum dynamics, by introducing time-averaged classical shadows (TACS) of the von Neumann ensemble, the time average of the density matrix, and combining it with machine learning via diffusion maps. Using the one-dimensional transverse field Ising model(1DTFIM), and a kernel function developed for classical shadows, we first show that this method, applied to ground state calculations on 100 qubit systems, discovers the geometric relationship between magnetization and field. We then show that diffusion maps of TACS data from quantum dynamics simulations efficiently learn the phase-defining features and correctly identify the quantum critical region. The machine-learned features include an observable that exhibits a singularity at the quantum critical point and entropy, the primary thermodynamic potential of the microcanonical ensemble. To verify this, we fit these features to susceptibility, computed directly using TACS, and the second Renyi entropy estimated using a Bayesian inference model. Our results provide evidence that quantum simulators and computers capable of outperforming classical computers at dynamics simulations may also produce quantum thermodynamic data with quantum advantage.
翻訳日:2023-01-20 16:37:36 公開日:2022-12-20
# ヒルベルト空間の圏に対する公理と線型収縮

Axioms for the category of Hilbert spaces and linear contractions ( http://arxiv.org/abs/2211.02688v2 )

ライセンス: Link先を確認
Chris Heunen, Andre Kornell, Nesta van der Schaaf(参考訳) ヒルベルト空間と線型縮約の圏は、確率、複素数、ノルム、連続性、凸性、次元を言及しない基本的な圏の性質によって特徴づけられる。

The category of Hilbert spaces and linear contractions is characterised by elementary categorical properties that do not refer to probabilities, complex numbers, norm, continuity, convexity, or dimension.
翻訳日:2023-01-20 08:48:25 公開日:2022-12-20
# 量子機械学習のためのユニバーサル量子パーセプトロン

Universal Quantum Perceptrons for Quantum Machine Learning ( http://arxiv.org/abs/2211.07075v2 )

ライセンス: Link先を確認
Rodrigo Araiza Bravo, Khadijeh Najafi, Taylor L. Patti, Xun Gao, Susanne F. Yelin(参考訳) 量子ニューロモルフィック・コンピューティング(Quantum Neuromorphic Computing、QNC)は、量子機械学習(QML)のサブフィールドであり、固有のシステムダイナミクスを生かしている。 その結果、qncは現代のノイズの多い量子ハードウェア上で動作でき、近い将来に挑戦的なアルゴリズムを実現することができる。 qncにまだ追加されていない重要な要素は、普遍的な量子ニューロモルフィック計算に必要なダイナミクスの特徴付けである。 我々は、様々な機械学習アーキテクチャの構成要素であるニューロンの単純な数学的モデルである古典パーセプトロンに匹敵する量子を提案することでこの問題に対処する。 量子パーセプトロン(QP)は、相互作用する量子ビットとチューナブル結合定数のアナログダイナミクスに基づく。 QPにチューナブルな単一量子ビット回転を加えることで、QPは単一の古典的パーセプトロンの限られた計算複雑性と対照的に、普遍的な量子計算を実現できることを示す。 量子機械学習コミュニティに精通している変分量子アルゴリズム(VQA)に類似していることを示す。 QPの量子ニューラルネットワークカーネルを導出し、QPのトレーサビリティと他のVQAのトレーサビリティを比較した。 我々はカーネル形式化の利点と欠点について論じる。 最後に,量子状態間の内積計算,絡み合い観測,量子計測など,多数のqml問題に適用することにより,qpsの有効性を示す。

Quantum neuromorphic computing (QNC) is a subfield of quantum machine learning (QML) that capitalizes on inherent system dynamics. As a result, QNC can run on contemporary, noisy quantum hardware and is poised to realize challenging algorithms in the near term. One key element yet to be added to QNC is the characterization of the requisite dynamics for universal quantum neuromorphic computation. We address this issue by proposing a quantum equivalent to the classical perceptron, a simple mathematical model for a neuron that is the building block of various machine learning architectures. We introduce a quantum perceptron (QP) based on the analog dynamics of interacting qubits with tunable coupling constants. By adding tunable single-qubit rotations to the QP, we demonstrate that a QP can realize universal quantum computation, which contrasts sharply with the limited computational complexity of a single classical perceptron. We show that QPs are analogous to variational quantum algorithms (VQAs) familiar to the quantum machine learning community. We derive the quantum neural tangent kernel of a QP and compare the QP's trainability to the trainability of other VQAs. We discuss the advantages and drawbacks of kernel formalism. Finally, we demonstrate the effectiveness of QPs by applying them to numerous QML problems, including calculating the inner products between quantum states, entanglement witnessing, and quantum metrology.
翻訳日:2023-01-18 07:18:42 公開日:2022-12-20
# ESR-STMによる表面スピン絡みの認証

Certifying entanglement of spins on surfaces using ESR-STM ( http://arxiv.org/abs/2211.14205v3 )

ライセンス: Link先を確認
Y. del Castillo, J. Fern\'andez-Rossier(参考訳) 走査型トンネル顕微鏡 (esr-stm) による電子スピン共鳴を用いた人工表面原子・分子スピンアレイにおける絡み合いの存在を証明するプロトコルを提案する。 まず、大域的なスピン感受性に関連する定理を、表面に関連する異方性ゼーマン相互作用の場合の絡み合い証人として一般化する。 次に,ESR-STMと原子操作を組み合わせた表面スピンアレイのスピン感受性を測定する手法を提案する。 ESR-STM磁力計による反強磁性結合スピン二量体と三量体に絡み合いが認められることを示す。

We propose a protocol to certify the presence of entanglement in artificial on-surface atomic and molecular spin arrays using electron spin resonance carried by scanning tunnel microscopes (ESR-STM). We first generalize the theorem that relates global spin susceptibility as an entanglement witness to the case of anisotropic Zeeman interactions, relevant for surfaces. We then propose a method to measure the spin susceptibilities of surface-spin arrays combining ESR-STM with atomic manipulation. Our calculations show that entanglement can be certified in antiferromagnetically coupled spin dimers and trimers with state of the art ESR-STM magnetometry.
翻訳日:2023-01-17 20:43:34 公開日:2022-12-20
# 長距離自由フェルミオン鎖におけるバルク境界対応と特異性充填

Bulk-boundary correspondence and singularity-filling in long-range free-fermion chains ( http://arxiv.org/abs/2211.15690v2 )

ライセンス: Link先を確認
Nick G. Jones, Ryan Thorngren, Ruben Verresen(参考訳) バルク境界対応は、位相的に保護されたエッジモードとバルクトポロジカル不変量と関連し、短距離自由フェルミオン鎖に対してよく理解されている。 ケーススタディでは、結合がパワーロー指数$\alpha$と崩壊する長距離ハミルトニアンを考えるが、自由フェルミオン対称性クラスに対する体系的な研究は行われていない。 本稿では, 1d bdi および aiii 対称性クラスにおけるガッピング・翻訳不変モデルに対する $\alpha>1$ の解法を紹介し,量子化巻線不変量,バルク位相的文字列順序パラメータ,エッジモードの完全解を組み合わせる。 これらの鎖の物理学は、ハミルトニアンのカップリングによって決定される複素函数の研究によって解明される: エッジモードがこの関数の根と関連づけられている短距離の場合とは対照的に、それらが特異点に関連付けられていることが分かる。 注目すべき結果は、エッジモードの有限サイズの分割は位相的巻数に依存しており、後者のプローブとして使うことができる。 さらにこれらの結果を一般化し i) BDI 鎖の族を $\alpha<1$ で識別する。 (ii) ギャップのない対称性が保護された位相連鎖は、$\alpha -1$ が動的臨界指数を超えると位相不変量とエッジモードを持つことができる。

The bulk-boundary correspondence relates topologically-protected edge modes to bulk topological invariants, and is well-understood for short-range free-fermion chains. Although case studies have considered long-range Hamiltonians whose couplings decay with a power-law exponent $\alpha$, there has been no systematic study for a free-fermion symmetry class. We introduce a technique for solving gapped, translationally invariant models in the 1D BDI and AIII symmetry classes with $\alpha>1$, linking together the quantized winding invariant, bulk topological string-order parameters and a complete solution of the edge modes. The physics of these chains is elucidated by studying a complex function determined by the couplings of the Hamiltonian: in contrast to the short-range case where edge modes are associated to roots of this function, we find that they are now associated to singularities. A remarkable consequence is that the finite-size splitting of the edge modes depends on the topological winding number, which can be used as a probe of the latter. We furthermore generalise these results by (i) identifying a family of BDI chains with $\alpha<1$ where our results still hold, and (ii) showing that gapless symmetry-protected topological chains can have topological invariants and edge modes when $\alpha -1$ exceeds the dynamical critical exponent.
翻訳日:2023-01-17 14:51:21 公開日:2022-12-20
# eラーニングプラットフォームにおける教師なし質問重複と関連質問検出

Unsupervised Question Duplicate and Related Questions Detection in e-learning platforms ( http://arxiv.org/abs/2301.05150v1 )

ライセンス: Link先を確認
Maksimjeet Chowdhary, Sanyam Goyal, Venktesh V, Mukesh Mohania and Vikram Goyal(参考訳) オンライン学習プラットフォームは、学習者の異なる概念に対する理解を評価するために多様な質問を提供する。 質問のリポジトリは、学習者に対する評価を行うための多様な質問のプールを確保するために、常に更新されなければならない。 しかし,外部から新たな質問を提出する際,研究者が大量の質問を手動でスキミングして,重複を確認することは不可能である。 そこで本稿では,教師付きデータなしでほぼ重複した,意味的な質問を提示できるツールQDupを提案する。 提案手法は,疑似重複検出タスクの類似性に異なるニュアンスを組み込むための,統計的およびニューラルアプローチの教師なしハイブリッドパイプラインに従う。 我々はqdupが重複に近い質問を検知できることを示すとともに,大量の質問のレポジトリから,極めて正確かつ高速に実践するための関連する質問を提案できることを実証する。 このツールのデモビデオはhttps://www.youtube.com/watch? v=loh0_-7XLW4。

Online learning platforms provide diverse questions to gauge the learners' understanding of different concepts. The repository of questions has to be constantly updated to ensure a diverse pool of questions to conduct assessments for learners. However, it is impossible for the academician to manually skim through the large repository of questions to check for duplicates when onboarding new questions from external sources. Hence, we propose a tool QDup in this paper that can surface near-duplicate and semantically related questions without any supervised data. The proposed tool follows an unsupervised hybrid pipeline of statistical and neural approaches for incorporating different nuances in similarity for the task of question duplicate detection. We demonstrate that QDup can detect near-duplicate questions and also suggest related questions for practice with remarkable accuracy and speed from a large repository of questions. The demo video of the tool can be found at https://www.youtube.com/watch?v=loh0_-7XLW4.
翻訳日:2023-01-15 23:16:32 公開日:2022-12-20
# 油貯水池透水性マップ構築のための機械的および機械学習の組み合わせによる実験結果の整合性

Combined mechanistic and machine learning method for construction of oil reservoir permeability map consistent with well test measurements ( http://arxiv.org/abs/2301.02585v1 )

ライセンス: Link先を確認
E. A. Kanin, A. A. Garipova, S. A. Boronin, V. V. Vanovsky, A. L. Vainshtein, A. A. Afanasyev, A. A. Osiptsov, E. V. Burnaev(参考訳) 本研究では,油層貯留層における坑井検層および坑井試験結果と一致した絶対透水性マップの構築法を提案する。 nadaraya-watson kernel regressionは、岩石の透水性の2次元空間分布を近似するために用いられる。 石油貯留層に配置された各井戸について,実際の値と予測値の差を最小限に抑える最適化問題を解くことで,カーネル回帰のパラメータを調整できる。 (i)井戸位置における絶対透水性(井戸検層より) (ii)井戸周辺の領域の絶対積分透過性と (iii)皮膚因子(健康検査から) 逆問題は前方問題に対する複数の解によって解かれ, サロゲートモデルにより井戸と皮膚因子を囲む貯水池の積分透水性を推定する。 最後に, 貯留層シミュレータにおける底面圧力低下曲線の数値シミュレーションと半解析的貯留層モデルを用いた解釈を含む手順を用いて, 物理に基づく合成データセットを訓練した人工ニューラルネットワークを開発した。 貯水池透水性マップ構築法は,高透水性チャネルの存在により,高度に均一な透水性分布を有する貯水池モデル (Egg Model) に適用できる。 構築された透水性マップは,元のマップと流体力学的に類似していることを示した。 構築された透水性マップとオリジナルの透水性マップを用いた貯留層内生産の数値シミュレーションは,シミュレーション期間の終了時の気孔圧力と流体飽和分布の点で定量的に類似している。 さらに, 生成油, 水, 注入水の流量と流量の数値シミュレーション結果とを一致させた。

We propose a new method for construction of the absolute permeability map consistent with the interpreted results of well logging and well test measurements in oil reservoirs. Nadaraya-Watson kernel regression is used to approximate two-dimensional spatial distribution of the rock permeability. Parameters of the kernel regression are tuned by solving the optimization problem in which, for each well placed in an oil reservoir, we minimize the difference between the actual and predicted values of (i) absolute permeability at the well location (from well logging); (ii) absolute integral permeability of the domain around the well and (iii) skin factor (from well tests). Inverse problem is solved via multiple solutions to forward problems, in which we estimate the integral permeability of reservoir surrounding a well and the skin factor by the surrogate model. The last one is developed using an artificial neural network trained on the physics-based synthetic dataset generated using the procedure comprising the numerical simulation of bottomhole pressure decline curve in reservoir simulator followed by its interpretation using a semi-analytical reservoir model. The developed method for reservoir permeability map construction is applied to the available reservoir model (Egg Model) with highly heterogeneous permeability distribution due to the presence of highly-permeable channels. We showed that the constructed permeability map is hydrodynamically similar to the original one. Numerical simulations of production in the reservoir with constructed and original permeability maps are quantitatively similar in terms of the pore pressure and fluid saturations distribution at the end of the simulation period. Moreover, we obtained an good match between the obtained results of numerical simulations in terms of the flow rates and total volumes of produced oil, water and injected water.
翻訳日:2023-01-15 23:15:21 公開日:2022-12-20
# 多層マルチコンフィグレーションアプローチによる乱れ量子スピンモデルの研究

Exploring Disordered Quantum Spin Models with a Multi-Layer Multi-Configurational Approach ( http://arxiv.org/abs/2212.02254v2 )

ライセンス: Link先を確認
Fabian K\"ohler, Rick Mukherjee, Peter Schmelcher(参考訳) 量子スピンモデルの数値シミュレーションは、物理学の様々な研究領域における多体現象の深い理解に不可欠である。 際立った問題は、絡み合うエントロピーの領域法に反するシステムに取り組む方法が利用できることである。 このようなシナリオは、乱れた量子スピンシステムなどを含む、幅広い説得力のある物理的状況をカバーする。 本研究では,複数の乱れたスピンモデルの基底状態を評価するために,多層マルチコンフィグレーション時間依存Hartree (ML-MCTDH) と呼ばれる数値手法を用いる。 ml-mctdhは分子物理学や超低温物理学における高次元量子力学の問題の研究に用いられてきたが、スピン系の研究に初めて用いられる。 1次元と2次元の空間次元で結果を示すために、本手法の固有の柔軟性を活用し、長距離相互作用と障害を含む挑戦的なセットアップを扱う。 この結果から,ML-MCTDH固有の階層的多層構造は,次元の異なるスピンダイナミクスなど,幅広い量子多体問題に対処できる可能性が示唆された。

Numerical simulations of quantum spin models are crucial for a profound understanding of many-body phenomena in a variety of research areas in physics. An outstanding problem is the availability of methods to tackle systems that violate area-laws of entanglement entropy. Such scenarios cover a wide range of compelling physical situations including disordered quantum spin systems among others. In this work, we employ a numerical technique referred to as multi-layer multi-configuration time-dependent Hartree (ML-MCTDH) to evaluate the ground state of several disordered spin models. ML-MCTDH has previously been used to study problems of high-dimensional quantum dynamics in molecular and ultracold physics but is here applied to study spin systems for the first time. We exploit the inherent flexibility of the method to present results in one and two spatial dimensions and treat challenging setups that incorporate long-range interactions as well as disorder. Our results suggest that the hierarchical multi-layering inherent to ML-MCTDH allows to tackle a wide range of quantum many-body problems such as spin dynamics of varying dimensionality.
翻訳日:2023-01-09 22:57:58 公開日:2022-12-20
# 非エルミート位相:原理と展望

Non-Hermitian Topological Phases: Principles and Prospects ( http://arxiv.org/abs/2212.06478v2 )

ライセンス: Link先を確認
Ayan Banerjee, Ronika Sarkar, Soumi Dey, Awadhesh Narayan(参考訳) 非エルミート的概念と位相的概念の相乗効果は近年非常に実りある活動へと繋がった。 これらの相互作用により、様々な新しい非エルミート位相現象が発見されている。 本稿では,非エルミート位相の位相的特徴を支える重要な原理について述べる。 Hatano-Helson, non-Hermitian Su-Schrieffer-Heeger および non-Hermitian Chern insulator というパラダイムモデルを用いて、例外点、複素エネルギーギャップ、非Hermitian対称性分類を含む非Hermitian topological system の中心的な特徴を説明する。 非エルミート皮膚効果と、バルク境界対応の復元を可能にする一般化ブリルアンゾーンの概念について議論する。 具体例を用いて障害の役割を考察し,線形応答枠組みを示し,非エルミート位相系のホール輸送特性を解析した。 また、この分野の急速な実験的進歩についても調査する。 最後に、近い将来の探査に有望である可能性のある方向を強調することで締めくくります。

The synergy between non-Hermitian concepts and topological ideas have led to very fruitful activity in the recent years. Their interplay has resulted in a wide variety of new non-Hermitian topological phenomena being discovered. In this review, we present the key principles underpinning the topological features of non-Hermitian phases. Using paradigmatic models -- Hatano-Helson, non-Hermitian Su-Schrieffer-Heeger and non-Hermitian Chern insulator -- we illustrate the central features of non-Hermitian topological systems, including exceptional points, complex energy gaps and non-Hermitian symmetry classification. We discuss the non-Hermitian skin effect and the notion of the generalized Brillouin zone, which allows restoring the bulk-boundary correspondence. Using concrete examples, we examine the role of disorder, present the linear response framework, and analyze the Hall transport properties of non-Hermitian topological systems. We also survey the rapidly growing experimental advances in this field. Finally, we end by highlighting possible directions which, in our view, may be promising for explorations in the near future.
翻訳日:2023-01-09 16:02:45 公開日:2022-12-20
# 有限2次元アンダーソン模型における局在問題量子カオス

Localization challenges quantum chaos in finite two-dimensional Anderson model ( http://arxiv.org/abs/2212.10625v1 )

ライセンス: Link先を確認
Jan \v{S}untajs, Toma\v{z} Prosen, Lev Vidmar(参考訳) 2次元アンダーソンモデル(英語版)は熱力学極限における任意の非ゼロ障害の局在を示しており、有限サイズ効果が弱い障害極限においてかなり大きいことも知られている。 ここでは,有限次元アンダーソンモデルにおける量子カオスから局在への遷移を,レベル間隔比,スペクトル形状係数,可観測行列要素の分散,参加エントロピー,固有状態エンタングルメントエントロピーなどの現代文献で用いられる標準指標を用いて数値的に研究する。 これらの指標の多くの特徴は、弱い障害におけるロバストな単一粒子量子カオスの出現を示す可能性がある。 しかし、注意深い数値解析はシングルパラメータスケーリング理論と一致しており、熱力学限界における任意の非ゼロ障害値における量子カオスの分解を予測する。 この分解の顕著な特徴は、弱障害におけるスペクトル形状因子の普遍的挙動と、パラメータ $u = \left(W \ln V\right)^{-1}$ の関数としての様々な指標の普遍的スケーリングである。

It is believed that the two-dimensional (2D) Anderson model exhibits localization for any nonzero disorder in the thermodynamic limit and it is also well known that the finite-size effects are considerable in the weak disorder limit. Here we numerically study the quantum-chaos to localization transition in finite 2D Anderson models using standard indicators used in the modern literature such as the level spacing ratio, spectral form factor, variances of observable matrix elements, participation entropy and the eigenstate entanglement entropy. We show that many features of these indicators may indicate emergence of robust single-particle quantum chaos at weak disorder. However, we argue that a careful numerical analysis is consistent with the single-parameter scaling theory and predicts the breakdown of quantum chaos at any nonzero disorder value in the thermodynamic limit. Among the hallmarks of this breakdown are the universal behavior of the spectral form factor at weak disorder, and the universal scaling of various indicators as a function of the parameter $u = \left(W \ln V\right)^{-1}$ where $W$ is the disorder strength and $V$ is the number of lattice sites.
翻訳日:2023-01-09 13:40:12 公開日:2022-12-20
# 監視量子回路における超高速絡み合いダイナミクス

Ultrafast Entanglement Dynamics in Monitored Quantum Circuits ( http://arxiv.org/abs/2212.10634v1 )

ライセンス: Link先を確認
Shengqi Sang, Zhi Li, Timothy H. Hsieh and Beni Yoshida(参考訳) 量子力学における基本的な操作である射影測定は、一見非局所的な効果を誘発することができる。 本研究では,弱監視量子回路の非平衡ダイナミクスを解析し,絡み合いの発生と情報拡散に着目し,多体系におけるそのような効果を分析する。 測定により、監視回路における絡み合いのダイナミクスは、いくつかの点でユニタリ回路よりも「高速」であることがわかった。 具体的には、一対のよく区切られた領域は、時間スケール$\ell^{2/3}$、距離$\ell$でサブ線形になる。 クリフォード監視回路の場合、これは進化状態の超球状成長安定化発電機に由来する。 さらに、初期のローカル情報は超ボール的に$t^{3/2}$として拡散する。 さらに,力学を動的符号化プロセスとして見ることにより,超塑性成長長スケールは,システムサイズがサブリニアな符号化時間に関係していることを示す。 情報ダイナミクスを定量化するために、独立した関心を持つ非ユニタリダイナミクスに拡散する演算子を一般化する形式主義を展開する。

Projective measurement, a basic operation in quantum mechanics, can induce seemingly nonlocal effects. In this work, we analyze such effects in many-body systems by studying the non-equilibrium dynamics of weakly monitored quantum circuits, focusing on entanglement generation and information spreading. We find that, due to measurements, the entanglement dynamics in monitored circuits is indeed "faster" than that of unitary ones in several ways. Specifically, we find that a pair of well-separated regions can become entangled in a time scale $\ell^{2/3}$, sub-linear in their distance $\ell$. For the case of Clifford monitored circuits, this originates from super-ballistically growing stabilizer generators of the evolving state. In addition, we find initially local information can spread super-ballistically as $t^{3/2}$. Furthermore, by viewing the dynamics as a dynamical encoding process, we show that the super-ballistic growing length scale relates to an encoding time that is sublinear in system size. To quantify the information dynamics, we develop a formalism generalizing operator spreading to non-unitary dynamics, which is of independent interest.
翻訳日:2023-01-09 13:39:50 公開日:2022-12-20
# Python の PyMC を用いたベイズ量子状態トモグラフィ

Bayesian Quantum State Tomography with Python's PyMC ( http://arxiv.org/abs/2212.10655v1 )

ライセンス: Link先を確認
Daniel J. Lum and Yaakov Weinstein(参考訳) 量子状態トモグラフィ(quantum state tomography, qst)は、通常、最大確率推定(mle)を用いて、確率関数/分布を最大化することによって、データと一貫性のある最良な状態を求める、頻繁な視点から行われる。 帰納関数は周波数を推定する適切なデータが存在するという暗黙の仮定を持つ。 データスターベッド実験では、これは実現可能な仮定であるかもしれない。 さらに、MLEは最終ソリューションのエラー見積を返さず、ユーザは追加の計測やシミュレーションデータを含む代替アプローチに頼らざるを得ない。 あるいは、ベイズ法では、データの不確実性と一致した誤差推定を持つ解を返すことができるが、確率分布に対する統合が困難になる。 積分は通常、やや複雑な問題定式化において適切な選択されたステップサイズを持つ計算方法を必要とする。 この追加の複雑さは、その利点にもかかわらずベイズ法の使用から強い抑止力となる。 確率的プログラミングは、計算能力の増大やマルコフ・チェイン・モンテカルロ(MCMC)のような堅牢な自動積分技術の開発に共通の選択肢になりつつある。 本稿では,Python-3 のオープンソース PyMC 確率型プログラミングパッケージを用いて,複雑でない QST 最適化問題を,効率的な MCMC サンプリング器で迅速に最適化できるシンプルな形式に変換する方法について述べる。

Quantum state tomography (QST) is typically performed from a frequentist viewpoint using maximum likelihood estimation (MLE) which seeks to find the best plausible state consistent with the data by maximizing a likelihood function / distribution. The likelihood function holds an implicit assumption that there is suitable data to infer frequency. In data-starved experiments, this may or may not be a feasible assumption. Moreover, MLE returns no error estimates on the final solution and users are forced to rely on alternative approaches involving either additional measurements or simulated data. Alternatively, Bayesian methods can return a solution with error estimates consistent with the data's uncertainty, but at the expense of a difficult integration over the likelihood distribution. The integration usually requires computational methods with appropriately chosen step sizes in a somewhat complicated problem formulation. This additional complexity serves as a strong deterrent from using Bayesian methods despite the advantages. Probabilistic programming is becoming a common alternative with growing computational power and the development of robust automated integration techniques such as Markov-Chain Monte Carlo (MCMC). Here, we show how to use Python-3's open source PyMC probabilistic programming package to transform an otherwise complicated QST optimization problem into a simple form that can be quickly optimized with efficient under-the-hood MCMC samplers.
翻訳日:2023-01-09 13:39:33 公開日:2022-12-20
# ガウス場を用いた永久数の多項式時間加法推定

A polynomial time additive estimate of the permanent using Gaussian fields ( http://arxiv.org/abs/2212.10672v1 )

ライセンス: Link先を確認
Tantrik Mukerji and Wei-Shih Yang(参考訳) 任意の$M \times M$ real matrix $A$ の永久性を加算誤差まで推定する多項式時間ランダム化アルゴリズムを提案する。 a$ の永続性は、中心となるジョイント・ガウス確率変数の積の期待値と見なすことにより、我々はこれを実現し、その共分散行列を「a$ のガウス埋め込み」と呼ぶ。 このアルゴリズムは、この多変量分布からサンプリングした後、この製品の経験的な平均$s_{n}$を出力する。 特に、$N$サンプルをサンプリングした後、我々のアルゴリズムは失敗確率 \begin{equation*} P(|S_{N}-\text{perm}(A)| > t) \leq \frac{3^{M}}{t^{2}N}\alpha^{2M} \end{equation*} for $\alpha \geq \|A \|$ で実行されます。

We present a polynomial-time randomized algorithm for estimating the permanent of an arbitrary $M \times M$ real matrix $A$ up to an additive error. We do this by viewing the permanent of $A$ as the expectation of a product of a centered joint Gaussian random variables whose covariance matrix we call the Gaussian embedding of $A$. The algorithm outputs the empirical mean $S_{N}$ of this product after sampling from this multivariate distribution $N$ times. In particular, after sampling $N$ samples, our algorithm runs in time $O(MN)$ with failure probability \begin{equation*} P(|S_{N}-\text{perm}(A)| > t) \leq \frac{3^{M}}{t^{2}N}\alpha^{2M} \end{equation*} for $\alpha \geq \|A \|$.
翻訳日:2023-01-09 13:39:10 公開日:2022-12-20
# 局所リンドブラディアンの定常状態に対する地域法則

Area law for steady states of detailed-balance local Lindbladians ( http://arxiv.org/abs/2212.10061v1 )

ライセンス: Link先を確認
Raz Firanko, Moshe Goldstein and Itai Arad(参考訳) 局所リンドブラディアンによって説明される量子マルコフ過程の定常状態について研究する。 我々はリンドブラディアンはギャップがあり、一意のフルランク定常状態 $\sigma$ に関して量子詳細バランスを満たすと仮定する。 リンドブラディアン項の穏やかな仮定の下では、効率的にチェックできるリンドブラディアンは、同じスペクトルを持つ二重ヒルベルト空間上の局所ハミルトニアンに写像され、$\sigma^{1/2}$のベクトル化となる基底状態が示される。 したがって、ハミルトニアン複雑性ツールを使ってそのような開系の定常状態を研究することができる。 特に、そのような1Dシステムの定常状態の相互情報における領域法則と、効率的に見つけることができるテンソルネットワーク表現を示す。

We study steady-states of quantum Markovian processes whose evolution is described by local Lindbladians. We assume that the Lindbladian is gapped and satisfies quantum detailed balance with respect to a unique full-rank steady state $\sigma$. We show that under mild assumptions on the Lindbladian terms, which can be checked efficiently, the Lindbladian can be mapped to a local Hamiltonian on a doubled Hilbert space that has the same spectrum, and a ground state that is the vectorization of $\sigma^{1/2}$. Consequently, we can use Hamiltonian complexity tools to study the steady states of such open systems. In particular, we show an area-law in the mutual information for the steady state of such 1D systems, together with a tensor-network representation that can be found efficiently.
翻訳日:2023-01-09 13:29:08 公開日:2022-12-20
# 一般化リアプノフ指数の量子境界

Quantum bounds on the generalized Lyapunov exponents ( http://arxiv.org/abs/2212.10123v1 )

ライセンス: Link先を確認
Silvia Pappalardi and Jorge Kurchan(参考訳) 正方形整流器のパワーの成長速度から定義される一般化量子リアプノフ指数 $l_q$ について考察する。 それらは、ルジャンドル変換による指数$L_q$から得られる大きな偏差関数の役割を果たす可換子のスペクトルの適切に定義された熱力学的極限に関係しているかもしれない。 このような指数は、既に文献で論じられているように、ゆらぎ-散逸定理によりカオスに一般化された境界に従うことを示す。 より大きい$q$の境界は実際にはより強く、カオス的な性質の大きな偏差に制限を課す。 無限温度における我々の発見は、量子カオスのパラダイムモデルであるキックトップの数値的研究によって示される。

We discuss the generalized quantum Lyapunov exponents $L_q$, defined from the growth rate of the powers of the square commutator. They may be related to an appropriately defined thermodynamic limit of the spectrum of the commutator, which plays the role of a large deviation function, obtained from the exponents $L_q$ via a Legendre transform. We show that such exponents obey a generalized bound to chaos due to the fluctuation-dissipation theorem, as already discussed in the literature. The bounds for larger $q$ are actually stronger, placing a limit on the large deviations of chaotic properties. Our findings at infinite temperature are exemplified by a numerical study of the kicked top, a paradigmatic model of quantum chaos.
翻訳日:2023-01-09 13:28:54 公開日:2022-12-20
# 2-2散乱におけるベル不等式

Bell inequalities in 2-2 scattering ( http://arxiv.org/abs/2212.10213v1 )

ライセンス: Link先を確認
Aninda Sinha, Ahmadullah Zahed(参考訳) 光子、重力子、フェルミオン、ピオンの2-2散乱では、アイソスピンとヘリシティの絡み合いを考慮する。 光子、重力子、フェルミオンの例はクビットを含むが、パイオンはクトリットである。 これらの過程のベルの不等式を計算する。 低エネルギーでの光子散乱の場合、qedはベル違反理論と非違反理論とを分離する理論空間の境界にほぼ存在する。 グラビトン交換と光子散乱におけるベル違反の要求により、弱重力導体が満足していることが分かる。 2-2グラビトン散乱の場合、CEMZ境界はベルの少なくとも小さな違反を許容する。 ワインバーグ角の制限は、ババ散乱におけるベル違反を要求することによって見出される。 近年のS-行列ブートストラップデータを用いて,許容S-行列空間のベルパラメータを解析した。 光子の場合、ベルパラメータをエネルギーの関数として研究し、EFT観測の支持を得る。 ピオンに対しては、Regge挙動を示すS-行列に適したベルパラメータの最小化が存在することが分かる。

For 2-2 scattering of photons, gravitons, fermions and pions, we consider entanglement in isospin and helicity. While the photon, graviton and fermion examples involve qubits, pions are qutrits. We calculate the relevant Bell inequalities for these processes. {For photon scattering at low energies, QED lies almost at the theory space boundary which separates the Bell violating theories from the non-violating theories}. Allowing for graviton exchange and demanding Bell violation in photon scattering, we find that the Weak Gravity Conjecture is satisfied. For 2-2 graviton scattering, we find that CEMZ bounds allow for at most small Bell violations. Restriction on the Weinberg angle is found by demanding Bell violation in Bhabha scattering. We use recent S-matrix bootstrap data for pions and photons to study the Bell parameter in the space of allowed S-matrices. In the photon case, we study the Bell parameters as a function of energy and find support for the EFT observations. For pions, we find that there is a minimization of a suitable Bell parameter for S-matrices which exhibit Regge behaviour.
翻訳日:2023-01-09 13:28:42 公開日:2022-12-20
# オーバーコンプリートチェック行列を用いた量子LDPC符号のニューラルリーフ伝搬デコード

Neural Belief Propagation Decoding of Quantum LDPC Codes Using Overcomplete Check Matrices ( http://arxiv.org/abs/2212.10245v1 )

ライセンス: Link先を確認
Sisi Miao, Alexander Schnerring, Haizheng Li, and Laurent Schmalen(参考訳) 漸近的に優れた量子低密度パリティチェック(QLDPC)符号の構築が成功したことで、この符号群は量子コンピューティングにおける誤り訂正スキームの候補となる。 しかし,従来のQLDPC符号の信念伝達(BP)復号化は,タナーグラフにおける避けられない短周期の存在と特別な縮退現象により満足な性能を得られない。 本研究では,元のチェック行列における行の線形結合から生成された冗長な行を持つチェック行列に基づいてQLDPCコードをデコードする。 このアプローチは、非常に低い復号遅延の利点を付加して、復号性能を大幅に改善する。 さらに,qldpc符号の第四次bpデコーダに基づく新しいニューラル信念伝達デコーダを提案する。

The recent success in constructing asymptotically good quantum low-density parity-check (QLDPC) codes makes this family of codes a promising candidate for error-correcting schemes in quantum computing. However, conventional belief propagation (BP) decoding of QLDPC codes does not yield satisfying performance due to the presence of unavoidable short cycles in their Tanner graph and the special degeneracy phenomenon. In this work, we propose to decode QLDPC codes based on a check matrix with redundant rows, generated from linear combinations of the rows in the original check matrix. This approach yields a significant improvement in decoding performance with the additional advantage of very low decoding latency. Furthermore, we propose a novel neural belief propagation decoder based on the quaternary BP decoder of QLDPC codes which leads to further decoding performance improvements.
翻訳日:2023-01-09 13:28:25 公開日:2022-12-20
# NV型量子センサの高効率・全炭素電気的読み出し

Efficient and all-carbon electrical readout of a NV based quantum sensor ( http://arxiv.org/abs/2212.10349v1 )

ライセンス: Link先を確認
Guillaume Villaret, Ludovic Mayer, Martin Schmidt, Simone Magaletti, Mary De Feudis, Matthew Markham, Andrew Edmonds, Jean-Fran\c{c}ois Roch, Thierry Debuisschert(参考訳) ダイヤモンド中の窒素空孔(NV)中心のアンサンブルのスピン読み出しは、NV電子スピン磁気共鳴の光学的検出と相補的な方法である光伝導性検出によって実現できる。 本稿では,光電流を収集するグラファイト平面電極を用いて光伝導検出を行う。 窒素濃度~1ppm、nv濃度数ppbを含む光学グレードのダイヤモンド結晶上にキセノン集束イオンビームを用いてグラファイト電極をパターニングする。 nvドープダイヤモンド接合の抵抗と電流電圧特性を532nmポンプビーム強度に調整した。 接合部はオーミック挙動を持ち,強いバイアス場下では,ダイヤモンド接合部における光誘起キャリアの速度飽和を観測する。 我々は,100mT以上の大きさで<100>および<111>方向の磁場に対して,NV中心の磁気共鳴の連続波状態の光導電性検出を行う。この技術により,電気的読み出しのためにグラファイト微細構造を統合する全炭素ダイヤモンド量子センサの実現が可能となる。

The spin readout of an ensemble of nitrogen-vacancy (NV) centers in diamond can be realized by a photoconductive detection that is a complementary method to the optical detection of the NV electron spin magnetic resonance. Here, we implement the photoconductive detection through graphitic planar electrodes that collect the photocurrent. Graphitic electrodes are patterned using a xenon Focused-Ion Beam on an Optical-Grade quality diamond crystal containing a nitrogen concentration of ~1 ppm and a NV concentration of a few ppb. Resistance and current-voltage characteristics of the NV-doped diamond junction are investigated tuning the 532 nm pump beam intensity. The junction has an ohmic behavior and under a strong bias field, we observe velocity saturation of the optically-induced carriers in the diamond junction. We perform the photoconductive detection in continuous-wave regime of the magnetic resonance of the NV centers ensemble for a magnetic field applied along the <100> and the <111> direction with a magnitude above 100 mT. This technique enables the realization of all-carbon diamond quantum sensors integrating graphitic microstructures for the electrical readout.
翻訳日:2023-01-09 13:28:12 公開日:2022-12-20
# クリロフ状態と作用素複素量に対する普遍的アプローチ

A universal approach to Krylov State and Operator complexities ( http://arxiv.org/abs/2212.10583v1 )

ライセンス: Link先を確認
Mohsen Alishahiha and Souvik Banerjee(参考訳) 我々は、Krylov状態と演算子複雑性の両方を同じ足場に配置できる一般的な枠組みを提案する。 我々の形式論において、クリロフ複雑性は、作用素複雑性に対してチャネル状態写像によって得られる二重ヒルベルト空間上に存在する関連する状態の密度行列によって定義される。 この密度行列の観点からの複雑性の統一定義により、クリロフ複雑性の概念を部分領域あるいは混合状態複雑性に拡張し、また自然にクリロフ相互複雑度にも拡張することができる。 このフレームワークは、複雑さというホログラフィック概念をうまく包含していることを示す。

We present a general framework in which both Krylov state and operator complexities can be put on the same footing. In our formalism, the Krylov complexity is defined in terms of the density matrix of the associated state which, for the operator complexity, lives on a doubled Hilbert space obtained through the channel-state map. This unified definition of complexity in terms of the density matrices enables us to extend the notion of Krylov complexity, to subregion or mixed state complexities and also naturally to the Krylov mutual complexity. We show that this framework also encompasses nicely the holographic notions of complexity.
翻訳日:2023-01-09 13:27:53 公開日:2022-12-20
# 非単位周期ガウス回路における体積法則と領域法則絡み遷移

Volume-law to area-law entanglement transition in a non-unitary periodic Gaussian circuit ( http://arxiv.org/abs/2212.10584v1 )

ライセンス: Link先を確認
Etienne Granet, Carolyn Zhang, and Henrik Dreyer(参考訳) 空間変換対称性と時間周期性を備えた一意ゲートと選択後弱測定を交互に行うガウス量子回路を考える。 本研究では, エントロピーによって検出される異なる種類の測定誘起相転移を, 時間発展をM\\\obius変換にマッピングすることにより, 解析的に観測できることを示す。 我々は,地域法移行に対するログ法の存在と,地域法移行に対するボリューム法の存在を実証する。 後者については、ハートリー、フォン・ノイマン、R'enyiエントロピーの臨界指数$\nu$を正確に計算する。

We consider Gaussian quantum circuits that alternate unitary gates and post-selected weak measurements, with spatial translation symmetry and time periodicity. We show analytically that such models can host different kinds of measurement-induced phase transitions detected by entanglement entropy, by mapping the time evolution to M\"obius transformations. We demonstrate the existence of a log-law to area-law transition, as well as a volume-law to area-law transition. For the latter, we compute the critical exponent $\nu$ for the Hartley, von Neumann and R\'enyi entropies exactly.
翻訳日:2023-01-09 13:27:42 公開日:2022-12-20
# 分散量子コンピューティング:調査

Distributed Quantum Computing: a Survey ( http://arxiv.org/abs/2212.10609v1 )

ライセンス: Link先を確認
Marcello Caleffi, Michele Amoretti, Davide Ferrari, Daniele Cuomo, Jessica Illiano, Antonio Manzalini, Angela Sara Cacciapuoti(参考訳) 現在、量子コンピューティングは数百のノイズ量子ビットを統合した完全機能量子プロセッサで工学的な段階に達している。 しかし、ラボから量子コンピューティングの可能性を完全に明らかにし、ビジネスの現実に広めるために、今後の課題は、クビット数を実質的にスケールし、何千(数百万)ものノイズのないクビットを超過することである。 この目的のために、複数の中規模から小規模の量子プロセッサが通信し、協調して1つの処理装置で利用可能な計算資源を超える計算タスクを実行することを想定し、分散コンピューティングパラダイムをそのようなスケーリングを実現するための鍵となるソリューションとして、学術と産業の双方のコミュニティの間で幅広いコンセンサスがある。 本調査の目的は,分散量子コンピューティングが生み出す主な課題とオープンな問題の概要を読者に提供することであり,関連する文献や計算機・通信工学的観点からの顕著な結果への簡単なアクセスとガイドを提供することである。

Nowadays, quantum computing has reached the engineering phase, with fully-functional quantum processors integrating hundred of noisy qubits available. Yet -- to fully unveil the potential of quantum computing out of the labs and into business reality -- the challenge ahead is to substantially scale the qubit number, reaching orders of magnitude exceeding the thousands (if not millions) of noise-free qubits. To this aim, there exists a broad consensus among both academic and industry communities about considering the distributed computing paradigm as the key solution for achieving such a scaling, by envision multiple moderate-to-small-scale quantum processors communicating and cooperating to execute computational tasks exceeding the computational resources available within a single processing device. The aim of this survey is to provide the reader with an overview about the main challenges and open problems arising with distributed quantum computing, and with an easy access and guide towards the relevant literature and the prominent results from a computer/communications engineering perspective.
翻訳日:2023-01-09 13:12:37 公開日:2022-12-20
# 液体ヘリウム上の量子ドットにおけるスピンダイナミクス

Spin dynamics in quantum dots on liquid helium ( http://arxiv.org/abs/2212.10683v1 )

ライセンス: Link先を確認
M. I. Dykman, Ofek Asban, Qianfan Chen, Dafei Jin, and S. A. Lyon(参考訳) 液体のHe-4は磁気欠陥がなく、長いスピン状態を持つ電子の理想的な基板となる。 そのような状態はキュービット状態として機能する。 ここでは、ヘリウム表面上の量子ドットに静電的に局在する電子のスピン状態を考える。 このシステムの効率的なゲート演算はスピン軌道結合を必要とする。 電流搬送線から不均一な磁場を発生させ、オン・オフすることができ、隣接する点において大きな電子双極子モーメントと比較的高速なスピン結合を得ることができる。 中心的な重要性はスピン軌道結合によるスピン崩壊を理解することである。 このような崩壊の先導機構を確立し、崩壊が十分に遅いことを示し、高忠実度単一および2量子ゲート操作を可能にする。

Liquid He-4 is free from magnetic defects, making it an ideal substrate for electrons with long-lived spin states. Such states can serve as qubit states. Here we consider the spin states of electrons electrostatically localized in quantum dots on a helium surface. Efficient gate operations in this system require spin-orbit coupling. It can be created by a nonuniform magnetic field from a current-carrying wire, can be turned on and off, and allows one to obtain large electro-dipole moment and comparatively fast coupling of spins in neighboring dots. Of central importance is to understand the spin decay due to the spin-orbit coupling. We establish the leading mechanism of such decay and show that the decay is sufficiently slow to enable high-fidelity single- and two-qubit gate operations
翻訳日:2023-01-09 13:12:19 公開日:2022-12-20
# GRUを用いた疎結合RNNを用いた痛みレベルと痛み関連行動分類

Pain level and pain-related behaviour classification using GRU-based sparsely-connected RNNs ( http://arxiv.org/abs/2212.14806v1 )

ライセンス: Link先を確認
Mohammad Mahdi Dehshibi and Temitayo Olugbade and Fernando Diaz-de-Maria and Nadia Bianchi-Berthouze and Ana Tajadura-Jim\'enez(参考訳) バイオメトリックス分析にディープラーニングを適用するための研究団体が増えている。 しかし、特定の状況は、提案する生体データ分析手法の客観的測定と精度を損なう可能性がある。 例えば、慢性的な痛み(CP)を持つ人は、特定の身体の動きを無意識に適応させ、怪我や追加的な痛みから身を守る。 この相関を解析する専用のベンチマークデータベースがないため,日常活動中に生体計測に影響を及ぼす可能性のある特定の状況の一つを検討し,エモパインデータベースにおける痛みレベルと痛み関連行動の分類を行った。 そこで我々は,共有学習フレームワークを用いて複数のオートエンコーダを組み込んだ,ゲートリカレントユニット(GRU)と疎結合なリカレントニューラルネットワーク(s-RNN)アンサンブルを提案する。 このアーキテクチャは、慣性測定ユニット(IMU)と表面筋電図センサ(sEMG)から収集した多次元データによって供給される。 さらに,s-rnnの潜在空間において完全に表現されない時間次元の変化を補うために,共有隠れ状態において表現された特徴を持つ情報理論的なアプローチから得られた手作りの特徴を融合した。 提案法が痛みレベルと痛み関連行動の分類において最先端のアプローチを上回っていることを示す実験を複数実施した。

There is a growing body of studies on applying deep learning to biometrics analysis. Certain circumstances, however, could impair the objective measures and accuracy of the proposed biometric data analysis methods. For instance, people with chronic pain (CP) unconsciously adapt specific body movements to protect themselves from injury or additional pain. Because there is no dedicated benchmark database to analyse this correlation, we considered one of the specific circumstances that potentially influence a person's biometrics during daily activities in this study and classified pain level and pain-related behaviour in the EmoPain database. To achieve this, we proposed a sparsely-connected recurrent neural networks (s-RNNs) ensemble with the gated recurrent unit (GRU) that incorporates multiple autoencoders using a shared training framework. This architecture is fed by multidimensional data collected from inertial measurement unit (IMU) and surface electromyography (sEMG) sensors. Furthermore, to compensate for variations in the temporal dimension that may not be perfectly represented in the latent space of s-RNNs, we fused hand-crafted features derived from information-theoretic approaches with represented features in the shared hidden state. We conducted several experiments which indicate that the proposed method outperforms the state-of-the-art approaches in classifying both pain level and pain-related behaviour.
翻訳日:2023-01-09 13:11:41 公開日:2022-12-20
# 中性原子2量子ゲートのロバスト制御と最適リドバーグ状態

Robust control and optimal Rydberg states for neutral atom two-qubit gates ( http://arxiv.org/abs/2212.10159v1 )

ライセンス: Link先を確認
Madhav Mohan, Robert de Keijzer, Servaas Kokkelmans(参考訳) Rydberg状態を利用した中性原子プラットフォーム上での実験制御の偏差に対する2量子ゲートの堅牢性について検討する。 我々は,高ベル状態の忠実度を維持できる量子最適制御技術を用いて,結合強度をライドバーグ状態に有意な偏差がある場合に,ロバストなCZゲートを構築する。 このような偏差は、不均一結合場におけるレーザー強度ノイズと原子運動から生じる。 また,レーザデチューニングの偏差による誤差を軽減する手法についても論じる。 設計されたパルスは、自発放射と黒体放射によって設定された基本的な崩壊時間スケールと比較して短い時間スケールで動作する。 我々は、最適化と忠実度計算の両方において、ライドバーグ状態の有限寿命を考慮し、これはゲートをノイズの多い中間スケール量子実験に導出する。 我々は、ストロンチウム88原子の不忠実性に関連する物理的特性(寿命、偏光性、閉塞強度など)を計算し、これらの計算を用いて、我々のプロトコルの最適リドバーグ状態を特定する。

We investigate the robustness of two-qubit gates to deviations of experimental controls, on a neutral atom platform utilizing Rydberg states. We construct robust CZ gates - employing techniques from quantum optimal control - that retain high Bell state fidelity $F > 0.999$ in the presence of significant deviations of the coupling strength to the Rydberg state. Such deviations can arise from laser intensity noise and atomic motion in an inhomogeneous coupling field. We also discuss methods to mitigate errors due to deviations of the laser detuning. The designed pulses operate on timescales that are short compared to the fundamental decay timescale set by spontaneous emission and blackbody radiation. We account for the finite lifetime of the Rydberg state in both the optimisation and fidelity calculations - this makes the gates conducive to noisy intermediate-scale quantum experiments, meaning that our protocols can reduce infidelity on near-term quantum computing devices. We calculate physical properties associated with infidelity for strontium-88 atoms - including lifetimes, polarisabilities and blockade strengths - and use these calculations to identify optimal Rydberg states for our protocols, which allows for further minimisation of infidelity.
翻訳日:2023-01-09 13:03:38 公開日:2022-12-20
# 部分的遷移モーメントからの絡み合い位相図

Entanglement phase diagrams from partial transpose moments ( http://arxiv.org/abs/2212.10181v1 )

ライセンス: Link先を確認
Jose Carrasco, Matteo Votto, Vittorio Vitale, Christian Kokail, Antoine Neven, Peter Zoller, Beno\^it Vermersch, Barbara Kraus(参考訳) ランダムに絡み合った状態の様々な族を区別するために,実験および数値的にアクセス可能な量を示す。 この目的のために,三成分純状態の2成分還元状態の絡み合い特性を解析した。 部分置換された還元密度行列の低次モーメントの単純多項式の比率を導入し、この比がエンタングル状態の様々な族に対する熱力学的極限においてよく定義された値を取ることを示した。 これにより、部分的に変換された密度行列のスペクトルに基づいて量子情報の観点から理解できる方法で、絡み合い位相を鋭く区別することができる。 我々は特にハールランダム状態の絡み合い位相図、結果としてカオスハミルトニアン、安定化状態、クリフォード回路、行列生成状態、フェルミオンガウス状態の出力を形成する状態を分析した。 ハール乱数の場合、結果として得られる位相図はネガティビティによって得られるものと似ており、上述の全ての場合において非常に特徴的な振る舞いが観察される。 この結果は、量子コンピュータやプログラム可能な量子シミュレータで形成される量子状態において、異なる種類の混合状態ランダム性に必要な条件を実験的にテストするために使用できる。

We present experimentally and numerically accessible quantities that can be used to differentiate among various families of random entangled states. To this end, we analyze the entanglement properties of bipartite reduced states of a tripartite pure state. We introduce a ratio of simple polynomials of low-order moments of the partially transposed reduced density matrix and show that this ratio takes well-defined values in the thermodynamic limit for various families of entangled states. This allows to sharply distinguish entanglement phases, in a way that can be understood from a quantum information perspective based on the spectrum of the partially transposed density matrix. We analyze in particular the entanglement phase diagram of Haar random states, states resulting form the evolution of chaotic Hamiltonians, stabilizer states, which are outputs of Clifford circuits, Matrix Product States, and fermionic Gaussian states. We show that for Haar random states the resulting phase diagram resembles the one obtained via the negativity and that for all the cases mentioned above a very distinctive behaviour is observed. Our results can be used to experimentally test necessary conditions for different types of mixed-state randomness, in quantum states formed in quantum computers and programmable quantum simulators.
翻訳日:2023-01-09 13:03:14 公開日:2022-12-20
# 繰り返し相互作用系における連続監視二重量子ドット熱エンジンの熱力学

Thermodynamics of a continuously monitored double quantum dot heat engine in the repeated interactions framework ( http://arxiv.org/abs/2212.10193v1 )

ライセンス: Link先を確認
Laetitia P. Bettmann, Michael J. Kewming and John Goold(参考訳) 量子力学系における測定の熱力学的役割を理解することは、急成長する研究分野である。 本稿では,2つの熱貯留層に結合した二重量子ドット(DQD)について検討する。 DQDは、電荷検出器として機能する量子点接触(QPC)によって継続的に監視されていると仮定する。 QPCと貯水池のミニマリスト顕微鏡モデルから、DQDの局所マスター方程式は、繰り返し相互作用の枠組みから導出できることを示し、この枠組みは、DQDとその環境(QPCを含む)の熱力学的に一貫した記述を保証する。 測定強度の影響を解析し,dqdを経由する粒子輸送がデファスメントによって支援・安定化される状態を特定する。 また, 粒子電流をDQDを介して一定相対ゆらぎで駆動するエントロピーコストも低減されることがわかった。 したがって, 連続測定では, より一定な粒子電流を一定エントロピーコストで得ることができる。

Understanding the thermodynamic role of measurement in quantum mechanical systems is a burgeoning field of study. In this article, we study a double quantum dot (DQD) connected to two macroscopic fermionic thermal reservoirs. We assume that the DQD is continuously monitored by a quantum point contact (QPC), which serves as a charge detector. Starting from a minimalist microscopic model for the QPC and reservoirs, we show that the local master equation of the DQD can alternatively be derived in the framework of repeated interactions and that this framework guarantees a thermodynamically consistent description of the DQD and its environment (including the QPC). We analyze the effect of the measurement strength and identify a regime in which particle transport through the DQD is both assisted and stabilized by dephasing. We also find that in this regime the entropic cost of driving the particle current with fixed relative fluctuations through the DQD is reduced. We thus conclude that under continuous measurement a more constant particle current may be achieved at a fixed entropic cost.
翻訳日:2023-01-09 13:02:53 公開日:2022-12-20
# 開量子光学系における非平衡熱力学と発電

Nonequilibrium thermodynamics and power generation in open quantum optomechanical systems ( http://arxiv.org/abs/2212.10194v1 )

ライセンス: Link先を確認
Paulo J. Paulino, Igor Lesanovsky, Federico Carollo(参考訳) キャビティ光力学システムは、電磁エネルギーを機械作業に変換するためのパラダイム的設定である。 キャビティモードに結合した原子の実験は非平衡状態において実現され、非熱的散逸ダイナミクスをエンコードし、弱い系-バスカップリングの枠組みの外へ落下する現象論的モデルによって記述される。 この事実は量子エンジンとして解釈する(例えば、明確に定義された効率の導出)。 ここでは、開量子空洞-原子系の一貫した熱力学的記述を示す。 我々のアプローチは、その非平衡の性質を生かし、持続的な放熱電流の観点から完全に解釈可能なエネルギー収支に達する。 原子とキャビティモードの相互作用は、さらに非平衡相転移と創発的挙動を生じさせ、集合的多体現象がエンジン操作に与える影響を評価することができる。 これを実現するために、弱と強光力学的結合に関する2つの熱力学的限界を定義する。 我々は, 時間結晶エンジンに着目したアイデアを説明し, 発電, エネルギー変換効率, メタ安定挙動の出現について考察する。

Cavity optomechanical systems are a paradigmatic setting for the conversion of electromagnetic energy into mechanical work. Experiments with atoms coupled to cavity modes are realized in nonequilibrium conditions, described by phenomenological models encoding non-thermal dissipative dynamics and falling outside the framework of weak system-bath couplings. This fact makes their interpretation as quantum engines, e.g., the derivation of a well-defined efficiency, quite challenging. Here, we present a consistent thermodynamic description of open quantum cavity-atom systems. Our approach takes advantage of their nonequilibrium nature and arrives at an energetic balance which is fully interpretable in terms of persistent dissipated heat currents. The interaction between atoms and cavity modes can further give rise to nonequilibrium phase transitions and emergent behavior and allows to assess the impact of collective many-body phenomena on the engine operation. To enable this, we define two thermodynamic limits related to a weak and to a strong optomechanical coupling, respectively. We illustrate our ideas focussing on a time-crystal engine and discuss power generation, energy-conversion efficiency, and emergence of metastable behavior in both limits.
翻訳日:2023-01-09 13:02:34 公開日:2022-12-20
# インスタントンとカオスへの量子バウンド

Instantons and the quantum bound to chaos ( http://arxiv.org/abs/2212.10202v1 )

ライセンス: Link先を確認
Vijay Ganesh Sadhasivam, Lars Meuser, David R. Reichman, Stuart C. Althorpe(参考訳) out-of-time-ordered correlators (otocs) は、量子スクランブルや情報損失(いわゆる「量子カオス」)を定量化するために用いられる。 顕著な予測は、リアプノフ指数が普遍有界$\lambda < {2 \pi k_B T}/\hbar$に従うことである。 ここでは, リングポリマー分子動力学(RPMD)を古典的なカオス二重井戸に適用することにより, 境界の統計的起源を解明する。 otoc の指数的成長の時間スケールについて、rpmd は量子ボルツマン分布を保存する性質を持つ(拡張位相空間における)人工古典力学である。 この性質だけでは RPMD OTOC が境界を満たすのに十分であり、これは障壁瞬間における虚時間作用のヘッセンによってカオス的な RPMD 軌道に課される。 同様のインスタントンは、観測された多種多様なシステムの多くの(おそらくは)オトク結合と関連している可能性が高い。

Out-of-time-ordered correlators (OTOCs) can be used to quantify quantum scrambling or information loss (loosely referred to as `quantum chaos'). A remarkable prediction is that the associated Lyapunov exponent obeys a universal bound $\lambda < {2 \pi k_B T}/\hbar$. Here we investigate the statistical origin of the bound by applying ring-polymer molecular dynamics (RPMD) to a classically chaotic double well. On the timescale for exponential growth of the OTOC, RPMD is an artificial classical dynamics (in an extended phase space), which has the property of conserving the quantum Boltzmann distribution. We find that this property alone is sufficient to make the RPMD OTOC satisfy the bound, which is imposed on the chaotic RPMD trajectories by the Hessian of the imaginary-time action at the barrier instanton. Similar instantons are likely to be associated with the OTOC bound in many (perhaps all) of the diverse range of systems in which it has been observed.
翻訳日:2023-01-09 13:02:11 公開日:2022-12-20
# 単ビーム構造光波における非弾性電子散乱

Inelastic Electron Scattering at a Single-Beam Structured Light Wave ( http://arxiv.org/abs/2212.10255v1 )

ライセンス: Link先を確認
Sven Ebel and Nahid Talebi(参考訳) 本研究は,Hermite-Gaussian光の伝播における低速電子波束の非弾性散乱を実証する。 パルスヘルミート-ガウスビームは、十分な運動量成分を持つ電子の雷動電位を形成し、電子の非弾性散乱と、その束が長手方向に沿う。 相互作用後のエネルギー-利得スペクトルは、この偏移ポテンシャルにおける電子の自己干渉に強く影響されていることを示す。 この効果は様々な光波長や強度に対して観測可能であることが示され、さらに電子速度と光強度の変化が電子ウェーブパレットのエネルギー変調を制御するのにどう役立つかを議論する。 この効果により、構造電磁界の広大な景観を利用して電子波束を操作する新しいプラットフォームが開かれる。

In this work we demonstrate the inelastic scattering of slow-electron wavepackets at a propagating Hermite-Gaussian light beam. The pulsed Hermite-Gaussian beam thereby forms a pondermotive potential for the electron with large enough momentum components, leading to the inelastic scattering of electrons and their bunching along the longitudinal direction. We show that the resulting energy-gain spectra after the interaction is strongly influenced by the self-interference of the electron in this pondermotive potential. It is shown that this effect is observable for various optical wavelengths and intensities and further discuss how the variation of the electron velocity and the light intensity allow to control the energy modulation of the electron wavepacket. This effect opens up a new platform for manipulating the electron wavepacket by utilizing the vast landscape of structured electromagnetic fields.
翻訳日:2023-01-09 13:01:49 公開日:2022-12-20
# 6H-SiCの異なるシリコン空孔中心の同定

Identification of different silicon vacancy centers in 6H-SiC ( http://arxiv.org/abs/2212.10256v1 )

ライセンス: Link先を確認
Harpreet Singh, Andrei N. Anisimov, Pavel G. Baranov and Dieter Suter(参考訳) ケイ素炭化ケイ素(SiC)のケイ素空孔は、量子センシングや量子リピータといった量子技術応用の興味深い候補として提案されている。 SiCは平面積層配列が異なる多くのポリタイプに存在し、各ポリタイプでは、空孔は様々な格子部位を占めることができる。 本研究では6H-SiC多型における3つの重要な荷電シリコン空孔の特性と同定を行う。 光発光と連続波による磁気共鳴スペクトルを異なる周波数のパワーレベルと異なる温度で記録した。 異なるシリコン空孔のゼロフォノン線を低温で個別に選択し、対応する光検出磁気共鳴(ODMR)スペクトルを記録する。 ODMRは光と磁気共鳴のスペクトルを相関させ、初期の研究から論争を解決する。

Silicon vacancies in silicon carbide (SiC) have been proposed as interesting candidates for quantum technology applications such as quantum sensing and quantum repeaters. SiC exists in many polytypes with different plane stacking sequences, and in each polytype, the vacancies can occupy a variety of different lattice sites. In this work, we characterize and identify the three most important charged silicon vacancies in the 6H-SiC polytype. We record the photoluminescence and continuous-wave optically detected magnetic resonance spectra at different radio-frequency power levels and different temperatures. We individually select the zero-phonon lines of the different silicon vacancies at low temperatures and record the corresponding optically detected magnetic resonance (ODMR) spectra. ODMR allows us to correlate optical and magnetic resonance spectra and thereby resolve a controversy from earlier work.
翻訳日:2023-01-09 13:01:36 公開日:2022-12-20
# bi-photon空間モードデマルチプレキシンの高分解能化

Super-resolution enhancement in bi-photon spatial mode demultiplexin ( http://arxiv.org/abs/2212.10468v1 )

ライセンス: Link先を確認
Florence Grenapin, Dilip Paneru, Alessio D'Errico, Vincenzo Grillo, Gerd Leuchs, Ebrahim Karimi(参考訳) 遠方界の強度を測定するイメージングシステムは、光学系の有限開口によって引き起こされる解像度制限であるレイリーの呪いに屈する。 多くのプリンシプルと2次元イメージング実験により、空間モードデマルチプレックス(SPADE)を用いて収集されたフィールド情報は最大であり、レイリー基準を超えて分解能が増大することが示されている。 さらに、SPADEアプローチはガウス波動関数の側面分割を解くことに基づいている。 ここでは、光場が双光子源、すなわち自発パラメトリックダウンコンバージョンに由来する場合について考察し、2つの光子のうちの1つに水平分離を導入する。 両光子をHermite-Gaussモードで投影した後, 同時計測により信号光子アーム内での分離を超解けることを示す。 驚くべきことに、測定に関連するフィッシャー情報は、通常のスペード法に比べて$\sqrt{k}$で強化され、ここで$k$は、2つの光子間の空間的絡み合いの量を定量化する2光子状態のシュミット数である。

Imaging systems measuring intensity in the far field succumb to Rayleigh's curse, a resolution limitation dictated by the finite aperture of the optical system. Many proof-of-principle and some two-dimensional imaging experiments have shown that, by using spatial mode demultiplexing (SPADE), the field information collected is maximal, and thus, the resolution increases beyond the Rayleigh criterion. Hitherto, the SPADE approaches are based on resolving the lateral splitting of a Gaussian wavefunction. Here, we consider the case in which the light field originates from a bi-photon source, i.e. spontaneous parametric down-conversion, and a horizontal separation is introduced in one of the two photons. We show that a separation induced in the signal photon arm can be super-resolved using coincidence measurements after projecting both photons on Hermite-Gauss modes. Remarkably the Fisher information associated with the measurement is enhanced compared to the ordinary SPADE techniques by $\sqrt{K}$, where $K$ is the Schmidt number of the two-photon state that quantifies the amount of spatial entanglement between the two photons.
翻訳日:2023-01-09 13:01:25 公開日:2022-12-20
# 糸状双極子を用いたスピンスクイージング:浅い格子の例

Spin Squeezing with Itinerant Dipoles: A Case for Shallow Lattices ( http://arxiv.org/abs/2212.10470v1 )

ライセンス: Link先を確認
David Wellnitz, Mikhail Mamaev, Thomas Bilitewski, Ana Maria Rey(参考訳) 格子モデルにおける双極子相互作用によって生じる絡み合ったスピンシュイーズ状態は、量子強化センシングにユニークな機会を与え、現在の実験の範囲内にある。 この文脈における重要な問題は、パラメータレジームが現実的な条件下で最良の見通しを提供するかである。 深い格子内の光散乱は顕著な非干渉と強いスタークシフトを引き起こすが、浅い格子は基本的な障害として運動的デコヒーレンスに直面する。 ここでは, 1次元鎖におけるイテナントフェルミオン双極子における運動とスピンスクイーズ間の相互作用を, 正確な行列積シミュレーションを用いて解析する。 浅層格子は, 低充填, 損失, 脱コヒーレンスの存在下でも, 3dB以上の深層格子よりも優れた5dB以上のスチーズを達成できることを実証した。 我々は、この発見をsu(2)対称な超交換相互作用に関連づけ、スピンのアライメントを保ち、集団相関を保護する。 最大スクイージング時間と最適スクイージング時間とのトレードオフにより,小さな反発的オフサイト相互作用において最適レジームが達成されることを示す。

Entangled spin squeezed states generated via dipolar interactions in lattice models provide unique opportunities for quantum enhanced sensing and are now within reach of current experiments. A critical question in this context is which parameter regimes offer the best prospects under realistic conditions. Light scattering in deep lattices can induce significant decoherence and strong Stark shifts, while shallow lattices face motional decoherence as a fundamental obstacle. Here we analyze the interplay between motion and spin squeezing in itinerant fermionic dipoles in one dimensional chains using exact matrix product state simulations. We demonstrate that shallow lattices can achieve more than 5dB of squeezing, outperforming deep lattices by up to more than 3dB, even in the presence of low filling, loss and decoherence. We relate this finding to SU(2)-symmetric superexchange interactions, which keep spins aligned and protect collective correlations. We show that the optimal regime is achieved for small repulsive off-site interactions, with a trade-off between maximal squeezing and optimal squeezing time.
翻訳日:2023-01-09 13:01:05 公開日:2022-12-20
# 絡み合いによって生じるシャープ複雑性相転移

Sharp complexity phase transitions generated by entanglement ( http://arxiv.org/abs/2212.10582v1 )

ライセンス: Link先を確認
Soumik Ghosh, Abhinav Deshpande, Dominik Hangleiter, Alexey V. Gorshkov, Bill Fefferman(参考訳) エンタングルメント(英: entanglement)は量子系の物理的性質の一つで、シミュレーション量子系の計算硬度に責任がある。 しかし、特定のアルゴリズム、特にテンソルネットワークアルゴリズムのランタイムは、システム内の絡み合いの量に明示的に依存するが、この接続が深く動き、絡み合いが本質的にアルゴリズムに依存しない複雑さを引き起こす可能性があるかどうかは不明である。 本研究では、ある量子系に存在する絡み合いを、それらの系をシミュレートする計算複雑性と定量的に結びつける。 さらに,システムパラメータの関数として,絡み合いと複雑性を完全に特徴付ける。 具体的には、$k$-正規グラフ状態のシングルキュービット測定を$n$ qubits上でシミュレートする作業を検討する。 正規性パラメータが$$$から$n-1$に増加すると、低いエンタングルを持つ簡単なレジームから、高いエンタングルメントが$k=3$のハードレジームへの急激な遷移と、$k=n-3$の容易で低いエンタングルメントへの復帰が示されている。 重要な技術的結果として、低正則と高正則の間の正則グラフ状態のシミュレーション複雑性の双対性が証明される。

Entanglement is one of the physical properties of quantum systems responsible for the computational hardness of simulating quantum systems. But while the runtime of specific algorithms, notably tensor network algorithms, explicitly depends on the amount of entanglement in the system, it is unknown whether this connection runs deeper and entanglement can also cause inherent, algorithm-independent complexity. In this work, we quantitatively connect the entanglement present in certain quantum systems to the computational complexity of simulating those systems. Moreover, we completely characterize the entanglement and complexity as a function of a system parameter. Specifically, we consider the task of simulating single-qubit measurements of $k$--regular graph states on $n$ qubits. We show that, as the regularity parameter is increased from $1$ to $n-1$, there is a sharp transition from an easy regime with low entanglement to a hard regime with high entanglement at $k=3$, and a transition back to easy and low entanglement at $k=n-3$. As a key technical result, we prove a duality for the simulation complexity of regular graph states between low and high regularity.
翻訳日:2023-01-09 13:00:43 公開日:2022-12-20
# 量子デバイスにおけるカップリングマップ制約付き相関測定誤差の緩和

Mitigating Coupling Map Constrained Correlated Measurement Errors on Quantum Devices ( http://arxiv.org/abs/2212.10642v1 )

ライセンス: Link先を確認
Alan Robertson, Shuaiwen Leon Song(参考訳) 本稿では,現代の超伝導量子デバイスでよく見られる状態依存および相関測定誤差の抑制手法を紹介する。 提案手法では, 相関誤差を量子デバイス上で物理的に局所化し, デバイス結合マップ上で特性化を行い, 重なり合う測定キャリブレーションを連続したスパース行列として結合する。 これを 'Coupling Map Calibration' と呼ぶ。 提案する誤差軽減システム設計の利点を,現在のibm量子デバイスに適用して定量的に実証する。 一般的なベンチマーク回路の実験結果から,従来の誤差低減法と比較して,量子デバイスの実行回数を増大させることなく,エラー率を411\%削減できることを示した。

We introduce a technique for the suppression of state-dependent and correlated measurement errors, which are commonly observed on modern superconducting quantum devices. Our method leverages previous results, establishing that correlated errors tend to be physically localised on quantum devices to perform characterisations over the coupling map of the device, and to join overlapping measurement calibrations as a series of sparse matrices. We term this `Coupling Map Calibration'. We quantitatively demonstrate the advantages of our proposed error mitigation system design across a range of current IBM quantum devices. Our experimental results on common benchmark circuits demonstrate up to a $41\%$ reduction in the error rate without increasing the number of executions of the quantum device required when compared to conventional error mitigation methods.
翻訳日:2023-01-09 08:20:52 公開日:2022-12-20
# フォトニックシステムにおける量子エンタングルメントの生成, キャラクタリゼーション, および操作

Creation, Characterization, and Manipulation of Quantum Entanglement in a Photonic System ( http://arxiv.org/abs/2212.10658v1 )

ライセンス: Link先を確認
Ashutosh Singh(参考訳) 本論文では,フォトニックシステムにおける量子エンタングルメントの生成,キャラクタリゼーション,および操作に関する理論的および実験的研究を報告する。 量子エンタングルメントの2つの異なる側面について検討する。まず,SPDCを用いた偏光結合光子源の調製と特性評価のための実験的手法について考察する。 本研究では,非最大エンタングル2量子状態に対する異なるエンタングルメント対策の比較検討を行い,この解析を高次元システムに拡張する。 第2部では、振幅減衰チャネルの存在下での2量子系の絡み合いのダイナミクスを考察し、絡み合いを急激な死から守るための局所的なユニタリ演算に基づくスキームを提案する。 本稿では, qubit-qutrit および qutrit-qutrit のエンタングルシステムに対するデコヒーレンス研究を拡張し, 高次元システムに対するエンタングルメント保護スキームを提案する。

In this thesis, we report the theoretical and experimental investigations towards the creation, characterization, and manipulation of quantum entanglement in a photonic system. We examine two different aspects of quantum entanglement: In the first part, we discuss the experimental method for the preparation and characterization of SPDC-based polarization-entangled photon source. We provide a review study comparing different Entanglement Measures for non-maximally entangled two-qubit pure states and extend this analysis to higher-dimensional systems. In the second part, we study the entanglement dynamics of a two-qubit system in the presence of an Amplitude Damping Channel and present a scheme based on local unitary operations to protect entanglement from undergoing Entanglement Sudden Death. We extend the decoherence study to qubit-qutrit and qutrit-qutrit entangled systems and propose an entanglement protection scheme for the higher dimensional system.
翻訳日:2023-01-09 08:20:38 公開日:2022-12-20
# LOCCを超える単一複写混合状態からの絡み合った状態蒸留

Entangled state distillation from single copy mixed states beyond LOCC ( http://arxiv.org/abs/2212.10664v1 )

ライセンス: Link先を確認
Indranil Biswas, Atanu Bhunia, Indrani Chattopadhyay and Debasis Sarkar(参考訳) 2\otimes 2$または2\otimes 3$の混合状態から分離可能な操作によって純粋なエンタングル状態は蒸留できない。 3ドルでは、純粋な絡み合いは分離可能な操作で蒸留できるが、LOCCでは蒸留できない。 このレターでは, LOCCによる2, 2-otimes 4$システムに対する純粋な絡み合いを蒸留し, さらに高次元において, $m+n \geqslant 3d$のときの分離操作により, $m\otimes n$混合状態からSchmidtランクの純粋な絡み合い状態を$d$で蒸留することができる,という予想(PRL. 103, 110502 (2009))を証明した。 ターゲット状態が$d$レベルのGHZ型トリパーティイトシステムの結果を得た。 これらの結果は、分離可能な操作がLOCCよりも強くなるシステムのクラスを提供する。

No pure entangled state can be distilled from a $2\otimes 2$ or $2\otimes 3$ mixed state by separable operations. In $3\otimes 3$, pure entanglement can be distilled by separable operation but not by LOCC. In this letter, we proved the conjecture [PRL. 103, 110502 (2009)] that it is possible to distill pure entanglement for $2\otimes 4$ system by LOCC and further improve these in higher dimensions to distill a pure entangled state of Schmidt rank $d$ from a $m\otimes n$ mixed state by separable operation when $m+n \geqslant 3d$. We found results for tripartite systems with target state $d$-level GHZ-type state. These results provide a class of systems where separable operation is strictly stronger than LOCC.
翻訳日:2023-01-09 08:20:09 公開日:2022-12-20
# プロトコル効率の定量化:古典的および量子的状態伝達プロトコルのメリットの熱力学図

Quantifying protocol efficiency: a thermodynamic figure of merit for classical and quantum state-transfer protocols ( http://arxiv.org/abs/2212.10100v1 )

ライセンス: Link先を確認
Qiongyuan Wu and Mario A. Ciampini and Mauro Paternostro and Matteo Carlesso(参考訳) 非ガウス力学を高速かつ正確な方法で操作する量子系は、多くの量子アプリケーションにおいて基本となっている。 ここでは、二重井戸ポテンシャルで状態を転送する古典的および量子的プロトコルに焦点を当てる。 古典的なプロトコルはポテンシャルを変形させ、量子は反断熱駆動によって補助される。 量子プロトコルがより迅速かつ正確に動作することを示す。 最後に、基本的な物理量のみに依存し、量子速度の限界、忠実度、プロセスの熱力学を考慮し、転送プロトコル(すなわち \textit{protocol grading} )の性能に対するメリットを図示する。 我々は,古典プロトコルおよび量子プロトコルを用いてプロトコルグレーディングをテストし,量子プロトコルが古典プロトコルよりも高いプロトコルグレーティングを持つことを示す。

Manipulating quantum systems undergoing non-Gaussian dynamics in a fast and accurate manner is becoming fundamental to many quantum applications. Here, we focus on classical and quantum protocols transferring a state across a double-well potential. The classical protocols are achieved by deforming the potential, while the quantum ones are assisted by a counter-diabatic driving. We show that quantum protocols perform more quickly and accurately. Finally, we design a figure of merit for the performance of the transfer protocols -- namely, the \textit{protocol grading} -- that depends only on fundamental physical quantities, and which accounts for the quantum speed limit, the fidelity and the thermodynamic of the process. We test the protocol grading with classical and quantum protocols, and show that quantum protocols have higher protocol grading than the classical ones.
翻訳日:2023-01-09 08:11:06 公開日:2022-12-20
# クラウス作用素の数値範囲による操作忠実度の検討

Operation fidelity explored by numerical range of Kraus operators ( http://arxiv.org/abs/2212.10139v1 )

ライセンス: Link先を確認
Igor Che{\l}stowski, Grzegorz Rajchel-Mieldzio\'c, Karol \.Zyczkowski(参考訳) 現在の量子デバイスは、望ましい量子チャネルを正確に実装する必要がある。 実装の質を特徴付けるために、初期純状態と解析された操作に対する画像との忠実度として定義される平均演算忠実度$F$を用いて、純状態のアンサンブル上で平均化される。 低次元チャネルに対する操作忠実度の統計的性質を解析し、その極端な値と確率分布を統計的チャネル識別に利用することができる。 これらの結果は、チャネルを表すクラウス作用素の集合の合同数値範囲の助けを借りて得られる。 密度$P\left(F\right)$の解析式は、ユニタリチャネルと混合ユニタリチャネルを含む特定のケースと、クラウス作用素の交換によって表される量子写像から導出される。 演算忠実度の測定された分布は、2つの量子演算の区別に使うことができる。

Present-day quantum devices require precise implementation of desired quantum channels. To characterize the quality of implementation one uses the average operation fidelity $F$, defined as the fidelity between an initial pure state and its image with respect to the analyzed operation, averaged over an ensemble of pure states. We analyze statistical properties of the operation fidelity for low-dimensional channels and study its extreme values and probability distribution, both of which can be used for statistical channel discrimination. These results are obtained with help of the joint numerical range of the set of Kraus operators representing a channel. Analytic expressions for the density $P\left(F\right)$ are derived in some particular cases including unitary and mixed unitary channels as well as quantum maps represented by commuting Kraus operators. Measured distributions of operation fidelity can be used to distinguish between two quantum operations.
翻訳日:2023-01-09 08:10:52 公開日:2022-12-20
# ハイブリッドコヒーレント状態の非古典性

Nonclassicalities of hybrid coherent states ( http://arxiv.org/abs/2212.10222v1 )

ライセンス: Link先を確認
Yusuf Turek, Nuerbiya Aishan and Akbar Islam(参考訳) ハイブリッドコヒーレント状態(hcs)、すなわちコヒーレント状態と単一光子付加コヒーレント状態(spac)の重ね合わせとして表される状態の非古典性を扱う。 特に,Wigner関数の光子統計,スクイーズ,負性を評価する。 以上の結果から,HCSはSPAC状態よりも非古典性が高い可能性が示唆された。 また,カー非線形性とポスト選択を伴うhcsの生成方式を提案する。

We address nonclassicality of hybrid coherent states (HCS), i.e. states expressed as superpositions of coherent states and single-photon-added coherent (SPAC) state. In particular, we evaluate their photon statistics, squeezing, and negativity of the Wigner function. Our results indicated that HCS may exhibit larger nonclassicalities than SPAC state. We also suggest a generation scheme for HCS which involves Kerr nonlinearity and postselection.
翻訳日:2023-01-09 08:10:40 公開日:2022-12-20
# 行列積チャネル:変分最適化量子テンソルネットワークによる雑音低減と変分量子固有解器の誤差低減

Matrix product channel: Variationally optimized quantum tensor network to mitigate noise and reduce errors for the variational quantum eigensolver ( http://arxiv.org/abs/2212.10225v1 )

ライセンス: Link先を確認
Sergey Filippov, Boris Sokolov, Matteo A. C. Rossi, Joonas Malmi, Elsi-Mari Borrelli, Daniel Cavalcanti, Sabrina Maniscalco, Guillermo Garc\'ia-P\'erez(参考訳) 量子処理ユニットはハードウェアのレベルでの絡み合いを高め、分子と分子間化学結合の高相関電子状態の物理シミュレーションを可能にする。 変分量子固有ソルバは基底状態シミュレーションのためのハードウェア効率のよいツールボックスを提供するが、精度は限られている。 ノイズがなくても、このアルゴリズムは偏りのあるエネルギー推定、特により浅いアンザッツタイプをもたらす可能性がある。 さらにノイズは絡み合いを低下させ、基底状態のエネルギー推定を妨げる(特にノイズが完全に特徴づけられなければ)。 本稿では,情報完全測定により提供される量子古典的インタフェースを活用し,アンサツおよびノイズ関連誤差低減のためのハードウェアアンタグルメントブースタ上で,古典的ソフトウェアを使用する手法を開発した。 量子チャネルのテンソルネットワーク表現を使い、ノイズ状態が基底チャネルに向かって駆動される。 テンソルネットワークは構成によって完全に正の写像であるが、スイーピング変動最適化を活性化するためにトレース保存条件を局所化することについて詳述する。 この手法は、量子ビット間の追加相関を生成して、ノイズのないアンサッツ以下の到達エネルギーをもたらす。 延伸水分子の具体的絡み合いの例を分析した結果、量子ハードウェアと古典的ソフトウェアを併用するハイブリッド戦略は、古典的部品が同じ結合次元を持つ純粋な古典的戦略よりも優れていると論じている。 提案する最適化アルゴリズムは, 様々なノイズ緩和法を拡張し, 変形分子のエネルギー環境のより正確な研究を容易にする。 このアルゴリズムは、薬物設計の文脈におけるタンパク質-リガンド複合体の量子ハードウェアシミュレーションの最終後処理ステップとして適用することができる。

Quantum processing units boost entanglement at the level of hardware and enable physical simulations of highly correlated electron states in molecules and intermolecular chemical bonds. The variational quantum eigensolver provides a hardware-efficient toolbox for ground state simulation; however, with limitations in precision. Even in the absence of noise, the algorithm may result into a biased energy estimation, particularly with some shallower ansatz types. Noise additionally degrades entanglement and hinders the ground state energy estimation (especially if the noise is not fully characterized). Here we develop a method to exploit the quantum-classical interface provided by informationally complete measurements to use classical software on top of the hardware entanglement booster for ansatz- and noise-related error reduction. We use the tensor network representation of a quantum channel that drives the noisy state toward the ground one. The tensor network is a completely positive map by construction, but we elaborate on making the trace preservation condition local so as to activate the sweeping variational optimization. This method brings into reach energies below the noiseless ansatz by creating additional correlations among the qubits and denoising them. Analyzing the example of the stretched water molecule with a tangible entanglement, we argue that a hybrid strategy of using the quantum hardware together with the classical software outperforms a purely classical strategy provided the classical parts have the same bond dimension. The proposed optimization algorithm extends the variety of noise mitigation methods and facilitates the more accurate study of the energy landscape for deformed molecules. The algorithm can be applied as the final postprocessing step in the quantum hardware simulation of protein-ligand complexes in the context of drug design.
翻訳日:2023-01-09 08:10:32 公開日:2022-12-20
# 自己整合型量子計測トモグラフィのための半有限計画法

Semidefinite programming for self-consistent quantum measurement tomography ( http://arxiv.org/abs/2212.10262v1 )

ライセンス: Link先を確認
Marco Cattaneo, Elsi-Mari Borrelli, Guillermo Garc\'ia-P\'erez, Matteo A. C. Rossi, Zolt\'an Zimbor\'as, Daniel Cavalcanti(参考訳) 本稿では,半定値プログラム(SDP)に基づく量子計測トモグラフィー(QMT)の推定手法を提案し,近距離量子コンピュータ上でのショットノイズや入力状態の異常生成などの実験誤差を検出する方法について議論する。 さらに、我々が特徴付ける正の演算子評価尺度(POVM)が情報的に完全である場合、トモグラフィーの入力状態に関する事前知識を前提とせず、実験結果と整合した入力状態とPOVM効果の集合を回復するための自己整合トモグラフィーの手法を提案する。 文献で論じられている多くの手法とは対照的に,本手法は低雑音や入力状態の信頼性サブセットの存在といった追加の仮定に依存しない。

We propose an estimation method for quantum measurement tomography (QMT) based on a semidefinite program (SDP), and discuss how it may be employed to detect experimental errors, such as shot noise and/or faulty preparation of the input states on near-term quantum computers. Moreover, if the positive operator-valued measure (POVM) we aim to characterize is informationally complete, we put forward a method for self-consistent tomography, i.e., for recovering a set of input states and POVM effects that is consistent with the experimental outcomes and does not assume any a priori knowledge about the input states of the tomography. Contrary to many methods that have been discussed in the literature, our method does not rely on additional assumptions such as low noise or the existence of a reliable subset of input states.
翻訳日:2023-01-09 08:10:03 公開日:2022-12-20
# reqomp:空間制約による量子回路計算

Reqomp: Space-constrained Uncomputation for Quantum Circuits ( http://arxiv.org/abs/2212.10395v1 )

ライセンス: Link先を確認
Anouk Paradis, Benjamin Bichsel, Martin Vechev(参考訳) 量子回路は量子ビットとゲート数に制限のある量子コンピュータ上で動作しなければならない。 両方の限界に合った回路を生成するために、ゲートの量子ビットを交換する非計算を利用する有望な機会がある。 本稿では,ハードウェア制約を尊重しつつ,アンシラエの正確かつ効率的な計算を自動合成する手法であるreqompを提案する。 与えられた回路に対して、Reqompは、厳密に制約されたキュービット数またはゲート数の間の幅広いトレードオフを提供することができる。 評価の結果,reqompは要求されるアンシラキュービット数を最大96%削減できることがわかった。 ベンチマークの80%では、必要となるアンシラキュービットは少なくとも25%削減できますが、ゲート数を28%以上増加させることはありません。

Quantum circuits must run on quantum computers with tight limits on qubit and gate counts. To generate circuits respecting both limits, a promising opportunity is exploiting uncomputation to trade qubits for gates. We present Reqomp, a method to automatically synthesize correct and efficient uncomputation of ancillae while respecting hardware constraints. For a given circuit, Reqomp can offer a wide range of trade-offs between tightly constraining qubit count or gate count. Our evaluation demonstrates that Reqomp can significantly reduce the number of required ancilla qubits by up to 96%. On 80% of our benchmarks, the ancilla qubits required can be reduced by at least 25% while never incurring a gate count increase beyond 28%.
翻訳日:2023-01-09 08:09:46 公開日:2022-12-20
# ネットワークにおける量子および半量子鍵分布

Quantum and semi--quantum key distribution in networks ( http://arxiv.org/abs/2212.10464v1 )

ライセンス: Link先を確認
Rajni Bala, Sooryansh Asthana and V. Ravishankar(参考訳) 本稿では,多次元分離可能状態(MSS)によって提供されるポテンシャルを,階層ネットワークにおける鍵のセキュアかつ同時分布に活用する。 本稿では,量子鍵分布と半量子鍵分布の2つのプロトコルについて述べる。 任意の階層ネットワークに対して,これらのプロトコルを一般化するために必要なリソース状態を特定する手順を提案する。 最後に,与えられた層内の状態の局所次元と達成可能な鍵レートの相互関係について検討する。 これらの提案は、MSSと高次元軌道角運動量状態の生成、操作、測定の多くの進歩のおかげで、現在の技術で実現可能である。

In this paper, we utilize the potential offered by multidimensional separable states (MSS) for secure and simultaneous distributions of keys in a layered network. We present protocols for both quantum and semi-quantum key distribution and discuss their robustness against various eavesdropping strategies. We provide a procedure to identify the requisite resource states to generalise these protocols for arbitrary layered networks. Finally, we study the interrelation between the local dimensionalities of states and achievable key rates in a given layer. These proposals are realisable with current technology, thanks to employment of MSS and many advances in generation, manipulation and measurement of higher-dimensional orbital angular momentum states of light.
翻訳日:2023-01-09 08:09:18 公開日:2022-12-20
# 現在の量子プロセッサにおけるGroverアルゴリズムの非符号化実装の性能

Performance of Uncoded Implementation of Grover's Algorithm on Today's Quantum Processors ( http://arxiv.org/abs/2212.10482v1 )

ライセンス: Link先を確認
Yunos El Kaderi, Andreas Honecker, Iryna Andriyanova(参考訳) この研究は、サーチスペースが$N=2^4$と$N=2^5$の場合に、IBM超伝導量子デバイス上でGroverのサーチ回路の性能をテストする。 理想的には、ゴール(マークされた)状態で明らかにピークとなる結果確率分布が得られることを期待します。 しかし、実際のデバイスで実行される量子回路はノイズに弱いため、結果が変動する。 したがって、論文の貢献は以下の通りである。 a) 技術の現状についてまだ報告されていない2つの新しいGroverの検索回路をN=16$で提示する。 b) 実装置で得られたシミュレーション結果と結果との性能差を示す。 c) $n\ge 2^5$ で回路にエラー訂正を加える必要性を示す。

This work tests the performance of Grover's search circuits on some IBM superconducting quantum devices in case of the size of search space $N=2^4$ and $N=2^5$. Ideally, we expect to get an outcome probability distribution that is clearly peaked at the goal (marked) state. However, the quantum circuit executed on real devices is vulnerable to noise which leads to fluctuations in the results. The contributions of the paper are therefore the following: a) it presents two new Grover's search circuits for $N=16$ which were not yet reported in the state of the art; b) it shows performance difference between simulation results and results obtained on real devices; c) it shows the need of adding error-correction on the circuit for $N\ge 2^5$.
翻訳日:2023-01-09 08:09:06 公開日:2022-12-20
# パウリ測定のための隠れ変数

Hidden Variables for Pauli Measurements ( http://arxiv.org/abs/2212.09933v1 )

ライセンス: Link先を確認
Leon Bankston(参考訳) パウリ測度(クリフォード作用素で行うことができる測度)は、量子情報の基本的な対象である。 完全かつ一貫性のあるすべてのパウリ測定に結果の割り当てがないことはよく知られている。 両条件の緩和に基づく隠れ変数代入の2つのクラスを定義する。 部分隠れ変数代入は一貫性を保ちながら完全性を失う。 コンテキスト隠蔽変数割り当ては完全性を維持しながら、一貫性を禁ずる。 スペクトルグラフ理論の手法を用いて,各隠れ変数割り当ての不完全性と不整合を特徴付ける。 アプリケーションとして、文脈性のステートメントとして不完全性結果、非局所性のステートメントとして不整合結果を解釈します。 その結果,クリフォードゲートと測定値を用いて,多量のコンテクスト性および非局所性が得られることがわかった。

The Pauli measurements (the measurements that can be performed with Clifford operators followed by measurement in the computational basis) are a fundamental object in quantum information. It is well-known that there is no assignment of outcomes to all Pauli measurements that is both complete and consistent. We define two classes of hidden variable assignments based on relaxing either condition. Partial hidden variable assignments retain the consistency condition, but forfeit completeness. Contextual hidden variable assignments retain completeness but forfeit consistency. We use techniques from spectral graph theory to characterize the incompleteness and inconsistency of the respective hidden variable assignments. As an application, we interpret our incompleteness result as a statement of contextuality and our inconsistency result as a statement of nonlocality. Our results show that we can obtain large amounts of contextuality and nonlocality using Clifford gates and measurements.
翻訳日:2023-01-09 08:00:45 公開日:2022-12-20
# 近似誤差補正による量子シングルトン境界へのアプローチ

Approaching the Quantum Singleton Bound with Approximate Error Correction ( http://arxiv.org/abs/2212.09935v1 )

ライセンス: Link先を確認
Thiago Bergamaschi, Louis Golowich, Sam Gunn(参考訳) レート$r$の量子誤り訂正符号が$(1-r)/4$以上のシンボルで逆エラーを訂正できることはよく知られている。 しかし、もしコードに*ほぼ*メッセージの復元を要求するだけならどうでしょう? 我々は、任意の定数レート$R$に対して、1-R)/2$の量子シングルトン境界に近づく逆誤差率に対して効率よく復号可能な近似量子符号を構築する。 さらに、アルファベットのサイズはメッセージ長に依存しない定数であり、リカバリエラーはメッセージ長において指数関数的に小さい。 私たちの構築の中心は、量子リストデコードの概念と、折り畳まれた量子リード・ソロモン符号を含む実装です。

It is well known that no quantum error correcting code of rate $R$ can correct adversarial errors on more than a $(1-R)/4$ fraction of symbols. But what if we only require our codes to *approximately* recover the message? We construct efficiently-decodable approximate quantum codes against adversarial error rates approaching the quantum Singleton bound of $(1-R)/2$, for any constant rate $R$. Moreover, the size of the alphabet is a constant independent of the message length and the recovery error is exponentially small in the message length. Central to our construction is a notion of quantum list decoding and an implementation involving folded quantum Reed-Solomon codes.
翻訳日:2023-01-09 08:00:32 公開日:2022-12-20
# 一定のエネルギーギャップにもかかわらず指数的に小さな成功確率を示す量子アニール

Quantum annealing showing the exponentially small success probability despite a constant energy gap ( http://arxiv.org/abs/2212.09995v1 )

ライセンス: Link先を確認
Hiroshi Hayasaka, Takashi Imoto, Yuichiro Matsuzaki, Shiro Kawabata(参考訳) 組合せ最適化問題の解法の一つに量子アニール法(QA)がある。 断熱定理から導かれるいわゆる断熱条件を用いてQAの計算時間を推定できる。 断熱状態はエネルギーギャップと遷移行列の2つの部分からなる。 計算時間は、主にQA中のエネルギーギャップに依存し、最小エネルギーギャップの多項式に逆比例すると考えられている。 本稿では,この共通知識に挑戦する。 本稿では, 一定エネルギーギャップに拘わらず, 一定アニーリング時間を有するQAがフェールするQAにおいて, 一定のエネルギーギャップを有する反直観的モデルを構築するための一般的な手法を提案する。 フォーマリズムでは、QA中に指数的に小さなエネルギーギャップを示す既知のモデルを選択し、ハミルトニアンに特定のペナルティ項を加えることでモデルを変更する。 修正されたモデルでは、断熱状態の遷移行列は量子ビットの数とともに指数関数的に大きくなるが、エネルギーギャップは一定である。 具体的な例として、断熱グロバー探索と強磁性pスピンモデルを考える。 これらの場合、ペナルティ項を追加することで、一定のエネルギーギャップにもかかわらず、修正モデルにおけるQAの成功確率は指数関数的に小さくなる。 我々の結果はQAのパフォーマンスをよりよく理解するための道を開いた。

Quantum annealing (QA) is one of the methods to solve combinatorial optimization problems. We can estimate a computational time of QA by using the so-called adiabatic condition derived from the adiabatic theorem. The adiabatic condition consists of two parts: an energy gap and a transition matrix. It is believed that the computational time mainly depends on the energy gap during QA and is inversely proportional to a polynomial of the minimal energy gap. In this paper, we challenge this common wisdom. We propose a general method to construct counterintuitive models with a constant energy gap during QA where QA with a constant annealing time fails despite a constant energy gap. In our formalism, we choose a known model exhibiting an exponentially small energy gap during QA, and we modify the model by adding a specific penalty term to the Hamiltonian. In the modified model, the transition matrix in the adiabatic condition becomes exponentially large with the number of qubits, while the energy gap remains constant. As concrete examples we consider the adiabatic Grover search and the ferromagnetic p-spin model. In these cases, by adding the penalty term, the success probability of QA in the modified models become exponentially small despite a constant energy gap. Our results paves a way for better understanding of the QA performance.
翻訳日:2023-01-09 08:00:21 公開日:2022-12-20
# ゼーマン分割に基づく多結晶方位窒素空隙センタを用いた温度センシング

Temperature sensing using nitrogen-vacancy centers with multiple-poly crystal directions based on Zeeman splitting ( http://arxiv.org/abs/2212.10085v1 )

ライセンス: Link先を確認
Li Xing, Xiaojuan Feng, Jintao Zhang, and Zheng Wang(参考訳) 本研究では,電子スピンのゼーマン分割に基づく新しい方法を示し,多孔ダイヤモンド中の負電荷窒素空孔(nv)中心の温度センシング性能を向上させる。 温度依存性を決定するための単一のnv軸に対応する共鳴ピークの選択原理の理論モデルを明らかにする。 スペクトル線幅は効果的に狭く、温度計は磁場変動に敏感である。 298K〜323Kの範囲におけるゼロフィールドスプリッティング(ZFS)パラメータDと温度Tの関係校正の再現性と精度が著しく向上し、係数dD/dTは75.33kHz/Kとなる。 最後に, 平均温度測定感度(10Hz以下)を0.49K/Hz1/2から0.22K/Hz1/2に向上させる。

We demonstrate a novel method based on the Zeeman splitting of electronic spins to improve the performance for temperature sensing of negatively-charged nitrogen-vacancy (NV) centers in multiple-poly diamond. The theoretical model for selection principle of resonance peaks corresponding to a single NV axis for determining the temperature dependence is clarified. The spectral linewidth is effectively narrowed and the thermometer is insensitive to magnetic field fluctuations. Repeatability and accuracy of the relationship calibration between the zero-field splitting (ZFS) parameter D and temperature T in the range of 298 K to 323 K is significantly improved, and the results of coefficient dD/dT is 75.33 kHz/K. Finally, this method promotes the average temperature measurement sensitivity (below 10 Hz) of our setup from 0.49 K/Hz1/2 to 0.22 K/Hz1/2.
翻訳日:2023-01-09 08:00:03 公開日:2022-12-20
# FunkNN: 機能生成のための神経補間

FunkNN: Neural Interpolation for Functional Generation ( http://arxiv.org/abs/2212.14042v1 )

ライセンス: Link先を確認
AmirEhsan Khorashadizadeh, Anadi Chaman, Valentin Debarnot, Ivan Dokmani\'c(参考訳) スケールをまたいで一般化し、任意の座標で評価し、正確な微分の計算を認め、概念的に単純である連続生成モデルを構築することができるか? 既存のMLPベースのアーキテクチャは、良好な畳み込み誘導バイアスを持つグリッドベースのジェネレータよりも悪いサンプルを生成する。 異なるスケールで画像を生成することに焦点を当てたモデルの方が優れているが、画像やデリバティブの継続的な評価のために設計されていない複雑なアーキテクチャを採用する。 信号処理の観点から、サンプルからの補間として連続画像生成を扱う。 実際、正しくサンプリングされた離散画像は、低空間周波数に関する全ての情報を含んでいる。 問題は、上記の設計基準を満たしながら、データ駆動方式でスペクトルを外挿する方法である。 われわれの答えはfunknn ― 任意の座標で連続画像を再構築する方法を学び、任意の画像データセットに適用できる新しい畳み込みネットワーク。 離散生成モデルと組み合わさって、連続的な不正な逆問題に先行して作用する関数生成器となる。 funknnは高品質な連続画像を生成し,パッチベースの設計により,高い分散性能を示す。 さらに,空間的微分を持つ数種類のスタイリッシュな逆問題において,その性能を示す。

Can we build continuous generative models which generalize across scales, can be evaluated at any coordinate, admit calculation of exact derivatives, and are conceptually simple? Existing MLP-based architectures generate worse samples than the grid-based generators with favorable convolutional inductive biases. Models that focus on generating images at different scales do better, but employ complex architectures not designed for continuous evaluation of images and derivatives. We take a signal-processing perspective and treat continuous image generation as interpolation from samples. Indeed, correctly sampled discrete images contain all information about the low spatial frequencies. The question is then how to extrapolate the spectrum in a data-driven way while meeting the above design criteria. Our answer is FunkNN -- a new convolutional network which learns how to reconstruct continuous images at arbitrary coordinates and can be applied to any image dataset. Combined with a discrete generative model it becomes a functional generator which can act as a prior in continuous ill-posed inverse problems. We show that FunkNN generates high-quality continuous images and exhibits strong out-of-distribution performance thanks to its patch-based design. We further showcase its performance in several stylized inverse problems with exact spatial derivatives.
翻訳日:2023-01-09 07:25:42 公開日:2022-12-20
# 組込みシステムにおけるリアルタイムセマンティックセグメンテーションの不確かさ

Uncertainty in Real-Time Semantic Segmentation on Embedded Systems ( http://arxiv.org/abs/2301.01201v1 )

ライセンス: Link先を確認
Ethan Goan and Clinton Fookes(参考訳) 自動運転車や人間のコンピュータインタラクションといった分野におけるセマンティックセグメンテーションモデルの応用には、リアルタイムな予測能力が必要である。 リアルタイムアプリケーションに対処する際の課題は、リソース制約のあるハードウェアを操作する必要性によって増幅される。 これらのプラットフォーム向けのリアルタイムメソッドの開発は増加しているが、不確実性に関する十分な推論はできない。 本稿では,事前学習モデルからの深い特徴抽出とベイズ回帰とモーメント伝搬を組み合わせることで,不確実性を考慮した予測を行う。 提案手法は, 予測性能を維持しつつ, 組込みハードウェアに有意な不確実性をもたらすことを示す。

Application for semantic segmentation models in areas such as autonomous vehicles and human computer interaction require real-time predictive capabilities. The challenges of addressing real-time application is amplified by the need to operate on resource constrained hardware. Whilst development of real-time methods for these platforms has increased, these models are unable to sufficiently reason about uncertainty present. This paper addresses this by combining deep feature extraction from pre-trained models with Bayesian regression and moment propagation for uncertainty aware predictions. We demonstrate how the proposed method can yield meaningful uncertainty on embedded hardware in real-time whilst maintaining predictive performance.
翻訳日:2023-01-09 07:25:11 公開日:2022-12-20
# リモートセンシングのための深層マルチビュー融合における共通プラクティスと分類法

Common Practices and Taxonomy in Deep Multi-view Fusion for Remote Sensing Applications ( http://arxiv.org/abs/2301.01200v1 )

ライセンス: Link先を確認
Francisco Mena and Diego Arenas and Marlon Nuske and Andreas Dengel(参考訳) リモートセンシング技術の進歩により、地球観測への応用が促進された。 これらの技術は、異なるレベルの情報を持つ複数の観察やビューを提供する。 解像度の異なる静的ビューや一時的なビュー、センサーのキャリブレーションや劣化によるさまざまなタイプやノイズの量が含まれる可能性がある。 深層マルチビュー(deep multi-view)やマルチモーダル融合(multi-modal fusion)学習(multi-modal fusion learning)と呼ばれる複数のビューから情報を融合するために、さまざまなディープラーニングモデルが適用されています。 しかし、異なる用語を類似した概念、または類似した技法に異なる図形を与えるため、文献のアプローチは様々である。 本稿では,地球観測のための多視点融合について,文献に共通する慣習とアプローチに注目して研究を行う。 我々は、いくつかの異なる出版物からの洞察を要約し、構造化し、ポイントとアイデアの統一に集中する。 本写本では、文献で用いられる様々な代替用語について言及しながら、調和した用語を提供する。 本研究で取り上げたトピックは,ニューラルネットワークモデルを用いた教師あり学習に焦点をあてたものだ。 このレビューは、多くの最近の参考文献とともに、将来の研究を支援し、この地域の統一的な進歩につながることを願っている。

The advances in remote sensing technologies have boosted applications for Earth observation. These technologies provide multiple observations or views with different levels of information. They might contain static or temporary views with different levels of resolution, in addition to having different types and amounts of noise due to sensor calibration or deterioration. A great variety of deep learning models have been applied to fuse the information from these multiple views, known as deep multi-view or multi-modal fusion learning. However, the approaches in the literature vary greatly since different terminology is used to refer to similar concepts or different illustrations are given to similar techniques. This article gathers works on multi-view fusion for Earth observation by focusing on the common practices and approaches used in the literature. We summarize and structure insights from several different publications concentrating on unifying points and ideas. In this manuscript, we provide a harmonized terminology while at the same time mentioning the various alternative terms that are used in literature. The topics covered by the works reviewed focus on supervised learning with the use of neural network models. We hope this review, with a long list of recent references, can support future research and lead to a unified advance in the area.
翻訳日:2023-01-09 07:15:03 公開日:2022-12-20
# 高ダイナミックレンジ撮像機能を有する携帯型広視野眼底カメラ

A portable widefield fundus camera with high dynamic range imaging capability ( http://arxiv.org/abs/2212.13257v1 )

ライセンス: Link先を確認
Alfa Rossi, Mojtaba Rahimi, David Le, Taeyoon son, Michael J. Heiferman, R. V. Paul Chan, Xincheng Yao(参考訳) 眼疾患の臨床的検出と管理には、眼底撮影が不可欠である。 画像コントラストと視野(FOV)は、眼疾患の早期に微妙な異常を検出することが困難となる、従来の眼底カメラの一般的な制限である。 画像コントラストとFOVカバレッジのさらなる改善は、早期疾患の検出と信頼できる治療評価を改善するために重要である。 本稿では,広視野FOVと高ダイナミックレンジ(HDR)撮像機能を備えた携帯型ベースカメラについて報告する。 非ミリ波広視野撮影のためのポータブルな設計を実現するために、小型間接眼鏡照明を使用した。 直交偏光制御は照明反射率アーティファクトの除去に用いられた。 独立電源制御により, 局所コントラスト強調のためのHDR機能を実現するために, 3つの基底画像が順次取得・融合された。 101{\deg} eye-angle (67{\deg} visual-angle)のスナップショットfovは、非扁桃体基底撮影で達成された。 有効なfovは、薬理学的瞳孔拡張を必要とせず、固定目標の助けにより、190{\deg}眼角(134{\deg}視角)まで容易に拡大することができる。 正常眼と病理眼の両眼でHDR画像の有用性を従来の眼底カメラと比較し検証した。

Fundus photography is indispensable for clinical detection and management of eye diseases. Limited image contrast and field of view (FOV) are common limitations of conventional fundus cameras, making it difficult to detect subtle abnormalities at the early stages of eye diseases. Further improvements of image contrast and FOV coverage are important to improve early disease detection and reliable treatment assessment. We report here a portable fundus camera, with a wide FOV and high dynamic range (HDR) imaging capabilities. Miniaturized indirect ophthalmoscopy illumination was employed to achieve the portable design for nonmydriatic, widefield fundus photography. Orthogonal polarization control was used to eliminate illumination reflectance artifact. With independent power controls, three fundus images were sequentially acquired and fused to achieve HDR function for local image contrast enhancement. A 101{\deg} eye-angle (67{\deg} visual-angle) snapshot FOV was achieved for nonmydriatic fundus photography. The effective FOV can be readily expanded up to 190{\deg} eye-angle (134{\deg} visual-angle) with the aid of a fixation target, without the need of pharmacologic pupillary dilation. The effectiveness of HDR imaging was validated with both normal healthy and pathologic eyes, compared to a conventional fundus camera.
翻訳日:2023-01-01 14:16:25 公開日:2022-12-20
# 確率力学モデルを用いた非自律力学系のロバスト同定

Robust identification of non-autonomous dynamical systems using stochastic dynamics models ( http://arxiv.org/abs/2212.13902v1 )

ライセンス: Link先を確認
Nicholas Galioto and Alex Arkady Gorodetsky(参考訳) 本稿では,線形および非線形非自律システムのシステム同定(id)の問題について考察する。 確率力学を用いた隠れマルコフモデル学習のためのベイズ式から導かれる目的関数を提案し,解析する。 次に,この目的関数を線形系と非線形系の両方に対する最先端のアプローチの文脈で解析する。 前者ではマルコフパラメータ推定のための最小二乗法を解析し、後者では多重撮影法を解析する。 提案手法は,データ条件の独立性とモデル誤差のゼロという仮定の下での最適化目標の特別な場合と見なすことで,既存の手法による最適化問題の限界を実証する。 さらに,本提案手法は,システムIDに適したスムーズさと固有正規化を改善し,これらの特性の起点に関する数学的説明を提供する。 最後に、数値シミュレーションにより、データがノイズやスパースである場合よりも8.7倍低い平均二乗誤差が示される。 さらに,提案手法は,データよりもパラメータが多い場合や,システムのカオス的振る舞いを示す場合においても,正確かつ一般化可能なモデルを特定することができる。

This paper considers the problem of system identification (ID) of linear and nonlinear non-autonomous systems from noisy and sparse data. We propose and analyze an objective function derived from a Bayesian formulation for learning a hidden Markov model with stochastic dynamics. We then analyze this objective function in the context of several state-of-the-art approaches for both linear and nonlinear system ID. In the former, we analyze least squares approaches for Markov parameter estimation, and in the latter, we analyze the multiple shooting approach. We demonstrate the limitations of the optimization problems posed by these existing methods by showing that they can be seen as special cases of the proposed optimization objective under certain simplifying assumptions: conditional independence of data and zero model error. Furthermore, we observe that our proposed approach has improved smoothness and inherent regularization that make it well-suited for system ID and provide mathematical explanations for these characteristics' origins. Finally, numerical simulations demonstrate a mean squared error over 8.7 times lower compared to multiple shooting when data are noisy and/or sparse. Moreover, the proposed approach can identify accurate and generalizable models even when there are more parameters than data or when the underlying system exhibits chaotic behavior.
翻訳日:2023-01-01 14:08:27 公開日:2022-12-20
# 高次元・スパースユーザ行動データ予測のためのマルチメトリックオートレク

Multi-Metric AutoRec for High Dimensional and Sparse User Behavior Data Prediction ( http://arxiv.org/abs/2212.13879v1 )

ライセンス: Link先を確認
Cheng Liang, Teng Huang, Yi He, Song Deng, Di Wu, Xin Luo(参考訳) 重要データ時代の大規模項目とのインタラクション中に生成されたユーザの行動データは、一般的には異種でスパースであり、レコメンダシステム(rs)が発掘すべき下位パターンの多種多様さを残している。 ディープニューラルネットワークベースのモデルは、適合性のためにRSの最先端ベンチマークに到達した。 しかし、先行研究は主に固定損失機能と規制を備えた複雑なアーキテクチャの設計に重点を置いている。 これらのシングルメトリックモデルは、ヘテロジニアスでスパースなユーザー行動データに対して、パフォーマンスが限られている。 そこで本研究では,代表的AutoRecに基づくマルチメトリックAutoRec(MMA)を提案する。 提案されたMMAの考え方は主に2倍である。 1) 損失関数と正規化に対して異なる$L_p$-normを適用し、異なる距離空間で異なる変分モデルを形成する。 2) これらの変種モデルを集約する。 したがって、提案するmmaは分散距離空間の集合から多元的指向を享受し、ユーザデータの包括的表現を実現する。 理論的研究は、提案されたMMAが性能改善を実現することを証明した。 5つの実世界のデータセットに関する広範な実験により、mmaは他の7つの最先端モデルよりも、監視されていないユーザーの振る舞いデータを予測できることが証明された。

User behavior data produced during interaction with massive items in the significant data era are generally heterogeneous and sparse, leaving the recommender system (RS) a large diversity of underlying patterns to excavate. Deep neural network-based models have reached the state-of-the-art benchmark of the RS owing to their fitting capabilities. However, prior works mainly focus on designing an intricate architecture with fixed loss function and regulation. These single-metric models provide limited performance when facing heterogeneous and sparse user behavior data. Motivated by this finding, we propose a multi-metric AutoRec (MMA) based on the representative AutoRec. The idea of the proposed MMA is mainly two-fold: 1) apply different $L_p$-norm on loss function and regularization to form different variant models in different metric spaces, and 2) aggregate these variant models. Thus, the proposed MMA enjoys the multi-metric orientation from a set of dispersed metric spaces, achieving a comprehensive representation of user data. Theoretical studies proved that the proposed MMA could attain performance improvement. The extensive experiment on five real-world datasets proves that MMA can outperform seven other state-of-the-art models in predicting unobserved user behavior data.
翻訳日:2023-01-01 14:06:01 公開日:2022-12-20
# LAMBADA:自然言語の自動推論のための後方チェイン

LAMBADA: Backward Chaining for Automated Reasoning in Natural Language ( http://arxiv.org/abs/2212.13894v1 )

ライセンス: Link先を確認
Seyed Mehran Kazemi, Najoung Kim, Deepti Bhatia, Xin Xu, Deepak Ramachandran(参考訳) 大規模言語モデル(lms)のパワーとチェーン・オブ・ソート・プロンプトやセレクション・インリファレンスなどの手法を組み合わせることで、構造化されていない自然言語として指定された知識を備えた自動推論において、顕著な進歩がもたらされた。 これらの手法は、公理から結論までの前方方向の証明を探索し、これは探索空間の組合せ的爆発に悩まされ、より長い推論の連鎖を必要とする問題に対する高い失敗率となる。 古典的自動推論文学は、逆向きの推論(すなわち、意図された結論からそれを支える公理の集合まで)は証明探究問題において有意に効率的であることを示した。 我々は、この直感をLM設定にインポートし、LAMBADAと呼ばれる逆チェインアルゴリズムを開発し、推論を4つのサブモジュールに分解する。 LAMBADAは2つの挑戦的論理推論データセット、特に深層かつ正確な証明連鎖を必要とする場合において、最先端の事前推論手法よりも高精度に向上することを示す。

Remarkable progress has been made on automated reasoning with knowledge specified as unstructured, natural text, by using the power of large language models (LMs) coupled with methods such as Chain-of-Thought prompting and Selection-Inference. These techniques search for proofs in the forward direction from axioms to the conclusion, which suffers from a combinatorial explosion of the search space, and thus high failure rates for problems requiring longer chains of reasoning. The classical automated reasoning literature has shown that reasoning in the backward direction (i.e. from the intended conclusion to the set of axioms that support it) is significantly more efficient at proof-finding problems. We import this intuition into the LM setting and develop a Backward Chaining algorithm, which we call LAMBADA, that decomposes reasoning into four sub-modules, each of which can be simply implemented by few-shot prompted LM inference. We show that LAMBADA achieves massive accuracy boosts over state-of-the-art forward reasoning methods on two challenging logical reasoning datasets, particularly when deep and accurate proof chains are required.
翻訳日:2023-01-01 13:57:04 公開日:2022-12-20
# 情景認識エゴセントリックな3次元ポーズ推定

Scene-aware Egocentric 3D Human Pose Estimation ( http://arxiv.org/abs/2212.11684v1 )

ライセンス: Link先を確認
Jian Wang, Lingjie Liu, Weipeng Xu, Kripasindhu Sarkar, Diogo Luvizon, Christian Theobalt(参考訳) 頭部に1台の魚眼カメラを装着したエゴセントリックな3Dポーズ推定は、仮想現実や拡張現実における多くの応用により近年注目を集めている。 既存の方法はまだ、人間の体が非常に隠蔽されている、あるいはシーンと密接な相互作用がある、挑戦的なポーズに苦慮している。 この問題に対処するために,シーン制約を伴う自我中心姿勢の予測を導く,情景対応自我中心姿勢推定手法を提案する。 そこで本研究では,広視野の魚眼カメラからシーン深度マップを推定するエゴセントリック深度推定ネットワークを提案する。 次に,2次元画像の特徴と推定深度マップをボクセル空間に投影し,V2Vネットワークで3次元ポーズを回帰するシーン対応ポーズ推定ネットワークを提案する。 ボクセルに基づく特徴表現は、2次元画像特徴とシーン幾何学との間の直接幾何学的接続を提供し、さらにV2Vネットワークにより推定されたシーン幾何学に基づいて予測されたポーズを制約する。 上記のネットワークのトレーニングを可能にするために、egogtaと呼ばれる合成データセットと、egopw-sceneと呼ばれるegopwベースのインザワイルドデータセットも作成しました。 新しい評価シーケンスの実験結果から,予測された3次元自我中心のポーズは人間とシーンの相互作用において正確かつ物理的に妥当であることが示され,本手法が最先端の手法よりも定量的かつ質的に優れていることが示された。

Egocentric 3D human pose estimation with a single head-mounted fisheye camera has recently attracted attention due to its numerous applications in virtual and augmented reality. Existing methods still struggle in challenging poses where the human body is highly occluded or is closely interacting with the scene. To address this issue, we propose a scene-aware egocentric pose estimation method that guides the prediction of the egocentric pose with scene constraints. To this end, we propose an egocentric depth estimation network to predict the scene depth map from a wide-view egocentric fisheye camera while mitigating the occlusion of the human body with a depth-inpainting network. Next, we propose a scene-aware pose estimation network that projects the 2D image features and estimated depth map of the scene into a voxel space and regresses the 3D pose with a V2V network. The voxel-based feature representation provides the direct geometric connection between 2D image features and scene geometry, and further facilitates the V2V network to constrain the predicted pose based on the estimated scene geometry. To enable the training of the aforementioned networks, we also generated a synthetic dataset, called EgoGTA, and an in-the-wild dataset based on EgoPW, called EgoPW-Scene. The experimental results of our new evaluation sequences show that the predicted 3D egocentric poses are accurate and physically plausible in terms of human-scene interaction, demonstrating that our method outperforms the state-of-the-art methods both quantitatively and qualitatively.
翻訳日:2022-12-23 14:54:19 公開日:2022-12-20
# 信頼できる社会バイアス測定

Trustworthy Social Bias Measurement ( http://arxiv.org/abs/2212.11672v1 )

ライセンス: Link先を確認
Rishi Bommasani, Percy Liang(参考訳) 信頼する社会的偏見の尺度をどのように設計するか。 先行研究はいくつかの措置を導入したが、広く信頼される手段は得られていない。 本研究では,計測モデリングの学際的理論に基づく信頼を保障するバイアス尺度を設計する。 NLPにおける社会的偏見のファジィな扱いに対処するため,社会科学研究の原則に基づく社会的偏見を明確に定義する。 5つの具体的なバイアス測度をインスタンス化する一般的なバイアス測定フレームワークdivdistを提案して、定義を運用する。 本手法を検証するため,8つの試験基準(例えば,予測妥当性:米国の雇用の偏りを予測するか?)を有する厳密な試験プロトコルを提案する。 実験の結果,先行尺度における概念的,技術的,経験的欠陥を克服し,我々の尺度を信頼するかなりの証拠が得られた。

How do we design measures of social bias that we trust? While prior work has introduced several measures, no measure has gained widespread trust: instead, mounting evidence argues we should distrust these measures. In this work, we design bias measures that warrant trust based on the cross-disciplinary theory of measurement modeling. To combat the frequently fuzzy treatment of social bias in NLP, we explicitly define social bias, grounded in principles drawn from social science research. We operationalize our definition by proposing a general bias measurement framework DivDist, which we use to instantiate 5 concrete bias measures. To validate our measures, we propose a rigorous testing protocol with 8 testing criteria (e.g. predictive validity: do measures predict biases in US employment?). Through our testing, we demonstrate considerable evidence to trust our measures, showing they overcome conceptual, technical, and empirical deficiencies present in prior measures.
翻訳日:2022-12-23 14:26:09 公開日:2022-12-20
# 可変量子ソフトアクタ-クリティックによるロボットアーム制御

Variational Quantum Soft Actor-Critic for Robotic Arm Control ( http://arxiv.org/abs/2212.11681v1 )

ライセンス: Link先を確認
Alberto Acuto, Paola Barill\`a, Ludovico Bozzolo, Matteo Conterno, Mattia Pavese, Antonio Policicchio(参考訳) 深層強化学習はロボットアームの動きの連続制御タスクに有望なアプローチとして登場しつつある。 しかしながら、堅牢で汎用的な制御能力を学ぶことの課題は、この学習パラダイムの一般的な2つの問題である「次元の呪い」として知られる探索戦略と学習速度の遅いことによる、現実世界のアプリケーションではまだ解決されていない。 本研究の目的は,連続制御型ソフトアクタ-クリティックのための最先端強化学習手法の一つへの量子コンピューティングの適用の利点を探求し,評価することにある。 具体的には, 量子回路のディジタルシミュレーションを用いて, 仮想ロボットアームの動きに対する変動量子ソフトアクタ-クリティックの性能について検討した。 古典的アルゴリズムに対する量子的優位性は、十分なモデルトレーニングに必要なパラメータの量を大幅に減らし、さらなる有望な発展の道を開いたことである。

Deep Reinforcement Learning is emerging as a promising approach for the continuous control task of robotic arm movement. However, the challenges of learning robust and versatile control capabilities are still far from being resolved for real-world applications, mainly because of two common issues of this learning paradigm: the exploration strategy and the slow learning speed, sometimes known as "the curse of dimensionality". This work aims at exploring and assessing the advantages of the application of Quantum Computing to one of the state-of-art Reinforcement Learning techniques for continuous control - namely Soft Actor-Critic. Specifically, the performance of a Variational Quantum Soft Actor-Critic on the movement of a virtual robotic arm has been investigated by means of digital simulations of quantum circuits. A quantum advantage over the classical algorithm has been found in terms of a significant decrease in the amount of required parameters for satisfactory model training, paving the way for further promising developments.
翻訳日:2022-12-23 14:19:18 公開日:2022-12-20
# Smooth Sailing:Representation Smoothness Analysisによる事前学習型言語モデルのアクティブラーニングの改善

Smooth Sailing: Improving Active Learning for Pre-trained Language Models with Representation Smoothness Analysis ( http://arxiv.org/abs/2212.11680v1 )

ライセンス: Link先を確認
Josip Juki\'c and Jan \v{S}najder(参考訳) 実用的なニーズに対する解決策として開発されたactive learning(al)メソッドは、教師付き学習におけるラベルの複雑さとアノテーションのコストを削減することを目的としている。 最近の研究は、大規模な事前訓練言語モデル(PLM)と組み合わせてALを使用する利点を実証しているが、現実的な環境でのALの実現を阻害する実践的な課題をしばしば見落としている。 我々は,alの有効性を向上させるために表現平滑性解析を活用することで,これらの課題に対処した。 検証セット(現実的なAL設定では利用できないことが多い)を必要としない早期停止技術を開発し、複数のデータセットとALメソッド間で大幅な改善を観察する。 さらに,タスク適応がalを改良するのに対し,alの標準短い微調整はランダムサンプリングよりも改善しないことがわかった。 本研究は,ALにおける表現の滑らかさ解析の有用性を確立し,ラベルの複雑さを低減するAL停止基準を提案する。

Developed as a solution to a practical need, active learning (AL) methods aim to reduce label complexity and the annotations costs in supervised learning. While recent work has demonstrated the benefit of using AL in combination with large pre-trained language models (PLMs), it has often overlooked the practical challenges that hinder the feasibility of AL in realistic settings. We address these challenges by leveraging representation smoothness analysis to improve the effectiveness of AL. We develop an early stopping technique that does not require a validation set -- often unavailable in realistic AL settings -- and observe significant improvements across multiple datasets and AL methods. Additionally, we find that task adaptation improves AL, whereas standard short fine-tuning in AL does not provide improvements over random sampling. Our work establishes the usefulness of representation smoothness analysis in AL and presents an AL stopping criterion that reduces label complexity.
翻訳日:2022-12-23 13:52:09 公開日:2022-12-20
# 変化の評価

Evaluation for Change ( http://arxiv.org/abs/2212.11670v1 )

ライセンス: Link先を確認
Rishi Bommasani(参考訳) 評価は、nlpモデルの評価、理解、およびコミュニケーションの中心的な手段である。 本論文では,その技術的側面を超えて社会学的・政治的性格を担いながら,変革を推進するための力である,という以上の評価が必要であると論じる。 力として、評価の力はその採用から生じ、我々の見解では、評価はフィールドの望ましい変化を達成するときに成功する。 さらに,評価を力としてフレーミングすることで,他の力とどのように競合するかを検討する。 解析では,NLPの現在の軌道は,この分野におけるより多元的な野心を実現する可能性にもかかわらず,評価のパワーが低下していることを示唆している。 我々は、この権力の正当性を議論し、誰がこの権力を獲得し、どのように分配するかを論じる。 最終的には、研究コミュニティが変化に対する評価をより積極的に活用することを期待しています。

Evaluation is the central means for assessing, understanding, and communicating about NLP models. In this position paper, we argue evaluation should be more than that: it is a force for driving change, carrying a sociological and political character beyond its technical dimensions. As a force, evaluation's power arises from its adoption: under our view, evaluation succeeds when it achieves the desired change in the field. Further, by framing evaluation as a force, we consider how it competes with other forces. Under our analysis, we conjecture that the current trajectory of NLP suggests evaluation's power is waning, in spite of its potential for realizing more pluralistic ambitions in the field. We conclude by discussing the legitimacy of this power, who acquires this power and how it distributes. Ultimately, we hope the research community will more aggressively harness evaluation for change.
翻訳日:2022-12-23 13:41:37 公開日:2022-12-20
# 物理インフォームドニューラルネットワークによるポートチャネルのモデル化

A Physics-Informed Neural Network to Model Port Channels ( http://arxiv.org/abs/2212.10681v1 )

ライセンス: Link先を確認
Marlon S. Mathias, Marcel R. de Barros, Jefferson F. Coelho, Lucas P. de Freitas, Felipe M. Moreno, Caio F. D. Netto, Fabio G. Cozman, Anna H. R. Costa, Eduardo A. Tannuri, Edson S. Gomi, Marcelo Dottori(参考訳) 本研究では,サントス - S\~ao Vicente - Bertioga Estuarine System に基づいて,合成ポートチャネル内の天文学的な潮の流れをシミュレートする物理情報ニューラルネットワーク (PINN) について述べる。 pinnモデルの目的は、物理システムとデータ駆動機械学習モデルの知識を組み合わせることだ。 これは、ニューラルネットワークをトレーニングして、サンプルポイントにおける支配方程式の残余を最小限にする。 この研究において、我々の流れはいくつかの近似を持つナビエ・ストークス方程式によって支配される。 この論文には2つの主要な小説がある。 まず, 流れが周期的であり, 従来のシミュレーション手法では実現できないことを仮定して, モデルを設計する。 第2に、計算コストがほぼゼロであり、特に小規模バッチサイズにおいて最終モデルを改善するために検証された訓練中の関数評価点の再サンプリングの利点を評価する。 最後に,Navier-Stokes方程式における乱流のモデル化とPINNとの相互作用に関する近似の制限について論じる。

We describe a Physics-Informed Neural Network (PINN) that simulates the flow induced by the astronomical tide in a synthetic port channel, with dimensions based on the Santos - S\~ao Vicente - Bertioga Estuarine System. PINN models aim to combine the knowledge of physical systems and data-driven machine learning models. This is done by training a neural network to minimize the residuals of the governing equations in sample points. In this work, our flow is governed by the Navier-Stokes equations with some approximations. There are two main novelties in this paper. First, we design our model to assume that the flow is periodic in time, which is not feasible in conventional simulation methods. Second, we evaluate the benefit of resampling the function evaluation points during training, which has a near zero computational cost and has been verified to improve the final model, especially for small batch sizes. Finally, we discuss some limitations of the approximations used in the Navier-Stokes equations regarding the modeling of turbulence and how it interacts with PINNs.
翻訳日:2022-12-22 15:51:08 公開日:2022-12-20
# 進化、過負荷、マルチスケールマシンとしての生物システム(動画あり)

There's Plenty of Room Right Here: Biological Systems as Evolved, Overloaded, Multi-scale Machines ( http://arxiv.org/abs/2212.10675v1 )

ライセンス: Link先を確認
Joshua Bongard and Michael Levin(参考訳) 生物学的世界への計算モデルの適用性は、議論の活発なトピックである。 有用な経路は、カテゴリ間の厳しい境界を放棄し、オブザーバに依存し、実用的見解を採用することによって生まれると主張する。 このような見解は、人間の認知バイアス(例えば、過度に単純化する傾向)によって引き起こされる随伴二分論と、進化、発達生物学、知的機械の研究によって必要となるより連続的で漸進主義的な見解を支持する以前の技術的制限を解消する。 生物医学やバイオエンジニアリングの目的で生体システムを再構築するには、その機能を複数のスケールで予測し制御する必要がある。 これは多くの理由から困難であり、その1つは、生体系が同時に複数の機能を実行することである。 私たちはこれを"polycomputing"と呼びます - 同じ基板が異なることを同時に計算する能力です。 この能力は生物が一種のコンピュータであるが、慣れ親しんだ線形で決定論的なコンピュータではない重要な方法である。 我々は、進化・設計されたシステムによって実行される計算のためのオブザーバ中心のフレームワークが、既に量子および相対論的スケールで行われているように、メソスケールイベントの理解を改善することを論じる。 本稿では, 生物学的・技術的多元計算の例を概観し, 同じハードウェア上で異なる関数をオーバーロードすることが, 進化と設計の両方のシステムを理解し構築する上で重要な設計原理であるという考えを発展させる。 既存のポリコンピューティング基板をハックし、新しい基板を進化させデザインする学習は、再生医療、ロボティクス、コンピュータ工学に大きな影響を与えるだろう。

The applicability of computational models to the biological world is an active topic of debate. We argue that a useful path forward results from abandoning hard boundaries between categories and adopting an observer-dependent, pragmatic view. Such a view dissolves the contingent dichotomies driven by human cognitive biases (e.g., tendency to oversimplify) and prior technological limitations in favor of a more continuous, gradualist view necessitated by the study of evolution, developmental biology, and intelligent machines. Efforts to re-shape living systems for biomedical or bioengineering purposes require prediction and control of their function at multiple scales. This is challenging for many reasons, one of which is that living systems perform multiple functions in the same place at the same time. We refer to this as "polycomputing" - the ability of the same substrate to simultaneously compute different things. This ability is an important way in which living things are a kind of computer, but not the familiar, linear, deterministic kind; rather, living things are computers in the broad sense of computational materials as reported in the rapidly-growing physical computing literature. We argue that an observer-centered framework for the computations performed by evolved and designed systems will improve the understanding of meso-scale events, as it has already done at quantum and relativistic scales. Here, we review examples of biological and technological polycomputing, and develop the idea that overloading of different functions on the same hardware is an important design principle that helps understand and build both evolved and designed systems. Learning to hack existing polycomputing substrates, as well as evolve and design new ones, will have massive impacts on regenerative medicine, robotics, and computer engineering.
翻訳日:2022-12-22 15:39:58 公開日:2022-12-20
# text2struct: テキストから構造化データをマイニングする機械学習パイプライン

Text2Struct: A Machine Learning Pipeline for Mining Structured Data from Text ( http://arxiv.org/abs/2212.09044v2 )

ライセンス: Link先を確認
Chaochao Zhou and Bo Yang(参考訳) 多くの解析および予測タスクは、構造化されていないテキストから構造化データの抽出を必要とする。 そこで本研究では,テキストアノテーションスキーム,トレーニングデータ処理,機械学習実装などを含む,エンドツーエンドの機械学習パイプラインであるText2Structを提案する。 テキスト中の数字に関連するメトリクスと単位の抽出としてマイニング問題を定式化した。 text2structは血栓切除に関する医学雑誌の要約から収集した注釈付きテキストデータセット上で評価された。 予測性能の面では,テストデータセットで0.82のサイス係数が達成された。 ランダムサンプリングにより、数値と実体のほとんどの予測された関係は、基底真実アノテーションとよく一致した。 これらの結果は、text2structが特別なテンプレートやパターンを使わずにテキストから構造化データをマイニングできることを示している。 データセットを拡張し、他の機械学習モデルを調べることで、パイプラインをさらに改善することが期待されている。 コードデモは、https://github.com/zcc861007/CourseProjectで見ることができる。

Many analysis and prediction tasks require the extraction of structured data from unstructured texts. To solve it, this paper presents an end-to-end machine learning pipeline, Text2Struct, including a text annotation scheme, training data processing, and machine learning implementation. We formulated the mining problem as the extraction of metrics and units associated with numerals in the text. The Text2Struct was evaluated on an annotated text dataset collected from abstracts of medical publications regarding thrombectomy. In terms of prediction performance, a dice coefficient of 0.82 was achieved on the test dataset. By random sampling, most predicted relations between numerals and entities were well matched to the ground-truth annotations. These results show that the Text2Struct is viable for the mining of structured data from text without special templates or patterns. It is anticipated to further improve the pipeline by expanding the dataset and investigating other machine learning models. A code demonstration can be found at: https://github.com/zcc861007/CourseProject
翻訳日:2022-12-22 15:39:11 公開日:2022-12-20
# molcpt:分子表現学習を一般化する分子連続プロンプトチューニング

MolCPT: Molecule Continuous Prompt Tuning to Generalize Molecular Representation Learning ( http://arxiv.org/abs/2212.10614v1 )

ライセンス: Link先を確認
Cameron Diao, Kaixiong Zhou, Xiao Huang, Xia Hu(参考訳) 分子表現学習は、グラフニューラルネットワーク(GNN)がそれらの構造モデリング能力のために効果的な解となる、分子特性予測の問題に不可欠である。 ラベル付きデータは入手が困難で費用がかかることが多いため、GNNが広範な分子空間で一般化することは大きな課題である。 近年、GNNの一般化能力向上のために「事前訓練、微調整」の訓練パラダイムが活用されている。 自己教師付き情報を使ってgnnを事前学習し、数個のラベルで下流タスクを最適化するための微調整を行う。 しかし、特にランダムな構造的マスキングを伴う自己教師付き学習において、事前学習は統計的に有意な改善をもたらすとは限らない。 実際、分子構造はモチーフサブグラフによって特徴づけられ、しばしば発生し、分子特性に影響を及ぼす。 課題関連モチーフを活用するために,分子表現学習のための"pre-train, prompt, fine-tune"という新しいパラダイム,分子連続的プロンプトチューニング(MolCPT)を提案する。 MolCPTは、事前訓練されたモデルを使用して、スタンドアロンの入力を表現的なプロンプトに投影するモチーフプロンプト関数を定義する。 このプロンプトは、連続表現空間において有意義なモチーフを持つ分子グラフを効果的に強化する。 いくつかのベンチマークデータセットの大規模な実験により、MollCPTは分子特性予測のために学習済みのGNNを数ステップで効率的に一般化することが示された。

Molecular representation learning is crucial for the problem of molecular property prediction, where graph neural networks (GNNs) serve as an effective solution due to their structure modeling capabilities. Since labeled data is often scarce and expensive to obtain, it is a great challenge for GNNs to generalize in the extensive molecular space. Recently, the training paradigm of "pre-train, fine-tune" has been leveraged to improve the generalization capabilities of GNNs. It uses self-supervised information to pre-train the GNN, and then performs fine-tuning to optimize the downstream task with just a few labels. However, pre-training does not always yield statistically significant improvement, especially for self-supervised learning with random structural masking. In fact, the molecular structure is characterized by motif subgraphs, which are frequently occurring and influence molecular properties. To leverage the task-related motifs, we propose a novel paradigm of "pre-train, prompt, fine-tune" for molecular representation learning, named molecule continuous prompt tuning (MolCPT). MolCPT defines a motif prompting function that uses the pre-trained model to project the standalone input into an expressive prompt. The prompt effectively augments the molecular graph with meaningful motifs in the continuous representation space; this provides more structural patterns to aid the downstream classifier in identifying molecular properties. Extensive experiments on several benchmark datasets show that MolCPT efficiently generalizes pre-trained GNNs for molecular property prediction, with or without a few fine-tuning steps.
翻訳日:2022-12-22 15:38:57 公開日:2022-12-20
# コンパクト多様体上のランダム幾何および有向kNNグラフのラプラシアンの強一様収束

Strong uniform convergence of Laplacians of random geometric and directed kNN graphs on compact manifolds ( http://arxiv.org/abs/2212.10287v1 )

ライセンス: Link先を確認
H\'el\`ene Gu\'erin and Dinh-Toan Nguyen and Viet-Chi Tran(参考訳) 滑らかなコンパクトな $d$-次元部分多様体 $\mathcal{M}$ of $\mathbb{R}^m$ 上で、クラス $\mathcal{C}^2$ の密度 $p$ から独立にサンプリングされた$n$点を考えて、遷移核 $K$ に従ってこれらの点を訪れるランダムウォークの生成を考える。 この作用素の微分ラプラス・ベルトラミ作用素へのほぼ確実に一様収束は、$n$が無限大の傾向にあるときに研究する。 この研究は過去15年間の既知の結果を拡張した。 特に、この結果はカーネル $k$ が連続である必要はない。これは、$k$nn-random と幾何グラフを探索するウォークのケースをカバーしており、収束率は与えられる。 ランダムウォーク生成器と制限演算子の間の距離は、いくつかの用語に分けられる: 統計項は、大きな数の法則に関連するもので、集中ツールと微分幾何学からツールで制御する近似項で扱われる。 k$NN Laplacians の収束については詳述する。

Consider $n$ points independently sampled from a density $p$ of class $\mathcal{C}^2$ on a smooth compact $d$-dimensional sub-manifold $\mathcal{M}$ of $\mathbb{R}^m$, and consider the generator of a random walk visiting these points according to a transition kernel $K$. We study the almost sure uniform convergence of this operator to the diffusive Laplace-Beltrami operator when $n$ tends to infinity. This work extends known results of the past 15 years. In particular, our result does not require the kernel $K$ to be continuous, which covers the cases of walks exploring $k$NN-random and geometric graphs, and convergence rates are given. The distance between the random walk generator and the limiting operator is separated into several terms: a statistical term, related to the law of large numbers, is treated with concentration tools and an approximation term that we control with tools from differential geometry. The convergence of $k$NN Laplacians is detailed.
翻訳日:2022-12-22 15:32:18 公開日:2022-12-20
# フローベース深部生成モデルを用いた局所微分プライバシー画像生成

Local Differential Privacy Image Generation Using Flow-based Deep Generative Models ( http://arxiv.org/abs/2212.10688v1 )

ライセンス: Link先を確認
Hisaichi Shibata, Shouhei Hanaoka, Yang Cao, Masatoshi Yoshikawa, Tomomi Takenaga, Yukihiro Nomura, Naoto Hayashi, Osamu Abe(参考訳) 診断放射線技師は医用画像に人工知能(AI)を必要とするが、AIの訓練に必要な医療画像へのアクセスはますます制限されている。 医療画像の公開と利用には,医療画像のプライバシー保護と病理保存を同時に行うアルゴリズムが必要である。 そこで本研究では,局所微分プライバシー(LDP)アルゴリズムとフローベース深層生成モデル(GLOW)のハイブリッドであるDP-GLOWを提案する。 GLOWモデルを適用することで、画像の画素方向の相関関係を解消し、画像の簡単なLPPアルゴリズムでプライバシを保護することが困難になる。 具体的には、各要素が独立した正規分布に従うグローモデルの潜在ベクトルに画像をマッピングし、ラプラス機構を潜在ベクトルに適用する。 また,胸部X線画像にDP-GLOWを適用し,病理組織を保存しながらLPP画像を生成する。

Diagnostic radiologists need artificial intelligence (AI) for medical imaging, but access to medical images required for training in AI has become increasingly restrictive. To release and use medical images, we need an algorithm that can simultaneously protect privacy and preserve pathologies in medical images. To develop such an algorithm, here, we propose DP-GLOW, a hybrid of a local differential privacy (LDP) algorithm and one of the flow-based deep generative models (GLOW). By applying a GLOW model, we disentangle the pixelwise correlation of images, which makes it difficult to protect privacy with straightforward LDP algorithms for images. Specifically, we map images onto the latent vector of the GLOW model, each element of which follows an independent normal distribution, and we apply the Laplace mechanism to the latent vector. Moreover, we applied DP-GLOW to chest X-ray images to generate LDP images while preserving pathologies.
翻訳日:2022-12-22 15:30:51 公開日:2022-12-20
# evoML Yellow Paper:進化的AIと最適化スタジオ

evoML Yellow Paper: Evolutionary AI and Optimisation Studio ( http://arxiv.org/abs/2212.10671v1 )

ライセンス: Link先を確認
Lingbo Li, Leslie Kanthan, Michail Basios, Fan Wu, Manal Adham, Vitali Avagyan, Alexis Butler, Paul Brookes, Rafail Giavrimis, Buhong Liu, Chrystalla Pavlou, Matthew Truscott, and Vardan Voskanyan(参考訳) 機械学習モデルの開発と最適化は、かなり面倒でリソース集約的なプロセスである。 カスタムモデルは、ビルドとデプロイがより困難で、インフラストラクチャと専門知識が必要で、取得とメンテナンスにコストがかかることが多い。 機械学習製品開発ライフサイクルは、機械学習モデルの開発とデプロイの難しさを考慮に入れなければならない。 evoMLは、機械学習モデル開発、最適化、モデルコードの最適化において、自動機能を提供するAIベースのツールである。 evoMLのコア機能には、データのクリーニング、探索分析、特徴分析と生成、モデル最適化、モデル評価、モデルコード最適化、モデルデプロイメントなどがある。 さらに、evoMLの重要な特徴は、コードとモデルの最適化をモデル開発プロセスに組み込んで、多目的最適化機能を含むことだ。

Machine learning model development and optimisation can be a rather cumbersome and resource-intensive process. Custom models are often more difficult to build and deploy, and they require infrastructure and expertise which are often costly to acquire and maintain. Machine learning product development lifecycle must take into account the need to navigate the difficulties of developing and deploying machine learning models. evoML is an AI-powered tool that provides automated functionalities in machine learning model development, optimisation, and model code optimisation. Core functionalities of evoML include data cleaning, exploratory analysis, feature analysis and generation, model optimisation, model evaluation, model code optimisation, and model deployment. Additionally, a key feature of evoML is that it embeds code and model optimisation into the model development process, and includes multi-objective optimisation capabilities.
翻訳日:2022-12-22 15:21:55 公開日:2022-12-20
# C2F-TCN: 半監督された時間的行動セグメンテーションのためのフレームワーク

C2F-TCN: A Framework for Semi and Fully Supervised Temporal Action Segmentation ( http://arxiv.org/abs/2212.11078v1 )

ライセンス: Link先を確認
Dipika Singhania, Rahul Rahaman, Angela Yao(参考訳) 時間的アクションセグメンテーションタグは、シーケンス内の複数のアクションを含む入力未トリミングビデオの各フレームに対するアクションラベルである。 時間的動作セグメンテーションの課題として,c2f-tcn というエンコーダ-デコーダ型アーキテクチャを提案する。 C2F-TCNフレームワークは、セグメントの確率的最大プールの計算的安価戦略によって形成される、新しいモデルに依存しない時間的特徴増強戦略によって拡張される。 3つのベンチマークアクションセグメンテーションデータセットで、より正確で適切に教師付きされた結果を生成する。 アーキテクチャは教師付き学習と表現学習の両方に柔軟であることを示す。 これに合わせて,C2F-TCNからフレームワイド表現を学習するための教師なし手法を提案する。 我々の教師なし学習アプローチは、入力特徴のクラスタリング能力とデコーダの暗黙構造からの多解像度特徴の形成に依存している。 さらに,表現学習と従来の教師付き学習を融合して,最初の半教師付き時間行動分割結果を提供する。 Iterative-Contrastive-Classify (ICC)' と呼ばれる我々の半教師付き学習スキームは、ラベル付きデータにより徐々に性能が向上する。 C2F-TCNのICC半教師付き学習では、40%のラベル付きビデオが完全に教師付き学習と類似している。

Temporal action segmentation tags action labels for every frame in an input untrimmed video containing multiple actions in a sequence. For the task of temporal action segmentation, we propose an encoder-decoder-style architecture named C2F-TCN featuring a "coarse-to-fine" ensemble of decoder outputs. The C2F-TCN framework is enhanced with a novel model agnostic temporal feature augmentation strategy formed by the computationally inexpensive strategy of the stochastic max-pooling of segments. It produces more accurate and well-calibrated supervised results on three benchmark action segmentation datasets. We show that the architecture is flexible for both supervised and representation learning. In line with this, we present a novel unsupervised way to learn frame-wise representation from C2F-TCN. Our unsupervised learning approach hinges on the clustering capabilities of the input features and the formation of multi-resolution features from the decoder's implicit structure. Further, we provide the first semi-supervised temporal action segmentation results by merging representation learning with conventional supervised learning. Our semi-supervised learning scheme, called ``Iterative-Contrastive-Classify (ICC)'', progressively improves in performance with more labeled data. The ICC semi-supervised learning in C2F-TCN, with 40% labeled videos, performs similar to fully supervised counterparts.
翻訳日:2022-12-22 15:13:04 公開日:2022-12-20
# オフザシェルフ画像テキスト特徴を用いたオープンボキャブラリ時間行動検出

Open-Vocabulary Temporal Action Detection with Off-the-Shelf Image-Text Features ( http://arxiv.org/abs/2212.10596v1 )

ライセンス: Link先を確認
Vivek Rathod, Bryan Seybold, Sudheendra Vijayanarasimhan, Austin Myers, Xiuye Gu, Vighnesh Birodkar, David A. Ross(参考訳) 非トリミングビデオにおけるアクションの検出は、小さなクローズドクラスのクラスに限定されるべきではない。 本稿では,事前学習した画像テキストを用いた時間的オープンボキャブラリ検出のための簡易かつ効果的な手法を提案する。 ビデオではなく静的な画像で訓練されているにもかかわらず、画像テキストの共同エンベディングは完全な教師付きモデルと競合するopenvocabularyのパフォーマンスを可能にする。 また,光学的フローベース機能などの局所的な動きを符号化する機能や,オーディオなどのモダリティを組み込むことで,パフォーマンスをさらに向上できることを示す。 さらに,カテゴリ分割がランダムな代入ではなく類似性に基づいて行われるアクティビティネットデータセットに対して,より合理的なオープン語彙評価設定を提案する。

Detecting actions in untrimmed videos should not be limited to a small, closed set of classes. We present a simple, yet effective strategy for open-vocabulary temporal action detection utilizing pretrained image-text co-embeddings. Despite being trained on static images rather than videos, we show that image-text co-embeddings enable openvocabulary performance competitive with fully-supervised models. We show that the performance can be further improved by ensembling the image-text features with features encoding local motion, like optical flow based features, or other modalities, like audio. In addition, we propose a more reasonable open-vocabulary evaluation setting for the ActivityNet data set, where the category splits are based on similarity rather than random assignment.
翻訳日:2022-12-22 15:06:14 公開日:2022-12-20
# CHAIRS:人間と物体の完全な相互作用を目指して

CHAIRS: Towards Full-Body Articulated Human-Object Interaction ( http://arxiv.org/abs/2212.10621v1 )

ライセンス: Link先を確認
Nan Jiang, Tengyu Liu, Zhexuan Cao, Jieming Cui, Yixin Chen, He Wang, Yixin Zhu, Siyuan Huang(参考訳) 3D HOIのきめ細かいキャプチャは、人間の活動理解を促進し、アクション認識、全体像再構成、人間の動き合成を含む下流の視覚タスクを促進する。 その重要性にもかかわらず、既存の研究は人間の身体の一部だけを使って剛体物体と相互作用し、その範囲を制限していると仮定している。 本稿では,人体全体が関節のある物体と相互作用し,部品が可動関節で接続されるという,f-AHOIの課題に対処する。 46人の参加者と81人の定性的・剛性的な物体の間の16.2時間の多目的相互作用からなる大規模な動きキャプチャーf-AHOIデータセットであるCHAIRSを提案する。 CHAIRSは、対話的なプロセス全体を通して、人間と関節のある物体の両方の3Dメッシュを提供する。 オブジェクトポーズ推定によるCHAIRSの値を示す。 HOIにおける幾何学的関係を学習することにより,人間のポーズ推定を生かした最初のモデルを考案し,人体間相互作用における物体のポーズと形状の推定に挑戦する。 画像と推定された人間のポーズを与えられたモデルでは、まず物体のポーズと形状を再構築し、学習したインタラクションに従って再構築を最適化する。 両方の評価設定(例えば、オブジェクトのジオメトリ/構造に関する知識の有無)の下で、我々のモデルはベースラインを著しく上回る。 CHAIRSは、よりきめ細かいインタラクション理解に向けて、コミュニティを促進することを願っています。 データ/コードは公開します。

Fine-grained capturing of 3D HOI boosts human activity understanding and facilitates downstream visual tasks, including action recognition, holistic scene reconstruction, and human motion synthesis. Despite its significance, existing works mostly assume that humans interact with rigid objects using only a few body parts, limiting their scope. In this paper, we address the challenging problem of f-AHOI, wherein the whole human bodies interact with articulated objects, whose parts are connected by movable joints. We present CHAIRS, a large-scale motion-captured f-AHOI dataset, consisting of 16.2 hours of versatile interactions between 46 participants and 81 articulated and rigid sittable objects. CHAIRS provides 3D meshes of both humans and articulated objects during the entire interactive process, as well as realistic and physically plausible full-body interactions. We show the value of CHAIRS with object pose estimation. By learning the geometrical relationships in HOI, we devise the very first model that leverage human pose estimation to tackle the estimation of articulated object poses and shapes during whole-body interactions. Given an image and an estimated human pose, our model first reconstructs the pose and shape of the object, then optimizes the reconstruction according to a learned interaction prior. Under both evaluation settings (e.g., with or without the knowledge of objects' geometries/structures), our model significantly outperforms baselines. We hope CHAIRS will promote the community towards finer-grained interaction understanding. We will make the data/code publicly available.
翻訳日:2022-12-22 15:06:01 公開日:2022-12-20
# ビデオを用いた認知症患者のプライバシー保護行動とリスク検出

Privacy-Protecting Behaviours of Risk Detection in People with Dementia using Videos ( http://arxiv.org/abs/2212.10682v1 )

ライセンス: Link先を確認
Pratik K. Mishra, Andrea Iaboni, Bing Ye, Kristine Newman, Alex Mihailidis, Shehroz S. Khan(参考訳) 認知症を持つ人々は、しばしば認知症の行動的、心理的な症状を示し、彼らと他人の安全を危険にさらす。 介護施設の既存のビデオ監視システムは、そのような危険行動を監視し、スタッフに怪我や死亡の危険性を警告することができる。 しかし、これらのリスクイベントの振る舞いは、通常の事象と比較すると、不均一で不規則である。 さらに、生のビデオを分析することでプライバシーの懸念も高まる。 本稿では,認知症患者のリスク行動を検出するための,プライバシ保護型ビデオベースの異常検出手法を2つ紹介する。 身体のポーズ情報を骨格として抽出し、セマンティックセグメンテーションマスクを用いてシーン内の複数の人間をセマンティック境界に置き換えた。 我々の研究は、外見に基づく特徴に焦点を合わせ、人のプライバシーを危険にさらすことができ、照明や視聴方向を含むピクセルベースのノイズにも敏感な、既存のビデオ異常検出手法とは異なる。 我々は,正規活動の匿名化ビデオを用いて,時空間的畳み込み型自動エンコーダを訓練し,リスクの挙動を異常として識別した。 本研究は,認知症患者の認知症ケアユニットにおいて,訓練に約21時間の正常活動データと,検査に正常およびリスクイベントの行動を含む9時間のデータを含む実世界調査を行った。 提案手法をオリジナルのRGBビデオと比較し,スケルトン法では0.807,セグメンテーションマスク法では0.823,レシーバー法では0.807と等価領域を得た。 これは認知症患者のリスク行動の検出にプライバシを組み込んだ最初の研究の1つである。

People living with dementia often exhibit behavioural and psychological symptoms of dementia that can put their and others' safety at risk. Existing video surveillance systems in long-term care facilities can be used to monitor such behaviours of risk to alert the staff to prevent potential injuries or death in some cases. However, these behaviours of risk events are heterogeneous and infrequent in comparison to normal events. Moreover, analyzing raw videos can also raise privacy concerns. In this paper, we present two novel privacy-protecting video-based anomaly detection approaches to detect behaviours of risks in people with dementia. We either extracted body pose information as skeletons and use semantic segmentation masks to replace multiple humans in the scene with their semantic boundaries. Our work differs from most existing approaches for video anomaly detection that focus on appearance-based features, which can put the privacy of a person at risk and is also susceptible to pixel-based noise, including illumination and viewing direction. We used anonymized videos of normal activities to train customized spatio-temporal convolutional autoencoders and identify behaviours of risk as anomalies. We show our results on a real-world study conducted in a dementia care unit with patients with dementia, containing approximately 21 hours of normal activities data for training and 9 hours of data containing normal and behaviours of risk events for testing. We compared our approaches with the original RGB videos and obtained an equivalent area under the receiver operating characteristic curve performance of 0.807 for the skeleton-based approach and 0.823 for the segmentation mask-based approach. This is one of the first studies to incorporate privacy for the detection of behaviours of risks in people with dementia.
翻訳日:2022-12-22 15:05:35 公開日:2022-12-20
# mFACE: Factual Consistency Evaluationを用いた多言語要約

mFACE: Multilingual Summarization with Factual Consistency Evaluation ( http://arxiv.org/abs/2212.10622v1 )

ライセンス: Link先を確認
Roee Aharoni, Shashi Narayan, Joshua Maynez, Jonathan Herzig, Elizabeth Clark, Mirella Lapata(参考訳) 抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。 有望な結果にもかかわらず、現在のモデルは実際には一貫性のない要約を生成するのに苦しむ。 最近のいくつかの取り組みは、マシン生成されたサマリーの事実の不一致を自動的に検出するモデルを考案することでこの問題に対処しようとしている。 しかし、それらは豊富な資源を持つ言語である英語のみに焦点を当てている。 本研究では,事実整合性評価モデルを活用し,多言語要約を改善する。 本稿では,多言語nliモデルで提供された信号に基づく幻覚緩和のための2つの直感的アプローチ,すなわちデータフィルタリングと制御生成について検討する。 xlsumデータセットから得られた45言語の実験結果は、自動評価と人間評価の両方において、強力なベースラインよりも高い値を示している。

Abstractive summarization has enjoyed renewed interest in recent years, thanks to pre-trained language models and the availability of large-scale datasets. Despite promising results, current models still suffer from generating factually inconsistent summaries, reducing their utility for real-world application. Several recent efforts attempt to address this by devising models that automatically detect factual inconsistencies in machine generated summaries. However, they focus exclusively on English, a language with abundant resources. In this work, we leverage factual consistency evaluation models to improve multilingual summarization. We explore two intuitive approaches to mitigate hallucinations based on the signal provided by a multilingual NLI model, namely data filtering and controlled generation. Experimental results in the 45 languages from the XLSum dataset show gains over strong baselines in both automatic and human evaluation.
翻訳日:2022-12-22 14:39:00 公開日:2022-12-20
# KronA: Kronecker Adapterを用いたパラメータの効率的なチューニング

KronA: Parameter Efficient Tuning with Kronecker Adapter ( http://arxiv.org/abs/2212.10650v1 )

ライセンス: Link先を確認
Ali Edalati, Marzieh Tahaei, Ivan Kobyzev, Vahid Partovi Nia, James J. Clark, Mehdi Rezagholizadeh(参考訳) 特定の下流タスクにおける事前学習言語モデル(PLM)の微調整は自然言語処理においてよく知られたパラダイムである。 しかし、PLMの規模が拡大するにつれて、いくつかの下流タスクでモデル全体をトレーニングする作業は非常に高価でリソース不足になる。 近年, 微調整PLMの効率を向上させるために, パラメータ効率向上技術が提案されている。 PET法の一般的なカテゴリの1つは、学習可能なSVDモジュールを逐次または並列にオリジナルのモデルに挿入する低ランク適応法である。 しかし、低位分解は限定的な表現力に苦しむ。 本研究では,この問題を低ランク表現の代わりにクロネッカー積を用いて解決する。 我々は、変圧器ベースのplmを効率的に微調整するためのクロネッカー製品ベースのアダプタモジュールであるkronaを紹介する。 提案手法をGLUEベンチマークに応用し, Kronecker をベースとしたモジュールを組み込むことで, 最先端の PET 手法より優れていることを示す。

Fine-tuning a Pre-trained Language Model (PLM) on a specific downstream task has been a well-known paradigm in Natural Language Processing. However, with the ever-growing size of PLMs, training the entire model on several downstream tasks becomes very expensive and resource-hungry. Recently, different Parameter Efficient Tuning (PET) techniques are proposed to improve the efficiency of fine-tuning PLMs. One popular category of PET methods is the low-rank adaptation methods which insert learnable truncated SVD modules into the original model either sequentially or in parallel. However, low-rank decomposition suffers from limited representation power. In this work, we address this problem using the Kronecker product instead of the low-rank representation. We introduce KronA, a Kronecker product-based adapter module for efficient fine-tuning of Transformer-based PLMs. We apply the proposed methods for fine-tuning T5 on the GLUE benchmark to show that incorporating the Kronecker-based modules can outperform state-of-the-art PET methods.
翻訳日:2022-12-22 14:38:46 公開日:2022-12-20
# 複数の参照データセットを用いた共鳴異常検出

Resonant Anomaly Detection with Multiple Reference Datasets ( http://arxiv.org/abs/2212.10579v1 )

ライセンス: Link先を確認
Mayee F. Chen, Benjamin Nachman, Frederic Sala(参考訳) 高エネルギー物理学における共鳴異常検出のための重要な種類の技術は、参照データセットとターゲットデータセットを区別できるモデルを構築している。 分類不要ラベル (CWoLa) やSimulation Assisted Likelihood-free Anomaly Detection (SALAD) などの手法は単一の参照データセットに依存している。 一般的に利用可能な複数のデータセットを活用できないため、利用可能な情報を十分に活用することはできない。 そこで本研究では,複数の参照データセットが利用できるような環境下でのCWoLaとSALADの一般化を提案する。 実データと合成データを用いて,様々な設定で性能が向上することを示す。 さらなる利点として、我々の一般化は有限サンプル保証を提供し、既存の漸近解析を改善します。

An important class of techniques for resonant anomaly detection in high energy physics builds models that can distinguish between reference and target datasets, where only the latter has appreciable signal. Such techniques, including Classification Without Labels (CWoLa) and Simulation Assisted Likelihood-free Anomaly Detection (SALAD) rely on a single reference dataset. They cannot take advantage of commonly-available multiple datasets and thus cannot fully exploit available information. In this work, we propose generalizations of CWoLa and SALAD for settings where multiple reference datasets are available, building on weak supervision techniques. We demonstrate improved performance in a number of settings with realistic and synthetic data. As an added benefit, our generalizations enable us to provide finite-sample guarantees, improving on existing asymptotic analyses.
翻訳日:2022-12-22 14:30:05 公開日:2022-12-20
# 非プレーヤ文字対話のオントロジー的忠実生成

Ontologically Faithful Generation of Non-Player Character Dialogues ( http://arxiv.org/abs/2212.10618v1 )

ライセンス: Link先を確認
Nathaniel Weir, Ryan Thomas, Randolph D'Amore, Kellie Hill, Benjamin Van Durme, Harsh Jhamtani(参考訳) 本稿では,人気ゲーム環境に根ざした言語生成タスクを提案する。 KNUDGE (KNowledge Constrained User-NPC Dialogue GEneration) は、クエストおよびエンティティ仕様を提供する自然言語パスでキャプチャされたオントロジーで条件付けられた対話ツリーを生成する。 クヌージは、オブシディアン・エンタテインメントの『ザ・アウターワールド』のゲームデータから直接引き出されたサイドクエスト対話から構築されており、(1)対話は、発話の線形連鎖とは対照的に木を分岐させ、(2)発話は、ゲームlore-character persona, backstories, and entity relationsに忠実でなければならない、(3) 対話は、人間のプレイヤーに新たなクエスト関連の詳細を正確に明かさなければならない。 我々は,教師付き・コンテキスト内学習手法の成果を報告し,現実的なゲーム品質の対話を作るための重要な作業の余地があることを見出した。

We introduce a language generation task grounded in a popular video game environment. KNUDGE (KNowledge Constrained User-NPC Dialogue GEneration) involves generating dialogue trees conditioned on an ontology captured in natural language passages providing quest and entity specifications. KNUDGE is constructed from side quest dialogues drawn directly from game data of Obsidian Entertainment's The Outer Worlds, leading to real-world complexities in generation: (1) dialogues are branching trees as opposed to linear chains of utterances; (2) utterances must remain faithful to the game lore--character personas, backstories, and entity relationships; and (3) a dialogue must accurately reveal new quest-related details to the human player. We report results for supervised and in-context learning techniques, finding there is significant room for future work on creating realistic game-quality dialogues.
翻訳日:2022-12-22 14:27:14 公開日:2022-12-20
# 情報活用強化学習における探索率の適用

Adapting the Exploration Rate for Value-of-Information-Based Reinforcement Learning ( http://arxiv.org/abs/2212.11083v1 )

ライセンス: Link先を確認
Isaac J. Sledge, Jose C. Principe(参考訳) 本稿では,情報量に基づく探索における探索率調整の問題について考察する。 我々は,情報量最適化を,変動する探索率に対する流れの平衡を求める問題に転換することでこれを行う。 次に、これらの平衡に収束し、最適な行動選択ポリシーを明らかにするための効率的な経路追従スキームを開発する。 このスキームでは、探索率はエージェントの経験に応じて自動的に適応される。 グローバル収束は理論的に保証されている。 まず,ニンテンドーゲームボーイゲーム「centipede」と「millipede」の探索率について評価した。 探索過程の側面を実証する。 本手法は,ヒューリスティックでアニーリングに基づく探索速度調整に依存する従来の検索戦略よりも少ないエピソードでより良いポリシーが得られることを示す。 そして、これらのトレンドは、Nintendo GameBoyシステムで10以上のシンプルなゲームをプレイし、さらに40以上の複雑なゲームをプレイすることを学ぶ、深い情報ベースのエージェントに当てはまる。 人間の遊びのレベルに近い、またはかなり高いパフォーマンスが観察される。

In this paper, we consider the problem of adjusting the exploration rate when using value-of-information-based exploration. We do this by converting the value-of-information optimization into a problem of finding equilibria of a flow for a changing exploration rate. We then develop an efficient path-following scheme for converging to these equilibria and hence uncovering optimal action-selection policies. Under this scheme, the exploration rate is automatically adapted according to the agent's experiences. Global convergence is theoretically assured. We first evaluate our exploration-rate adaptation on the Nintendo GameBoy games Centipede and Millipede. We demonstrate aspects of the search process. We show that our approach yields better policies in fewer episodes than conventional search strategies relying on heuristic, annealing-based exploration-rate adjustments. We then illustrate that these trends hold for deep, value-of-information-based agents that learn to play ten simple games and over forty more complicated games for the Nintendo GameBoy system. Performance either near or well above the level of human play is observed.
翻訳日:2022-12-22 14:18:28 公開日:2022-12-20
# カスケード残差畳み込みニューラルネットワークを用いたビデオセグメンテーション学習

Video Segmentation Learning Using Cascade Residual Convolutional Neural Network ( http://arxiv.org/abs/2212.10570v1 )

ライセンス: Link先を確認
Daniel F. S. Santos, Rafael G. Pires, Danilo Colombo, Jo\~ao P. Papa(参考訳) ビデオセグメンテーションは、前景移動物体に関連する意味のある領域をフレーム単位で選択するプロセスからなる。 交通監視、人間の追跡、行動認識、効率的なビデオ監視、異常検出などのアプリケーションがある。 これらの応用において、気象条件の急激な変化、照明問題、影、微妙な動的背景運動、カモフラージュ効果などの課題に直面することは珍しくない。 本研究では,残余情報を前景検出学習プロセスに組み込んだ新しい深層学習ビデオセグメンテーション手法を提案することにより,このような問題点に対処する。 主な目的は、グレースケールの映像から正確なフォアグラウンド検出を生成する方法を提供することである。 変更検出2014とpetrobrasのプライベートデータセットであるpetrobrasroutesに関する実験は、変更検出2014とpetrobrasroutesデータセットにそれぞれ$\mathbf{0.9535}$と$\mathbf{0.9636}$のf-測定値を含む、最先端のビデオセグメンテーション技術に関する提案手法の有効性を支持している。 このような結果から,提案手法は,提案手法の約7分の1のパラメータを含むとともに,最先端ビデオセグメンテーション手法の上位3つに含まれている。

Video segmentation consists of a frame-by-frame selection process of meaningful areas related to foreground moving objects. Some applications include traffic monitoring, human tracking, action recognition, efficient video surveillance, and anomaly detection. In these applications, it is not rare to face challenges such as abrupt changes in weather conditions, illumination issues, shadows, subtle dynamic background motions, and also camouflage effects. In this work, we address such shortcomings by proposing a novel deep learning video segmentation approach that incorporates residual information into the foreground detection learning process. The main goal is to provide a method capable of generating an accurate foreground detection given a grayscale video. Experiments conducted on the Change Detection 2014 and on the private dataset PetrobrasROUTES from Petrobras support the effectiveness of the proposed approach concerning some state-of-the-art video segmentation techniques, with overall F-measures of $\mathbf{0.9535}$ and $\mathbf{0.9636}$ in the Change Detection 2014 and PetrobrasROUTES datasets, respectively. Such a result places the proposed technique amongst the top 3 state-of-the-art video segmentation methods, besides comprising approximately seven times less parameters than its top one counterpart.
翻訳日:2022-12-22 14:12:02 公開日:2022-12-20
# 損失推定に基づくアクティブラーニングのための時間的出力差

Temporal Output Discrepancy for Loss Estimation-based Active Learning ( http://arxiv.org/abs/2212.10613v1 )

ライセンス: Link先を確認
Siyu Huang, Tianyang Wang, Haoyi Xiong, Bihan Wen, Jun Huan, Dejing Dou(参考訳) ディープラーニングは幅広いタスクで成功しますが、高価で時間を要する注釈付きデータの膨大なコレクションに大きく依存します。 データアノテーションのコストを下げるために、アクティブラーニングは、ラベルなしデータセット内の少数の情報サンプルに注釈を付けるために、オラクルに対話的に問い合わせることが提案されている。 本稿では,損失率の高いサンプルが,損失率の低いサンプルよりもモデルに有益であるという事実に触発されて,ラベルのないサンプルが損失率が高いと思われる場合に,oracleにデータアノテーションを求める新しいディープラーニング手法を提案する。 提案手法のコアとなるのは,異なる最適化ステップにおけるモデルによる出力の相違を評価することで,サンプル損失を推定する時間的出力不一致(TOD)である。 我々の理論的研究は,TODが蓄積したサンプルの損失を低く抑え,情報的未ラベルサンプルの選定に使用できることを示している。 さらに,TODに基づいて,アクティブラーニングのための教師なし学習基準だけでなく,効果的なラベルなしデータサンプリング戦略を開発する。 TODの単純さのため、我々の手法は効率的で柔軟性があり、タスクに依存しない。 その結果,画像分類や意味セグメンテーションタスクにおいて,最先端のアクティブラーニング手法よりも優れた性能が得られることがわかった。 さらに,TODを用いて,候補モデルのプールから,潜在的に最も高いテスト精度の最良のモデルを選択することができることを示す。

While deep learning succeeds in a wide range of tasks, it highly depends on the massive collection of annotated data which is expensive and time-consuming. To lower the cost of data annotation, active learning has been proposed to interactively query an oracle to annotate a small proportion of informative samples in an unlabeled dataset. Inspired by the fact that the samples with higher loss are usually more informative to the model than the samples with lower loss, in this paper we present a novel deep active learning approach that queries the oracle for data annotation when the unlabeled sample is believed to incorporate high loss. The core of our approach is a measurement Temporal Output Discrepancy (TOD) that estimates the sample loss by evaluating the discrepancy of outputs given by models at different optimization steps. Our theoretical investigation shows that TOD lower-bounds the accumulated sample loss thus it can be used to select informative unlabeled samples. On basis of TOD, we further develop an effective unlabeled data sampling strategy as well as an unsupervised learning criterion for active learning. Due to the simplicity of TOD, our methods are efficient, flexible, and task-agnostic. Extensive experimental results demonstrate that our approach achieves superior performances than the state-of-the-art active learning methods on image classification and semantic segmentation tasks. In addition, we show that TOD can be utilized to select the best model of potentially the highest testing accuracy from a pool of candidate models.
翻訳日:2022-12-22 14:11:35 公開日:2022-12-20
# リカレントニューラルネットワークにおけるメモリ距離制限の実証的解析

Empirical Analysis of Limits for Memory Distance in Recurrent Neural Networks ( http://arxiv.org/abs/2212.11085v1 )

ライセンス: Link先を確認
Steffen Illium, Thore Schillman, Robert M\"uller, Thomas Gabor and Claudia Linnhoff-Popien(参考訳) あらゆる種類のリカレントニューラルネットワーク(RNN)には、時間を通してデータポイント間の関係をモデル化する意図がある。 後続のデータポイント(例えば乱数でデータポイントが生成される場合など)の間に即時的な関係がない場合、RNNは標準的なバックプロパゲーションを用いてそれらを記憶することで、いくつかのデータポイントをシーケンスに戻すことができることを示す。 しかし,従来の RNN や LSTM や GRU では,この方法で再現可能な再帰呼び出し間のデータ点間距離は極めて制限され(データ点間のゆるい接続でさえも),問題となる RNN のタイプやサイズによって課される様々な制約が課されることも示している。 これは、rnnがその関係を認識できる関連するデータポイント間の距離に対するハードリミット(情報理論上のリミットより下)の存在を意味する。

Common to all different kinds of recurrent neural networks (RNNs) is the intention to model relations between data points through time. When there is no immediate relationship between subsequent data points (like when the data points are generated at random, e.g.), we show that RNNs are still able to remember a few data points back into the sequence by memorizing them by heart using standard backpropagation. However, we also show that for classical RNNs, LSTM and GRU networks the distance of data points between recurrent calls that can be reproduced this way is highly limited (compared to even a loose connection between data points) and subject to various constraints imposed by the type and size of the RNN in question. This implies the existence of a hard limit (way below the information-theoretic one) for the distance between related data points within which RNNs are still able to recognize said relation.
翻訳日:2022-12-22 14:10:19 公開日:2022-12-20
# コード検索のための生成型クエリ拡張

Generation-Augmented Query Expansion For Code Retrieval ( http://arxiv.org/abs/2212.10692v1 )

ライセンス: Link先を確認
Dong Li and Yelong Shen and Ruoming Jin and Yi Mao and Kuan Wang and Weizhu Chen(参考訳) 事前学習された言語モデルは、最も関連する既存のコードスニペットを見つけるために自然言語ドキュメンテーションクエリが与えられるコード検索タスクで有望な成功を収めている。 しかし、既存のモデルはドキュメントコードペアを最適化することだけに焦点を合わせており、外部の知識の関連なしに潜伏した空間に埋め込んでいる。 本稿では,次世代のクエリ拡張フレームワークを提案する。 人間の検索プロセスに触発され、検索前に答えをスケッチし、本研究では、強力なコード生成モデルを用いて、コード検索タスクの恩恵を受ける。 具体的には、単にドキュメントクエリに従ってターゲットのコードスニペットを取得するのではなく、生成したコード生成モデルから生成されたコードスニペットを使ってドキュメントクエリを拡張できることを実証します。 私たちの知る限りでは、コード検索タスクを強化するためにコード生成モデルを活用する最初の試みである。 CodeSearchNetベンチマークで、新しい最先端の結果を達成し、ベースラインを大幅に越えます。

Pre-trained language models have achieved promising success in code retrieval tasks, where a natural language documentation query is given to find the most relevant existing code snippet. However, existing models focus only on optimizing the documentation code pairs by embedding them into latent space, without the association of external knowledge. In this paper, we propose a generation-augmented query expansion framework. Inspired by the human retrieval process - sketching an answer before searching, in this work, we utilize the powerful code generation model to benefit the code retrieval task. Specifically, we demonstrate that rather than merely retrieving the target code snippet according to the documentation query, it would be helpful to augment the documentation query with its generation counterpart - generated code snippets from the code generation model. To the best of our knowledge, this is the first attempt that leverages the code generation model to enhance the code retrieval task. We achieve new state-of-the-art results on the CodeSearchNet benchmark and surpass the baselines significantly.
翻訳日:2022-12-22 14:02:47 公開日:2022-12-20
# in-context learning distillation: 事前学習した言語モデルのマイナショット学習能力の伝達

In-context Learning Distillation: Transferring Few-shot Learning Ability of Pre-trained Language Models ( http://arxiv.org/abs/2212.10670v1 )

ライセンス: Link先を確認
Yukun Huang, Yanda Chen, Zhou Yu, Kathleen McKeown(参考訳) 大規模事前学習型言語モデルのコンテキスト内学習の成功を踏まえて,コンテキスト内学習能力を大規模モデルから小規模モデルに移すために,コンテキスト内学習蒸留を導入する。 文脈内学習の目的と言語モデリングの目的を組み合わせることで、文脈内例を読む能力とタスク知識をより小さなモデルに割くことを提案する。 メタ・イン・コンテクスト・チューニング(Meta-ICT)とマルチタスク・イン・コンテクスト・チューニング(Multitask-ICT)の2つの異なる学習パラダイムの下で,イン・コンテクスト学習蒸留を行う。 マルチタスクICTはマルチタスクによる数ショット学習では優れるが、メタICTよりも多くの計算を必要とする。 LAMAとCrossFitの2つのベンチマークでメタICTとマルチタスクICTの整合性向上を示す。 広範な実験と分析により,マルチタスクictパラダイム下では,文脈内学習目標と言語モデリング目標が補完的であることが判明した。 文脈内学習の目的は、言語モデリングの目的と組み合わせることで、最高のパフォーマンスを達成する。

Given the success with in-context learning of large pre-trained language models, we introduce in-context learning distillation to transfer in-context few-shot learning ability from large models to smaller models. We propose to combine in-context learning objectives with language modeling objectives to distill both the ability to read in-context examples and task knowledge to the smaller models. We perform in-context learning distillation under two different few-shot learning paradigms: Meta In-context Tuning (Meta-ICT) and Multitask In-context Tuning (Multitask-ICT). Multitask-ICT performs better on multitask few-shot learning but also requires more computation than Meta-ICT. Our method shows consistent improvements for both Meta-ICT and Multitask-ICT on two benchmarks: LAMA and CrossFit. Our extensive experiments and analysis reveal that in-context learning objectives and language modeling objectives are complementary under the Multitask-ICT paradigm. In-context learning objectives achieve the best performance when combined with language modeling objectives.
翻訳日:2022-12-22 13:54:37 公開日:2022-12-20
# 言語モデルにおけるステレオタイプ理解:ロバストな計測とゼロショットデバイアスに向けて

Understanding Stereotypes in Language Models: Towards Robust Measurement and Zero-Shot Debiasing ( http://arxiv.org/abs/2212.10678v1 )

ライセンス: Link先を確認
Justus Mattern, Zhijing Jin, Mrinmaya Sachan, Rada Mihalcea, Bernhard Sch\"olkopf(参考訳) 大きな事前訓練された言語モデルから生成されたテキストは、様々な人口統計学に関する有害で人間的な偏見を示すことが示されている。 これらの知見は、これらのステレオタイプ的関連を緩和する技術開発を導くためのベンチマークを提供することを目標とし、そのような効果を理解し、測定することを目的とした大きな取り組みを引き起こした。 しかし、最近の研究で指摘されているように、現在のベンチマークには堅牢な実験的な設定がなく、その結果、評価指標から意味のある結論が推測できない。 本稿では,これらの議論を拡張し,ステレオタイプを測定するための既存の手法やベンチマークが不正確であり,それらに基づくベンチマーク言語モデルから得られる知識を著しく制限する高い実験ノイズからなることを示した。 そこで本研究では,生成言語モデルが提示するバイアスを頑健に測定し,定量化する新しい枠組みを提案する。 最後に、この枠組みを用いて、GPT-3の職業性バイアスを調査し、微調整を必要とせず、これらのバイアスを軽減する手法を提案する。

Generated texts from large pretrained language models have been shown to exhibit a variety of harmful, human-like biases about various demographics. These findings prompted large efforts aiming to understand and measure such effects, with the goal of providing benchmarks that can guide the development of techniques mitigating these stereotypical associations. However, as recent research has pointed out, the current benchmarks lack a robust experimental setup, consequently hindering the inference of meaningful conclusions from their evaluation metrics. In this paper, we extend these arguments and demonstrate that existing techniques and benchmarks aiming to measure stereotypes tend to be inaccurate and consist of a high degree of experimental noise that severely limits the knowledge we can gain from benchmarking language models based on them. Accordingly, we propose a new framework for robustly measuring and quantifying biases exhibited by generative language models. Finally, we use this framework to investigate GPT-3's occupational gender bias and propose prompting techniques for mitigating these biases without the need for fine-tuning.
翻訳日:2022-12-22 13:54:17 公開日:2022-12-20
# 人間と言語モデルにおけるタスクあいまいさ

Task Ambiguity in Humans and Language Models ( http://arxiv.org/abs/2212.10711v1 )

ライセンス: Link先を確認
Alex Tamkin, Kunal Handa, Avash Shrestha, Noah Goodman(参考訳) 言語モデルは、最近、幅広いNLPベンチマークで強力なパフォーマンスを達成した。 しかし、ベンチマークと異なり、現実世界のタスクはしばしば不明確であり、エージェントはユーザーの意図した振る舞いをコンテキスト、命令、例の組み合わせから推測しなければならない。 本研究では,これらのタスクのあいまいさに対して,人間とモデルの両方がどのように振る舞うかを,あいまいな6つの分類タスクのベンチマークであるAmbiBenchを提案する。 AmbiBench上での人間とモデルの評価は、意図したタスクをどの程度正確に識別するかを調べることで行う。 1)曖昧さの程度が異なる指示、及び 2) ラベル付き例の数が異なる。 モデルスケーリング(最大175Bパラメータ)と人間のフィードバックデータの組み合わせにより、モデルがタスク全体にわたって人間の参加者の正確さに近づいたり、超えたりすることができるが、どちらも不十分であることがわかった。 さらに,少数のあいまいなインコンテキストの例を微調整することで,大規模なフィードバックトレーニングを伴わずに学習した言語モデルの精度を劇的に向上させる方法を示し,あいまいさに直面してモデルを一般化するための有望な方向を提供する。

Language models have recently achieved strong performance across a wide range of NLP benchmarks. However, unlike benchmarks, real world tasks are often poorly specified, and agents must deduce the user's intended behavior from a combination of context, instructions, and examples. We investigate how both humans and models behave in the face of such task ambiguity by proposing AmbiBench, a new benchmark of six ambiguously-specified classification tasks. We evaluate humans and models on AmbiBench by seeing how well they identify the intended task using 1) instructions with varying degrees of ambiguity, and 2) different numbers of labeled examples. We find that the combination of model scaling (to 175B parameters) and training with human feedback data enables models to approach or exceed the accuracy of human participants across tasks, but that either one alone is not sufficient. In addition, we show how to dramatically improve the accuracy of language models trained without large-scale human feedback training by finetuning on a small number of ambiguous in-context examples, providing a promising direction for teaching models to generalize well in the face of ambiguity.
翻訳日:2022-12-22 13:53:11 公開日:2022-12-20
# 実世界生産環境に適した高スループット・高効率深層学習駆動型光ガイドプレート表面視覚品質検査

High-Throughput, High-Performance Deep Learning-Driven Light Guide Plate Surface Visual Quality Inspection Tailored for Real-World Manufacturing Environments ( http://arxiv.org/abs/2212.10632v1 )

ライセンス: Link先を確認
Carol Xu, Mahmoud Famouri, Gautam Bathla, Mohammad Javad Shafiee, Alexander Wong(参考訳) 光ガイドプレートは、医療用照明器具からバックライトtvディスプレイまで、様々な用途で広く使われている必須の光学部品である。 本研究では,光ガイド板表面の視覚的品質検査(VQI)を現実の製造環境に適した完全統合,高スループット,高性能なディープラーニング駆動ワークフローを提案する。 完全統合VQIシステム内のエッジコンピューティングにおけるVQIの自動化を実現するため、L_1ペアの分類誤差損失だけでなく、計算および「ベストプラクティス」制約による機械駆動設計探索により、リソース制約シナリオにおけるライトガイドプレート表面欠陥検出に特化して設計された、高コンパクトなディープ・アンチエイリアス・アウェア・コンデンサ・ニューラルネットワーク(LightDefectNet)を開発した。 実験の結果、LightDetectNetは770Kパラメータ(ResNet-50とEfficientNet-B0)と ~93M FLOPs(ResNet-50とEfficientNet-B0よりそれぞれ~88Xと~8.4X)と、EfficientNet-B0よりも高速な推論速度を持ちながら、LGPSDDベンチマークで約98.2%の精度を達成した。 このように、前述のLightDefectNetニューラルネットワークと統合されたディープラーニング駆動ワークフローは、実世界の製造環境において、高速で高性能な光板表面VQIに非常に適している。

Light guide plates are essential optical components widely used in a diverse range of applications ranging from medical lighting fixtures to back-lit TV displays. In this work, we introduce a fully-integrated, high-throughput, high-performance deep learning-driven workflow for light guide plate surface visual quality inspection (VQI) tailored for real-world manufacturing environments. To enable automated VQI on the edge computing within the fully-integrated VQI system, a highly compact deep anti-aliased attention condenser neural network (which we name LightDefectNet) tailored specifically for light guide plate surface defect detection in resource-constrained scenarios was created via machine-driven design exploration with computational and "best-practices" constraints as well as L_1 paired classification discrepancy loss. Experiments show that LightDetectNet achieves a detection accuracy of ~98.2% on the LGPSDD benchmark while having just 770K parameters (~33X and ~6.9X lower than ResNet-50 and EfficientNet-B0, respectively) and ~93M FLOPs (~88X and ~8.4X lower than ResNet-50 and EfficientNet-B0, respectively) and ~8.8X faster inference speed than EfficientNet-B0 on an embedded ARM processor. As such, the proposed deep learning-driven workflow, integrated with the aforementioned LightDefectNet neural network, is highly suited for high-throughput, high-performance light plate surface VQI within real-world manufacturing environments.
翻訳日:2022-12-22 13:51:56 公開日:2022-12-20
# 生成逆ネットワークを用いたテキスト生成に関する研究

A survey on text generation using generative adversarial networks ( http://arxiv.org/abs/2212.11119v1 )

ライセンス: Link先を確認
Gustavo Henrique de Rosa, Jo\~ao Paulo Papa(参考訳) 本稿では, 生成型adversarial networkを用いた最近の研究とテキスト生成の進展について概観する。 テキスト生成における敵対的学習の利用は、いわゆる「自然言語」を生成する代替手段を提供するものとして有望である。 しかしながら、その最上位アーキテクチャであるジェネレーティブ・アダクショナル・ネットワーク(Generative Adversarial Networks)は、離散データ(テキスト)ではなく、連続的な情報(画像)を扱うように設計されている。 したがって、ほとんどの研究はGumbel-Softmax差分、強化学習、修正された訓練目標の3つの選択肢に基づいている。 この調査では、敵対的手法を用いてテキストを生成するための最新のアプローチを提示するため、すべての代替案がレビューされている。 選択された作品は、Science Direct、IEEEXplore、Springer、Association for Computing Machinery、arXivなどの有名なデータベースから抽出され、それぞれが批判的に分析され、その目的、方法論、実験結果を示すために評価されている。

This work presents a thorough review concerning recent studies and text generation advancements using Generative Adversarial Networks. The usage of adversarial learning for text generation is promising as it provides alternatives to generate the so-called "natural" language. Nevertheless, adversarial text generation is not a simple task as its foremost architecture, the Generative Adversarial Networks, were designed to cope with continuous information (image) instead of discrete data (text). Thus, most works are based on three possible options, i.e., Gumbel-Softmax differentiation, Reinforcement Learning, and modified training objectives. All alternatives are reviewed in this survey as they present the most recent approaches for generating text using adversarial-based techniques. The selected works were taken from renowned databases, such as Science Direct, IEEEXplore, Springer, Association for Computing Machinery, and arXiv, whereas each selected work has been critically analyzed and assessed to present its objective, methodology, and experimental results.
翻訳日:2022-12-22 13:36:42 公開日:2022-12-20
# ベイズネットワークのインバージョン

Inversion of Bayesian Networks ( http://arxiv.org/abs/2212.10649v1 )

ライセンス: Link先を確認
Jesse van Oostrum, Peter van Hintum, Nihat Ay(参考訳) 変分オートエンコーダとヘルムホルツマシンは認識ネットワーク(encoder)を使用して生成モデル(decoder)の後方分布を近似する。 本稿では,認識ネットワークの真の後方分布を正確にモデル化するために必要かつ十分な特性について検討する。 これらの結果は確率的グラフィカルモデリング/ベイジアンネットワークの一般的な文脈で導出され、ネットワークは条件付き独立文の集合を表す。 我々は、d分離の観点からのグローバル条件と、認識ネットワークが望ましい品質を持つための局所条件の両方を導出する。 局所的な条件では、プロパティ完全性(すべてのノードにおいて、すべての親が参加する)が重要な役割を果たす。

Variational autoencoders and Helmholtz machines use a recognition network (encoder) to approximate the posterior distribution of a generative model (decoder). In this paper we study the necessary and sufficient properties of a recognition network so that it can model the true posterior distribution exactly. These results are derived in the general context of probabilistic graphical modelling / Bayesian networks, for which the network represents a set of conditional independence statements. We derive both global conditions, in terms of d-separation, and local conditions for the recognition network to have the desired qualities. It turns out that for the local conditions the property perfectness (for every node, all parents are joined) plays an important role.
翻訳日:2022-12-22 13:36:01 公開日:2022-12-20
# ビデオキャプションのためのMETEOR Guided Divergence

METEOR Guided Divergence for Video Captioning ( http://arxiv.org/abs/2212.10690v1 )

ライセンス: Link先を確認
Daniel Lukas Rothenpieler and Shahin Amiriparian(参考訳) 自動ビデオキャプションは、総合的な視覚シーン理解を目的としている。 ビデオフレーム内の時間的コンテキストをキャプチャするメカニズムと、所定の時間フレーム内のオブジェクトのアクションと関連を理解する能力が必要です。 このようなシステムは、ビデオシーケンスを意味のある表現に抽象化し、自然言語を生成することを学習する必要がある。 キャプションモデルの大半は視覚入力のみに焦点をあてているが、聴覚的モダリティにはほとんど注意が払われていない。 この問題に取り組むために,我々は新しい2次元アプローチを提案する。 まず,トークン順列に対して弾力性のある動画キャプションモデルを訓練するために,報奨付きklダイバージェンスを実装した。 第2に,bmhrl(bi-modal hierarchy reinforcement learning)トランスフォーマティブアーキテクチャを用いて,階層型キャプションモジュールの基盤として,入力データの長期的時間依存性をキャプチャする。 当社のbmhrlを用いて、アクティビティネットキャプションデータセット上でそれぞれ4.91$,2.23$,10.80$のbleu3,bleu4,meteorスコアを達成し、コンテンツ完全および文法的に発音された文の生成におけるhrlエージェントの適合性を示す。 最後に、BMHRLフレームワークとトレーニングされたモデルを、https://github.com/d-rothen/bmhrl.comで公開しています。

Automatic video captioning aims for a holistic visual scene understanding. It requires a mechanism for capturing temporal context in video frames and the ability to comprehend the actions and associations of objects in a given timeframe. Such a system should additionally learn to abstract video sequences into sensible representations as well as to generate natural written language. While the majority of captioning models focus solely on the visual inputs, little attention has been paid to the audiovisual modality. To tackle this issue, we propose a novel two-fold approach. First, we implement a reward-guided KL Divergence to train a video captioning model which is resilient towards token permutations. Second, we utilise a Bi-Modal Hierarchical Reinforcement Learning (BMHRL) Transformer architecture to capture long-term temporal dependencies of the input data as a foundation for our hierarchical captioning module. Using our BMHRL, we show the suitability of the HRL agent in the generation of content-complete and grammatically sound sentences by achieving $4.91$, $2.23$, and $10.80$ in BLEU3, BLEU4, and METEOR scores, respectively on the ActivityNet Captions dataset. Finally, we make our BMHRL framework and trained models publicly available for users and developers at https://github.com/d-rothen/bmhrl.
翻訳日:2022-12-22 13:34:51 公開日:2022-12-20
# 古典デコーダを用いたシリアル結合型ニューラルネットワークの最適化

Optimizing Serially Concatenated Neural Codes with Classical Decoders ( http://arxiv.org/abs/2212.10355v1 )

ライセンス: Link先を確認
Jannis Clausius, Marvin Geiselhart and Stephan ten Brink(参考訳) 短長符号を改善するために、従来のデコーダは実数値のニューラルエンコーダ、すなわちディープラーニングベースのコードワードシーケンスジェネレータでも使用できることを示した。 ここで、古典的なデコーダは、これらのニューラルコードについて洞察を得て、弱点に光を当てる貴重なツールになり得る。 具体的には、turboautoencoderは、最近開発されたチャネル符号化方式で、エンコーダとデコーダの両方をニューラルネットワークに置き換える。 まず,畳み込みニューラルネットワーク(CNN)をベースとした限られた受容領域が,BCJRアルゴリズムの適用により,計算量で最適に復号化可能であることを示す。 これらの最大アフター(MAP)コンポーネントデコーダは、並列またはシリアルに連結されたCNNエンコーダのための古典的な(定型的な)ターボデコーダを形成するために使用され、学習されたコードの最大値(ML)デコーダを提供する。 私たちの知る限りでは、古典的な復号アルゴリズムが非自明な実数値ニューラルコードに適用されたのはこれが初めてです。 さらに、BCJRアルゴリズムは完全に微分可能であるため、ニューラルネットワークをエンドツーエンドでトレーニングしたり、微調整したりすることが可能である。

For improving short-length codes, we demonstrate that classic decoders can also be used with real-valued, neural encoders, i.e., deep-learning based codeword sequence generators. Here, the classical decoder can be a valuable tool to gain insights into these neural codes and shed light on weaknesses. Specifically, the turbo-autoencoder is a recently developed channel coding scheme where both encoder and decoder are replaced by neural networks. We first show that the limited receptive field of convolutional neural network (CNN)-based codes enables the application of the BCJR algorithm to optimally decode them with feasible computational complexity. These maximum a posteriori (MAP) component decoders then are used to form classical (iterative) turbo decoders for parallel or serially concatenated CNN encoders, offering a close-to-maximum likelihood (ML) decoding of the learned codes. To the best of our knowledge, this is the first time that a classical decoding algorithm is applied to a non-trivial, real-valued neural code. Furthermore, as the BCJR algorithm is fully differentiable, it is possible to train, or fine-tune, the neural encoder in an end-to-end fashion.
翻訳日:2022-12-21 17:33:38 公開日:2022-12-20
# 歩行騒音: 分類課題における雑音計算の意義の理解

Walking Noise: Understanding Implications of Noisy Computations on Classification Tasks ( http://arxiv.org/abs/2212.10430v1 )

ライセンス: Link先を確認
Hendrik Borras, Bernhard Klein, Holger Fr\"oning(参考訳) ニューラルネットワークのような機械学習手法は、さまざまなアプリケーションで非常に成功し、人気があるが、高いエネルギー需要を伴うかなりの計算コストを伴っている。 対照的に、ハードウェアの能力は限られており、技術スケーリングが混乱している証拠があるため、ますます複雑なモデルアーキテクチャのパフォーマンス要求を満たすための新しいアプローチが必要である。 安全でない最適化として、ノイズの多い計算はエネルギー効率が良く、固定電力予算もより時間効率が良い。 しかしながら、あらゆる種類の安全でない最適化には、機能的に正しい結果を保証するための対策が必要となる。 本研究は,ニューラルネットワークに基づく分類器の精度に対するノイズの影響を,模範的な作業負荷として理解するために,抽象形式でのノイズ計算を考察する。 我々は,いわゆる「中間雑音レベル」メトリックを用いて,深層建築の異なる層のロバスト性を評価できる「ウォーキングノイズ」と呼ばれる手法を提案する。 次に,バッチ正規化の有無にかかわらず,異なる分類タスクやモデルアーキテクチャに対する加法的および乗法的ノイズの影響について検討する。 ノイズトレーニングは両方のノイズタイプでロバスト性が著しく向上する一方,重みの増加傾向が顕著に観察され,加算雑音注入の信号対雑音比が増加する。 乗算の場合、適切な単純なタスクを持ついくつかのネットワークは、自動的に内部バイナリ表現を学習し、非常に堅牢になる。 全体として、本研究は層特異的なロバスト性を測定する手法を提案し、ネットワークが注入されたノイズを補償する方法に関する最初の知見を共有し、ノイズの計算に対するロバスト性を理解するのに寄与する。

Machine learning methods like neural networks are extremely successful and popular in a variety of applications, however, they come at substantial computational costs, accompanied by high energy demands. In contrast, hardware capabilities are limited and there is evidence that technology scaling is stuttering, therefore, new approaches to meet the performance demands of increasingly complex model architectures are required. As an unsafe optimization, noisy computations are more energy efficient, and given a fixed power budget also more time efficient. However, any kind of unsafe optimization requires counter measures to ensure functionally correct results. This work considers noisy computations in an abstract form, and gears to understand the implications of such noise on the accuracy of neural-network-based classifiers as an exemplary workload. We propose a methodology called "Walking Noise" that allows to assess the robustness of different layers of deep architectures by means of a so-called "midpoint noise level" metric. We then investigate the implications of additive and multiplicative noise for different classification tasks and model architectures, with and without batch normalization. While noisy training significantly increases robustness for both noise types, we observe a clear trend to increase weights and thus increase the signal-to-noise ratio for additive noise injection. For the multiplicative case, we find that some networks, with suitably simple tasks, automatically learn an internal binary representation, hence becoming extremely robust. Overall this work proposes a method to measure the layer-specific robustness and shares first insights on how networks learn to compensate injected noise, and thus, contributes to understand robustness against noisy computations.
翻訳日:2022-12-21 17:33:14 公開日:2022-12-20
# AdverSAR:マルチエージェント強化学習による逆探索と救助

AdverSAR: Adversarial Search and Rescue via Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2212.10064v1 )

ライセンス: Link先を確認
Aowabin Rahman, Arnab Bhattacharya, Thiagarajan Ramachandran, Sayak Mukherjee, Himanshu Sharma, Ted Fujimoto, Samrat Chatterjee(参考訳) リモート環境におけるSAR(Search and Rescue)ミッションでは、ローカルなシングルロボットコントロールアクション、グループプリミティブ、グローバルなミッション指向のコーディネーションとコラボレーションを学習、計画、実行するための自律的なマルチロボットシステムを使用することが多い。 多くの場合、SARコーディネーション戦略は、遠隔操作でマルチロボットシステムを制御し、半自律的な操作を可能にする人間の専門家によって手動で設計される。 しかし、接続性が制限され人間の介入ができない遠隔環境では、完全自律的な操作には分散的なコラボレーション戦略が必要である。 それでも、センサノイズ、アクティベーション障害、エージェント間通信データの操作などにより、分散化された調整は敵の環境では効果がない。 本稿では,対戦型マルチエージェント強化学習(MARL)に基づくアルゴリズムアプローチを提案する。 本セットアップでは,目標の発見に要する平均時間を最小限に抑えて,障害物の多い地理的領域において,目標を戦略的に発見することを目的としている。 ロボットは対象の場所について事前の知識を持っておらず、隣接するロボットのサブセットのみといつでも対話できると仮定される。 marlにおける分散実行(ctde)パラダイムを用いた集中型トレーニングに基づいて,動的なチームコーディネーションのモダリティを学習し,複雑な協調競争シナリオにおいて創発的なチームの行動を検出するために,階層的メタラーニングフレームワークを利用する。 本手法の有効性は,良性エージェントと敵エージェントの仕様,ターゲットロケーション,エージェント報酬の異なるグリッドワールド環境のプロトタイプ群で実証した。

Search and Rescue (SAR) missions in remote environments often employ autonomous multi-robot systems that learn, plan, and execute a combination of local single-robot control actions, group primitives, and global mission-oriented coordination and collaboration. Often, SAR coordination strategies are manually designed by human experts who can remotely control the multi-robot system and enable semi-autonomous operations. However, in remote environments where connectivity is limited and human intervention is often not possible, decentralized collaboration strategies are needed for fully-autonomous operations. Nevertheless, decentralized coordination may be ineffective in adversarial environments due to sensor noise, actuation faults, or manipulation of inter-agent communication data. In this paper, we propose an algorithmic approach based on adversarial multi-agent reinforcement learning (MARL) that allows robots to efficiently coordinate their strategies in the presence of adversarial inter-agent communications. In our setup, the objective of the multi-robot team is to discover targets strategically in an obstacle-strewn geographical area by minimizing the average time needed to find the targets. It is assumed that the robots have no prior knowledge of the target locations, and they can interact with only a subset of neighboring robots at any time. Based on the centralized training with decentralized execution (CTDE) paradigm in MARL, we utilize a hierarchical meta-learning framework to learn dynamic team-coordination modalities and discover emergent team behavior under complex cooperative-competitive scenarios. The effectiveness of our approach is demonstrated on a collection of prototype grid-world environments with different specifications of benign and adversarial agents, target locations, and agent rewards.
翻訳日:2022-12-21 17:32:48 公開日:2022-12-20
# 意味コミュニケーションは安全か? マルチドメイン・アタックの物語

Is Semantic Communications Secure? A Tale of Multi-Domain Adversarial Attacks ( http://arxiv.org/abs/2212.10438v1 )

ライセンス: Link先を確認
Yalin E. Sagduyu, Tugba Erpek, Sennur Ulukus, Aylin Yener(参考訳) セマンティック通信は、所望の意味を目的地に伝えながら、ソースから情報を伝達しようとする。 送信受信者の機能をオートエンコーダとしてモデル化し,受信者に伝達される情報の意味を評価するタスク分類器を提案する。 オートエンコーダは、送信側のエンコーダから、ソース符号化、チャネル符号化、変調を共同でモデル化し、受信側のデコーダから、復調、チャネル復号、ソース復号を共同でモデル化する。 意味的損失により再構成損失を増強することにより、このエンコーダ・デコーダペアの2つのディープニューラルネットワーク(dnn)が、意味的タスク分類器のdnnと対話的に訓練される。 このアプローチは潜在的な特徴空間を効果的に捉え、圧縮された特徴ベクトルを少数のチャネル使用で確実に転送し、意味的損失を低く抑える。 セマンティック通信にDNNを使用する際のマルチドメインセキュリティ脆弱性を特定する。 敵対的機械学習に基づいて,DNNに対するテスト時間(ターゲットと非ターゲット)の敵攻撃を導入し,その入力を意味コミュニケーションの異なる段階で操作する。 コンピュータビジョン攻撃として、送信機のエンコーダの入力時に画像に小さな摂動が注入される。 無線攻撃として、受信機のデコーダの入力を妨害するために小さな摂動信号が送信される。 複数ドメイン攻撃として個別またはそれ以上に効果的にこれらのステルス攻撃を併用することにより、再建損失が低い場合でも、転送情報のセマンティクスを変更することができることを示す。 これらのマルチドメイン敵攻撃は、情報伝達のセマンティクス(従来のジャミングよりも大きな影響)に対する深刻な脅威となり、セマンティクス通信を安全に採用するための防衛方法の必要性を高める。

Semantic communications seeks to transfer information from a source while conveying a desired meaning to its destination. We model the transmitter-receiver functionalities as an autoencoder followed by a task classifier that evaluates the meaning of the information conveyed to the receiver. The autoencoder consists of an encoder at the transmitter to jointly model source coding, channel coding, and modulation, and a decoder at the receiver to jointly model demodulation, channel decoding and source decoding. By augmenting the reconstruction loss with a semantic loss, the two deep neural networks (DNNs) of this encoder-decoder pair are interactively trained with the DNN of the semantic task classifier. This approach effectively captures the latent feature space and reliably transfers compressed feature vectors with a small number of channel uses while keeping the semantic loss low. We identify the multi-domain security vulnerabilities of using the DNNs for semantic communications. Based on adversarial machine learning, we introduce test-time (targeted and non-targeted) adversarial attacks on the DNNs by manipulating their inputs at different stages of semantic communications. As a computer vision attack, small perturbations are injected to the images at the input of the transmitter's encoder. As a wireless attack, small perturbations signals are transmitted to interfere with the input of the receiver's decoder. By launching these stealth attacks individually or more effectively in a combined form as a multi-domain attack, we show that it is possible to change the semantics of the transferred information even when the reconstruction loss remains low. These multi-domain adversarial attacks pose as a serious threat to the semantics of information transfer (with larger impact than conventional jamming) and raise the need of defense methods for the safe adoption of semantic communications.
翻訳日:2022-12-21 17:31:59 公開日:2022-12-20
# システムセキュリティを学ぶ

Learned Systems Security ( http://arxiv.org/abs/2212.10318v1 )

ライセンス: Link先を確認
Roei Schuster, Jin Peng Zhou, Paul Grubbs, Thorsten Eisenhofer, Nicolas Papernot(参考訳) 学習システムは内部で機械学習(ML)を使用してパフォーマンスを向上させる。 このようなシステムは、いくつかの敵対的ML攻撃に対して脆弱であることが期待できる。 多くの場合、学習されたコンポーネントは、キャッシュのようなマイクロアーキテクチャリソースのように、相互に信頼できないユーザやプロセス間で共有される。 しかし、他のMLベースのシステムに対する攻撃と比較して、攻撃者は学習モデルと直接対話できないため、間接的なレベルに直面している。 さらに、学習されたバージョンの攻撃面と、同じシステムの非学習バージョンの違いは、しばしば微妙である。 これらの要因は、MLが持つデファクトリスクを曖昧にする。 学習システムにおける潜在的攻撃面の根本原因を分析し,mlの利用に起因する脆弱性を識別するためのフレームワークを開発した。 当社のフレームワークを,アクティブな開発中の幅広い学習システムに適用する。 当社のフレームワークが抱える多くの脆弱性を実証的に検証するために,その中の3つを選択し,著名な学習システムインスタンスに対するエクスプロイトを実装し,評価する。 mlを使用することで過去のクエリがデータベースに漏洩し、インデックス構造に指数的メモリブローアップを引き起こして数秒でクラッシュする毒殺攻撃が可能となり、インデックスユーザが自身のキーに対するタイミングクエリによってお互いのキー分布をスヌープできることを示した。 敵MLは学習システムに対する普遍的な脅威であり、学習システムのセキュリティに対する理解において研究ギャップを開くことを示し、データ漏洩が学習コンポーネントが複数の当事者間で共有されているシステムに固有のものであることを指摘しながら、緩和について議論することで結論付ける。

A learned system uses machine learning (ML) internally to improve performance. We can expect such systems to be vulnerable to some adversarial-ML attacks. Often, the learned component is shared between mutually-distrusting users or processes, much like microarchitectural resources such as caches, potentially giving rise to highly-realistic attacker models. However, compared to attacks on other ML-based systems, attackers face a level of indirection as they cannot interact directly with the learned model. Additionally, the difference between the attack surface of learned and non-learned versions of the same system is often subtle. These factors obfuscate the de-facto risks that the incorporation of ML carries. We analyze the root causes of potentially-increased attack surface in learned systems and develop a framework for identifying vulnerabilities that stem from the use of ML. We apply our framework to a broad set of learned systems under active development. To empirically validate the many vulnerabilities surfaced by our framework, we choose 3 of them and implement and evaluate exploits against prominent learned-system instances. We show that the use of ML caused leakage of past queries in a database, enabled a poisoning attack that causes exponential memory blowup in an index structure and crashes it in seconds, and enabled index users to snoop on each others' key distributions by timing queries over their own keys. We find that adversarial ML is a universal threat against learned systems, point to open research gaps in our understanding of learned-systems security, and conclude by discussing mitigations, while noting that data leakage is inherent in systems whose learned component is shared between multiple parties.
翻訳日:2022-12-21 17:29:10 公開日:2022-12-20
# 気候条件に基づくデング熱発生予測のためのアンサンブルニューラルネットワークアプローチ

An ensemble neural network approach to forecast Dengue outbreak based on climatic condition ( http://arxiv.org/abs/2212.08323v2 )

ライセンス: Link先を確認
Madhurima Panja, Tanujit Chakraborty, Sk Shahid Nadim, Indrajit Ghosh, Uttam Kumar, Nan Liu(参考訳) デング熱(dengue fever)は、アフリカ、アメリカ大陸、アジアの100以上の熱帯・亜熱帯諸国に広がる病である。 このアルボウイルス病は全世界で約4億人に影響を及ぼし、医療システムに深刻な打撃を与えている。 特定の薬物やワクチンが使用できないため、状況は悪化する。 したがって、政策立案者は介入に関する決定を制御するために早期警戒システムに頼る必要がある。 予報は日常的に危険な流行イベントの重要な情報を提供する。 しかしながら、利用可能な予測モデル(例えば、気象駆動機械論、統計時系列、機械学習モデル)は、予測精度を向上させるために異なるコンポーネントを明確に理解できず、しばしば不安定で信頼性の低い予測を提供する。 本研究では,サンフアン,イキトス,アフマダバードの3つの地理的領域において,デング発生予測のための信頼性の高い推定値を生成することができる外因性因子(XEWNet)モデルを用いたアンサンブルウェーブレットニューラルネットワークを提案する。 提案したXEWNetモデルは柔軟で,そのスケーラブルなフレームワークで統計的因果性テストによって確認された外因性気候変数を容易に組み込むことができる。 提案モデルは、ウェーブレット変換をアンサンブルニューラルネットワークフレームワークに利用し、より信頼性の高い長期予測を生成するための統合アプローチである。 提案したXEWNetはデングの事例と降雨の間の複雑な非線形関係を可能にするが、数学的には解釈可能で、実行が速く、理解しやすい。 提案の競合性は,様々な統計指標といくつかの統計比較試験に基づく計算実験を用いて測定される。 統計的,機械学習,深層学習と比較して,提案したXEWNetは,デング発生の短期的,長期的予測の75%において良好な性能を示した。

Dengue fever is a virulent disease spreading over 100 tropical and subtropical countries in Africa, the Americas, and Asia. This arboviral disease affects around 400 million people globally, severely distressing the healthcare systems. The unavailability of a specific drug and ready-to-use vaccine makes the situation worse. Hence, policymakers must rely on early warning systems to control intervention-related decisions. Forecasts routinely provide critical information for dangerous epidemic events. However, the available forecasting models (e.g., weather-driven mechanistic, statistical time series, and machine learning models) lack a clear understanding of different components to improve prediction accuracy and often provide unstable and unreliable forecasts. This study proposes an ensemble wavelet neural network with exogenous factor(s) (XEWNet) model that can produce reliable estimates for dengue outbreak prediction for three geographical regions, namely San Juan, Iquitos, and Ahmedabad. The proposed XEWNet model is flexible and can easily incorporate exogenous climate variable(s) confirmed by statistical causality tests in its scalable framework. The proposed model is an integrated approach that uses wavelet transformation into an ensemble neural network framework that helps in generating more reliable long-term forecasts. The proposed XEWNet allows complex non-linear relationships between the dengue incidence cases and rainfall; however, mathematically interpretable, fast in execution, and easily comprehensible. The proposal's competitiveness is measured using computational experiments based on various statistical metrics and several statistical comparison tests. In comparison with statistical, machine learning, and deep learning methods, our proposed XEWNet performs better in 75% of the cases for short-term and long-term forecasting of dengue incidence.
翻訳日:2022-12-21 17:28:45 公開日:2022-12-20
# 神経常微分方程式を用いたサブグリッドスケールモデルの学習

Learning Subgrid-scale Models with Neural Ordinary Differential Equations ( http://arxiv.org/abs/2212.09967v1 )

ライセンス: Link先を確認
Shinhoo Kang, Emil M. Constantinescu(参考訳) 本稿では,線法で解く偏微分方程式 (pdes) をシミュレートする上でのサブグリッドスケールモデルの効果を学習する新しい手法と,神経常微分方程式 (nodes) に基づくカオス常微分方程式の表現法を提案する。 時間的および空間的グリッドスケールの細かいシステムを解くことは、現在進行中の計算課題であり、クロージャモデルは概してチューニングが難しい。 機械学習のアプローチは、計算流体力学ソルバーの精度と効率を高めた。 このアプローチでは、ニューラルネットワークは、サブグリッドスケールのパラメータ化と見なすことができる粗大から細かなグリッドマップを学ぶために使用される。 本稿では,ノードと部分的知識を用いて,ソースダイナミクスを連続的に学習する戦略を提案する。 本手法はノードの利点を継承し,サブグリッドスケールのパラメータ化,近似結合演算子,低次解法効率の向上に利用可能である。 2スケールのLorenz 96 ODEと対流拡散PDEを用いた数値計算により,本手法について述べる。

We propose a new approach to learning the subgrid-scale model effects when simulating partial differential equations (PDEs) solved by the method of lines and their representation in chaotic ordinary differential equations, based on neural ordinary differential equations (NODEs). Solving systems with fine temporal and spatial grid scales is an ongoing computational challenge, and closure models are generally difficult to tune. Machine learning approaches have increased the accuracy and efficiency of computational fluid dynamics solvers. In this approach neural networks are used to learn the coarse- to fine-grid map, which can be viewed as subgrid scale parameterization. We propose a strategy that uses the NODE and partial knowledge to learn the source dynamics at a continuous level. Our method inherits the advantages of NODEs and can be used to parameterize subgrid scales, approximate coupling operators, and improve the efficiency of low-order solvers. Numerical results using the two-scale Lorenz 96 ODE and the convection-diffusion PDE are used to illustrate this approach.
翻訳日:2022-12-21 17:27:32 公開日:2022-12-20
# オンチップ光回折テンソル処理による高度な深層学習

Sophisticated deep learning with on-chip optical diffractive tensor processing ( http://arxiv.org/abs/2212.09975v1 )

ライセンス: Link先を確認
Yuyao Huang, Tingzhao Fu, Honghao Huang, Sigang Yang, Hongwei Chen(参考訳) 成長を続けるディープラーニング技術は、現代生活に革命的な変化をもたらしている。 しかし、従来の計算アーキテクチャはシーケンシャルおよびデジタルプログラムを処理するように設計されており、大量の並列および適応的なディープラーニングアプリケーションを実行することに非常に負担がかかる。 フォトニック集積回路は、帯域幅の制限や電子回路のパワーウォールを緩和する効率的なアプローチを提供し、超高速でエネルギーフリーな高性能コンピューティングにおいて大きな可能性を秘めている。 本稿では、オンチップ回折により、光畳み込みユニット(OCU)と呼ばれる畳み込み加速度を実装する光学コンピューティングアーキテクチャを提案する。 我々は,任意の実数値畳み込み核を,構造的再パラメータ化の概念を通じ,計算スループットが著しく向上するocuによって活用できることを実証する。 OCUを基本単位として、光学畳み込みニューラルネットワーク(oCNN)を構築し、分類と回帰という2つの一般的なディープラーニングタスクを実装する。 分類では、Fashion-MNIST と CIFAR-4 のデータセットはそれぞれ 91.63% と 86.25% の精度で検査される。 回帰のために,ノイズレベル10,15,20のグレースケール画像におけるガウス雑音を処理し,平均psnrが31.70db,29.39db,27.72dbのクリーン画像を生成するオプティカルデノイジン畳み込みニューラルネットワーク(odncnn)を構築する。 提案するocuは,完全なパッシブ性とコンパクトなフットプリントにより,低エネルギー消費と高情報密度の顕著な性能を示し,ディープラーニングにおける高次元テンソルを扱うための,高並列かつ軽量なコンピューティングアーキテクチャを提供する。

The ever-growing deep learning technologies are making revolutionary changes for modern life. However, conventional computing architectures are designed to process sequential and digital programs, being extremely burdened with performing massive parallel and adaptive deep learning applications. Photonic integrated circuits provide an efficient approach to mitigate bandwidth limitations and power-wall brought by its electronic counterparts, showing great potential in ultrafast and energy-free high-performance computing. Here, we propose an optical computing architecture enabled by on-chip diffraction to implement convolutional acceleration, termed optical convolution unit (OCU). We demonstrate that any real-valued convolution kernels can be exploited by OCU with a prominent computational throughput boosting via the concept of structral re-parameterization. With OCU as the fundamental unit, we build an optical convolutional neural network (oCNN) to implement two popular deep learning tasks: classification and regression. For classification, Fashion-MNIST and CIFAR-4 datasets are tested with accuracy of 91.63% and 86.25%, respectively. For regression, we build an optical denoising convolutional neural network (oDnCNN) to handle Gaussian noise in gray scale images with noise level {\sigma} = 10, 15, 20, resulting clean images with average PSNR of 31.70dB, 29.39dB and 27.72dB, respectively. The proposed OCU presents remarkable performance of low energy consumption and high information density due to its fully passive nature and compact footprint, providing a highly parallel while lightweight solution for future computing architecture to handle high dimensional tensors in deep learning.
翻訳日:2022-12-21 17:27:14 公開日:2022-12-20
# ハイパーsuprime-camワイドサーベイにおけるz<1$ agnホスト銀河の形態決定に機械学習を用いる

Using Machine Learning to Determine Morphologies of $z<1$ AGN Host Galaxies in the Hyper Suprime-Cam Wide Survey ( http://arxiv.org/abs/2212.09984v1 )

ライセンス: Link先を確認
Chuan Tian, C. Megan Urry, Aritra Ghosh, Ryan Ofman, Tonima Tasnim Ananna, Connor Auge, Nico Cappelluti, Meredith C. Powell, David B. Sanders, Kevin Schawinski, Dominic Stark, Grant R. Tremblay(参考訳) 本稿では,活性銀河核(AGN)ホスト銀河の形態を$z<1$以内で正確に特徴付ける機械学習フレームワークを提案する。 まず、psfganを使ってホストの銀河光を中心点源から切り離し、次にギャラクシー形態ネットワーク(gamornet)を起動して、ホストの銀河がディスク支配、バルジ支配、あるいは不確定であるかどうかを推定する。 HSCワイドサーベイの5つのバンドの光学画像を用いて、3つの赤方偏移ビンに独立にモデルを構築する: low $(0<z<0.25)$, medium $(0.25<z<0.5)$, high $(0.5<z<1.0)$。 まず、多くのシミュレーション銀河を訓練し、その後、はるかに少ない分類された実銀河を用いて微調整することで、我々は、実際の形態をテストセットから予測し、redshift binに依存する分類精度で$\sim$ $$ $80\%-95\%$である。 具体的には,不確定分数30\%/43\%/42\%$に対応するしきい値で,ディスク精度9,6\%/82\%/79\%$,バルジ精度90\%/90\%/80\%$(レッドシフトビン3個について)を達成する。 我々のモデルの分類精度は、ホスト銀河半径と等級に顕著な依存性がある。 コントラスト比に強い依存は見られない。 実AGNの分類と比較すると、従来の2DフィッティングとGALFITとよく一致する。 PSFGAN+GaMorNetフレームワークは、適合関数や銀河関連入力パラメータの選択に依存しず、GALFITよりも桁違いに高速に動作し、転送学習により容易に一般化できるため、近日中の大型イメージングサーベイにおいてAGNホスト銀河形態を研究する上で理想的なツールとなる。

We present a machine-learning framework to accurately characterize morphologies of Active Galactic Nucleus (AGN) host galaxies within $z<1$. We first use PSFGAN to decouple host galaxy light from the central point source, then we invoke the Galaxy Morphology Network (GaMorNet) to estimate whether the host galaxy is disk-dominated, bulge-dominated, or indeterminate. Using optical images from five bands of the HSC Wide Survey, we build models independently in three redshift bins: low $(0<z<0.25)$, medium $(0.25<z<0.5)$, and high $(0.5<z<1.0)$. By first training on a large number of simulated galaxies, then fine-tuning using far fewer classified real galaxies, our framework predicts the actual morphology for $\sim$ $60\%-70\%$ host galaxies from test sets, with a classification precision of $\sim$ $80\%-95\%$, depending on redshift bin. Specifically, our models achieve disk precision of $96\%/82\%/79\%$ and bulge precision of $90\%/90\%/80\%$ (for the 3 redshift bins), at thresholds corresponding to indeterminate fractions of $30\%/43\%/42\%$. The classification precision of our models has a noticeable dependency on host galaxy radius and magnitude. No strong dependency is observed on contrast ratio. Comparing classifications of real AGNs, our models agree well with traditional 2D fitting with GALFIT. The PSFGAN+GaMorNet framework does not depend on the choice of fitting functions or galaxy-related input parameters, runs orders of magnitude faster than GALFIT, and is easily generalizable via transfer learning, making it an ideal tool for studying AGN host galaxy morphology in forthcoming large imaging survey.
翻訳日:2022-12-21 17:26:44 公開日:2022-12-20
# 重み付きサンプリングとラベル平滑化を用いた階層型データ学習による銀河画像分類

Galaxy Image Classification using Hierarchical Data Learning with Weighted Sampling and Label Smoothing ( http://arxiv.org/abs/2212.10081v1 )

ライセンス: Link先を確認
Xiaohua Ma, Xiangru Li, Ali Luo, Jinqu Zhang, Hui Li(参考訳) 近年の一連の銀河スカイサーベイの発展に伴い、観測は急速に増加し、銀河画像認識のための機械学習手法の研究が話題となっている。 使用可能な銀河画像認識研究は、カテゴリ間の類似度、異なるクラス間のデータの不均衡、銀河クラスの離散的な表現と1つの形態的クラスから隣接するクラス(ddrgc)への本質的に漸進的な変化の差に苦しめられている。 これらの制限は、いくつかの天文学者や機械学習の専門家に銀河画像認識能力を改善したプロジェクトの設計を動機付けている。 そこで本研究では,<herarchical imbalanced data learning with Weighted sample and Label smoothing(HIWL)を提案する。 HIWLは,(1)効率的なバックボーンネットワークに基づく階層型銀河分類モデルの設計,(2)不均衡問題に対処するための重み付きサンプリングスキームの利用,(3)DDRGC問題を緩和するためのラベル平滑化手法の採用,の3つの主要な手法からなる。 本手法をGalaxy Zoo-The Galaxy Challengeの銀河測光画像に適用し, 円盤状, 葉巻状, エッジオン, スパイラル間の完全に円滑な認識を探索した。 全体の分類精度は96.32\%であり、いくつかの関連作品との比較において、hwlのいくつかの優位性は、リコール、精度、およびf1-スコアに基づいて示される。 さらに,提案手法の基礎を理解するために,銀河画像の特徴の可視化やモデル注目についても検討した。

With the development of a series of Galaxy sky surveys in recent years, the observations increased rapidly, which makes the research of machine learning methods for galaxy image recognition a hot topic. Available automatic galaxy image recognition researches are plagued by the large differences in similarity between categories, the imbalance of data between different classes, and the discrepancy between the discrete representation of Galaxy classes and the essentially gradual changes from one morphological class to the adjacent class (DDRGC). These limitations have motivated several astronomers and machine learning experts to design projects with improved galaxy image recognition capabilities. Therefore, this paper proposes a novel learning method, ``Hierarchical Imbalanced data learning with Weighted sampling and Label smoothing" (HIWL). The HIWL consists of three key techniques respectively dealing with the above-mentioned three problems: (1) Designed a hierarchical galaxy classification model based on an efficient backbone network; (2) Utilized a weighted sampling scheme to deal with the imbalance problem; (3) Adopted a label smoothing technique to alleviate the DDRGC problem. We applied this method to galaxy photometric images from the Galaxy Zoo-The Galaxy Challenge, exploring the recognition of completely round smooth, in between smooth, cigar-shaped, edge-on and spiral. The overall classification accuracy is 96.32\%, and some superiorities of the HIWL are shown based on recall, precision, and F1-Score in comparing with some related works. In addition, we also explored the visualization of the galaxy image features and model attention to understand the foundations of the proposed scheme.
翻訳日:2022-12-21 17:26:05 公開日:2022-12-20
# 関数型アレー処理言語における効率的・音分別プログラミング

Efficient and Sound Differentiable Programming in a Functional Array-Processing Language ( http://arxiv.org/abs/2212.10307v1 )

ライセンス: Link先を確認
Amir Shaikhha, Mathieu Huot, Shabnam Ghasemirad, Andrew Fitzgibbon, Simon Peyton Jones, Dimitrios Vytiniotis(参考訳) 自動微分(automatic differentiation, aad)は、プログラムで表される関数の微分を計算する手法である。 この技術は、多くの機械学習および最適化ソフトウェアツールにおける微分を計算するためのデファクト標準と見なされている。 この手法の実用性にもかかわらず、特に関数型言語やベクトルの存在下での区別されたプログラムのパフォーマンスは最適ではない。 本稿では高階関数型配列処理言語のためのADシステムを提案する。 このシステムの基本機能言語は、ソースからソースへのフォワードモードADとループ変換のようなグローバルな最適化の両方を同時にサポートする。 組み合わせると、フォワードモードADによる勾配計算は逆モードと同じくらい効率的であり、ガウス・ニュートンやレバンス・マルカルトのような数値アルゴリズムに必要なヤコビ行列は効率的に計算できる。

Automatic differentiation (AD) is a technique for computing the derivative of a function represented by a program. This technique is considered as the de-facto standard for computing the differentiation in many machine learning and optimisation software tools. Despite the practicality of this technique, the performance of the differentiated programs, especially for functional languages and in the presence of vectors, is suboptimal. We present an AD system for a higher-order functional array-processing language. The core functional language underlying this system simultaneously supports both source-to-source forward-mode AD and global optimisations such as loop transformations. In combination, gradient computation with forward-mode AD can be as efficient as reverse mode, and the Jacobian matrices required for numerical algorithms such as Gauss-Newton and Levenberg-Marquardt can be efficiently computed.
翻訳日:2022-12-21 17:25:31 公開日:2022-12-20
# 代理モデリングを超えて: 局所的変動性 - 形状制約を学ぶ

Beyond Surrogate Modeling: Learning the Local Volatility Via Shape Constraints ( http://arxiv.org/abs/2212.09957v1 )

ライセンス: Link先を確認
Marc Chataigner, Areski Cousin, St\'ephane Cr\'epey, Matthew Dixon and Djibril Gueye(参考訳) ヨーロッパバニラオプション価格の非アルビタージュ補間のための2つの機械学習手法の能力について検討し、対応する局所的ボラティリティ面を共用する: 有限次元ガウス過程(gp) 価格に基づく非アルビタージュ制約下での回帰アプローチと、暗黙のボラティリティに基づく調停のペナル化を伴うニューラルネット(nn)アプローチである。 SSVI業界標準に対するこれらのアプローチの性能を実証する。 GPアプローチは仲裁のないことが証明されているが、仲裁はSSVIおよびNNアプローチでのみ罰せられる。 GP法は, 最適外乱校正誤差を求め, 不確実な定量化を提供する。NN法では, 局所変動度がよりスムーズに向上し, バックテスト性能が向上する。

We explore the abilities of two machine learning approaches for no-arbitrage interpolation of European vanilla option prices, which jointly yield the corresponding local volatility surface: a finite dimensional Gaussian process (GP) regression approach under no-arbitrage constraints based on prices, and a neural net (NN) approach with penalization of arbitrages based on implied volatilities. We demonstrate the performance of these approaches relative to the SSVI industry standard. The GP approach is proven arbitrage-free, whereas arbitrages are only penalized under the SSVI and NN approaches. The GP approach obtains the best out-of-sample calibration error and provides uncertainty quantification.The NN approach yields a smoother local volatility and a better backtesting performance, as its training criterion incorporates a local volatility regularization term.
翻訳日:2022-12-21 17:19:15 公開日:2022-12-20
# S.D.E.パスのマルチクラス分類のためのノンパラメトリックプラグイン分類器

Nonparametric plug-in classifier for multiclass classification of S.D.E. paths ( http://arxiv.org/abs/2212.10259v1 )

ライセンス: Link先を確認
Christophe Denis, Charlotte Dion-Blanc, Eddy Ella Mintsa and Viet-Chi Tran(参考訳) 時間均質拡散の混合から特徴を導出する多クラス分類問題について検討する。 具体的には、クラスはドリフト関数によって判別され、拡散係数はすべてのクラスに共通で未知である。 本研究では,ドリフトと拡散関数の非パラメトリック推定器に依存するプラグイン分類器を構築する。 まず, 穏やかな仮定の下での分類手順の整合性を確立し, 異なる前提条件下での検証率を提供する。 最後に,数値的研究によって理論的知見が得られた。

We study the multiclass classification problem where the features come from the mixture of time-homogeneous diffusions. Specifically, the classes are discriminated by their drift functions while the diffusion coefficient is common to all classes and unknown. In this framework, we build a plug-in classifier which relies on nonparametric estimators of the drift and diffusion functions. We first establish the consistency of our classification procedure under mild assumptions and then provide rates of cnvergence under different set of assumptions. Finally, a numerical study supports our theoretical findings.
翻訳日:2022-12-21 17:18:56 公開日:2022-12-20
# ディープニューラルネットワークの正規化確率勾配降下訓練

Normalized Stochastic Gradient Descent Training of Deep Neural Networks ( http://arxiv.org/abs/2212.09921v1 )

ライセンス: Link先を確認
Salih Atici, Hongyi Pan, Ahmet Enis Cetin(参考訳) 本稿では,正規化リースト平均角(NLMS)にインスパイアされた正規化確率勾配 Descent (NSGD) と呼ばれる機械学習モデルトレーニングのための新しい最適化アルゴリズムを提案する。 大規模データセット上で高複雑性モデルをトレーニングする場合、オプティマイザパラメータの貧弱な選択が分散につながるため、学習速度は極めて重要である。 アルゴリズムは確率勾配を用いて新しいネットワーク重みの集合を更新するが、NLMSアルゴリズムと同様の学習率パラメータ上で$\ell_1$および$\ell_2$ベースの正規化を行う。 既存の正規化手法との主な違いは、正規化プロセスでエラー項を含まないことです。 ニューロンへの入力ベクトルを用いた更新項の正規化を行う。 本実験では,最適化アルゴリズムを用いて,初期設定の精度を向上できることを示す。 本稿では,ResNet-20を用いたトレーニングアルゴリズムと,異なる初期化を伴う異なるベンチマークデータセット上でのトイニューラルネットワークの効率を実証する。 NSGDはResNet-20の精度を91.96\%から92.20\%に改善している。

In this paper, we introduce a novel optimization algorithm for machine learning model training called Normalized Stochastic Gradient Descent (NSGD) inspired by Normalized Least Mean Squares (NLMS) from adaptive filtering. When we train a high-complexity model on a large dataset, the learning rate is significantly important as a poor choice of optimizer parameters can lead to divergence. The algorithm updates the new set of network weights using the stochastic gradient but with $\ell_1$ and $\ell_2$-based normalizations on the learning rate parameter similar to the NLMS algorithm. Our main difference from the existing normalization methods is that we do not include the error term in the normalization process. We normalize the update term using the input vector to the neuron. Our experiments present that the model can be trained to a better accuracy level on different initial settings using our optimization algorithm. In this paper, we demonstrate the efficiency of our training algorithm using ResNet-20 and a toy neural network on different benchmark datasets with different initializations. The NSGD improves the accuracy of the ResNet-20 from 91.96\% to 92.20\% on the CIFAR-10 dataset.
翻訳日:2022-12-21 17:18:46 公開日:2022-12-20
# 離散MCMCを用いたタンパク質のプラグ&プレイによる進化

Plug & Play Directed Evolution of Proteins with Gradient-based Discrete MCMC ( http://arxiv.org/abs/2212.09925v1 )

ライセンス: Link先を確認
Patrick Emami, Aidan Perreault, Jeffrey Law, David Biagioni, Peter C. St. John(参考訳) 機械学習に基づくタンパク質工学の長年の目標は、既知のタンパク質の機能を改善する新しい突然変異の発見を加速することである。 タンパク質言語モデルや配列からタンパク質機能を予測する教師なしモデルなど,さまざまな教師なしモデルの混合とマッチングを支援する,サイリコのタンパク質進化のためのサンプリングフレームワークを提案する。 これらのモデルを構成することで、未知の突然変異を評価し、機能的タンパク質を含む可能性のある配列空間の領域を探索する能力を向上させることを目指している。 我々のフレームワークは、個別のタンパク質空間に直接分布する専門家の製品を構築することによって、モデル微調整や再訓練なしにこれを実現する。 古典的指向進化の典型であるブルート力探索やランダムサンプリングに代えて、グラデーションを用いた高速MCMCサンプリングを導入し、有望な突然変異を提案する。 シリコでは,650mパラメータのタンパク質言語モデルを含む,さまざまな事前学習された非教師なしモデルを対象に,幅広い適応環境における進化実験を実施した。 本研究は, 野生型タンパク質から複数の変異を推定し, 進化可能性の高い変異を効率よく発見できることを実証し, 機械学習に基づくタンパク質工学の実践的, 効果的な新しいパラダイムを提案できることを示す。

A long-standing goal of machine-learning-based protein engineering is to accelerate the discovery of novel mutations that improve the function of a known protein. We introduce a sampling framework for evolving proteins in silico that supports mixing and matching a variety of unsupervised models, such as protein language models, and supervised models that predict protein function from sequence. By composing these models, we aim to improve our ability to evaluate unseen mutations and constrain search to regions of sequence space likely to contain functional proteins. Our framework achieves this without any model fine-tuning or re-training by constructing a product of experts distribution directly in discrete protein space. Instead of resorting to brute force search or random sampling, which is typical of classic directed evolution, we introduce a fast MCMC sampler that uses gradients to propose promising mutations. We conduct in silico directed evolution experiments on wide fitness landscapes and across a range of different pre-trained unsupervised models, including a 650M parameter protein language model. Our results demonstrate an ability to efficiently discover variants with high evolutionary likelihood as well as estimated activity multiple mutations away from a wild type protein, suggesting our sampler provides a practical and effective new paradigm for machine-learning-based protein engineering.
翻訳日:2022-12-21 17:18:27 公開日:2022-12-20
# 授業負荷分析を用いた学部進路の考察

Insights into undergraduate pathways using course load analytics ( http://arxiv.org/abs/2212.09974v1 )

ライセンス: Link先を確認
Conrad Borchers and Zachary A. Pardos(参考訳) LMSと入学機能から推定されるコース負荷分析(CLA)は、クレジット時間よりも生徒にコース負荷の正確な表現を提供し、コース選択の決定を支援する可能性がある。 本研究では, 学生コースの負荷評価を機械学習した最初の予測を作成し, 評価し, 大規模公立大学の1万コースカタログに一般化した。 次に,授業選択における学期負荷の経時的差について,その度合いを振り返って分析した。 cla by semesterは、学生の最初の学期が最高負荷の学期であり、信用時間に基づく分析とは対照的に、最低の学期であることを示している。 プログラムの維持にどのような役割を期待できるかを調べたところ、学期負荷を受講時間で測定するが、CLAで測定するほど高い学年負荷を維持している学生は、学習プログラムを離れる可能性が高くなることがわかった。 コース負荷におけるこの相違は、特にSTEMにおいて重要であり、高い前提条件のコースと関連している。 本研究は,学生が選択したコースを計画し,予測し,準備するのに役立つ,学術的助言,新入生体験の制度的扱い,学生向け分析に影響を及ぼす。

Course load analytics (CLA) inferred from LMS and enrollment features can offer a more accurate representation of course workload to students than credit hours and potentially aid in their course selection decisions. In this study, we produce and evaluate the first machine-learned predictions of student course load ratings and generalize our model to the full 10,000 course catalog of a large public university. We then retrospectively analyze longitudinal differences in the semester load of student course selections throughout their degree. CLA by semester shows that a student's first semester at the university is among their highest load semesters, as opposed to a credit hour-based analysis, which would indicate it is among their lowest. Investigating what role predicted course load may play in program retention, we find that students who maintain a semester load that is low as measured by credit hours but high as measured by CLA are more likely to leave their program of study. This discrepancy in course load is particularly pertinent in STEM and associated with high prerequisite courses. Our findings have implications for academic advising, institutional handling of the freshman experience, and student-facing analytics to help students better plan, anticipate, and prepare for their selected courses.
翻訳日:2022-12-21 17:18:05 公開日:2022-12-20
# ユーザレベルプライバシに基づく連続平均推定

Continual Mean Estimation Under User-Level Privacy ( http://arxiv.org/abs/2212.09980v1 )

ライセンス: Link先を確認
Anand Jerry George, Lekshmi Ramesh, Aditya Vikram Singh, Himanshu Tyagi(参考訳) 我々は,ユーザレベルの微分的プライベート(dp)なサンプルストリームの集団平均の推定値を継続的に公表する問題を考える。 毎回、ユーザはサンプルをコントリビュートし、任意の順番で到着することができる。 これまでは、継続リリースとユーザレベルのプライバシの要件は独立して検討されていた。 しかし実際には、ユーザが繰り返しデータにコントリビュートし、複数のクエリが実行されるため、これらの要件はどちらも一致します。 全体のリリースがユーザレベル$\varepsilon$-DPであるように、毎回平均推定値を出力するアルゴリズムを提供する。 $M_t$で記述すると、ユーザが提供したサンプルの最大数$\tilde{\Omega}(1/\varepsilon)$ユーザがそれぞれ$M_t/2$サンプルを持っている限り、そのエラー時に$t$は$\tilde{O}(1/\sqrt{t}+\sqrt{M}_t/t\varepsilon)$である。 これは普遍的なエラー保証であり、ユーザのすべての到着パターンに有効である。 さらに、(ほとんど)ユーザが同じ数のサンプルを提供した瞬間に、シングルリリース設定の既存の下位境界と一致します。

We consider the problem of continually releasing an estimate of the population mean of a stream of samples that is user-level differentially private (DP). At each time instant, a user contributes a sample, and the users can arrive in arbitrary order. Until now these requirements of continual release and user-level privacy were considered in isolation. But, in practice, both these requirements come together as the users often contribute data repeatedly and multiple queries are made. We provide an algorithm that outputs a mean estimate at every time instant $t$ such that the overall release is user-level $\varepsilon$-DP and has the following error guarantee: Denoting by $M_t$ the maximum number of samples contributed by a user, as long as $\tilde{\Omega}(1/\varepsilon)$ users have $M_t/2$ samples each, the error at time $t$ is $\tilde{O}(1/\sqrt{t}+\sqrt{M}_t/t\varepsilon)$. This is a universal error guarantee which is valid for all arrival patterns of the users. Furthermore, it (almost) matches the existing lower bounds for the single-release setting at all time instants when users have contributed equal number of samples.
翻訳日:2022-12-21 17:17:43 公開日:2022-12-20
# 動的分子グラフによる生体物性予測の実装

Dynamic Molecular Graph-based Implementation for Biophysical Properties Prediction ( http://arxiv.org/abs/2212.09991v1 )

ライセンス: Link先を確認
Carter Knutson, Gihan Panapitiya, Rohith Varikoti, Neeraj Kumar(参考訳) ニューラルネットワーク(GNN)は、分子発見を革新し、パターンを理解し、生物物理学的性質やタンパク質-リガンド相互作用を予測するのに役立つ未知の特徴を特定する。 しかし、現在のモデルは通常、入力として2次元の分子表現に依存するが、2\3次元の構造データの利用は近年、多くのモデルが依然として静的グラフ表現に制限されているため、注目に値するものとなっている。 本稿では,gnnを用いたトランスフォーマーモデルに基づくタンパク質-リガンド相互作用の動的特徴を特徴付ける新しい手法を提案する。 提案するメッセージパッシングトランスは,物理シミュレーションに基づいて分子動的データの集合を事前学習し,座標構築を学習し,下流タスクとして結合確率と親和性を予測する。 広範なテストを通じて、既存のモデルと比較し、mda-pliモデルは1.2958のrmseで分子相互作用予測モデルを上回ることができた。 変換器アーキテクチャと時系列データの追加によって実現された幾何学的エンコーディングは、この研究形式に新たな次元を与える。

Neural Networks (GNNs) have revolutionized the molecular discovery to understand patterns and identify unknown features that can aid in predicting biophysical properties and protein-ligand interactions. However, current models typically rely on 2-dimensional molecular representations as input, and while utilization of 2\3- dimensional structural data has gained deserved traction in recent years as many of these models are still limited to static graph representations. We propose a novel approach based on the transformer model utilizing GNNs for characterizing dynamic features of protein-ligand interactions. Our message passing transformer pre-trains on a set of molecular dynamic data based off of physics-based simulations to learn coordinate construction and make binding probability and affinity predictions as a downstream task. Through extensive testing we compare our results with the existing models, our MDA-PLI model was able to outperform the molecular interaction prediction models with an RMSE of 1.2958. The geometric encodings enabled by our transformer architecture and the addition of time series data add a new dimensionality to this form of research.
翻訳日:2022-12-21 17:17:14 公開日:2022-12-20
# 対向攻撃検出のための多頭不確かさ推定

Multi-head Uncertainty Inference for Adversarial Attack Detection ( http://arxiv.org/abs/2212.10006v1 )

ライセンス: Link先を確認
Yuqi Yang, Songyun Yang, Jiyang Xie. Zhongwei Si, Kai Guo, Ke Zhang, Kongming Liang(参考訳) ディープニューラルネットワーク(DNN)は、誤った予測を引き起こす敵攻撃による小さな摂動の影響を受けやすい。 近年,敵防衛・不確実性推論(UI)など様々な手法が開発され,敵攻撃を克服している。 本稿では,敵攻撃事例を検出するためのマルチヘッド不確実性推論(MH-UI)フレームワークを提案する。 複数の予測ヘッド(つまり分類器)を持つマルチヘッドアーキテクチャを採用し、DNNの異なる深さから予測を取得し、UIに浅い情報を導入する。 異なる深さの独立ヘッドを用いて、正規化予測は同じディリクレ分布に従うと仮定し、モーメントマッチングによりその分布パラメータを推定する。 敵攻撃による認知的不確実性は、その分布に反映され増幅される。 実験結果から,提案したMH-UIフレームワークは,異なる設定で敵攻撃検出タスクにおいて,参照するUIメソッドのすべてより優れていることがわかった。

Deep neural networks (DNNs) are sensitive and susceptible to tiny perturbation by adversarial attacks which causes erroneous predictions. Various methods, including adversarial defense and uncertainty inference (UI), have been developed in recent years to overcome the adversarial attacks. In this paper, we propose a multi-head uncertainty inference (MH-UI) framework for detecting adversarial attack examples. We adopt a multi-head architecture with multiple prediction heads (i.e., classifiers) to obtain predictions from different depths in the DNNs and introduce shallow information for the UI. Using independent heads at different depths, the normalized predictions are assumed to follow the same Dirichlet distribution, and we estimate distribution parameter of it by moment matching. Cognitive uncertainty brought by the adversarial attacks will be reflected and amplified on the distribution. Experimental results show that the proposed MH-UI framework can outperform all the referred UI methods in the adversarial attack detection task with different settings.
翻訳日:2022-12-21 17:16:58 公開日:2022-12-20
# アウト・オブ・サンプルスコアと因果推定の自動選択

Out-of-sample scoring and automatic selection of causal estimators ( http://arxiv.org/abs/2212.10076v1 )

ライセンス: Link先を確認
Egor Kraev, Timo Flesch, Hudson Taylor Lekunze, Mark Harley, Pere Planell Morell(参考訳) 近年,条件平均処理効果 (CATE) と機器変数 (IV) 問題に対する多くの因果推定器が公開・オープンソース化されており,ランダム化処理 (A/B テストなど) とユーザ選択が利害関係に与える影響を推定することができる。 しかし、そのようなモデルの実用的応用は、サンプルからモデルのパフォーマンスを評価する有効な方法の欠如によって、与えられたアプリケーションで最適なものを選択することが妨げられている。 このギャップは,CATEケースと器楽変数の問題の重要なサブセット,すなわち,器楽変数が顧客の製品機能に結びついているものの両方に対して,新たなスコアリングアプローチを提案することで解決される。 サンプルからモデル性能を評価できることで、因果モデルの選択とチューニングにハイパーパラメータ最適化手法を適用できます。 我々は、因果推論モデルの実装にDoWhyおよびEconMLライブラリ(および変換アウトカムモデルの実装も含む)と、超パラメータ最適化のためのFLAMLおよび因果モデルで使用されるコンポーネントモデルに依存したオープンソースパッケージにそれを実装する。 提案するスコアを最適化する合成データについて,ランダム化されたcateとivのケースにおいて,モデルとそのハイパーパラメータ値を選択するための信頼性の高い手法であることを示す。 さらに,これらの手法を賢明な顧客データに適用する試験も実施する。

Recently, many causal estimators for Conditional Average Treatment Effect (CATE) and instrumental variable (IV) problems have been published and open sourced, allowing to estimate granular impact of both randomized treatments (such as A/B tests) and of user choices on the outcomes of interest. However, the practical application of such models has ben hampered by the lack of a valid way to score the performance of such models out of sample, in order to select the best one for a given application. We address that gap by proposing novel scoring approaches for both the CATE case and an important subset of instrumental variable problems, namely those where the instrumental variable is customer acces to a product feature, and the treatment is the customer's choice to use that feature. Being able to score model performance out of sample allows us to apply hyperparameter optimization methods to causal model selection and tuning. We implement that in an open source package that relies on DoWhy and EconML libraries for implementation of causal inference models (and also includes a Transformed Outcome model implementation), and on FLAML for hyperparameter optimization and for component models used in the causal models. We demonstrate on synthetic data that optimizing the proposed scores is a reliable method for choosing the model and its hyperparameter values, whose estimates are close to the true impact, in the randomized CATE and IV cases. Further, we provide examles of applying these methods to real customer data from Wise.
翻訳日:2022-12-21 17:16:44 公開日:2022-12-20
# Multi-Reference Image Super-Resolution: A Posterior Fusion Approach

Multi-Reference Image Super-Resolution: A Posterior Fusion Approach ( http://arxiv.org/abs/2212.09988v1 )

ライセンス: Link先を確認
Ke Zhao, Haining Tan, Tsz Fung Yau(参考訳) 参照ベーススーパーレゾリューション(RefSR)アプローチは近年,高解像度画像からの付加情報を提供することで,画像スーパーレゾリューションの誤った問題を克服するために提案されている。 マルチ参照超解像は、より多くの情報を組み込むことによってこのアプローチを拡張している。 本稿では,RefSRモデルの出力と複数の参照を組み合わせた2段階後核融合法を提案する。 CUFED5データセットの大規模な実験により、提案手法が様々な最先端のRefSRモデルに適用され、画像品質が一貫した改善が得られることを示した。

Reference-based Super-resolution (RefSR) approaches have recently been proposed to overcome the ill-posed problem of image super-resolution by providing additional information from a high-resolution image. Multi-reference super-resolution extends this approach by allowing more information to be incorporated. This paper proposes a 2-step-weighting posterior fusion approach to combine the outputs of RefSR models with multiple references. Extensive experiments on the CUFED5 dataset demonstrate that the proposed methods can be applied to various state-of-the-art RefSR models to get a consistent improvement in image quality.
翻訳日:2022-12-21 17:10:51 公開日:2022-12-20
# 医学データ拡張のためのエンドツーエンドのメタカリキュラム学習

End to End Generative Meta Curriculum Learning For Medical Data Augmentation ( http://arxiv.org/abs/2212.10086v1 )

ライセンス: Link先を確認
Meng Li, Brian Lovell(参考訳) 現在の医療画像合成増強技術は、GAN(Generative Adversarial Network)の集中的な利用に依存している。 しかし、GANアーキテクチャの性質は、合成画像を生成するための重い計算資源をもたらし、拡張プロセスには複数の段階が必要である。 そこで本稿では,タスク特化モデル(sudent)のエンド・ツー・エンドを1つの教師モデルで学習する,新しい生成型メタカリキュラム学習手法を提案する。 教師は、データ拡張のための学生モデルにフィードするカリキュラムを作成することを学び、メタラーニングスタイルのパフォーマンスを改善するように学生を指導する。 GANのジェネレータと差別装置が互いに競合するのに対し、教師と生徒は、目標タスクにおける生徒のパフォーマンスを改善するために協力する。 病理組織学データセットの大規模な実験により、我々のフレームワークを活用することにより、分類性能が大幅に改善されることが示された。

Current medical image synthetic augmentation techniques rely on intensive use of generative adversarial networks (GANs). However, the nature of GAN architecture leads to heavy computational resources to produce synthetic images and the augmentation process requires multiple stages to complete. To address these challenges, we introduce a novel generative meta curriculum learning method that trains the task-specific model (student) end-to-end with only one additional teacher model. The teacher learns to generate curriculum to feed into the student model for data augmentation and guides the student to improve performance in a meta-learning style. In contrast to the generator and discriminator in GAN, which compete with each other, the teacher and student collaborate to improve the student's performance on the target tasks. Extensive experiments on the histopathology datasets show that leveraging our framework results in significant and consistent improvements in classification performance.
翻訳日:2022-12-21 17:10:41 公開日:2022-12-20
# 魚肉切削の自動化のためのコンピュータビジョン手法

Computer Vision Methods for Automating Turbot Fish Cutting ( http://arxiv.org/abs/2212.10091v1 )

ライセンス: Link先を確認
Fernando Martin-Rodriguez, Fernando Isasi-de-Vicente, Monica Fernandez-Barciela(参考訳) 本稿では, ターボ魚の標本を切断する自動機械の設計について述べる。 マシンビジョンは、標本頭部の切断曲線を計算するために使用されるため、このプロジェクトの重要な部分である。 この仕事は機械的な手段では実行できない。 マシンビジョンは頭部境界を検知し、ロボットは頭部を切断するために使用される。 双対化と数学的形態学は魚の境界を検出するのに使われ、この境界は(ハフ変換と凸包を用いて)解析され、キーポイントを検出し、切断曲線を定義する。 その後、機械システムを用いて魚をスライスし、エンドコンシューマー向けの簡単なプレゼンテーションを行う(魚のフィレットは簡単に販売され、消費される)。

This paper is about the design of an automated machine to cut turbot fish specimens. Machine vision is a key part of this project as it is used to compute a cutting curve for the specimen head. This task is impossible to be carried out by mechanical means. Machine vision is used to detect head boundary and a robot is used to cut the head. Binarization and mathematical morphology are used to detect fish boundary and this boundary is subsequently analyzed (using Hough transform and convex hull) to detect key points and thus defining the cutting curve. Afterwards, mechanical systems are used to slice fish to get an easy presentation for end consumer (as fish fillets than can be easily marketed and consumed).
翻訳日:2022-12-21 17:10:26 公開日:2022-12-20
# ニューラル画像圧縮用コンテンツ適応潜在子およびデコーダ

Content Adaptive Latents and Decoder for Neural Image Compression ( http://arxiv.org/abs/2212.10132v1 )

ライセンス: Link先を確認
Guanbo Pan, Guo Lu, Zhihao Hu, Dong Xu(参考訳) 近年、ニューラル画像圧縮(NIC)アルゴリズムは強力な符号化性能を示している。 しかし、そのほとんどは画像の内容に適応していない。 エンコーダ側のコンポーネントを更新することで、いくつかのコンテンツ適応手法が提案されているが、ラプタントとデコーダの両方の適応性はあまり利用されていない。 本研究では,ラテントとデコーダの両方におけるコンテンツ適応性を改善する新しいNICフレームワークを提案する。 具体的には, 遅延中の冗長性を除去するために, コンテンツ適応チャネルドロップ(cacd)法は, 遅延者の最適な品質レベルを空間的に自動的に選択し, 冗長チャネルをドロップする。 さらに,画像コンテンツの特徴情報を抽出し,デコーダ側の特徴を変換することにより,デコーダ側のコンテンツ適応性を向上させるためのコンテンツ適応機能変換(caft)手法を提案する。 実験により,エンコーダ側更新アルゴリズムを用いた提案手法が最先端性能を実現することを示す。

In recent years, neural image compression (NIC) algorithms have shown powerful coding performance. However, most of them are not adaptive to the image content. Although several content adaptive methods have been proposed by updating the encoder-side components, the adaptability of both latents and the decoder is not well exploited. In this work, we propose a new NIC framework that improves the content adaptability on both latents and the decoder. Specifically, to remove redundancy in the latents, our content adaptive channel dropping (CACD) method automatically selects the optimal quality levels for the latents spatially and drops the redundant channels. Additionally, we propose the content adaptive feature transformation (CAFT) method to improve decoder-side content adaptability by extracting the characteristic information of the image content, which is then used to transform the features in the decoder side. Experimental results demonstrate that our proposed methods with the encoder-side updating algorithm achieve the state-of-the-art performance.
翻訳日:2022-12-21 17:10:14 公開日:2022-12-20
# ゴール指向自律運転

Goal-oriented Autonomous Driving ( http://arxiv.org/abs/2212.10156v1 )

ライセンス: Link先を確認
Yihan Hu, Jiazhi Yang, Li Chen, Keyu Li, Chonghao Sima, Xizhou Zhu, Siqi Chai, Senyao Du, Tianwei Lin, Wenhai Wang, Lewei Lu, Xiaosong Jia, Qiang Liu, Jifeng Dai, Yu Qiao, Hongyang Li(参考訳) 現代の自動運転システムは、連続した順序、すなわち知覚、予測、計画におけるモジュラータスクとして特徴づけられる。 センサーとハードウェアが改良されるにつれて、より高度な知性を実現するために幅広いタスクをこなせるシステムを考案する傾向にある。 現代のアプローチでは、個々のタスクにスタンドアロンモデルをデプロイするか、別々のヘッドでマルチタスクパラダイムを設計するかのどちらかである。 これらは累積誤差や負の伝達効果に悩まされる。 代わりに、私たちは、最終目標、すなわち自動運転車の計画を追求するために、好ましいアルゴリズムフレームワークを考案し、最適化すべきだと論じる。 この目標に向けて、私たちは認識と予測の主要なコンポーネントを再考します。 これらのタスクが計画(目標)に寄与するように、各モジュールを分析し、階層的にタスクを優先順位付けします。 この目的のために,1つのネットワークにフルスタック運転タスクを組み込んだ,最新の包括的なフレームワークであるunified autonomous driving (uniad)を導入する。 各モジュールの利点を活用するために特別に考案され、グローバルの観点からエージェントインタラクションのための補完的な特徴抽象化を提供する。 タスクは統合クエリ設計と通信され、互いの計画を支援する。 挑戦的なnuScenesベンチマークでUniADをインスタンス化する。 このような哲学を使うことの有効性は、あらゆる面で、過去の最先端をはるかに上回っていることが証明されている。 コードベースとモデルの完全なスイートは、コミュニティの将来的な研究を促進するために利用できるだろう。

Modern autonomous driving system is characterized as modular tasks in sequential order, i.e., perception, prediction and planning. As sensors and hardware get improved, there is trending popularity to devise a system that can perform a wide diversity of tasks to fulfill higher-level intelligence. Contemporary approaches resort to either deploying standalone models for individual tasks, or designing a multi-task paradigm with separate heads. These might suffer from accumulative error or negative transfer effect. Instead, we argue that a favorable algorithm framework should be devised and optimized in pursuit of the ultimate goal, i.e. planning of the self-driving-car. Oriented at this goal, we revisit the key components within perception and prediction. We analyze each module and prioritize the tasks hierarchically, such that all these tasks contribute to planning (the goal). To this end, we introduce Unified Autonomous Driving (UniAD), the first comprehensive framework up-to-date that incorporates full-stack driving tasks in one network. It is exquisitely devised to leverage advantages of each module, and provide complementary feature abstractions for agent interaction from a global perspective. Tasks are communicated with unified query design to facilitate each other toward planning. We instantiate UniAD on the challenging nuScenes benchmark. With extensive ablations, the effectiveness of using such a philosophy is proven to surpass previous state-of-the-arts by a large margin in all aspects. The full suite of codebase and models would be available to facilitate future research in the community.
翻訳日:2022-12-21 17:09:57 公開日:2022-12-20
# 海底画像からの海底不変コースティック除去

Seafloor-Invariant Caustics Removal from Underwater Imagery ( http://arxiv.org/abs/2212.10167v1 )

ライセンス: Link先を確認
Panagiotis Agrafiotis, Konstantinos Karantzalos, Andreas Georgopoulos(参考訳) 海底画像カメラによる海底のマッピングは、海洋工学、地質学、地形学、考古学、生物学など様々な応用において重要である。 浅海にとって、水中イメージングの課題のうち、波状表面によって屈折される光線の投射に起因する複雑な物理的現象は、おそらく最も重要なものである。 コースティックス (caustics) は、水中画像の画質を著しく低下させ、海底の2dモザイクや3d再構成に深刻な影響を及ぼす。 本研究では,水中浅部画像に対するコースティックスの放射効果を補正する新しい手法を提案する。 最先端の手法とは対照的に,この手法は任意のアナグリフの海底や河床を処理し,実際の画素情報を用いて画像を補正し,画像マッチングと3次元再構成プロセスを改善する。 特に,画像画素を"非caustics"と"caustics"に分類するために,ディープラーニングアーキテクチャを用いる。 そして、重なり合う水中画像間で適切な色値を転送することにより、シーンの3次元形状を利用して画素ワイズ補正を行う。 さらに,現在のギャップを埋めるために,実世界のコースティックデータセットであるr-causticを収集し,注釈付けし,構造化した。 全体として、実験結果と検証結果に基づいて、開発手法は因果性の検出と強度の再構築の両方に有望である。

Mapping the seafloor with underwater imaging cameras is of significant importance for various applications including marine engineering, geology, geomorphology, archaeology and biology. For shallow waters, among the underwater imaging challenges, caustics i.e., the complex physical phenomena resulting from the projection of light rays being refracted by the wavy surface, is likely the most crucial one. Caustics is the main factor during underwater imaging campaigns that massively degrade image quality and affect severely any 2D mosaicking or 3D reconstruction of the seabed. In this work, we propose a novel method for correcting the radiometric effects of caustics on shallow underwater imagery. Contrary to the state-of-the-art, the developed method can handle seabed and riverbed of any anaglyph, correcting the images using real pixel information, thus, improving image matching and 3D reconstruction processes. In particular, the developed method employs deep learning architectures in order to classify image pixels to "non-caustics" and "caustics". Then, exploits the 3D geometry of the scene to achieve a pixel-wise correction, by transferring appropriate color values between the overlapping underwater images. Moreover, to fill the current gap, we have collected, annotated and structured a real-world caustic dataset, namely R-CAUSTIC, which is openly available. Overall, based on the experimental results and validation the developed methodology is quite promising in both detecting caustics and reconstructing their intensity.
翻訳日:2022-12-21 17:09:35 公開日:2022-12-20
# 深層学習によるGEDI, Sentinel-1, Sentinel-2データに基づくランドス森林(フランス)の高分解能天頂マップ

High-resolution canopy height map in the Landes forest (France) based on GEDI, Sentinel-1, and Sentinel-2 data with a deep learning approach ( http://arxiv.org/abs/2212.10265v1 )

ライセンス: Link先を確認
Martin Schwartz, Philippe Ciais, Catherine Ottl\'e, Aurelien De Truchis, Cedric Vega, Ibrahim Fayad, Martin Brandt, Rasmus Fensholt, Nicolas Baghdadi, Fran\c{c}ois Morneau, David Morin, Dominique Guyon, Sylvia Dayau, Jean-Pierre Wigneron(参考訳) ヨーロッパの集中的に管理されている森林では、森林が小さな林分に分割され、林内の多様性を示す可能性があるため、キャノピーの高さの違いを捉えるために高い空間分解能(10~20メートル)が必要である。 本研究では,マルチストリームリモートセンシング計測に基づく深層学習モデルを開発し,平坦な地形と集中的な管理を伴う13,000 km$^2$の大規模松林であるフランスの"landes de gascogne"林の高分解能なキャノピー高さマップを作成した。 この地域の特徴は、35年から50年ごとに収穫される数百メートルの典型的な長さの偶像的・単色のスタンドである。 深層学習型u-netモデルでは,複合時間平均を用いたsentinel-1とsentinel-2のマルチバンド画像を用いて,gedi波形からの樹高予測を行う。 この評価は,森林在庫計画の外部検証データと,特定地点で利用可能なSkysat画像に基づくステレオ3D再構成モデルを用いて行われる。 我々は,Sentinel-1とSentinel-2バンドの組み合わせに基づいて7種類のU-netモデルを訓練し,各楽器の重要性を評価した。 モデル出力により、2020年の"Landes de Gascogne"森林全体の10m解像度の天蓋の高さマップが生成でき、テストデータセットの平均絶対誤差は2.02mである。 最良の予測は、Sentinel-1とSentinel-2から利用可能なすべての衛星層を用いて得られたが、単一の衛星源のみを使用しても良い予測が得られた。 針葉樹林のバリデーションデータセットすべてについて,同じ地域で利用可能な以前のキャノピー高さモデルよりも優れた指標を示した。

In intensively managed forests in Europe, where forests are divided into stands of small size and may show heterogeneity within stands, a high spatial resolution (10 - 20 meters) is arguably needed to capture the differences in canopy height. In this work, we developed a deep learning model based on multi-stream remote sensing measurements to create a high-resolution canopy height map over the "Landes de Gascogne" forest in France, a large maritime pine plantation of 13,000 km$^2$ with flat terrain and intensive management. This area is characterized by even-aged and mono-specific stands, of a typical length of a few hundred meters, harvested every 35 to 50 years. Our deep learning U-Net model uses multi-band images from Sentinel-1 and Sentinel-2 with composite time averages as input to predict tree height derived from GEDI waveforms. The evaluation is performed with external validation data from forest inventory plots and a stereo 3D reconstruction model based on Skysat imagery available at specific locations. We trained seven different U-net models based on a combination of Sentinel-1 and Sentinel-2 bands to evaluate the importance of each instrument in the dominant height retrieval. The model outputs allow us to generate a 10 m resolution canopy height map of the whole "Landes de Gascogne" forest area for 2020 with a mean absolute error of 2.02 m on the Test dataset. The best predictions were obtained using all available satellite layers from Sentinel-1 and Sentinel-2 but using only one satellite source also provided good predictions. For all validation datasets in coniferous forests, our model showed better metrics than previous canopy height models available in the same region.
翻訳日:2022-12-21 17:09:10 公開日:2022-12-20
# UNO-QA:OCTA画像品質評価のためのテスト時間クラスタリングによる教師なし異常認識フレームワーク

UNO-QA: An Unsupervised Anomaly-Aware Framework with Test-Time Clustering for OCTA Image Quality Assessment ( http://arxiv.org/abs/2212.10541v1 )

ライセンス: Link先を確認
Juntao Chen, Li Lin, Pujin Cheng, Yijin Huang, Xiaoying Tang(参考訳) 医用画像品質評価(MIQA)は、様々な医用画像解析アプリケーションにおいて必須の要件である。 既存のMIQAアルゴリズムの多くは、大量の注釈付きデータをリクエストする完全に教師されている。 しかし、医用画像の注釈は時間と労力がかかる。 本稿では,光コヒーレンストモグラフィ(optical coherence tomography angiography,octa)画像品質評価のためのテスト時間クラスタリングを用いた教師なし異常検知フレームワークを提案する。 具体的には,機能埋め込み型低品質表現モジュールを提案し,オクタ画像の品質を定量化し,優れた品質と非連続品質を判別する。 学習したオクターク品質表現ネットワークによって抽出された多次元画像特徴の次元縮小とクラスタリングを行う。 1つの公開データセット sOCTA-3*3-10k で大規模な実験を行い、提案フレームワークの優位性を確立した。

Medical image quality assessment (MIQA) is a vital prerequisite in various medical image analysis applications. Most existing MIQA algorithms are fully supervised that request a large amount of annotated data. However, annotating medical images is time-consuming and labor-intensive. In this paper, we propose an unsupervised anomaly-aware framework with test-time clustering for optical coherence tomography angiography (OCTA) image quality assessment in a setting wherein only a set of high-quality samples are accessible in the training phase. Specifically, a feature-embedding-based low-quality representation module is proposed to quantify the quality of OCTA images and then to discriminate between outstanding quality and non-outstanding quality. Within the non-outstanding quality class, to further distinguish gradable images from ungradable ones, we perform dimension reduction and clustering of multi-scale image features extracted by the trained OCTA quality representation network. Extensive experiments are conducted on one publicly accessible dataset sOCTA-3*3-10k, with superiority of our proposed framework being successfully established.
翻訳日:2022-12-21 17:08:15 公開日:2022-12-20
# フォトニック実装から見たコンフリクトフリーマルチエージェントq-learningへのbanditアプローチ

Bandit approach to conflict-free multi-agent Q-learning in view of photonic implementation ( http://arxiv.org/abs/2212.09926v1 )

ライセンス: Link先を確認
Hiroaki Shinkawa, Nicolas Chauvet, Andr\'e R\"ohm, Takatomo Mihana, Ryoichi Horisaki, Guillaume Bachelier, and Makoto Naruse(参考訳) 近年,光の物理的性質を利用して計算過程を高速化するフォトニック強化学習の研究が盛んに行われている。 前回の研究では、光子の量子干渉を利用して、強化学習の基本的な例である競合的マルチアームドバンディット問題を解決する際に、選択競合なしに集団的意思決定を達成する。 しかしながら、バンドイット問題は、エージェントのアクションが報酬確率に影響を与えない静的環境を扱う。 本研究は,グリッドワールド問題を対象とした,より汎用的なマルチエージェント強化学習への従来のアプローチの拡張を目的とする。 従来の手法とは異なり,提案手法はエージェントの行動によって報酬が変化する動的環境を扱う。 成功したフォトニック強化学習方式は、学習の質に寄与するフォトニックシステムと適切なアルゴリズムの両方を必要とする。 本研究では,フォトニック実装の可能性を考慮した新しい学習アルゴリズム,不連続帯域Q-ラーニングを提案する。 ここでは, 環境中の状態-作用対を, バンディット問題におけるスロットマシンとみなし, バンディット問題の報奨としてQ値が更新された。 バンディットアルゴリズムの有効性を検証するために数値シミュレーションを行う。 さらに、エージェントが光の量子干渉によって間接的に接続されるマルチエージェントアーキテクチャを提案し、エージェント間の状態-作用対選択の競合のない性質を保証する。 複数のエージェント間の衝突回避により,マルチエージェント強化学習が促進されることを示す。

Recently, extensive studies on photonic reinforcement learning to accelerate the process of calculation by exploiting the physical nature of light have been conducted. Previous studies utilized quantum interference of photons to achieve collective decision-making without choice conflicts when solving the competitive multi-armed bandit problem, a fundamental example of reinforcement learning. However, the bandit problem deals with a static environment where the agent's action does not influence the reward probabilities. This study aims to extend the conventional approach to a more general multi-agent reinforcement learning targeting the grid world problem. Unlike the conventional approach, the proposed scheme deals with a dynamic environment where the reward changes because of agents' actions. A successful photonic reinforcement learning scheme requires both a photonic system that contributes to the quality of learning and a suitable algorithm. This study proposes a novel learning algorithm, discontinuous bandit Q-learning, in view of a potential photonic implementation. Here, state-action pairs in the environment are regarded as slot machines in the context of the bandit problem and an updated amount of Q-value is regarded as the reward of the bandit problem. We perform numerical simulations to validate the effectiveness of the bandit algorithm. In addition, we propose a multi-agent architecture in which agents are indirectly connected through quantum interference of light and quantum principles ensure the conflict-free property of state-action pair selections among agents. We demonstrate that multi-agent reinforcement learning can be accelerated owing to conflict avoidance among multiple agents.
翻訳日:2022-12-21 17:07:57 公開日:2022-12-20
# コード構文とセマンティックスを学ぶのに自己意識は強力か?

Is Self-Attention Powerful to Learn Code Syntax and Semantics? ( http://arxiv.org/abs/2212.10017v1 )

ライセンス: Link先を確認
Wei Ma, Mengjie Zhao, Xiaofei Xie, Qiang Hu, Shangqing Liu, Jie Zhang, Wenhan Wang, Yang Liu,(参考訳) プログラミング言語の事前訓練された言語モデルは、プログラム合成、コード補完、コード検索など、多くのソフトウェア工学(SE)タスクを処理する強力な能力を示している。 しかし、その成功の背景には何があるのかは不明だ。 近年, 抽象構文木に基づいて, 事前学習モデルを用いて構文情報を効果的に学習する方法が研究されている。 本稿では,ASTと静的解析に基づいて,コード構文や意味を理解する上で,自己認識機構が果たす役割を明らかにする。 我々は、よく知られた代表的コードモデルであるCodeBERTに注目し、トークンレベルで自己認識機構とマスケッド言語モデリング(MLM)を用いて、コード構文とセマンティクスを学習する方法を研究する。 CodeBERTを解析するための探索タスクのグループを提案する。 ASTと静的解析に基づいて、コードトークン間の関係を確立する。 まず,CodeBERTは自己認識とMDMによって構文や意味の知識を習得できることを示す。 第二に、自己注意機構は他のトークンよりも依存関係トークンに注意を払っていることを示す。 異なる注意ヘッドは、コードのセマンティクスを学ぶ上で異なる役割を担っている。 異なるレイヤは異なるコード特性を表現する能力を持っている。 深いコードバート層は、コードコンテキストで複雑な推論を必要とする意味情報をエンコードできる。 さらに重要なことは、私たちの分析が役立つことを示し、結論を利用してCodeBERTを改善します。 我々は、データフロー、実行時状態、プログラム出力など、さまざまなコードデータフォーマットの機能を組み合わせるのではなく、コード構文とセマンティクスを学ぶための、現在の事前学習戦略であるMLMを完全に活用する、事前学習モデルの代替手法を示す。

Pre-trained language models for programming languages have shown a powerful ability on processing many Software Engineering (SE) tasks, e.g., program synthesis, code completion, and code search. However, it remains to be seen what is behind their success. Recent studies have examined how pre-trained models can effectively learn syntax information based on Abstract Syntax Trees. In this paper, we figure out what role the self-attention mechanism plays in understanding code syntax and semantics based on AST and static analysis. We focus on a well-known representative code model, CodeBERT, and study how it can learn code syntax and semantics by the self-attention mechanism and Masked Language Modelling (MLM) at the token level. We propose a group of probing tasks to analyze CodeBERT. Based on AST and static analysis, we establish the relationships among the code tokens. First, Our results show that CodeBERT can acquire syntax and semantics knowledge through self-attention and MLM. Second, we demonstrate that the self-attention mechanism pays more attention to dependence-relationship tokens than to other tokens. Different attention heads play different roles in learning code semantics; we show that some of them are weak at encoding code semantics. Different layers have different competencies to represent different code properties. Deep CodeBERT layers can encode the semantic information that requires some complex inference in the code context. More importantly, we show that our analysis is helpful and leverage our conclusions to improve CodeBERT. We show an alternative approach for pre-training models, which makes fully use of the current pre-training strategy, i.e, MLM, to learn code syntax and semantics, instead of combining features from different code data formats, e.g., data-flow, running-time states, and program outputs.
翻訳日:2022-12-21 17:01:27 公開日:2022-12-20
# 推薦システムにおけるTsetlinマシンとディープニューラルネットワークの比較

A Comparison Between Tsetlin Machines and Deep Neural Networks in the Context of Recommendation Systems ( http://arxiv.org/abs/2212.10136v1 )

ライセンス: Link先を確認
Karl Audun Borgersen, Morten Goodwin, Jivitesh Sharma(参考訳) レコメンデーションシステム(rss)は現代社会においてユビキタスであり、人間とaiの相互作用の最大のポイントの1つである。 現代のrssは深層学習モデルを使って実装されることが多い。 この問題は、RSに対するユーザの信頼を損なうため、特にレコメンデーションシナリオの文脈で誇張されている。 対照的に、新しく導入されたTsetlin Machines (TM) は、その固有の解釈可能性のために、いくつかの価値のある性質を持っている。 TMはまだ技術としてかなり若い。 TMのためにRSは開発されていないため、そのようなシステムの実用性に関する予備的な研究を行う必要がある。 本稿では,TMをベースとした最初のRSを開発し,本アプリケーション領域における実用性を評価する。 本稿では,tmsの有効性と,rsの分野に共通する他の機械学習モデルとの比較を行った。 我々は,バニラフィードフォワード深層学習モデルと比較して,TMの性能を訓練・調査する。 これらの比較は、モデルパフォーマンス、解釈可能性/説明可能性、スケーラビリティに基づいている。 さらに、RSに関連する類似の機械学習ソリューションとベンチマーク性能の比較を行った。

Recommendation Systems (RSs) are ubiquitous in modern society and are one of the largest points of interaction between humans and AI. Modern RSs are often implemented using deep learning models, which are infamously difficult to interpret. This problem is particularly exasperated in the context of recommendation scenarios, as it erodes the user's trust in the RS. In contrast, the newly introduced Tsetlin Machines (TM) possess some valuable properties due to their inherent interpretability. TMs are still fairly young as a technology. As no RS has been developed for TMs before, it has become necessary to perform some preliminary research regarding the practicality of such a system. In this paper, we develop the first RS based on TMs to evaluate its practicality in this application domain. This paper compares the viability of TMs with other machine learning models prevalent in the field of RS. We train and investigate the performance of the TM compared with a vanilla feed-forward deep learning model. These comparisons are based on model performance, interpretability/explainability, and scalability. Further, we provide some benchmark performance comparisons to similar machine learning solutions relevant to RSs.
翻訳日:2022-12-21 17:00:58 公開日:2022-12-20
# 現実世界の医療データを用いた重度精神疾患リスクに対する大規模スクリーニングツールの構築

Construction of extra-large scale screening tools for risks of severe mental illnesses using real world healthcare data ( http://arxiv.org/abs/2212.10320v1 )

ライセンス: Link先を確認
Dianbo Liu, Karmel W. Choi, Paulo Lizano, William Yuan, Kun-Hsing Yu, Jordan Smoller, Isaac Kohane(参考訳) アメリカ合衆国における重篤な精神疾患(SMI)の流行は、全人口の約3%である。 SMIのリスクスクリーニングを大規模に行う能力は、早期の予防と治療に役立てることができる。 目的:統合失調症,統合失調症,精神病,双極性障害を含むsmisの集団レベルのリスクスクリーニングを行うために,スケーラブルな機械学習ベースのツールを開発した。 1)医療保険請求書及び 2) 電子健康記録(ehrs) 設計、設定、参加者:全国の商業医療保険会社の受益者740万人のデータと、米国に本拠を置く8つの学術病院の EHR 患者のデータを使用した。 まず, 保険請求書やEHRデータからのケースコントロールコホートデータを用いて予測モデルを構築し, 検証した。 次に,データソース間の予測モデルの性能分析を行った。 第3に,18歳の若年者および物質関連疾患の患者を対象に,SMIのリスクを予測するために,モデルをさらに訓練した。 主な成果と対策: 一般人口におけるSMIの機械学習に基づく予測モデルは、保険請求とEHRに基づいて構築された。

Importance: The prevalence of severe mental illnesses (SMIs) in the United States is approximately 3% of the whole population. The ability to conduct risk screening of SMIs at large scale could inform early prevention and treatment. Objective: A scalable machine learning based tool was developed to conduct population-level risk screening for SMIs, including schizophrenia, schizoaffective disorders, psychosis, and bipolar disorders,using 1) healthcare insurance claims and 2) electronic health records (EHRs). Design, setting and participants: Data from beneficiaries from a nationwide commercial healthcare insurer with 77.4 million members and data from patients from EHRs from eight academic hospitals based in the U.S. were used. First, the predictive models were constructed and tested using data in case-control cohorts from insurance claims or EHR data. Second, performance of the predictive models across data sources were analyzed. Third, as an illustrative application, the models were further trained to predict risks of SMIs among 18-year old young adults and individuals with substance associated conditions. Main outcomes and measures: Machine learning-based predictive models for SMIs in the general population were built based on insurance claims and EHR.
翻訳日:2022-12-21 17:00:42 公開日:2022-12-20
# タイムウインドウを用いた車両経路問題とピックアップ・デリバリー問題を解くための深層学習注意モデル

A deep learning Attention model to solve the Vehicle Routing Problem and the Pick-up and Delivery Problem with Time Windows ( http://arxiv.org/abs/2212.10399v1 )

ライセンス: Link先を確認
Baptiste Rabecq, R\'emy Chevrier(参考訳) フランスの公共列車会社SNCFは、車両ルーティング問題に対処して、新しいタイプの交通サービスを開発する実験を行っている。 多くのディープラーニングモデルが効率的なルーティング問題に取り組むために使われてきたが、時間に関する制約を考慮に入れるのは難しい。 本稿では,CVRPTW(Capacitated Vehicle Routing Problem with Time Windows)とCPDPTW(Capacitated Pickup and Delivery Problem with Time Windows)を,建設的反復ディープラーニングアルゴリズムを用いて解く。 我々は注意エンコーダ・デコーダ構造を用い, cpdptwの実現可能性チェックのための新しい挿入ヒューリスティックの設計を行った。 我々のモデルは、CVRPTWでよく知られた学習ソリューションよりも優れた結果をもたらす。 cpdptwを解くための深層学習手法の実現可能性を示すとともに,計算複雑性の観点からの反復的アプローチの限界を指摘する。

SNCF, the French public train company, is experimenting to develop new types of transportation services by tackling vehicle routing problems. While many deep learning models have been used to tackle efficiently vehicle routing problems, it is difficult to take into account time related constraints. In this paper, we solve the Capacitated Vehicle Routing Problem with Time Windows (CVRPTW) and the Capacitated Pickup and Delivery Problem with Time Windows (CPDPTW) with a constructive iterative Deep Learning algorithm. We use an Attention Encoder-Decoder structure and design a novel insertion heuristic for the feasibility check of the CPDPTW. Our models yields results that are better than best known learning solutions on the CVRPTW. We show the feasibility of deep learning techniques for solving the CPDPTW but witness the limitations of our iterative approach in terms of computational complexity.
翻訳日:2022-12-21 17:00:22 公開日:2022-12-20
# 実用的占有法の下でのシーケンシャル・ユーティリティーの最大化に向けて

Towards Sequence Utility Maximization under Utility Occupancy Measure ( http://arxiv.org/abs/2212.10452v1 )

ライセンス: Link先を確認
Gengsen Huang, Wensheng Gan, and Philip S. Yu(参考訳) ユーティリティ駆動型パターンの発見は有用で難しい研究トピックである。 特定のデータベースから重要で興味深い情報を抽出し、提供されたサービスの価値を高めることができる。 実際には、実用性の測定は、オブジェクトやパターンの重要性、利益、リスクを示すためにしばしば用いられる。 データベースでは、ユーティリティは各パターンの柔軟な基準であるが、ユーティリティの共有が無視されるため、より絶対的な基準である。 これにより、データベースから部分的および局所的な知識のみを探索するパターンが導出されます。 実用性は近年提案されているモデルであり、高い実用性を持つが低い占有力を有する鉱業の問題を考える。 しかし、既存の研究は、物体の発生の時間的関係を明らかにしないアイテムセットに集中している。 そこで本稿では,シーケンシャル・ユーティリティの最大化について述べる。 まず,シーケンシャルデータ上のユーティリティ占有度を定義し,高ユーティリティ占有度シーケンシャルパターンマイニング(huospm)の問題を提起する。 周波数、ユーティリティ、占有率を含む3次元は、huospmにおいて包括的に評価される。 SuMU(Sequence Utility Maximization with Utility cccupancy measure)と呼ばれるアルゴリズムを提案する。 さらに、6つの関連する上限を持つユーティリティー占有リスト(uol-chain)とユーティリティー占有テーブル(uo-table)というパターンに関する関連情報を格納する2つのデータ構造により効率性が向上する。 実験により,新しいアルゴリズムの有効性と有効性を評価する。 異なる上界と刈り取り戦略の影響を分析し, 考察した。 その結果,アルゴリズムの動作は知的かつ効果的であることが示唆された。

The discovery of utility-driven patterns is a useful and difficult research topic. It can extract significant and interesting information from specific and varied databases, increasing the value of the services provided. In practice, the measure of utility is often used to demonstrate the importance, profit, or risk of an object or a pattern. In the database, although utility is a flexible criterion for each pattern, it is a more absolute criterion due to the neglect of utility sharing. This leads to the derived patterns only exploring partial and local knowledge from a database. Utility occupancy is a recently proposed model that considers the problem of mining with high utility but low occupancy. However, existing studies are concentrated on itemsets that do not reveal the temporal relationship of object occurrences. Therefore, this paper towards sequence utility maximization. We first define utility occupancy on sequence data and raise the problem of High Utility-Occupancy Sequential Pattern Mining (HUOSPM). Three dimensions, including frequency, utility, and occupancy, are comprehensively evaluated in HUOSPM. An algorithm called Sequence Utility Maximization with Utility occupancy measure (SUMU) is proposed. Furthermore, two data structures for storing related information about a pattern, Utility-Occupancy-List-Chain (UOL-Chain) and Utility-Occupancy-Table (UO-Table) with six associated upper bounds, are designed to improve efficiency. Empirical experiments are carried out to evaluate the novel algorithm's efficiency and effectiveness. The influence of different upper bounds and pruning strategies is analyzed and discussed. The comprehensive results suggest that the work of our algorithm is intelligent and effective.
翻訳日:2022-12-21 17:00:05 公開日:2022-12-20
# ブラックボックス機械学習モデルのための一般化可変重要度指標と推定器

A Generalized Variable Importance Metric and Estimator for Black Box Machine Learning Models ( http://arxiv.org/abs/2212.09931v1 )

ライセンス: Link先を確認
Mohammad Kaviul Anam Khan and Rafal Kustra(参考訳) 本研究の目的は,予測関数が非付加的であり,統計的パラメータで表現できないブラックボックス機械学習手法における予測器の重要性を定義することである。 本稿では,連続変数やバイナリ応答変数に対する条件付き期待関数を用いて,「一般化変数重要度指標(GVIM)」を定義した。 さらに,定義したGVIMは条件平均処理効果 (CATE) の関数として,多項および連続予測器の2乗として表せることを示した。 次に,任意の機械学習モデルを用いてメトリクスを推定する方法を提案する。 最後に,複数のシミュレーションを用いて推定器の特性を示した。

The aim of this study is to define importance of predictors for black box machine learning methods, where the prediction function can be highly non-additive and cannot be represented by statistical parameters. In this paper we defined a ``Generalized Variable Importance Metric (GVIM)'' using the true conditional expectation function for a continuous or a binary response variable. We further showed that the defined GVIM can be represented as a function of the Conditional Average Treatment Effect (CATE) squared for multinomial and continuous predictors. Then we propose how the metric can be estimated using using any machine learning models. Finally we showed the properties of the estimator using multiple simulations.
翻訳日:2022-12-21 16:59:38 公開日:2022-12-20
# 確率的量子化因子解析

Probabilistic quantile factor analysis ( http://arxiv.org/abs/2212.10301v1 )

ライセンス: Link先を確認
Dimitris Korobilis, Maximilian Schr\"oder(参考訳) 本稿では,正則化と計算効率のよい変分近似を組み込んだ確率的変種に質的因子分析を拡張した。 合成および実データ実験により,提案する推定器は,多くの場合,最近提案された損失に基づく推定器よりも精度が良いことが判明した。 我々は,確率的量的因子法を用いて,低・中・高経済政策の不確実性の指標を抽出し,不確実性を測定する文献に貢献する。 中高指数と高指数は明確な収縮効果を持つが、低指数は経済にとって良さであり、不確実性のすべての徴候が同じではないことを示している。

This paper extends quantile factor analysis to a probabilistic variant that incorporates regularization and computationally efficient variational approximations. By means of synthetic and real data experiments it is established that the proposed estimator can achieve, in many cases, better accuracy than a recently proposed loss-based estimator. We contribute to the literature on measuring uncertainty by extracting new indexes of low, medium and high economic policy uncertainty, using the probabilistic quantile factor methodology. Medium and high indexes have clear contractionary effects, while the low index is benign for the economy, showing that not all manifestations of uncertainty are the same.
翻訳日:2022-12-21 16:59:28 公開日:2022-12-20
# 共同音声の転写と翻訳:分布外データを用いた擬似ラベル

Joint Speech Transcription and Translation: Pseudo-Labeling with Out-of-Distribution Data ( http://arxiv.org/abs/2212.09982v1 )

ライセンス: Link先を確認
Mozhdeh Gheini, Tatiana Likhomanenko, Matthias Sperber, Hendra Setiawan(参考訳) 自己学習は、ビジョン、スピーチ、言語など、多くの領域におけるデータの不足に対処する上で有用であることが示されている。 具体的には、自己学習、または擬似ラベル付けは、教師なしのデータをラベル付けし、トレーニングプールに追加する。 本研究では,最近提案されている,データ資源の不足に苦しむ音声の同時転写と翻訳という新しい設定について,疑似ラベル法の検討と使用について述べる。 このようなデータ不足の状況下では、ラベルなしデータは教師付きデータからドメインに大きく変化し、擬似ラベル品質が劣化することを示す。 我々は,追加の監視を必要とせず,擬似ラベルフィルタリングとデータ拡張という,ドメインミスマッチを対象とするリメディエーションの2つのカテゴリを調査した。 擬似ラベル解析および処理により,バニラの擬似ラベル設定が向上し,最大で0.6%の絶対値と2.2のBLEU点が向上したことを示す。

Self-training has been shown to be helpful in addressing data scarcity for many domains, including vision, speech, and language. Specifically, self-training, or pseudo-labeling, labels unsupervised data and adds that to the training pool. In this work, we investigate and use pseudo-labeling for a recently proposed novel setup: joint transcription and translation of speech, which suffers from an absence of sufficient data resources. We show that under such data-deficient circumstances, the unlabeled data can significantly vary in domain from the supervised data, which results in pseudo-label quality degradation. We investigate two categories of remedies that require no additional supervision and target the domain mismatch: pseudo-label filtering and data augmentation. We show that pseudo-label analysis and processing as such results in additional gains on top of the vanilla pseudo-labeling setup resulting in total improvements of up to 0.6% absolute WER and 2.2 BLEU points.
翻訳日:2022-12-21 16:59:17 公開日:2022-12-20
# 画像合成強化のための条件付き生成変換器

Conditioned Generative Transformers for Histopathology Image Synthetic Augmentation ( http://arxiv.org/abs/2212.09977v1 )

ライセンス: Link先を確認
Meng Li, Chaoyi Li, Can Peng, Brian Lovell(参考訳) 深層学習ネットワークは、医療画像解析タスクにおける最先端のパフォーマンスを実証している。 しかし、作品の大部分は豊富なラベル付きデータに大きく依存しており、ドメインの専門家の広範な関与を必要としている。 視覚変換器 (ViT) を用いたGAN (Generative Adversarial Network) は, 画像合成において優れた可能性を示したが, 病理像では研究されていない。 本稿では、これらの課題に対して、組織像合成増強のための純粋なViTベースの条件付きGANモデルを提案する。 学習不安定を緩和し,生成ロバスト性を向上させるために,まず条件付きクラス投影法を導入し,クラス分離を容易にする。 次に,分類タスク間の損失を動的にバランスさせるマルチロス重み関数を実装した。 さらに,適切な生成画像を積極的に選択し,さらなる性能向上を実現するための選択的拡張機構を提案する。 病理組織学データセットに関する広範な実験により, 合成補足フレームワークの活用により, 分類性能が著しく, 一貫した改善が得られた。

Deep learning networks have demonstrated state-of-the-art performance on medical image analysis tasks. However, the majority of the works rely heavily on abundantly labeled data, which necessitates extensive involvement of domain experts. Vision transformer (ViT) based generative adversarial networks (GANs) recently demonstrated superior potential in general image synthesis, yet are less explored for histopathology images. In this paper, we address these challenges by proposing a pure ViT-based conditional GAN model for histopathology image synthetic augmentation. To alleviate training instability and improve generation robustness, we first introduce a conditioned class projection method to facilitate class separation. We then implement a multi-loss weighing function to dynamically balance the losses between classification tasks. We further propose a selective augmentation mechanism to actively choose the appropriate generated images and bring additional performance improvements. Extensive experiments on the histopathology datasets show that leveraging our synthetic augmentation framework results in significant and consistent improvements in classification performance.
翻訳日:2022-12-21 16:58:59 公開日:2022-12-20
# Flareon:助成金によるバックドアインジェクション

Flareon: Stealthy any2any Backdoor Injection via Poisoned Augmentation ( http://arxiv.org/abs/2212.09979v1 )

ライセンス: Link先を確認
Tianrui Qin, Xianghuan He, Xitong Gao, Yiren Zhao, Kejiang Ye, Cheng-Zhong Xu(参考訳) オープンソフトウェアサプライチェーン攻撃は、一旦成功すれば、ミッションクリティカルなアプリケーションにおいて、非常にコストがかかる可能性がある。 ディープラーニングのオープンソースエコシステムが繁栄し、ますます普遍化していく中、ディープニューラルネットワークモデルに悪意のあるバックドアをコードインジェクトする、これまで未調査の道筋を攻撃者に提示している。 本稿では,動きベースのトリガによるデータ拡張パイプラインを対象とする,小さくてステルス的で一見無害なコード修正であるflareonを提案する。 Flareonは、地平線ラベルを変更したり、トレーニング損失の目標を変更したり、被害者のモデルアーキテクチャ、トレーニングデータ、トレーニングハイパーパラメータの事前知識を前提としない。 しかし、Frareonの下で訓練されたモデルは強力な目標条件(あるいは"any2any")のバックドアを学習する。 結果として得られたモデルは、より多くの制御を握るだけでなく、より制限的な攻撃能力を持つバックドア攻撃よりも、任意のターゲット選択に対して高い攻撃成功率を示し、よりクリーンなアキュラシーを示すことができる。 また,近年の防御に対するフラレオンの有効性を実証した。 Flareonは完全にオープンソースで、ディープラーニングコミュニティにオンラインで入手できる。

Open software supply chain attacks, once successful, can exact heavy costs in mission-critical applications. As open-source ecosystems for deep learning flourish and become increasingly universal, they present attackers previously unexplored avenues to code-inject malicious backdoors in deep neural network models. This paper proposes Flareon, a small, stealthy, seemingly harmless code modification that specifically targets the data augmentation pipeline with motion-based triggers. Flareon neither alters ground-truth labels, nor modifies the training loss objective, nor does it assume prior knowledge of the victim model architecture, training data, and training hyperparameters. Yet, it has a surprisingly large ramification on training -- models trained under Flareon learn powerful target-conditional (or "any2any") backdoors. The resulting models can exhibit high attack success rates for any target choices and better clean accuracies than backdoor attacks that not only seize greater control, but also assume more restrictive attack capabilities. We also demonstrate the effectiveness of Flareon against recent defenses. Flareon is fully open-source and available online to the deep learning community: https://github.com/lafeat/flareon.
翻訳日:2022-12-21 16:58:41 公開日:2022-12-20
# アダプタを用いた言語間密検索のためのパラメータ効率の良いゼロショット転送

Parameter-efficient Zero-shot Transfer for Cross-Language Dense Retrieval with Adapters ( http://arxiv.org/abs/2212.10448v1 )

ライセンス: Link先を確認
Eugene Yang and Suraj Nair and Dawn Lawrie and James Mayfield and Douglas W. Oard(参考訳) ゼロショット言語間検索モデルを作成する一般的なアプローチは、多言語bertのような多言語事前学習言語モデルを用いて、検索モデル内の単言語事前学習言語モデルを置き換えることである。 この多言語モデルは、英語MS MARCOのような単言語データを用いて、単言語検索モデルと同じトレーニングレシピを用いて検索タスクに微調整される。 しかし、そのような変換されたモデルは、トレーニングと推論中に入力テキストの言語でミスマッチする。 本稿では,トランスフォーマーネットワークのためのパラメータ効率の高いコンポーネントであるアダプタを用いて,単言語検索モデルを転送することを提案する。 タスク固有のアダプタで特定の言語の言語タスクに事前訓練されたアダプタを追加することで、様々なNLPタスクで言語間を移動する際に、アダプタが強化したモデルは、モデル全体を微調整するよりも優れたパフォーマンスを示す。 アダプタを用いて高密度検索モデルを構築することにより、クロス言語情報検索(CLIR)設定に移行する際に、モノリンガルデータで訓練されたモデルは、モデル全体を微調整するよりも効果的であることを示す。 しかし, 対象言語に適合する言語アダプタを, 推定時に置き換えるという先行提案は, 高密度検索モデルに最適でないことがわかった。 本稿では,他の言語間NLPタスクとCLIRとの相違点を詳細に分析する。

A popular approach to creating a zero-shot cross-language retrieval model is to substitute a monolingual pretrained language model in the retrieval model with a multilingual pretrained language model such as Multilingual BERT. This multilingual model is fined-tuned to the retrieval task with monolingual data such as English MS MARCO using the same training recipe as the monolingual retrieval model used. However, such transferred models suffer from mismatches in the languages of the input text during training and inference. In this work, we propose transferring monolingual retrieval models using adapters, a parameter-efficient component for a transformer network. By adding adapters pretrained on language tasks for a specific language with task-specific adapters, prior work has shown that the adapter-enhanced models perform better than fine-tuning the entire model when transferring across languages in various NLP tasks. By constructing dense retrieval models with adapters, we show that models trained with monolingual data are more effective than fine-tuning the entire model when transferring to a Cross Language Information Retrieval (CLIR) setting. However, we found that the prior suggestion of replacing the language adapters to match the target language at inference time is suboptimal for dense retrieval models. We provide an in-depth analysis of this discrepancy between other cross-language NLP tasks and CLIR.
翻訳日:2022-12-21 16:52:22 公開日:2022-12-20
# 関連ラベルのない高精度ゼロショット高密度検索

Precise Zero-Shot Dense Retrieval without Relevance Labels ( http://arxiv.org/abs/2212.10496v1 )

ライセンス: Link先を確認
Luyu Gao, Xueguang Ma, Jimmy Lin, Jamie Callan(参考訳) 密集検索はタスクや言語全体で効果的かつ効率的であることが示されているが、関連ラベルが存在しない場合には、効果的な完全ゼロショット密集検索システムを作成することは困難である。 本稿では,ゼロショット学習の難しさとエンコーディングの関連性を認識する。 代わりに、仮説文書埋め込み~(HyDE)をピボットすることを提案する。 クエリが与えられたとき、HyDEの最初のゼロショットは命令追従言語モデル(例えばインストラクションGPT)に、仮説文書を生成するように指示する。 この文書は関連パターンをキャプチャするが、現実的ではなく、虚偽の詳細を含むこともある。 そして、教師なしのコントラスト学習エンコーダ~(例:contriever)は、文書を埋め込みベクトルにエンコードする。 このベクトルは、類似した実文書がベクトル類似性に基づいて検索されるコーパス埋め込み空間内の近傍を特定する。 この第2ステップは、生成されたドキュメントを実際のコーパスにグラウンドし、エンコーダの密集したボトルネックが不正確な詳細をフィルタリングする。 実験の結果,HyDEは最先端の教師なし密集型検索器であるContrieverよりも優れており,様々なタスク(Web検索,QA,事実検証など)や言語(sw,ko,jaなど)において,微調整型検索器に匹敵する高い性能を示すことがわかった。

While dense retrieval has been shown effective and efficient across tasks and languages, it remains difficult to create effective fully zero-shot dense retrieval systems when no relevance label is available. In this paper, we recognize the difficulty of zero-shot learning and encoding relevance. Instead, we propose to pivot through Hypothetical Document Embeddings~(HyDE). Given a query, HyDE first zero-shot instructs an instruction-following language model (e.g. InstructGPT) to generate a hypothetical document. The document captures relevance patterns but is unreal and may contain false details. Then, an unsupervised contrastively learned encoder~(e.g. Contriever) encodes the document into an embedding vector. This vector identifies a neighborhood in the corpus embedding space, where similar real documents are retrieved based on vector similarity. This second step ground the generated document to the actual corpus, with the encoder's dense bottleneck filtering out the incorrect details. Our experiments show that HyDE significantly outperforms the state-of-the-art unsupervised dense retriever Contriever and shows strong performance comparable to fine-tuned retrievers, across various tasks (e.g. web search, QA, fact verification) and languages~(e.g. sw, ko, ja).
翻訳日:2022-12-21 16:51:59 公開日:2022-12-20
# タイト言語モデルの測度論的特徴付け

A Measure-Theoretic Characterization of Tight Language Models ( http://arxiv.org/abs/2212.10502v1 )

ライセンス: Link先を確認
Li Du, Lucas Torroba Hennigen, Tiago Pimentel, Clara Meister, Jason Eisner, Ryan Cotterell(参考訳) 自然言語処理における中心的なタスクである言語モデリングでは、文字列上の確率分布を推定する。 ほとんどの場合、推定分布はすべての有限弦上の 1 に収束する。 しかし、いくつかの病的なケースでは、確率質量は無限列の集合に `leak''' を付けることができる。 より正確に漏洩の概念を特徴付けるため,本稿では言語モデリングの尺度論的扱いについて述べる。 多くのポピュラーな言語モデルファミリーが実際に密接な関係にあることを証明しています。 また,先行研究で提案されているタイトネスの特性を一般化する。

Language modeling, a central task in natural language processing, involves estimating a probability distribution over strings. In most cases, the estimated distribution sums to 1 over all finite strings. However, in some pathological cases, probability mass can ``leak'' onto the set of infinite sequences. In order to characterize the notion of leakage more precisely, this paper offers a measure-theoretic treatment of language modeling. We prove that many popular language model families are in fact tight, meaning that they will not leak in this sense. We also generalize characterizations of tightness proposed in previous works.
翻訳日:2022-12-21 16:51:33 公開日:2022-12-20
# SLUE Phase-2: 多様な音声言語理解タスクのベンチマークスイート

SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding Tasks ( http://arxiv.org/abs/2212.10525v1 )

ライセンス: Link先を確認
Suwon Shon, Siddhant Arora, Chyi-Jiunn Lin, Ankita Pasad, Felix Wu, Roshan Sharma, Wei-Lun Wu, Hung-Yi Lee, Karen Livescu, Shinji Watanabe(参考訳) 音声言語理解(SLU)タスクは、音声研究コミュニティで何十年も研究されてきたが、音声認識や話者認識のような低レベルタスクほど注目されていない。 特に、sluタスクベンチマークはそれほど多くなく、既存のものの多くは、すべての研究者が自由に利用できないデータを使っている。 最近の作業では、いくつかのタスクのためのベンチマークデータセットの導入が始まっている。 本研究では,SLU評価環境における既存のベンチマークとアドレスギャップを補完する,自由可利用音声データに基づく新しい注釈付きSLUベンチマークタスクを紹介する。 質問応答と要約は、長い音声系列に対する推論を伴う; 名前付きエンティティローカライゼーションは、信号中のターゲットコンテンツを特定するための音声固有のタスクに対処する; ダイアログアクト分類は、与えられた発話の機能を識別する。 我々は,Spoken Language Understanding Evaluation (SLUE)ベンチマークスイートの青写真に従う。 事前学習した音声表現の成功を生かしたSLUモデルの開発を容易にするため,各課題について公開する。 (i)比較的小さな微調整セットに対するアノテーション (ii)注釈付き開発及び試験セット、及び (iii)再現性と比較の容易なベースラインモデル。 本稿では,データ収集とアノテーションの詳細とベースラインモデルの性能について述べる。 また,20以上の最先端音声認識モデルを用いて,音声認識精度に対するパイプラインモデルの性能(音声認識器+テキストモデル)の感度解析を行う。

Spoken language understanding (SLU) tasks have been studied for many decades in the speech research community, but have not received as much attention as lower-level tasks like speech and speaker recognition. In particular, there are not nearly as many SLU task benchmarks, and many of the existing ones use data that is not freely available to all researchers. Recent work has begun to introduce such benchmark datasets for several tasks. In this work, we introduce several new annotated SLU benchmark tasks based on freely available speech data, which complement existing benchmarks and address gaps in the SLU evaluation landscape. We contribute four tasks: question answering and summarization involve inference over longer speech sequences; named entity localization addresses the speech-specific task of locating the targeted content in the signal; dialog act classification identifies the function of a given speech utterance. We follow the blueprint of the Spoken Language Understanding Evaluation (SLUE) benchmark suite. In order to facilitate the development of SLU models that leverage the success of pre-trained speech representations, we will be publishing for each task (i) annotations for a relatively small fine-tuning set, (ii) annotated development and test sets, and (iii) baseline models for easy reproducibility and comparisons. In this work, we present the details of data collection and annotation and the performance of the baseline models. We also perform sensitivity analysis of pipeline models' performance (speech recognizer + text model) to the speech recognition accuracy, using more than 20 state-of-the-art speech recognition models.
翻訳日:2022-12-21 16:51:25 公開日:2022-12-20
# HYRR:ハイブリッド・インフュージョン・リグレードがパス検索に採用

HYRR: Hybrid Infused Reranking for Passage Retrieval ( http://arxiv.org/abs/2212.10528v1 )

ライセンス: Link先を確認
Jing Lu, Keith Hall, Ji Ma, Jianmo Ni(参考訳) 本稿では,bm25とニューラル検索のハイブリッドモデルに基づいて,リカウンタを訓練するためのフレームワークであるhyrr(hyfused reranking for passages retrieval)を提案する。 ハイブリッドモデルに基づくレトリバーは、BM25とニューラルモデルの両方より優れていることが示されている。 当社のアプローチでは,リランカのトレーニングにおけるパフォーマンス向上を活用して,堅牢なリランクモデルを実現しています。 クロス・アテンション・ニューラル・モデルであるrerankerは、異なる第1段階の検索システムに対して堅牢であり、多段階システムにおいて単に第1段階の検索者に訓練されたrerankerよりも優れた性能を示す。 我々は,MS MARCOとBEIRを用いたゼロショット検索タスクを用いた教師付きパス検索タスクの評価を行った。 実験結果は両評価において高い性能を示した。

We present Hybrid Infused Reranking for Passages Retrieval (HYRR), a framework for training rerankers based on a hybrid of BM25 and neural retrieval models. Retrievers based on hybrid models have been shown to outperform both BM25 and neural models alone. Our approach exploits this improved performance when training a reranker, leading to a robust reranking model. The reranker, a cross-attention neural model, is shown to be robust to different first-stage retrieval systems, achieving better performance than rerankers simply trained upon the first-stage retrievers in the multi-stage systems. We present evaluations on a supervised passage retrieval task using MS MARCO and zero-shot retrieval tasks using BEIR. The empirical results show strong performance on both evaluations.
翻訳日:2022-12-21 16:51:02 公開日:2022-12-20
# フェデレーションハイパーパラメータチューニングにおけるノイズ評価について

On Noisy Evaluation in Federated Hyperparameter Tuning ( http://arxiv.org/abs/2212.08930v2 )

ライセンス: Link先を確認
Kevin Kuo, Pratiksha Thaker, Mikhail Khodak, John Ngyuen, Daniel Jiang, Ameet Talwalkar, Virginia Smith(参考訳) ハイパーパラメータチューニングは、連合学習アプリケーションの成功に不可欠である。 残念なことに、ハイパーパラメータを適切に選択することは、フェデレーションネットワークでは難しい。 スケール,プライバシ,不均一性の問題はチューニングプロセスにノイズを導入し,様々なハイパーパラメータの性能評価を困難にする。 本研究では,フェデレートハイパーパラメータチューニングにおけるノイズ評価の効果について,最初の体系的検討を行った。 まず、クライアントサブサンプリング、データとシステムの不均一性、データプライバシなど、重要なノイズ源を特定し、厳密に調査する。 意外なことに,本研究の結果は,少ないノイズでもチューニング手法に大きく影響しうることを示唆している。 このようなシナリオにおけるノイズ評価に対処するために,公開プロキシデータを利用して評価信号を強化する,シンプルで効果的な手法を提案する。 私たちの研究は、フェデレーションハイパーパラメータチューニングにおける将来の作業のための一般的な課題、ベースライン、ベストプラクティスを確立します。

Hyperparameter tuning is critical to the success of federated learning applications. Unfortunately, appropriately selecting hyperparameters is challenging in federated networks. Issues of scale, privacy, and heterogeneity introduce noise in the tuning process and make it difficult to evaluate the performance of various hyperparameters. In this work, we perform the first systematic study on the effect of noisy evaluation in federated hyperparameter tuning. We first identify and rigorously explore key sources of noise, including client subsampling, data and systems heterogeneity, and data privacy. Surprisingly, our results indicate that even small amounts of noise can significantly impact tuning methods-reducing the performance of state-of-the-art approaches to that of naive baselines. To address noisy evaluation in such scenarios, we propose a simple and effective approach that leverages public proxy data to boost the evaluation signal. Our work establishes general challenges, baselines, and best practices for future work in federated hyperparameter tuning.
翻訳日:2022-12-21 16:50:45 公開日:2022-12-20
# グラフ上のデータ拡張:調査

Data Augmentation on Graphs: A Survey ( http://arxiv.org/abs/2212.09970v1 )

ライセンス: Link先を確認
Jiajun Zhou, Chenxuan Xie, Zhenyu Wen, Xiangyu Zhao, Qi Xuan(参考訳) 近年、グラフ表現学習は、低品質のデータ問題に悩まされ、目覚ましい成功を収めている。 コンピュータビジョンにおけるデータ品質を改善する成熟した技術として、データ拡張もグラフ領域で注目を集めている。 本調査では,この新たな研究方向の開発を促進するため,既存のグラフデータ拡張(GDAug)技術について概観的にレビューし,要約する。 具体的には、まず、様々な可能な分類法を要約し、その後、きめ細かいグラフ要素に基づいて既存のgdaug研究を分類する。 さらに, gdaug手法の各タイプについて, 一般定義を定式化し, 技術的詳細を議論し, 図式的図示を行う。 また,gdaug評価システム構築のための共通性能指標と具体的な設計指標を要約する。 最後に、gdaugの応用を、データレベルとモデルレベル、および今後の方向性の両方から要約する。

In recent years, graph representation learning has achieved remarkable success while suffering from low-quality data problems. As a mature technology to improve data quality in computer vision, data augmentation has also attracted increasing attention in graph domain. For promoting the development of this emerging research direction, in this survey, we comprehensively review and summarize the existing graph data augmentation (GDAug) techniques. Specifically, we first summarize a variety of feasible taxonomies, and then classify existing GDAug studies based on fine-grained graph elements. Furthermore, for each type of GDAug technique, we formalize the general definition, discuss the technical details, and give schematic illustration. In addition, we also summarize common performance metrics and specific design metrics for constructing a GDAug evaluation system. Finally, we summarize the applications of GDAug from both data and model levels, as well as future directions.
翻訳日:2022-12-21 16:50:31 公開日:2022-12-20
# フィンスラー幾何学による潜在距離の同定

Identifying latent distances with Finslerian geometry ( http://arxiv.org/abs/2212.10010v1 )

ライセンス: Link先を確認
Alison Pouplin, David Eklund, Carl Henrik Ek, S{\o}ren Hauberg(参考訳) リーマン幾何学は、データ多様体の固有構造を維持しながら生成モデルの潜在空間を探索するための強力なツールを提供する。 長さ、エネルギー、体積の測度は、潜在空間をデータ空間にマッピングする浸漬によって定義される引き戻し計量から導かれる。 これを考慮して、ほとんどの生成モデルは確率的であり、プルバック計量も同様である。 確率的オブジェクトを操作することは、実際は厳しい。 補間などの操作やデータ点間の距離を測定するためには、プルバック計量の決定論的近似が必要である。 本研究では,確率的引き戻し距離から得られる期待長として,新しい計量を定義する。 この計量がFinslerianであることを示し、予想されるプルバックメトリックと比較する。 高次元において、計量は$\mathcal{O}\left(\frac{1}{D}\right)$で収束することを示す。

Riemannian geometry provides powerful tools to explore the latent space of generative models while preserving the inherent structure of the data manifold. Lengths, energies and volume measures can be derived from a pullback metric, defined through the immersion that maps the latent space to the data space. With this in mind, most generative models are stochastic, and so is the pullback metric. Manipulating stochastic objects is strenuous in practice. In order to perform operations such as interpolations, or measuring the distance between data points, we need a deterministic approximation of the pullback metric. In this work, we are defining a new metric as the expected length derived from the stochastic pullback metric. We show this metric is Finslerian, and we compare it with the expected pullback metric. In high dimensions, we show that the metrics converge to each other at a rate of $\mathcal{O}\left(\frac{1}{D}\right)$.
翻訳日:2022-12-21 16:50:16 公開日:2022-12-20
# 多変量時系列予測のためのパターン発見手法

A Pattern Discovery Approach to Multivariate Time Series Forecasting ( http://arxiv.org/abs/2212.10306v1 )

ライセンス: Link先を確認
Yunyao Cheng, Chenjuan Guo, Kaixuan Chen, Kai Zhao, Bin Yang, Jiandong Xie, Christian S. Jensen, Feiteng Huang, Kai Zheng(参考訳) 多変量時系列予測は、サイバー物理システムにおいて重要な機能であり、その予測精度は、複数の時系列間の時間的および多変量相関をキャプチャすることで著しく向上することができる。 モデル複雑性は時系列の長さとともに指数関数的に増加するので、最先端のディープラーニング手法はフルタイムのモデルの構築に失敗する。 むしろ、これらの手法は、サブシーケンス内の局所的時間的および多変量相関を構成するが、サブシーケンス間の相関を捉えることができず、予測精度に大きな影響を及ぼす。 サブシーケンス間の時間的・多変量相関を捉えるために,多様なパターン関数による相関関係を構成するパターン探索モデルを設計する。 従来のパターン発見法は、時系列の多様性を無視する共有および固定のパターン関数を使用する。 本稿では,多種多様な時系列パターンを自動的にキャプチャできる新しいパターン探索手法を提案する。 また,学習可能な相関行列を提案し,複数の時系列間の相関関係をモデル化する。 大規模な実験により,我々のモデルは最先端の予測精度が得られた。

Multivariate time series forecasting constitutes important functionality in cyber-physical systems, whose prediction accuracy can be improved significantly by capturing temporal and multivariate correlations among multiple time series. State-of-the-art deep learning methods fail to construct models for full time series because model complexity grows exponentially with time series length. Rather, these methods construct local temporal and multivariate correlations within subsequences, but fail to capture correlations among subsequences, which significantly affect their forecasting accuracy. To capture the temporal and multivariate correlations among subsequences, we design a pattern discovery model, that constructs correlations via diverse pattern functions. While the traditional pattern discovery method uses shared and fixed pattern functions that ignore the diversity across time series. We propose a novel pattern discovery method that can automatically capture diverse and complex time series patterns. We also propose a learnable correlation matrix, that enables the model to capture distinct correlations among multiple time series. Extensive experiments show that our model achieves state-of-the-art prediction accuracy.
翻訳日:2022-12-21 16:50:01 公開日:2022-12-20
# ロバストMDPにおける政策勾配の収束性について

On the Convergence of Policy Gradient in Robust MDPs ( http://arxiv.org/abs/2212.10439v1 )

ライセンス: Link先を確認
Qiuhao Wang, Chin Pang Ho, Marek Petrik(参考訳) ロバストマルコフ決定プロセス(RMDP)はモデルパラメータの曖昧さの下で信頼性の高いポリシーを提供する有望なモデルである。 しかし、名目上のマルコフ決定プロセス(MDP)とは対照的に、RMDPの最先端の解法は、価値反復やポリシー反復のような価値に基づく方法に限られる。 本稿では,表計算問題における大域収束保証を有するRMDPの汎用的ポリシー勾配法であるDRPGを提案する。 値ベースの方法とは異なり、DRPGは動的プログラミング技術に依存しない。 特に、内ループロバストな政策評価問題は、投射勾配降下によって解決される。 最後に,本アルゴリズムの性能を実験的に実証し,理論的な保証を検証した。

Robust Markov decision processes (RMDPs) are promising models that provide reliable policies under ambiguities in model parameters. As opposed to nominal Markov decision processes (MDPs), however, the state-of-the-art solution methods for RMDPs are limited to value-based methods, such as value iteration and policy iteration. This paper proposes Double-Loop Robust Policy Gradient (DRPG), the first generic policy gradient method for RMDPs with a global convergence guarantee in tabular problems. Unlike value-based methods, DRPG does not rely on dynamic programming techniques. In particular, the inner-loop robust policy evaluation problem is solved via projected gradient descent. Finally, our experimental results demonstrate the performance of our algorithm and verify our theoretical guarantees.
翻訳日:2022-12-21 16:49:45 公開日:2022-12-20
# Masked Event Modeling: イベントカメラのための自己監督型事前トレーニング

Masked Event Modeling: Self-Supervised Pretraining for Event Cameras ( http://arxiv.org/abs/2212.10368v1 )

ライセンス: Link先を確認
Simon Klenk, David Bonello, Lukas Koestler, Daniel Cremers(参考訳) イベントカメラは、低レイテンシ、高時間解像度、高ダイナミックレンジで輝度変化を非同期にキャプチャする機能を提供する。 分類やその他のタスクのためのディープラーニングメソッドをこれらのセンサーにデプロイするには、通常、大きなラベル付きデータセットが必要である。 ラベル付きイベントデータの量はラベル付きRGB画像に比べて少ないため、イベントベースのビジョンの進歩は依然として限られている。 ラベル付きイベントデータへの依存性を低減するため、イベントのための自己教師付き事前トレーニングフレームワークであるMasked Event Modeling (MEM)を導入する。 本手法は,任意のイベントカメラ記録から発生するラベルなしイベントに対してニューラルネットワークを事前学習する。 その後、事前トレーニングされたモデルは下流タスクで微調整され、ラベルを少なくしながら全体的なパフォーマンスが向上する。 提案手法は,N-ImageNet,N-Cars,N-Caltech101の最先端技術より優れ,N-ImageNetのオブジェクト分類精度を7.96%向上させる。 Masked Event Modelingは、実世界のデータセット上でのRGBベースの事前トレーニングよりも優れていることを示す。

Event cameras offer the capacity to asynchronously capture brightness changes with low latency, high temporal resolution, and high dynamic range. Deploying deep learning methods for classification or other tasks to these sensors typically requires large labeled datasets. Since the amount of labeled event data is tiny compared to the bulk of labeled RGB imagery, the progress of event-based vision has remained limited. To reduce the dependency on labeled event data, we introduce Masked Event Modeling (MEM), a self-supervised pretraining framework for events. Our method pretrains a neural network on unlabeled events, which can originate from any event camera recording. Subsequently, the pretrained model is finetuned on a downstream task leading to an overall better performance while requiring fewer labels. Our method outperforms the state-of-the-art on N-ImageNet, N-Cars, and N-Caltech101, increasing the object classification accuracy on N-ImageNet by 7.96%. We demonstrate that Masked Event Modeling is superior to RGB-based pretraining on a real world dataset.
翻訳日:2022-12-21 16:43:31 公開日:2022-12-20
# housecat6d -- 現実的なシナリオで家庭用オブジェクトを使った大規模マルチモーダルカテゴリレベル6dオブジェクトポーズデータセット

HouseCat6D -- A Large-Scale Multi-Modal Category Level 6D Object Pose Dataset with Household Objects in Realistic Scenarios ( http://arxiv.org/abs/2212.10428v1 )

ライセンス: Link先を確認
HyunJun Jung, Shun-Cheng Wu, Patrick Ruhkamp, Hannah Schieber, Pengyuan Wang, Giulia Rizzoli, Hongcheng Zhao, Sven Damian Meier, Daniel Roth, Nassir Navab, Benjamin Busam(参考訳) 物体の6dポーズの推定は、3dコンピュータビジョンの主要な分野の1つである。 インスタンスレベルのポーズ推定による有望な結果から、研究トレンドはより実用的なアプリケーションシナリオのためのカテゴリレベルのポーズ推定に向かっている。 しかし、よく確立されたインスタンスレベルのポーズデータセットとは異なり、利用可能なカテゴリレベルのデータセットはアノテーションの品質やポーズ量に欠ける。 新しいカテゴリーレベルの6DポーズデータセットHouseCat6Dを提案する。 1)ポラリメトリックrgb+pと深さのマルチモーダリティ 2)2つのフォトメトリックに挑戦するカテゴリを含む10の家庭用オブジェクトカテゴリの高度に多様な194のオブジェクト。 3) エラー範囲がわずか1.35mmから1.74mmの高品質ポーズアノテーション 4)広範囲にわたる大規模場面41件。 5)全シーンのチェッカーボードフリー環境。 また,最先端のカテゴリレベルのポーズ推定ネットワークのベンチマーク結果も提供する。

Estimating the 6D pose of objects is one of the major fields in 3D computer vision. Since the promising outcomes from instance-level pose estimation, the research trends are heading towards category-level pose estimation for more practical application scenarios. However, unlike well-established instance-level pose datasets, available category-level datasets lack annotation quality and provided pose quantity. We propose the new category level 6D pose dataset HouseCat6D featuring 1) Multi-modality of Polarimetric RGB+P and Depth, 2) Highly diverse 194 objects of 10 household object categories including 2 photometrically challenging categories, 3) High-quality pose annotation with an error range of only 1.35 mm to 1.74 mm, 4) 41 large scale scenes with extensive viewpoint coverage, 5) Checkerboard-free environment throughout the entire scene. We also provide benchmark results of state-of-the-art category-level pose estimation networks.
翻訳日:2022-12-21 16:43:13 公開日:2022-12-20
# instantavatar: 単眼ビデオからアバターを60秒で学習する

InstantAvatar: Learning Avatars from Monocular Video in 60 Seconds ( http://arxiv.org/abs/2212.10550v1 )

ライセンス: Link先を確認
Tianjian Jiang, Xu Chen, Jie Song, Otmar Hilliges(参考訳) 本稿では,単眼ビデオから人間のアバターを数秒で再構築できるシステムであるinstantavatarに寄与することで,単眼神経アバター再構成の現実的応用可能性に向けて大きな一歩を踏み出し,これらのアバターをインタラクティブなレートでアニメーション化・レンダリングすることができる。 この効率を達成するために,神経場に対する新しい加速度構造と,動的シーンのための効率的な空スペーススキップ戦略を組み合わせた,注意深く設計・設計したシステムを提案する。 また、研究目的に利用できる効率的な実装にも貢献します。 既存の方法と比較して、InstantAvatarは130倍早く収束し、数時間ではなく数分で訓練できる。 より優れた復元品質と新規ポーズ合成結果を達成する。 同じ時間予算を与えられた場合、本手法はSoTA法よりも大幅に優れる。 instantavatarは10秒のトレーニング時間で許容可能な視覚品質を得ることができる。

In this paper, we take a significant step towards real-world applicability of monocular neural avatar reconstruction by contributing InstantAvatar, a system that can reconstruct human avatars from a monocular video within seconds, and these avatars can be animated and rendered at an interactive rate. To achieve this efficiency we propose a carefully designed and engineered system, that leverages emerging acceleration structures for neural fields, in combination with an efficient empty space-skipping strategy for dynamic scenes. We also contribute an efficient implementation that we will make available for research purposes. Compared to existing methods, InstantAvatar converges 130x faster and can be trained in minutes instead of hours. It achieves comparable or even better reconstruction quality and novel pose synthesis results. When given the same time budget, our method significantly outperforms SoTA methods. InstantAvatar can yield acceptable visual quality in as little as 10 seconds training time.
翻訳日:2022-12-21 16:43:01 公開日:2022-12-20
# ピクセルレベルでのビジュアルプロンプティングのパワーを解放する

Unleashing the Power of Visual Prompting At the Pixel Level ( http://arxiv.org/abs/2212.10556v1 )

ライセンス: Link先を確認
Junyang Wu, Xianhang Li, Chen Wei, Huiyu Wang, Alan Yuille, Yuyin Zhou, Cihang Xie(参考訳) 本稿では,事前学習したモデルを下流認識タスクに適応させるための簡易かつ効果的な視覚プロンプト手法を提案する。 提案手法には2つの重要な設計がある。 まず、プロンプトとイメージを直接追加するのではなく、プロンプトを余分で独立した学習可能なコンポーネントとして扱う。 我々は,プロンプトとイメージの調整戦略が重要であることを示し,適切に縮小された画像のまわりにプロンプトをゆがめることが経験上最も有効であることを示す。 第2に、入力の多様性と勾配正規化を視覚的プロンプトに組み込むためによく使われる2つの「古いトリック」を再導入する。 これらの手法は最適化を改善し、プロンプトをより一般化する。 本手法の有効性を示すために,広範な実験結果を提供する。 CLIPモデルを用いることで、12の一般的な分類データセットの平均精度を82.8%に設定し、それまでの技術を+5.6%上回った。 この高速化性能は、線形プローブを+2.1%上回っており、特定のデータセットで完全に微調整される可能性さえある。 さらに,提案手法は,異なるデータスケールと分散シフトに対する競合性能を示す。 コードはhttps://github.com/UCSC-VLAA/EVPで公開されている。

This paper presents a simple and effective visual prompting method for adapting pre-trained models to downstream recognition tasks. Our method includes two key designs. First, rather than directly adding together the prompt and the image, we treat the prompt as an extra and independent learnable component. We show that the strategy of reconciling the prompt and the image matters, and find that warping the prompt around a properly shrinked image empirically works the best. Second, we re-introduce two "old tricks" commonly used in building transferable adversarial examples, i.e., input diversity and gradient normalization, into visual prompting. These techniques improve optimization and enable the prompt to generalize better. We provide extensive experimental results to demonstrate the effectiveness of our method. Using a CLIP model, our prompting method sets a new record of 82.8% average accuracy across 12 popular classification datasets, substantially surpassing the prior art by +5.6%. It is worth noting that this prompting performance already outperforms linear probing by +2.1% and can even match fully fine-tuning in certain datasets. In addition, our prompting method shows competitive performance across different data scales and against distribution shifts. The code is publicly available at https://github.com/UCSC-VLAA/EVP.
翻訳日:2022-12-21 16:42:47 公開日:2022-12-20
# オープンドメイン質問応答における攻撃防止対策

Defending Against Poisoning Attacks in Open-Domain Question Answering ( http://arxiv.org/abs/2212.10002v1 )

ライセンス: Link先を確認
Orion Weller, Aleem Khan, Nathaniel Weir, Dawn Lawrie, Benjamin Van Durme(参考訳) オープンドメイン質問応答(ODQA)の最近の研究は、入力コンテキストの逆毒が生産システムの精度を大幅に低下させることを示した。 しかし、これらの攻撃を防御する方法は、ほとんど、あるいは全く提案されていない。 そこで本研究では,クエリ拡張を応用した検索文の検索手法を提案する。 我々は,新たな信頼法の設計を通じて,これらの新たなパスをモデルに統合し,予測された回答を検索されたコンテキスト(例えばCAR)におけるその出現と比較する。 これらの方法では、簡単に効果的に毒殺攻撃を防ぎ、さまざまなレベルのデータ中毒に対して、5-20%の正確な一致をもたらすことができる。

Recent work in open-domain question answering (ODQA) has shown that adversarial poisoning of the input contexts can cause large drops in accuracy for production systems. However, little to no work has proposed methods to defend against these attacks. To do so, we introduce a new method that uses query augmentation to search for a diverse set of retrieved passages that could answer the original question. We integrate these new passages into the model through the design of a novel confidence method, comparing the predicted answer to its appearance in the retrieved contexts (what we call Confidence from Answer Redundancy, e.g. CAR). Together these methods allow for a simple but effective way to defend against poisoning attacks and provide gains of 5-20% exact match across varying levels of data poisoning.
翻訳日:2022-12-21 16:42:26 公開日:2022-12-20
# CoCoMIC: インファイルとクロスファイルコンテキストを併用したコード補完

CoCoMIC: Code Completion By Jointly Modeling In-file and Cross-file Context ( http://arxiv.org/abs/2212.10007v1 )

ライセンス: Link先を確認
Yangruibo Ding, Zijian Wang, Wasi Uddin Ahmad, Murali Krishna Ramanathan, Ramesh Nallapati, Parminder Bhatia, Dan Roth, Bing Xiang(参考訳) コードに対する事前学習された言語モデル(lm)はコード補完で大きな成功を収めているが、それらはファイル内のコンテンツ、すなわちファイル内コンテキストのみを条件としたコードを生成するが、同じプロジェクト内の他のファイル内のリッチなセマンティクス、すなわちクロスファイルコンテキスト(cross-file context)は、モダンなモジュール化ソフトウェア開発で特に役立つ重要な情報ソースである。 このような制約を見越すと、コード補完における言語モデルの能力が低下し、幻覚したクラスメンバー関数や予期しない引数を持つ関数呼び出しなどの予期せぬ振る舞いにつながる。 本研究では,クロスファイルコンテキストファインダツールであるCCFINDERを開発し,最も関連性の高いクロスファイルコンテキストを効果的に検出し,検索する。 CoCoMIC は,事前学習済みのコード LM 上でファイル内コンテキストとファイル内コンテキストを協調的に学習するための,クロスファイルコンテキストを組み込んだフレームワークである。 CoCoMICは既存のコードLMを19.30%の精度で改善し、クロスファイルコンテキストが提供されるとコード補完のための識別子マッチングが15.41%増加した。

While pre-trained language models (LM) for code have achieved great success in code completion, they generate code conditioned only on the contents within the file, i.e., in-file context, but ignore the rich semantics in other files within the same project, i.e., cross-file context, a critical source of information that is especially useful in modern modular software development. Such overlooking constrains code language models' capacity in code completion, leading to unexpected behaviors such as generating hallucinated class member functions or function calls with unexpected arguments. In this work, we develop a cross-file context finder tool, CCFINDER, that effectively locates and retrieves the most relevant cross-file context. We propose CoCoMIC, a framework that incorporates cross-file context to learn the in-file and cross-file context jointly on top of pretrained code LMs. CoCoMIC successfully improves the existing code LM with a 19.30% relative increase in exact match and a 15.41% relative increase in identifier matching for code completion when the cross-file context is provided.
翻訳日:2022-12-21 16:42:13 公開日:2022-12-20
# それはあなたに影響しますか。 認知的適応状態認識を用いた人間-ロボット指導の社会的・学習的意義

Does It Affect You? Social and Learning Implications of Using Cognitive-Affective State Recognition for Proactive Human-Robot Tutoring ( http://arxiv.org/abs/2212.10346v1 )

ライセンス: Link先を確認
Matthias Kraus, Diana Betancourt, Wolfgang Minker(参考訳) ロボットを教育現場で使うことは、すでに学生の学習や社会的行動に有益であることが示されている。 より効果的で人間的な授業を提供する次のレベルに彼らを誘導するには、ユーザに適応し、積極性を表現する能力が不可欠である。 有能な行動を行うことで、知的ロボットチューターは、生徒の問題を発生させる可能性のある状況を予測し、ネガティブな結果を防ぐために事前に行動する。 それでも、いつどのように行動するかという決定は、オープンな疑問である。 そこで本論文では,ロボット教師が学生の認知影響状態をどのように活用できるかを,プロアクティブ・チュータリング・ダイアログのトリガーとして検討する。 学習体験を向上させることを目的としている。 このため、ロボットアシスタントがネガティブなユーザ状態を検出する際に、積極的に支援する概念学習タスクシナリオが観察された。 学習タスクでは、ユーザのフラストレーション状態と混乱状態がタスクの結果に悪影響を及ぼすと考えられ、アクティブな振る舞いを誘発するために使用された。 大学生40名を対象にした実証的ユーザスタディにおいて,混乱やフラストレーションの兆候の検出による積極的行動の開始が,学生の集中とエージェントへの信頼を高めるかを検討した。 また,プロアクティブ対話のどのレベルが学生の集中と信頼を促進するのに有用かを検討した。 その結果,高いプロアクティブ行動は信頼を損なうこと,特に負の認知的影響状態において引き起こされる場合において,学生がこれらの状態において引き起こされるタスクに集中し続けるのに寄与することが示された。 本研究は,ロボット学習システムの積極的な支援を改善するための今後のステップについて考察する。

Using robots in educational contexts has already shown to be beneficial for a student's learning and social behaviour. For levitating them to the next level of providing more effective and human-like tutoring, the ability to adapt to the user and to express proactivity is fundamental. By acting proactively, intelligent robotic tutors anticipate possible situations where problems for the student may arise and act in advance for preventing negative outcomes. Still, the decisions of when and how to behave proactively are open questions. Therefore, this paper deals with the investigation of how the student's cognitive-affective states can be used by a robotic tutor for triggering proactive tutoring dialogue. In doing so, it is aimed to improve the learning experience. For this reason, a concept learning task scenario was observed where a robotic assistant proactively helped when negative user states were detected. In a learning task, the user's states of frustration and confusion were deemed to have negative effects on the outcome of the task and were used to trigger proactive behaviour. In an empirical user study with 40 undergraduate and doctoral students, we studied whether the initiation of proactive behaviour after the detection of signs of confusion and frustration improves the student's concentration and trust in the agent. Additionally, we investigated which level of proactive dialogue is useful for promoting the student's concentration and trust. The results show that high proactive behaviour harms trust, especially when triggered during negative cognitive-affective states but contributes to keeping the student focused on the task when triggered in these states. Based on our study results, we further discuss future steps for improving the proactive assistance of robotic tutoring systems.
翻訳日:2022-12-21 16:41:52 公開日:2022-12-20
# あなたは何に気付いていますか。 語彙上の分布としてのDense Retrieval

What Are You Token About? Dense Retrieval as Distributions Over the Vocabulary ( http://arxiv.org/abs/2212.10380v1 )

ライセンス: Link先を確認
Ori Ram, Liat Bezalel, Adi Zicher, Yonatan Belinkov, Jonathan Berant, Amir Globerson(参考訳) 現在、デュアルエンコーダは高密度検索の主要なアーキテクチャである。 しかし、テキストの表現方法や、それが優れたパフォーマンスにつながる理由については、ほとんど理解していません。 本研究では,語彙上の分布を通じて,この問題に光を当てた。 本稿では,双対エンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。 語彙トークン上の結果の分布は直感的であり,豊富な意味情報を含んでいることを示す。 この見方は、高密度レトリバーの故障事例のいくつかを説明することができる。 例えば、テールエンティティを扱うモデルが存在しないことは、それらのエンティティのトークンの一部を忘れるトークン分布の傾向によって説明できる。 我々は,この知見を活用し,推論時に語彙情報を含むクエリ表現とパッセージ表現を豊かにするための簡易な方法を提案し,ドメイン外設定における元のモデルに比べて性能が大幅に向上することを示す。

Dual encoders are now the dominant architecture for dense retrieval. Yet, we have little understanding of how they represent text, and why this leads to good performance. In this work, we shed light on this question via distributions over the vocabulary. We propose to interpret the vector representations produced by dual encoders by projecting them into the model's vocabulary space. We show that the resulting distributions over vocabulary tokens are intuitive and contain rich semantic information. We find that this view can explain some of the failure cases of dense retrievers. For example, the inability of models to handle tail entities can be explained via a tendency of the token distributions to forget some of the tokens of those entities. We leverage this insight and propose a simple way to enrich query and passage representations with lexical information at inference time, and show that this significantly improves performance compared to the original model in out-of-domain settings.
翻訳日:2022-12-21 16:41:21 公開日:2022-12-20
# AnnoBERT:複数アノテータのラベル選択を効果的に表現してヘイト音声検出を改善する

AnnoBERT: Effectively Representing Multiple Annotators' Label Choices to Improve Hate Speech Detection ( http://arxiv.org/abs/2212.10405v1 )

ライセンス: Link先を確認
Wenjie Yin, Vibhor Agarwal, Aiqi Jiang, Arkaitz Zubiaga, Nishanth Sastry(参考訳) 監督されたアプローチは一般的に多数派に基づくラベルに依存している。 しかし,ヘイトスピーチ検出などの主観的タスクにおいて,アノテータ間の高い合意を達成することは困難である。 既存のニューラルネットワークモデルは、ラベルを分類変数とみなし、多様なラベルテキストのセマンティック情報を無視する。 本稿では,アノテータの特徴とラベルテキストを変換器ベースモデルで統合し,各アノテータの特徴をCTR (Collaborative Topic Regression) を用いて一意に表現し,ラベルテキストを統合してテキスト表現を豊かにするAnnoBERTを提案する。 トレーニング中、モデルは、アノテータにテキストを付与したラベル選択を関連付け、評価中、ラベル情報が入手できないとき、学習者アノテータによる集約されたラベルを学習者アソシエーションを利用して予測する。 提案手法はヘイトスピーチの検出に優位性を示し,特にアノテータ不一致の少数層とエッジ症例で有効であった。 全体パフォーマンスの改善は、データセットがラベルの不均衡度が高い場合に最大であり、現実のヘイトスピーチを識別する実践的価値を示唆している。 アブレーション研究を通じて,アノテータ組込みとラベル付きテキストのモデル性能への相対的寄与を示し,代替アノテータ組込みとラベル付きテキストの組み合わせをテストした。

Supervised approaches generally rely on majority-based labels. However, it is hard to achieve high agreement among annotators in subjective tasks such as hate speech detection. Existing neural network models principally regard labels as categorical variables, while ignoring the semantic information in diverse label texts. In this paper, we propose AnnoBERT, a first-of-its-kind architecture integrating annotator characteristics and label text with a transformer-based model to detect hate speech, with unique representations based on each annotator's characteristics via Collaborative Topic Regression (CTR) and integrate label text to enrich textual representations. During training, the model associates annotators with their label choices given a piece of text; during evaluation, when label information is not available, the model predicts the aggregated label given by the participating annotators by utilising the learnt association. The proposed approach displayed an advantage in detecting hate speech, especially in the minority class and edge cases with annotator disagreement. Improvement in the overall performance is the largest when the dataset is more label-imbalanced, suggesting its practical value in identifying real-world hate speech, as the volume of hate speech in-the-wild is extremely small on social media, when compared with normal (non-hate) speech. Through ablation studies, we show the relative contributions of annotator embeddings and label text to the model performance, and tested a range of alternative annotator embeddings and label text combinations.
翻訳日:2022-12-21 16:41:09 公開日:2022-12-20
# 長期文書検索のための細粒度蒸留

Fine-Grained Distillation for Long Document Retrieval ( http://arxiv.org/abs/2212.10423v1 )

ライセンス: Link先を確認
Yucheng Zhou, Tao Shen, Xiubo Geng, Chongyang Tao, Guodong Long, Can Xu, Daxin Jiang(参考訳) ロングドキュメント検索は、知識蒸留が事実上のデファクトとなり、異質だが強力なクロスエンコーダを模倣して検索者を改善する大規模コレクションからクエリ関連文書を取得することを目的としている。 しかし、文章や文とは対照的に、長い文書の検索は、長い文書が複数の話題をカバーする可能性があるというスコープ仮説に苦しむ。 これは構造上の不均一性を最大化し、粒状ミスマッチ問題を引き起こし、低い蒸留効果をもたらす。 そこで本研究では, 長期文書検索者向けに, 微粒蒸留(fgd)という新しい学習フレームワークを提案する。 従来の密集検索パラダイムを保ちながら、まず異なる粒度を横断するグローバル一貫性の表現を生成し、訓練中にのみ多粒配列蒸留を適用する。 実験では,2つの長期文書検索ベンチマークのフレームワークの評価を行った。

Long document retrieval aims to fetch query-relevant documents from a large-scale collection, where knowledge distillation has become de facto to improve a retriever by mimicking a heterogeneous yet powerful cross-encoder. However, in contrast to passages or sentences, retrieval on long documents suffers from the scope hypothesis that a long document may cover multiple topics. This maximizes their structure heterogeneity and poses a granular-mismatch issue, leading to an inferior distillation efficacy. In this work, we propose a new learning framework, fine-grained distillation (FGD), for long-document retrievers. While preserving the conventional dense retrieval paradigm, it first produces global-consistent representations crossing different fine granularity and then applies multi-granular aligned distillation merely during training. In experiments, we evaluate our framework on two long-document retrieval benchmarks, which show state-of-the-art performance.
翻訳日:2022-12-21 16:40:41 公開日:2022-12-20
# parallelnet:マルチモード軌道融合によるマルチモード軌道予測

ParallelNet: Multi-mode Trajectory Prediction by Multi-mode Trajectory Fusion ( http://arxiv.org/abs/2212.10203v1 )

ライセンス: Link先を確認
Fei Wu, Luoyu Chen and Hao Lu(参考訳) レベル5 完全自動化車両(AV)が人間の介入を必要としない技術である自動運転は、広く使われる前に安全性と安定性に深刻な懸念を抱いている。 路面物体の将来の運動軌跡を理解し予測する能力は、AVが安全かつ制御が容易な経路を計画するのに役立つ。 本稿では,複数の畳み込みニューラルネットワークバックボーンを並列化し,特徴を融合してマルチモード軌道予測を行うネットワークアーキテクチャを提案する。 2020年のICRA Nuscene Predictionチャレンジでは、私たちのモデルは全チームで15位にランクインしました。

Level 5 Autonomous Driving, a technology that a fully automated vehicle (AV) requires no human intervention, has raised serious concerns on safety and stability before widespread use. The capability of understanding and predicting future motion trajectory of road objects can help AV plan a path that is safe and easy to control. In this paper, we propose a network architecture that parallelizes multiple convolutional neural network backbones and fuses features to make multi-mode trajectory prediction. In the 2020 ICRA Nuscene Prediction challenge, our model ranks 15th on the leaderboard across all teams.
翻訳日:2022-12-21 16:34:25 公開日:2022-12-20
# CSMPQ:クラス分離性に基づく混合精度量子化

CSMPQ:Class Separability Based Mixed-Precision Quantization ( http://arxiv.org/abs/2212.10220v1 )

ライセンス: Link先を確認
Mingkai Wang, Taisong Jin, Miaohui Zhang, Zhengtao Yu(参考訳) 混合精度量子化は、計算負担を減らし、推論時間を短縮する能力に注目が集まっている。 既存の方法は通常、異なるネットワーク層の感度に焦点を合わせ、時間を要する検索やトレーニングプロセスを必要とする。 この目的のためにCSMPQと呼ばれる新しい混合精度量子化法を提案する。 具体的には,階層的特徴写像のクラス分離性を測定するために,自然言語処理(NLP)で広く用いられているTF-IDFメトリックを導入する。 さらに、各層に対する最適なビット構成を導出するために線形計画問題を設計する。 反復的なプロセスがなければ、提案するcsmpqは最先端の量子化法よりも優れた圧縮トレードオフを実現する。 具体的には、CSMPQはResNet-18では73.03$\%$ Top-1 acc、QATでは59G BOP、PTQでは71.30$\%$ Top-1 acc、MobileNetV2では1.5Mbである。

Mixed-precision quantization has received increasing attention for its capability of reducing the computational burden and speeding up the inference time. Existing methods usually focus on the sensitivity of different network layers, which requires a time-consuming search or training process. To this end, a novel mixed-precision quantization method, termed CSMPQ, is proposed. Specifically, the TF-IDF metric that is widely used in natural language processing (NLP) is introduced to measure the class separability of layer-wise feature maps. Furthermore, a linear programming problem is designed to derive the optimal bit configuration for each layer. Without any iterative process, the proposed CSMPQ achieves better compression trade-offs than the state-of-the-art quantization methods. Specifically, CSMPQ achieves 73.03$\%$ Top-1 acc on ResNet-18 with only 59G BOPs for QAT, and 71.30$\%$ top-1 acc with only 1.5Mb on MobileNetV2 for PTQ.
翻訳日:2022-12-21 16:34:15 公開日:2022-12-20
# 敵攻撃に対する3次元物体検出器のロバスト性に関する総合的研究と比較

A Comprehensive Study and Comparison of the Robustness of 3D Object Detectors Against Adversarial Attacks ( http://arxiv.org/abs/2212.10230v1 )

ライセンス: Link先を確認
Yifan Zhang, Junhui Hou, Yixuan Yuan(参考訳) ディープラーニングに基づく3Dオブジェクト検出器は近年大きく進歩し、広範囲のアプリケーションにデプロイされている。 セキュリティクリティカルなアプリケーションに検出器を用いる場合、敵攻撃に対する検出器の堅牢性を理解することが重要である。 本稿では,3次元検出器のロバスト性について,敵の攻撃下での徹底的な評価と解析を行う最初の試みを行う。 具体的には、まず3種類の敵対攻撃を3Dオブジェクト検出タスクに拡張し、KITTIとWaymoデータセットに対する攻撃に対する最先端の3Dオブジェクト検出器のロバスト性をベンチマークし、続いて検出器のロバスト性と特性の関係を解析する。 次に、クロスモデル、クロスタスク、およびデータ横断攻撃の転送可能性について検討する。 我々は最終的に3D検出器の防御に関する総合的な実験を行い、入力ポイントクラウドデータに課される変換戦略が攻撃者に露出した場合、フリップのような単純な変換はロバスト性を改善するのにはほとんど役立ちません。 本研究は,3次元物体検出器に対する攻撃の理解と防御のための調査を支援する。

Deep learning-based 3D object detectors have made significant progress in recent years and have been deployed in a wide range of applications. It is crucial to understand the robustness of detectors against adversarial attacks when employing detectors in security-critical applications. In this paper, we make the first attempt to conduct a thorough evaluation and analysis of the robustness of 3D detectors under adversarial attacks. Specifically, we first extend three kinds of adversarial attacks to the 3D object detection task to benchmark the robustness of state-of-the-art 3D object detectors against attacks on KITTI and Waymo datasets, subsequently followed by the analysis of the relationship between robustness and properties of detectors. Then, we explore the transferability of cross-model, cross-task, and cross-data attacks. We finally conduct comprehensive experiments of defense for 3D detectors, demonstrating that simple transformations like flipping are of little help in improving robustness when the strategy of transformation imposed on input point cloud data is exposed to attackers. Our findings will facilitate investigations in understanding and defending the adversarial attacks against 3D object detectors to advance this field.
翻訳日:2022-12-21 16:33:55 公開日:2022-12-20
# セルフペア:リモートセンシング画像における物体変化検出のための単一ソースからの変化の合成

Self-Pair: Synthesizing Changes from Single Source for Object Change Detection in Remote Sensing Imagery ( http://arxiv.org/abs/2212.10236v1 )

ライセンス: Link先を確認
Minseok Seo, Hakjin Lee, Yongjin Jeon, Junghoon Seo,(参考訳) リモートセンシングにおける変化検出では,両時間監視の必要性から,ディープラーニングモデルのためのトレーニングデータセットの構築が困難である。 この問題を克服するために,2つの意味的マスクの差異として変更ラベルを扱う単一時間監督が提案されている。 本手法は,2つの空間的無関係な画像と,それに対応する意味ラベルを用いた変化検出装置を訓練する。 しかし、ペアなしデータセットのトレーニングは、ラベルが変更されていないが視覚的に大きく異なるピクセルの場合、変更検出器を混乱させる可能性がある。 そこで本稿では,視覚の類似性を維持するために,ソース画像から発生した変化を強調すると共に,後画像としてソース画像を操作することが変化検出の性能に不可欠であることを示す。 広汎な実験により,先行画像と後画像の間で視覚情報を維持することの重要性が示され,本手法は単一時間監視に基づく既存手法よりも優れていた。 コードはhttps://github.com/seominseok0429/Self-Pair-for-Change-Detectionで公開されている。

For change detection in remote sensing, constructing a training dataset for deep learning models is difficult due to the requirements of bi-temporal supervision. To overcome this issue, single-temporal supervision which treats change labels as the difference of two semantic masks has been proposed. This novel method trains a change detector using two spatially unrelated images with corresponding semantic labels such as building. However, training on unpaired datasets could confuse the change detector in the case of pixels that are labeled unchanged but are visually significantly different. In order to maintain the visual similarity in unchanged area, in this paper, we emphasize that the change originates from the source image and show that manipulating the source image as an after-image is crucial to the performance of change detection. Extensive experiments demonstrate the importance of maintaining visual information between pre- and post-event images, and our method outperforms existing methods based on single-temporal supervision. code is available at https://github.com/seominseok0429/Self-Pair-for-Change-Detection.
翻訳日:2022-12-21 16:33:35 公開日:2022-12-20
# 微小CTによる血管分岐形状の定量化と可視化 : 種内および種間変動の正規化

Quantifying and Visualizing Vascular Branching Geometry with Micro-CT: Normalization of Intra- and Inter-Specimen Variations ( http://arxiv.org/abs/2212.10291v1 )

ライセンス: Link先を確認
Timothy L. Kline(参考訳) 造影剤ポリマーミクロフィルで血管を注入した無傷ラット腎の腎動脈のmicro-ct像を特徴とした。 自動アルゴリズムを用いて,枝間セグメント特性の測定と容器木の階層構造を計算した。 異なる腎臓の灌流領域、および分枝血管の局所径を代表構造にマッピングし、視覚的に探索した。 様々なパラメータを比較した結果,種間変異の幅が広くないことが判明した重要な幾何学的性質を概説した。 非対称分岐におけるフラクタルスケーリングは、対称分岐(例えば、肺では、各世代の平均気管支径が密接に関連している)とは異なることが示されている。 また、灌流組織は種間変異がほとんどないことが示されており、血管分岐形状に基づいた組織や臓器の様々な疾患状態を特徴付けるための将来の研究に使用できる。

Micro-CT images of the renal arteries of intact rat kidneys, which had their vasculature injected with the contrast agent polymer Microfil, were characterized. Measurement of inter-branch segment properties and the hierarchical structure of the vessel trees were computed by an automated algorithmic approach. The perfusion territories of the different kidneys, as well as the local diameters of the segmented vasculature were mapped onto the representative structures and visually explored. Various parameters were compared in order to outline key geometrical properties, properties which were shown to not have a wide range of inter-specimen variation. It is shown that the fractal scaling in non-symmetric branching reveals itself differently, than in symmetric branching (e.g., in the lung the mean bronchial diameters at each generation are closely related). Also, perfused tissue is shown to have very little inter-specimen variation and therefore could be used in future studies related to characterizing various disease states of tissues and organs based on vascular branching geometry.
翻訳日:2022-12-21 16:32:34 公開日:2022-12-20
# ラベル効率の良い核セグメンテーションフレームワーク「pixel to annotate」

Which Pixel to Annotate: a Label-Efficient Nuclei Segmentation Framework ( http://arxiv.org/abs/2212.10305v1 )

ライセンス: Link先を確認
Wei Lou, Haofeng Li, Guanbin Li, Xiaoguang Han, Xiang Wan(参考訳) 近年, 大量のアノテートサンプルを必要とする深層ニューラルネットワークが, H&E染色病理像の核インスタンス分割に広く応用されている。 しかし、通常同様の冗長なパターンを含む核画像のデータセットにすべてのピクセルをラベル付けるのは非効率で不要である。 核セグメンテーションのための教師なしおよび半教師付き学習法が研究されているが、アノテーションの作業量を減らすためにサンプルの選択的なラベル付けの研究はほとんど行われていない。 そこで,本稿では,アノテート対象のイメージパッチのみを選択し,選択したサンプルからのトレーニングセットを増強し,半教師ありで核セグメンテーションを実現する,新しい完全核セグメンテーションフレームワークを提案する。 提案フレームワークでは,まず,画像パッチがトレーニングに最も有用であるかを決定するために,一貫性に基づく新しいパッチ選択手法を提案する。 次に,成分判別器を用いた条件付き単一画像GANを導入し,より多くのトレーニングサンプルを合成する。 最後に,提案フレームワークは上記の拡張サンプルを用いて既存のセグメンテーションモデルを訓練する。 実験の結果, 提案手法は, 5%未満のアノテートにより, 完全教師付きベースラインと同レベルの性能を得ることができた。

Recently deep neural networks, which require a large amount of annotated samples, have been widely applied in nuclei instance segmentation of H\&E stained pathology images. However, it is inefficient and unnecessary to label all pixels for a dataset of nuclei images which usually contain similar and redundant patterns. Although unsupervised and semi-supervised learning methods have been studied for nuclei segmentation, very few works have delved into the selective labeling of samples to reduce the workload of annotation. Thus, in this paper, we propose a novel full nuclei segmentation framework that chooses only a few image patches to be annotated, augments the training set from the selected samples, and achieves nuclei segmentation in a semi-supervised manner. In the proposed framework, we first develop a novel consistency-based patch selection method to determine which image patches are the most beneficial to the training. Then we introduce a conditional single-image GAN with a component-wise discriminator, to synthesize more training samples. Lastly, our proposed framework trains an existing segmentation model with the above augmented samples. The experimental results show that our proposed method could obtain the same-level performance as a fully-supervised baseline by annotating less than 5% pixels on some benchmarks.
翻訳日:2022-12-21 16:32:19 公開日:2022-12-20
# 合成及び自然なコードブックを用いた画像品質予測:比較結果

Image quality prediction using synthetic and natural codebooks: comparative results ( http://arxiv.org/abs/2212.10319v1 )

ライセンス: Link先を確認
Maxim Koroteev, Kirill Aistov, Valeriy Berezovskiy, Pavel Frolov(参考訳) 本研究では,画像の基本的な特性を表わすコーデクタのセットを構築することにより,画像/映像品質評価のためのモデルについて検討する。 コードブック構築手法を解析し,その修正を提案する。 また,推定時間短縮の観点から,このアルゴリズムについて検討した。 コードブックの構築には自然画像と合成画像の両方が使用され、コードブックに使用される合成画像のいくつかの分析が提供される。 コードブック構築のための合成画像を用いた場合,品質評価の結果は改善される可能性がある。 また,CPU上でのリアルタイム実行が,平均世論スコア(MOS)と十分に高い相関関係を持つアルゴリズムの体系を実証する。 様々なプーリング戦略は、ビットレートに対するメトリック感度の問題と同様に考慮される。

We investigate a model for image/video quality assessment based on building a set of codevectors representing in a sense some basic properties of images, similar to well-known CORNIA model. We analyze the codebook building method and propose some modifications for it. Also the algorithm is investigated from the point of inference time reduction. Both natural and synthetic images are used for building codebooks and some analysis of synthetic images used for codebooks is provided. It is demonstrated the results on quality assessment may be improves with the use if synthetic images for codebook construction. We also demonstrate regimes of the algorithm in which real time execution on CPU is possible for sufficiently high correlations with mean opinion score (MOS). Various pooling strategies are considered as well as the problem of metric sensitivity to bitrate.
翻訳日:2022-12-21 16:31:57 公開日:2022-12-20
# 多領域意味セグメンテーションのための普遍視覚概念の弱い教師付き学習

Weakly supervised training of universal visual concepts for multi-domain semantic segmentation ( http://arxiv.org/abs/2212.10340v1 )

ライセンス: Link先を確認
Petra Bevandi\'c, Marin Or\v{s}i\'c, Ivan Grubi\v{s}i\'c, Josip \v{S}ari\'c, Sini\v{s}a \v{S}egvi\'c(参考訳) 深層監視モデルには、大量のトレーニングデータを吸収する前例のない能力がある。 したがって、複数のデータセットのトレーニングは、通常のシーンにおける強い一般化とエッジケースにおける優雅なパフォーマンス劣化への選択方法となる。 残念ながら、異なるデータセットは互換性のないラベルを持つことが多い。 例えば、Cityscapesロードクラスはすべての走行面を仮定し、Vistasは道路マーキングやマンホールなどの別々のクラスを定義している。 さらに、多くのデータセットには重複ラベルがある。 例えば、ピックアップはVIPERのトラック、Vistaの車、ADE20kのバンとしてラベル付けされる。 我々は、ラベルを普遍的な視覚概念の連合として考えることで、この問題に対処する。 これにより、relabelingの労力を必要とせずに、マルチドメインデータセットコレクション上でシームレスで原則的な学習が可能になる。 本手法は,データセット内およびデータセット間を競争的に一般化するとともに,トレーニングデータセットに別々にラベル付けされていない視覚概念を学習する能力を有する。 実験では、2つのマルチドメインデータセットコレクションとWildDash 2ベンチマークで、競合や最先端のパフォーマンスが明らかになった。

Deep supervised models have an unprecedented capacity to absorb large quantities of training data. Hence, training on multiple datasets becomes a method of choice towards strong generalization in usual scenes and graceful performance degradation in edge cases. Unfortunately, different datasets often have incompatible labels. For instance, the Cityscapes road class subsumes all driving surfaces, while Vistas defines separate classes for road markings, manholes etc. Furthermore, many datasets have overlapping labels. For instance, pickups are labeled as trucks in VIPER, cars in Vistas, and vans in ADE20k. We address this challenge by considering labels as unions of universal visual concepts. This allows seamless and principled learning on multi-domain dataset collections without requiring any relabeling effort. Our method achieves competitive within-dataset and cross-dataset generalization, as well as ability to learn visual concepts which are not separately labeled in any of the training datasets. Experiments reveal competitive or state-of-the-art performance on two multi-domain dataset collections and on the WildDash 2 benchmark.
翻訳日:2022-12-21 16:31:45 公開日:2022-12-20
# MM-3DScene: Informative-Preserved Reconstruction and Self-Distilled Consistencyを用いたマスケッドモデリングのカスタマイズによる3次元シーン理解

MM-3DScene: 3D Scene Understanding by Customizing Masked Modeling with Informative-Preserved Reconstruction and Self-Distilled Consistency ( http://arxiv.org/abs/2212.09948v1 )

ライセンス: Link先を確認
Mingye Xu, Mutian Xu, Tong He, Wanli Ouyang, Yali Wang, Xiaoguang Han, Yu Qiao(参考訳) Masked Modeling (MM)は、マスク付き視覚パッチを再構築することで、様々な視覚的課題において広く成功している。 しかし、大規模な3DシーンにMMを適用することは、データの空間性とシーンの複雑さのため、未解決の問題である。 2d画像で使用される従来のランダムマスキングパラダイムは、3dシーンのマスキング領域を回復する際、曖昧さのリスクが高い。 そこで本研究では,3次元シーン理解のためのプリテキストマスキングタスクを効果的に強化し,局所統計を探索し,代表的構造化点の発見と保存を行う新しい情報保存型再構築を提案する。 本手法は, プログレッシブな再構築手法と統合され, 地域形状のモデリングに集中し, マスク付き復元のあいまいさを軽減できる。 また、プログレッシブ・マスキング比を持つシーンは、その内在的な空間的一貫性を自己蒸留し、未マスク領域から一貫した表現を学ばなければならない。 マスク領域における情報保存型再構成と非マスク領域からの自己蒸留をエレガントに組み合わせることにより、mm-3dsceneと呼ばれる統一的な枠組みが得られる。 下流タスクのホストに対して包括的な実験を行う。 一貫性のある改善(オブジェクト検出では+6.1 mAP@0.5、セマンティックセグメンテーションでは+2.2% mIoU)は、我々のアプローチの優位性を示している。

Masked Modeling (MM) has demonstrated widespread success in various vision challenges, by reconstructing masked visual patches. Yet, applying MM for large-scale 3D scenes remains an open problem due to the data sparsity and scene complexity. The conventional random masking paradigm used in 2D images often causes a high risk of ambiguity when recovering the masked region of 3D scenes. To this end, we propose a novel informative-preserved reconstruction, which explores local statistics to discover and preserve the representative structured points, effectively enhancing the pretext masking task for 3D scene understanding. Integrated with a progressive reconstruction manner, our method can concentrate on modeling regional geometry and enjoy less ambiguity for masked reconstruction. Besides, such scenes with progressive masking ratios can also serve to self-distill their intrinsic spatial consistency, requiring to learn the consistent representations from unmasked areas. By elegantly combining informative-preserved reconstruction on masked areas and consistency self-distillation from unmasked areas, a unified framework called MM-3DScene is yielded. We conduct comprehensive experiments on a host of downstream tasks. The consistent improvement (e.g., +6.1 mAP@0.5 on object detection and +2.2% mIoU on semantic segmentation) demonstrates the superiority of our approach.
翻訳日:2022-12-21 16:26:41 公開日:2022-12-20
# 相関型不確かさによるドメインの一般化

Domain Generalization with Correlated Style Uncertainty ( http://arxiv.org/abs/2212.09950v1 )

ライセンス: Link先を確認
Zheyuan Zhang, Bin Wang, Debesh Jha, Ugur Demir, Ulas Bagci(参考訳) コンピュータビジョンでは印象的な成功が見られたが、テスト対象のドメインとトレーニング対象のソースドメインが同じディストリビューションを共有していない場合、ディープラーニングは依然としてドメインシフトの課題に苦しめられている。 これに対処するため、ドメイン一般化のアプローチは、より堅牢なモデルにつながるドメイン不変な特徴を抽出することを目的としている。 したがって、ソースドメインの多様性の増大はドメインの一般化の重要な要素です。 スタイル拡張は、合成新規ドメインにインフォメーションスタイル特性を含むインスタンス固有の特徴統計を利用する。 しかし、以前の作品は全て異なる特徴チャネル間の相関を無視したり、線形補間によるスタイル拡張だけを制限したりした。 本研究は,本質的な相関情報を保持しつつ,スタイル統計空間の線形補間を超越した,新しい拡張手法である「textit{Correlated Style Uncertainity (CSU)」を提案する。 我々は,PACS,Office-Home,Camelyon17データセット,Duke-Market1501インスタンス検索タスクなど,多分野横断分類タスクの広範な実験により,本手法の有効性を検証し,最先端の手法よりも大幅に改善した。 ソースコードは一般公開されている。

Though impressive success has been witnessed in computer vision, deep learning still suffers from the domain shift challenge when the target domain for testing and the source domain for training do not share an identical distribution. To address this, domain generalization approaches intend to extract domain invariant features that can lead to a more robust model. Hence, increasing the source domain diversity is a key component of domain generalization. Style augmentation takes advantage of instance-specific feature statistics containing informative style characteristics to synthetic novel domains. However, all previous works ignored the correlation between different feature channels or only limited the style augmentation through linear interpolation. In this work, we propose a novel augmentation method, called \textit{Correlated Style Uncertainty (CSU)}, to go beyond the linear interpolation of style statistic space while preserving the essential correlation information. We validate our method's effectiveness by extensive experiments on multiple cross-domain classification tasks, including widely used PACS, Office-Home, Camelyon17 datasets and the Duke-Market1501 instance retrieval task and obtained significant margin improvements over the state-of-the-art methods. The source code is available for public use.
翻訳日:2022-12-21 16:26:14 公開日:2022-12-20
# 生成逆ネットワークを用いた解析と合成によるテクスチャ表現

Texture Representation via Analysis and Synthesis with Generative Adversarial Networks ( http://arxiv.org/abs/2212.09983v1 )

ライセンス: Link先を確認
Jue Lin, Gaurav Sharma, Thrasyvoulos N. Pappas(参考訳) 本稿では,データ駆動型テクスチャモデリングを,生成逆ネットワークを用いた解析と合成により検討する。 ネットワークトレーニングやテストでは,確率から規則に至るまで,空間的に均質なテクスチャを多種にまとめた。 stylegan3を合成に採用し,トレーニングデータに表される以上の多様なテクスチャを生成できることを実証した。 テクスチャ解析のために,合成テクスチャに対する新しい潜在ドメイン再構成整合性基準を用いたGANインバージョンと,実際のテクスチャに対するグラミアンロスによる反復的洗練を提案する。 本稿では,ネットワーク能力の評価,潜在空間軌跡のグローバルおよび局所的挙動の探索,および既存のテクスチャ解析合成技術との比較を行う。

We investigate data-driven texture modeling via analysis and synthesis with generative adversarial networks. For network training and testing, we have compiled a diverse set of spatially homogeneous textures, ranging from stochastic to regular. We adopt StyleGAN3 for synthesis and demonstrate that it produces diverse textures beyond those represented in the training data. For texture analysis, we propose GAN inversion using a novel latent domain reconstruction consistency criterion for synthesized textures, and iterative refinement with Gramian loss for real textures. We propose perceptual procedures for evaluating network capabilities, exploring the global and local behavior of latent space trajectories, and comparing with existing texture analysis-synthesis techniques.
翻訳日:2022-12-21 16:25:53 公開日:2022-12-20
# obmo: 1つのバウンディングボックスによるモノクロ3dオブジェクト検出

OBMO: One Bounding Box Multiple Objects for Monocular 3D Object Detection ( http://arxiv.org/abs/2212.10049v1 )

ライセンス: Link先を確認
Chenxi Huang, Tong He, Haidong Ren, Wenxiao Wang, Binbin Lin, Deng Cai(参考訳) 一般的なマルチセンサーシステムと比較すると、単純な構成のため、単眼の3D物体検出が注目されている。 しかし、LiDAR法と単分子法の間にはまだ大きなギャップがある。 本稿では,単眼画像の異常な性質が奥行きの曖昧さにつながることを明らかにする。 具体的には、異なる深さの物体は、同じ境界ボックスと2D画像に類似した視覚的特徴で現れる。 残念ながら、ネットワークはそのような非識別的な視覚的特徴と正確に区別することができず、不安定な深度トレーニングをもたらす。 深度学習を容易にするために, シンプルで効果的なプラグイン・アンド・プレイモジュールであるOne Bounding Box Multiple Objects (OBMO)を提案する。 具体的には、3D境界ボックスをファスタムに沿ってシフトすることで、適切な擬似ラベルのセットを追加する。 疑似3dラベルを合理的に制限するために、品質を表すために2つのラベルスコア戦略を慎重に設計する。 もともとのハードディープラベルとは対照的に、品質スコアを持つソフトな擬似ラベルは、ネットワークが適切なディープ範囲を学習し、トレーニングの安定性を高め、最終的なパフォーマンスを向上させることができる。 KITTI と Waymo ベンチマークの大規模な実験により,我々の手法は最先端のモノクル3D検出器を顕著なマージンで大幅に改善した(KITTI 検証セットの適度な設定による改善は BEV の mAP と 3D の mAP と $\mathbf{1.18\sim 9.36\%} である)。 コードはhttps://github.com/mrsempress/OBMO.comでリリースされた。

Compared to typical multi-sensor systems, monocular 3D object detection has attracted much attention due to its simple configuration. However, there is still a significant gap between LiDAR-based and monocular-based methods. In this paper, we find that the ill-posed nature of monocular imagery can lead to depth ambiguity. Specifically, objects with different depths can appear with the same bounding boxes and similar visual features in the 2D image. Unfortunately, the network cannot accurately distinguish different depths from such non-discriminative visual features, resulting in unstable depth training. To facilitate depth learning, we propose a simple yet effective plug-and-play module, One Bounding Box Multiple Objects (OBMO). Concretely, we add a set of suitable pseudo labels by shifting the 3D bounding box along the viewing frustum. To constrain the pseudo-3D labels to be reasonable, we carefully design two label scoring strategies to represent their quality. In contrast to the original hard depth labels, such soft pseudo labels with quality scores allow the network to learn a reasonable depth range, boosting training stability and thus improving final performance. Extensive experiments on KITTI and Waymo benchmarks show that our method significantly improves state-of-the-art monocular 3D detectors by a significant margin (The improvements under the moderate setting on KITTI validation set are $\mathbf{1.82\sim 10.91\%}$ mAP in BEV and $\mathbf{1.18\sim 9.36\%}$ mAP in 3D}. Codes have been released at https://github.com/mrsempress/OBMO.
翻訳日:2022-12-21 16:25:41 公開日:2022-12-20
# 画像セグメンテーションに基づく教師なし複数物体発見

Image Segmentation-based Unsupervised Multiple Objects Discovery ( http://arxiv.org/abs/2212.10124v1 )

ライセンス: Link先を確認
Sandra Kara, Hejer Ammar, Florian Chabot, Quoc-Cuong Pham(参考訳) 教師なしオブジェクト発見(unsupervised object discovery)は、画像内のオブジェクトをローカライズすることを目的としている。 この問題に対処するため,複数物体発見のための完全教師なしボトムアップ手法を提案する。 提案されたアプローチは2段階のフレームワークである。 まず、自己監督的局所特徴間の画像内類似性を用いて、対象部品のインスタンスをセグメント化する。 2番目のステップは、オブジェクト部品をマージしてフィルタし、完全なオブジェクトインスタンスを形成する。 後者は、データセット全体からオブジェクトの意味情報をキャプチャする2つのcnnモデルによって実行される。 提案手法によって生成された擬似ラベルは,既存の単一および複数オブジェクト発見手法よりも精度の高いトレードオフを提供する。 特に,教師なしのクラス非依存オブジェクト検出と教師なし画像セグメンテーションの両方に対して最先端の結果を提供する。

Unsupervised object discovery aims to localize objects in images, while removing the dependence on annotations required by most deep learning-based methods. To address this problem, we propose a fully unsupervised, bottom-up approach, for multiple objects discovery. The proposed approach is a two-stage framework. First, instances of object parts are segmented by using the intra-image similarity between self-supervised local features. The second step merges and filters the object parts to form complete object instances. The latter is performed by two CNN models that capture semantic information on objects from the entire dataset. We demonstrate that the pseudo-labels generated by our method provide a better precision-recall trade-off than existing single and multiple objects discovery methods. In particular, we provide state-of-the-art results for both unsupervised class-agnostic object detection and unsupervised image segmentation.
翻訳日:2022-12-21 16:24:57 公開日:2022-12-20
# 画像と映像のブリッジ:大語彙ビデオオブジェクト検出のための簡単な学習フレームワーク

Bridging Images and Videos: A Simple Learning Framework for Large Vocabulary Video Object Detection ( http://arxiv.org/abs/2212.10147v1 )

ライセンス: Link先を確認
Sanghyun Woo, Kwanyong Park, Seoung Wug Oh, In So Kweon, Joon-Young Lee(参考訳) オブジェクト分類のスケーリングは、認識システムの堅牢な実世界展開に向けた重要なステップの1つです。 LVISベンチマークの導入以降,画像の著しい進歩に直面している。 この成功をビデオで続けるために、新しいビデオベンチマークであるTAOが最近発表された。 検出と追跡のコミュニティからの最近の奨励的な結果を考えると、私たちはこの2つの進歩を結婚させ、強力な大語彙ビデオトラッカを構築することに興味があります。 しかし、lvisとtaoの監督は本質的に不足もしくは欠如しており、大きな語彙追跡者の訓練に2つの新たな課題をもたらしている。 第一に、LVISにはトラッキング監視が存在しないため、検出(LVISとTAOのみ)と追跡(TAOのみ)の一貫性のない学習につながる。 第2に,taoの検出監督は部分的であり,ビデオの微調整中にlvisカテゴリの欠落を壊滅的に忘れてしまう。 これらの課題を解決するために,我々はlvisカテゴリを失うことなく,利用可能なトレーニングデータをすべて活用して検出と追跡を学習する,シンプルかつ効果的な学習フレームワークを提案する。 この新たな学習手法により,様々な大語彙トラッカーの整合性向上が達成され,TAOベンチマークに強力なベースライン結果が得られた。

Scaling object taxonomies is one of the important steps toward a robust real-world deployment of recognition systems. We have faced remarkable progress in images since the introduction of the LVIS benchmark. To continue this success in videos, a new video benchmark, TAO, was recently presented. Given the recent encouraging results from both detection and tracking communities, we are interested in marrying those two advances and building a strong large vocabulary video tracker. However, supervisions in LVIS and TAO are inherently sparse or even missing, posing two new challenges for training the large vocabulary trackers. First, no tracking supervisions are in LVIS, which leads to inconsistent learning of detection (with LVIS and TAO) and tracking (only with TAO). Second, the detection supervisions in TAO are partial, which results in catastrophic forgetting of absent LVIS categories during video fine-tuning. To resolve these challenges, we present a simple but effective learning framework that takes full advantage of all available training data to learn detection and tracking while not losing any LVIS categories to recognize. With this new learning scheme, we show that consistent improvements of various large vocabulary trackers are capable, setting strong baseline results on the challenging TAO benchmarks.
翻訳日:2022-12-21 16:24:35 公開日:2022-12-20
# クリップの関連付けによる追跡

Tracking by Associating Clips ( http://arxiv.org/abs/2212.10149v1 )

ライセンス: Link先を確認
Sanghyun Woo, Kwanyong Park, Seoung Wug Oh, In So Kweon, Joon-Young Lee(参考訳) 現在、トラッキング・バイ・検出パラダイムは、多目的追跡の主要な手法となり、各フレーム内のオブジェクトを検出し、フレーム間でデータアソシエーションを行う。 しかし、そのシーケンシャルなフレームワイドマッチング特性は、基本的には、オブジェクトの閉塞、高速カメラの動き、突然の光の変化といった、ビデオの中間的な中断に悩まされる。 さらに、通常、マッチングのために2つのフレームを超える時間的情報を見落とします。 本稿では,クリップワイズマッチングとしてオブジェクトアソシエーションを扱い,代替案について検討する。 我々の新しい視点では、1つの長いビデオシーケンスを複数のショートクリップとみなし、そのトラックはクリップ内とクリップ間の両方で実行される。 この新しいアプローチの利点は2つあります。 まず,ビデオチャンキングでは割り込みフレームをバイパスでき,ショートクリップトラッキングでは従来の長期トラックメモリ管理を回避できるため,誤りの蓄積や伝播の追跡にロバストな手法である。 次に、クリップワイズマッチング中に複数のフレーム情報を集約し、現在のフレームワイズマッチングよりも精度の高い長距離トラック関連付けを行う。 最先端のトラッキング・バイ・ディテクト・トラッカーであるQDTrackを考えると,新しいトラッキング・フォーミュレーションによってトラッキング性能が向上することを示す。 本提案は,相互に相補的な特徴と課題を有する2つの追跡ベンチマークであるTAOとMOT17について評価する。

The tracking-by-detection paradigm today has become the dominant method for multi-object tracking and works by detecting objects in each frame and then performing data association across frames. However, its sequential frame-wise matching property fundamentally suffers from the intermediate interruptions in a video, such as object occlusions, fast camera movements, and abrupt light changes. Moreover, it typically overlooks temporal information beyond the two frames for matching. In this paper, we investigate an alternative by treating object association as clip-wise matching. Our new perspective views a single long video sequence as multiple short clips, and then the tracking is performed both within and between the clips. The benefits of this new approach are two folds. First, our method is robust to tracking error accumulation or propagation, as the video chunking allows bypassing the interrupted frames, and the short clip tracking avoids the conventional error-prone long-term track memory management. Second, the multiple frame information is aggregated during the clip-wise matching, resulting in a more accurate long-range track association than the current frame-wise matching. Given the state-of-the-art tracking-by-detection tracker, QDTrack, we showcase how the tracking performance improves with our new tracking formulation. We evaluate our proposals on two tracking benchmarks, TAO and MOT17 that have complementary characteristics and challenges each other.
翻訳日:2022-12-21 16:24:12 公開日:2022-12-20
# Hoyer regularizerは、超低遅延スパイクニューラルネットワークに必要なもの

Hoyer regularizer is all you need for ultra low-latency spiking neural networks ( http://arxiv.org/abs/2212.10170v1 )

ライセンス: Link先を確認
Gourav Datta, Zeyu Liu, Peter A. Beerel(参考訳) spiking neural networks (snn)は、幅広い低消費電力ビジョンタスクのための魅力的な時空間コンピューティングパラダイムとして登場した。 しかし、最先端(SOTA)SNNモデルは、リアルタイムユースケースでのデプロイメントを妨げる複数のタイムステップを発生させるか、トレーニングの複雑さを著しく増加させるかのいずれかである。 この懸念を軽減するために,最近提案されたhoyer正規化器の新しい変種を用いたワンタイムステップsnsのトレーニングフレームワーク(scratchから)を提案する。 各sn層の閾値を、我々のホイヤー正規化器による勾配降下を用いて、クリップング閾値を訓練したアクティベーションマップのクリップ版におけるホイヤー極端と推定する。 このアプローチは、訓練可能なしきい値の値をダウンスケールするだけでなく、(1つの時間ステップのみによる)限られたイテレーション数で、ウェイト更新のための大量のスパイクを発生させるとともに、膜電位値をしきい値から遠ざけ、snn精度を低下させるノイズの影響を緩和する。 我々のアプローチは、複雑な画像認識タスクの精度・フロップストレードオフの観点から、既存のスパイク、バイナリ、加算ニューラルネットワークよりも優れています。 下流での物体検出実験も本手法の有効性を実証した。

Spiking Neural networks (SNN) have emerged as an attractive spatio-temporal computing paradigm for a wide range of low-power vision tasks. However, state-of-the-art (SOTA) SNN models either incur multiple time steps which hinder their deployment in real-time use cases or increase the training complexity significantly. To mitigate this concern, we present a training framework (from scratch) for one-time-step SNNs that uses a novel variant of the recently proposed Hoyer regularizer. We estimate the threshold of each SNN layer as the Hoyer extremum of a clipped version of its activation map, where the clipping threshold is trained using gradient descent with our Hoyer regularizer. This approach not only downscales the value of the trainable threshold, thereby emitting a large number of spikes for weight update with a limited number of iterations (due to only one time step) but also shifts the membrane potential values away from the threshold, thereby mitigating the effect of noise that can degrade the SNN accuracy. Our approach outperforms existing spiking, binary, and adder neural networks in terms of the accuracy-FLOPs trade-off for complex image recognition tasks. Downstream experiments on object detection also demonstrate the efficacy of our approach.
翻訳日:2022-12-21 16:23:50 公開日:2022-12-20
# 光フローニューラルネットワークのためのcgcv:context guided correlation volume

CGCV:Context Guided Correlation Volume for Optical Flow Neural Networks ( http://arxiv.org/abs/2212.10174v1 )

ライセンス: Link先を確認
Jiangpeng Li, Yan Niu(参考訳) 一対の動画フレームからの見かけの動きを計算する光学フローは、シーンの動きを推定するための重要なツールである。 相関体積は光流計算ニューラルモデルの中心的な構成要素である。 フレーム間の特徴間のペアワイズマッチングコストを推定し、光学フローを復号するために使用される。 しかし、従来の相関ボリュームはノイズが多く、外れやすく、動きのぼやけに敏感である。 近年のRAFTアルゴリズムは従来の相関ボリュームも採用しているが,その追加コンテキストエンコーダはフローデコーダに意味的に代表的な特徴を提供し,相関ボリュームの欠如を暗黙的に補償する。 しかし、このコンテキストエンコーダの利点はほとんど議論されていない。 本稿では、まずRAFTのコンテキストエンコーダの機能について検討し、ゲーティングとリフト方式による新しいコンテキストガイド付き相関ボリューム(CGCV)を提案する。 CGCVはRAFTベースのフロー計算手法と普遍的に統合することができ、特に動きのぼやけ、焦点のぼやけ、大気効果の存在に有効である。 提案されたCGCVをGMA(Global Motion Aggregation)メソッドに組み込むことにより、GMAのランクは、KITTI 2015のリーダーシップ委員会で23か所、Sintelのリーダーシップ委員会で3か所引き上げられる。 また,類似したモデルサイズでは,グラフ推論やトランスフォーマーを用いたart peer教師モデルと比較して,相関ボリュームの競争力や性能が向上することを示す。

Optical flow, which computes the apparent motion from a pair of video frames, is a critical tool for scene motion estimation. Correlation volume is the central component of optical flow computational neural models. It estimates the pairwise matching costs between cross-frame features, and is then used to decode optical flow. However, traditional correlation volume is frequently noisy, outlier-prone, and sensitive to motion blur. We observe that, although the recent RAFT algorithm also adopts the traditional correlation volume, its additional context encoder provides semantically representative features to the flow decoder, implicitly compensating for the deficiency of the correlation volume. However, the benefits of this context encoder has been barely discussed or exploited. In this paper, we first investigate the functionality of RAFT's context encoder, then propose a new Context Guided Correlation Volume (CGCV) via gating and lifting schemes. CGCV can be universally integrated with RAFT-based flow computation methods for enhanced performance, especially effective in the presence of motion blur, de-focus blur and atmospheric effects. By incorporating the proposed CGCV with previous Global Motion Aggregation (GMA) method, at a minor cost of 0.5% extra parameters, the rank of GMA is lifted by 23 places on KITTI 2015 Leader Board, and 3 places on Sintel Leader Board. Moreover, at a similar model size, our correlation volume achieves competitive or superior performance to state of the art peer supervised models that employ Transformers or Graph Reasoning, as verified by extensive experiments.
翻訳日:2022-12-21 16:23:29 公開日:2022-12-20
# addernet量子化のための重みとアクティベーションの再分配

Redistribution of Weights and Activations for AdderNet Quantization ( http://arxiv.org/abs/2212.10200v1 )

ライセンス: Link先を確認
Ying Nie, Kai Han, Haikang Diao, Chuanjian Liu, Enhua Wu, Yunhe Wang(参考訳) Adder Neural Network (AdderNet)は、畳み込みの高価な乗算をより安価な加算(すなわちl1-norm)に置き換えることで、エネルギー効率の良いニューラルネットワークを開発する新しい方法を提供する。 ハードウェア効率を向上させるためには、AdderNetの低ビット量子化をさらに研究する必要がある。 乗法における可換法則が l1-ノルムで成り立たないという制限のため、畳み込みネットワーク上の確立された量子化法はAdderNetsでは適用できない。 したがって、既存のAdderNet量子化手法では、1つの共有スケールのみを使用して重みとアクティベーションを同時に定量化することを提案する。 必然的に、そのようなアプローチは可換法則をl1-ノルム量子化過程に保持することができるが、低ビット量子化後の精度低下は無視できない。 そこで我々はまず,AdderNetにおける重みとアクティベーションの分布の違いを徹底的に分析し,重みとアクティベーションを再分配した新しい量子化アルゴリズムを提案する。 具体的には、異なるカーネル内の事前訓練された全精度重みを異なるグループに分類し、グループ内共有とグループ間独立スケールを適用できる。 さらに,分布差による精度低下を補うために,重みに対するロスレスレンジクランプスキームと,アクティベーションに対する簡易かつ効果的なアウトリアーズクランプ戦略を開発した。 これにより、全精度重みの機能性と全精度アクティベーションの表現能力を完全に保存することができる。 例えば、我々の4ビット後トレーニング後量子化加算器resnet-18は、同じエネルギー効率のイメージネット上で66.5%のtop-1精度を達成しており、これは以前のaddernet量子化法より約8.5%高い。

Adder Neural Network (AdderNet) provides a new way for developing energy-efficient neural networks by replacing the expensive multiplications in convolution with cheaper additions (i.e.l1-norm). To achieve higher hardware efficiency, it is necessary to further study the low-bit quantization of AdderNet. Due to the limitation that the commutative law in multiplication does not hold in l1-norm, the well-established quantization methods on convolutional networks cannot be applied on AdderNets. Thus, the existing AdderNet quantization techniques propose to use only one shared scale to quantize both the weights and activations simultaneously. Admittedly, such an approach can keep the commutative law in the l1-norm quantization process, while the accuracy drop after low-bit quantization cannot be ignored. To this end, we first thoroughly analyze the difference on distributions of weights and activations in AdderNet and then propose a new quantization algorithm by redistributing the weights and the activations. Specifically, the pre-trained full-precision weights in different kernels are clustered into different groups, then the intra-group sharing and inter-group independent scales can be adopted. To further compensate the accuracy drop caused by the distribution difference, we then develop a lossless range clamp scheme for weights and a simple yet effective outliers clamp strategy for activations. Thus, the functionality of full-precision weights and the representation ability of full-precision activations can be fully preserved. The effectiveness of the proposed quantization method for AdderNet is well verified on several benchmarks, e.g., our 4-bit post-training quantized adder ResNet-18 achieves an 66.5% top-1 accuracy on the ImageNet with comparable energy efficiency, which is about 8.5% higher than that of the previous AdderNet quantization methods.
翻訳日:2022-12-21 16:22:59 公開日:2022-12-20
# 森林モニタリングにおけるAIアプリケーションはリモートセンシングベンチマークデータセットを必要とする

AI applications in forest monitoring need remote sensing benchmark datasets ( http://arxiv.org/abs/2212.09937v1 )

ライセンス: Link先を確認
Emily R. Lines, Matt Allen, Carlos Cabo, Kim Calders, Amandine Debus, Stuart W. D. Grieve, Milto Miltiadou, Adam Noach, Harry J. F. Owen and Stefano Puliti(参考訳) 高解像度リモートセンシング技術の普及に伴い、森林モニタリングに利用可能なデータ量が爆発的に増加し、これらのデータセットから興味のある森林特性を自動的に導き出す人工知能アプリケーションの成長が伴っている。 多くの研究は、小さな時空間スケールで独自のデータを使用し、特定のタスクに既存のまたは適応したデータサイエンス手法の適用を実証している。 このアプローチでは、データ収集と処理に時間を要することが多いが、特定のエコシステムやセンサタイプに制限された結果を生成する。 使用するデータの種類と構造が、分析アルゴリズムのパフォーマンスと精度に与える影響について、広く認識されていない。 より効率的にフィールドの進捗を加速するため、テスト可能なメソッドと比較可能なデータセットのベンチマークが必要となる。 ここでは,標準化の欠如が重要な森林特性の推定の信頼性にどのように影響するか,また,手法の性能評価においてデータ収集の考慮を考慮する必要があるかについて議論する。 森林モニタリングアプリケーションのための厳密で有用なベンチマークデータセットを作成するための実用的要件と考察を提示し、現代のデータサイエンスのツールが既存のデータの利用を改善する方法について論じる。 ベンチマークに貢献できる大規模なデータセットの例をリストアップし、コミュニティ主導の代表的なベンチマークイニシアチブがこの分野にどのような恩恵をもたらすかを示す。

With the rise in high resolution remote sensing technologies there has been an explosion in the amount of data available for forest monitoring, and an accompanying growth in artificial intelligence applications to automatically derive forest properties of interest from these datasets. Many studies use their own data at small spatio-temporal scales, and demonstrate an application of an existing or adapted data science method for a particular task. This approach often involves intensive and time-consuming data collection and processing, but generates results restricted to specific ecosystems and sensor types. There is a lack of widespread acknowledgement of how the types and structures of data used affects performance and accuracy of analysis algorithms. To accelerate progress in the field more efficiently, benchmarking datasets upon which methods can be tested and compared are sorely needed. Here, we discuss how lack of standardisation impacts confidence in estimation of key forest properties, and how considerations of data collection need to be accounted for in assessing method performance. We present pragmatic requirements and considerations for the creation of rigorous, useful benchmarking datasets for forest monitoring applications, and discuss how tools from modern data science can improve use of existing data. We list a set of example large-scale datasets that could contribute to benchmarking, and present a vision for how community-driven, representative benchmarking initiatives could benefit the field.
翻訳日:2022-12-21 16:16:46 公開日:2022-12-20
# 感情分析のためのテキスト優位階層高次融合によるマルチマルチビューマルチモーダルインタラクション

InterMulti:Multi-view Multimodal Interactions with Text-dominated Hierarchical High-order Fusion for Emotion Analysis ( http://arxiv.org/abs/2212.10030v1 )

ライセンス: Link先を確認
Feng Qiu, Wanzeng Kong, Yu Ding(参考訳) 人間は、音声の内容、声調、表情といったマルチモーダル信号から対話者の感情を読み取るのが得意である。 しかし、機械はマルチモーダル信号間の複雑な相互作用から感情を効果的に復号することの難しさから、様々な感情を理解するのに苦労する可能性がある。 本稿では,異なる視点から複雑なマルチモーダルインタラクションを捉え,マルチモーダル信号から感情を識別するマルチモーダル感情分析フレームワークintermultiを提案する。 提案フレームワークは,様々なモーダルの信号を,モーダル-フル相互作用表現,モーダル-共有相互作用表現,モーダル-固有相互作用表現の3種類に分解する。 さらに,異なるモダリティの寄与のバランスを保ち,より情報に富む潜在相互作用表現を学習するために,テキストに支配される階層的高次融合(THHF)モジュールを開発した。 THHFモジュールは上記の3種類の表現を包括的マルチモーダル相互作用表現に合理的に統合する。 広く使われているMOSEI,MOSI,IEMOCAPなどのデータセットに対する大規模な実験結果から,本手法が最先端の手法よりも優れていることが示された。

Humans are sophisticated at reading interlocutors' emotions from multimodal signals, such as speech contents, voice tones and facial expressions. However, machines might struggle to understand various emotions due to the difficulty of effectively decoding emotions from the complex interactions between multimodal signals. In this paper, we propose a multimodal emotion analysis framework, InterMulti, to capture complex multimodal interactions from different views and identify emotions from multimodal signals. Our proposed framework decomposes signals of different modalities into three kinds of multimodal interaction representations, including a modality-full interaction representation, a modality-shared interaction representation, and three modality-specific interaction representations. Additionally, to balance the contribution of different modalities and learn a more informative latent interaction representation, we developed a novel Text-dominated Hierarchical High-order Fusion(THHF) module. THHF module reasonably integrates the above three kinds of representations into a comprehensive multimodal interaction representation. Extensive experimental results on widely used datasets, (i.e.) MOSEI, MOSI and IEMOCAP, demonstrate that our method outperforms the state-of-the-art.
翻訳日:2022-12-21 16:16:23 公開日:2022-12-20
# MDLに基づく圧縮シーケンスルール

MDL-based Compressing Sequential Rules ( http://arxiv.org/abs/2212.10252v1 )

ライセンス: Link先を確認
Xinhong Chen, Wensheng Gan, Shicheng Wan, and Tianlong Gu(参考訳) 今日、インターネットの急速な発展とともに、ビッグデータの時代がやって来た。 インターネットは毎日大量のデータを生成しています。 しかし、大量のデータから意味のある情報を抽出することは、干し草の山で針を探すようなものだ。 データマイニング技術は、この問題を解決するための様々な実現可能な方法を提供することができる。 現在,シーケンシャルなルールマイニング(srm)アルゴリズムが多数提案されており,シーケンシャルな特性を持つデータベース内のシーケンシャルルールを見つけることができる。 これらのルールは、大量のデータから多くの意味のある情報を抽出するのに役立つ。 マイニングされた結果の圧縮とデータサイズの削減により、ストレージスペースと送信時間を節約できるのか? これまでSRMの圧縮についてはほとんど研究されていない。 本稿では,MDL(Minimum Description Length)の原則と2つの指標(サポートと信頼性)を組み合わせて,SRMの圧縮問題を導入し,設計した逐次ルール符号化方式に基づくMDLに基づく逐次ルールの圧縮のためのComSRというソリューションを提案する。 私たちの知る限りでは、シーケンシャルなルールを使ってデータベース全体をエンコードするのは初めてです。 できるだけコンパクトで有意義な順序規則の集合を見つけるために、ヒューリスティックな方法が提案されている。 ComSRには2つのトレードオフアルゴリズム、ComSR_nonとComSR_fulがある。 しきい値の異なる実際のデータセットで行った実験は、コンパクトで意味のある一連の逐次ルールが見つかることを示している。 提案手法が有効であることを示す。

Nowadays, with the rapid development of the Internet, the era of big data has come. The Internet generates huge amounts of data every day. However, extracting meaningful information from massive data is like looking for a needle in a haystack. Data mining techniques can provide various feasible methods to solve this problem. At present, many sequential rule mining (SRM) algorithms are presented to find sequential rules in databases with sequential characteristics. These rules help people extract a lot of meaningful information from massive amounts of data. How can we achieve compression of mined results and reduce data size to save storage space and transmission time? Until now, there has been little research on the compression of SRM. In this paper, combined with the Minimum Description Length (MDL) principle and under the two metrics (support and confidence), we introduce the problem of compression of SRM and also propose a solution named ComSR for MDL-based compressing of sequential rules based on the designed sequential rule coding scheme. To our knowledge, we are the first to use sequential rules to encode an entire database. A heuristic method is proposed to find a set of compact and meaningful sequential rules as much as possible. ComSR has two trade-off algorithms, ComSR_non and ComSR_ful, based on whether the database can be completely compressed. Experiments done on a real dataset with different thresholds show that a set of compact and meaningful sequential rules can be found. This shows that the proposed method works.
翻訳日:2022-12-21 16:16:00 公開日:2022-12-20
# 言語モデルのパーソナリティ特性の同定と操作

Identifying and Manipulating the Personality Traits of Language Models ( http://arxiv.org/abs/2212.10276v1 )

ライセンス: Link先を確認
Graham Caron and Shashank Srivastava(参考訳) 心理学の研究は、外向性、同意性、感情的な安定といった人間の個性の側面を長い間研究してきた。 ビッグファイブ」の性格特性のような分類は、パーソナリティタイプの評価と診断に一般的に用いられる。 本研究では,言語モデルにおける知覚的パーソナリティが,言語生成において一貫して表れているかどうかを考察する。 例えば、GPT2のような言語モデルは、パーティーに行くように頼まれた場合、一貫した方法で応答する可能性が高いか? また,このような性格特性を制御できるかどうかについても検討する。 人格記述や人格特性に関する診断問題に対する回答など) の異なる文脈を提供すると, BERT や GPT2 などの言語モデルがそれらの文脈における人格マーカーを一貫して識別・反映できることを示す。 この振る舞いは、非常に予測可能な方法で操作できる能力を示し、それらを人格の特徴を特定し、ダイアログシステムのようなアプリケーションにおけるペルソナを制御するツールとしてフレーム化します。 また,「ビッグファイブ」パーソナリティ評価データと組み合わせた被験者のパーソナリティ記述のクラウドソースデータセットと,redditから照合したパーソナリティ記述のデータセットを提案する。

Psychology research has long explored aspects of human personality such as extroversion, agreeableness and emotional stability. Categorizations like the `Big Five' personality traits are commonly used to assess and diagnose personality types. In this work, we explore the question of whether the perceived personality in language models is exhibited consistently in their language generation. For example, is a language model such as GPT2 likely to respond in a consistent way if asked to go out to a party? We also investigate whether such personality traits can be controlled. We show that when provided different types of contexts (such as personality descriptions, or answers to diagnostic questions about personality traits), language models such as BERT and GPT2 can consistently identify and reflect personality markers in those contexts. This behavior illustrates an ability to be manipulated in a highly predictable way, and frames them as tools for identifying personality traits and controlling personas in applications such as dialog systems. We also contribute a crowd-sourced data-set of personality descriptions of human subjects paired with their `Big Five' personality assessment data, and a data-set of personality descriptions collated from Reddit.
翻訳日:2022-12-21 16:15:34 公開日:2022-12-20
# 双対領域における画家的イメージ調和

Painterly Image Harmonization in Dual Domains ( http://arxiv.org/abs/2212.08846v2 )

ライセンス: Link先を確認
Junyan Cao, Yan Hong, Li Niu(参考訳) 画像調和は、前景の外観を背景と適合するように調整することにより、視覚的に調和した複合画像を作成することを目的としている。 合成画像が写真前景と画家的背景を有する場合、この課題は画家的イメージ調和と呼ばれる。 このタスクには、時間を要するか、うまく調和した結果を生み出すのに弱い、ごくわずかの作業しかありません。 本研究では,空間領域と周波数領域の両方の複合画像とを調和させるデュアルドメイン生成器とデュアルドメイン判別器からなる,新しい画家的調和ネットワークを提案する。 デュアルドメイン生成器は,空間領域におけるadainモジュールと周波数領域における提案するresfftモジュールとの調和を行う。 二重領域判別器は、各パッチの空間的特徴と周波数特徴に基づいて不調和なパッチを識別し、逆向きにジェネレータの能力を高める。 ベンチマークデータセットの大規模な実験により,本手法の有効性が示された。 私たちのコードとモデルはhttps://github.com/bcmi/PHDNet-Painterly-Image-Harmonizationで公開されています。

Image harmonization aims to produce visually harmonious composite images by adjusting the foreground appearance to be compatible with the background. When the composite image has photographic foreground and painterly background, the task is called painterly image harmonization. There are only few works on this task, which are either time-consuming or weak in generating well-harmonized results. In this work, we propose a novel painterly harmonization network consisting of a dual-domain generator and a dual-domain discriminator, which harmonizes the composite image in both spatial domain and frequency domain. The dual-domain generator performs harmonization by using AdaIn modules in the spatial domain and our proposed ResFFT modules in the frequency domain. The dual-domain discriminator attempts to distinguish the inharmonious patches based on the spatial feature and frequency feature of each patch, which can enhance the ability of generator in an adversarial manner. Extensive experiments on the benchmark dataset show the effectiveness of our method. Our code and model are available at https://github.com/bcmi/PHDNet-Painterly-Image-Harmonization.
翻訳日:2022-12-21 16:15:08 公開日:2022-12-20
# NeRF系ガンからの対応蒸留

Correspondence Distillation from NeRF-based GAN ( http://arxiv.org/abs/2212.09735v2 )

ライセンス: Link先を確認
Yushi Lan, Chen Change Loy, Bo Dai(参考訳) 神経放射野(NeRF)は、物体やシーンの微細な詳細を保存するための有望な結果を示している。 しかし、メッシュベースの表現とは異なり、同じカテゴリの異なるNeRFをまたいで密度の高い対応を構築することは未解決の問題であり、多くの下流タスクにおいて必須である。 この問題の大きな問題は、NeRFの暗黙的な性質と、接地真実対応アノテーションの欠如にある。 本稿では,これらの課題を回避するために,事前学習したNRFベースのGANにカプセル化されたリッチなセマンティクスと構造的前提を活用する。 具体的には3つの側面から 優先事項を活用します 1) 潜在符号を大域的構造指標とする二重変形場 2)生成器の特徴を幾何学的認識可能な局所記述子とする学習目標,および 3) 無限オブジェクト固有のNeRFサンプルのソース。 我々の実験は、そのような先行が正確で滑らかで頑健な3次元密度の対応につながることを示した。 また、NeRF間の密接な対応を確立すれば、テクスチャ転送など、多くのNeRFベースの下流アプリケーションを有効に実現できることを示す。

The neural radiance field (NeRF) has shown promising results in preserving the fine details of objects and scenes. However, unlike mesh-based representations, it remains an open problem to build dense correspondences across different NeRFs of the same category, which is essential in many downstream tasks. The main difficulties of this problem lie in the implicit nature of NeRF and the lack of ground-truth correspondence annotations. In this paper, we show it is possible to bypass these challenges by leveraging the rich semantics and structural priors encapsulated in a pre-trained NeRF-based GAN. Specifically, we exploit such priors from three aspects, namely 1) a dual deformation field that takes latent codes as global structural indicators, 2) a learning objective that regards generator features as geometric-aware local descriptors, and 3) a source of infinite object-specific NeRF samples. Our experiments demonstrate that such priors lead to 3D dense correspondence that is accurate, smooth, and robust. We also show that established dense correspondence across NeRFs can effectively enable many NeRF-based downstream applications such as texture transfer.
翻訳日:2022-12-21 16:14:51 公開日:2022-12-20
# DISCO: 大規模言語モデルによるファラカル・カウンティファクトの蒸留

DISCO: Distilling Phrasal Counterfactuals with Large Language Models ( http://arxiv.org/abs/2212.10534v1 )

ライセンス: Link先を確認
Zeming Chen and Qiyue Gao and Kyle Richardson and Antoine Bosselut and Ashish Sabharwal(参考訳) 近年の手法では、反実的知識を用いたデータ拡張がタスクの因果構造をモデルに教えることが示され、堅牢で一般化可能なモデルが導かれる。 しかし,このような反事実データには,クラウドソーシングによって規模や多様性が制限されることが多く,教師付き手法で生成した場合には,新たな摂動タイプに拡張するための計算コストがかかる。 そこで本研究では,高品質な対実データを自動的に生成するdisCOという新しいフレームワークを提案する。 DISCOエンジニアは、大きな汎用言語モデルでフレーズ摂動を生成するよう促す。 そして、タスク固有の教師モデルが生成をフィルタリングし、高品質な反事実データを蒸留する。 この反事実データを用いた学習は, 6% (絶対的) な比較的小さな学習モデルとなり, 様々な難解な評価のベースラインよりも, 分布全体の5%を一般化できることを示した。 このモデルはまた、人間の作業員による3つの評価セットと人間とAIのコラボレーションを通して、原例と偽例の区別に15%敏感である。

Recent methods demonstrate that data augmentation using counterfactual knowledge can teach models the causal structure of a task, leading to robust and generalizable models. However, such counterfactual data often has a limited scale and diversity if crowdsourced and is computationally expensive to extend to new perturbation types if generated using supervised methods. To address this, we introduce a new framework called DISCO for automatically generating high-quality counterfactual data at scale. DISCO engineers prompts to generate phrasal perturbations with a large general language model. Then, a task-specific teacher model filters the generation to distill high-quality counterfactual data. We show that learning with this counterfactual data yields a comparatively small student model that is 6% (absolute) more robust and generalizes 5% better across distributions than baselines on various challenging evaluations. This model is also 15% more sensitive in differentiating original and counterfactual examples, on three evaluation sets written by human workers and via human-AI collaboration.
翻訳日:2022-12-21 16:06:54 公開日:2022-12-20
# もっと測定し、質問する:トランスフォーマーに基づく言語モデルの実験的研究と補間

Measure More, Question More: Experimental Studies on Transformer-based Language Models and Complement Coercion ( http://arxiv.org/abs/2212.10536v1 )

ライセンス: Link先を確認
Yuling Gu(参考訳) トランスフォーマーベースの言語モデルは、自然言語理解タスクの配列に強いパフォーマンスを示している。 しかし、これらのモデルが暗黙の意味にどう反応するかという問題は、ほとんど解明されていない。 この現象を補足的強制現象(補足的強制現象)を用いて検討し、「学生は航海に関する本を完成させた」などの文を暗黙的に読み取る。 文中の様々な臨界文領域におけるLMの前提推定値と暗黙的意味とを比較した。 暗黙的意味の回復に関連する影響は、文が最小に異なる部分以外の重要な領域で発見された。 そして、後続の実験を使って、より豊かで正確なイメージを提供する異なる視点を明らかにする。

Transformer-based language models have shown strong performance on an array of natural language understanding tasks. However, the question of how these models react to implicit meaning has been largely unexplored. We investigate this using the complement coercion phenomenon, which involves sentences like "The student finished the book about sailing" where the action "reading" is implicit. We compare LMs' surprisal estimates at various critical sentence regions in sentences with and without implicit meaning. Effects associated with recovering implicit meaning were found at a critical region other than where sentences minimally differ. We then use follow-up experiments to factor out potential confounds, revealing different perspectives that offer a richer and more accurate picture.
翻訳日:2022-12-21 16:06:35 公開日:2022-12-20
# 人間の読みやすいプロンプトチューニングに向けて:クブリックのThe Shiningは良い映画であり、良いプロンプトでもある?

Toward Human Readable Prompt Tuning: Kubrick's The Shining is a good movie, and a good prompt too? ( http://arxiv.org/abs/2212.10539v1 )

ライセンス: Link先を確認
Weijia Shi, Xiaochuang Han, Hila Gonen, Ari Holtzman, Yulia Tsvetkov, Luke Zettlemoyer(参考訳) 大きな言語モデルは、望ましい振る舞いを特定する自然言語プロンプトがあれば、ゼロショット方式で新しいタスクを実行することができる。 このようなプロンプトは通常手動で設計されるが、ラベル付きデータから勾配に基づく手法で学習することもできる。 しかし、特にプロンプトが自然言語である場合には、プロンプトを効果的にする要因は、過小評価されている。 本稿では,実効プロンプトで共有される共通属性について検討する。 提案手法は, フルーエンシー制約を組み込んだランジュバンダイナミクスに基づく人間の可読性プロンプトチューニング手法 (fluent p rompt) を提案する。 分析の結果,有効プロンプトはタスク領域とトポロジカルに関連し,ラベル単語の事前確率を校正することがわかった。 これらの結果に基づき、3つのタスクの平均7.0%の精度で強いベースラインを上回り、ラベルのないデータのみを用いてプロンプトを生成する手法を提案する。

Large language models can perform new tasks in a zero-shot fashion, given natural language prompts that specify the desired behavior. Such prompts are typically hand engineered, but can also be learned with gradient-based methods from labeled data. However, it is underexplored what factors make the prompts effective, especially when the prompts are natural language. In this paper, we investigate common attributes shared by effective prompts. We first propose a human readable prompt tuning method (F LUENT P ROMPT) based on Langevin dynamics that incorporates a fluency constraint to find a diverse distribution of effective and fluent prompts. Our analysis reveals that effective prompts are topically related to the task domain and calibrate the prior probability of label words. Based on these findings, we also propose a method for generating prompts using only unlabeled data, outperforming strong baselines by an average of 7.0% accuracy across three tasks.
翻訳日:2022-12-21 16:06:24 公開日:2022-12-20
# 意味的インフォームド階層型イベントモデリング

Semantically-informed Hierarchical Event Modeling ( http://arxiv.org/abs/2212.10547v1 )

ライセンス: Link先を確認
Shubhashis Roy Dipta, Mehdi Rezaee, Francis Feraro(参考訳) 先行研究は、逐次潜在変数モデルと意味的存在論的知識を結合させることで、イベントモデリングアプローチの表現能力を向上させることを示した。 本稿では,オントロジー階層を考慮しながら構造階層を提供する,新しい,二重階層的,半教師付きイベントモデリングフレームワークを提案する。 提案手法は,各層が前の層を圧縮・抽象化する,構造化潜在変数の複数の層から構成される。 私たちは、イベントのタイプレベルで定義された構造化オントロジー知識の注入を通じて、この圧縮を導く: 重要なことに、このモデルは、意味知識の部分的注入を可能にし、セマンティックオントロジーの特定のレベルでのインスタンスの観察に依存しません。 2つの異なるデータセットと4つの異なる評価指標で、我々のアプローチが過去の最先端のアプローチよりも優れており、イベントモデリングにおける構造化およびセマンティック階層的知識の利点を実証している。

Prior work has shown that coupling sequential latent variable models with semantic ontological knowledge can improve the representational capabilities of event modeling approaches. In this work, we present a novel, doubly hierarchical, semi-supervised event modeling framework that provides structural hierarchy while also accounting for ontological hierarchy. Our approach consists of multiple layers of structured latent variables, where each successive layer compresses and abstracts the previous layers. We guide this compression through the injection of structured ontological knowledge that is defined at the type level of events: importantly, our model allows for partial injection of semantic knowledge and it does not depend on observing instances at any particular level of the semantic ontology. Across two different datasets and four different evaluation metrics, we demonstrate that our approach is able to out-perform the previous state-of-the-art approaches, demonstrating the benefits of structured and semantic hierarchical knowledge for event modeling.
翻訳日:2022-12-21 16:06:05 公開日:2022-12-20
# T-Projection:シーケンスラベリングタスクのための高品質アノテーションプロジェクション

T-Projection: High Quality Annotation Projection for Sequence Labeling Tasks ( http://arxiv.org/abs/2212.10548v1 )

ライセンス: Link先を確認
Iker Garc\'ia-Ferrero, Rodrigo Agerri, German Rigau(参考訳) 与えられたタスクや言語のためのラベル付きデータがない場合、アノテーションプロジェクションは、教師付きシステムのトレーニングに使用できる注釈付きデータを自動的に生成する可能性のある戦略の1つとして提案されている。 アノテーションの投影はしばしば、ソースからターゲット言語へのラベルを並列コーパスで投影するタスクとして定式化されている。 本稿では,大規模な事前学習されたテキスト2テキスト言語モデルと最先端機械翻訳技術を活用したアノテーション投影手法T-Projectionを提案する。 T-プロジェクションはラベルプロジェクションタスクを2つのサブタスクに分解する。 (i)多言語t5モデルを用いた投影候補の集合を生成した候補生成ステップ 二 候補選択の段階であって、その候補が翻訳確率に基づいてランク付けされるもの 提案手法を3つの下流タスクと5つの異なる言語で評価する。 その結果,t-プロジェクションは従来手法の平均f1得点を8点以上向上させた。

In the absence of readily available labeled data for a given task and language, annotation projection has been proposed as one of the possible strategies to automatically generate annotated data which may then be used to train supervised systems. Annotation projection has often been formulated as the task of projecting, on parallel corpora, some labels from a source into a target language. In this paper we present T-Projection, a new approach for annotation projection that leverages large pretrained text2text language models and state-of-the-art machine translation technology. T-Projection decomposes the label projection task into two subtasks: (i) The candidate generation step, in which a set of projection candidates using a multilingual T5 model is generated and, (ii) the candidate selection step, in which the candidates are ranked based on translation probabilities. We evaluate our method in three downstream tasks and five different languages. Our results show that T-projection improves the average F1 score of previous methods by more than 8 points.
翻訳日:2022-12-21 16:05:48 公開日:2022-12-20
# 長寿命変圧器

A Length-Extrapolatable Transformer ( http://arxiv.org/abs/2212.10554v1 )

ライセンス: Link先を確認
Yutao Sun, Li Dong, Barun Patra, Shuming Ma, Shaohan Huang, Alon Benhaim, Vishrav Chaudhary, Xia Song, Furu Wei(参考訳) 位置モデリングはトランスフォーマーにおいて重要な役割を果たす。 本稿では,長さ外挿,すなわち短いテキストのトレーニングに焦点をあて,長いシーケンスの評価を行う。 我々は注意の解決を外挿の指標として定義する。 次に,上述の変圧器の計量を改善するための2つの設計を提案する。 具体的には,注意解決を明示的に最大化するために,相対的な位置埋め込みを導入する。 さらに,推定中にブロックワイズ因果関係に注意を向けることで,解決性が向上した。 言語モデルを用いてトランスフォーマーの変種を評価する。 実験の結果,本モデルは補間と補間の両方において強い性能を発揮することがわかった。 コードはhttps://aka.ms/LeX-Transformer.comから入手できる。

Position modeling plays a critical role in Transformers. In this paper, we focus on length extrapolation, i.e., training on short texts while evaluating longer sequences. We define attention resolution as an indicator of extrapolation. Then we propose two designs to improve the above metric of Transformers. Specifically, we introduce a relative position embedding to explicitly maximize attention resolution. Moreover, we use blockwise causal attention during inference for better resolution. We evaluate different Transformer variants with language modeling. Experimental results show that our model achieves strong performance in both interpolation and extrapolation settings. The code will be available at https://aka.ms/LeX-Transformer.
翻訳日:2022-12-21 16:05:31 公開日:2022-12-20
# DialGuide: 開発者ガイドラインによる対話モデル行動の調整

DialGuide: Aligning Dialogue Model Behavior with Developer Guidelines ( http://arxiv.org/abs/2212.10557v1 )

ライセンス: Link先を確認
Prakhar Gupta, Yang Liu, Di Jin, Behnam Hedayatnia, Spandana Gella, Sijia Liu, Patrick Lange, Julia Hirschberg, Dilek Hakkani-Tur(参考訳) 対話モデルはコヒーレントかつ流れる応答を生成することができるが、それでも制御が難しく、非関与的で安全でない結果を生み出す可能性がある。 この予測不能はユーザの信頼を低下させ、現実世界でのモデルの使用を妨げます。 そこで本研究では,自然言語規則を用いた対話モデル行動制御のための新しい枠組みであるdialogguideを提案する。 これらのガイドラインは、開発者が適用すべきコンテキストと応答に含めるべきものに関する情報を提供し、モデルが開発者の期待や意図とより密に一致したレスポンスを生成できるようにします。 オープンドメイン対話応答生成におけるダイヤルグイドの評価について,ガイドライン選択,応答生成,応答包含検証の3つのタスクについて検討した。 当社のデータセットには10,737のポジティブな会話と15,467のネガティブな対話コンテキスト-レスポンス-ガイドライントリプレットが2つのドメインにまたがって含まれています。 タスクのベースラインモデルを提供し、パフォーマンスをベンチマークします。 また,dialguideは対話安全領域において有効であり,開発者のガイドラインに従う安全かつ魅力的な応答を生成する。

Dialogue models are able to generate coherent and fluent responses, but they can still be challenging to control and may produce non-engaging, unsafe results. This unpredictability diminishes user trust and can hinder the use of the models in the real world. To address this, we introduce DialGuide, a novel framework for controlling dialogue model behavior using natural language rules, or guidelines. These guidelines provide information about the context they are applicable to and what should be included in the response, allowing the models to generate responses that are more closely aligned with the developer's expectations and intent. We evaluate DialGuide on three tasks in open-domain dialogue response generation: guideline selection, response generation, and response entailment verification. Our dataset contains 10,737 positive and 15,467 negative dialogue context-response-guideline triplets across two domains - chit-chat and safety. We provide baseline models for the tasks and benchmark their performance. We also demonstrate that DialGuide is effective in the dialogue safety domain, producing safe and engaging responses that follow developer guidelines.
翻訳日:2022-12-21 16:05:23 公開日:2022-12-20
# GPTはなぜインコンテキストを学習できるのか? メタオプティマイザとしてのグラディエントDescentを秘かに実行する言語モデル

Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta Optimizers ( http://arxiv.org/abs/2212.10559v1 )

ライセンス: Link先を確認
Damai Dai, Yutao Sun, Li Dong, Yaru Hao, Zhifang Sui, Furu Wei(参考訳) 大規模な事前訓練された言語モデルは、驚くべきインコンテキスト学習(ICL)能力を示している。 数組のインプットラベルペアで、追加のパラメータ更新なしで、見当たらないインプットのラベルを予測することができる。 パフォーマンスの大きな成功にもかかわらず、ICLの動作メカニズムは依然としてオープンな問題である。 ICLの動作をよりよく理解するために、メタオプティマイザとして言語モデルを説明し、ICLを暗黙的な微調整の一種として理解する。 理論的には、トランスフォーマーの注意は勾配降下に基づく最適化の2つの形態を持つ。 gptはまずデモの例に従ってメタグラデーションを生成し、その後、これらのメタグラデーションをオリジナルのgptに適用して、iclモデルを構築します。 実験では,実作業に基づくICLと明示的な微調整の挙動を総合的に比較し,理解を支える実証的な証拠を提供する。 その結果、iclは予測レベル、表現レベル、注意行動レベルで明示的な微調整と同様に振る舞うことが判明した。 さらに,メタ最適化の理解に触発されて,運動量に基づく勾配降下アルゴリズムに類似した運動量に基づく注意をデザインする。 バニラアテンションよりも一貫して優れたパフォーマンスは、別の側面からの理解を再び支援し、さらに重要なこととして、将来のモデル設計に私たちの理解を利用する可能性を示しています。

Large pretrained language models have shown surprising In-Context Learning (ICL) ability. With a few demonstration input-label pairs, they can predict the label for an unseen input without additional parameter updates. Despite the great success in performance, the working mechanism of ICL still remains an open problem. In order to better understand how ICL works, this paper explains language models as meta optimizers and understands ICL as a kind of implicit finetuning. Theoretically, we figure out that the Transformer attention has a dual form of gradient descent based optimization. On top of it, we understand ICL as follows: GPT first produces meta gradients according to the demonstration examples, and then these meta gradients are applied to the original GPT to build an ICL model. Experimentally, we comprehensively compare the behavior of ICL and explicit finetuning based on real tasks to provide empirical evidence that supports our understanding. The results prove that ICL behaves similarly to explicit finetuning at the prediction level, the representation level, and the attention behavior level. Further, inspired by our understanding of meta optimization, we design a momentum-based attention by analogy with the momentum-based gradient descent algorithm. Its consistently better performance over vanilla attention supports our understanding again from another aspect, and more importantly, it shows the potential to utilize our understanding for future model designing.
翻訳日:2022-12-21 16:05:05 公開日:2022-12-20
# デモグラフィック情報のないNLPモデルのデバイアス

Debiasing NLP Models Without Demographic Information ( http://arxiv.org/abs/2212.10563v1 )

ライセンス: Link先を確認
Hadas Orgad, Yonatan Belinkov(参考訳) 実世界のデータから訓練されたモデルは、社会的バイアスを模倣し増幅する傾向がある。 バイアスを軽減する方法は数多く提案されているが、それらは緩和されるべきバイアスの種類(例えば、性別や人種のバイアス)と各データサンプルに関連する社会的グループについて予備的な情報を必要とする。 本研究では,データセット内の人口統計学の知識をまったく持たずに動作し,主モデルの成功を予測する補助モデルに基づいてバイアス付き例を検出し,トレーニングプロセス中に重み付けを行うデバイアス手法を提案する。 人種バイアスや性別バイアスの結果は、社会的バイアスをコストのかかる分類プロセスを使うことなく軽減できることを示している。

Models trained from real-world data tend to imitate and amplify social biases. Although there are many methods suggested to mitigate biases, they require a preliminary information on the types of biases that should be mitigated (e.g., gender or racial bias) and the social groups associated with each data sample. In this work, we propose a debiasing method that operates without any prior knowledge of the demographics in the dataset, detecting biased examples based on an auxiliary model that predicts the main model's success and down-weights them during the training process. Results on racial and gender bias demonstrate that it is possible to mitigate social biases without having to use a costly demographic annotation process.
翻訳日:2022-12-21 16:04:42 公開日:2022-12-20
# 実関数性景観の局所最適ネットワークビュー

A Local Optima Network View of Real Function Fitness Landscapes ( http://arxiv.org/abs/2212.10254v1 )

ライセンス: Link先を確認
Marco Tomassini(参考訳) 局所オプティマネットワークモデルは, 組合せ最適化問題に関連して, 過去に有用であることが証明された。 ここでは、実連続函数領域への拡張を検討する。 サンプリングプロセスを通じて、モデルは関数のミニマ盆地構造とその相互接続を捉え、複雑なネットワークメトリクスの助けを借りて容易に操作できる重み付き有向グラフを構築する。 このモデルは,特に高次元において,解析や可視化が容易な関数空間の相補的なビューを提供することを示す。 特に,アルゴリズムの性能に代表される関数の硬さは,対応する局所最適ネットワークのいくつかのグラフ特性と強く関係していることを示し,対応するグラフ構造に従って問題難度を分類し,メタヒューリスティックなアプローチの設計の拡張の可能性を示した。

The local optima network model has proved useful in the past in connection with combinatorial optimization problems. Here we examine its extension to the real continuous function domain. Through a sampling process, the model builds a weighted directed graph which captures the function's minima basin structure and its interconnection and which can be easily manipulated with the help of complex networks metrics. We show that the model provides a complementary view of function spaces that is easier to analyze and visualize, especially at higher dimension. In particular, we show that function hardness as represented by algorithm performance, is strongly related to several graph properties of the corresponding local optima network, opening the way for a classification of problem difficulty according to the corresponding graph structure and with possible extensions in the design of better metaheuristic approaches.
翻訳日:2022-12-21 16:04:30 公開日:2022-12-20
# 差分解析と説明による時間的推論

Generic Temporal Reasoning with Differential Analysis and Explanation ( http://arxiv.org/abs/2212.10467v1 )

ライセンス: Link先を確認
Yu Feng, Ben Zhou, Haoyu Wang, Helen Jin, Dan Roth(参考訳) 時間的推論は、事象対と対応する文脈の時間的関係を予測するタスクである。 いくつかの時間的推論モデルはドメイン内のベンチマークで合理的に機能するが、既存のデータセットの制限のためにシステムの一般化可能性についてはほとんど見当たらない。 本研究では,このギャップを時間差分解析で埋めるTODAYという新しいタスクを紹介し,その名が示すように,システムが漸進的変化の効果を正しく理解できるかどうかを評価する。 具体的には、特定のイベントペアのコンテキストが少し変更され、この微妙なコンテキストの変化が時間的関係分布にどのように影響するかをシステムが知る必要があります。 学習を容易にするため、TODAYは人間の説明にも注釈を付ける。 gpt-3を含む既存のモデルは、現在ランダムな推測に落ちており、時間的予測の適切な推論よりも、スプリアスな情報に大きく依存していることを示唆している。 一方,TODAYの指導スタイルや説明アノテーションは共同学習に利用でき,トレーニング中により適切な信号を使うことを奨励し,複数のベンチマークで性能が向上することを示す。 今日では、gpt-3のような騒がしい情報源から付随的な監督を要請するためにモデルを訓練したり、より汎用的な時間的推論システムへと移動したりすることもできる。

Temporal reasoning is the task of predicting temporal relations of event pairs with corresponding contexts. While some temporal reasoning models perform reasonably well on in-domain benchmarks, we have little idea of the systems' generalizability due to existing datasets' limitations. In this work, we introduce a novel task named TODAY that bridges this gap with temporal differential analysis, which as the name suggests, evaluates if systems can correctly understand the effect of incremental changes. Specifically, TODAY makes slight context changes for given event pairs, and systems need to tell how this subtle contextual change will affect temporal relation distributions. To facilitate learning, TODAY also annotates human explanations. We show that existing models, including GPT-3, drop to random guessing on TODAY, suggesting that they heavily rely on spurious information rather than proper reasoning for temporal predictions. On the other hand, we show that TODAY's supervision style and explanation annotations can be used in joint learning and encourage models to use more appropriate signals during training and outperform across several benchmarks. TODAY can also be used to train models to solicit incidental supervision from noisy sources such as GPT-3 and moves farther towards generic temporal reasoning systems.
翻訳日:2022-12-21 15:58:49 公開日:2022-12-20
# bmx: 説明可能な機械翻訳メトリクスの強化

BMX: Boosting Machine Translation Metrics with Explainability ( http://arxiv.org/abs/2212.10469v1 )

ライセンス: Link先を確認
Christoph Leiter, Hoa Nguyen, Steffen Eger(参考訳) 最先端の機械翻訳評価指標はブラックボックス言語モデルに基づいている。 したがって、最近の研究では、人間の理解力の向上と、失敗事例を含むメトリクス分析の改善という目標により、その説明可能性を検討している。 対照的に、私たちはメトリクスのパフォーマンスを高めるために説明を明示的に活用します。 特に、単語レベルのスコアとして説明を知覚し、パワー手段によって文レベルのスコアに変換する。 この文レベルのスコアと元のメトリックを組み合わせて、より良いメトリックを得る。 5つのデータセット、5つのメトリクス、4つの説明可能性技術にわたる広範な評価と分析により、いくつかの設定が、人間の判断と元のメトリクスの相関性を確実に改善することを示している。 テスト用に保持された2つのデータセットで、15/18 respの改善を得た。 4/4例であった。 ピアソン相関の利得は0.032 respである。 0.055. コードを利用可能にします。

State-of-the-art machine translation evaluation metrics are based on black-box language models. Hence, recent works consider their explainability with the goals of better understandability for humans and better metric analysis, including failure cases. In contrast, we explicitly leverage explanations to boost the metrics' performance. In particular, we perceive explanations as word-level scores, which we convert, via power means, into sentence-level scores. We combine this sentence-level score with the original metric to obtain a better metric. Our extensive evaluation and analysis across 5 datasets, 5 metrics and 4 explainability techniques shows that some configurations reliably improve the original metrics' correlation with human judgment. On two held datasets for testing, we obtain improvements in 15/18 resp. 4/4 cases. The gains in Pearson correlation are up to 0.032 resp. 0.055. We make our code available.
翻訳日:2022-12-21 15:58:15 公開日:2022-12-20
# 小さな赤いライディングフードは世界中を旅する:言語横断型ストーリープランニングと大規模言語モデルによる生成

Little Red Riding Hood Goes Around the Globe:Crosslingual Story Planning and Generation with Large Language Models ( http://arxiv.org/abs/2212.10471v1 )

ライセンス: Link先を確認
Evgeniia Razumovskaia, Joshua Maynez, Annie Louis, Mirella Lapata, Shashi Narayan(参考訳) 複数の言語で物語を自動生成する問題を考える。 モノリンガルストーリー生成における以前の仕事と比較して、クロスリンガルストーリー生成はストーリープランニングに関するより普遍的な研究を可能にする。 我々は,ストーリー生成に最適な計画について検討する計画を持つ大規模言語モデルの提案を行う。 我々は4種類の計画を検討し、異なる計画戦略でアウトプットがどのように異なるかを体系的に分析する。 この研究は、質問と回答のペアとしてプランを定式化することで、より一貫性のあるストーリーが生み出される一方で、計画がストーリークリエーターにもっとコントロールを与えることを示している。

We consider the problem of automatically generating stories in multiple languages. Compared to prior work in monolingual story generation, crosslingual story generation allows for more universal research on story planning. We propose to use Prompting Large Language Models with Plans to study which plan is optimal for story generation. We consider 4 types of plans and systematically analyse how the outputs differ for different planning strategies. The study demonstrates that formulating the plans as question-answer pairs leads to more coherent generated stories while the plan gives more control to the story creators.
翻訳日:2022-12-21 15:58:02 公開日:2022-12-20
# bygpt5:トークンフリー言語モデルによるエンドツーエンドのスタイル条件付き詩生成

ByGPT5: End-to-End Style-conditioned Poetry Generation with Token-free Language Models ( http://arxiv.org/abs/2212.10474v1 )

ライセンス: Link先を確認
Jonas Belouadi, Steffen Eger(参考訳) 最先端の詩生成システムはしばしば複雑である。 これらはタスク固有のモデルパイプラインで構成されており、手作業で作成した制約の形で事前の知識を取り入れているか、両方だ。 対照的に、エンドツーエンドモデルは、事前知識をモデル化するオーバーヘッドに悩まされず、データだけで詩のニュアンスを学ぶことができ、人間の監督の度合いを低下させる。 本研究では,韻律,韻律,朗読などの文体を条件とした終末詩の生成について検討する。 我々は過去の試みの限界として、トレーニングデータの欠如とトークン化アルゴリズムのミスマッチを特定し、対処する。 特に,新しいトークンフリーなデコーダのみの言語モデルである bygpt5 の事前トレーニングとリリースに成功し,我々のスタイルにアノテートされた英語とドイツ語のクォートトレーニングの大規模なコーパスに微調整しました。 ByGPT5は,mT5,BYT5,GPT-2,ChatGPTなどの他のモデルよりも優れ,パラメータ効率が良く,人間に好適な性能を示す。 さらに、実行時のパフォーマンスを分析し、スタイル条件に対するモデルの理解を考察する。 コード、モデル、データセットを公開しています。

State-of-the-art poetry generation systems are often complex. They either consist of task-specific model pipelines, incorporate prior knowledge in the form of manually created constraints or both. In contrast, end-to-end models would not suffer from the overhead of having to model prior knowledge and could learn the nuances of poetry from data alone, reducing the degree of human supervision required. In this work, we investigate end-to-end poetry generation conditioned on styles such as rhyme, meter, and alliteration. We identify and address lack of training data and mismatching tokenization algorithms as possible limitations of past attempts. In particular, we successfully pre-train and release ByGPT5, a new token-free decoder-only language model, and fine-tune it on a large custom corpus of English and German quatrains annotated with our styles. We show that ByGPT5 outperforms other models such as mT5, ByT5, GPT-2 and ChatGPT, while also being more parameter efficient and performing favorably compared to humans. In addition, we analyze its runtime performance and introspect the model's understanding of style conditions. We make our code, models, and datasets publicly available.
翻訳日:2022-12-21 15:57:52 公開日:2022-12-20
# SimpleStyle: 適応可能なスタイル転送アプローチ

SimpleStyle: An Adaptable Style Transfer Approach ( http://arxiv.org/abs/2212.10498v1 )

ライセンス: Link先を確認
Elron Bandel, Yoav Katz, Noam Slonim, Liat Ein-Dor(参考訳) Attribute Controlled Text Rewriting(テキストスタイル転送)は、制御可能な自然言語生成システムにおいて重要な役割を担っているため、自然言語生成コミュニティにおいて大きな注目を集めている。 本稿では,2成分からなる簡易な機構に基づく属性制御テキスト書き換えのための,単純スタイルでかつ効果的な手法を提案する。 ノイズ除去と出力フィルタリングを制御 ほんの数行のコードで簡潔に説明できるアプローチの単純さにもかかわらず、自動評価と人間の評価の両方において、以前の最先端の手法と競合する。 さらに,ソーシャルネットワークからの実世界のデータに適用することで,システムの有効性を実証する。 さらに,ソフトマスキングサンプリング技術を導入し,システムの性能をさらに向上させる。 また,システム出力をテキストからテキストへの学生モデルに入力することで,追加のフィルタリングを必要とせずに高品質な結果が得られることを示す。 最後に,本手法は,属性制御テキストの書き直しの分野で段階的な進歩を図りたいと考える作業に対して,プロトコルをシンプルで適応的で強力なベースラインとして提供することにより,フィールドの進行を保ちながら基本的欠落を解消できることを提案する。

Attribute Controlled Text Rewriting, also known as text style transfer, has received significant attention in the natural language generation community due to its crucial role in controllable natural language generation systems. In this work we present SimpleStyle a minimalist yet effective approach for attribute controlled text rewriting based on a simple mechanism composed of two ingredients. controlled denoising and output filtering. Despite the simplicity of our approach, which can be succinctly explained with just a few lines of code, it is competitive with previous state-of-the-art methods both in automatic and in human evaluations. Additionally, we demonstrate the practical effectiveness of our system, by applying it to real-world data from social networks. Additionally, we introduce a soft masking sampling technique that further improves the performance of the system. We also show that feeding the output of our system into a text-to-text student model can produce high-quality results without the need for additional filtering. Finally, we suggest that our method can solve the fundamental missing baseline absence that holding progress in the field by offering our protocol as a simple, adaptive and very strong baseline for works wish to make incremental advancements in the field of attribute controlled text rewriting.
翻訳日:2022-12-21 15:57:30 公開日:2022-12-20
# 現在のタスク指向対話モデルは野生における実世界のシナリオを自動化するか?

Can Current Task-oriented Dialogue Models Automate Real-world Scenarios in the Wild? ( http://arxiv.org/abs/2212.10504v1 )

ライセンス: Link先を確認
Sang-Woo Lee, Sungdong Kim, Donghyeon Ko, Donghoon Ham, Youngki Hong, Shin Ah Oh, Hyunhoon Jung, Wangkyo Jung, Kyunghyun Cho, Donghyun Kwak, Hyungsuk Noh, Woomyoung Park(参考訳) タスク指向対話 (TOD) は主にスロット充足に基づくTOD (SF-TOD) フレームワークに基づいており、特定のタスクを達成するために対話をより小さく制御可能な単位(スロット)に分割する。 このフレームワークに基づく一連のアプローチは、様々なTODベンチマークで大きな成功を収めた。 しかし、現在のTODベンチマークは現実世界のシナリオのサロゲートに限られており、現在のTODモデルはシナリオの展開にはまだ長い道のりがある、と我々は論じる。 本稿では,まずsf-todシステムの現状と限界を明らかにする。 その後、Web/モバイルインターフェースが利用可能になったときに、スケーラブルなTODシステムを構築するための代替方向であるWebTODフレームワークについて検討する。 webtodでは、対話システムは、人間のエージェントが対話するweb/モバイルインターフェースを、大規模な言語モデルで理解する方法を学習する。

Task-oriented dialogue (TOD) systems are mainly based on the slot-filling-based TOD (SF-TOD) framework, in which dialogues are broken down into smaller, controllable units (i.e., slots) to fulfill a specific task. A series of approaches based on this framework achieved remarkable success on various TOD benchmarks. However, we argue that the current TOD benchmarks are limited to surrogate real-world scenarios and that the current TOD models are still a long way from unraveling the scenarios. In this position paper, we first identify current status and limitations of SF-TOD systems. After that, we explore the WebTOD framework, the alternative direction for building a scalable TOD system when a web/mobile interface is available. In WebTOD, the dialogue system learns how to understand the web/mobile interface that the human agent interacts with, powered by a large-scale language model.
翻訳日:2022-12-21 15:57:09 公開日:2022-12-20
# 知識集約型多段階質問に対する連鎖的推論による検索

Interleaving Retrieval with Chain-of-Thought Reasoning for Knowledge-Intensive Multi-Step Questions ( http://arxiv.org/abs/2212.10509v1 )

ライセンス: Link先を確認
Harsh Trivedi, Niranjan Balasubramanian, Tushar Khot, Ashish Sabharwal(参考訳) 最近の研究によると、大規模な言語モデルでは、自然言語推論ステップやチェーン・オブ・マインド(cot)を生成して、複数のステップの質問に答えることができる。 しかし、モデルパラメータ内で必要な知識が利用できない場合や最新の場合、これは不十分である。 これを解決するための簡単なアプローチは、質問をクエリとして使用して外部の知識ソースからテキストを取得し、モデルの入力のコンテキストとしてプリペンドすることである。 しかし、これは多段階qaでは不十分であり、 \textit{what to retrieve} は \textit{what have already derived} に依存する。 この問題に対処するため,多段階QAのための検索をCoTとインターリーブし,CoTによる検索を誘導し,検索結果を用いてCoTを改善する新しいアプローチであるIRCoTを提案する。 GPT3を用いた実験では,HotpotQA,2WikiMultihopQA,MuSiQue,IIRCの4つのデータセットのベースラインに対して,検索(最大22ポイント),下流QA(最大16ポイント)の大幅な改善が見られた。 特に,T5-Flan-large (0.7B) のようなより小さなモデルでも,追加のトレーニングを伴わずに動作可能である。

Recent work has shown that large language models are capable of generating natural language reasoning steps or Chains-of-Thoughts (CoT) to answer a multi-step question when prompted to do so. This is insufficient, however, when the necessary knowledge is not available or up-to-date within a model's parameters. A straightforward approach to address this is to retrieve text from an external knowledge source using the question as a query and prepend it as context to the model's input. This, however, is also insufficient for multi-step QA where \textit{what to retrieve} depends on \textit{what has already been derived}. To address this issue we propose IRCoT, a new approach that interleaves retrieval with CoT for multi-step QA, guiding the retrieval with CoT and in turn using retrieved results to improve CoT. Our experiments with GPT3 show substantial improvements in retrieval (up to 22 points) and downstream QA (up to 16 points) over the baselines on four datasets: HotpotQA, 2WikiMultihopQA, MuSiQue, and IIRC. Notably, our method also works well for much smaller models such as T5-Flan-large (0.7B) without any additional training.
翻訳日:2022-12-21 15:56:54 公開日:2022-12-20
# CausalDialogue:会話における発話レベルの因果関係のモデル化

CausalDialogue: Modeling Utterance-level Causality in Conversations ( http://arxiv.org/abs/2212.10515v1 )

ライセンス: Link先を確認
Yi-Lin Tuan, Alon Albalak, Wenda Xu, Michael Saxon, Connor Pryor, Lise Getoor, William Yang Wang(参考訳) 広く採用されているにもかかわらず、ニューラル会話モデルはまだ人間との自然なチャット機能を見せていない。 本研究では,ユーザ発話を原因として検討し,応答を効果として生成し,原因の変化が異なる効果をもたらすことを認識した。 このコンセプトをさらに探求するため、クラウドソーシングを通じてCausalDialogueと呼ばれる新しいデータセットをコンパイルし、拡張しました。 このデータセットは、有向非巡回グラフ(DAG)構造内に複数の因果効果対を含む。 分析の結果,従来の損失関数がDAG構造を効果的に組み込むのに苦労していることが判明し,ニューラル会話モデルの発話レベルにおける因果関係の影響を高めるために,指数最大平均処理効果(Exponential Maximum Average Treatment Effect, ExMATE)と呼ばれる因果関係強化手法を提案する。 本手法の有効性を評価するために,大規模事前学習言語モデルを活用したcausaldialogueデータセットを用いた総合ベンチマークを構築し,コヒーレンス,多様性,アジリティのための人間および自動評価指標を用いて結果を評価した。 以上の結果から,現在の手法では会話型DAGを効果的に扱えず,従来の損失関数の多様性と俊敏性を向上し,コヒーレンスを維持しつつも改善できることが示唆された。

Despite their widespread adoption, neural conversation models have yet to exhibit natural chat capabilities with humans. In this research, we examine user utterances as causes and generated responses as effects, recognizing that changes in a cause should produce a different effect. To further explore this concept, we have compiled and expanded upon a new dataset called CausalDialogue through crowd-sourcing. This dataset includes multiple cause-effect pairs within a directed acyclic graph (DAG) structure. Our analysis reveals that traditional loss functions can struggle to effectively incorporate the DAG structure, leading us to propose a causality-enhanced method called Exponential Maximum Average Treatment Effect (ExMATE) to enhance the impact of causality at the utterance level in training neural conversation models. To evaluate the effectiveness of this approach, we have built a comprehensive benchmark using the CausalDialogue dataset leveraging large-scale pre-trained language models, and have assessed the results through both human and automatic evaluation metrics for coherence, diversity, and agility. Our findings show that current techniques are still unable to effectively address conversational DAGs, and that the ExMATE method can improve the diversity and agility of conventional loss functions while maintaining coherence.
翻訳日:2022-12-21 15:56:28 公開日:2022-12-20
# セマンティックパーサーのプライバシー保護ドメイン適応

Privacy-Preserving Domain Adaptation of Semantic Parsers ( http://arxiv.org/abs/2212.10520v1 )

ライセンス: Link先を確認
Fatemehsadat Mireshghallah, Richard Shin, Yu Su, Tatsunori Hashimoto, Jason Eisner(参考訳) タスク指向の対話システムは、ユーザー個人や機密事項を補助することが多い。 そのため、一般にそのようなシステムの開発者は実際の使用を観察することを禁じられている。 では、システム障害の所在をどうやって把握し、より多くのトレーニングデータや新機能が必要ですか? 本研究では,実際のユーザのプライバシーを損なうことなく,現実的なユーザ発話を合成的に生成し,システムの言語的・機能的カバレッジを向上させる方法について検討する。 そこで本研究では,まず潜在意味構文を生成し,その解析結果に基づいて発話を生成する2段階微分プライベート(DP)生成手法を提案する。 提案手法はmauveを3.8$\times$,パースツリーのノード型重なりを1.4$\times$,プライベートな合成データ生成に対する現在のアプローチと比較して1.4$\times$改善する。 さらに,ユーザデータからセマンティクスパーサに新たな機能を追加する現実的なドメイン適応タスクに対する我々のアプローチを検証し,新機能の精度に1.3$\times$の利点を示す。

Task-oriented dialogue systems often assist users with personal or confidential matters. For this reason, the developers of such a system are generally prohibited from observing actual usage. So how can they know where the system is failing and needs more training data or new functionality? In this work, we study ways in which realistic user utterances can be generated synthetically, to help increase the linguistic and functional coverage of the system, without compromising the privacy of actual users. To this end, we propose a two-stage Differentially Private (DP) generation method which first generates latent semantic parses, and then generates utterances based on the parses. Our proposed approach improves MAUVE by 3.8$\times$ and parse tree node-type overlap by 1.4$\times$ relative to current approaches for private synthetic data generation, improving both on fluency and semantic coverage. We further validate our approach on a realistic domain adaptation task of adding new functionality from private user data to a semantic parser, and show gains of 1.3$\times$ on its accuracy with the new feature.
翻訳日:2022-12-21 15:56:05 公開日:2022-12-20
# トランスフォーマーがLOLに挑戦:科学的な抽象概念を端から端へ

Transformers Go for the LOLs: Generating (Humourous) Titles from Scientific Abstracts End-to-End ( http://arxiv.org/abs/2212.10522v1 )

ライセンス: Link先を確認
Yanran Chen and Steffen Eger(参考訳) 我々は、NLPと機械学習の会場から30万以上の抽象タイトルペアを微調整した7つの最新のトランスフォーマーベースモデル(ChatGPTを含む)を探索し、エンドツーエンドの抽象タイトル生成問題を考察する。 拡張として,ユーモラスな紙タイトルを作成することの難しさも考察する。 後者では,NLP/MLドメインの科学論文を対象とした,約2.5kのタイトルからなる,最初の大規模ユーモア注釈データセットをコンパイルする。 人的および自動メトリクスを用いて、すべてのモデルを評価する。 人間の評価は、私たちの最高のエンドツーエンドシステムは、人間の著者と同様の働きをすることを示している(しかし、明らかに少し悪い)。 しかし、面白いタイトルを生成することはより困難であり、我々の自動システムは明らかに人間と比べパフォーマンスが劣り、ユーモアのデータセットアーティファクトを学ぶことが多い。 最後に、ChatGPTは微調整なしで、最高の微調整システムのレベルで動作します。

We consider the end-to-end abstract-to-title generation problem, exploring seven recent transformer based models (including ChatGPT) fine-tuned on more than 30k abstract-title pairs from NLP and machine learning venues. As an extension, we also consider the harder problem of generating humorous paper titles. For the latter, we compile the first large-scale humor annotated dataset for scientific papers in the NLP/ML domains, comprising almost 2.5k titles. We evaluate all models using human and automatic metrics. Our human evaluation suggests that our best end-to-end system performs similarly to human authors (but arguably slightly worse). Generating funny titles is more difficult, however, and our automatic systems clearly underperform relative to humans and often learn dataset artefacts of humor. Finally, ChatGPT, without any fine-tuning, performs on the level of our best fine-tuned system.
翻訳日:2022-12-21 15:55:44 公開日:2022-12-20
# ヘイスタックの針:要約のためのMTurk上の資格労働者の探索分析

Needle in a Haystack: An Analysis of Finding Qualified Workers on MTurk for Summarization ( http://arxiv.org/abs/2212.10397v1 )

ライセンス: Link先を確認
Lining Zhang, Jo\~ao Sedoc, Simon Mille, Yufang Hou, Sebastian Gehrmann, Daniel Deutsch, Elizabeth Clark, Yixin Liu, Miruna Clinciu, Saad Mahamood, Khyathi Chandu(参考訳) Amazon Mechanical Turk(MTurk)のようなクラウドソーシングプラットフォームによる高品質なヒューマンアノテーションの取得は、予想以上に難しい。 アノテーションの品質は、アノテーション命令、ヒューマンインテリジェンスタスク(HIT)設計、アノテータに支払われる賃金など、さまざまな側面に影響される可能性がある。 自動要約システムアウトプットの評価を誤解させる可能性のある低品質のアノテーションを避けるため、3段階の資格パイプラインを通じて高品質なmturkワーカーの採用を検討する。 評価を行う前に悪い労働者をフィルタリングし、リソース使用を最適化しながら高品質なアノテーションを得られることを示す。 本論文は,他の難解なアノテーションタスクにおける有資格注釈者の採用の基礎として機能する。

The acquisition of high-quality human annotations through crowdsourcing platforms like Amazon Mechanical Turk (MTurk) is more challenging than expected. The annotation quality might be affected by various aspects like annotation instructions, Human Intelligence Task (HIT) design, and wages paid to annotators, etc. To avoid potentially low-quality annotations which could mislead the evaluation of automatic summarization system outputs, we investigate the recruitment of high-quality MTurk workers via a three-step qualification pipeline. We show that we can successfully filter out bad workers before they carry out the evaluations and obtain high-quality annotations while optimizing the use of resources. This paper can serve as basis for the recruitment of qualified annotators in other challenging annotation tasks.
翻訳日:2022-12-21 15:49:58 公開日:2022-12-20
# 言語モデルの地理的・地政学的バイアス

Geographic and Geopolitical Biases of Language Models ( http://arxiv.org/abs/2212.10408v1 )

ライセンス: Link先を確認
Fahim Faisal, Antonios Anastasopoulos(参考訳) 事前訓練された言語モデル(PLM)は、トレーニングデータセットにおけるこれらの領域の表現不足のため、特定の世界領域のターゲットユーザを適切に表現できないことが多い。 最近のPLMは膨大なデータソースで訓練されているため、そのブラックボックスの性質とデータソースの厳密なスケールのため、潜在的なバイアスの定量化は難しい。 本研究では, PLM における地理的バイアス(と知識)の研究手法を考案し, 自己条件法とエンティティ・カントリー・マッピングを併用した地理表現探索フレームワークを提案する。 以上の結果から,plmsの表現は,国間関係という観点からは,物理的世界に驚くほどよくマッピングできることが示唆されたが,この知識は言語間で等しく共有されている。 最後に,地理的近接概念を呈するにもかかわらず,測地時の地政学的嗜好を過度に増幅するPLMがいかに大きいかを説明する。

Pretrained language models (PLMs) often fail to fairly represent target users from certain world regions because of the under-representation of those regions in training datasets. With recent PLMs trained on enormous data sources, quantifying their potential biases is difficult, due to their black-box nature and the sheer scale of the data sources. In this work, we devise an approach to study the geographic bias (and knowledge) present in PLMs, proposing a Geographic-Representation Probing Framework adopting a self-conditioning method coupled with entity-country mappings. Our findings suggest PLMs' representations map surprisingly well to the physical world in terms of country-to-country associations, but this knowledge is unequally shared across languages. Last, we explain how large PLMs despite exhibiting notions of geographical proximity, over-amplify geopolitical favouritism at inference time.
翻訳日:2022-12-21 15:49:46 公開日:2022-12-20
# 社会的・道徳的状況の明確化のための難易度リワードを用いた強化的明確化質問生成

Reinforced Clarification Question Generation with Defeasibility Rewards for Disambiguating Social and Moral Situations ( http://arxiv.org/abs/2212.10409v1 )

ライセンス: Link先を確認
Valentina Pyatkin, Jena D. Hwang, Vivek Srikumar, Ximing Lu, Liwei Jiang, Yejin Choi, Chandra Bhagavatula(参考訳) 文脈は常識的な道徳的推論に不可欠である。 「友人に嘘をつく」というのは、騙すつもりなら間違いだが、それを守ろうとすれば道徳的に問題ないかもしれない。 このようなニュアンスだが健全な文脈情報は、行動の道徳的判断を覆す可能性がある。 そこで我々はClarifyDelphiという対話型システムを紹介し,「なぜ友達に嘘をついたのか?」といった明確化の疑問を生じさせることによって,道徳的状況の欠如を誘発する。 我々のアプローチは、潜在的な答えが道徳的判断の多様化に繋がる質問が最も有益なものであるという観察にインスパイアされている。 質問に対する仮説的回答の道徳的判断の相違を最大化することにより,強化学習を用いて質問を生成する。 人的評価は,本システムが他の質問生成ベースラインと比較して,より関連性があり,情報的であり,実現不可能な質問を生成することを示している。 ClarifyDelphiは、社会的および道徳的状況を曖昧にするために、追加の道徳的連続的な文脈を求めることによって、道徳的推論プロセスを支援する。

Context is vital for commonsense moral reasoning. "Lying to a friend" is wrong if it is meant to deceive them, but may be morally okay if it is intended to protect them. Such nuanced but salient contextual information can potentially flip the moral judgment of an action. Thus, we present ClarifyDelphi, an interactive system that elicits missing contexts of a moral situation by generating clarification questions such as "Why did you lie to your friend?". Our approach is inspired by the observation that questions whose potential answers lead to diverging moral judgments are the most informative. We learn to generate questions using Reinforcement Learning, by maximizing the divergence between moral judgements of hypothetical answers to a question. Human evaluation shows that our system generates more relevant, informative and defeasible questions compared to other question generation baselines. ClarifyDelphi assists informed moral reasoning processes by seeking additional morally consequential context to disambiguate social and moral situations.
翻訳日:2022-12-21 15:49:29 公開日:2022-12-20
# 品質に困惑した:多言語ヘテロジニアスwebデータにおける成人および有害コンテンツ検出のためのパープレキシティに基づく手法

Perplexed by Quality: A Perplexity-based Method for Adult and Harmful Content Detection in Multilingual Heterogeneous Web Data ( http://arxiv.org/abs/2212.10440v1 )

ライセンス: Link先を確認
Tim Jansen, Yangling Tong, Victoria Zevallos, Pedro Ortiz Suarez(参考訳) 大規模コーパスの需要が現在の最先端言語モデルのサイズとともに増大するにつれ、これらのモデルの事前学習コーパスの主要部分としてwebデータを使用することは、ユビキタスな実践となっている。 今や、大量のテキストデータを前処理するための高度に最適化されたモデルとパイプラインを開発するという課題に直面しており、これはWebスケールで多言語、異種、ノイズの多いデータを効果的に分類し、フィルタリングすることを意味している。 大規模言語モデルの事前学習コーパスにおけるこの前処理ステップの主な構成要素の1つは、成人および有害なコンテンツの削除である。 本稿では,多言語ヘテロジニアスwebデータにおける成人および有害コンテンツの検出方法について検討する。 まず, 有害コンテンツ検出における従来の手法が, 不均一な web データに直面すると, 小規模で特殊なデータセットで非常にうまく機能することを示す。 いわゆる"クリーン"コーパスを使用して小さな言語モデルをトレーニングし、パープレキシティを使用して低パープレキシティのドキュメントを選択する代わりに、このいわゆる"クリーン"コーパスに最もよく似たドキュメントを選択します。 我々は、成人および有害なテキストデータのみを訓練し、与えられた閾値を超える複雑な値の文書を選択する。 このアプローチは文書を2つの異なるグループに事実上クラスタ化することで、難易度に対するしきい値の選択を大幅に促進し、また、従来の成人および有害なコンテンツの検出方法よりも高い精度を得ることができる。

As demand for large corpora increases with the size of current state-of-the-art language models, using web data as the main part of the pre-training corpus for these models has become a ubiquitous practice. This, in turn, has introduced an important challenge for NLP practitioners, as they are now confronted with the task of developing highly optimized models and pipelines for pre-processing large quantities of textual data, which implies, effectively classifying and filtering multilingual, heterogeneous and noisy data, at web scale. One of the main components of this pre-processing step for the pre-training corpora of large language models, is the removal of adult and harmful content. In this paper we explore different methods for detecting adult and harmful of content in multilingual heterogeneous web data. We first show how traditional methods in harmful content detection, that seemingly perform quite well in small and specialized datasets quickly break down when confronted with heterogeneous noisy web data. We then resort to using a perplexity based approach but with a twist: Instead of using a so-called "clean" corpus to train a small language model and then use perplexity so select the documents with low perplexity, i.e., the documents that resemble this so-called "clean" corpus the most. We train solely with adult and harmful textual data, and then select the documents having a perplexity value above a given threshold. This approach will virtually cluster our documents into two distinct groups, which will greatly facilitate the choice of the threshold for the perplexity and will also allow us to obtain higher precision than with the traditional classification methods for detecting adult and harmful content.
翻訳日:2022-12-21 15:49:09 公開日:2022-12-20
# socratic pretraining: 制御可能な要約のための質問駆動事前トレーニング

Socratic Pretraining: Question-Driven Pretraining for Controllable Summarization ( http://arxiv.org/abs/2212.10449v1 )

ライセンス: Link先を確認
Artidoro Pagnoni, Alexander R. Fabbri, Wojciech Kry\'sci\'nski, Chien-Sheng Wu(参考訳) ラベル付きデータが少ない長い文書管理可能な要約では、事前トレーニングされたモデルはタスクへの適応に苦労し、ユーザクエリに効果的に対応します。 本稿では,要約タスクの制御性を改善するために特別に設計された質問駆動・教師なし事前学習目標であるsocratic pretrainingを提案する。 モデルのトレーニングによって、与えられたコンテキストで関連する質問を生成し、答えることによって、ソクラティック事前学習は、モデルがより効果的にユーザが提供するクエリに準拠し、関連するコンテンツを要約することを可能にする。 本稿では,2つの要約領域,短い物語と対話,およびキーワード,質問,ファクトイドQAペアといった複数の制御戦略の広範な実験を通じて,このアプローチの有効性を実証する。 本手法はラベルなし文書と質問生成システムのみに依存しており,教師ありデータを用いた事前調整手法よりも優れている。 さらに,Socraticプレトレーニングはタスク固有のラベル付きデータ要求を半分に削減し,ユーザが提供するクエリに忠実であり,QMSumとSQuALITYの最先端性能を実現していることを示す。

In long document controllable summarization, where labeled data is scarce, pretrained models struggle to adapt to the task and effectively respond to user queries. In this paper, we introduce Socratic pretraining, a question-driven, unsupervised pretraining objective specifically designed to improve controllability in summarization tasks. By training a model to generate and answer relevant questions in a given context, Socratic pretraining enables the model to more effectively adhere to user-provided queries and identify relevant content to be summarized. We demonstrate the effectiveness of this approach through extensive experimentation on two summarization domains, short stories and dialogue, and multiple control strategies: keywords, questions, and factoid QA pairs. Our pretraining method relies only on unlabeled documents and a question generation system and outperforms pre-finetuning approaches that use additional supervised data. Furthermore, our results show that Socratic pretraining cuts task-specific labeled data requirements in half, is more faithful to user-provided queries, and achieves state-of-the-art performance on QMSum and SQuALITY.
翻訳日:2022-12-21 15:48:39 公開日:2022-12-20
# GPT-3は良いデータアノテーションか?

Is GPT-3 a Good Data Annotator? ( http://arxiv.org/abs/2212.10450v1 )

ライセンス: Link先を確認
Bosheng Ding, Chengwei Qin, Linlin Liu, Lidong Bing, Shafiq Joty, Boyang Li(参考訳) gpt-3(generative pre-trained transformer 3)はopenaiが開発した大規模自己回帰型言語モデルで、幅広い自然言語処理(nlp)タスクで印象的な数発の性能を示している。 したがって、直感的なアプリケーションは、データアノテーションとして使うことです。 本稿では, NLP タスクのためのデータアノテータとして GPT-3 が利用できるかどうかを検討する。 データアノテーションは、機械学習モデルのトレーニングに使用できるデータのラベル付けプロセスである。 モデルが入力データと所望の出力の関係を学習できるようにするため、NLPシステムの開発において重要なステップである。 GPT-3の印象的な言語機能を考えると、NLPタスクのデータに効果的にアノテートできるかどうか疑問に思うのが自然である。 本稿では,GPT-3を従来のデータアノテーション手法と比較し,その出力を様々なタスクで分析することにより,データアノテータとしての性能を評価する。 そこで本研究では,NLPにおける汎用データアノテータとしてのGPT-3の可能性について考察する。

GPT-3 (Generative Pre-trained Transformer 3) is a large-scale autoregressive language model developed by OpenAI, which has demonstrated impressive few-shot performance on a wide range of natural language processing (NLP) tasks. Hence, an intuitive application is to use it for data annotation. In this paper, we investigate whether GPT-3 can be used as a good data annotator for NLP tasks. Data annotation is the process of labeling data that could be used to train machine learning models. It is a crucial step in the development of NLP systems, as it allows the model to learn the relationship between the input data and the desired output. Given the impressive language capabilities of GPT-3, it is natural to wonder whether it can be used to effectively annotate data for NLP tasks. In this paper, we evaluate the performance of GPT-3 as a data annotator by comparing it with traditional data annotation methods and analyzing its output on a range of tasks. Through this analysis, we aim to provide insight into the potential of GPT-3 as a general-purpose data annotator in NLP.
翻訳日:2022-12-21 15:48:18 公開日:2022-12-20
# multi3nlu++:タスク指向対話における自然言語理解のための多言語マルチインテントマルチドメインデータセット

MULTI3NLU++: A Multilingual, Multi-Intent, Multi-Domain Dataset for Natural Language Understanding in Task-Oriented Dialogue ( http://arxiv.org/abs/2212.10455v1 )

ライセンス: Link先を確認
Nikita Moghe, Evgeniia Razumovskaia, Liane Guillou, Ivan Vuli\'c, Anna Korhonen, Alexandra Birch(参考訳) タスク指向対話(TOD)システムは、特定の目標を達成するために、人間のユーザを支援するために様々な領域に応用されている。 システムは通常、単一のドメインや言語のために構築され、それ以上の一般化はしない。 特に他の言語への拡張は、世界中の多くの言語で利用可能なトレーニングデータの不足によって制限されている。 複数の言語とドメインをまたいだtodにおける自然言語理解(nlu)作業を支援するため、マルチ言語、マルチインテント、マルチドメインデータセットであるmulti3nlu++を構築した。 Multi3NLU++は、英語のみのNLU++データセットを拡張して、2つのドメイン(銀行とホテル)で、高、中、低リソース言語(スペイン語、マラティー語、トルコ語、アムハラ語)に手動で翻訳する。 Multi3NLU++は、NLU++のマルチインテントプロパティを継承する。複数のインテントで発話をラベル付けし、ユーザの目標をよりリアルに表現し、商用システムがモデル化するより複雑なタスクと整合させる。 我々はmulti3nlu++を用いて,多言語環境におけるtodシステムのインテント検出タスクのための機械翻訳と質問応答システムのベンチマークを行った。 結果は、特に低リソース言語設定において、データセットの困難な性質を示している。

Task-oriented dialogue (TOD) systems have been applied in a range of domains to support human users to achieve specific goals. Systems are typically constructed for a single domain or language and do not generalise well beyond this. Their extension to other languages in particular is restricted by the lack of available training data for many of the world's languages. To support work on Natural Language Understanding (NLU) in TOD across multiple languages and domains simultaneously, we constructed MULTI3NLU++, a multilingual, multi-intent, multi-domain dataset. MULTI3NLU++ extends the English-only NLU++ dataset to include manual translations into a range of high, medium and low resource languages (Spanish, Marathi, Turkish and Amharic), in two domains (banking and hotels). MULTI3NLU++ inherits the multi-intent property of NLU++, where an utterance may be labelled with multiple intents, providing a more realistic representation of a user's goals and aligning with the more complex tasks that commercial systems aim to model. We use MULTI3NLU++ to benchmark state-of-the-art multilingual language models as well as Machine Translation and Question Answering systems for the NLU task of intent detection for TOD systems in the multilingual setting. The results demonstrate the challenging nature of the dataset, particularly in the low-resource language setting.
翻訳日:2022-12-21 15:47:59 公開日:2022-12-20
# Go-tuning: より小さな言語モデルのゼロショット学習能力を改善する

Go-tuning: Improving Zero-shot Learning Abilities of Smaller Language Models ( http://arxiv.org/abs/2212.10461v1 )

ライセンス: Link先を確認
Jingjing Xu, Qingxiu Dong, Hongyi Liu and Lei Li(参考訳) 大規模化に伴い、大規模言語モデルは、特にGPT-3のようなゼロショット学習者として、量的改善と新しい定性的能力の両方を示す。 しかし、これらの結果は繊細な素早い設計と大規模な計算に大きく依存している。 本研究では,外部の教師付きデータなしで,より小さなモデルスケールで強力なゼロショット能力を実現することができるか検討する。 この目的を達成するために,マスキング型言語モデルを再検討し,少数のタスク認識型自己教師付きデータを用いて言語モデルをさらに更新することにより,幾何学的ガイド付き自己教師付き学習手法(go-tuning)を提案する。 実験により、Goチューニングにより、T5-XL (3B)のような大きな言語モデルと比較して、T5-小 (80M) の競合ゼロショット結果が得られることが示された。 また,マルチタスク設定にGo-tuningを適用し,マルチタスクモデルであるmgo-T5(250M)を開発した。 9つのデータセット上で OPT (175B) の平均パフォーマンスに達することができる。

With increasing scale, large language models demonstrate both quantitative improvement and new qualitative capabilities, especially as zero-shot learners, like GPT-3. However, these results rely heavily on delicate prompt design and large computation. In this work, we explore whether the strong zero-shot ability could be achieved at a smaller model scale without any external supervised data. To achieve this goal, we revisit masked language modeling and present a geometry-guided self-supervised learning method (Go-tuningfor short) by taking a small number of task-aware self-supervised data to update language models further. Experiments show that Go-tuning can enable T5-small (80M) competitive zero-shot results compared with large language models, such as T5-XL (3B). We also apply Go-tuning on multi-task settings and develop a multi-task model, mgo-T5 (250M). It can reach the average performance of OPT (175B) on 9 datasets.
翻訳日:2022-12-21 15:47:34 公開日:2022-12-20
# SODA:ソーシャル・コモンセンス・コンテクスト化による数百万件のダイアログ蒸留

SODA: Million-scale Dialogue Distillation with Social Commonsense Contextualization ( http://arxiv.org/abs/2212.10465v1 )

ライセンス: Link先を確認
Hyunwoo Kim, Jack Hessel, Liwei Jiang, Ximing Lu, Youngjae Yu, Pei Zhou, Ronan Le Bras, Malihe Alikhani, Gunhee Kim, Maarten Sap, Yejin Choi(参考訳) 我々は,初めて公開され,100万規模の社会対話データセットであるSODAを提示する。 sodaを使用することで、cosmoをトレーニングする:ドメイン内データセットとドメイン外データセットの両方において、以前のベストパフォーマンスエージェントよりもパフォーマンスがよい、汎用的な会話エージェントです。 既存のクラウドソースの小規模対話コーパスとは対照的に,事前学習した言語モデル(instructgpt; ouyang et al., 2022)から150万のソーシャルグラウンド対話を抽出した。 ナレッジグラフ(atomic10x; west et al., 2022)から社会常識知識を文脈化することで対話を蒸留する。 人間による評価では、SODAの対話は従来の人間によるデータセット(例えば DailyDialog (Li et al., 2017), BlendedSkillTalk (Smith et al., 2020))よりも一貫性があり、具体的で、そして(当然ながら)自然なものである。 さらに、COSMOは最高のパフォーマンスの対話モデルであるGODEL(Peng et al., 2022)、BlenderBot(Roller et al., 2021)、DialoGPT(Zhang et al., 2020)よりもはるかに自然で一貫性のあるデータセットであることを示している。 また、本来の人書きの金の反応よりも好まれることもある。 データ、モデル、コードを公開しています。

We present SODA: the first publicly available, million-scale high-quality social dialogue dataset. Using SODA, we train COSMO: a generalizable conversation agent outperforming previous best-performing agents on both in- and out-of-domain datasets. In contrast to most existing crowdsourced, small-scale dialogue corpora, we distill 1.5M socially-grounded dialogues from a pre-trained language model (InstructGPT; Ouyang et al., 2022). Dialogues are distilled by contextualizing social commonsense knowledge from a knowledge graph (Atomic10x; West et al., 2022). Human evaluation shows that dialogues in SODA are more consistent, specific, and (surprisingly) natural than prior human-authored datasets - e.g., DailyDialog (Li et al., 2017), BlendedSkillTalk (Smith et al., 2020). In addition, extensive evaluations show that COSMO is significantly more natural and consistent on unseen datasets than best-performing dialogue models - e.g., GODEL (Peng et al., 2022), BlenderBot (Roller et al., 2021), DialoGPT (Zhang et al., 2020). Furthermore, it is sometimes even preferred to the original human-written gold responses. We make our data, models, and code public.
翻訳日:2022-12-21 15:47:16 公開日:2022-12-20
# 言語制約を伴う制御可能なテキスト生成

Controllable Text Generation with Language Constraints ( http://arxiv.org/abs/2212.10466v1 )

ライセンス: Link先を確認
Howard Chen, Huihan Li, Danqi Chen, Karthik Narasimhan(参考訳) 自然言語に制約のある言語モデルにおけるテキスト生成の課題について考察する。 この目的のために、私たちはまず、サンプルテキストを含むモデルのトピックへの入力として、回避すべきテキストに対する制約を提供する、挑戦的なベンチマークであるCognacを作成しました。 これまでの作業とは異なり、我々のベンチマークにはWordnetやWikidataといったデータベースからの知識集約的な制約が含まれており、広い属性レベルと狭い語彙レベルのコントロールのバランスを保ちながら、簡単に評価できる。 GPT-3のような最先端の言語モデルでさえ、このタスクでは頻繁に失敗し、生成をガイドするために言語モデルの内部知識を活用するソリューションを提案する。 提案手法はCognacGenと呼ばれ,まず言語モデルに問い合わせて,特定のトピックや制約に対するガイダンス項を生成し,そのガイダンスを用いて,モデルのトークン生成確率を変化させる。 本稿では,3種類のガイダンス(バイナリ検証,トップkトークン,テキスト例)を提案し,様々な自然言語制約に取り組むためのガイダンスを蒸留するプレフィックスチューニング手法を採用する。 広範な経験的評価を通じて,コニャックジェネレーションが不明瞭な命令に一般化し,制約に適合するテキストを生成する際の競争ベースラインよりも優れていることを示す。

We consider the task of text generation in language models with constraints specified in natural language. To this end, we first create a challenging benchmark Cognac that provides as input to the model a topic with example text, along with a constraint on text to be avoided. Unlike prior work, our benchmark contains knowledge-intensive constraints sourced from databases like Wordnet and Wikidata, which allows for straightforward evaluation while striking a balance between broad attribute-level and narrow lexical-level controls. We find that even state-of-the-art language models like GPT-3 fail often on this task, and propose a solution to leverage a language model's own internal knowledge to guide generation. Our method, called CognacGen, first queries the language model to generate guidance terms for a specified topic or constraint, and uses the guidance to modify the model's token generation probabilities. We propose three forms of guidance (binary verifier, top-k tokens, textual example), and employ prefix-tuning approaches to distill the guidance to tackle diverse natural language constraints. Through extensive empirical evaluations, we demonstrate that CognacGen can successfully generalize to unseen instructions and outperform competitive baselines in generating constraint conforming text.
翻訳日:2022-12-21 15:46:47 公開日:2022-12-20
# オリジナルか翻訳か? 翻訳品質推定における並列データの利用について

Original or Translated? On the Use of Parallel Data for Translation Quality Estimation ( http://arxiv.org/abs/2212.10257v1 )

ライセンス: Link先を確認
Baopu Qiu, Liang Ding, Di Wu, Lin Shang, Yibing Zhan, Dacheng Tao(参考訳) 機械翻訳品質評価(英: Machine Translation Quality Estimation, QE)は、人手による参照のない翻訳結果を評価するタスクである。 人間のラベル付きQEデータの不足により、従来の研究は、豊富なラベル付き並列コーパスを使用して、擬似ラベルを用いた追加のトレーニングデータを作成しようとした。 本稿では、並列データと実際のqeデータとの間に大きなギャップを示す。 qeデータでは、ソース側が原文であり、ターゲット側が翻訳される(すなわち翻訳)ことが厳密に保証される。 しかし、並列データの場合、それは無差別であり、翻訳はソースまたはターゲットのどちら側でも起こりうる。 qeデータ拡張における並列データの影響を異なる翻訳方向と比較し,並列コーパスの原元部分の使用が,対象とするコーパスよりも一貫して優れていることを見出した。 また、wmtコーパスは、並列文毎に方向情報を欠いているため、ソース文とターゲット元のバイテキストを区別するために分類器を訓練し、スタイルとドメインの差異を分析する。 これらの結果から,QEデータ拡張にソース由来の並列データを用いることで,文レベルおよび単語レベルのQEタスクにおける未分化データと比較して,最大4.0%と6.4%の改善が得られた。

Machine Translation Quality Estimation (QE) is the task of evaluating translation output in the absence of human-written references. Due to the scarcity of human-labeled QE data, previous works attempted to utilize the abundant unlabeled parallel corpora to produce additional training data with pseudo labels. In this paper, we demonstrate a significant gap between parallel data and real QE data: for QE data, it is strictly guaranteed that the source side is original texts and the target side is translated (namely translationese). However, for parallel data, it is indiscriminate and the translationese may occur on either source or target side. We compare the impact of parallel data with different translation directions in QE data augmentation, and find that using the source-original part of parallel corpus consistently outperforms its target-original counterpart. Moreover, since the WMT corpus lacks direction information for each parallel sentence, we train a classifier to distinguish source- and target-original bitext, and carry out an analysis of their difference in both style and domain. Together, these findings suggest using source-original parallel data for QE data augmentation, which brings a relative improvement of up to 4.0% and 6.4% compared to undifferentiated data on sentence- and word-level QE tasks respectively.
翻訳日:2022-12-21 15:41:09 公開日:2022-12-20
# beyond triplet: マルチモーダル機械翻訳に最も多いデータを活用する

Beyond Triplet: Leveraging the Most Data for Multimodal Machine Translation ( http://arxiv.org/abs/2212.10313v1 )

ライセンス: Link先を確認
Yaoming Zhu, Zewei Sun, Shanbo Cheng, Yuyang Huang, Liwei Wu, Mingxuan Wang(参考訳) マルチモーダル機械翻訳(MMT)は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。 従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。 これらの研究は2つの課題に直面している。 第一に、3つのデータ(画像付きバイリンガルテキスト)しか利用できず、第2に、現在のベンチマークは相対的に制限されており、現実的なシナリオに対応していない。 そこで本稿では,MTのための新しい手法と新しいデータセットについて述べる。 まず,大規模な非トリプルデータ(モノリンガル画像テキストデータと並列テキストのみのデータ)を活用することでMTの強化を図るためのフレームワーク2/3-Tripletを提案する。 第二に、emmtという英語-中国語の商業用{m}ulti{m}odal {t}ranslationデータセット(訓練とテストを含む)を構築し、ある単語が曖昧であるためにテストセットを慎重に選択し、画像の助けなしに誤って翻訳する。 実験の結果,本手法は実世界のシナリオに適しており,非トリプルデータを用いることで翻訳性能を大幅に向上できることがわかった。 さらに,従来のマルチモーダル翻訳ベンチマークでは,様々なSOTAモデルと競合する。

Multimodal machine translation (MMT) aims to improve translation quality by incorporating information from other modalities, such as vision. Previous MMT systems mainly focus on better access and use of visual information and tend to validate their methods on image-related datasets. These studies face two challenges. First, they can only utilize triple data (bilingual texts with images), which is scarce; second, current benchmarks are relatively restricted and do not correspond to realistic scenarios. Therefore, this paper correspondingly establishes new methods and new datasets for MMT. First, we propose a framework 2/3-Triplet with two new approaches to enhance MMT by utilizing large-scale non-triple data: monolingual image-text data and parallel text-only data. Second, we construct an English-Chinese {e}-commercial {m}ulti{m}odal {t}ranslation dataset (including training and testing), named EMMT, where its test set is carefully selected as some words are ambiguous and shall be translated mistakenly without the help of images. Experiments show that our method is more suitable for real-world scenarios and can significantly improve translation performance by using more non-triple data. In addition, our model also rivals various SOTA models in conventional multimodal translation benchmarks.
翻訳日:2022-12-21 15:40:45 公開日:2022-12-20
# HINT: 効率的なゼロショット一般化のためのハイパーネットワーク命令チューニング

HINT: Hypernetwork Instruction Tuning for Efficient Zero-Shot Generalisation ( http://arxiv.org/abs/2212.10315v1 )

ライセンス: Link先を確認
Hamish Ivison and Akshita Bhagia and Yizhong Wang and Hannaneh Hajishirzi and Matthew Peters(参考訳) 近年のNLPモデルでは、指示を指導としてのみ使用して「ゼロショット」を新しいタスクに一般化する能力がある。 しかし、これらのアプローチは通常全ての入力で命令を繰り返し、推論例ごとに長い命令を再処理する必要がある。 これを軽減するために,HINT(Hypernetworks for Instruction Tuning)を導入し,事前学習したテキストエンコーダを使ってタスク命令や例をパラメータ効率のよいモジュールに変換し,モデル入力に命令を組み込む必要をなくした。 すべての入力インスタンスと命令を結合する従来のアプローチと比較すると、HINTモデルは計算効率が著しく良く、所定の推論予算のためにこれらのアプローチよりも一貫して優れています。

Recent NLP models have the great ability to generalise `zero-shot' to new tasks using only an instruction as guidance. However, these approaches usually repeat their instructions with every input, requiring costly reprocessing of lengthy instructions for every inference example. To alleviate this, we introduce Hypernetworks for INstruction Tuning (HINT), which convert task instructions and examples using a pretrained text encoder into parameter-efficient modules inserted into an underlying model, eliminating the need to include instructions in the model input. Compared to prior approaches that concatenate instructions with every input instance, we find that HINT models are significantly more compute-efficient and consistently outperform these approaches for a given inference budget.
翻訳日:2022-12-21 15:40:23 公開日:2022-12-20
# SeqDiffuSeq: Encoder-Decoder変換器によるテキスト拡散

SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers ( http://arxiv.org/abs/2212.10325v1 )

ライセンス: Link先を確認
Hongyi Yuan, Zheng Yuan, Chuanqi Tan, Fei Huang, Songfang Huang(参考訳) 新しい生成モデルパラダイムである拡散モデルは、画像、オーディオ、ビデオ生成において大きな成功を収めている。 しかし、テキストの離散的分類学的性質を考えると、連続拡散モデルを自然言語に拡張することは自明ではなく、テキスト拡散モデルはあまり研究されていない。 シーケンスからシーケンスへのテキスト生成は、自然言語処理の重要なトピックの1つです。 本研究では,逐次テキスト生成に拡散モデルを適用し,拡散モデルの優越性生成性能が自然言語領域に転移できるかどうかを検討する。 シーケンス列生成のためのテキスト拡散モデルであるseqdiffuseqを提案する。 SeqDiffuSeqはEncoder-decoder Transformersアーキテクチャを使ってデノナイジング関数をモデル化している。 生成品質を向上させるため、seqdiffuseqは、自己調整技術と新しく提案された適応型ノイズスケジュール技術を組み合わせた。 適応ノイズスケジュールは、時間ステップにまたがって均等に分散する難しさがあり、異なる位置順でトークンの排他的ノイズスケジュールを考える。 実験結果は,テキスト品質と推論時間の観点から,シーケンス列生成における優れた性能を示す。

Diffusion model, a new generative modelling paradigm, has achieved great success in image, audio, and video generation. However, considering the discrete categorical nature of text, it is not trivial to extend continuous diffusion models to natural language, and text diffusion models are less studied. Sequence-to-sequence text generation is one of the essential natural language processing topics. In this work, we apply diffusion models to approach sequence-to-sequence text generation, and explore whether the superiority generation performance of diffusion model can transfer to natural language domain. We propose SeqDiffuSeq, a text diffusion model for sequence-to-sequence generation. SeqDiffuSeq uses an encoder-decoder Transformers architecture to model denoising function. In order to improve generation quality, SeqDiffuSeq combines the self-conditioning technique and a newly proposed adaptive noise schedule technique. The adaptive noise schedule has the difficulty of denoising evenly distributed across time steps, and considers exclusive noise schedules for tokens at different positional order. Experiment results illustrate the good performance on sequence-to-sequence generation in terms of text quality and inference time.
翻訳日:2022-12-21 15:40:06 公開日:2022-12-20
# CoCo: コントラスト学習によるデータ制限下でのコヒーレンス強化機械によるテキスト検出

CoCo: Coherence-Enhanced Machine-Generated Text Detection Under Data Limitation With Contrastive Learning ( http://arxiv.org/abs/2212.10341v1 )

ライセンス: Link先を確認
Xiaoming Liu, Zhaohan Zhang, Yichen Wang, Yu Lan, Chao Shen(参考訳) HWT(Human-Written Text)からMGTを識別するタスクであるMGT検出(Machine-Generated Text)は,近年,人間の書体スタイルを模倣するテキスト生成モデルの誤用を防止する上で重要な役割を担っている。 最新の検出器は通常、粗いテキストシーケンスを入力として、標準のクロスエントロピー損失を持つ微調整されたモデルによって良い結果を出力する。 しかし、これらの手法はテキストの言語的側面(例えばコヒーレンス)や文レベルの構造を考慮できない。 さらに、オンラインの膨大なテキストデータを考えると、実際に起こりうる低リソースの問題に対処する能力が欠如している。 本稿では,コヒーレンスに基づくコントラスト学習モデルCoCoを提案する。 言語的特徴の特異性と永続性に着想を得て、テキストをコヒーレンスグラフとして表現し、そのエンティティの一貫性を捉え、事前訓練されたモデルとグラフニューラルネットワークによってさらに符号化される。 データ制限の課題に取り組むため,我々はコントラスト学習フレームワークを採用し,トレーニング段階でハードネガティブなサンプルをフル活用するためのコントラスト損失の改善を提案する。 2つの公開データセットに対する実験結果は、我々のアプローチが最先端の手法を大きく上回っていることを証明している。

Machine-Generated Text (MGT) detection, a task that discriminates MGT from Human-Written Text (HWT), plays a crucial role in preventing misuse of text generative models, which excel in mimicking human writing style recently. Latest proposed detectors usually take coarse text sequence as input and output some good results by fine-tune pretrained models with standard cross-entropy loss. However, these methods fail to consider the linguistic aspect of text (e.g., coherence) and sentence-level structures. Moreover, they lack the ability to handle the low-resource problem which could often happen in practice considering the enormous amount of textual data online. In this paper, we present a coherence-based contrastive learning model named CoCo to detect the possible MGT under low-resource scenario. Inspired by the distinctiveness and permanence properties of linguistic feature, we represent text as a coherence graph to capture its entity consistency, which is further encoded by the pretrained model and graph neural network. To tackle the challenges of data limitations, we employ a contrastive learning framework and propose an improved contrastive loss for making full use of hard negative samples in training stage. The experiment results on two public datasets prove our approach outperforms the state-of-art methods significantly.
翻訳日:2022-12-21 15:39:50 公開日:2022-12-20
# 変圧器長の補間を可能にする受容磁場アライメント

Receptive Field Alignment Enables Transformer Length Extrapolation ( http://arxiv.org/abs/2212.10356v1 )

ライセンス: Link先を確認
Ta-Chung Chi and Ting-Han Fan and Alexander I. Rudnicky(参考訳) 長長補間は、短いシーケンス上でトランスフォーマー言語モデルをトレーニングし、モデルがかなり長いシーケンスでテストされるときに同様の難易度を維持することができる望ましい特性である。 変圧器自己アテンション行列 ALiBi に印加された相対的な位置埋め込み機構は、これまでで最も広く使われている長さ外挿特性を示す。 本報告では,albiがトレーニングシーケンス長以上のトークンを驚くほど利用していないことを示し,トレーニングとテストの段階で受容野に合わせた暗黙の窓付き注意効果によって説明できる。 アリバイと受容的アライメント仮説に触発されて, 訓練シーケンス長情報よりも長い情報を用いる--\textbf{sandwich} という別のトランスフォーマティブ位置埋め込み設計を提案し, 初期の正弦波位置埋め込み法を単純化した。 最後に,albi と sandwich が暗黙の窓付き注意効果により効率的な推論を可能にすることを示す。

Length extrapolation is a desirable property that permits training a transformer language model on short sequences and retaining similar perplexities when the model is tested on substantially longer sequences. A relative positional embedding mechanism applied on the transformer self-attention matrix, ALiBi, demonstrates the length extrapolation property with the widest usage to date. In this paper, we show that ALiBi surprisingly does not utilize tokens further than the training sequence length, which can be explained by its implicit windowed attention effect that aligns the receptive field during training and testing stages. Inspired by ALiBi and the receptive filed alignment hypothesis, we propose another transformer positional embedding design named~\textbf{Sandwich} that uses longer than training sequence length information, and it is a greatly simplified formulation of the earliest proposed Sinusoidal positional embedding. Finally, we show that both ALiBi and Sandwich enable efficient inference thanks to their implicit windowed attention effect.
翻訳日:2022-12-21 15:39:25 公開日:2022-12-20
# Careful Data Curationはコンテキスト内学習を安定化する

Careful Data Curation Stabilizes In-context Learning ( http://arxiv.org/abs/2212.10378v1 )

ライセンス: Link先を確認
Ting-Yun Chang and Robin Jia(参考訳) In-context Learning (ICL) は、大規模言語モデル(LLM)が訓練例を列挙することで、新しいタスクを実行することを可能にする。 しかし、ICLはトレーニング例の選択に非常に敏感で、トレーニングセットからランダムにサンプルをサンプリングすると、パフォーマンスのばらつきが高くなります。 本稿では,注意深く選択されたトレーニングデータのサブセットのキュレーションがicl性能を著しく安定化することを示す。 そこで本研究では,訓練用部分集合を選択するための2つの方法を提案する。 CondAccは、ランダムなトレーニング例と組み合わせた場合の平均ICL精度でトレーニング例をスコアし、Datamodelsは、各トレーニング例の存在がLLM精度に与える影響を見積もる線形プロキシモデルを学ぶ。 平均して、CondAccとDatamodelsは5つのタスクと2つのLLMで、トレーニングセット全体のサンプリングを7.7%と6.3%で上回っている。 解析の結果,安定な部分集合の例は平均値ほど多様ではなく,シーケンス長やパープレキシティの点では外れ値ではないことがわかった。

In-context learning (ICL) enables large language models (LLMs) to perform new tasks by prompting them with a sequence of training examples. However, ICL is very sensitive to the choice of training examples: randomly sampling examples from a training set leads to high variance in performance. In this paper, we show that curating a carefully chosen subset of training data greatly stabilizes ICL performance. We propose two methods to choose training subsets, both of which score training examples individually and then select the highest-scoring ones. CondAcc scores a training example by its average ICL accuracy when combined with random training examples, while Datamodels learns a linear proxy model that estimates how the presence of each training example influences LLM accuracy. On average, CondAcc and Datamodels outperform sampling from the entire training set by 7.7% and 6.3%, respectively, across 5 tasks and two LLMs. Our analysis shows that stable subset examples are no more diverse than average, and are not outliers in terms of sequence length and perplexity.
翻訳日:2022-12-21 15:39:07 公開日:2022-12-20
# 適応する、または注釈する:オープンドメイン質問応答におけるドメイン適応の挑戦と介入

To Adapt or to Annotate: Challenges and Interventions for Domain Adaptation in Open-Domain Question Answering ( http://arxiv.org/abs/2212.10381v1 )

ライセンス: Link先を確認
Dheeru Dua, Emma Strubell, Sameer Singh, Pat Verga(参考訳) オープンドメイン質問応答(ODQA)の最近の進歩は、標準ウィキペディアスタイルのベンチマークで顕著な精度を示している。 しかし、これらのモデルがどの程度堅牢で、非常に異なるドメインの現実のアプリケーションに適用された場合、どれだけうまく機能するかは、あまり明らかではない。 ODQAモデルがドメイン外一般化(OOD)のためにテストされた場合、どのように機能するかを調査する研究はいくつかあるが、これらの研究はデータ分散の保守的なシフトの下でのみ行われ、一般的にエンドツーエンドシステムではなく単一のコンポーネント(すなわち検索)に焦点を当てている。 そこで本研究では,より現実的で難解なドメインシフト評価設定を提案し,広範囲な実験を行い,エンドツーエンドモデルの性能について検討する。 モデルが一般化に失敗するだけでなく、高い検索スコアが解答予測の精度を低下させることもしばしばある。 次に、異なる種類のシフトを分類し、新しいデータセットを提示すると、介入方法が成功するかどうかを予測する手法を提案する。 最後に, この分析から得られた知見を用いて, 終末回答F1スコアを最大24ポイント改善する介入手法を提案し, 評価する。

Recent advances in open-domain question answering (ODQA) have demonstrated impressive accuracy on standard Wikipedia style benchmarks. However, it is less clear how robust these models are and how well they perform when applied to real-world applications in drastically different domains. While there has been some work investigating how well ODQA models perform when tested for out-of-domain (OOD) generalization, these studies have been conducted only under conservative shifts in data distribution and typically focus on a single component (ie. retrieval) rather than an end-to-end system. In response, we propose a more realistic and challenging domain shift evaluation setting and, through extensive experiments, study end-to-end model performance. We find that not only do models fail to generalize, but high retrieval scores often still yield poor answer prediction accuracy. We then categorize different types of shifts and propose techniques that, when presented with a new dataset, predict if intervention methods are likely to be successful. Finally, using insights from this analysis, we propose and evaluate several intervention methods which improve end-to-end answer F1 score by up to 24 points.
翻訳日:2022-12-21 15:38:47 公開日:2022-12-20
# TeSS: テキスト類似性によるゼロショット分類と文エンコーダを用いたプロンプトの比較

TeSS: Zero-Shot Classification via Textual Similarity Comparison with Prompting using Sentence Encoder ( http://arxiv.org/abs/2212.10391v1 )

ライセンス: Link先を確認
Jimin Hong, Jungsoo Park, Daeyoung Kim, Seongjae Choi, Bokyung Son, and Jaewook Kang(参考訳) 入力テキストと各候補ラベルプロンプトの埋め込み類似性により、割り当てられたラベルが決定されるゼロショット分類のためのフレームワークであるTeSS(Text similarity Comparison using Sentence Encoder)を紹介する。 文エンコーダの表現を利用して,事前学習中の埋め込み空間において,意味的に類似したサンプルを互いに近接して配置する。 ラベルプロンプト埋め込みは、対応するクラスクラスタのプロトタイプとして機能する。 さらに、原文のラベルを補うために、外部コーパスから意味論的に類似した文を検索し、原文のラベルプロンプト(TeSS-R)を付加する。 TeSSは、ゼロショット設定の下で、様々なクローズドセットとオープンセットの分類データセットの強いベースラインを上回り、検索によるラベルプロンプトの多様化と組み合わせることでさらに向上する。 これらの結果は、バイエンコーダの使用の副次的な利点である動詞化のバリエーションに対して頑健に達成される。 全体として,ゼロショット分類の信頼性の高いベースラインであり,文エンコーダの品質評価のための簡単なインタフェースである。

We introduce TeSS (Text Similarity Comparison using Sentence Encoder), a framework for zero-shot classification where the assigned label is determined by the embedding similarity between the input text and each candidate label prompt. We leverage representations from sentence encoders optimized to locate semantically similar samples closer to each other in embedding space during pre-training. The label prompt embeddings serve as prototypes of their corresponding class clusters. Furthermore, to compensate for the potentially poorly descriptive labels in their original format, we retrieve semantically similar sentences from external corpora and additionally use them with the original label prompt (TeSS-R). TeSS outperforms strong baselines on various closed-set and open-set classification datasets under zero-shot setting, with further gains when combined with label prompt diversification through retrieval. These results are robustly attained to verbalizer variations, an ancillary benefit of using a bi-encoder. Altogether, our method serves as a reliable baseline for zero-shot classification and a simple interface to assess the quality of sentence encoders.
翻訳日:2022-12-21 15:38:26 公開日:2022-12-20
# 反事実推論と逆バイアス学習による姿勢偏差検出モデル

Debiasing Stance Detection Models with Counterfactual Reasoning and Adversarial Bias Learning ( http://arxiv.org/abs/2212.10392v1 )

ライセンス: Link先を確認
Jianhua Yuan and Yanyan Zhao and Bing Qin(参考訳) スタンス検出モデルは、テキスト部分のデータセットバイアスをショートカットとして依存する傾向があるため、ターゲットとテキスト間のインタラクションを十分に学習できない場合がある。 近年のデバイアス法では,小規模なモデルや大型モデルで学習した特徴をバイアス特性として扱うことが多い。 しかし、これらのメソッドのほとんどは、テキスト部分の ``good'' のスタンス特徴と ``bad'' のバイアス特徴を乱すことができない。 本稿では,姿勢検出におけるデータセットバイアスの軽減方法について検討する。 因果的効果を動機として,テキスト部分のデータセットバイアスをテキストのスタンスに対する直接的な因果的効果として捉え,全因果的効果から直接テキスト効果を減じることによりテキスト部分のデータセットバイアスを低減する,新たな因果的推論フレームワークを活用する。 我々は, バイアス特徴を, 姿勢ラベルに関連付けるが, 中間姿勢推論サブタスクでは失敗する特徴として新規にモデル化し, バイアスをより正確にモデル化するための逆バイアス学習モジュールを提案する。 テキストとターゲット間の相互作用をより良くモデル化できるかどうかを検証するため,最近提案したテストセットを用いて,タスクの理解を様々な側面から評価する。 実験により,提案手法はバイアス特性をモデル化し,(2)既存のデバイアスベースラインを元のデータセットと新たに構築されたテストセットの双方で上回ることを示した。

Stance detection models may tend to rely on dataset bias in the text part as a shortcut and thus fail to sufficiently learn the interaction between the targets and texts. Recent debiasing methods usually treated features learned by small models or big models at earlier steps as bias features and proposed to exclude the branch learning those bias features during inference. However, most of these methods fail to disentangle the ``good'' stance features and ``bad'' bias features in the text part. In this paper, we investigate how to mitigate dataset bias in stance detection. Motivated by causal effects, we leverage a novel counterfactual inference framework, which enables us to capture the dataset bias in the text part as the direct causal effect of the text on stances and reduce the dataset bias in the text part by subtracting the direct text effect from the total causal effect. We novelly model bias features as features that correlate with the stance labels but fail on intermediate stance reasoning subtasks and propose an adversarial bias learning module to model the bias more accurately. To verify whether our model could better model the interaction between texts and targets, we test our model on recently proposed test sets to evaluate the understanding of the task from various aspects. Experiments demonstrate that our proposed method (1) could better model the bias features, and (2) outperforms existing debiasing baselines on both the original dataset and most of the newly constructed test sets.
翻訳日:2022-12-21 15:38:05 公開日:2022-12-20
# 相関関係を用いた文書レベル関係抽出

Document-level Relation Extraction with Relation Correlations ( http://arxiv.org/abs/2212.10171v1 )

ライセンス: Link先を確認
Ridong Han, Tao Peng, Benyou Wang, Lu Liu, Xiang Wan(参考訳) 文書レベルの関係抽出は,長期問題と複数ラベル問題という,見落とされた2つの課題に直面している。 これまでの作業は主にエンティティペアのコンテキスト表現の改善に重点を置いていた。 本稿では,関係の共起相関を解析し,DocREタスクに初めて導入する。 この相関関係は,データリッチ関係とデータscarce関係の知識を伝達し,末尾関係の訓練を支援するだけでなく,複数ラベルエンティティ対の意味的に密接な関係を識別するために分類器を誘導する意味的距離を反映している。 具体的には,関係埋め込みを媒体として使用し,粗い視点ときめ細かい視点から2つの共起予測サブタスクを提案し,相関関係を捉える。 最後に、学習された相関認識埋め込みを用いて関係事実の抽出を導く。 本稿では,2つのDocREデータセットに関する実測実験を行い,ベースラインよりも優れた結果を得た。 洞察的な分析はまた、上記の課題に対処するために相関関係の可能性を示す。

Document-level relation extraction faces two overlooked challenges: long-tail problem and multi-label problem. Previous work focuses mainly on obtaining better contextual representations for entity pairs, hardly address the above challenges. In this paper, we analyze the co-occurrence correlation of relations, and introduce it into DocRE task for the first time. We argue that the correlations can not only transfer knowledge between data-rich relations and data-scarce ones to assist in the training of tailed relations, but also reflect semantic distance guiding the classifier to identify semantically close relations for multi-label entity pairs. Specifically, we use relation embedding as a medium, and propose two co-occurrence prediction sub-tasks from both coarse- and fine-grained perspectives to capture relation correlations. Finally, the learned correlation-aware embeddings are used to guide the extraction of relational facts. Substantial experiments on two popular DocRE datasets are conducted, and our method achieves superior results compared to baselines. Insightful analysis also demonstrates the potential of relation correlations to address the above challenges.
翻訳日:2022-12-21 15:32:09 公開日:2022-12-20
# 言語間伝達学習における並列データの役割について

On the Role of Parallel Data in Cross-lingual Transfer Learning ( http://arxiv.org/abs/2212.10173v1 )

ライセンス: Link先を確認
Machel Reid and Mikel Artetxe(参考訳) 従来の研究は、並列データの使用が言語間学習に有効であることを確認したが、改善がデータ自体から来るのか、それが重要な並列インタラクションのモデリングなのかは定かではない。 本研究では,教師なし機械翻訳を用いて合成並列データを生成し,教師なし機械翻訳とゴールド並列データとの比較を行った。 モデル生成の並列データでさえも、通常の設定(継続前訓練)とタスク固有の設定(トランザクタ-トレイン)の両方において下流タスクに有用であるが、最良の結果はまだ実際の並列データを使って得られている。 本研究は,既存の多言語モデルがモノリンガルデータの潜在能力を最大限活用していないことを示唆し,従来の言語間学習アプローチの分類を再考する。

While prior work has established that the use of parallel data is conducive for cross-lingual learning, it is unclear if the improvements come from the data itself, or if it is the modeling of parallel interactions that matters. Exploring this, we examine the usage of unsupervised machine translation to generate synthetic parallel data, and compare it to supervised machine translation and gold parallel data. We find that even model generated parallel data can be useful for downstream tasks, in both a general setting (continued pretraining) as well as the task-specific setting (translate-train), although our best results are still obtained using real parallel data. Our findings suggest that existing multilingual models do not exploit the full potential of monolingual data, and prompt the community to reconsider the traditional categorization of cross-lingual learning approaches.
翻訳日:2022-12-21 15:31:51 公開日:2022-12-20
# 誤り解析を用いた自然言語生成のための人間的評価

Toward Human-Like Evaluation for Natural Language Generation with Error Analysis ( http://arxiv.org/abs/2212.10179v1 )

ライセンス: Link先を確認
Qingyu Lu, Liang Ding, Liping Xie, Kanjian Zhang, Derek F. Wong, Dacheng Tao(参考訳) BARTScoreのような最先端の言語モデルに基づく自動メトリクスは、大規模な文脈化事前学習の恩恵を受けており、機械翻訳、テキスト要約、データ・トゥ・テキストを含む幅広い自然言語生成(NLG)タスクでうまく使われている。 近年の研究では、大きなエラー(例えば、誤訳トークン)と小さなエラー(例えば、流布の不完全性)の両方を考慮すると、高品質な人間の判断が得られることが示されている。 これにより,自動エラー解析による評価指標(人間的評価)の最終目標へのアプローチが促進される。 この目的のために、BARTScoreを人間的なエラー分析戦略、すなわちBARTScore++を組み込むことで強化する。 実験の結果、BARTScore++は、バニラBARTScoreのパフォーマンスを一貫して改善し、25のテスト設定中20で既存のトップスコアのメトリクスを上回ります。 私たちの技術は他のトレーニング済みのモデルベースのメトリクスにも拡張できることを願っています。 コミュニティを促進するためのコードとスクリプトをリリースします。

The state-of-the-art language model-based automatic metrics, e.g. BARTScore, benefiting from large-scale contextualized pre-training, have been successfully used in a wide range of natural language generation (NLG) tasks, including machine translation, text summarization, and data-to-text. Recent studies show that considering both major errors (e.g. mistranslated tokens) and minor errors (e.g. imperfections in fluency) can produce high-quality human judgments. This inspires us to approach the final goal of the evaluation metrics (human-like evaluations) by automatic error analysis. To this end, we augment BARTScore by incorporating the human-like error analysis strategies, namely BARTScore++, where the final score consists of both the evaluations of major errors and minor errors. Experimental results show that BARTScore++ can consistently improve the performance of vanilla BARTScore and outperform existing top-scoring metrics in 20 out of 25 test settings. We hope our technique can also be extended to other pre-trained model-based metrics. We will release our code and scripts to facilitate the community.
翻訳日:2022-12-21 15:31:37 公開日:2022-12-20
# IndicMT Eval: インド言語のためのメタ評価機械翻訳メトリクスデータセット

IndicMT Eval: A Dataset to Meta-Evaluate Machine Translation metrics for Indian Languages ( http://arxiv.org/abs/2212.10180v1 )

ライセンス: Link先を確認
Ananya B. Sai, Vignesh Nagarajan, Tanay Dixit, Raj Dabre, Anoop Kunchukuttan, Pratyush Kumar, Mitesh M. Khapra(参考訳) 機械翻訳(MT)システムの急速な成長は、使用中の評価指標をメタ評価するために総合的な研究を必要としており、MTの品質を最もよく反映した指標の選択を可能にする。 残念なことに、研究の大半は高リソース言語(主に英語)に焦点を当てており、他の言語には必ずしも当てはまらない。 インド語は10億以上の話者を持つが、言語学的に英語とは異なっており、これまでは、MTシステムを英語からインド語に評価する体系的な研究は行われていない。 本稿では,5つのインド語と7つのMTシステムにまたがる,7000の細かいアノテーションからなるMQMデータセットを作成し,既存の自動メトリクスを用いて得られるアノテータスコアとスコアの相関関係を確立することにより,このギャップを埋める。 この結果から,COMETなどの事前学習メトリクスはアノテータスコアと高い相関関係を示した。 さらに,インド言語におけるフルーエンシーに基づくエラーを適切に捉えていないこと,インド言語に焦点を絞ったメトリクスを開発する必要があること,などを見いだした。 われわれのデータセットと分析が、この分野のさらなる研究を促進することを願っている。

The rapid growth of machine translation (MT) systems has necessitated comprehensive studies to meta-evaluate evaluation metrics being used, which enables a better selection of metrics that best reflect MT quality. Unfortunately, most of the research focuses on high-resource languages, mainly English, the observations for which may not always apply to other languages. Indian languages, having over a billion speakers, are linguistically different from English, and to date, there has not been a systematic study of evaluating MT systems from English into Indian languages. In this paper, we fill this gap by creating an MQM dataset consisting of 7000 fine-grained annotations, spanning 5 Indian languages and 7 MT systems, and use it to establish correlations between annotator scores and scores obtained using existing automatic metrics. Our results show that pre-trained metrics, such as COMET, have the highest correlations with annotator scores. Additionally, we find that the metrics do not adequately capture fluency-based errors in Indian languages, and there is a need to develop metrics focused on Indian languages. We hope that our dataset and analysis will help promote further research in this area.
翻訳日:2022-12-21 15:31:18 公開日:2022-12-20
# 注意を払う:ポリト言語の書き直しのための新しいデータセットの導入

Pay Attention to Your Tone: Introducing a New Dataset for Polite Language Rewrite ( http://arxiv.org/abs/2212.10190v1 )

ライセンス: Link先を確認
Xun Wang, Tao Ge, Allen Mao, Yuki Li, Furu Wei, Si-Qing Chen(参考訳) 我々は,新しい文書き換えタスクである丁寧な言語書き換えのためのデータセットである \textsc{politerewrite} を紹介する。 従来のテキストスタイルの転送タスクは、ほとんどトークンやフレーズレベルの編集で対処できるが、丁寧な言語書き直しでは、攻撃的で不合理な文に対する深い理解と広範囲な文レベルの編集が必要であり、同じメッセージを優雅かつ丁寧に配信する。 効率的なアノテーションのための人的努力を軽減するため,まず,人間のアノテーションとGPT-3.5の協調による新しいアノテーションパラダイムを提案する。 リリースされたデータセットには、GPT-3.5とヒトが共同で注釈付けした10Kの丁寧な文書き直しがあり、トレーニング、検証、テストのゴールドスタンダードとして使用できる。 この研究(データセット(10K+100K)が、より難しい文の書き直しの研究に寄与し、大規模事前学習モデルの助けを借りて、リソースアノテーションのパラダイムについてより深く考えることを願っている。

We introduce \textsc{PoliteRewrite} -- a dataset for polite language rewrite which is a novel sentence rewrite task. Compared with previous text style transfer tasks that can be mostly addressed by slight token- or phrase-level edits, polite language rewrite requires deep understanding and extensive sentence-level edits over an offensive and impolite sentence to deliver the same message euphemistically and politely, which is more challenging -- not only for NLP models but also for human annotators to rewrite with effort. To alleviate the human effort for efficient annotation, we first propose a novel annotation paradigm by a collaboration of human annotators and GPT-3.5 to annotate \textsc{PoliteRewrite}. The released dataset has 10K polite sentence rewrites annotated collaboratively by GPT-3.5 and human, which can be used as gold standard for training, validation and test; and 100K high-quality polite sentence rewrites by GPT-3.5 without human review. We wish this work (The dataset (10K+100K) will be released soon) could contribute to the research on more challenging sentence rewrite, and provoke more thought in future on resource annotation paradigm with the help of the large-scaled pretrained models.
翻訳日:2022-12-21 15:30:58 公開日:2022-12-20
# Adam: 暗黒の適応的な例による高濃度検索蒸留

Adam: Dense Retrieval Distillation with Adaptive Dark Examples ( http://arxiv.org/abs/2212.10192v1 )

ライセンス: Link先を確認
Chang Liu, Chongyang Tao, Xiubo Geng, Tao Shen, Dongyan Zhao, Can Xu, Binxing Jiao, Daxin Jiang(参考訳) 二重エンコーダレトリバーの性能を向上させるため,クロスエンコーダロータからの知識蒸留が効果的である。 既存の作業は、クエリーが正の通路と負のバッチでペアリングされる教師付き学習設定に従って候補の通路を構成する。 しかし,経験的観察により,先進的手法による難解な否定でさえ,教師が区別できないほど単純であり,教師が暗黒の知識を生徒にソフトラベルで移すことを妨げていることがわかった。 この問題を軽減するため,我々は,教師が保持する暗黒知識を適応暗黒例でより良く移行できる知識蒸留フレームワークであるadamを提案する。 候補パスとして1つの正負と強負のみに依存する従来の研究とは異なり、離散空間における混合とマスキングを通じてクエリに適度な関連性を持つ暗黒の例を作成する。 さらに,教師の信頼度スコアによって異なる訓練インスタンスに保持される知識の質が変化するにつれて,高品質インスタンスのサブセットに適応的に集中してダークサンプルベースの知識蒸留を行い,学生の学習を改善するセルフペース蒸留戦略を提案する。 2つのベンチマークを用いて実験を行い,本手法の有効性を検証した。

To improve the performance of the dual-encoder retriever, one effective approach is knowledge distillation from the cross-encoder ranker. Existing works construct the candidate passages following the supervised learning setting where a query is paired with a positive passage and a batch of negatives. However, through empirical observation, we find that even the hard negatives from advanced methods are still too trivial for the teacher to distinguish, preventing the teacher from transferring abundant dark knowledge to the student through its soft label. To alleviate this issue, we propose ADAM, a knowledge distillation framework that can better transfer the dark knowledge held in the teacher with Adaptive Dark exAMples. Different from previous works that only rely on one positive and hard negatives as candidate passages, we create dark examples that all have moderate relevance to the query through mixing-up and masking in discrete space. Furthermore, as the quality of knowledge held in different training instances varies as measured by the teacher's confidence score, we propose a self-paced distillation strategy that adaptively concentrates on a subset of high-quality instances to conduct our dark-example-based knowledge distillation to help the student learn better. We conduct experiments on two widely-used benchmarks and verify the effectiveness of our method.
翻訳日:2022-12-21 15:30:33 公開日:2022-12-20
# EIT: インタラクティブトランスの強化

EIT: Enhanced Interactive Transformer ( http://arxiv.org/abs/2212.10197v1 )

ライセンス: Link先を確認
Tong Zheng, Bei Li, Huiwen Bao, Tong Xiao, Jingbo Zhu(参考訳) 本稿では,自己着脱機構における頭部劣化問題に対処するため,新しいアーキテクチャである拡張型インタラクティブトランス(eit)を提案する。 本手法では,クエリとキー間の1対1のマッピング制約を緩和し,各クエリが複数のキーに応答できるようにするマルチヘッドアテンション(emha)機構を,従来のマルチヘッドセルフアテンション機構に置き換える。 さらに、EMHAの多対多マッピング機能を完全に活用するために、内部空間相互作用と相互空間相互作用という2つの相互作用モデルを導入する。 幅広いタスク(機械翻訳、抽象的な要約、文法修正、言語モデリング、脳疾患自動診断など)に対する広範な実験は、モデルサイズが非常に緩やかな増加とともにその優位性を示している。

In this paper, we propose a novel architecture, the Enhanced Interactive Transformer (EIT), to address the issue of head degradation in self-attention mechanisms. Our approach replaces the traditional multi-head self-attention mechanism with the Enhanced Multi-Head Attention (EMHA) mechanism, which relaxes the one-to-one mapping constraint among queries and keys, allowing each query to attend to multiple keys. Furthermore, we introduce two interaction models, Inner-Subspace Interaction and Cross-Subspace Interaction, to fully utilize the many-to-many mapping capabilities of EMHA. Extensive experiments on a wide range of tasks (e.g. machine translation, abstractive summarization, grammar correction, language modelling and brain disease automatic diagnosis) show its superiority with a very modest increase in model size.
翻訳日:2022-12-21 15:30:09 公開日:2022-12-20
# GanLM: 補助判別器によるエンコーダデコーダ事前トレーニング

GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator ( http://arxiv.org/abs/2212.10218v1 )

ライセンス: Link先を確認
Jian Yang, Shuming Ma, Li Dong, Shaohan Huang, Haoyang Huang, Yuwei Yin, Dongdong Zhang, Liqun Yang, Zhoujun Li, Furu Wei(参考訳) 事前訓練されたモデルは自然言語処理(NLP)において顕著な成功を収めた。 しかし、既存の事前学習手法は、生成のための言語理解の利点を生かしている。 本稿では,GAN(Generative Adversarial Networks)のアイデアに触発されて,一つのモデルにおける言語理解と生成の能力を統一した補助的識別器を導入することで,エンコーダ・デコーダ事前学習のためのGANスタイルモデルを提案する。 当社のモデルはganlmと名付けられ、トークン検出とトークン切り換えという2つの事前学習目標でトレーニングされています。 具体的には、マスクされたソース文が与えられた場合、ジェネレータはターゲット分布を出力し、識別器は、分布からのターゲットサンプルトークンが誤りであるか否かを予測する。 ターゲット文は、ゴールド文を生成するために使用されるノイズの多い前のコンテキストを構築するために、誤って分類されたトークンに置き換えられる。 一般に、両方のタスクは、認知データを用いて言語理解と生成の能力を向上させる。 言語生成ベンチマークの大規模な実験により、強力な言語理解能力を持つ GanLM は、様々な強力な事前学習言語モデル(PLM)より優れ、最先端のパフォーマンスを達成することが示された。

Pre-trained models have achieved remarkable success in natural language processing (NLP). However, existing pre-training methods underutilize the benefits of language understanding for generation. Inspired by the idea of Generative Adversarial Networks (GANs), we propose a GAN-style model for encoder-decoder pre-training by introducing an auxiliary discriminator, unifying the ability of language understanding and generation in a single model. Our model, named as GanLM, is trained with two pre-training objectives: replaced token detection and replaced token denoising. Specifically, given masked source sentences, the generator outputs the target distribution and the discriminator predicts whether the target sampled tokens from distribution are incorrect. The target sentence is replaced with misclassified tokens to construct noisy previous context, which is used to generate the gold sentence. In general, both tasks improve the ability of language understanding and generation by selectively using the denoising data. Extensive experiments in language generation benchmarks show that GanLM with the powerful language understanding capability outperforms various strong pre-trained language models (PLMs) and achieves state-of-the-art performance.
翻訳日:2022-12-21 15:29:54 公開日:2022-12-20
# キーワード生成のための事前学習型言語モデル:詳細な実証研究

Pre-trained Language Models for Keyphrase Generation: A Thorough Empirical Study ( http://arxiv.org/abs/2212.10233v1 )

ライセンス: Link先を確認
Di Wu, Wasi Uddin Ahmad, Kai-Wei Chang(参考訳) 事前トレーニングに依存しないニューラルモデルは、大きな注釈付きデータセットを持つkeyphrase生成タスクに優れている。 一方、新しいアプローチでは、データ効率のために事前学習言語モデル(plm)が組み込まれている。 しかしながら、2つのタイプのアプローチがどのように比較され、異なる設計選択がPLMベースのモデルの性能にどのように影響するかという体系的な研究は欠如している。 この知識ギャップを埋め、キーフレーズ抽出とキーフレーズ生成にPLMのより情報的利用を促進するために、我々は詳細な実験研究を行った。 配列ラベリングとしてのkeyphrase抽出とシーケンシャル・ツー・シーケンス生成のkeyphrase生成を定式化した。 PLMは、高リソース性能と最先端の低リソース性能の競争力を持つことを示した後、ドメイン内PLM、異なる事前学習目標を持つPLM、パラメータ予算を持つPLM、および現在のキーフレーズに対する異なる定式化を含む重要な設計選択について検討する。 さらに,(1)領域内のBERT様PLMは,強大かつデータ効率のよいキーフレーズ生成モデルの構築に利用でき,(2)パラメータ予算の固定化により,エンコーダ内のモデル深度を優先し,より多くの層を割り当てることで,エンコーダ・デコーダモデルの改善,(3)ドメイン内PLMの4つの導入により,科学領域におけるニュースドメインにおける競合性能と最先端のパフォーマンスを実現する。

Neural models that do not rely on pre-training have excelled in the keyphrase generation task with large annotated datasets. Meanwhile, new approaches have incorporated pre-trained language models (PLMs) for their data efficiency. However, there lacks a systematic study of how the two types of approaches compare and how different design choices can affect the performance of PLM-based models. To fill in this knowledge gap and facilitate a more informed use of PLMs for keyphrase extraction and keyphrase generation, we present an in-depth empirical study. Formulating keyphrase extraction as sequence labeling and keyphrase generation as sequence-to-sequence generation, we perform extensive experiments in three domains. After showing that PLMs have competitive high-resource performance and state-of-the-art low-resource performance, we investigate important design choices including in-domain PLMs, PLMs with different pre-training objectives, using PLMs with a parameter budget, and different formulations for present keyphrases. Further results show that (1) in-domain BERT-like PLMs can be used to build strong and data-efficient keyphrase generation models; (2) with a fixed parameter budget, prioritizing model depth over width and allocating more layers in the encoder leads to better encoder-decoder models; and (3) introducing four in-domain PLMs, we achieve a competitive performance in the news domain and the state-of-the-art performance in the scientific domain.
翻訳日:2022-12-21 15:29:33 公開日:2022-12-20
# diff-glat:並列シーケンスからシーケンス学習への拡散グライダートランス

Diff-Glat: Diffusion Glancing Transformer for Parallel Sequence to Sequence Learning ( http://arxiv.org/abs/2212.10240v1 )

ライセンス: Link先を確認
Lihua Qian, Mingxuan Wang, Yang Liu, Hao Zhou(参考訳) シーケンス生成では、自己回帰モデルと非自己回帰モデルの両方が近年開発されている。 自己回帰モデルは高い世代品質を達成することができるが、シーケンシャルデコード方式は遅いデコード速度を引き起こす。 非自己回帰モデルは並列デコーディングで推論速度を加速するが、データのマルチモーダルのモデリングが困難であるため、生成品質は改善される必要がある。 マルチモダリティ問題に対処するために,モダリティ拡散過程と残留滑空訓練を特徴とする非自己回帰モデルdiff-glatを提案する。 モダリティ拡散過程はモダリティを分解し、各遷移について学ぶモダリティを減少させる。 そして、残光サンプリングは、さらにモダリティ学習手順を円滑にする。 Diff-Glatは, 知識蒸留データを用いることなく, 自己回帰変換器と比較して, 復号効率と精度の両方において優れた性能が得られることを示した。

For sequence generation, both autoregressive models and non-autoregressive models have been developed in recent years. Autoregressive models can achieve high generation quality, but the sequential decoding scheme causes slow decoding speed. Non-autoregressive models accelerate the inference speed with parallel decoding, while their generation quality still needs to be improved due to the difficulty of modeling multi-modalities in data. To address the multi-modality issue, we propose Diff-Glat, a non-autoregressive model featured with a modality diffusion process and residual glancing training. The modality diffusion process decomposes the modalities and reduces the modalities to learn for each transition. And the residual glancing sampling further smooths the modality learning procedures. Experiments demonstrate that, without using knowledge distillation data, Diff-Glat can achieve superior performance in both decoding efficiency and accuracy compared with the autoregressive Transformer.
翻訳日:2022-12-21 15:28:59 公開日:2022-12-20
# 分解はいつ機械読解に役立つか?

When Do Decompositions Help for Machine Reading? ( http://arxiv.org/abs/2212.10019v1 )

ライセンス: Link先を確認
Kangda Wei, Dawn Lawrie, Benjamin Van Durme, Yunmo Chen, Orion Weller(参考訳) 複雑な質問への答えは、最終回答を得るためには多段階の推論を必要とすることが多い。 複雑な質問の分解に関するほとんどの研究は、オープンドメインシステムを含み、これらの分解を用いて検索を改善することに成功した。 しかし、機械読解設定では、分解がいつ役に立つかを理解する作業は未検討である。 我々は,この領域における最近の作業を統合するために,様々なモデルとデータセットを用いて,機械読解における分解実験を行う。 我々は、分解が小ショットの場合に役立つことを見出し、正確な一致点数でいくつかの改善点を与える。 しかし、数百以上の例でモデルにデータセットへのアクセスが与えられている場合、分解は役に立たない(実際に有害である可能性がある)ことも示します。 したがって,モデルが限定的なデータでも暗黙的に分解を学習できることを示す。

Answering complex questions often requires multi-step reasoning in order to obtain the final answer. Most research into decompositions of complex questions involves open-domain systems, which have shown success in using these decompositions for improved retrieval. In the machine reading setting, however, work to understand when decompositions are helpful is understudied. We conduct experiments on decompositions in machine reading to unify recent work in this space, using a range of models and datasets. We find that decompositions can be helpful in the few-shot case, giving several points of improvement in exact match scores. However, we also show that when models are given access to datasets with around a few hundred or more examples, decompositions are not helpful (and can actually be detrimental). Thus, our analysis implies that models can learn decompositions implicitly even with limited data.
翻訳日:2022-12-21 15:22:55 公開日:2022-12-20
# テキスト生成のためのモデルベース評価指標の盲点について

On the Blind Spots of Model-Based Evaluation Metrics for Text Generation ( http://arxiv.org/abs/2212.10020v1 )

ライセンス: Link先を確認
Tianxing He, Jingyu Zhang, Tianle Wang, Sachin Kumar, Kyunghyun Cho, James Glass, Yulia Tsvetkov(参考訳) 本研究では,テキスト生成評価指標のロバスト性分析のための有用だがしばしば無視される手法,すなわち合成データを用いたストレステストについて検討する。 基本的に、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。 本稿では,最近提案されている言語モデルに基づく評価指標について,オープンエンド生成,翻訳,要約の課題について検討する。 私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。 例えば、BERTScoreは要約におけるトランケーションエラーを無視しており、MAUVE(GPT-2上に構築されている)は世代序盤のエラーに敏感である。 さらに,これらの盲点の背後にある理由を調査し,テキスト生成の信頼性を高めるための実践的回避策を提案する。

In this work, we explore a useful but often neglected methodology for robustness analysis of text generation evaluation metrics: stress tests with synthetic data. Basically, we design and synthesize a wide range of potential errors and check whether they result in a commensurate drop in the metric scores. We examine a range of recently proposed evaluation metrics based on pretrained language models, for the tasks of open-ended generation, translation, and summarization. Our experiments reveal interesting insensitivities, biases, or even loopholes in existing metrics. For example, we find that BERTScore ignores truncation errors in summarization, and MAUVE (built on top of GPT-2) is insensitive to errors at the beginning of generations. Further, we investigate the reasons behind these blind spots and suggest practical workarounds for a more reliable evaluation of text generation.
翻訳日:2022-12-21 15:22:43 公開日:2022-12-20
# マラウイにおける攻撃言語検出のためのTwitter BERTアプローチ

A Twitter BERT Approach for Offensive Language Detection in Marathi ( http://arxiv.org/abs/2212.10039v1 )

ライセンス: Link先を確認
Tanmay Chavan, Shantanu Patankar, Aditya Kane, Omkar Gokhale, Raviraj Joshi(参考訳) 自動攻撃言語検出は、特にソーシャルメディアにおけるヘイトスピーチの拡散に対処するのに不可欠である。 本稿では,低資源言語マラーティーにおける攻撃的言語識別に関する研究について述べる。 この問題は、ツイートを攻撃的あるいは非攻撃的と識別するためのテキスト分類タスクとして定式化されている。 本分類課題では,ソーシャルメディアデータセットで事前学習したBERTモデルに着目し,単言語モデルと多言語BERTモデルの比較を行った。 HASOC 2022 テストセットにおける MuRIL, MahaTweetBERT, MahaTweetBERT-Hateful, MahaBERT のパフォーマンスを比較した。 また,既存のマラウイヘイトスピーチコーパスであるHASOC 2021とL3Cube-MahaHateの外部データ拡張についても検討した。 BERTモデルであるMahaTweetBERTは、組み合わせデータセット(HASOC 2021 + HASOC 2022 + MahaHate)で微調整されたマラタイのツイートで事前訓練され、HASOC 2022テストセットでF1スコア98.43で全てのモデルを上回っている。 これにより、HASOC 2022 / MOLD v2テストセット上で、最先端の新たな結果も提供する。

Automated offensive language detection is essential in combating the spread of hate speech, particularly in social media. This paper describes our work on Offensive Language Identification in low resource Indic language Marathi. The problem is formulated as a text classification task to identify a tweet as offensive or non-offensive. We evaluate different mono-lingual and multi-lingual BERT models on this classification task, focusing on BERT models pre-trained with social media datasets. We compare the performance of MuRIL, MahaTweetBERT, MahaTweetBERT-Hateful, and MahaBERT on the HASOC 2022 test set. We also explore external data augmentation from other existing Marathi hate speech corpus HASOC 2021 and L3Cube-MahaHate. The MahaTweetBERT, a BERT model, pre-trained on Marathi tweets when fine-tuned on the combined dataset (HASOC 2021 + HASOC 2022 + MahaHate), outperforms all models with an F1 score of 98.43 on the HASOC 2022 test set. With this, we also provide a new state-of-the-art result on HASOC 2022 / MOLD v2 test set.
翻訳日:2022-12-21 15:22:30 公開日:2022-12-20
# ビジュアルリッチドキュメントのための拡張戦略

An Augmentation Strategy for Visually Rich Documents ( http://arxiv.org/abs/2212.10047v1 )

ライセンス: Link先を確認
Jing Xie, James B. Wendt, Yichao Zhou, Seth Ebner, Sandeep Tata(参考訳) 多くのビジネスワークフローでは、フォームライクなドキュメントから重要なフィールドを抽出する必要がある(例えば、銀行のステートメント、ラディングの請求書、購入注文など)。 このタスクを自動化する最近のテクニックは、大規模なデータセットでトレーニングされた場合のみうまく機能する。 本研究では、10-250文書など,トレーニングデータ不足時の性能向上のための新しいデータ拡張手法を提案する。 fieldwapと呼ばれるこの手法は、ソースフィールドのキーフレーズをターゲットフィールドのキーフレーズに置き換えて、トレーニングに使用するターゲットフィールドの新しい合成例を生成します。 提案手法は抽出性能を1-7F1ポイント改善できることを示す。

Many business workflows require extracting important fields from form-like documents (e.g. bank statements, bills of lading, purchase orders, etc.). Recent techniques for automating this task work well only when trained with large datasets. In this work we propose a novel data augmentation technique to improve performance when training data is scarce, e.g. 10-250 documents. Our technique, which we call FieldSwap, works by swapping out the key phrases of a source field with the key phrases of a target field to generate new synthetic examples of the target field for use in training. We demonstrate that this approach can yield 1-7 F1 point improvements in extraction performance.
翻訳日:2022-12-21 15:22:07 公開日:2022-12-20
# アスペクト・ベース・オピニオン・マイニングによる顧客レビュー分析の枠組み

A Framework of Customer Review Analysis Using the Aspect-Based Opinion Mining Approach ( http://arxiv.org/abs/2212.10051v1 )

ライセンス: Link先を確認
Subhasis Dasgupta, Jaydip Sen(参考訳) オピニオンマイニング(英: opinion mining)は、人々の意見、評価、態度、感情、それぞれの側面を扱う計算の分野である。 この分野は近年、大きな研究の関心を集めている。 アスペクトレベルの意見マイニング(アスペクトベース意見マイニング)は、通常行動に必要なエンティティやエンティティ自体のさまざまな側面に関する詳細な意見や感情を提供するため、実用的なアプリケーションでしばしば望まれる。 したがってアスペクト抽出とエンティティ抽出はアスペクトベースの意見マイニングの2つのコアタスクである。 彼の論文は、転校学習の概念に基づいたアスペクトベースの意見マイニングの枠組みを提示した。 実際の顧客のレビューはAmazonのWebサイトにある。 このモデルはアスペクトベースの意見マイニングというタスクにおいて、非常に満足できる結果をもたらした。

Opinion mining is the branch of computation that deals with opinions, appraisals, attitudes, and emotions of people and their different aspects. This field has attracted substantial research interest in recent years. Aspect-level (called aspect-based opinion mining) is often desired in practical applications as it provides detailed opinions or sentiments about different aspects of entities and entities themselves, which are usually required for action. Aspect extraction and entity extraction are thus two core tasks of aspect-based opinion mining. his paper has presented a framework of aspect-based opinion mining based on the concept of transfer learning. on real-world customer reviews available on the Amazon website. The model has yielded quite satisfactory results in its task of aspect-based opinion mining.
翻訳日:2022-12-21 15:21:56 公開日:2022-12-20
# wecheck: 弱い教師付き学習による強力な事実整合性チェッカー

WeCheck: Strong Factual Consistency Checker via Weakly Supervised Learning ( http://arxiv.org/abs/2212.10057v1 )

ライセンス: Link先を確認
Wenhao Wu, Wei Li, Xinyan Xiao, Jiachen Liu, Sujian Li, Yajuan Lv(参考訳) 現在のテキスト生成モデルにおいて重要な問題は、しばしば各入力で現実的に一貫性のないテキストを生成することである。 注釈付きデータの欠如によって制限された既存の研究は、質問応答(QA)や自然言語推論(NLI)といった他のデータ豊富な上流タスクで訓練されたモデルの推論能力を直接的に伝達する。 その結果、実際の生成されたテキストではパフォーマンスが悪く、単一ソースの上流タスクに大きく偏っている。 この問題を軽減するために、複数のリソースを集約して正確な実測値、すなわちWeCheckを訓練する弱い教師付きフレームワークを提案する。 WeCheckはまず生成モデルを用いて、複数のリソースから推測される弱いラベルを集約することで、実際のサンプルを正確にラベル付けする。 そして、ノイズを考慮しながら、弱い監督の下でターゲットのメトリックモデルをトレーニングします。 様々なタスクに関する総合的な実験はWeCheckの強力な性能を示し、TRUEベンチマークにおける従来の最先端手法よりも3.4倍の絶対的な改善を実現している。

A crucial issue of current text generation models is that they often uncontrollably generate factually inconsistent text with respective of their inputs. Limited by the lack of annotated data, existing works in evaluating factual consistency directly transfer the reasoning ability of models trained on other data-rich upstream tasks like question answering (QA) and natural language inference (NLI) without any further adaptation. As a result, they perform poorly on the real generated text and are biased heavily by their single-source upstream tasks. To alleviate this problem, we propose a weakly supervised framework that aggregates multiple resources to train a precise and efficient factual metric, namely WeCheck. WeCheck first utilizes a generative model to accurately label a real generated sample by aggregating its weak labels, which are inferred from multiple resources. Then, we train the target metric model with the weak supervision while taking noises into consideration. Comprehensive experiments on a variety of tasks demonstrate the strong performance of WeCheck, which achieves a 3.4\% absolute improvement over previous state-of-the-art methods on TRUE benchmark on average.
翻訳日:2022-12-21 15:21:44 公開日:2022-12-20
# アクタ・クリティック学習に基づくハイブリッドルール・ニューラル・コリファレンス・レゾリューションシステム

Hybrid Rule-Neural Coreference Resolution System based on Actor-Critic Learning ( http://arxiv.org/abs/2212.10087v1 )

ライセンス: Link先を確認
Yu Wang and Hongxia Jin(参考訳) コリファレンス解決システムは、与えられたコンテキストで同じエンティティを参照するすべての言及をクラスタ化する。 すべてのコア参照解決システムは、2つの主要なタスクに取り組む必要がある: 1つのタスクは全ての潜在的な言及を検出すること、もう1つのタスクは、可能な言及ごとに前者のリンクを学習することである。 本稿では,ヒューリスティックなルールとニューラルなカンファレンスモデルの両方の利点を生かして,より優れたコア参照性能が得られるような,アクタ・クリティカルな学習に基づくハイブリッドルール・ニューラルコア参照解決システムを提案する。 このエンドツーエンドシステムは、共同トレーニングアルゴリズムを利用することで、参照検出と解決の両方を実行できる。 BERTモデルを用いて入力スパン表現を生成する。 BERTスパン表現を用いた本モデルは,CoNLL-2012Shared Task English Test Setのモデル間の最先端性能を実現する。

A coreference resolution system is to cluster all mentions that refer to the same entity in a given context. All coreference resolution systems need to tackle two main tasks: one task is to detect all of the potential mentions, and the other is to learn the linking of an antecedent for each possible mention. In this paper, we propose a hybrid rule-neural coreference resolution system based on actor-critic learning, such that it can achieve better coreference performance by leveraging the advantages from both the heuristic rules and a neural conference model. This end-to-end system can also perform both mention detection and resolution by leveraging a joint training algorithm. We experiment on the BERT model to generate input span representations. Our model with the BERT span representation achieves the state-of-the-art performance among the models on the CoNLL-2012 Shared Task English Test Set.
翻訳日:2022-12-21 15:21:22 公開日:2022-12-20
# True Detective: \\in Foundation Modelsを深く推論するベンチマーク

True Detective: A Challenging Benchmark for Deep Abductive Reasoning \\in Foundation Models ( http://arxiv.org/abs/2212.10114v1 )

ライセンス: Link先を確認
Maksym Del and Mark Fishel(参考訳) 大規模言語モデル(llm)は、帰納的推論を含むゼロショット推論タスクにおいて強力なパフォーマンスを示している。 これは、この分野の現在のベンチマークでうまく機能する能力を反映しています。 しかし、帰納的推論において LLM の限界を真にテストするには、より困難なベンチマークが必要である。 本稿では,191個の長文のミステリーストーリーからなり,それぞれ約1200語の長さで,推理パズルの形で提示されるベンチマークについて述べる。 各パズルには「5分間ミステリー」プラットフォームから派生した評価のための複数の質問が含まれている。 その結果, 現状のGPTモデルでは, 精度が47%に比較して28倍の精度で, 人間の解法よりも有意に低い結果が得られた。 これは, LLMの誘因的推論能力にはまだ大きなギャップがあることを示唆し, さらなる研究の必要性を強調している。 我々の研究は言語モデルにおける推論の今後の研究に挑戦的なベンチマークを提供し、LLMの能力の限界をよりよく理解するために貢献する。

Large language models (LLMs) have demonstrated strong performance in zero-shot reasoning tasks, including abductive reasoning. This is reflected in their ability to perform well on current benchmarks in this area. However, to truly test the limits of LLMs in abductive reasoning, a more challenging benchmark is needed. In this paper, we present such a benchmark, consisting of 191 long-form mystery stories, each approximately 1200 words in length and presented in the form of detective puzzles. Each puzzle includes a multiple-choice question for evaluation sourced from the "5 Minute Mystery" platform. Our results show that state-of-the-art GPT models perform significantly worse than human solvers on this benchmark, with an accuracy of 28\% compared to 47\% for humans. This indicates that there is still a significant gap in the abductive reasoning abilities of LLMs and highlights the need for further research in this area. Our work provides a challenging benchmark for future studies on reasoning in language models and contributes to a better understanding of the limits of LLMs' abilities.
翻訳日:2022-12-21 15:21:08 公開日:2022-12-20
# quirk または palmer: 注釈付きデータセットを用いたモーダル動詞フレームワークの比較研究

Quirk or Palmer: A Comparative Study of Modal Verb Frameworks with Annotated Datasets ( http://arxiv.org/abs/2212.10152v1 )

ライセンス: Link先を確認
Risako Owan, Maria Gini, Dongyeop Kang(参考訳) 日常コミュニケーションでは、"can"、"may"、"must"などのモーダル動詞が、提案の可能性と/またはモードに関連する話者の視点を伝えるために一般的に使用される。 文脈や用法によって意味が大きく異なる場合がある(例えば、"must"は互いに助け合い、"must"は互いに助け合い、"must"は自然言語理解において実際的に重要であるにもかかわらず、言語学者はモーダル動詞の感覚を分類するための単一の顕著な枠組みについて合意していない)。 この合意の欠如は、モーダル動詞からの高い柔軟性と多節性から来ており、研究者がこの語族からの洞察を研究に組み込むのが難しくなっている。 本研究は,社会会話から1文以上の文を含む4,540発話以上のモーダル動詞感覚の27,240のアノテーションからなるmoverbデータセットを提案する。 それぞれの発話は、モーダル動詞感覚の2つの異なる理論的枠組み(すなわち、QuirkとPalmer)を用いて、3つのアノテータによって注釈付けされる。 我々は、両フレームワークが類似のアノテーション間合意を持っていることを観察する(quirkでは8、palmerでは3)。 roberta ベースの分類器は \dataset 上で微調整されており、quirk と palmer でそれぞれ 82.2 と 78.3 の f1 スコアを達成している。 私たちのデータセットは最終バージョンで公開される予定だ。

Modal verbs, such as "can", "may", and "must", are commonly used in daily communication to convey the speaker's perspective related to the likelihood and/or mode of the proposition. They can differ greatly in meaning depending on how they're used and the context of a sentence (e.g. "They 'must' help each other out." vs. "They 'must' have helped each other out.") Despite their practical importance in natural language understanding, linguists have yet to agree on a single, prominent framework for the categorization of modal verb senses. This lack of agreement stems from high degrees of flexibility and polysemy from the modal verbs, making it more difficult for researchers to incorporate insights from this family of words into their work. This work presents Moverb dataset, which consists of 27,240 annotations of modal verb senses over 4,540 utterances containing one or more sentences from social conversations. Each utterance is annotated by three annotators using two different theoretical frameworks (i.e., Quirk and Palmer) of modal verb senses. We observe that both frameworks have similar inter-annotator agreements, despite having different numbers of sense types (8 for Quirk and 3 for Palmer). With the RoBERTa-based classifiers fine-tuned on \dataset, we achieve F1 scores of 82.2 and 78.3 on Quirk and Palmer, respectively, showing that modal verb sense disambiguation is not a trivial task. Our dataset will be publicly available with our final version.
翻訳日:2022-12-21 15:20:49 公開日:2022-12-20
# Naamapadam: インデックス言語用の大規模なエンティティアノテーション付きデータ

Naamapadam: A Large-Scale Named Entity Annotated Data for Indic Languages ( http://arxiv.org/abs/2212.10168v1 )

ライセンス: Link先を確認
Arnav Mhaske, Harshit Kedia, Sumanth Doddapaneni, Mitesh M. Khapra, Pratyush Kumar, Rudra Murthy V, Anoop Kunchukuttan(参考訳) 現在、Naamapadamは、2つの言語ファミリーから11の主要なインドの言語に対して、最も広く公開されている名前付きエンティティ認識(NER)データセットである。 各言語に400万以上の注釈文があり、11言語中9言語で3つの標準エンティティカテゴリ(人、場所、組織)から少なくとも10万のエンティティが注釈されている。 訓練データセットは、英語文から対応するインド語文に自動的にタグ付けされたエンティティを投影することにより、サマナンタル並列コーパスから自動的に作成される。 また、約1000の文を含む8言語に対して、手動で注釈付きテストセットを作成します。 既存のテストセット上で得られたデータセットと8つのindic言語のnaamapadam-testデータの有用性を実証する。 IndicNERは、Naamapadamトレーニングセットを微調整した多言語mBERTモデルである。 IndicNERは、既存のデータセットで微調整されたmBERTモデルと比較して、Naamapadam-testセットで最高のF1を達成する。 IndicNERは11言語中7言語に対して80以上のF1スコアを達成している。 データセットとモデルは、https://ai4bharat.iitm.ac.in/naamapadamのオープンソースライセンスで利用できる。

We present, Naamapadam, the largest publicly available Named Entity Recognition (NER) dataset for the 11 major Indian languages from two language families. In each language, it contains more than 400k sentences annotated with a total of at least 100k entities from three standard entity categories (Person, Location and Organization) for 9 out of the 11 languages. The training dataset has been automatically created from the Samanantar parallel corpus by projecting automatically tagged entities from an English sentence to the corresponding Indian language sentence. We also create manually annotated testsets for 8 languages containing approximately 1000 sentences per language. We demonstrate the utility of the obtained dataset on existing testsets and the Naamapadam-test data for 8 Indic languages. We also release IndicNER, a multilingual mBERT model fine-tuned on the Naamapadam training set. IndicNER achieves the best F1 on the Naamapadam-test set compared to an mBERT model fine-tuned on existing datasets. IndicNER achieves an F1 score of more than 80 for 7 out of 11 Indic languages. The dataset and models are available under open-source licenses at https://ai4bharat.iitm.ac.in/naamapadam.
翻訳日:2022-12-21 15:20:17 公開日:2022-12-20
# AnyTOD: プログラム可能なタスク指向対話システム

AnyTOD: A Programmable Task-Oriented Dialog System ( http://arxiv.org/abs/2212.09939v1 )

ライセンス: Link先を確認
Jeffrey Zhao, Yuan Cao, Raghav Gupta, Harrison Lee, Abhinav Rastogi, Mingqiu Wang, Hagen Soltau, Izhak Shafran, Yonghui Wu(参考訳) 本稿では,未確認タスクに対するゼロショット機能を備えたタスク指向対話(TOD)システムであるAnyTODを提案する。 todは言語モデル(lm)によって実行されるプログラムであり、そこではプログラム論理とオントロジーはスキーマの形で設計者によって提供されます。 事前トレーニングなしで、目に見えないスキーマやプログラムへの一般化を可能にするため、AnyTODはニューロシンボリックアプローチを採用している。 neural lmは会話中に発生するイベントを追跡し、ダイアログポリシーを実装するシンボリックプログラムが実行され、任意のtodが行うべき次のアクションを推奨する。 このアプローチは、データアノテーションとモデルのトレーニング要件を劇的に削減し、tod研究における長年の課題である、タスクやドメインを認識するためにtodシステムを迅速に適用することに対処する。 我々はSTARおよびABCDベンチマークの最先端結果と、低リソース環境でのAnyTODの強力なゼロショット転送能力を実証する。 さらに、ゼロショットのエンドツーエンドTODモデルをベンチマークするために、よりリッチなデータアノテーションを備えたSTARデータセットの更新版STARv2をリリースします。

We propose AnyTOD, an end-to-end task-oriented dialog (TOD) system with zero-shot capability for unseen tasks. We view TOD as a program executed by a language model (LM), where program logic and ontology is provided by a designer in the form of a schema. To enable generalization onto unseen schemas and programs without prior training, AnyTOD adopts a neuro-symbolic approach. A neural LM keeps track of events that occur during a conversation, and a symbolic program implementing the dialog policy is executed to recommend next actions AnyTOD should take. This approach drastically reduces data annotation and model training requirements, addressing a long-standing challenge in TOD research: rapidly adapting a TOD system to unseen tasks and domains. We demonstrate state-of-the-art results on the STAR and ABCD benchmarks, as well as AnyTOD's strong zero-shot transfer capability in low-resource settings. In addition, we release STARv2, an updated version of the STAR dataset with richer data annotations, for benchmarking zero-shot end-to-end TOD models.
翻訳日:2022-12-21 15:14:30 公開日:2022-12-20
# Dialog2API: API記述とサンプルプログラムを備えたタスク指向対話

Dialog2API: Task-Oriented Dialogue with API Description and Example Programs ( http://arxiv.org/abs/2212.09946v1 )

ライセンス: Link先を確認
Raphael Shu, Elman Mansimov, Tamer Alkhouli, Nikolaos Pappas, Salvatore Romeo, Arshit Gupta, Saab Mansour, Yi Zhang, Dan Roth(参考訳) 機能と対話体験はタスク指向対話システムの2つの重要な要素である。 クローズドスキーマ(例えば、会話の意味解析)による従来のアプローチは、機能と対話エクスペリエンスが基礎となるスキーマによって強く制約されるため、しばしば失敗する。 タスク指向対話の新たなパラダイムであるdialog2apiを導入し,機能を拡大し,シームレスな対話体験を提供する。 会話モデルは、事前定義されたapiセットを起動するプログラムを生成し実行することで環境と対話する。 モデルはまた、適切な自然言語応答を生成して対話ポリシーを管理し、ユーザと対話する。 自由形式のプログラムを生成することで、Dialog2APIは異なるAPIを組み合わせることで複合目標をサポートします。 Dialog2APIを容易にするため、コアモデルにはAPIドキュメント、実行環境、オプションでプログラムに注釈付けされたサンプル対話が提供される。 本稿では,対話状態がプログラムのスタックで表されるdialog2api用に調整されたアプローチを提案する。 Dialog2APIは、ソフトウェア自動化やカスタマーサービスなど、多くのアプリケーションシナリオで動作する。 本稿では,AWS S3 APIのデータセットを構築し,コンテキスト内学習ベースラインの評価結果を示す。

Functionality and dialogue experience are two important factors of task-oriented dialogue systems. Conventional approaches with closed schema (e.g., conversational semantic parsing) often fail as both the functionality and dialogue experience are strongly constrained by the underlying schema. We introduce a new paradigm for task-oriented dialogue - Dialog2API - to greatly expand the functionality and provide seamless dialogue experience. The conversational model interacts with the environment by generating and executing programs triggering a set of pre-defined APIs. The model also manages the dialogue policy and interact with the user through generating appropriate natural language responses. By allowing generating free-form programs, Dialog2API supports composite goals by combining different APIs, whereas unrestricted program revision provides natural and robust dialogue experience. To facilitate Dialog2API, the core model is provided with API documents, an execution environment and optionally some example dialogues annotated with programs. We propose an approach tailored for the Dialog2API, where the dialogue states are represented by a stack of programs, with most recently mentioned program on the top of the stack. Dialog2API can work with many application scenarios such as software automation and customer service. In this paper, we construct a dataset for AWS S3 APIs and present evaluation results of in-context learning baselines.
翻訳日:2022-12-21 15:14:11 公開日:2022-12-20
# BUMP: 信心度メタ評価のための不信心最小ペアのベンチマーク

BUMP: A Benchmark of Unfaithful Minimal Pairs for Meta-Evaluation of Faithfulness Metrics ( http://arxiv.org/abs/2212.09955v1 )

ライセンス: Link先を確認
Liang Ma, Shuyang Cao, Robert L. Logan IV, Di Lu, Shihao Ran, Ke Zhang, Joel Tetreault, Aoife Cahill, Alejandro Jaimes(参考訳) 要約のための自動忠実度指標の拡散は、それらを評価するためのベンチマークの必要性を生み出した。 既存のベンチマークでは、モデル生成サマリーの忠実性判定との相関が測定されているが、メトリクスかどうかの診断には不十分である。 1) 要約にエラーが導入されると、一貫性、すなわち、減少する。 2)人文テキストの有効利用,及び 3)異なるエラータイプに敏感(要約には複数のエラーが含まれている)。 これらのニーズに対応するために,我々は,cnn/dailymailデータセットの要約に単一エラー(オントロジーから7種類のオントロジーから)を導入し,不適切な要約を生成する,859の人間が記述した,最小限の要約ペアのデータセットであるunfaithful minimal pairs (bump)のベンチマークを示す。 BUMPはいくつかの方法で既存のベンチマークを補完する。 1) バンプの要約は, sota要約モデルでは判別が困難であり, 可能性も低い。 2) BUMPはメトリクスの一貫性を計測することができ、最も差別的なメトリクスが最も一貫性がない傾向があることを明らかにする。 3)BUMPは,個々のエラータイプに対するメトリクスのパフォーマンスの測定を可能にし,今後の作業の弱点を浮き彫りにする。

The proliferation of automatic faithfulness metrics for summarization has produced a need for benchmarks to evaluate them. While existing benchmarks measure the correlation with human judgements of faithfulness on model-generated summaries, they are insufficient for diagnosing whether metrics are: 1) consistent, i.e., decrease as errors are introduced into a summary, 2) effective on human-written texts, and 3) sensitive to different error types (as summaries can contain multiple errors). To address these needs, we present a benchmark of unfaithful minimal pairs (BUMP), a dataset of 889 human-written, minimally different summary pairs, where a single error (from an ontology of 7 types) is introduced to a summary from the CNN/DailyMail dataset to produce an unfaithful summary. We find BUMP complements existing benchmarks in a number of ways: 1) the summaries in BUMP are harder to discriminate and less probable under SOTA summarization models, 2) BUMP enables measuring the consistency of metrics, and reveals that the most discriminative metrics tend not to be the most consistent, 3) BUMP enables the measurement of metrics' performance on individual error types and highlights areas of weakness for future work.
翻訳日:2022-12-21 15:13:51 公開日:2022-12-20
# 自然言語フィードバックによる要約ファクト一貫性の改善について

On Improving Summarization Factual Consistency from Natural Language Feedback ( http://arxiv.org/abs/2212.09968v1 )

ライセンス: Link先を確認
Yixin Liu, Budhaditya Deb, Milagro Teruel, Aaron Halfaker, Dragomir Radev, Ahmed H. Awadallah(参考訳) 言語生成モデルの最近の進歩にもかかわらず、そのアウトプットは常にユーザの期待に応えるとは限らない。 本研究では,自然言語における情報フィードバックを利用して生成品質とユーザ嗜好の整合性を向上させることができるかを検討する。 この目的のために,要約における事実整合性,要約が入力文書でサポートされている情報のみを含むべき品質,ユーザの嗜好の整合性を考える。 人間の実演と情報フィードバックを含む高品質なデータセットであるDeFactoを,修正命令,要約編集,要約の事実整合性に関する説明を含む自然言語で収集する。 データセットを用いて2つの自然言語生成タスクを研究する。 1)人間のフィードバックを用いて要約を編集し、 2) 最初の要約から人的フィードバックを生成する。 この2つのタスクを用いて、モデルが生成した要約の事実矛盾を自動的に補正できるかどうかを更に評価する。 また,学習済み言語モデルでは,提案する生成タスクにおけるシステム生成サマリーの実際の一貫性を向上させるために,データセットを活用できることを示した。 DeFactoデータセットをhttps://github.com/microsoft/DeFactoで公開しています。

Despite the recent progress in language generation models, their outputs may not always meet user expectations. In this work, we study whether informational feedback in natural language can be leveraged to improve generation quality and user preference alignment. To this end, we consider factual consistency in summarization, the quality that the summary should only contain information supported by the input documents, for user preference alignment. We collect a high-quality dataset, DeFacto, containing human demonstrations and informational feedback in natural language consisting of corrective instructions, edited summaries, and explanations with respect to the factual consistency of the summary. Using our dataset, we study two natural language generation tasks: 1) editing a summary using the human feedback, and 2) generating human feedback from the original summary. Using the two tasks, we further evaluate if models can automatically correct factual inconsistencies in generated summaries. We show that the human-edited summaries we collected are more factually consistent, and pre-trained language models can leverage our dataset to improve the factual consistency of original system-generated summaries in our proposed generation tasks. We make the DeFacto dataset publicly available at https://github.com/microsoft/DeFacto.
翻訳日:2022-12-21 15:13:32 公開日:2022-12-20
# 自然および現実的なテーブル摂動に対するテキスト-SQLモデルのロバスト性に向けて

Towards Robustness of Text-to-SQL Models Against Natural and Realistic Adversarial Table Perturbation ( http://arxiv.org/abs/2212.09994v1 )

ライセンス: Link先を確認
Xinyu Pi, Bing Wang, Yan Gao, Jiaqi Guo, Zhoujun Li, Jian-Guang Lou(参考訳) 敵対的摂動に対するText-to-SQLパーサの堅牢性は、信頼性の高いアプリケーションを提供する上で重要な役割を果たす。 この線に沿った以前の研究は、主に自然言語問題側の摂動に焦点を当て、表の変動性を無視した。 そこで本研究では,テキスト対sqlモデルのロバスト性を評価するための新しい攻撃パラダイムとして,adversarial table perturbation (atp)を提案する。 この提案に続いて、自然かつ現実的なATPを特徴とする最初の堅牢性評価ベンチマークであるADVETAをキュレートする。 テストされたすべての最先端モデルはADVETAで劇的なパフォーマンス低下を経験し、実際のプラクティスにおけるモデルの脆弱性を明らかにする。 ATPに対する防御のために,表データの文脈化を改善するために,系統的な逆トレーニング例生成フレームワークを構築した。 実験により,本手法はテーブル側摂動に対する最良の堅牢性向上をもたらすだけでなく,NL側摂動に対するモデルを大幅に強化することを示した。 ベンチマークとコードはhttps://github.com/microsoft/contextualsp.com/でリリースします。

The robustness of Text-to-SQL parsers against adversarial perturbations plays a crucial role in delivering highly reliable applications. Previous studies along this line primarily focused on perturbations in the natural language question side, neglecting the variability of tables. Motivated by this, we propose the Adversarial Table Perturbation (ATP) as a new attacking paradigm to measure the robustness of Text-to-SQL models. Following this proposition, we curate ADVETA, the first robustness evaluation benchmark featuring natural and realistic ATPs. All tested state-of-the-art models experience dramatic performance drops on ADVETA, revealing models' vulnerability in real-world practices. To defend against ATP, we build a systematic adversarial training example generation framework tailored for better contextualization of tabular data. Experiments show that our approach not only brings the best robustness improvement against table-side perturbations but also substantially empowers models against NL-side perturbations. We release our benchmark and code at: https://github.com/microsoft/ContextualSP.
翻訳日:2022-12-21 15:13:00 公開日:2022-12-20
# チェーン・オブ・サート・プロンプティングの理解に向けて--何が重要かの実証的研究

Towards Understanding Chain-of-Thought Prompting: An Empirical Study of What Matters ( http://arxiv.org/abs/2212.10001v1 )

ライセンス: Link先を確認
Boshi Wang, Sewon Min, Xiang Deng, Jiaming Shen, You Wu, Luke Zettlemoyer, Huan Sun(参考訳) CoT(Chain-of-Thought)は大規模言語モデル(LLM)の多段階推論能力を劇的に改善する。 CoTは、デモにおいて一連の推論ステップを提供することで、問題を解くための中間的論理を生成することを明示的にLLMに促している。 その成功にもかかわらず、cotを効果的に促す要因と、実証された推論ステップのどの側面がそのパフォーマンスに寄与するかについては、いまだに理解されていない。 本稿では,CoTの推理を無効にした場合であっても,CoTの推理が可能であることを示し,その推算において,CoTを用いて得られた性能の80~90%以上を推算しながら,推論中に一貫性のある推理線を生成できることを示す。 さらなる実験により、クエリに関連する他の側面や推論ステップの順序付けが、効果的なcot推論にとってより重要であることが示されている。 全体として、これらの知見はCoTの促進に対する理解を深め、LLMが文脈で推論を学ぶ能力について新たな疑問を提起する。

Chain-of-Thought (CoT) prompting can dramatically improve the multi-step reasoning abilities of large language models (LLMs). CoT explicitly encourages the LLM to generate intermediate rationales for solving a problem, by providing a series of reasoning steps in the demonstrations. Despite its success, there is still little understanding of what makes CoT prompting effective and which aspects of the demonstrated reasoning steps contribute to its performance. In this paper, we show that CoT reasoning is possible even with invalid demonstrations - prompting with invalid reasoning steps can achieve over 80-90% of the performance obtained using CoT under various metrics, while still generating coherent lines of reasoning during inference. Further experiments show that other aspects of the rationales, such as being relevant to the query and correctly ordering the reasoning steps, are much more important for effective CoT reasoning. Overall, these findings both deepen our understanding of CoT prompting, and open up new questions regarding LLMs' capability to learn to reason in context.
翻訳日:2022-12-21 15:12:34 公開日:2022-12-20
# (qa)$^2$:疑わしい仮定による質問応答

(QA)$^2$: Question Answering with Questionable Assumptions ( http://arxiv.org/abs/2212.10003v1 )

ライセンス: Link先を確認
Najoung Kim, Phu Mon Htut, Samuel R. Bowman, Jackson Petty(参考訳) 自然に発生する情報探索の質問には、しばしば疑わしい仮定が含まれます。 疑わしい仮定を含む質問は、典型的な回答から情報を見る質問まで、異なる回答戦略を必要とするため、難しい。 例えば、「マリー・キュリーがウランを発見したのはいつですか?」という質問は、「マリー・キュリーがウランを発見した」という誤った仮定に答えることなく、通常の質問として答えることはできない。 本研究では,疑わしい仮定を含むか否かを問わない,自然に発生する検索エンジンクエリからなるオープンドメイン評価データセットである (qa)$^2$ (question answering with questionable assumptions)を提案する。 QA)$^2$で成功するためには、システムは疑わしい仮定を検出でき、また、典型的な情報探索問題と疑わしい仮定の双方に対して適切な応答を生成できなければならない。 最高のパフォーマンスモデルは、(QA)$^2$の質問で抽象的なQAに対して59%の人間レーダの受理性を達成し、進歩のための実質的な見出しを残します。

Naturally-occurring information-seeking questions often contain questionable assumptions -- assumptions that are false or unverifiable. Questions containing questionable assumptions are challenging because they require a distinct answer strategy that deviates from typical answers to information-seeking questions. For instance, the question "When did Marie Curie discover Uranium?" cannot be answered as a typical when question without addressing the false assumption "Marie Curie discovered Uranium". In this work, we propose (QA)$^2$ (Question Answering with Questionable Assumptions), an open-domain evaluation dataset consisting of naturally-occurring search engine queries that may or may not contain questionable assumptions. To be successful on (QA)$^2$, systems must be able to detect questionable assumptions and also be able to produce adequate responses for both typical information-seeking questions and ones with questionable assumptions. We find that current models do struggle with handling questionable assumptions -- the best performing model achieves 59% human rater acceptability on abstractive QA with (QA)$^2$ questions, leaving substantial headroom for progress.
翻訳日:2022-12-21 15:12:16 公開日:2022-12-20
# PLUE:英語のプライバシーポリシーのための言語理解評価ベンチマーク

PLUE: Language Understanding Evaluation Benchmark for Privacy Policies in English ( http://arxiv.org/abs/2212.10011v1 )

ライセンス: Link先を確認
Jianfeng Chi, Wasi Uddin Ahmad, Yuan Tian, Kai-Wei Chang(参考訳) プライバシーポリシーは、個人に自分の権利と個人情報の扱い方に関する情報を提供する。 自然言語理解(NLU)技術は、個人や実践者が長く複雑なドキュメントに記述されたより良いプライバシープラクティスを理解するのを支援することができる。 しかしながら、NLU技術を使用する既存の取り組みは、特定のプライバシープラクティスに焦点を当てた単一のタスクに限定して言語を処理することで制限されている。 そこで本研究では,プライバシポリシ言語理解度評価のためのマルチタスクベンチマークであるprivacy policy language understanding evaluation(plue)ベンチマークを紹介する。 また,プライバシポリシのドメイン固有言語モデル事前トレーニングを可能にするために,プライバシポリシの大規模なコーパスも収集しています。 ドメイン固有の事前トレーニングは、すべてのタスクでパフォーマンス改善を提供します。 この領域における将来の研究を促進するためのベンチマークをリリースします。

Privacy policies provide individuals with information about their rights and how their personal information is handled. Natural language understanding (NLU) technologies can support individuals and practitioners to understand better privacy practices described in lengthy and complex documents. However, existing efforts that use NLU technologies are limited by processing the language in a way exclusive to a single task focusing on certain privacy practices. To this end, we introduce the Privacy Policy Language Understanding Evaluation (PLUE) benchmark, a multi-task benchmark for evaluating the privacy policy language understanding across various tasks. We also collect a large corpus of privacy policies to enable privacy policy domain-specific language model pre-training. We demonstrate that domain-specific pre-training offers performance improvements across all tasks. We release the benchmark to encourage future research in this domain.
翻訳日:2022-12-21 15:11:53 公開日:2022-12-20
# 潜在状況を考慮した言語モデリング

Language Modeling with Latent Situations ( http://arxiv.org/abs/2212.10012v1 )

ライセンス: Link先を確認
Belinda Z. Li, Maxwell Nye, Jacob Andreas(参考訳) 言語モデル(LM)は、しばしば非一貫性な出力を生成する:それらは、入力に記述された世界の状態と互換性のないイベントやエンティティ状態を指す。 我々は,lmsにおけるコヒーレンスを改善するための手法として,エンティティとその状態の明示的な表現の構築と条件を訓練し,状況スーパービジョンを提案する。 situationsupervisionには2つのコンポーネントがある。コンテキスト内の状態表現を予測するためにモデルをトレーニングする補助的状況モデリングタスクと、これらの状態を部分的に注釈されたトレーニングデータから推論する潜在状態推論手順だ。 状況スーパービジョンは、微調整(隠された表現で状態変数をエンコードするためにLMを監督する)とプロンプト(出力テキストでエンティティ状態のテキスト記述をインターリーブするためにLMを誘導する)の両方に適用できる。 どちらの場合も、ProcessageSupervisionは、主要なコヒーレンスの改善(4-11%)を生成するために、少数の状態アノテーションしか必要とせず、標準のLMは、言語だけでなく、それが記述する状況もモデル化するためにサンプル効率よく訓練できることを示している。

Language models (LMs) often generate incoherent outputs: they refer to events and entity states that are incompatible with the state of the world described in their inputs. We introduce SituationSupervision, a family of approaches for improving coherence in LMs by training them to construct and condition on explicit representations of entities and their states. SituationSupervision has two components: an auxiliary situation modeling task that trains models to predict state representations in context, and a latent state inference procedure that imputes these states from partially annotated training data. SituationSupervision can be applied to both fine-tuning (by supervising LMs to encode state variables in their hidden representations) and prompting (by inducing LMs to interleave textual descriptions of entity states with output text). In both cases, SituationSupervision requires only a small number of state annotations to produce major coherence improvements (between 4-11%), showing that standard LMs can be sample-efficiently trained to model not just language but the situations it describes.
翻訳日:2022-12-21 15:11:40 公開日:2022-12-20
# DIONYSUS:低リソース対話要約のための事前学習モデル

DIONYSUS: A Pre-trained Model for Low-Resource Dialogue Summarization ( http://arxiv.org/abs/2212.10018v1 )

ライセンス: Link先を確認
Yu Li, Baolin Peng, Pengcheng He, Michel Galley, Zhou Yu and Jianfeng Gao(参考訳) ダイアログの要約は、その幅広い応用により、近年大きな注目を集めている。 しかし、既存の対話要約手法は、対話の固有の構造を考慮せず、ラベル付きデータに重きを置き、新しいドメインのパフォーマンスを損なう可能性があるため、最適ではない。 本研究では,任意の領域における対話を要約するプリトレーニングエンコーダ・デコーダモデルであるdionysus (dynamic input optimization in pre-training for dialogue summarization)を提案する。 DIONYSUSを事前訓練するために、各対話例に対して2つの擬似要約を作成する:1つは微調整の要約モデルで作成され、もう1つは重要な情報を伝える対話のターンのコレクションである。 次に,これらの疑似要約の1つを,異なる種類の対話における情報分布の違いに基づいて選択する。 この選択された擬似要約は、大きな対話コーパスに自己教師付きアプローチを用いてディオニューソスを事前学習する目的である。 我々の実験によると、DIONYSUSは、ROUGEスコアがゼロショットと少数ショット設定で示すように、6つのデータセット上の既存の手法よりも優れている。

Dialogue summarization has recently garnered significant attention due to its wide range of applications. However, existing methods for summarizing dialogues are suboptimal because they do not take into account the inherent structure of dialogue and rely heavily on labeled data, which can lead to poor performance in new domains. In this work, we propose DIONYSUS (dynamic input optimization in pre-training for dialogue summarization), a pre-trained encoder-decoder model for summarizing dialogues in any new domain. To pre-train DIONYSUS, we create two pseudo summaries for each dialogue example: one is produced by a fine-tuned summarization model, and the other is a collection of dialogue turns that convey important information. We then choose one of these pseudo summaries based on the difference in information distribution across different types of dialogues. This selected pseudo summary serves as the objective for pre-training DIONYSUS using a self-supervised approach on a large dialogue corpus. Our experiments show that DIONYSUS outperforms existing methods on six datasets, as demonstrated by its ROUGE scores in zero-shot and few-shot settings.
翻訳日:2022-12-21 15:11:20 公開日:2022-12-20
# QuantArt: 高視力に向けた画像スタイル転送の量子化

QuantArt: Quantizing Image Style Transfer Towards High Visual Fidelity ( http://arxiv.org/abs/2212.10431v1 )

ライセンス: Link先を確認
Siyu Huang, Jie An, Donglai Wei, Jiebo Luo, Hanspeter Pfister(参考訳) 既存のスタイル転送アルゴリズムのメカニズムは、ハイブリッド損失関数を最小化し、生成した画像をコンテンツとスタイルの両方において高い類似点へ押し上げることである。 しかし、このようなアプローチは視覚の忠実さを保証できない。つまり、生成されたアートワークは実際の作品と区別できない。 本稿では,高精細度スタイリングのためのQuantArtと呼ばれる新しいスタイル転送フレームワークを提案する。 QuantArtは、生成したアートワークの潜在表現を、ベクトル量子化による実際のアートワーク分布のセントロイドにプッシュする。 量子化および連続的な潜在表現を融合させることで、QuantArtはコンテンツ保存、スタイルの類似性、視覚的忠実度の観点から生成されたアートワークを柔軟に制御できる。 様々なスタイル転送設定の実験により、我々のQuantArtフレームワークは既存のスタイル転送方式に比べて、視覚的忠実度が著しく高いことが示されている。

The mechanism of existing style transfer algorithms is by minimizing a hybrid loss function to push the generated image toward high similarities in both content and style. However, this type of approach cannot guarantee visual fidelity, i.e., the generated artworks should be indistinguishable from real ones. In this paper, we devise a new style transfer framework called QuantArt for high visual-fidelity stylization. QuantArt pushes the latent representation of the generated artwork toward the centroids of the real artwork distribution with vector quantization. By fusing the quantized and continuous latent representations, QuantArt allows flexible control over the generated artworks in terms of content preservation, style similarity, and visual fidelity. Experiments on various style transfer settings show that our QuantArt framework achieves significantly higher visual fidelity compared with the existing style transfer methods.
翻訳日:2022-12-21 14:56:43 公開日:2022-12-20
# VSVC:Voiceprint SelectionとVoice Conversionに基づくキーワードスポッティングに対するバックドア攻撃

VSVC: Backdoor attack against Keyword Spotting based on Voiceprint Selection and Voice Conversion ( http://arxiv.org/abs/2212.10103v1 )

ライセンス: Link先を確認
Hanbo Cai, Pengcheng Zhang, Hai Dong, Yan Xiao, Shunhui Ji(参考訳) ディープニューラルネットワーク(DNN)に基づくキーワードスポッティング(KWS)は、音声制御シナリオにおいて大きな成功を収めている。 しかしながら、このようなDNNベースのKWSシステムのトレーニングは、しばしば重要なデータとハードウェアリソースを必要とする。 メーカーは、このプロセスをサードパーティーのプラットフォームに委託することが多い。 これにより、サードパーティのトレーニングデータを操作することで、アタッカーがモデルにバックドアを埋め込むことができる。 効果的なバックドア攻撃は、モデルに特定の条件、すなわちトリガーの下で特定の判断を強制することができる。 本稿では,Voiceprint SelectionとVoice Conversionに基づくバックドア攻撃方式をVSVCと略して設計する。 実験の結果,VSVCはトレーニングデータの1%未満を中毒した場合に,4つのモデルで平均97%の攻撃成功率を達成することが可能であった。

Keyword spotting (KWS) based on deep neural networks (DNNs) has achieved massive success in voice control scenarios. However, training of such DNN-based KWS systems often requires significant data and hardware resources. Manufacturers often entrust this process to a third-party platform. This makes the training process uncontrollable, where attackers can implant backdoors in the model by manipulating third-party training data. An effective backdoor attack can force the model to make specified judgments under certain conditions, i.e., triggers. In this paper, we design a backdoor attack scheme based on Voiceprint Selection and Voice Conversion, abbreviated as VSVC. Experimental results demonstrated that VSVC is feasible to achieve an average attack success rate close to 97% in four victim models when poisoning less than 1% of the training data.
翻訳日:2022-12-21 14:56:30 公開日:2022-12-20
# 共変量付きエンティティランキングのためのmleの不確実性定量化

Uncertainty Quantification of MLE for Entity Ranking with Covariates ( http://arxiv.org/abs/2212.09961v1 )

ライセンス: Link先を確認
Jianqing Fan, Jikai Hou, Mengxin Yu(参考訳) 本稿では,比較項目の属性などの余分な共変量情報とのペア比較に基づいて,ランキング問題の統計的推定と推定を行う。 広範な研究にもかかわらず、共変量情報が存在するより現実的な環境下でこの問題を研究する以前の文献は少ない。 この問題に対処するために,共変量情報を統合することで,有名なBradley-Terry-Luce(BTL)モデルを拡張した新しいモデルCARE(Covariate-Assisted Ranking Estimation)モデルを提案する。 具体的には、すべての比較項目が固定された潜在スコア $\{\theta_i^*\}_{i=1}^n$ を持つと仮定するのではなく、基礎となるスコアは$\{\alpha_i^*+{x}_i^\top\beta^*\}_{i=1}^n$ で与えられると仮定する。 我々は、新しい「リーブ・ワン・アウト」手法(chen et al., 2019)を用いて、スパース比較グラフの下で、自然同一性条件を課し、$\{\alpha_i^*\}_{i=1}^{n}$と$\beta^*$の最大推定値に対して$\ell_{\infty}$-および$\ell_2$-optimal rateを導出する。 統計的推論を行うために、より最小のサンプル複雑性を持つ$\{\alpha_i^*\}_{i=1}^n$および$\beta^*$のMLEに対する漸近分布を導出する。 これにより、ある共変量体が潜在スコアの説明力を持っているかどうかを問うことができ、いくつかのスパースパラメータをしきい値としてランク付け性能を改善することができる。 我々は,BLTモデルにおいて (Gao et al., 2021) で用いられる近似法を改善し, CAREモデルに一般化する。 さらに, 大規模数値研究を通じて理論結果を検証し, 相互資金保有データセットへの適用を行った。

This paper concerns with statistical estimation and inference for the ranking problems based on pairwise comparisons with additional covariate information such as the attributes of the compared items. Despite extensive studies, few prior literatures investigate this problem under the more realistic setting where covariate information exists. To tackle this issue, we propose a novel model, Covariate-Assisted Ranking Estimation (CARE) model, that extends the well-known Bradley-Terry-Luce (BTL) model, by incorporating the covariate information. Specifically, instead of assuming every compared item has a fixed latent score $\{\theta_i^*\}_{i=1}^n$, we assume the underlying scores are given by $\{\alpha_i^*+{x}_i^\top\beta^*\}_{i=1}^n$, where $\alpha_i^*$ and ${x}_i^\top\beta^*$ represent latent baseline and covariate score of the $i$-th item, respectively. We impose natural identifiability conditions and derive the $\ell_{\infty}$- and $\ell_2$-optimal rates for the maximum likelihood estimator of $\{\alpha_i^*\}_{i=1}^{n}$ and $\beta^*$ under a sparse comparison graph, using a novel `leave-one-out' technique (Chen et al., 2019) . To conduct statistical inferences, we further derive asymptotic distributions for the MLE of $\{\alpha_i^*\}_{i=1}^n$ and $\beta^*$ with minimal sample complexity. This allows us to answer the question whether some covariates have any explanation power for latent scores and to threshold some sparse parameters to improve the ranking performance. We improve the approximation method used in (Gao et al., 2021) for the BLT model and generalize it to the CARE model. Moreover, we validate our theoretical results through large-scale numerical studies and an application to the mutual fund stock holding dataset.
翻訳日:2022-12-21 14:55:44 公開日:2022-12-20
# スケーラブルな多目的ベイズ最適化によるセルフリーデータ電力制御

Cell-Free Data Power Control Via Scalable Multi-Objective Bayesian Optimisation ( http://arxiv.org/abs/2212.10299v1 )

ライセンス: Link先を確認
Sergey S. Tambovskiy, G\'abor Fodor, Hugo Tullberg(参考訳) セルフリーなマルチユーザ多重出力ネットワークは、ネットワークのカバレッジ領域全体にわたって、均一なサービス品質と高いリソース利用を提供する可能性があるため、従来のセルアーキテクチャに代わる有望な代替手段である。 この可能性を実現するため、様々な最適化エンジンを用いた無線リソース管理機構を開発した。 本研究では,セルフリーネットワークにおけるアップリンクダウンリンクデータパワー制御の文脈において,エルゴードスペクトル効率の最大化の問題を考察する。 この問題を大規模ネットワークで解決し,収束時間制限に対処するために,スケーラブルな多目的ベイズ最適化を適用する。 さらに,マルチ忠実性エミュレーションとベイズ最適化の交点が,セルフリーネットワークにおける無線資源管理をいかに改善するかについて議論する。

Cell-free multi-user multiple input multiple output networks are a promising alternative to classical cellular architectures, since they have the potential to provide uniform service quality and high resource utilisation over the entire coverage area of the network. To realise this potential, previous works have developed radio resource management mechanisms using various optimisation engines. In this work, we consider the problem of overall ergodic spectral efficiency maximisation in the context of uplink-downlink data power control in cell-free networks. To solve this problem in large networks, and to address convergence-time limitations, we apply scalable multi-objective Bayesian optimisation. Furthermore, we discuss how an intersection of multi-fidelity emulation and Bayesian optimisation can improve radio resource management in cell-free networks.
翻訳日:2022-12-21 14:55:00 公開日:2022-12-20
# 機械翻訳における幻覚の検出と緩和:モデル内部作業がうまくいき、文の類似性がさらに向上する

Detecting and Mitigating Hallucinations in Machine Translation: Model Internal Workings Alone Do Well, Sentence Similarity Even Better ( http://arxiv.org/abs/2212.08597v2 )

ライセンス: Link先を確認
David Dale and Elena Voita and Lo\"ic Barrault and Marta R. Costa-juss\`a(参考訳) 神経機械翻訳における幻覚の問題は長い間認識されてきたが、これまでのところその緩和の進歩はほとんどない。 実際、最近になって、人工的にモデルに幻覚を与えることなく、既存のメソッドが不足し、標準シーケンスのログプローバビリティがより有益であることが判明した。 これは、モデルの内部特性が予想以上に多くの情報を提供できることを意味しており、外部モデルや測度を使用する前に、最初に問う必要がある。 本稿では,生成した翻訳に対するソースの寄与率を評価する手法を提案する。 直感的には、幻覚はソースから「切り離された」翻訳であるため、低いソースのコントリビューションによって識別することができる。 この方法は、最も重度の幻覚の検出精度を2倍に向上させ、外部モデルに依存する以前の最善のアプローチと同等に、テスト時に幻覚を緩和することができる。 次に、内部モデルの特徴から離れて外部ツールを可能にすると、言語間埋め込みによる文の類似性がこれらの結果をさらに改善することを示す。

While the problem of hallucinations in neural machine translation has long been recognized, so far the progress on its alleviation is very little. Indeed, recently it turned out that without artificially encouraging models to hallucinate, previously existing methods fall short and even the standard sequence log-probability is more informative. It means that characteristics internal to the model can give much more information than we expect, and before using external models and measures, we first need to ask: how far can we go if we use nothing but the translation model itself ? We propose to use a method that evaluates the percentage of the source contribution to a generated translation. Intuitively, hallucinations are translations "detached" from the source, hence they can be identified by low source contribution. This method improves detection accuracy for the most severe hallucinations by a factor of 2 and is able to alleviate hallucinations at test time on par with the previous best approach that relies on external models. Next, if we move away from internal model characteristics and allow external tools, we show that using sentence similarity from cross-lingual embeddings further improves these results.
翻訳日:2022-12-21 14:54:48 公開日:2022-12-20
# One Embedder, Any Task: Instruction-Finetuned Text Embedddings

One Embedder, Any Task: Instruction-Finetuned Text Embeddings ( http://arxiv.org/abs/2212.09741v2 )

ライセンス: Link先を確認
Hongjin Su, Weijia Shi, Jungo Kasai, Yizhong Wang, Yushi Hu, Mari Ostendorf, Wen-tau Yih, Noah A. Smith, Luke Zettlemoyer, Tao Yu(参考訳) InSTRUCTORは、与えられたタスク命令にテキストを埋め込む新しい方法であり、すべてのテキスト入力がユースケースを説明する命令(タスクやドメイン記述など)と共に埋め込まれている。 より専門的な以前の作業のエンコーダとは異なり、INSTRUCTORは別の下流タスクやドメインに適したテキスト埋め込みを生成することができる単一の埋め込み器である。 まず330の多様なタスクの指示に注釈を付け、このマルチタスクのミックスでINSTRUCTORを訓練する。 InSTRUCTORを70の組込み評価タスク(うち66は訓練中に見つからない)で評価し、分類や情報検索から意味的テキスト類似性やテキスト生成評価までの範囲で評価する。 INSTRUCTORは、以前のベストモデルよりも桁違いに少ないパラメータを持つが、70の多様なデータセットの前のベストモデルと比べて平均3.4%改善され、最先端のパフォーマンスを達成する。 分析の結果,INSTRUCTORは命令の変化に対して頑健であり,命令の微調整は多様なデータセット上で単一モデルをトレーニングする難しさを軽減していることがわかった。 私たちのモデル、コード、データはhttps://instructor-embedding.github.ioで利用可能です。

We introduce INSTRUCTOR, a new method for computing text embeddings given task instructions: every text input is embedded together with instructions explaining the use case (e.g., task and domain descriptions). Unlike encoders from prior work that are more specialized, INSTRUCTOR is a single embedder that can generate text embeddings tailored to different downstream tasks and domains, without any further training. We first annotate instructions for 330 diverse tasks and train INSTRUCTOR on this multitask mixture with a contrastive loss. We evaluate INSTRUCTOR on 70 embedding evaluation tasks (66 of which are unseen during training), ranging from classification and information retrieval to semantic textual similarity and text generation evaluation. INSTRUCTOR, while having an order of magnitude fewer parameters than the previous best model, achieves state-of-the-art performance, with an average improvement of 3.4% compared to the previous best results on the 70 diverse datasets. Our analysis suggests that INSTRUCTOR is robust to changes in instructions, and that instruction finetuning mitigates the challenge of training a single model on diverse datasets. Our model, code, and data are available at https://instructor-embedding.github.io.
翻訳日:2022-12-21 14:54:27 公開日:2022-12-20
# 言語モデル間インタラクションの評価

Evaluating Human-Language Model Interaction ( http://arxiv.org/abs/2212.09746v2 )

ライセンス: Link先を確認
Mina Lee, Megha Srivastava, Amelia Hardy, John Thickstun, Esin Durmus, Ashwin Paranjape, Ines Gerard-Ursin, Xiang Lisa Li, Faisal Ladhak, Frieda Rong, Rose E. Wang, Minae Kwon, Joon Sung Park, Hancheng Cao, Tony Lee, Rishi Bommasani, Michael Bernstein, Percy Liang(参考訳) コードオートコンプリートや筆記支援といった言語モデル(LM)の現実的な応用には、人間とLMの相互作用が含まれる。 しかしながら、主要なLMベンチマークは、システムが人間の関与なしに出力を生成するという点で非対話的である。 HALIE(Human-AI Language-based Interaction Evaluation)という,3次元の非対話的評価を拡大するフレームワークを開発した。 (i)最終的な出力だけでなく、対話的なプロセス (ii)第三者のアセスメントに限らず、一人称主観的な経験 (iii)品質以上の選好概念。 次に、さまざまな形式のインタラクションをキャプチャするために、目標指向からopen-endedまでの5つのタスクを設計します。 最先端の4つのLM(OpenAIのGPT-3とAI21のJ1-Jumboの3つの変種)では、非インタラクティブなパフォーマンスが必ずしも人間とLMの相互作用を改善するとは限らないこと、第一人物と第三者のメトリクスがばらつき、人間とLMの相互作用のニュアンスを調べることの重要性が示唆されている。

Many real-world applications of language models (LMs), such as code autocomplete and writing assistance, involve human-LM interaction. However, the main LM benchmarks are non-interactive in that a system produces output without human involvement. To evaluate human-LM interaction, we develop a new framework, Human-AI Language-based Interaction Evaluation (HALIE), that expands non-interactive evaluation along three dimensions, capturing (i) the interactive process, not only the final output; (ii) the first-person subjective experience, not just a third-party assessment; and (iii) notions of preference beyond quality. We then design five tasks ranging from goal-oriented to open-ended to capture different forms of interaction. On four state-of-the-art LMs (three variants of OpenAI's GPT-3 and AI21's J1-Jumbo), we find that non-interactive performance does not always result in better human-LM interaction and that first-person and third-party metrics can diverge, suggesting the importance of examining the nuances of human-LM interaction.
翻訳日:2022-12-21 14:54:07 公開日:2022-12-20
# berlin v2x: 複数の車両と無線アクセス技術による機械学習データセット

Berlin V2X: A Machine Learning Dataset from Multiple Vehicles and Radio Access Technologies ( http://arxiv.org/abs/2212.10343v1 )

ライセンス: Link先を確認
Rodrigo Hernang\'omez, Philipp Geuer, Alexandros Palaios, Daniel Sch\"aufele, Cara Watermann, Khawla Taleb-Bouhemadi, Mohammad Parvini, Anton Krause, Sanket Partani, Christian Vielhaus, Martin Kasparick, Daniel F. K\"ulzer, Friedrich Burmeister, S{\l}awomir Sta\'nczak, Gerhard Fettweis, Hans D. Schotten, Frank H. P. Fitzek(参考訳) 6g以降への無線通信の進化は、新しい機械学習(ml)ベースの機能に依存することが期待される。 これにより、無線ネットワークコンポーネントからの積極的な決定とアクションにより、QoS(Quality-of-Service)とユーザエクスペリエンスを維持できる。 また, 自動車と産業の通信分野における新たな利用事例が出現する。 特に、車両通信の分野では、車両間通信(V2X)方式は、そのような進歩の恩恵を強く受けるだろう。 そこで我々は,MLに基づく多種多様な研究を可能にするための詳細な測定キャンペーンを実施した。 得られたデータセットは、セルラー(2つの異なるオペレーターを持つ)とサイドリンク無線アクセス技術の両方のために、様々な都市環境にわたってGPSによるワイヤレス測定を提供する。 データセットはラベル付けされ、高解像度でサンプリングされる。 さらに,新たな研究者の参加を支援するために,必要な情報をすべて公開する。 我々は、MLが克服すべき課題と、MLが活用できる機能と、潜在的研究のヒントを示すデータの初期分析を提供する。

The evolution of wireless communications into 6G and beyond is expected to rely on new machine learning (ML)-based capabilities. These can enable proactive decisions and actions from wireless-network components to sustain quality-of-service (QoS) and user experience. Moreover, new use cases in the area of vehicular and industrial communications will emerge. Specifically in the area of vehicle communication, vehicle-to-everything (V2X) schemes will benefit strongly from such advances. With this in mind, we have conducted a detailed measurement campaign with the purpose of enabling a plethora of diverse ML-based studies. The resulting datasets offer GPS-located wireless measurements across diverse urban environments for both cellular (with two different operators) and sidelink radio access technologies, thus enabling a variety of different studies towards V2X. The datasets are labeled and sampled with a high time resolution. Furthermore, we make the data publicly available with all the necessary information to support the on-boarding of new researchers. We provide an initial analysis of the data showing some of the challenges that ML needs to overcome and the features that ML can leverage, as well as some hints at potential research studies.
翻訳日:2022-12-21 14:47:20 公開日:2022-12-20
# 第3回国際ニューラルネットワークコンペティション(VNN-COMP 2022)の概要と結果

The Third International Verification of Neural Networks Competition (VNN-COMP 2022): Summary and Results ( http://arxiv.org/abs/2212.10376v1 )

ライセンス: Link先を確認
Mark Niklas M\"uller, Christopher Brix, Stanley Bak, Changliu Liu, Taylor T. Johnson(参考訳) 第3回ニューラルネットワークコンペティション(vnn-comp 2022)は、第34回コンピュータ支援検証国際会議(cav)と共同で開催された、ml対応自律システム(fomlas)の形式的手法に関する第5回ワークショップの一環として開催された。 VNN-COMPは、最先端のニューラルネットワーク検証ツールの公正かつ客観的な比較を促進し、ツールインターフェースの標準化を促進し、ニューラルネットワーク検証コミュニティを統合するために毎年開催される。 この目的のために、ネットワーク(ONNX)と仕様(VNN-LIB)の標準化フォーマットが定義され、同じコストのハードウェア上でツールが評価され(AWSインスタンスをベースとした自動評価パイプラインを使用して)、最終テストセットが公開される前に、ツールパラメータが参加者によって選択された。 2022年のイテレーションでは、11チームが12のベンチマークのさまざまなセットに参加した。 このレポートは、このコンペティションのこのイテレーションから学んだルール、ベンチマーク、参加ツール、結果、教訓を要約する。

This report summarizes the 3rd International Verification of Neural Networks Competition (VNN-COMP 2022), held as a part of the 5th Workshop on Formal Methods for ML-Enabled Autonomous Systems (FoMLAS), which was collocated with the 34th International Conference on Computer-Aided Verification (CAV). VNN-COMP is held annually to facilitate the fair and objective comparison of state-of-the-art neural network verification tools, encourage the standardization of tool interfaces, and bring together the neural network verification community. To this end, standardized formats for networks (ONNX) and specification (VNN-LIB) were defined, tools were evaluated on equal-cost hardware (using an automatic evaluation pipeline based on AWS instances), and tool parameters were chosen by the participants before the final test sets were made public. In the 2022 iteration, 11 teams participated on a diverse set of 12 scored benchmarks. This report summarizes the rules, benchmarks, participating tools, results, and lessons learned from this iteration of this competition.
翻訳日:2022-12-21 14:47:02 公開日:2022-12-20
# 報酬仮説を解決し

Settling the Reward Hypothesis ( http://arxiv.org/abs/2212.10420v1 )

ライセンス: Link先を確認
Michael Bowling, John D. Martin, David Abel, Will Dabney(参考訳) 報酬仮説は「私たちが目標と目的によって意味する全てのことは、受信したスカラー信号(reward)の累積和の期待値の最大化と考えることができる」と仮定している。 我々はこの仮説を完全に解決しようとする。 これは単純な肯定や反感で結論付けるのではなく、仮説が持つ目標や目的に対する暗黙の要求を完全に規定する。

The reward hypothesis posits that, "all of what we mean by goals and purposes can be well thought of as maximization of the expected value of the cumulative sum of a received scalar signal (reward)." We aim to fully settle this hypothesis. This will not conclude with a simple affirmation or refutation, but rather specify completely the implicit requirements on goals and purposes under which the hypothesis holds.
翻訳日:2022-12-21 14:46:43 公開日:2022-12-20
# 予測によるスケジューリング

Scheduling with Predictions ( http://arxiv.org/abs/2212.10433v1 )

ライセンス: Link先を確認
Woo-Hyung Cho, Shane Henderson, David Shmoys(参考訳) 医学画像の異常を数分で検出できる近代的な学習技術により、診断放射線学のための機械学習アルゴリズムの展開に大きな関心がある。 機械による診断は、放射線技師による画像のヒトのレビューを確実に置き換えることはできないが、患者を検査する順番を決定するための優先順位付けルールを通知することで、早期介入の恩恵を受けることができる。 このシナリオを学習強化オンラインスケジューリング問題として定式化する。 到着した各患者の緊急度に関する情報は事前に与えられているが、これらの予測は必然的にエラーを起こしやすい。 この定式化では,不完全な情報に基づく意思決定の課題と,より良いデータをリアルタイムに観察する上で予測誤差に動的に対応する課題に直面する。 我々は、簡単なオンラインポリシーを提案し、このポリシーが特定のスタイル化された設定で可能な最善であることを示す。 また,オンラインアルゴリズムの2つのデシラタを,一貫性(予測精度による性能向上)と堅牢性(最悪の場合に対する保護)という予測で実現していることを示す。 実世界の臨床シナリオをより正確に反映した条件下での政策の実証的評価と理論的知見を補完する。

There is significant interest in deploying machine learning algorithms for diagnostic radiology, as modern learning techniques have made it possible to detect abnormalities in medical images within minutes. While machine-assisted diagnoses cannot yet reliably replace human reviews of images by a radiologist, they could inform prioritization rules for determining the order by which to review patient cases so that patients with time-sensitive conditions could benefit from early intervention. We study this scenario by formulating it as a learning-augmented online scheduling problem. We are given information about each arriving patient's urgency level in advance, but these predictions are inevitably error-prone. In this formulation, we face the challenges of decision making under imperfect information, and of responding dynamically to prediction error as we observe better data in real-time. We propose a simple online policy and show that this policy is in fact the best possible in certain stylized settings. We also demonstrate that our policy achieves the two desiderata of online algorithms with predictions: consistency (performance improvement with prediction accuracy) and robustness (protection against the worst case). We complement our theoretical findings with empirical evaluations of the policy under settings that more accurately reflect clinical scenarios in the real world.
翻訳日:2022-12-21 14:46:37 公開日:2022-12-20
# 脳波復号のための深いリーマンネットワーク

Deep Riemannian Networks for EEG Decoding ( http://arxiv.org/abs/2212.10426v1 )

ライセンス: Link先を確認
Daniel Wilson, Lukas Alexander Wilhelm Gemein, Robin Tibor Schirrmeister, Tonio Ball(参考訳) 電子脳波(EEG)復号処理の最先端性能は、現在Deep-Learning または Riemannian-Geometry ベースの復号器を用いて達成されている。 近年,Deep Riemannian Networks (DRN) への関心が高まっている。 しかし、より広範なDRNをEEGに応用するには、さらなる洞察が必要である、というトピックは、まだたくさんある。 これにはネットワークサイズやエンドツーエンドの能力といったアーキテクチャ設計の問題や、モデルのトレーニングに関する質問が含まれる。 これらの要因がモデルのパフォーマンスにどのように影響するかは検討されていない。 さらに、これらのネットワーク内のデータがどのように変換され、それが従来の脳波デコードと相関するかは明らかではない。 本研究の目的は,脳波のDRNを多種多様なパラメーターで解析することで,これらのトピックの領域の基盤となることにある。 ネットワークは2つのパブリックEEGデータセットでテストされ、最先端のConvNetと比較された。 本稿では、エンド・ツー・エンドの脳波spdnet(ee(g)-spdnet)を提案し、この広範囲のエンド・ツー・エンドのdrmが、コンブネットよりも優れており、生理学的に妥当な周波数領域を用いていることを示す。 また、エンド・ツー・エンドの手法は、脳波の古典的アルファ、ベータ、ガンマ周波数帯域を対象とする従来の帯域通過フィルタよりも複雑なフィルタを学習し、チャネル固有のフィルタリング手法の恩恵を受けることを示す。 さらに、アーキテクチャ解析により、ネットワーク全体のリーマン固有情報が失われる可能性があるため、さらなる改善が図られた。 そこで本研究では,手作りのフィルタバンクを必要とせずに,生の脳波からタスク関連情報を推測するためのDRNの設計と訓練方法を示し,高性能な脳波復号のためのEE(G)-SPDNetなどのエンドツーエンドDRNの可能性を強調した。

State-of-the-art performance in electroencephalography (EEG) decoding tasks is currently often achieved with either Deep-Learning or Riemannian-Geometry-based decoders. Recently, there is growing interest in Deep Riemannian Networks (DRNs) possibly combining the advantages of both previous classes of methods. However, there are still a range of topics where additional insight is needed to pave the way for a more widespread application of DRNs in EEG. These include architecture design questions such as network size and end-to-end ability as well as model training questions. How these factors affect model performance has not been explored. Additionally, it is not clear how the data within these networks is transformed, and whether this would correlate with traditional EEG decoding. Our study aims to lay the groundwork in the area of these topics through the analysis of DRNs for EEG with a wide range of hyperparameters. Networks were tested on two public EEG datasets and compared with state-of-the-art ConvNets. Here we propose end-to-end EEG SPDNet (EE(G)-SPDNet), and we show that this wide, end-to-end DRN can outperform the ConvNets, and in doing so use physiologically plausible frequency regions. We also show that the end-to-end approach learns more complex filters than traditional band-pass filters targeting the classical alpha, beta, and gamma frequency bands of the EEG, and that performance can benefit from channel specific filtering approaches. Additionally, architectural analysis revealed areas for further improvement due to the possible loss of Riemannian specific information throughout the network. Our study thus shows how to design and train DRNs to infer task-related information from the raw EEG without the need of handcrafted filterbanks and highlights the potential of end-to-end DRNs such as EE(G)-SPDNet for high-performance EEG decoding.
翻訳日:2022-12-21 14:45:59 公開日:2022-12-20
# 推定バイアスを低減した一般化同時摂動確率近似

Generalized Simultaneous Perturbation Stochastic Approximation with Reduced Estimator Bias ( http://arxiv.org/abs/2212.10477v1 )

ライセンス: Link先を確認
Shalabh Bhatnagar and Prashanth L.A(参考訳) 本稿では、雑音関数測定を用いて目的物の勾配を推定する一般化摂動確率近似(G-SPSA)の家系について述べるが、関数の測定数と勾配推定器の形状は、所望の推定器バイアスによって導かれる。 特に、より多くの関数の測定値を持つ推定器は、より低いバイアスをもたらす。 本稿では,一般化SPSAアルゴリズムの収束解析を行い,今後の方向性を示す。

We present in this paper a family of generalized simultaneous perturbation stochastic approximation (G-SPSA) estimators that estimate the gradient of the objective using noisy function measurements, but where the number of function measurements and the form of the gradient estimator is guided by the desired estimator bias. In particular, estimators with more function measurements are seen to result in lower bias. We provide an analysis of convergence of the generalized SPSA algorithm, and point to possible future directions.
翻訳日:2022-12-21 14:45:26 公開日:2022-12-20
# 霊長類分類とウイルス検出のための視覚トランスフォーマー

Visual Transformers for Primates Classification and Covid Detection ( http://arxiv.org/abs/2212.10093v1 )

ライセンス: Link先を確認
Steffen Illium, Robert M\"uller, Andreas Sedlmeier and Claudia-Linnhoff Popien(参考訳) 本研究では,アテンション機構を中心とした深層機械学習モデルである視覚トランスフォーマを,生オーディオ記録のメルスペクトログラム表現に適用する。 メルベースのデータ拡張技術とサンプル重み付けを追加する場合、ComParE21のタスク(PRSとCCSの課題)で同等のパフォーマンスを達成し、ほとんどのモデルベースラインを上回ります。 さらに,重なり合う垂直パッチを導入し,パラメータ構成の影響評価を行う。 索引項:音声分類、注意、メルスペクトログラム、不均衡データセット、計算パラ言語学

We apply the vision transformer, a deep machine learning model build around the attention mechanism, on mel-spectrogram representations of raw audio recordings. When adding mel-based data augmentation techniques and sample-weighting, we achieve comparable performance on both (PRS and CCS challenge) tasks of ComParE21, outperforming most single model baselines. We further introduce overlapping vertical patching and evaluate the influence of parameter configurations. Index Terms: audio classification, attention, mel-spectrogram, unbalanced data-sets, computational paralinguistics
翻訳日:2022-12-21 14:45:17 公開日:2022-12-20
# 迷路探索作業におけるニューラルネットワークによる眼球運動のモデル化

Modeling Human Eye Movements with Neural Networks in a Maze-Solving Task ( http://arxiv.org/abs/2212.10367v1 )

ライセンス: Link先を確認
Jason Li, Nicholas Watters, Yingting (Sandy) Wang, Hansem Sohn, Mehrdad Jazayeri(参考訳) 動きを円滑に追跡するから、視線を急速にシフトさせるまで、人間は様々な状況で様々な眼球運動戦略を採用する。 眼球運動は精神過程の豊かな窓を提供するが、眼球運動の生成モデルの構築は非常に難しく、これまでは、眼球運動を導く計算目的はほとんど謎のままである。 本研究では,maze-solvingという正準空間計画タスクの文脈で,これらの問題に取り組む。 被験者の眼球運動データを収集し,眼球運動の深部生成モデルを構築した。 人間の目の動きは、できるだけ効率的にタスクを実行するのではなく、迷路を横断する物体の内部シミュレーションを実行するよう最適化されたモデルによって予測される。 これは、このタスクで目の動きの生成モデルを提供するだけでなく、人間がどのようにタスクを解くかという計算理論も提案している。

From smoothly pursuing moving objects to rapidly shifting gazes during visual search, humans employ a wide variety of eye movement strategies in different contexts. While eye movements provide a rich window into mental processes, building generative models of eye movements is notoriously difficult, and to date the computational objectives guiding eye movements remain largely a mystery. In this work, we tackled these problems in the context of a canonical spatial planning task, maze-solving. We collected eye movement data from human subjects and built deep generative models of eye movements using a novel differentiable architecture for gaze fixations and gaze shifts. We found that human eye movements are best predicted by a model that is optimized not to perform the task as efficiently as possible but instead to run an internal simulation of an object traversing the maze. This not only provides a generative model of eye movements in this task but also suggests a computational theory for how humans solve the task, namely that humans use mental simulation.
翻訳日:2022-12-21 14:45:08 公開日:2022-12-20
# ADAS: クロスドメインな3Dセマンティックセマンティックセグメンテーションのためのシンプルなアクティブ&アダプティブベースライン

ADAS: A Simple Active-and-Adaptive Baseline for Cross-Domain 3D Semantic Segmentation ( http://arxiv.org/abs/2212.10390v1 )

ライセンス: Link先を確認
Ben Fei, Siyuan Huang, Jiakang Yuan, Botian Shi, Bo Zhang, Tao Chen, Min Dou, Yu Qiao(参考訳) 最先端の3dセマンティクスセグメンテーションモデルは、既定のパブリックベンチマークでトレーニングされるが、これらのよく訓練されたモデルを新しいドメインにデプロイする場合、それらはしばしば大きな課題に直面する。 本稿では,十分に訓練された3次元セグメンテーションモデルの弱いクロスドメイン一般化能力を高めるために,アクティブ・アンド・アダプティブセグメンテーション(adas)ベースラインを提案する。 具体的には、クロスドメイン適応ステージが始まる前に、ADASがアクティブサンプリング操作を行い、ソースドメインとターゲットドメインの両方から最大非形式サブセットを選択して効果的な適応を行い、3Dシナリオでの適応難度を低減する。 マルチモーダルな2D-3Dデータセットの出現により、ADASはクロスモーダルなアテンションベースの特徴融合モジュールを使用して、イメージ特徴とポイント特徴の代表的なペアを抽出し、より安全な適応のために双方向のイメージポイント特徴インタラクションを実現する。 実験により、ADASは以下の多くのクロスドメイン設定で有効であることが確認された。 1) 監視されていないドメイン適応(UDA)とは,対象ドメインからのすべてのサンプルがラベル付けされていないことを意味する。 2) 未表示領域適応 (UFDA) とは,少数の未表示サンプルが未表示対象領域で利用可能であることを意味する。 3) adasによって選択されたターゲットサンプルを手動で注釈付けするアクティブドメイン適応(ada)。 これらの結果から,ADASを自己学習法や市販のUDA工法と容易に結合することにより,ADASの精度向上が達成された。

State-of-the-art 3D semantic segmentation models are trained on the off-the-shelf public benchmarks, but they often face the major challenge when these well-trained models are deployed to a new domain. In this paper, we propose an Active-and-Adaptive Segmentation (ADAS) baseline to enhance the weak cross-domain generalization ability of a well-trained 3D segmentation model, and bridge the point distribution gap between domains. Specifically, before the cross-domain adaptation stage begins, ADAS performs an active sampling operation to select a maximally-informative subset from both source and target domains for effective adaptation, reducing the adaptation difficulty under 3D scenarios. Benefiting from the rise of multi-modal 2D-3D datasets, ADAS utilizes a cross-modal attention-based feature fusion module that can extract a representative pair of image features and point features to achieve a bi-directional image-point feature interaction for better safe adaptation. Experimentally, ADAS is verified to be effective in many cross-domain settings including: 1) Unsupervised Domain Adaptation (UDA), which means that all samples from target domain are unlabeled; 2) Unsupervised Few-shot Domain Adaptation (UFDA) which means that only a few unlabeled samples are available in the unlabeled target domain; 3) Active Domain Adaptation (ADA) which means that the selected target samples by ADAS are manually annotated. Their results demonstrate that ADAS achieves a significant accuracy gain by easily coupling ADAS with self-training methods or off-the-shelf UDA works.
翻訳日:2022-12-21 14:44:50 公開日:2022-12-20
# ニューラルコードインテリジェンスのための事前学習言語モデルの検討

A Survey on Pretrained Language Models for Neural Code Intelligence ( http://arxiv.org/abs/2212.10079v1 )

ライセンス: Link先を確認
Yichen Xu and Yanqiao Zhu(参考訳) 現代のソフトウェアは複雑さが増し続けており、ソフトウェア工学はますます途方もない、エラーを起こしやすい努力になりつつある。 近年、nci(neural code intelligence)の分野が有望なソリューションとして登場し、プログラミング効率の向上とソフトウェア業界におけるヒューマンエラーの最小化を目標として、ソースコードの分析タスクに取り組むためにディープラーニング技術の力を活用している。 事前訓練された言語モデルは、コード要約、生成、翻訳など、幅広いタスクにわたる最先端の成果を継続的に提供し、NCI研究において支配的な力となっている。 本稿では,NCIドメインに関する包括的調査を行い,事前学習技術,タスク,データセット,モデルアーキテクチャについて概観する。 この論文が自然言語とプログラミング言語コミュニティの橋渡しとなり、この急速に発展する分野における今後の研究への洞察を提供することを期待している。

As the complexity of modern software continues to escalate, software engineering has become an increasingly daunting and error-prone endeavor. In recent years, the field of Neural Code Intelligence (NCI) has emerged as a promising solution, leveraging the power of deep learning techniques to tackle analytical tasks on source code with the goal of improving programming efficiency and minimizing human errors within the software industry. Pretrained language models have become a dominant force in NCI research, consistently delivering state-of-the-art results across a wide range of tasks, including code summarization, generation, and translation. In this paper, we present a comprehensive survey of the NCI domain, including a thorough review of pretraining techniques, tasks, datasets, and model architectures. We hope this paper will serve as a bridge between the natural language and programming language communities, offering insights for future research in this rapidly evolving field.
翻訳日:2022-12-21 14:38:16 公開日:2022-12-20
# 感情選択可能なエンドツーエンドテキストに基づく音声編集

Emotion Selectable End-to-End Text-based Speech Editing ( http://arxiv.org/abs/2212.10191v1 )

ライセンス: Link先を確認
Tao Wang, Jiangyan Yi, Ruibo Fu, Jianhua Tao, Zhengqi Wen, Chu Yuan Zhang(参考訳) テキストベースの音声編集により、ユーザーは直感的にテキストをカット、コピー、ペーストすることで音声を編集できる。 先行研究では,テキストに基づく音声編集を実現するために,campnet (context-aware mask prediction network) を提案する。 本稿では,テキストベースの音声編集中に音声編集に感情的効果を加えることで,生成音声をより表現力良くすることを目的とする。 この課題を達成するために,テキストベースの音声編集において生成した音声に対する感情属性のオプションを提供するEmo-CampNet(emotion CampNet)を提案する。 まず,感情選択可能なテキストベース音声編集モデルを提案する。 このモデルの主な考え方は、文脈認識マスク予測ネットワークに基づく追加の感情属性を導入することにより、生成された音声の感情を制御することである。 第2に、生成した音声の感情が原音声の感情成分に干渉することを防止するために、中性コンテンツ生成装置が提案され、生成敵フレームワークにより最適化された原音声から感情を除去する。 第3に、トレーニングセットにおける感情情報と発音情報を豊かにするために、2つのデータ拡張手法を提案する。 実験の結果は 1)Emo-CampNetはテキストベース音声編集の過程で生成した音声の感情を効果的に制御し,未知話者の音声を編集することができる。 2) 詳細なアブレーション実験により, 感情選択性およびデータ拡張法の有効性がさらに証明された。 デモページはhttps://hairuo55.github.io/emo-campnet/で入手できる。

Text-based speech editing allows users to edit speech by intuitively cutting, copying, and pasting text to speed up the process of editing speech. In the previous work, CampNet (context-aware mask prediction network) is proposed to realize text-based speech editing, significantly improving the quality of edited speech. This paper aims at a new task: adding emotional effect to the editing speech during the text-based speech editing to make the generated speech more expressive. To achieve this task, we propose Emo-CampNet (emotion CampNet), which can provide the option of emotional attributes for the generated speech in text-based speech editing and has the one-shot ability to edit unseen speakers' speech. Firstly, we propose an end-to-end emotion-selectable text-based speech editing model. The key idea of the model is to control the emotion of generated speech by introducing additional emotion attributes based on the context-aware mask prediction network. Secondly, to prevent the emotion of the generated speech from being interfered by the emotional components in the original speech, a neutral content generator is proposed to remove the emotion from the original speech, which is optimized by the generative adversarial framework. Thirdly, two data augmentation methods are proposed to enrich the emotional and pronunciation information in the training set, which can enable the model to edit the unseen speaker's speech. The experimental results that 1) Emo-CampNet can effectively control the emotion of the generated speech in the process of text-based speech editing; And can edit unseen speakers' speech. 2) Detailed ablation experiments further prove the effectiveness of emotional selectivity and data augmentation methods. The demo page is available at https://hairuo55.github.io/Emo-CampNet/
翻訳日:2022-12-21 14:38:00 公開日:2022-12-20
# ラベル平滑化によるドメイン内およびドメイン外テキスト競合ロバスト性

In and Out-of-Domain Text Adversarial Robustness via Label Smoothing ( http://arxiv.org/abs/2212.10258v1 )

ライセンス: Link先を確認
Yahan Yang, Soham Dan, Dan Roth, Insup Lee(参考訳) 近年、最先端のNLPモデルは敵攻撃に弱いことが示されており、モデルの予測は入力へのわずかな変更(シノニム置換など)によって劇的に変更可能である。 テキスト敵攻撃の個別性に対して,いくつかの防御手法が提案され,適用されてきたが,言語モデルに対するラベルスムーシングなどの汎用正規化手法の利点は研究されていない。 本稿では,ドメイン内およびドメイン外の両方における多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的堅牢性について検討する。 実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対する対向的堅牢性を著しく向上することが示された。 また,予測信頼度とロバスト性との関係を解析し,ラベル平滑化が敵対例の信頼度過大な誤りを減少させることを示した。

Recently it has been shown that state-of-the-art NLP models are vulnerable to adversarial attacks, where the predictions of a model can be drastically altered by slight modifications to the input (such as synonym substitutions). While several defense techniques have been proposed, and adapted, to the discrete nature of text adversarial attacks, the benefits of general-purpose regularization methods such as label smoothing for language models, have not been studied. In this paper, we study the adversarial robustness provided by various label smoothing strategies in foundational models for diverse NLP tasks in both in-domain and out-of-domain settings. Our experiments show that label smoothing significantly improves adversarial robustness in pre-trained models like BERT, against various popular attacks. We also analyze the relationship between prediction confidence and robustness, showing that label smoothing reduces over-confident errors on adversarial examples.
翻訳日:2022-12-21 14:37:32 公開日:2022-12-20
# ReCode: コード生成モデルのロバスト性評価

ReCode: Robustness Evaluation of Code Generation Models ( http://arxiv.org/abs/2212.10264v1 )

ライセンス: Link先を確認
Shiqi Wang, Zheng Li, Haifeng Qian, Chenghao Yang, Zijian Wang, Mingyue Shang, Varun Kumar, Samson Tan, Baishakhi Ray, Parminder Bhatia, Ramesh Nallapati, Murali Krishna Ramanathan, Dan Roth, Bing Xiang(参考訳) コード生成モデルは素晴らしいパフォーマンスを達成した。 しかし、プロンプトへのわずかな編集は、非常に異なる世代に繋がる可能性があるため、不安定になる傾向がある。 テキストやコードタスクの堅牢性に関する既存の作業は、分類に重点を置いているが、生成タスクの堅牢性は、チャートされていない領域であり、コード生成の堅牢性に関する包括的なベンチマークはない。 本稿では,コード生成モデルのための総合的ロバストネス評価ベンチマークReCodeを提案する。 ドクストリング、関数と変数名、コード構文、コードフォーマットのコード用に、30以上の変換をカスタマイズします。 それらは、実生活のコーディングの実践において自然であるように慎重に設計され、元の意味的意味を保ち、モデルのロバスト性性能の多面的評価を提供する。 ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。 さらに,コード生成モデルのロバスト性指標を,生成コードの実行が客観的な評価に有効であるという事実を生かして,摂動のタイプ毎に最悪の動作を考慮に入れて定義する。 我々は,HumanEval,MBPPを用いたSOTAモデル上でのReCodeと,それらから派生した関数補完タスクを実証する。 InCoderやGPT-JよりもCodeGenの方が堅牢である;モデルは構文の摂動に最も敏感である;HumanEvalよりもMBPPの方が頑丈である。

Code generation models have achieved impressive performance. However, they tend to be brittle as slight edits to a prompt could lead to very different generations; these robustness properties, critical for user experience when deployed in real-life applications, are not well understood. Most existing works on robustness in text or code tasks have focused on classification, while robustness in generation tasks is an uncharted area and to date there is no comprehensive benchmark for robustness in code generation. In this paper, we propose ReCode, a comprehensive robustness evaluation benchmark for code generation models. We customize over 30 transformations specifically for code on docstrings, function and variable names, code syntax, and code format. They are carefully designed to be natural in real-life coding practice, preserve the original semantic meaning, and thus provide multifaceted assessments of a model's robustness performance. With human annotators, we verified that over 90% of the perturbed prompts do not alter the semantic meaning of the original prompt. In addition, we define robustness metrics for code generation models considering the worst-case behavior under each type of perturbation, taking advantage of the fact that executing the generated code can serve as objective evaluation. We demonstrate ReCode on SOTA models using HumanEval, MBPP, as well as function completion tasks derived from them. Interesting observations include: better robustness for CodeGen over InCoder and GPT-J; models are most sensitive to syntax perturbations; more challenging robustness evaluation on MBPP over HumanEval.
翻訳日:2022-12-21 14:37:13 公開日:2022-12-20
# 分散顔認識デプロイメントのための顔埋め込みの効率的な集約(拡張版)

Efficient aggregation of face embeddings for decentralized face recognition deployments (extended version) ( http://arxiv.org/abs/2212.10108v1 )

ライセンス: Link先を確認
Philipp Hofer, Michael Roland, Philipp Schwarz, Ren\`e Mayrhofer(参考訳) バイオメトリックスは最もプライバシーに敏感なデータの一つだ。 プライバシーを重視したユビキタス認証システムは、技術レベルと組織レベルの両方で潜在的な攻撃ベクトルを減らすため、分散化されたアプローチを好む。 金の標準は、ユーザが自分のデータをどこに保存するかをコントロールできるようにすることであり、その結果、多種多様なデバイスが使用される。 さらに、集中型システムと比較すると、エンドユーザの自由度が高い設計では、ネットワークオーバーヘッドが増大することが多い。 したがって、生体認証に顔認識を使用する場合、デバイス多様性を促進するために必要なネットワーク要件とハードウェア要件の両方を削減できるため、実際のデプロイメントでは顔を比較する効率的な方法が重要である。 本稿では,異なるデータセットと異なるアグリゲーション戦略の広範な分析に基づいて,顔認識に使用される組込みを効率的に集約する方法を提案する。 この分析の一部として、研究目的で利用可能な新しいデータセットが収集された。 提案手法は,プライバシと長期的なユーザビリティを重視した,大規模にスケーラブルな分散顔認識システムの構築を支援する。

Biometrics are one of the most privacy-sensitive data. Ubiquitous authentication systems with a focus on privacy favor decentralized approaches as they reduce potential attack vectors, both on a technical and organizational level. The gold standard is to let the user be in control of where their own data is stored, which consequently leads to a high variety of devices used. Moreover, in comparison with a centralized system, designs with higher end-user freedom often incur additional network overhead. Therefore, when using face recognition for biometric authentication, an efficient way to compare faces is important in practical deployments, because it reduces both network and hardware requirements that are essential to encourage device diversity. This paper proposes an efficient way to aggregate embeddings used for face recognition based on an extensive analysis on different datasets and the use of different aggregation strategies. As part of this analysis, a new dataset has been collected, which is available for research purposes. Our proposed method supports the construction of massively scalable, decentralized face recognition systems with a focus on both privacy and long-term usability.
翻訳日:2022-12-21 14:36:46 公開日:2022-12-20
# テキストマイニングの統一手法としての超大言語モデル

Very Large Language Model as a Unified Methodology of Text Mining ( http://arxiv.org/abs/2212.09271v2 )

ライセンス: Link先を確認
Meng Jiang(参考訳) テキストデータマイニングは、言語テキストから必須情報を抽出するプロセスである。 典型的なテキストマイニングタスクには、テキスト分類、テキストクラスタリング、トピックモデリング、情報抽出、テキスト要約などがある。 様々なデータセットが収集され、様々な種類のタスクのために様々なアルゴリズムが設計される。 本稿では,非常に大きな言語モデル(VLLM)が,テキストマイニングの効果的な統一手法となる,という青空の考えを示す。 従来の手法に対する新しい手法の少なくとも3つの利点について論じる。 最後に,テキストマイニングのためのVLLM技術の設計と開発における課題について論じる。

Text data mining is the process of deriving essential information from language text. Typical text mining tasks include text categorization, text clustering, topic modeling, information extraction, and text summarization. Various data sets are collected and various algorithms are designed for the different types of tasks. In this paper, I present a blue sky idea that very large language model (VLLM) will become an effective unified methodology of text mining. I discuss at least three advantages of this new methodology against conventional methods. Finally I discuss the challenges in the design and development of VLLM techniques for text mining.
翻訳日:2022-12-21 14:36:31 公開日:2022-12-20
# 大規模レコメンダシステムにおける優先度推定のための変分化機

Variational Factorization Machines for Preference Elicitation in Large-Scale Recommender Systems ( http://arxiv.org/abs/2212.09920v1 )

ライセンス: Link先を確認
Jill-J\^enn Vie, Tomas Rigaux, Hisashi Kashima(参考訳) ファクトリゼーション・マシン(FM)はスパース・オブザーバの文脈における回帰と分類のための強力なツールであり、特にユーザやアイテムのサイド情報が利用可能な場合、協調フィルタリングにうまく適用されている。 FMのベイズ的定式化は、モデルによる予測に対する信頼区間を提供するために提案されているが、多くのサンプルを必要とするマルコフ連鎖モンテカルロ法を伴い、大規模なデータの文脈での訓練が遅くなる。 本稿では,標準のミニバッチ確率勾配降下を用いて容易に最適化可能な単純な目的を導出し,大規模データに適用可能な因子化機械の変分定式化を提案する。 提案アルゴリズムは,ユーザおよび項目パラメータに近似した後続分布を学習し,予測に対する信頼区間を導出する。 いくつかのデータセットを用いて、予測精度の点で既存の手法に匹敵するあるいは優れた性能を示し、例えば、嗜好推論技術のようなアクティブな学習戦略にいくつかの応用をもたらす。

Factorization machines (FMs) are a powerful tool for regression and classification in the context of sparse observations, that has been successfully applied to collaborative filtering, especially when side information over users or items is available. Bayesian formulations of FMs have been proposed to provide confidence intervals over the predictions made by the model, however they usually involve Markov-chain Monte Carlo methods that require many samples to provide accurate predictions, resulting in slow training in the context of large-scale data. In this paper, we propose a variational formulation of factorization machines that allows us to derive a simple objective that can be easily optimized using standard mini-batch stochastic gradient descent, making it amenable to large-scale data. Our algorithm learns an approximate posterior distribution over the user and item parameters, which leads to confidence intervals over the predictions. We show, using several datasets, that it has comparable or better performance than existing methods in terms of prediction accuracy, and provide some applications in active learning strategies, e.g., preference elicitation techniques.
翻訳日:2022-12-21 14:36:21 公開日:2022-12-20
# ハイパーネットワークとピンを用いた熱交換器のリアルタイム健康モニタリング

Real-time Health Monitoring of Heat Exchangers using Hypernetworks and PINNs ( http://arxiv.org/abs/2212.10032v1 )

ライセンス: Link先を確認
Ritam Majumdar, Vishal Jadhav, Anirudh Deodhar, Shirish Karande, Lovekesh Vig, Venkataramana Runkana(参考訳) 本研究では, 熱交換器のリアルタイム健康モニタリングのための物理インフォームニューラルネットワーク(pinn)モデルを示し, 火力発電所のエネルギー効率向上に重要な役割を果たす。 ドメイン分解されたpinnが動的境界条件に応答して熱交換器の熱的挙動を学習し、再訓練する必要をなくすためにハイパーネットワークベースのアプローチが用いられる。 その結果,既存のピンと比較して推定時間の桁違いな削減が可能となり,物理ベースのシミュレーションと同等の精度を保った。 これにより、デジタル双対環境における熱交換器の予測保守に非常に魅力的なアプローチとなる。

We demonstrate a Physics-informed Neural Network (PINN) based model for real-time health monitoring of a heat exchanger, that plays a critical role in improving energy efficiency of thermal power plants. A hypernetwork based approach is used to enable the domain-decomposed PINN learn the thermal behavior of the heat exchanger in response to dynamic boundary conditions, eliminating the need to re-train. As a result, we achieve orders of magnitude reduction in inference time in comparison to existing PINNs, while maintaining the accuracy on par with the physics-based simulations. This makes the approach very attractive for predictive maintenance of the heat exchanger in digital twin environments.
翻訳日:2022-12-21 14:36:01 公開日:2022-12-20
# 非同期分散bilevel最適化

Asynchronous Distributed Bilevel Optimization ( http://arxiv.org/abs/2212.10048v1 )

ライセンス: Link先を確認
Yang Jiao, Kai Yang, Tiancheng Wu, Dongjin Song, Chengtao Jian(参考訳) 双レベル最適化は、ハイパーパラメータ最適化からメタラーニングまで、多くの機械学習タスクにおいて重要な役割を果たす。 しかし、2レベル最適化に関する既存の研究は、集中的あるいは同期的な分散設定に焦点を当てている。 集中型バイレベル最適化アプローチでは、単一のサーバに大量のデータを収集する必要があるため、必然的に大きな通信コストが発生し、データのプライバシリスクが発生する可能性がある。 一方、同期分散二レベル最適化アルゴリズムは、しばしばストラグラー問題に直面し、少数のワーカーが応答しなかった場合、直ちに動作を停止する。 本稿では,非同期分散二値最適化(ADBO)アルゴリズムを提案する。 提案したADBOは,非凸上層および下層目的関数の両面最適化問題に対処でき,その収束性は理論的に保証される。 さらに、ADBOが$\epsilon$-定常点を得るのに要する反復複雑性が$\mathcal{O}(\frac{1}{{{\epsilon ^2}}})$で上界であることが理論解析によって明らかになった。 提案したADBOの有効性と効率を明らかにするために,公開データセットに関する詳細な実証研究が実施されている。

Bilevel optimization plays an essential role in many machine learning tasks, ranging from hyperparameter optimization to meta-learning. Existing studies on bilevel optimization, however, focus on either centralized or synchronous distributed setting. The centralized bilevel optimization approaches require collecting massive amount of data to a single server, which inevitably incur significant communication expenses and may give rise to data privacy risks. Synchronous distributed bilevel optimization algorithms, on the other hand, often face the straggler problem and will immediately stop working if a few workers fail to respond. As a remedy, we propose Asynchronous Distributed Bilevel Optimization (ADBO) algorithm. The proposed ADBO can tackle bilevel optimization problems with both nonconvex upper-level and lower-level objective functions, and its convergence is theoretically guaranteed. Furthermore, it is revealed through theoretic analysis that the iteration complexity of ADBO to obtain the $\epsilon$-stationary point is upper bounded by $\mathcal{O}(\frac{1}{{{\epsilon ^2}}})$. Thorough empirical studies on public datasets have been conducted to elucidate the effectiveness and efficiency of the proposed ADBO.
翻訳日:2022-12-21 14:35:50 公開日:2022-12-20
# 分布ロバスト性境界の一般化誤差

Distributional Robustness Bounds Generalization Errors ( http://arxiv.org/abs/2212.09962v1 )

ライセンス: Link先を確認
Shixiong Wang, Haowei Wang, and Jean Honorio(参考訳) ベイズ法、分布的に堅牢な最適化法、正規化法は、分布の不確実性に対して信頼できる機械学習の3つの柱である。 本稿では,3つのフレームワーク間の関係について検討し,特に,これらのフレームワークの一般化誤差が小さい傾向について考察する。 具体的には,まず「分散的ロバストネス」の定量的定義を提案し,「ロバストネス測度」の概念を提案し,分布的ロバスト最適化におけるいくつかの哲学的概念を定式化する。 第2に、ベイズ法がおそらくほぼ正しい(pac)意味で分布的にロバストであることを示し、さらにベイズ非パラメトリックスにおいてディリクレ過程のような事前構造を構築することにより、任意の正規化経験的リスク最小化法がベイズ法と同値であることを証明できる。 第3に、機械学習モデルの一般化誤差は、境界汎化誤差に対する新たな視点である、名目分布の不確実性とこれら機械学習モデルの堅牢性尺度の分布的不確実性を用いて特徴付けられることを示し、分布的堅牢な機械学習モデル、ベイズモデル、正規化モデルがより小さな一般化誤差を持つ理由を説明する。

Bayesian methods, distributionally robust optimization methods, and regularization methods are three pillars of trustworthy machine learning hedging against distributional uncertainty, e.g., the uncertainty of an empirical distribution compared to the true underlying distribution. This paper investigates the connections among the three frameworks and, in particular, explores why these frameworks tend to have smaller generalization errors. Specifically, first, we suggest a quantitative definition for "distributional robustness", propose the concept of "robustness measure", and formalize several philosophical concepts in distributionally robust optimization. Second, we show that Bayesian methods are distributionally robust in the probably approximately correct (PAC) sense; In addition, by constructing a Dirichlet-process-like prior in Bayesian nonparametrics, it can be proven that any regularized empirical risk minimization method is equivalent to a Bayesian method. Third, we show that generalization errors of machine learning models can be characterized using the distributional uncertainty of the nominal distribution and the robustness measures of these machine learning models, which is a new perspective to bound generalization errors, and therefore, explain the reason why distributionally robust machine learning models, Bayesian models, and regularization models tend to have smaller generalization errors.
翻訳日:2022-12-21 14:29:59 公開日:2022-12-20
# HyperBO+:階層ガウス過程によるベイズ最適化の事前学習

HyperBO+: Pre-training a universal prior for Bayesian optimization with hierarchical Gaussian processes ( http://arxiv.org/abs/2212.10538v1 )

ライセンス: Link先を確認
Zhou Fan, Xinran Han, Zi Wang(参考訳) ベイズ最適化(BO)は多くのブラックボックス関数最適化タスクに非常に効果的であることが証明されたが、実践者は興味のある機能をうまくモデル化する事前を慎重に選択する必要がある。 手動で指定するのではなく、複数タスクBO(Swersky et al., 2013)、少数ショットBO(Wistuba and Grabocka, 2021)、HyperBO(Wang et al., 2022)などの先行学習を自動的に学習するトランスファーラーニングベースの手法を研究している。 しかし、これらの先行学習手法は、通常、入力ドメインが全てのタスクで同じであると仮定し、異なるドメインを持つ関数の観測を弱めたり、異なる検索空間上でBOに学習先行を一般化したりする。 本研究では,階層型ガウス過程に対する事前学習手法であるHyperBO+を提案する。 そこで本研究では,2段階事前学習法を提案し,その漸近的特性とboの利点を理論的および経験的に分析する。 複数の探索空間を含む実世界のハイパーパラメータチューニングタスクにおいて,HyperBO+は未知の探索空間に一般化でき,競合するベースラインよりも後悔度が低いことを示す。

Bayesian optimization (BO), while proved highly effective for many black-box function optimization tasks, requires practitioners to carefully select priors that well model their functions of interest. Rather than specifying by hand, researchers have investigated transfer learning based methods to automatically learn the priors, e.g. multi-task BO (Swersky et al., 2013), few-shot BO (Wistuba and Grabocka, 2021) and HyperBO (Wang et al., 2022). However, those prior learning methods typically assume that the input domains are the same for all tasks, weakening their ability to use observations on functions with different domains or generalize the learned priors to BO on different search spaces. In this work, we present HyperBO+: a pre-training approach for hierarchical Gaussian processes that enables the same prior to work universally for Bayesian optimization on functions with different domains. We propose a two-step pre-training method and analyze its appealing asymptotic properties and benefits to BO both theoretically and empirically. On real-world hyperparameter tuning tasks that involve multiple search spaces, we demonstrate that HyperBO+ is able to generalize to unseen search spaces and achieves lower regrets than competitive baselines.
翻訳日:2022-12-21 14:29:34 公開日:2022-12-20
# トレーニングダイナミクスから学ぶ - 手動で設計した機能を超えた誤ったラベルデータの識別

Learning from Training Dynamics: Identifying Mislabeled Data Beyond Manually Designed Features ( http://arxiv.org/abs/2212.09321v2 )

ライセンス: Link先を確認
Qingrui Jia, Xuhong Li, Lei Yu, Jiang Bian, Penghao Zhao, Shupeng Li, Haoyi Xiong, Dejing Dou(参考訳) トレーニングセット内のラベル付きまたはあいまいなラベル付きサンプルは、深層モデルのパフォーマンスに悪影響を及ぼす可能性があるが、データセットの診断とラベル付きサンプルの同定は、一般化能力の向上に寄与する。 トレーニング力学、すなわち最適化アルゴリズムの反復によって残されているトレースは、最近、手作りの特徴を持つ間違ったラベル付きサンプルのローカライズに有効であることが証明された。 本稿では,手動で設計するだけでなく,LSTMネットワークを例に,サンプルが入力として生のトレーニングダイナミクスを用いて誤ラベルされているかどうかを判断するノイズ検出を応用した,新しい学習ベースソリューションを提案する。 具体的には、合成ラベルノイズを用いたデータセットを用いて教師あり方式でノイズ検出器を訓練し、再学習せずに様々なデータセット(自然あるいは合成ラベルノイズ)に適応することができる。 提案手法を評価するために広範な実験を行った。 我々は、合成ラベル付きCIFARデータセットに基づいてノイズ検出器を訓練し、Tiny ImageNet, CUB-200, Caltech-256, WebVision, Clothing1Mでそのようなノイズ検出器をテストする。 提案手法は, 各種データセットのラベルのずれを, さらなる適応を伴わずに正確に検出し, 最先端の手法より優れていることを示す。 さらに多くの実験では、ラベルの修正、すなわちデータデバッギングを導出し、データ側面からアルゴリズム中心の最先端技術を直交的に改善できることが示されている。

While mislabeled or ambiguously-labeled samples in the training set could negatively affect the performance of deep models, diagnosing the dataset and identifying mislabeled samples helps to improve the generalization power. Training dynamics, i.e., the traces left by iterations of optimization algorithms, have recently been proved to be effective to localize mislabeled samples with hand-crafted features. In this paper, beyond manually designed features, we introduce a novel learning-based solution, leveraging a noise detector, instanced by an LSTM network, which learns to predict whether a sample was mislabeled using the raw training dynamics as input. Specifically, the proposed method trains the noise detector in a supervised manner using the dataset with synthesized label noises and can adapt to various datasets (either naturally or synthesized label-noised) without retraining. We conduct extensive experiments to evaluate the proposed method. We train the noise detector based on the synthesized label-noised CIFAR dataset and test such noise detector on Tiny ImageNet, CUB-200, Caltech-256, WebVision and Clothing1M. Results show that the proposed method precisely detects mislabeled samples on various datasets without further adaptation, and outperforms state-of-the-art methods. Besides, more experiments demonstrate that the mislabel identification can guide a label correction, namely data debugging, providing orthogonal improvements of algorithm-centric state-of-the-art techniques from the data aspect.
翻訳日:2022-12-21 14:29:11 公開日:2022-12-20
# 明示的正規化と動的データプルーニングを用いたディープニューラルネットワークの校正

Calibrating Deep Neural Networks using Explicit Regularisation and Dynamic Data Pruning ( http://arxiv.org/abs/2212.10005v1 )

ライセンス: Link先を確認
Ramya Hebbalaguppe, Rishabh Patra, Tirtharaj Dash, Gautam Shroff, Lovekesh Vig(参考訳) ディープニューラルネットワーク(DNN)は誤った予測をしがちで、予測された出力と関連する信頼スコアのミスマッチを示すことが多い。 現代モデル校正技術は,全ての試験試料の残余クラスの信頼性を高めつつ,優勝クラスの信頼性を下げることによって,過信予測の問題を緩和する。 しかし、デプロイメントの観点からは、理想的なモデルが望まれる。 i) 予測確率 >0.95 の高信頼サンプルに対して、よく校正された予測を生成する。 (ii)正統な高信頼度試料の割合が高い。 そこで本研究では, 安全性に配慮したアプリケーションの展開の観点から, 信頼性の高いモデルからの高信頼度サンプルのみを手作業で検査する必要があるため, 分類損失に対処し, 最先端のキャリブレーション予測に繋がる新たな正則化手法を提案する。 これらの「高信頼サンプル」の予測的信頼性低下は、既存の校正手法の欠点である。 これを緩和するために、いくつかのエポック毎に低信頼のサンプルをプルークする動的列車時データプルーニング戦略を提案する。 画像分類ベンチマークにおける最先端校正性能を実証し,精度を損なうことなくトレーニング時間を短縮した。 低信頼のトレーニングサンプルをプルーニングするダイナミックなプルーニング戦略が、テスト時に高信頼のサンプルを増加させる理由に関する洞察を提供する。

Deep neural networks (DNN) are prone to miscalibrated predictions, often exhibiting a mismatch between the predicted output and the associated confidence scores. Contemporary model calibration techniques mitigate the problem of overconfident predictions by pushing down the confidence of the winning class while increasing the confidence of the remaining classes across all test samples. However, from a deployment perspective, an ideal model is desired to (i) generate well-calibrated predictions for high-confidence samples with predicted probability say >0.95, and (ii) generate a higher proportion of legitimate high-confidence samples. To this end, we propose a novel regularization technique that can be used with classification losses, leading to state-of-the-art calibrated predictions at test time; From a deployment standpoint in safety-critical applications, only high-confidence samples from a well-calibrated model are of interest, as the remaining samples have to undergo manual inspection. Predictive confidence reduction of these potentially ``high-confidence samples'' is a downside of existing calibration approaches. We mitigate this by proposing a dynamic train-time data pruning strategy that prunes low-confidence samples every few epochs, providing an increase in "confident yet calibrated samples". We demonstrate state-of-the-art calibration performance across image classification benchmarks, reducing training time without much compromise in accuracy. We provide insights into why our dynamic pruning strategy that prunes low-confidence training samples leads to an increase in high-confidence samples at test time.
翻訳日:2022-12-21 14:28:11 公開日:2022-12-20
# VoronoiPatches: 新たなデータ拡張手法の評価

VoronoiPatches: Evaluating A New Data Augmentation Method ( http://arxiv.org/abs/2212.10054v1 )

ライセンス: Link先を確認
Steffen Illium, Gretchen Griffin, Michael K\"olle, Maximilian Zorn, Jonas N\"u{\ss}lein and Claudia Linnhoff-Popien(参考訳) オーバーフィッティング(Overfitting)は、畳み込みニューラルネットワーク(CNN)において、目に見えないデータに対するモデルの一般化が不十分な問題である。 この問題を解決するために、多くの新しい多様なデータ拡張法(da)が提案され、より多くのトレーニングデータを補完または生成し、その品質を高めている。 本研究では,新たなデータ拡張アルゴリズムであるVoronoiPatches (VP)を提案する。 画像内の情報の非線形な再結合、断片化、小さな情報パッチのオクルーディングを主に利用します。 他のdaメソッドとは異なり、vpはランダムレイアウトで小さな凸多角形パッチを使用して画像内の情報を転送する。 パッチと元のイメージの間の突然の遷移は、オプションでスムーズにできる。 実験では、VPはモデル分散と過剰適合傾向に関する現在のDA手法より優れていた。 本研究では,画像内の情報の非線形再結合を利用したデータ拡張を行い,非直交形状と構造によりcnnモデルのロバスト性が向上することを示す。

Overfitting is a problem in Convolutional Neural Networks (CNN) that causes poor generalization of models on unseen data. To remediate this problem, many new and diverse data augmentation methods (DA) have been proposed to supplement or generate more training data, and thereby increase its quality. In this work, we propose a new data augmentation algorithm: VoronoiPatches (VP). We primarily utilize non-linear recombination of information within an image, fragmenting and occluding small information patches. Unlike other DA methods, VP uses small convex polygon-shaped patches in a random layout to transport information around within an image. Sudden transitions created between patches and the original image can, optionally, be smoothed. In our experiments, VP outperformed current DA methods regarding model variance and overfitting tendencies. We demonstrate data augmentation utilizing non-linear re-combination of information within images, and non-orthogonal shapes and structures improves CNN model robustness on unseen data.
翻訳日:2022-12-21 14:27:46 公開日:2022-12-20
# タスク転送学習における伝達可能性に関する情報理論的アプローチ

An Information-Theoretic Approach to Transferability in Task Transfer Learning ( http://arxiv.org/abs/2212.10082v1 )

ライセンス: Link先を確認
Yajie Bao, Yang Li, Shao-Lun Huang, Lin Zhang, Lizhong Zheng, Amir Zamir, Leonidas Guibas(参考訳) タスク転送学習は、訓練済みのモデルを用いて関連するタスクの監督コストを削減する画像処理アプリケーションで一般的な手法である。 重要な質問は、タスクの転送可能性、すなわち共通の入力ドメインが与えられた場合、ソースタスクから学習された表現が対象タスクの学習にどの程度役立つかを推定することである。 通常、伝達性は実験的に測定されるか、タスク関連性を通して推測される。 本稿では,統計および情報理論の原理を用いた分類問題において,あるタスクから別のタスクへ変換された表現のパフォーマンスを推定する,計算容易な評価関数Hスコアを提案する。 実画像データを用いた実験により,本測定は経験的伝達可能性測定と整合するだけでなく,ソースモデル選択やタスク転送カリキュラム学習といった応用実践者にも有用であることが示された。

Task transfer learning is a popular technique in image processing applications that uses pre-trained models to reduce the supervision cost of related tasks. An important question is to determine task transferability, i.e. given a common input domain, estimating to what extent representations learned from a source task can help in learning a target task. Typically, transferability is either measured experimentally or inferred through task relatedness, which is often defined without a clear operational meaning. In this paper, we present a novel metric, H-score, an easily-computable evaluation function that estimates the performance of transferred representations from one task to another in classification problems using statistical and information theoretic principles. Experiments on real image data show that our metric is not only consistent with the empirical transferability measurement, but also useful to practitioners in applications such as source model selection and task transfer curriculum learning.
翻訳日:2022-12-21 14:27:32 公開日:2022-12-20
# StyleDomain: StyleGANのドメイン適応のためのStyleSpaceの解析

StyleDomain: Analysis of StyleSpace for Domain Adaptation of StyleGAN ( http://arxiv.org/abs/2212.10229v1 )

ライセンス: Link先を確認
Aibek Alanov, Vadim Titov, Maksim Nakhodnov, Dmitry Vetrov(参考訳) GANのドメイン適応は、大規模なデータセットに事前訓練された最先端のGANモデル(例:StyleGAN)を、サンプルが少ない特定の領域(例:顔、スケッチなど)に微調整する問題である。 さまざまな方法でこの問題に取り組む方法はたくさんありますが、まだ解決されていない重要な質問はたくさんあります。 本稿では,GANのドメイン適応問題について,StyleGANモデルに焦点をあてた,体系的かつ詳細な解析を行う。 まず、ソースドメインとターゲットドメインの類似度に応じて、ジェネレータを新しいドメインに適応させる役割を担っているstyleganの最も重要な部分について詳細な調査を行う。 特に,StyleGANのアフィン層は類似したドメインを微調整するのに十分であることを示す。 第二に、これらの発見に触発されて、StyleSpaceをドメイン適応に活用するために調査する。 StyleSpaceには、StyleGANを新しいドメインに適応できる方向が存在することを示す。 さらに,これらの方向を調べ,その驚くべき性質を見いだした。 最後に,画像から画像への変換やドメイン間のモーフィングといった標準的なタスクにおける実践的な改善と応用を実現するために,分析と結果を活用する。

Domain adaptation of GANs is a problem of fine-tuning the state-of-the-art GAN models (e.g. StyleGAN) pretrained on a large dataset to a specific domain with few samples (e.g. painting faces, sketches, etc.). While there are a great number of methods that tackle this problem in different ways there are still many important questions that remain unanswered. In this paper, we provide a systematic and in-depth analysis of the domain adaptation problem of GANs, focusing on the StyleGAN model. First, we perform a detailed exploration of the most important parts of StyleGAN that are responsible for adapting the generator to a new domain depending on the similarity between the source and target domains. In particular, we show that affine layers of StyleGAN can be sufficient for fine-tuning to similar domains. Second, inspired by these findings, we investigate StyleSpace to utilize it for domain adaptation. We show that there exist directions in the StyleSpace that can adapt StyleGAN to new domains. Further, we examine these directions and discover their many surprising properties. Finally, we leverage our analysis and findings to deliver practical improvements and applications in such standard tasks as image-to-image translation and cross-domain morphing.
翻訳日:2022-12-21 14:27:17 公開日:2022-12-20
# DDIPNetとDDIPNet+:リモートセンシング画像分類のための識別深層画像優先ネットワーク

DDIPNet and DDIPNet+: Discriminant Deep Image Prior Networks for Remote Sensing Image Classification ( http://arxiv.org/abs/2212.10411v1 )

ライセンス: Link先を確認
Daniel F. S. Santos, Rafael G. Pires, Leandro A. Passos, and Jo\~ao P. Papa(参考訳) リモートセンシング画像分類の研究は、都市計画や農業といった人間の日常業務に大きな影響を及ぼす。 現在、技術の急速な進歩と多くの高品質なリモートセンシング画像の可用性は、信頼できる自動化方法の需要を生み出している。 本稿では,画像分類のための2つの新しい深層学習ベースアーキテクチャ,すなわち,深層画像優先学習戦略と三重項ネットワーク学習戦略を組み合わせた,識別型深層画像優先ネットワークと識別型深層画像優先ネットワーク+を提案する。 3つのよく知られたリモートセンシング画像データセットで実施した実験は、最先端の成果を達成し、リモートセンシング画像分類にディープイメージプリエントを使うことの有効性を実証した。

Research on remote sensing image classification significantly impacts essential human routine tasks such as urban planning and agriculture. Nowadays, the rapid advance in technology and the availability of many high-quality remote sensing images create a demand for reliable automation methods. The current paper proposes two novel deep learning-based architectures for image classification purposes, i.e., the Discriminant Deep Image Prior Network and the Discriminant Deep Image Prior Network+, which combine Deep Image Prior and Triplet Networks learning strategies. Experiments conducted over three well-known public remote sensing image datasets achieved state-of-the-art results, evidencing the effectiveness of using deep image priors for remote sensing image classification.
翻訳日:2022-12-21 14:26:55 公開日:2022-12-20
# 多スケールカスケード残差畳み込みニューラルネットワークによるシーン変化検出

Scene Change Detection Using Multiscale Cascade Residual Convolutional Neural Networks ( http://arxiv.org/abs/2212.10417v1 )

ライセンス: Link先を確認
Daniel F. S. Santos, Rafael G. Pires, Danilo Colombo, Jo\~ao P. Papa(参考訳) シーン変化検出は、デジタル画像の画素を前景と背景領域に分割することに関連する画像処理問題である。 主に、交通監視、ビデオ監視、異常検出などの視覚知識に基づくコンピュータ知能システムは、変更検出技術を使用する必要がある。 最も顕著な検出方法には、類似したトレーニングとテストプロトコルを共有することに加えて、アーキテクチャ設計戦略の点で互いに異なる学習ベースの方法がある。 このようなアーキテクチャ設計は、検出結果の品質や、メモリなどのデバイスリソース容量に直接影響します。 本研究では,セグメンテーション畳み込みニューラルネットワークを用いて,残差処理モジュールを介してマルチスケール処理戦略を統合する,新しいマルチスケールカスケード残畳み込みニューラルネットワークを提案する。 2つの異なるデータセットで行われた実験は、提案手法の有効性を支持し、平均的な$\boldsymbol{F\text{-}measure}$ results of $\boldsymbol{0.9622}$と$\boldsymbol{0.9664}$ over Change Detection 2014とPetrobrasROUTESデータセットの合計8倍のパラメータを含む。 その結果,提案手法は最先端のシーン変化検出手法の上位4つに含まれた。

Scene change detection is an image processing problem related to partitioning pixels of a digital image into foreground and background regions. Mostly, visual knowledge-based computer intelligent systems, like traffic monitoring, video surveillance, and anomaly detection, need to use change detection techniques. Amongst the most prominent detection methods, there are the learning-based ones, which besides sharing similar training and testing protocols, differ from each other in terms of their architecture design strategies. Such architecture design directly impacts on the quality of the detection results, and also in the device resources capacity, like memory. In this work, we propose a novel Multiscale Cascade Residual Convolutional Neural Network that integrates multiscale processing strategy through a Residual Processing Module, with a Segmentation Convolutional Neural Network. Experiments conducted on two different datasets support the effectiveness of the proposed approach, achieving average overall $\boldsymbol{F\text{-}measure}$ results of $\boldsymbol{0.9622}$ and $\boldsymbol{0.9664}$ over Change Detection 2014 and PetrobrasROUTES datasets respectively, besides comprising approximately eight times fewer parameters. Such obtained results place the proposed technique amongst the top four state-of-the-art scene change detection methods.
翻訳日:2022-12-21 14:26:42 公開日:2022-12-20
# RepMode: 細胞構造予測のための様々な専門家の再パラメータ化の学習

RepMode: Learning to Re-parameterize Diverse Experts for Subcellular Structure Prediction ( http://arxiv.org/abs/2212.10066v1 )

ライセンス: Link先を確認
Donghao Zhou, Chunbin Gu, Junde Xu, Furui Liu, Qiong Wang, Guangyong Chen, Pheng-Ann Heng(参考訳) 細胞内生物研究において、蛍光染色は細胞内構造の位置と形態を明らかにする重要な技術である。 しかし、蛍光染色は遅く、高価で、細胞に有害である。 本稿では,3次元透過光画像から複数の細胞内構造の3次元蛍光画像を予測することを目的とした,ssp(subcellular structure prediction)と呼ばれる深層学習タスクとして扱う。 残念ながら、現在のバイオテクノロジーの限界により、各画像は部分的にSSPにラベル付けされている。 さらに、自然に細胞下構造はサイズが大きく異なり、sspのマルチスケール問題の原因となっている。 しかし、従来のソリューションではネットワークパラメータを非効率的かつ非フレキシブルに整理するため、sspにうまく対処できない。 これらの課題を克服するために,SSPの特定の単一ラベル予測タスクを処理するために,タスク認識の事前処理によりパラメータを動的に整理するネットワークであるRepModeを提案する。 repmodeでは、mixed-of-diverse-experts(mode)ブロックは、すべてのタスクの一般化パラメータを学習するために設計され、gating re-parameterization(gatrep)は、各タスクの特別なパラメータを生成するために行われ、repmodeはプレーンネットワークのようにコンパクトな実用トポロジを維持でき、一方で強力な理論的トポロジーを達成する。 総合的な実験により、RepModeはSSPの12の予測タスクのうち10の既存のメソッドよりも優れ、最先端の全体的なパフォーマンスを実現する。

In subcellular biological research, fluorescence staining is a key technique to reveal the locations and morphology of subcellular structures. However, fluorescence staining is slow, expensive, and harmful to cells. In this paper, we treat it as a deep learning task termed subcellular structure prediction (SSP), aiming to predict the 3D fluorescent images of multiple subcellular structures from a 3D transmitted-light image. Unfortunately, due to the limitations of current biotechnology, each image is partially labeled in SSP. Besides, naturally, the subcellular structures vary considerably in size, which causes the multi-scale issue in SSP. However, traditional solutions can not address SSP well since they organize network parameters inefficiently and inflexibly. To overcome these challenges, we propose Re-parameterizing Mixture-of-Diverse-Experts (RepMode), a network that dynamically organizes its parameters with task-aware priors to handle specified single-label prediction tasks of SSP. In RepMode, the Mixture-of-Diverse-Experts (MoDE) block is designed to learn the generalized parameters for all tasks, and gating re-parameterization (GatRep) is performed to generate the specialized parameters for each task, by which RepMode can maintain a compact practical topology exactly like a plain network, and meanwhile achieves a powerful theoretical topology. Comprehensive experiments show that RepMode outperforms existing methods on ten of twelve prediction tasks of SSP and achieves state-of-the-art overall performance.
翻訳日:2022-12-21 14:20:48 公開日:2022-12-20
# Eff-3DPSeg:アノテーション効率の良い点雲を用いた3次元臓器レベル植物撮影セグメンテーション

Eff-3DPSeg: 3D organ-level plant shoot segmentation using annotation-efficient point clouds ( http://arxiv.org/abs/2212.10263v1 )

ライセンス: Link先を確認
Liyi Luo, Xintong Jiang, Yu Yang, Eugene Roy Antony Samy, Mark Lefsrud, Valerio Hoyos-Villegas, and Shangpeng Sun(参考訳) 信頼性および自動化された3D植物シュートセグメンテーションは、器官レベルでの植物表現形質の抽出に必須である。 ディープラーニングとポイントクラウドを組み合わせることで、この課題に対処する効果的な方法を提供できる。 しかし、完全に教師されたディープラーニング手法では、データセットにポイントワイドアノテートが必要である。 本研究では,3Dプラントシューティングセグメンテーションのための弱制御フレームワーク Eff-3DPSeg を提案する。 まず, 低コストフォトグラメトリーシステムを用いて大豆の高分解能点雲を再構成し, 植物点クラウドアノテーションのためにmeshlabベースの植物アノテーションを開発した。 第2に,植物器官分割のための弱教師付き深層学習法を提案した。 本手法は,(1)ビューポイント・ボトルネック・ロスを用いた自己教師ネットワークの事前学習を行い,生の点群から有意な内在的構造表現を学習すること,(2)植物器官のセグメンテーションを実装するために,約0.5%のポイントで事前訓練を行うこと,を含む。 その後,3つの表現型形質(茎径,葉幅,葉長)を抽出した。 提案手法の一般性を検証するため, 公開データセットであるPheno4Dを用いた。 実験の結果, 弱教師付きネットワークは, 完全教師付きセグメンテーションと同等のセグメンテーション性能を示した。 ap,ap@25,ap@50では95.1%,96.6%,95.8%,92.2%,stem leaf segmentationではf1-score,miouが53%,62.8%,70.3%であった。 本研究は, 植物育種者が選抜プロセスを強化する上で有用となる3D植物アーキテクチャを特徴付ける効果的な方法を提供する。

Reliable and automated 3D plant shoot segmentation is a core prerequisite for the extraction of plant phenotypic traits at the organ level. Combining deep learning and point clouds can provide effective ways to address the challenge. However, fully supervised deep learning methods require datasets to be point-wise annotated, which is extremely expensive and time-consuming. In our work, we proposed a novel weakly supervised framework, Eff-3DPSeg, for 3D plant shoot segmentation. First, high-resolution point clouds of soybean were reconstructed using a low-cost photogrammetry system, and the Meshlab-based Plant Annotator was developed for plant point cloud annotation. Second, a weakly-supervised deep learning method was proposed for plant organ segmentation. The method contained: (1) Pretraining a self-supervised network using Viewpoint Bottleneck loss to learn meaningful intrinsic structure representation from the raw point clouds; (2) Fine-tuning the pre-trained model with about only 0.5% points being annotated to implement plant organ segmentation. After, three phenotypic traits (stem diameter, leaf width, and leaf length) were extracted. To test the generality of the proposed method, the public dataset Pheno4D was included in this study. Experimental results showed that the weakly-supervised network obtained similar segmentation performance compared with the fully-supervised setting. Our method achieved 95.1%, 96.6%, 95.8% and 92.2% in the Precision, Recall, F1-score, and mIoU for stem leaf segmentation and 53%, 62.8% and 70.3% in the AP, AP@25, and AP@50 for leaf instance segmentation. This study provides an effective way for characterizing 3D plant architecture, which will become useful for plant breeders to enhance selection processes.
翻訳日:2022-12-21 14:20:19 公開日:2022-12-20
# 教師なしのビジュアル推論に向けて:オフザシェルフ機能は推論の仕方を知っているか?

Towards Unsupervised Visual Reasoning: Do Off-The-Shelf Features Know How to Reason? ( http://arxiv.org/abs/2212.10292v1 )

ライセンス: Link先を確認
Monika Wysocza\'nska, Tom Monnier, Tomasz Trzci\'nski, David Picard(参考訳) 視覚表現学習の最近の進歩は、多くの下流タスクに使える強力なオフザシェルフ機能の構築を可能にした。 本研究の目的は,これらの特徴が空間的位置,視覚的特性,相対関係など,対象物に関する情報をどの程度保存するかを評価することである。 複雑な関係と異なる属性を持つ複数のオブジェクトが作用する視覚推論の文脈でそれらを評価することで,その方法を提案する。 具体的には,視覚質問応答のタスクに対する視覚的表現を評価するプロトコルを提案する。 視覚的特徴抽出を推論から切り離すため,我々は,浅層ネットワークに依存する標準的な特徴評価と同じような精神で,凍結した視覚表現に基づいて学習した注意に基づく推論モジュールを設計した。 本研究では,局所的特徴の密抽出とオブジェクト中心表現の2種類の視覚表現と,基底真理を用いた完全画像表現の性能を比較した。 主な所見は2倍である。 第一に、古典的なプロキシタスクの優れたパフォーマンスにもかかわらず、そのような表現は複雑な推論問題を解決するには不十分である。 第二に、オブジェクト中心の機能は視覚的推論の実行に必要な重要な情報をよりよく保存する。 提案フレームワークでは,この評価を方法論的にアプローチする方法を示す。

Recent advances in visual representation learning allowed to build an abundance of powerful off-the-shelf features that are ready-to-use for numerous downstream tasks. This work aims to assess how well these features preserve information about the objects, such as their spatial location, their visual properties and their relative relationships. We propose to do so by evaluating them in the context of visual reasoning, where multiple objects with complex relationships and different attributes are at play. More specifically, we introduce a protocol to evaluate visual representations for the task of Visual Question Answering. In order to decouple visual feature extraction from reasoning, we design a specific attention-based reasoning module which is trained on the frozen visual representations to be evaluated, in a spirit similar to standard feature evaluations relying on shallow networks. We compare two types of visual representations, densely extracted local features and object-centric ones, against the performances of a perfect image representation using ground truth. Our main findings are two-fold. First, despite excellent performances on classical proxy tasks, such representations fall short for solving complex reasoning problem. Second, object-centric features better preserve the critical information necessary to perform visual reasoning. In our proposed framework we show how to methodologically approach this evaluation.
翻訳日:2022-12-21 14:19:44 公開日:2022-12-20
# unsupervised complex tabular reasoningのための統一フレームワークに向けて

Toward a Unified Framework for Unsupervised Complex Tabular Reasoning ( http://arxiv.org/abs/2212.10097v1 )

ライセンス: Link先を確認
Zhenyu Li, Xiuxing Li, Zhichao Duan, Bowen Dong, Ning Liu, Jianyong Wang(参考訳) 構造化表データはほとんど全ての分野に存在している。 これらのデータに対する推論タスクは、表の意味的意味を理解することによって、疑問に答えるか、仮説文の真偽を判断することを目的としている。 以前の研究は表的な推論タスクに多大な努力を払ったが、彼らは常に十分なラベル付きデータがあると仮定している。 しかしながら、テーブル(および関連するテキスト)上の推論サンプルの構築は、特に推論プロセスが複雑である場合、労働集約的である。 ラベル付きデータが不十分な場合、モデルの性能は耐え難いほど低下する。 本稿では,表推論タスクのための複雑な論理を持つ十分な多種多様な合成データを生成する,教師なし複雑な表的推論(uctr)のための統一フレームワークを提案する。 まず,ランダムサンプリング戦略を用いて様々な種類のプログラムを収集し,プログラム実行モジュールに基づいてテーブル上で実行した。 プログラムと自然言語文のギャップを埋めるため,これらのプログラムから複雑な論理を持つ自然言語文を生成するための強力なnl生成モジュールを設計した。 テーブルは周囲のテキストでしばしば発生するため、新たな「table-to-text」と「text-to-table」演算子を提案する。 これにより、ラベルなしのテーブルリソースを適切に活用し、教師なしの設定でよく表現された推論モデルを得ることができる。 質問応答と事実検証) と異なる領域(一般および特定) を対象とし, 教師なし手法は教師なしモデルと比較して少なくとも93%の性能で達成可能であることを示す。 また、データ拡張技術として、低リソース領域における教師付き性能を大幅に向上させることができる。 私たちのコードはhttps://github.com/leezythu/uctr.comで利用可能です。

Structured tabular data exist across nearly all fields. Reasoning task over these data aims to answer questions or determine the truthiness of hypothesis sentences by understanding the semantic meaning of a table. While previous works have devoted significant efforts to the tabular reasoning task, they always assume there are sufficient labeled data. However, constructing reasoning samples over tables (and related text) is labor-intensive, especially when the reasoning process is complex. When labeled data is insufficient, the performance of models will suffer an unendurable decline. In this paper, we propose a unified framework for unsupervised complex tabular reasoning (UCTR), which generates sufficient and diverse synthetic data with complex logic for tabular reasoning tasks, assuming no human-annotated data at all. We first utilize a random sampling strategy to collect diverse programs of different types and execute them on tables based on a "Program-Executor" module. To bridge the gap between the programs and natural language sentences, we design a powerful "NL-Generator" module to generate natural language sentences with complex logic from these programs. Since a table often occurs with its surrounding texts, we further propose novel "Table-to-Text" and "Text-to-Table" operators to handle joint table-text reasoning scenarios. This way, we can adequately exploit the unlabeled table resources to obtain a well-performed reasoning model under an unsupervised setting. Our experiments cover different tasks (question answering and fact verification) and different domains (general and specific), showing that our unsupervised methods can achieve at most 93% performance compared to supervised models. We also find that it can substantially boost the supervised performance in low-resourced domains as a data augmentation technique. Our code is available at https://github.com/leezythu/UCTR.
翻訳日:2022-12-21 14:19:24 公開日:2022-12-20
# 実行に基づくオープンドメインコード生成の評価

Execution-Based Evaluation for Open-Domain Code Generation ( http://arxiv.org/abs/2212.10481v1 )

ライセンス: Link先を確認
Zhiruo Wang, Shuyan Zhou, Daniel Fried, Graham Neubig(参考訳) コーディングクエリの範囲をより現実的な設定に拡張するため、コード生成データセットに対して、最初のオープンドメイン実行ベース自然言語(NL)であるODEXを提案する。 ODEXには79の多様なライブラリにまたがる945のNL-Codeペアと1,707の人間が書いたテストケースがある。 当社のNL-CodeペアはStackOverflowフォーラムから抽出され、自然で実用的なコーディングクエリを奨励します。 さらに、ODEXは英語、スペイン語、日本語、ロシア語の4つの自然言語を意図としてサポートしている。 オープンドメインクエリではcodexの方がパフォーマンスがよいが、codegenではオープンドメインとクローズドドメインのバランスが向上している。 ODEXは、実行せずにメトリクスよりも実行ベースの評価のメリットを裏付けるだけでなく、補完的な効果も明らかにしている。 CodeGen-6Bのような強力なモデルは、トップ1の予測で11.96パス率しか達成していない。 我々は、コード生成コミュニティのオープンドメイン問題の研究を促進するためにODEXをリリースします。

To extend the scope of coding queries to more realistic settings, we propose ODEX, the first open-domain execution-based natural language (NL) to code generation dataset. ODEX has 945 NL-Code pairs spanning 79 diverse libraries, along with 1,707 human-written test cases for execution. Our NL-Code pairs are harvested from StackOverflow forums to encourage natural and practical coding queries, which are then carefully rephrased to ensure intent clarity and prevent potential data memorization. Moreover, ODEX supports four natural languages as intents, in English, Spanish, Japanese, and Russian. ODEX unveils intriguing behavioral differences between top-performing Code LMs: Codex performs better on open-domain queries, yet CodeGen captures a better balance between open- and closed-domain. ODEX corroborates the merits of execution-based evaluation over metrics without execution but also unveils their complementary effects. Powerful models such as CodeGen-6B only achieve an 11.96 pass rate at top-1 prediction, suggesting plenty of headroom for improvement. We release ODEX to facilitate research into open-domain problems for the code generation community.
翻訳日:2022-12-21 14:18:53 公開日:2022-12-20
# GPT-3はサイコパスか? 心理学的観点からの大規模言語モデルの評価

Is GPT-3 a Psychopath? Evaluating Large Language Models from a Psychological Perspective ( http://arxiv.org/abs/2212.10529v1 )

ライセンス: Link先を確認
Xingxuan Li, Yutong Li, Linlin Liu, Lidong Bing, Shafiq Joty(参考訳) GPT-3のような大きな言語モデル(LLM)は心理的に安全か? 本研究では,心理学的観点からLLMを体系的に評価するための,偏りのないプロンプトを設計する。 まず,短い暗黒トライアド (SD-3) とビッグファイブインベントリ (BFI) の3種類のLLMの性格特性を検証した。 いずれも平均値よりもsd-3が高い値を示しており、性格は比較的暗くなっている。 さらに、安全基準を微調整した InstructGPT や FLAN-T5 のような LLM には、必ずしも肯定的な個性がない。 gpt-3よりもマキャベリア主義やナルシシズムが高い。 第2に, GPT-3 シリーズの LLM 実験を行い, さらなるトレーニングデータによる微調整の影響について検討した。 興味深いことに,GPT-3 から InstructGPT へのウェルビーイングスコアの連続的な増加が観察された。 観察の結果,BFIの正の回答を持つFLAN-T5は心理的観点から効果的にモデルを改善することができた。 最後に、文レベルのみではなく、LLMの安全性を体系的に評価し、改善するようコミュニティに呼びかける。

Are large language models (LLMs) like GPT-3 psychologically safe? In this work, we design unbiased prompts to evaluate LLMs systematically from a psychological perspective. Firstly, we test the personality traits of three different LLMs with Short Dark Triad (SD-3) and Big Five Inventory (BFI). We find all of them show higher scores on SD-3 than the human average, indicating a relatively darker personality. Furthermore, LLMs like InstructGPT and FLAN-T5, which are fine-tuned with safety metrics, do not necessarily have more positive personalities. They score higher on Machiavellianism and Narcissism than GPT-3. Secondly, we test the LLMs in GPT-3 series on well-being tests to study the impact of fine-tuning with more training data. Interestingly, we observe a continuous increase in well-being scores from GPT-3 to InstructGPT. Following the observations, we show that instruction-finetune FLAN-T5 with positive answers in BFI can effectively improve the model from a psychological perspective. Finally, we call on the community to evaluate and improve LLMs' safety systematically instead of at the sentence level only.
翻訳日:2022-12-21 14:18:34 公開日:2022-12-20
# 認定ロバスト性のための平滑化分類器の信頼度対応訓練

Confidence-aware Training of Smoothed Classifiers for Certified Robustness ( http://arxiv.org/abs/2212.09000v2 )

ライセンス: Link先を確認
Jongheon Jeong, Seojin Kim, Jinwoo Shin(参考訳) 任意の分類器はガウス雑音下で「スムースアウト」して、ランダムな平滑化によってノイズ上の予測を平均することで、$\ell_2$-adversarial perturbations(viz.)に確実に堅牢な新しい分類器を構築することができる。 滑らかな分類器の下では、精度と(逆)堅牢性の基本的なトレードオフが文献でよく証明されている:すなわち、入力に対する分類器の堅牢性を高めることは、他の入力に対する精度の低下を犠牲にすることができる。 本稿では,このトレードオフを利用した簡易な学習法を提案する。特に,トレーニングサンプル上でのロバスト性のサンプル的制御により,ロバストな平滑化分類器を得る。 この制御は、入力に対する対向ロバスト性の簡易なプロキシとして「ガウス雑音下での精度」を用いて実現可能である。 具体的には、このプロキシによってトレーニングの目標を区別し、最悪の(敵対的な)目標の恩恵を受けにくいサンプルをフィルタリングする。 実験の結果,提案手法は単純さに拘わらず,最先端のトレーニング手法の堅牢性が向上していることが判明した。 多少意外なことに、これらの改善は、例えば、さまざまなタイプの一般的な腐敗に対して、堅牢性という他の概念に対しても持続することがわかった。

Any classifier can be "smoothed out" under Gaussian noise to build a new classifier that is provably robust to $\ell_2$-adversarial perturbations, viz., by averaging its predictions over the noise via randomized smoothing. Under the smoothed classifiers, the fundamental trade-off between accuracy and (adversarial) robustness has been well evidenced in the literature: i.e., increasing the robustness of a classifier for an input can be at the expense of decreased accuracy for some other inputs. In this paper, we propose a simple training method leveraging this trade-off to obtain robust smoothed classifiers, in particular, through a sample-wise control of robustness over the training samples. We make this control feasible by using "accuracy under Gaussian noise" as an easy-to-compute proxy of adversarial robustness for an input. Specifically, we differentiate the training objective depending on this proxy to filter out samples that are unlikely to benefit from the worst-case (adversarial) objective. Our experiments show that the proposed method, despite its simplicity, consistently exhibits improved certified robustness upon state-of-the-art training methods. Somewhat surprisingly, we find these improvements persist even for other notions of robustness, e.g., to various types of common corruptions.
翻訳日:2022-12-21 14:18:17 公開日:2022-12-20
# 大規模マルチモーダル変圧器を用いた医療診断 : より正確な診断に多様なデータを活用する

Medical Diagnosis with Large Scale Multimodal Transformers: Leveraging Diverse Data for More Accurate Diagnosis ( http://arxiv.org/abs/2212.09162v2 )

ライセンス: Link先を確認
Firas Khader, Gustav Mueller-Franzes, Tianci Wang, Tianyu Han, Soroosh Tayebi Arasteh, Christoph Haarburger, Johannes Stegmaier, Keno Bressem, Christiane Kuhl, Sven Nebelung, Jakob Nikolas Kather, Daniel Truhn(参考訳) マルチモーダルディープラーニングは臨床の終端を予測し、臨床のルーチンデータから診断するために使われてきた。 それぞれのデータタイプ内の各情報片間のペアリーなインタラクションを学ぶ必要があるため、管理可能なスケールを超えてモデルの複雑さをエスカレートする必要がある。 これにより、マルチモーダルディープラーニングが広く使われるようになった。 本稿では,データモダリティ間の関係的な相互作用のみを選択し,関連するデータの「内部記憶」を保持する「学習可能なシナジー」という新しい技術手法を提案する。 我々のアプローチは容易に拡張可能であり、臨床ルーチンからのマルチモーダルデータ入力に自然に適応する。 このアプローチを放射線学と眼科の3つの大きなマルチモーダルデータセットで実証し,臨床的に関連する診断課題において最先端のモデルを上回ることを示した。 当社の新しいアプローチはトランスファー可能であり、マルチモーダルディープラーニングを幅広い臨床関連の問題に適用することができる。

Multimodal deep learning has been used to predict clinical endpoints and diagnoses from clinical routine data. However, these models suffer from scaling issues: they have to learn pairwise interactions between each piece of information in each data type, thereby escalating model complexity beyond manageable scales. This has so far precluded a widespread use of multimodal deep learning. Here, we present a new technical approach of "learnable synergies", in which the model only selects relevant interactions between data modalities and keeps an "internal memory" of relevant data. Our approach is easily scalable and naturally adapts to multimodal data inputs from clinical routine. We demonstrate this approach on three large multimodal datasets from radiology and ophthalmology and show that it outperforms state-of-the-art models in clinically relevant diagnosis tasks. Our new approach is transferable and will allow the application of multimodal deep learning to a broad set of clinically relevant problems.
翻訳日:2022-12-21 14:17:51 公開日:2022-12-20
# コンピュータビジョンにおけるグラフニューラルネットワーク - アーキテクチャ、データセット、一般的なアプローチ

Graph Neural Networks in Computer Vision -- Architectures, Datasets and Common Approaches ( http://arxiv.org/abs/2212.10207v1 )

ライセンス: Link先を確認
Maciej Krzywda, Szymon {\L}ukasik, Amir H. Gandomi(参考訳) グラフニューラルネットワーク(GNN)は、グラフ上のノード間で存在するメカニズムにインスパイアされたグラフネットワークのファミリーである。 近年、GNNとその派生、すなわちグラフ注意ネットワーク(GAT)、グラフ畳み込みネットワーク(GCN)、グラフ再帰ネットワーク(GRN)への関心が高まっている。 コンピュータビジョンにおけるユーザビリティの向上も観察されている。 この分野でのgnnアプリケーションの数は拡大を続けており、ビデオ分析と理解、アクションと振舞いの認識、計算写真、ゼロショットや数ショットからの画像とビデオの合成など多くのものが含まれている。 この貢献は、コンピュータビジョンに対するGNNベースのアプローチに関する論文の収集を目的としている。 それらは3つの視点から説明され、要約される。 まず,この領域で使用されるグラフニューラルネットワークとそのデリバティブのアーキテクチャについて検討し,その後の調査に対する正確かつ説明可能なレコメンデーションを提供する。 他の面では、これらの作業で使用されるデータセットも提示します。 最後に、グラフ解析を用いて、コンピュータビジョンにおけるGNNに基づく研究と、この分野の外部で特定される潜在的なインスピレーション源との関係についても検討する。

Graph Neural Networks (GNNs) are a family of graph networks inspired by mechanisms existing between nodes on a graph. In recent years there has been an increased interest in GNN and their derivatives, i.e., Graph Attention Networks (GAT), Graph Convolutional Networks (GCN), and Graph Recurrent Networks (GRN). An increase in their usability in computer vision is also observed. The number of GNN applications in this field continues to expand; it includes video analysis and understanding, action and behavior recognition, computational photography, image and video synthesis from zero or few shots, and many more. This contribution aims to collect papers published about GNN-based approaches towards computer vision. They are described and summarized from three perspectives. Firstly, we investigate the architectures of Graph Neural Networks and their derivatives used in this area to provide accurate and explainable recommendations for the ensuing investigations. As for the other aspect, we also present datasets used in these works. Finally, using graph analysis, we also examine relations between GNN-based studies in computer vision and potential sources of inspiration identified outside of this field.
翻訳日:2022-12-21 14:17:15 公開日:2022-12-20
# 文字認識モデルによるビジュアルテキストレンダリングの改善

Character-Aware Models Improve Visual Text Rendering ( http://arxiv.org/abs/2212.10562v1 )

ライセンス: Link先を確認
Rosanne Liu, Dan Garrette, Chitwan Saharia, William Chan, Adam Roberts, Sharan Narang, Irina Blok, RJ Mical, Mohammad Norouzi, Noah Constant(参考訳) 現在の画像生成モデルは、よく形成されたビジュアルテキストを確実に生成するのに苦労している。 一般的なテキストから画像へのモデルには文字レベルの入力機能がないため、単語の視覚的な構成を一連のグリフとして予測するのがずっと困難である。 この効果の程度を定量化するために,文字認識と文字認識テキストエンコーダを比較した一連の制御実験を行った。 テキストのみのドメインでは、文字認識モデルは新しいスペルタスク(WikiSpell)に大きな利益をもたらす。 これらの学習を視覚領域に転送し、画像生成モデルをトレーニングし、文字認識の変種が、新しいテキストレンダリングタスク(DrawTextベンチマーク)で文字認識の変種よりも優れていることを示す。 われわれのモデルはビジュアルスペルの精度をはるかに高く設定し、稀な単語の競合よりも30ポイント以上精度が向上した。

Current image generation models struggle to reliably produce well-formed visual text. In this paper, we investigate a key contributing factor: popular text-to-image models lack character-level input features, making it much harder to predict a word's visual makeup as a series of glyphs. To quantify the extent of this effect, we conduct a series of controlled experiments comparing character-aware vs. character-blind text encoders. In the text-only domain, we find that character-aware models provide large gains on a novel spelling task (WikiSpell). Transferring these learnings onto the visual domain, we train a suite of image generation models, and show that character-aware variants outperform their character-blind counterparts across a range of novel text rendering tasks (our DrawText benchmark). Our models set a much higher state-of-the-art on visual spelling, with 30+ point accuracy gains over competitors on rare words, despite training on far fewer examples.
翻訳日:2022-12-21 14:10:56 公開日:2022-12-20
# 知識ギャップを念頭に置いて--知識強化対話システムに関する調査研究

Mind the Knowledge Gap: A Survey of Knowledge-enhanced Dialogue Systems ( http://arxiv.org/abs/2212.09252v2 )

ライセンス: Link先を確認
Sagi Shaier, Lawrence Hunter, Katharina Kann(参考訳) 多くの対話システム(dss)は、感情知覚、事実性、情報性などの特徴を欠いている。 知識によるDSの強化はこの問題を軽減するが、多くの方法が存在するため、提案手法の追跡は困難である。 本稿では,知識強化dssに関する最初の調査を行う。 使用する知識に基づいて、システムの内部、外部、ハイブリッドの3つのカテゴリを定義します。 本研究では,知識を用いたDSの強化,使用済みデータセット,知識検索,知識エンコーディング,知識導入のための手法について調査する。 最後に,言語学と認知科学の理論に基づく既存システムの改善手法を提案する。

Many dialogue systems (DSs) lack characteristics humans have, such as emotion perception, factuality, and informativeness. Enhancing DSs with knowledge alleviates this problem, but, as many ways of doing so exist, keeping track of all proposed methods is difficult. Here, we present the first survey of knowledge-enhanced DSs. We define three categories of systems - internal, external, and hybrid - based on the knowledge they use. We survey the motivation for enhancing DSs with knowledge, used datasets, and methods for knowledge search, knowledge encoding, and knowledge incorporation. Finally, we propose how to improve existing systems based on theories from linguistics and cognitive science.
翻訳日:2022-12-21 14:10:38 公開日:2022-12-20
# 入力雑音の検出と除去による要約モデルのロバスト性向上

Improving the Robustness of Summarization Models by Detecting and Removing Input Noise ( http://arxiv.org/abs/2212.09928v1 )

ライセンス: Link先を確認
Kundan Krishna, Yao Zhao, Jie Ren, Balaji Lakshminarayanan, Jiaming Luo, Mohammad Saleh, Peter J. Liu(参考訳) 抽象要約モデルの評価は、通常、トレーニングデータとして均等に分布するテストデータを使用する。 実世界の実践では、要約されるドキュメントには、テキスト抽出アーティファクトやデータパイプラインバグによる入力ノイズが含まれている可能性がある。 このようなノイズによる分布シフト時のモデル性能のロバスト性は比較的低い。 そこで本研究では,様々な入力雑音による性能低下(最大12ルージュ-1ポイント)を,データセットやモデルサイズで定量的に定量化する実験を行った。 そこで本研究では,モデル推論中の入力中のそのようなノイズを検出し,除去する軽量な手法を提案する。 提案手法は性能低下を効果的に軽減し,性能低下の大部分を回復させる。

The evaluation of abstractive summarization models typically uses test data that is identically distributed as training data. In real-world practice, documents to be summarized may contain input noise caused by text extraction artifacts or data pipeline bugs. The robustness of model performance under distribution shift caused by such noise is relatively under-studied. We present a large empirical study quantifying the sometimes severe loss in performance (up to 12 ROUGE-1 points) from different types of input noise for a range of datasets and model sizes. We then propose a light-weight method for detecting and removing such noise in the input during model inference without requiring any extra training, auxiliary models, or even prior knowledge of the type of noise. Our proposed approach effectively mitigates the loss in performance, recovering a large fraction of the performance drop, sometimes as large as 11 ROUGE-1 points.
翻訳日:2022-12-21 14:10:01 公開日:2022-12-20
# フェデレーション学習が事前学習された言語モデルのパラメータ効率的なチューニング手法に出会ったとき

When Federated Learning Meets Pre-trained Language Models' Parameter-Efficient Tuning Methods ( http://arxiv.org/abs/2212.10025v1 )

ライセンス: Link先を確認
Zhuo Zhang, Yuanhang Yang, Yong Dai, Lizhen Qu, Zenglin Xu(参考訳) データに対するプライバシの懸念が高まる中、近年の研究は、プライバシに敏感な自然言語処理(nlp)タスクにフェデレーション学習(fl)を使用することで大きな進歩を遂げている。 多くの文献は、FLパラダイムにおける完全微調整事前訓練言語モデル(PLM)は、データの不均一性を緩和し、集中トレーニングによるパフォーマンスギャップを埋めることができることを示唆している。 しかし、大規模なPLMは、FLシステムの通信の禁止的オーバーヘッドと局所モデル適応コストの呪いをもたらす。 この目的のために,フェデレート学習に様々なパラメータ効率チューニング(PETuning)手法を導入する。 具体的には,FL における代表的 PLM チューニング手法の総合的研究について述べる。 実験結果は、データの不均一性レベル、データスケール、および異なるflシナリオの分析をカバーする。 様々なFL設定で許容性能を維持しつつ、局所的なチューニングと軽量モデルパラメータのグローバル集約により、全体的な通信オーバーヘッドを著しく低減することができる。 FLにおけるPETuningの研究を容易にするために,FedPETuningというフェデレート・チューニング・フレームワークを開発した。 ソースコードは \url{https://github.com/iezhuozhuo/fedetuning/tree/deltatuning} で入手できる。

With increasing privacy concerns on data, recent studies have made significant progress using federated learning (FL) on privacy-sensitive natural language processing (NLP) tasks. Much literature suggests fully fine-tuning pre-trained language models (PLMs) in the FL paradigm can mitigate the data heterogeneity problem and close the performance gap with centralized training. However, large PLMs bring the curse of prohibitive communication overhead and local model adaptation costs for the FL system. To this end, we introduce various parameter-efficient tuning (PETuning) methods into federated learning. Specifically, we provide a holistic empirical study of representative PLMs tuning methods in FL. The experimental results cover the analysis of data heterogeneity levels, data scales, and different FL scenarios. Overall communication overhead can be significantly reduced by locally tuning and globally aggregating lightweight model parameters while maintaining acceptable performance in various FL settings. To facilitate the research of PETuning in FL, we also develop a federated tuning framework FedPETuning, which allows practitioners to exploit different PETuning methods under the FL training paradigm conveniently. The source code is available at \url{https://github.com/iezhuozhuo/FedETuning/tree/deltaTuning}.
翻訳日:2022-12-21 14:09:51 公開日:2022-12-20
# ベンチマークTwitterデータセットにおけるグラフニューラルネットワークとオーバーサンプリングを用いたルール検出

Rumour detection using graph neural network and oversampling in benchmark Twitter dataset ( http://arxiv.org/abs/2212.10080v1 )

ライセンス: Link先を確認
Shaswat Patel, Prince Bansal, Preeti Kaur(参考訳) 近年,オンラインソーシャルメディアは新たな情報や誤情報や噂の源泉となっている。 自動的な噂検出システムがないと、噂の伝搬が増大し、社会に深刻な被害をもたらす。 本研究では, クラス不均衡の課題を解消するために, オーバーサンプリングに焦点をあてて, 自動噂検知システムを構築する手法を提案する。 オーバーサンプリング手法は,データセットの未表現クラスに対する合成サンプルを生成するために,文脈データ拡張に依存する。 重要なアイデアは、スレッド内のツイートの選択を利用して、非ランダムな選択基準を導入して、関連するツイートに集中させることによって達成できる。 さらに、スレッド上の非線形会話をモデル化する2つのグラフニューラルネットワーク(GNN)を提案する。 提案手法では,最先端のBERTweetモデルに基づくカスタム機能選択手法を用いて,ツイート表現を強化する。 3つの公開データセットの実験がそれを確認 1) GNNモデルは、現在の最先端分類器を20%以上上回る(F1スコア)。 2) オーバーサンプリング技術は, モデル性能を9%以上向上させる(f1-score)。 3)非ランダム選択基準によるデータ拡張のための関連ツイートにフォーカスすることで,さらに結果が向上する。 4)本手法は早期に噂を検出する能力に優れていた。

Recently, online social media has become a primary source for new information and misinformation or rumours. In the absence of an automatic rumour detection system the propagation of rumours has increased manifold leading to serious societal damages. In this work, we propose a novel method for building automatic rumour detection system by focusing on oversampling to alleviating the fundamental challenges of class imbalance in rumour detection task. Our oversampling method relies on contextualised data augmentation to generate synthetic samples for underrepresented classes in the dataset. The key idea exploits selection of tweets in a thread for augmentation which can be achieved by introducing a non-random selection criteria to focus the augmentation process on relevant tweets. Furthermore, we propose two graph neural networks(GNN) to model non-linear conversations on a thread. To enhance the tweet representations in our method we employed a custom feature selection technique based on state-of-the-art BERTweet model. Experiments of three publicly available datasets confirm that 1) our GNN models outperform the the current state-of-the-art classifiers by more than 20%(F1-score); 2) our oversampling technique increases the model performance by more than 9%;(F1-score) 3) focusing on relevant tweets for data augmentation via non-random selection criteria can further improve the results; and 4) our method has superior capabilities to detect rumours at very early stage.
翻訳日:2022-12-21 14:09:32 公開日:2022-12-20
# ミニモデル適応:アライメント・アライメントによる事前学習されたモデルを新しい言語に効率的に拡張する

Mini-Model Adaptation: Efficiently Extending Pretrained Models to New Languages via Aligned Shallow Training ( http://arxiv.org/abs/2212.10503v1 )

ライセンス: Link先を確認
Kelly Marchisio, Patrick Lewis, Yihong Chen, Mikel Artetxe(参考訳) 以前の研究は、トランスフォーマー本体を凍結させながら新しい組込みを学習することで、事前訓練されたマスケッド言語モデル(MLM)を新しい言語に拡張できることを示していた。 パラメータの小さなサブセットを学習しても、新しい埋め込みをトレーニングするためには、モデル全体を完全な前方と後方にパスする必要があるため、このアプローチは計算効率が良くない。 本研究では,大容量モデルのパラメータのごく一部から浅いミニモデルを構築する計算効率の代替モデルであるミニモデル適応を提案する。 新しい言語固有の埋め込みは、ミニモデル上で効率的に訓練され、高速な言語間移動のために整列した大きなモデルにプラグインされる。 minijointは、中間層にmlmヘッドを持つ1つのトランスフォーマを使用して、プライマリモデルとミニモデルを予習し、minipostは、通常の予習モデルから始めて、いくつかのレイヤを抽出・凍結し、その上に少数のパラメータを学習することでミニモデルを構築する。 XNLI、MLQA、PAWS-Xの実験は、最大2.4倍の計算量で、ミニモデル適応が標準手法のパフォーマンスと一致することを示した。

Prior work has shown that it is possible to expand pretrained Masked Language Models (MLMs) to new languages by learning a new set of embeddings, while keeping the transformer body frozen. Despite learning a small subset of parameters, this approach is not compute-efficient, as training the new embeddings requires a full forward and backward pass over the entire model. In this work, we propose mini-model adaptation, a compute-efficient alternative that builds a shallow mini-model from a fraction of a large model's parameters. New language-specific embeddings can then be efficiently trained over the mini-model, and plugged into the aligned large model for rapid cross-lingual transfer. We explore two approaches to learn mini-models: MiniJoint, which jointly pretrains the primary model and the mini-model using a single transformer with a secondary MLM head at a middle layer; and MiniPost, where we start from a regular pretrained model and build a mini-model by extracting and freezing a few layers and learning a small number of parameters on top. Experiments on XNLI, MLQA and PAWS-X show that mini-model adaptation matches the performance of the standard approach using up to 2.4x less compute.
翻訳日:2022-12-21 14:09:14 公開日:2022-12-20
# 注意のない事前訓練

Pretraining Without Attention ( http://arxiv.org/abs/2212.10544v1 )

ライセンス: Link先を確認
Junxiong Wang, Jing Nathan Yan, Albert Gu, Alexander M. Rush(参考訳) トランスフォーマーはnlpの成功の事前訓練に不可欠である。 他のアーキテクチャも使用されているが、ベンチマークの精度に合うように注意層を必要とする。 この研究は注意せずに事前訓練を探求する。 我々は最近、状態空間モデル(SSM)と乗法ゲーティングに基づくモデルアーキテクチャに基づくルーティング層をテストした。 これらのモデリングの選択は、事前学習の精度に大きな影響を与える。 実証的に提案されたBidirectional Gated SSM (BiGS) はBERT事前学習結果を無注意で再現し、近似なしで4096トークンの長期事前学習に拡張することができる。

Transformers have been essential to pretraining success in NLP. Other architectures have been used, but require attention layers to match benchmark accuracy. This work explores pretraining without attention. We test recently developed routing layers based on state-space models (SSM) and model architectures based on multiplicative gating. Used together these modeling choices have a large impact on pretraining accuracy. Empirically the proposed Bidirectional Gated SSM (BiGS) replicates BERT pretraining results without attention and can be extended to long-form pretraining of 4096 tokens without approximation.
翻訳日:2022-12-21 14:08:51 公開日:2022-12-20
# 仮想現実におけるロバストでリソース効率のよい機械学習によるビューポート予測

Robust and Resource-efficient Machine Learning Aided Viewport Prediction in Virtual Reality ( http://arxiv.org/abs/2212.09945v1 )

ライセンス: Link先を確認
Yuang Jiang, Konstantinos Poularakis, Diego Kiedanski, Sastry Kompella, Leandros Tassiulas(参考訳) 近年、ヘッドマウントディスプレイ(HMD)やパノラマカメラの急速な開発により、360度パノラマビデオが注目されている。 パノラマ動画のストリーミングにおける大きな問題の1つは、パノラマ動画が従来のものよりもはるかに大きいことだ。 さらに、ユーザデバイスは、バッテリ、計算能力、帯域幅が制限されたワイヤレス環境にあることが多い。 リソース消費を減らすために、研究者はユーザーのビューポートを予測する方法を提案し、ビデオの一部だけがサーバから送信される必要がある。 しかし,このような予測手法の頑健さは文献では見過ごされており,過去のユーザの経験に基づいて事前学習したモデルのみを全ユーザへの予測に適用することが一般的である。 これらの事前学習されたモデルは、多くのユーザーと大きく異なる行動をとる可能性があるため、一部のユーザーにとってはパフォーマンスが悪く、未熟なビデオでは機能をキャプチャできない。 本研究では,メタラーニングに基づくビューポート予測パラダイムを提案し,最悪の予測性能を緩和し,ビューポート予測の堅牢性を確保する。 このパラダイムでは、第1のモデルが視聴方向を予測する2つの機械学習モデルを使用し、第2のモデルが実際のビューポートを含む最小ビデオプリフェッチサイズを予測する。 まず、新しいトレーニングデータに敏感な2つのメタモデルをトレーニングし、ビデオを見ながらユーザーにすばやく適応させます。 評価結果から, メタモデルは各ユーザに対して迅速に適応でき, 予測精度を大幅に向上させることができることがわかった。

360-degree panoramic videos have gained considerable attention in recent years due to the rapid development of head-mounted displays (HMDs) and panoramic cameras. One major problem in streaming panoramic videos is that panoramic videos are much larger in size compared to traditional ones. Moreover, the user devices are often in a wireless environment, with limited battery, computation power, and bandwidth. To reduce resource consumption, researchers have proposed ways to predict the users' viewports so that only part of the entire video needs to be transmitted from the server. However, the robustness of such prediction approaches has been overlooked in the literature: it is usually assumed that only a few models, pre-trained on past users' experiences, are applied for prediction to all users. We observe that those pre-trained models can perform poorly for some users because they might have drastically different behaviors from the majority, and the pre-trained models cannot capture the features in unseen videos. In this work, we propose a novel meta learning based viewport prediction paradigm to alleviate the worst prediction performance and ensure the robustness of viewport prediction. This paradigm uses two machine learning models, where the first model predicts the viewing direction, and the second model predicts the minimum video prefetch size that can include the actual viewport. We first train two meta models so that they are sensitive to new training data, and then quickly adapt them to users while they are watching the videos. Evaluation results reveal that the meta models can adapt quickly to each user, and can significantly increase the prediction accuracy, especially for the worst-performing predictions.
翻訳日:2022-12-21 14:08:41 公開日:2022-12-20
# コントラスト学習は会話の幻覚を減少させる

Contrastive Learning Reduces Hallucination in Conversations ( http://arxiv.org/abs/2212.10400v1 )

ライセンス: Link先を確認
Weiwei Sun, Zhengliang Shi, Shen Gao, Pengjie Ren, Maarten de Rijke, Zhaochun Ren(参考訳) 事前訓練された言語モデル(LM)は、そのパラメータに知識を格納し、会話システムで使用すると情報応答を生成できる。 しかし、LMは「幻覚(hallucination)」という問題に悩まされる。 この問題に対処するために,mixcl という対比学習方式を提案する。 lmsの暗黙的知識誘発過程を明示的に最適化し、会話における幻覚を減少させる新しい混合対照目的を提案する。 また,回収した硬質負とモデル生成負の負サンプリング戦略についても検討した。 オープンドメインの知識基底型対話ベンチマークであるウィザード・オブ・ウィキペディアで実験を行い、MixCLの有効性を評価する。 MixCLは、会話におけるLMの幻覚を効果的に低減し、関連性と事実性の観点から、LMベースの対話エージェントの中で最高のパフォーマンスを達成する。 mixclが最先端のkbベースアプローチに匹敵するパフォーマンスを実現し、効率とスケーラビリティの面で顕著なアドバンテージを享受していることを示す。

Pre-trained language models (LMs) store knowledge in their parameters and can generate informative responses when used in conversational systems. However, LMs suffer from the problem of "hallucination:" they may generate plausible-looking statements that are irrelevant or factually incorrect. To address this problem, we propose a contrastive learning scheme, named MixCL. A novel mixed contrastive objective is proposed to explicitly optimize the implicit knowledge elicitation process of LMs, and thus reduce their hallucination in conversations. We also examine negative sampling strategies of retrieved hard negatives and model-generated negatives. We conduct experiments on Wizard-of-Wikipedia, a public, open-domain knowledge-grounded dialogue benchmark, and assess the effectiveness of MixCL. MixCL effectively reduces the hallucination of LMs in conversations and achieves the highest performance among LM-based dialogue agents in terms of relevancy and factuality. We show that MixCL achieves comparable performance to state-of-the-art KB-based approaches while enjoying notable advantages in terms of efficiency and scalability.
翻訳日:2022-12-21 14:02:42 公開日:2022-12-20
# 大規模言語モデルの推論に向けて:調査

Towards Reasoning in Large Language Models: A Survey ( http://arxiv.org/abs/2212.10403v1 )

ライセンス: Link先を確認
Jie Huang and Kevin Chen-Chuan Chang(参考訳) 推論は人間の知性の基本的側面であり、問題解決、意思決定、批判的思考といった活動において重要な役割を果たす。 近年,大規模言語モデル (LLM) は自然言語処理において顕著な進歩を遂げており,これらのモデルが十分に大きければ推論能力を示す可能性がある。 しかし、LLMがどの程度推論できるのかは、まだ明らかになっていない。 本稿では, LLMにおける推論に関する知識の現状を概観するとともに, これらのモデルにおける推論を改善する技術, 推論能力を評価する方法とベンチマーク, この分野におけるこれまでの研究成果と含意, 今後の方向性を提案する。 我々の目標は、このトピックの詳細と最新のレビューを提供し、有意義な議論と今後の作業を促進することです。

Reasoning is a fundamental aspect of human intelligence that plays a crucial role in activities such as problem solving, decision making, and critical thinking. In recent years, large language models (LLMs) have made significant progress in natural language processing, and there is observation that these models may exhibit reasoning abilities when they are sufficiently large. However, it is not yet clear to what extent LLMs are capable of reasoning. This paper provides a comprehensive overview of the current state of knowledge on reasoning in LLMs, including techniques for improving and eliciting reasoning in these models, methods and benchmarks for evaluating reasoning abilities, findings and implications of previous research in this field, and suggestions on future directions. Our aim is to provide a detailed and up-to-date review of this topic and stimulate meaningful discussion and future work.
翻訳日:2022-12-21 14:02:25 公開日:2022-12-20
# オープンドメイン多文書要約の課題を探る

Exploring the Challenges of Open Domain Multi-Document Summarization ( http://arxiv.org/abs/2212.10526v1 )

ライセンス: Link先を確認
John Giorgi, Luca Soldaini, Bo Wang, Gary Bader, Kyle Lo, Lucy Lu Wang, Arman Cohan(参考訳) 多文書要約(MDS)は伝統的に,一組の基幹話題関連入力文書が提供されると仮定して研究されてきた。 実際には、入力ドキュメントセットは優先順位として利用できないため、情報ニーズ、つまりオープンドメインmdsと呼ばれる設定に基づいて取得する必要があります。 オープンドメイン設定に拡張されたいくつかのmdsデータセット上で,現在の最先端の検索と要約モデルを実験する。 既存の要約器は、このより現実的なタスクに適用すると、大幅な性能低下を被るが、抽出した入力によるトレーニング要約器は、感度検索誤差を低減できる。 さらにこれらの知見を探索するため,文書検索の異なる種類の誤りの影響を調べるために,要約入力に対する摂動実験を行った。 本結果に基づき,オープンドメインMDSへの移行を促進するための実践的ガイドラインを提供する。 調査中に作成したすべてのデータやモデルアーティファクトとともに、コードと実験結果をリリースします。

Multi-document summarization (MDS) has traditionally been studied assuming a set of ground-truth topic-related input documents is provided. In practice, the input document set is unlikely to be available a priori and would need to be retrieved based on an information need, a setting we call open-domain MDS. We experiment with current state-of-the-art retrieval and summarization models on several popular MDS datasets extended to the open-domain setting. We find that existing summarizers suffer large reductions in performance when applied as-is to this more realistic task, though training summarizers with retrieved inputs can reduce their sensitivity retrieval errors. To further probe these findings, we conduct perturbation experiments on summarizer inputs to study the impact of different types of document retrieval errors. Based on our results, we provide practical guidelines to help facilitate a shift to open-domain MDS. We release our code and experimental results alongside all data or model artifacts created during our investigation.
翻訳日:2022-12-21 14:02:11 公開日:2022-12-20
# MARCoによるテキストのデトックス化:エキスパートとアンチエキスパートによる制御可能な改訂

Detoxifying Text with MaRCo: Controllable Revision with Experts and Anti-Experts ( http://arxiv.org/abs/2212.10543v1 )

ライセンス: Link先を確認
Skyler Hallinan, Alisa Liu, Yejin Choi, Maarten Sap(参考訳) テキストの解毒は、攻撃的な意味を取り除くためにテキストを言い換えることで毒性の害を軽減する可能性があるが、微妙な毒性に対処するのは難しい。 本稿では,自動エンコーダ言語モデル(LM)を用いて,制御可能な生成法とテキスト書き直し法を組み合わせた解毒アルゴリズムMARCoを紹介する。 MaRCoは、非有毒なLM(専門家)と有毒なLM(反専門家)の下の可能性を利用して、マスクすべき候補単語を見つけ、置換する可能性がある。 我々は,いくつかの微妙な毒性とマイクロアグレスデータセットについて評価し,自動測定値の基準値を上回るだけでなく,MARCoの書き直しが2.1ドル\times$以上の人的評価で望ましいことを示す。 微妙な毒性の事例に適用性は特に有望であり、オンライン憎悪の高まりに対処するための道筋を示している。

Text detoxification has the potential to mitigate the harms of toxicity by rephrasing text to remove offensive meaning, but subtle toxicity remains challenging to tackle. We introduce MaRCo, a detoxification algorithm that combines controllable generation and text rewriting methods using a Product of Experts with autoencoder language models (LMs). MaRCo uses likelihoods under a non-toxic LM (expert) and a toxic LM (anti-expert) to find candidate words to mask and potentially replace. We evaluate our method on several subtle toxicity and microaggressions datasets, and show that it not only outperforms baselines on automatic metrics, but MaRCo's rewrites are preferred 2.1 $\times$ more in human evaluation. Its applicability to instances of subtle toxicity is especially promising, demonstrating a path forward for addressing increasingly elusive online hate.
翻訳日:2022-12-21 14:01:55 公開日:2022-12-20
# DimonGen: 概念関係を説明するための多様な生成コモンセンス推論

DimonGen: Diversified Generative Commonsense Reasoning for Explaining Concept Relationships ( http://arxiv.org/abs/2212.10545v1 )

ライセンス: Link先を確認
Chenzhengyi Liu and Jie Huang and Kerui Zhu and Kevin Chen-Chuan Chang(参考訳) 本稿では,様々な日常シナリオにおいて概念関係を記述する多様な文を生成することを目的としたDimonGenを提案する。 これをサポートするために,既存のCommonGenデータセットを適用して,このタスクのためのベンチマークデータセットを作成し,目標文を生成するためのMoREE(Mixture of Retrieval-Enhanced Experts)と呼ばれる2段階モデルを提案する。 MoREEは、与えられた概念に関連する多様なコンテキスト文を検索する検索モデルと、検索されたコンテキストに基づいて多様な文を生成するジェネレータモデルの混合からなる。 我々は,DimonGenタスクの実験を行い,生成した文の品質と多様性の両面で,MoREEが強いベースラインを上回っていることを示す。 その結果,モレは概念間の関係を反映する多様な文を生成することができ,概念関係の包括的理解に繋がることが示された。

In this paper, we propose DimonGen, which aims to generate diverse sentences describing concept relationships in various everyday scenarios. To support this, we create a benchmark dataset for this task by adapting the existing CommonGen dataset and propose a two-stage model called MoREE (Mixture of Retrieval-Enhanced Experts) to generate the target sentences. MoREE consists of a mixture of retriever models that retrieve diverse context sentences related to the given concepts, and a mixture of generator models that generate diverse sentences based on the retrieved contexts. We conduct experiments on the DimonGen task and show that MoREE outperforms strong baselines in terms of both the quality and diversity of the generated sentences. Our results demonstrate that MoREE is able to generate diverse sentences that reflect different relationships between concepts, leading to a comprehensive understanding of concept relationships.
翻訳日:2022-12-21 14:01:37 公開日:2022-12-20
# Lego-MT:多言語機械翻訳における分離可能なモデルを目指して

Lego-MT: Towards Detachable Models in Massively Multilingual Machine Translation ( http://arxiv.org/abs/2212.10551v1 )

ライセンス: Link先を確認
Fei Yuan, Yinquan Lu, WenHao Zhu, Lingpeng Kong, Lei Li, Jingjing Xu(参考訳) 従来の多言語ニューラルマシン翻訳(mnmt)は、すべての方向を単一のモデルで翻訳する。 しかし、言語ペアの規模が大きくなるにつれて、単一のモデルをMNMTの大規模化に使用するだけで、パラメータのテンションと大きな計算という新たな課題がもたらされる。 本稿では,各言語(グループ)に個別の分岐を割り当てることで,マルチウェイ構造を再検討する。 単純なアーキテクチャであるにもかかわらず、すべての言語からの表現を整合させる制約が欠如しているため、非分散モデルのトレーニングは困難である。 本稿では,異なるブランチを統一された空間にマッピングする局所的なトレーニング手法を提案する。 公平な比較のために,OPUSからデータを収集し,それぞれ445の言語ペアを含む7つの言語中心のデータをカバーする,最初の大規模オープンソース翻訳ベンチマークを構築した。 実験によると、lego-mt (1.2b) は4 bleu以上の利益をもたらし、m2m-100 (12b) を上回っている(トレーニングデータ、モデル、チェックポイントはすべて公開する)。

Traditional multilingual neural machine translation (MNMT) uses a single model to translate all directions. However, with the increasing scale of language pairs, simply using a single model for massive MNMT brings new challenges: parameter tension and large computations. In this paper, we revisit multi-way structures by assigning an individual branch for each language (group). Despite being a simple architecture, it is challenging to train de-centralized models due to the lack of constraints to align representations from all languages. We propose a localized training recipe to map different branches into a unified space, resulting in an efficient detachable model, Lego-MT. For a fair comparison, we collect data from OPUS and build the first large-scale open-source translation benchmark covering 7 language-centric data, each containing 445 language pairs. Experiments show that Lego-MT (1.2B) brings gains of more than 4 BLEU while outperforming M2M-100 (12B) (We will public all training data, models, and checkpoints)
翻訳日:2022-12-21 14:01:09 公開日:2022-12-20
# 自然言語理解におけるデータ拡張のためのオンザフライDenoising

On-the-fly Denoising for Data Augmentation in Natural Language Understanding ( http://arxiv.org/abs/2212.10558v1 )

ライセンス: Link先を確認
Tianqing Fang, Wenxuan Zhou, Fangyu Liu, Hongming Zhang, Yangqiu Song, Muhao Chen(参考訳) データ拡張(DA)は、追加の人的アノテーションなしで、自動的に追加のトレーニングデータを提供するために頻繁に使用される。 しかし、データ拡張はトレーニングを阻害するノイズデータをもたらす可能性がある。 拡張データの品質を保証するため、既存のメソッドでは、拡張データにノイズが存在しないと仮定し、一貫性トレーニングを採用するか、トレーニング損失や多様性制約などの単純なヒューリスティックを使って‘ノイズ’データをフィルタリングする。 しかし、これらのフィルタされた例には有用な情報が含まれており、それらをドロップすると監視信号が完全に失われる。 本稿では,オリジナルデータセットが拡張データよりもクリーンであるという仮定に基づいて,よりクリーンなオリジナルデータに基づいてトレーニングされた有機教師モデルによって提供されるソフト拡張ラベルから学習されるデータ拡張のためのオン・ザ・フライ・デノイジング手法を提案する。 単純な自己正規化モジュールを適用し、モデル予測を2つの異なるドロップアウトで一貫性を持たせ、ノイズラベルの過剰フィットをさらに防止する。 本手法は,拡張手法全般に適用でき,テキスト分類と質問応答タスクの両方において,一貫して性能を向上させることができる。

Data Augmentation (DA) is frequently used to automatically provide additional training data without extra human annotation. However, data augmentation may introduce noisy data that impairs training. To guarantee the quality of augmented data, existing methods either assume no noise exists in the augmented data and adopt consistency training or use simple heuristics such as training loss and diversity constraints to filter out ``noisy'' data. However, those filtered examples may still contain useful information, and dropping them completely causes loss of supervision signals. In this paper, based on the assumption that the original dataset is cleaner than the augmented data, we propose an on-the-fly denoising technique for data augmentation that learns from soft augmented labels provided by an organic teacher model trained on the cleaner original data. A simple self-regularization module is applied to force the model prediction to be consistent across two distinct dropouts to further prevent overfitting on noisy labels. Our method can be applied to augmentation techniques in general and can consistently improve the performance on both text classification and question-answering tasks.
翻訳日:2022-12-21 14:00:37 公開日:2022-12-20
# self-instruct: 言語モデルと自己生成命令の整合

Self-Instruct: Aligning Language Model with Self Generated Instructions ( http://arxiv.org/abs/2212.10560v1 )

ライセンス: Link先を確認
Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith, Daniel Khashabi, Hannaneh Hajishirzi(参考訳) 命令に応答するために微調整された)大規模な「命令調整」言語モデルは、ゼロショットを新しいタスクに一般化する驚くべき能力を示している。 それでも、それらは量、多様性、創造性に制限された人間による命令データに大きく依存しているため、調整されたモデルの一般化を妨げる。 我々は,事前学習された言語モデルの命令追従能力を向上させるためのフレームワークであるself-instructを紹介する。 私たちのパイプラインは、言語モデルからインストラクション、インプット、およびアウトプットを生成し、それを使用して元のモデルを微調整する。 提案手法をバニラGPT3に適用することにより,個人のユーザデータと人間のアノテーションをトレーニングしたInstructGPT_001の性能に匹敵する,Super-Natural Instructionsのオリジナルモデルに対する33%の絶対的な改善を実演する。 さらに,新しいタスクに対する専門家による指示の集合をキュレートし,既存の公開命令データセットを用いてGPT3とセルフインストラクトのチューニング性能を大きなマージンで向上させ,InstructGPT_001の背後には5%の絶対差しか残っていないことを示す。 Self-Instructは、事前訓練された言語モデルを命令と整合させるほとんどアノテーションのない方法を提供する。

Large "instruction-tuned" language models (finetuned to respond to instructions) have demonstrated a remarkable ability to generalize zero-shot to new tasks. Nevertheless, they depend heavily on human-written instruction data that is limited in quantity, diversity, and creativity, therefore hindering the generality of the tuned model. We introduce Self-Instruct, a framework for improving the instruction-following capabilities of pretrained language models by bootstrapping off its own generations. Our pipeline generates instruction, input, and output samples from a language model, then prunes them before using them to finetune the original model. Applying our method to vanilla GPT3, we demonstrate a 33% absolute improvement over the original model on Super-NaturalInstructions, on par with the performance of InstructGPT_001, which is trained with private user data and human annotations. For further evaluation, we curate a set of expert-written instructions for novel tasks, and show through human evaluation that tuning GPT3 with Self-Instruct outperforms using existing public instruction datasets by a large margin, leaving only a 5% absolute gap behind InstructGPT_001. Self-Instruct provides an almost annotation-free method for aligning pre-trained language models with instructions, and we release our large synthetic dataset to facilitate future studies on instruction tuning.
翻訳日:2022-12-21 14:00:17 公開日:2022-12-20
# 皮質階層間の効率的なバックプロジェクションをリアルタイムに学習する

Learning efficient backprojections across cortical hierarchies in real time ( http://arxiv.org/abs/2212.10249v1 )

ライセンス: Link先を確認
Kevin Max, Laura Kriener, Garibaldi Pineda Garc\'ia, Thomas Nowotny, Walter Senn, Mihai A. Petrovici(参考訳) 大脳皮質における知覚処理と学習のモデルは、あらゆる領域のシナプスに対するクレジットを効率的に割り当てる必要がある。 ディープラーニングでは、既知の解決策はエラーバックプロパゲーションであるが、フィードフォワードからフィードバックパスへの生物学的に意味のない重量輸送が必要である。 階層型大脳皮質階層における効率的なフィードバック重み付けを学習するための生物工学的手法であるPALを導入する。 これは、生体物理学システムで自然に見られるノイズを付加的な情報キャリアとして利用することで達成される。 私たちの力学系では、全ての重みは常時オン可塑性と同時に学習され、シナプスで利用可能な情報のみを使用する。 本手法は完全に位相フリー(前・後・後進学習なし)であり,生物学的に妥当な信号伝達と学習を維持しつつ,多層皮質階層間の効率的な誤り伝播を可能にする。 提案手法は幅広いモデルに適用可能であり,既知の生物学的に妥当な信用代入方法を改善する。ランダムなシナプスフィードバックと比較して,ニューロンが少ない複雑なタスクを解くことができ,より有用な潜在表現を学習することができる。 予測符号化を用いた皮質マイクロサーキットモデルを用いて,様々な分類タスクでこれを示す。

Models of sensory processing and learning in the cortex need to efficiently assign credit to synapses in all areas. In deep learning, a known solution is error backpropagation, which however requires biologically implausible weight transport from feed-forward to feedback paths. We introduce Phaseless Alignment Learning (PAL), a bio-plausible method to learn efficient feedback weights in layered cortical hierarchies. This is achieved by exploiting the noise naturally found in biophysical systems as an additional carrier of information. In our dynamical system, all weights are learned simultaneously with always-on plasticity and using only information locally available to the synapses. Our method is completely phase-free (no forward and backward passes or phased learning) and allows for efficient error propagation across multi-layer cortical hierarchies, while maintaining biologically plausible signal transport and learning. Our method is applicable to a wide class of models and improves on previously known biologically plausible ways of credit assignment: compared to random synaptic feedback, it can solve complex tasks with less neurons and learn more useful latent representations. We demonstrate this on various classification tasks using a cortical microcircuit model with prospective coding.
翻訳日:2022-12-21 13:59:51 公開日:2022-12-20
# 画像による曖昧さの解消:マルチモーダル機械翻訳の改善とコントラスト評価

Tackling Ambiguity with Images: Improved Multimodal Machine Translation and Contrastive Evaluation ( http://arxiv.org/abs/2212.10140v1 )

ライセンス: Link先を確認
Matthieu Futeral, Cordelia Schmid, Ivan Laptev, Beno\^it Sagot, Rachel Bawden(参考訳) 機械翻訳(mt)の最大の課題の1つは曖昧さであり、画像などのコンテキストを伴って解決できる場合もある。 しかし、近年のマルチモーダルMT(MMT)の研究は、画像から改善を得ることが困難なことを示しており、効果的なクロスモーダル表現を構築することの難しさだけでなく、特定の評価やトレーニングデータの欠如によって制限されている。 本稿では,ニューラルアダプターと新しい自己注意機構を応用し,視覚マスキングとMTを併用した,強力なテキストのみのMTモデルに基づく新しいMT手法を提案する。 また,多言語多言語翻訳評価データセットであるcommututeをリリースし,各翻訳に対応する画像の曖昧さを伴い,曖昧な文とその翻訳が可能な文からなる。 提案手法は,標準の英語とフランス語のベンチマークにおいて,強いテキストのみのモデルに対して競合する結果を得た。

One of the major challenges of machine translation (MT) is ambiguity, which can in some cases be resolved by accompanying context such as an image. However, recent work in multimodal MT (MMT) has shown that obtaining improvements from images is challenging, limited not only by the difficulty of building effective cross-modal representations but also by the lack of specific evaluation and training data. We present a new MMT approach based on a strong text-only MT model, which uses neural adapters and a novel guided self-attention mechanism and which is jointly trained on both visual masking and MMT. We also release CoMMuTE, a Contrastive Multilingual Multimodal Translation Evaluation dataset, composed of ambiguous sentences and their possible translations, accompanied by disambiguating images corresponding to each translation. Our approach obtains competitive results over strong text-only models on standard English-to-French benchmarks and outperforms these baselines and state-of-the-art MMT systems with a large margin on our contrastive test set.
翻訳日:2022-12-21 13:59:32 公開日:2022-12-20
# 合成オープンドメインダイアログによるタスクボットエンゲージメントの強化

Enhancing Task Bot Engagement with Synthesized Open-Domain Dialog ( http://arxiv.org/abs/2212.10008v1 )

ライセンス: Link先を確認
Miaoran Li, Baolin Peng, Michel Galley, Jianfeng Gao, Zhu Zhang(参考訳) タスク指向ダイアログ(TOD)やオープンドメインダイアログ(ODD)など,さまざまなタイプの会話のためのダイアログシステムの構築に多くの努力がなされている。 通常、様々なダイアログモードを融合する人間レベルの会話を模倣するには、todとoddの両方を効果的に処理し、異なる知識ソースにアクセスするシステムを構築することが不可欠である。 融合タスクのための利用可能なデータの欠如に対処するために,様々な環境で知識に基づくオッズとtodを組み合わせた対話を自動的に生成するフレームワークを提案する。 さらに,TODモードとODDモードを適切に適用し,異なる知識ソースにアクセスして,融合タスクに効果的に対処できる統合モデルPivotBotを導入する。 評価結果は,TODタスクとODDタスクをシームレスに切り替える上で,提案モデルが優れていることを示す。

Many efforts have been made to construct dialog systems for different types of conversations, such as task-oriented dialog (TOD) and open-domain dialog (ODD). To better mimic human-level conversations that usually fuse various dialog modes, it is essential to build a system that can effectively handle both TOD and ODD and access different knowledge sources. To address the lack of available data for the fused task, we propose a framework for automatically generating dialogues that combine knowledge-grounded ODDs and TODs in various settings. Additionally, we introduce a unified model PivotBot that is capable of appropriately adopting TOD and ODD modes and accessing different knowledge sources in order to effectively tackle the fused task. Evaluation results demonstrate the superior ability of the proposed model to switch seamlessly between TOD and ODD tasks.
翻訳日:2022-12-21 13:52:54 公開日:2022-12-20
# DocAsRef: 基準ベース概要品質基準をフリーで再利用する実証的研究

DocAsRef: A Pilot Empirical Study on Repurposing Reference-Based Summary Quality Metrics Reference-Freely ( http://arxiv.org/abs/2212.10013v1 )

ライセンス: Link先を確認
Forrest Sheng Bao, Ruixuan Tu, Ge Luo(参考訳) 要約品質評価指標には、参照ベースと参照フリーの2つのカテゴリがある。 参照ベースのメトリクスは理論的にはより正確であるが、人間による参照の可用性と品質によって制限されている。 これは、過去数年間に人間が書いた参照から独立した参照フリーメトリクスの開発を刺激する。 しかし、既存の参照なしのメトリクスはゼロショットでも正確でもない。 本稿では,ゼロショットだが正確な参照不要な手法として,参照ベースメトリクスへの参照として,どの要約を生成するかに基づいて文書を送付する手法を提案する。 実験の結果、このゼロショットアプローチによって、最近リリースされたいくつかのデータセットのほぼすべての側面において、最もパフォーマンスの高い参照フリーメトリクスが得られます。 参照ベースのメトリクスがこのようなリパースによってどのような恩恵を受けることができるのか、追加の調整が役立つのか、さらに検討する。

Summary quality assessment metrics have two categories: reference-based and reference-free. Reference-based metrics are theoretically more accurate but are limited by the availability and quality of the human-written references, which are both difficulty to ensure. This inspires the development of reference-free metrics, which are independent from human-written references, in the past few years. However, existing reference-free metrics cannot be both zero-shot and accurate. In this paper, we propose a zero-shot but accurate reference-free approach in a sneaky way: feeding documents, based upon which summaries generated, as references into reference-based metrics. Experimental results show that this zero-shot approach can give us the best-performing reference-free metrics on nearly all aspects on several recently-released datasets, even beating reference-free metrics specifically trained for this task sometimes. We further investigate what reference-based metrics can benefit from such repurposing and whether our additional tweaks help.
翻訳日:2022-12-21 13:52:38 公開日:2022-12-20
# 言語モデルは日常のコヒーレントな精神モデルを持っているか?

Do language models have coherent mental models of everyday things? ( http://arxiv.org/abs/2212.10029v1 )

ライセンス: Link先を確認
Yuling Gu, Bhavana Dalvi Mishra, Peter Clark(参考訳) 毎日の物事を"卵"のように考えるとき、彼らは通常、それに関連する精神的イメージを持っています。 この常識的な知識は、日々の物事がどのように機能し、どのように相互作用するかを理解するのに役立ちます。 例えば、誰かがフライドエッグを作ろうとすると、それは殻を持ち、中身の卵白と黄身を明らかにするために裂けることを知っている。 しかし、もしシステムが、卵黄が貝殻を取り囲んでいると考え、そのような日常的なものの連帯図を持っていなければ、卵黄を貝殻から鍋に削り取ろうとするようなばかげたアプローチを使わなければならないかもしれない。 言語モデルにはこのような日常的なイメージがありますか? そこで本研究では,100の日常的なもの,その部分,およびそれらの関係性からなるベンチマークデータセットを提案する。 GPT-3 や Macaw のような最先端の事前訓練言語モデル (LM) は,これらの実体に関する知識を断片的に持っているが,一貫した部分のメンタルモデルの生成には失敗している。 そこで,本論文では,制約満足度層をLMの生の予測の上に適用し,より一貫性のある,より正確な部分のメンタルモデルを作成する。

When people think of everyday things like an "egg," they typically have a mental image associated with it. This commonsense knowledge helps us understand how these everyday things work and how to interact with them. For example, when someone tries to make a fried egg, they know that it has a shell and that it can be cracked open to reveal the egg white and yolk inside. However, if a system does not have a coherent picture of such everyday things, thinking that the egg yolk surrounds the shell, then it might have to resort to ridiculous approaches such as trying to scrape the egg yolk off the shell into the pan. Do language models have a coherent picture of such everyday things? To investigate this, we propose a benchmark dataset consisting of 100 everyday things, their parts, and the relationships between these parts. We observe that state-of-the-art pre-trained language models (LMs) like GPT-3 and Macaw have fragments of knowledge about these entities, but they fail to produce consistent parts mental models. We propose a simple extension to these LMs where we apply a constraint satisfaction layer on top of raw predictions from LMs to produce more consistent and accurate parts mental models of everyday things.
翻訳日:2022-12-21 13:52:21 公開日:2022-12-20
# AIダンジョンマスターガイド:ダンジョンとドラゴンにおけるインテントとミンド理論による会話とガイドの学習

An AI Dungeon Master's Guide: Learning to Converse and Guide with Intents and Theory-of-Mind in Dungeons and Dragons ( http://arxiv.org/abs/2212.10060v1 )

ライセンス: Link先を確認
Pei Zhou, Andrew Zhu, Jennifer Hu, Jay Pujara, Xiang Ren, Chris Callison-Burch, Yejin Choi, Prithviraj Ammanabrolu(参考訳) 本稿では,G4C(Goal-driven Guidance Generation in Grounded Communication)という新たなタスクを提案する。 具体的には、ダンジョンズ&ドラゴンズ(d&d) — 複数のプレイヤーキャラクターとダンジョンマスター(dm)で構成されるロールプレイングゲームで、プレイヤーにとって有益な一連のゴールを達成するために協力します。 ここで、各プレイヤーキャラクターは生徒であり、自分達のパーソナラと能力を持ち、dmは教師であり、世界のルールの仲裁役であり、学生を世界的な目標に向けて支援し指導する役割を担っている。 本稿では,強化学習(RL)を用いたDM学習手法を提案する。(1)D&D対話文のデータセットを用いて,プレイヤーが発話に対してどのように反応するかを予測し,(2)これらの発話が目的に向かっていかに効果的であるかをフィードバックする報奨関数として用いる。 人的および自動化された評価により、プレイヤーの理論を取り入れることで、rlで訓練されたdmは、共有世界におけるゴールを達成するためのプレイヤーの能力を大幅に向上させる。

We propose a novel task, G4C (Goal-driven Guidance Generation in Grounded Communication), for studying goal-driven and grounded natural language interactions. Specifically, we choose Dungeons and Dragons (D&D) -- a role-playing game consisting of multiple player characters and a Dungeon Master (DM) who collaborate to achieve a set of goals that are beneficial to the players -- as a testbed for this task. Here, each of the player characters is a student, with their own personas and abilities, and the DM is the teacher, an arbitrator of the rules of the world and responsible for assisting and guiding the students towards a global goal. We propose a theory-of-mind-inspired methodology for training such a DM with reinforcement learning (RL), where a DM: (1) learns to predict how the players will react to its utterances using a dataset of D&D dialogue transcripts; and (2) uses this prediction as a reward function providing feedback on how effective these utterances are at guiding the players towards a goal. Human and automated evaluations show that a DM trained with RL to generate guidance by incorporating a theory-of-mind of the players significantly improves the players' ability to achieve goals grounded in their shared world.
翻訳日:2022-12-21 13:51:58 公開日:2022-12-20
# DOC:詳細なアウトライン制御による長いストーリーコヒーレンスの改善

DOC: Improving Long Story Coherence With Detailed Outline Control ( http://arxiv.org/abs/2212.10077v1 )

ライセンス: Link先を確認
Kevin Yang, Dan Klein, Nanyun Peng, Yuandong Tian(参考訳) 複数単語のストーリーを自動的に生成する際の長距離プロットコヒーレンスを改善するための詳細アウトライン制御(DOC)フレームワークを提案する。 DOCは2つの補完的なコンポーネントで構成されている。 詳細アウトラインは、より詳細で階層的に構造化されたアウトラインを作成し、クリエイティブな負担をメインのドラフト手順から計画段階に移行する。 詳細コントローラは、アウトラインの詳細に合わせてストーリーの節を制御することで、生成中もより詳細なアウトラインが尊重されるようにします。 自動生成ストーリーの人間による評価では、DOCはプロットコヒーレンス(22.5%の絶対ゲイン)、アウトライン関連(28.2%)、面白さ(20.7%)で強いRe3ベースライン(Yang et al., 2022)を大幅に上回る。 人間はまた、DOCは対話的な世代設定においてはるかに制御可能であると判断した。

We propose the Detailed Outline Control (DOC) framework for improving long-range plot coherence when automatically generating several-thousand-word-long stories. DOC consists of two complementary components: a detailed outliner and a detailed controller. The detailed outliner creates a more detailed, hierarchically structured outline, shifting creative burden from the main drafting procedure to the planning stage. The detailed controller ensures the more detailed outline is still respected during generation by controlling story passages to align with outline details. In human evaluations of automatically generated stories, DOC substantially outperforms a strong Re3 baseline (Yang et al., 2022) on plot coherence (22.5% absolute gain), outline relevance (28.2%), and interestingness (20.7%). Humans also judged DOC to be much more controllable in an interactive generation setting.
翻訳日:2022-12-21 13:51:33 公開日:2022-12-20
# 私には答える知識がありますか。 知識ベース質問の解答可能性の検討

Do I have the Knowledge to Answer? Investigating Answerability of Knowledge Base Questions ( http://arxiv.org/abs/2212.10189v1 )

ライセンス: Link先を確認
Mayur Patidar, Avinash Singh, Prayushi Faldu, Lovekesh Vig, Indrajit Bhattacharya, Mausam(参考訳) 知識ベース(kbs)上の自然言語質問に答えると、kbの不完全性は自然に多くの疑問を解き放たれる。 他のQA設定では応答性について検討されているが、知識ベース(KBQA)に関するQAについては研究されていない。 まず、KB不完全性の様々な形態を同定し、疑問は解決不可能となる。 次に、新しいベンチマークデータセットであるGrailQAbilityを提案し、これらの不完全性問題をすべて表現するために、GrailQA(人気のあるKBQAデータセット)を体系的に修正する。 2つの最先端KBQAモデル(オリジナルのGrailQAと私たちのGrailQAbilityでトレーニングされている)をテストすると、どちらのモデルも解決不可能な質問を検出したり、間違った理由で検出するのに苦労していることがわかった。 その結果、どちらのモデルも性能が著しく低下し、KBQAシステムを解答不能に堅牢にするためのさらなる研究の必要性が浮き彫りになった。

When answering natural language questions over knowledge bases (KBs), incompleteness in the KB can naturally lead to many questions being unanswerable. While answerability has been explored in other QA settings, it has not been studied for QA over knowledge bases (KBQA). We first identify various forms of KB incompleteness that can result in a question being unanswerable. We then propose GrailQAbility, a new benchmark dataset, which systematically modifies GrailQA (a popular KBQA dataset) to represent all these incompleteness issues. Testing two state-of-the-art KBQA models (trained on original GrailQA as well as our GrailQAbility), we find that both models struggle to detect unanswerable questions, or sometimes detect them for the wrong reasons. Consequently, both models suffer significant loss in performance, underscoring the need for further research in making KBQA systems robust to unanswerability.
翻訳日:2022-12-21 13:51:14 公開日:2022-12-20
# 機械翻訳指標の極値評価

Extrinsic Evaluation of Machine Translation Metrics ( http://arxiv.org/abs/2212.10297v1 )

ライセンス: Link先を確認
Nikita Moghe and Tom Sherborne and Mark Steedman and Alexandra Birch(参考訳) 自動機械翻訳(MT)メトリクスは比較的大規模なテストセット(システムレベルの評価)間で機械翻訳システムの翻訳品質を区別するために広く用いられている。 しかし、良い翻訳と悪い翻訳を区別するのに、自動的な指標が信頼できるかは定かではない(セグメンテーションレベルの評価)。 本稿では,下流タスクを伴う大規模プラットフォームに配置した場合,機械翻訳コンポーネントの成功を検出する上で,MTメトリクスがいかに有用かを検討する。 我々は,3つの下流言語タスク(対話状態追跡,質問応答,意味解析)において,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。 各タスクに対して、モノリンガルなタスク固有のモデルのみにアクセスできます。 我々は,翻訳テストの最終作業において,良い/悪い翻訳を予測できるメトリックの能力と成功/失敗の相関を計算した。 実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。 また、ニューラルメトリックによって提供されるスコアは、主に未定義の範囲のため解釈できないことも判明した。 分析の結果,将来のMTメトリクスはスコアではなくエラーラベルを生成するように設計され,外部評価を容易にすることが示唆された。

Automatic machine translation (MT) metrics are widely used to distinguish the translation qualities of machine translation systems across relatively large test sets (system-level evaluation). However, it is unclear if automatic metrics are reliable at distinguishing good translations from bad translations at the sentence level (segment-level evaluation). In this paper, we investigate how useful MT metrics are at detecting the success of a machine translation component when placed in a larger platform with a downstream task. We evaluate the segment-level performance of the most widely used MT metrics (chrF, COMET, BERTScore, etc.) on three downstream cross-lingual tasks (dialogue state tracking, question answering, and semantic parsing). For each task, we only have access to a monolingual task-specific model. We calculate the correlation between the metric's ability to predict a good/bad translation with the success/failure on the final task for the Translate-Test setup. Our experiments demonstrate that all metrics exhibit negligible correlation with the extrinsic evaluation of the downstream outcomes. We also find that the scores provided by neural metrics are not interpretable mostly because of undefined ranges. Our analysis suggests that future MT metrics be designed to produce error labels rather than scores to facilitate extrinsic evaluation.
翻訳日:2022-12-21 13:50:59 公開日:2022-12-20
# 自己適応型インコンテキスト学習

Self-adaptive In-context Learning ( http://arxiv.org/abs/2212.10375v1 )

ライセンス: Link先を確認
Zhiyong Wu, Yaoxiang Wang, Jiacheng Ye, Lingpeng Kong(参考訳) In-context Learning (ICL) の驚くべき数ショットのパフォーマンスにもかかわらず、サンプルをランダムにサンプルしてコンテキストとして扱うのが一般的である。 本稿では,iclの新しい原則である自己適応型インコンテキスト学習を提唱する。 自己適応機構を導入し、各サンプルが正しい予測を導出し、性能を最大化する、コンテキスト内サンプル置換(選択と順序付け)を見つけるのを助ける。 自己適応型ICLの有効性を検証するため,汎用の選択列フレームワークを提案し,新しい選択とランク付けアルゴリズムでインスタンス化する。 8つの異なるnlpデータセットを広範囲に評価した結果,自己適応型icl法は,一般的な実践環境に比べて40%の相対的改善を達成している。 さらなる分析により、より高度なアルゴリズムによってICLと微調整のギャップを埋めることのできる自己適応型ICLの巨大な可能性を明らかにしている。 私たちのコードは、この分野における将来の研究を促進するためにリリースされた。

Despite the surprising few-shot performance of in-context learning (ICL), it is still a common practice to randomly sample examples to serve as context. This paper advocates a new principle for ICL: self-adaptive in-context learning. The self-adaption mechanism is introduced to help each sample find an in-context example permutation (i.e., selection and ordering) that can derive the correct prediction, thus maximizing performance. To validate the effectiveness of self-adaptive ICL, we propose a general select-then-rank framework and instantiate it with new selection and ranking algorithms. Upon extensive evaluation on eight different NLP datasets, our self-adaptive ICL method achieves a 40% relative improvement over the common practice setting. Further analysis reveals the enormous potential of self-adaptive ICL that it might be able to close the gap between ICL and finetuning given more advanced algorithms. Our code is released to facilitate future research in this area: https://github.com/Shark-NLP/self-adaptive-ICL
翻訳日:2022-12-21 13:50:37 公開日:2022-12-20
# 実世界の実践のための個人再識別データセットとアプローチのベンチマーク

Benchmarking person re-identification datasets and approaches for practical real-world implementations ( http://arxiv.org/abs/2212.09981v1 )

ライセンス: Link先を確認
Jose Huaman, Felix O. Sumari, Luigy Machaca, Esteban Clua and Joris Guerin(参考訳) 近年,Person Re-Identification (Re-ID) が注目されている。 様々な個体のラベル付き画像を含む大規模なデータセットがリリースされ、研究者は多数の成功したアプローチを開発し、テストすることができる。 しかし、そのようなRe-IDモデルが新しい都市や環境に配備されると、セキュリティカメラネットワーク内の人物を探すタスクは重要なドメインシフトに直面し、パフォーマンスが低下する可能性がある。 実際、ほとんどの公共データセットは限られた地理的領域で収集されたが、新しい都市のイメージには異なる特徴がある(例えば、人々の民族や服装、天候、建築など)。 さらに、ビデオストリーム全体のフレームは、歩行者検出モデルを使用して、訓練に使用するデータセットを作成する人間のアノテータとは異なる振る舞いをする人々の収穫画像に変換する必要がある。 この問題の範囲をより深く理解するために,本論文では,ライブ運用における教師なしデプロイメントの適性に関して,Re-IDアプローチとトレーニングデータセットを評価するための完全な方法論を提案する。 この方法は、3つのデータセットに対して4つのRe-IDアプローチをベンチマークするために使用され、将来のRe-IDパイプラインの設計に役立つ洞察とガイドラインを提供する。

Recently, Person Re-Identification (Re-ID) has received a lot of attention. Large datasets containing labeled images of various individuals have been released, allowing researchers to develop and test many successful approaches. However, when such Re-ID models are deployed in new cities or environments, the task of searching for people within a network of security cameras is likely to face an important domain shift, thus resulting in decreased performance. Indeed, while most public datasets were collected in a limited geographic area, images from a new city present different features (e.g., people's ethnicity and clothing style, weather, architecture, etc.). In addition, the whole frames of the video streams must be converted into cropped images of people using pedestrian detection models, which behave differently from the human annotators who created the dataset used for training. To better understand the extent of this issue, this paper introduces a complete methodology to evaluate Re-ID approaches and training datasets with respect to their suitability for unsupervised deployment for live operations. This method is used to benchmark four Re-ID approaches on three datasets, providing insight and guidelines that can help to design better Re-ID pipelines in the future.
翻訳日:2022-12-21 13:44:18 公開日:2022-12-20
# ディープニューラルネットワークは2年生よりスマートか?

Are Deep Neural Networks SMARTer than Second Graders? ( http://arxiv.org/abs/2212.09993v1 )

ライセンス: Link先を確認
Anoop Cherian, Kuan-Chuan Peng, Suhas Lohit, Kevin Smith, Joshua B. Tenenbaum(参考訳) 最近では、高度な認知能力を必要とする課題(例えば、囲い込み、アートの生成、質問応答(チャットgptなど))を解決するためのディープニューラルネットワークの応用が増えている。 幅広いスキルを必要とする問題を解決する上で、ニューラルネットワークはどの程度一般化可能か? この質問に答えるために、ニューラルネットワークの抽象化、推論、一般化能力を評価するための、単純なマルチモーダルアルゴリズム推論タスクと関連するsmart-101データセットを提案する。 私たちのデータセットは101の独特なパズルで構成されており、それぞれのパズルは絵と質問で構成されており、それらの解には算術、代数、空間的推論などいくつかの基本的なスキルが必要です。 深層ニューラルネットワークのトレーニングに向けてデータセットをスケールするために、ソリューションアルゴリズムを維持しながら、プログラムによってパズル毎に完全に新しいインスタンスを生成します。 SMART-101データセットのパフォーマンスをベンチマークするために、様々な最先端のバックボーンニューラルネットワークを用いたビジョンと言語メタラーニングモデルを提案する。 実験の結果,強力な深層モデルは,学習したパズルに対して適切な性能を与えるが,一般化のために解析すると,ランダムな精度よりも優れていることがわかった。 また、最近のChatGPT大言語モデルをデータセットのサブセットで評価した結果、ChatGPTは有意義な推論能力を生み出すが、答えはしばしば誤りであることがわかった。

Recent times have witnessed an increasing number of applications of deep neural networks towards solving tasks that require superior cognitive abilities, e.g., playing Go, generating art, question answering (such as ChatGPT), etc. Such a dramatic progress raises the question: how generalizable are neural networks in solving problems that demand broad skills? To answer this question, we propose SMART: a Simple Multimodal Algorithmic Reasoning Task and the associated SMART-101 dataset, for evaluating the abstraction, deduction, and generalization abilities of neural networks in solving visuo-linguistic puzzles designed specifically for children in the 6-8 age group. Our dataset consists of 101 unique puzzles; each puzzle comprises a picture and a question, and their solution needs a mix of several elementary skills, including arithmetic, algebra, and spatial reasoning, among others. To scale our dataset towards training deep neural networks, we programmatically generate entirely new instances for each puzzle while retaining their solution algorithm. To benchmark the performance on the SMART-101 dataset, we propose a vision and language meta-learning model using varied state-of-the-art backbone neural networks. Our experiments reveal that while powerful deep models offer reasonable performances on puzzles that they are trained on, they are not better than random accuracy when analyzed for generalization. We also evaluate the recent ChatGPT large language model on a subset of our dataset and find that while ChatGPT produces convincing reasoning abilities, the answers are often incorrect.
翻訳日:2022-12-21 13:43:58 公開日:2022-12-20
# 再同定のための合成データの適用性について

On the Applicability of Synthetic Data for Re-Identification ( http://arxiv.org/abs/2212.10105v1 )

ライセンス: Link先を確認
J\'er\^ome Rutinowski, Bhargav Vankayalapati, Nils Schwenzfeier, Maribel Acosta, Christopher Reining(参考訳) このコントリビューションは、EPALパレットブロックの画像にGAN(Generative Adversarial Networks)を適用することで、再識別のコンテキストにおけるデータセットの強化を実現する可能性を示している。 再同定手法の多くの産業応用において、十分な量のデータセットは非作業環境では達成できない。 先行記録されたデータセットの一部として記録された回転したパレットブロックの画像に基づいて、最先端のganアーキテクチャ、すなわちサイクガンを用いて、視覚中心パレットブロックの画像から、左辺に回転したパレットブロックの画像を生成する。 このプロセスでは, パレットブロック表面構造の独特のチップウッドパターンが維持され, パレットブロック自体の向きが変化した。 これにより、通常のデータ拡張とは異なる方法で、再識別テストとトレーニング目的のための合成データを生成する。 合計1,004個のパレットブロックの画像が生成された。 生成した画像の品質は、元の画像で訓練された視点分類器を用いて測定され、合成画像に適用され、2つの画像セット間の精度を比較した。 分類精度は原画像では98%,合成画像では92%であった。 さらに、生成した画像は、合成画像に基づいて元の画像を再識別するために、再識別タスクにも使用された。 このシナリオの精度は、合成画像では最大88%、原画像では96%であった。 この評価により、生成されたパレットブロック画像が元の画像と密接に類似しているか否かを判定する。

This contribution demonstrates the feasibility of applying Generative Adversarial Networks (GANs) on images of EPAL pallet blocks for dataset enhancement in the context of re-identification. For many industrial applications of re-identification methods, datasets of sufficient volume would otherwise be unattainable in non-laboratory settings. Using a state-of-the-art GAN architecture, namely CycleGAN, images of pallet blocks rotated to their left-hand side were generated from images of visually centered pallet blocks, based on images of rotated pallet blocks that were recorded as part of a previously recorded and published dataset. In this process, the unique chipwood pattern of the pallet block surface structure was retained, only changing the orientation of the pallet block itself. By doing so, synthetic data for re-identification testing and training purposes was generated, in a manner that is distinct from ordinary data augmentation. In total, 1,004 new images of pallet blocks were generated. The quality of the generated images was gauged using a perspective classifier that was trained on the original images and then applied to the synthetic ones, comparing the accuracy between the two sets of images. The classification accuracy was 98% for the original images and 92% for the synthetic images. In addition, the generated images were also used in a re-identification task, in order to re-identify original images based on synthetic ones. The accuracy in this scenario was up to 88% for synthetic images, compared to 96% for original images. Through this evaluation, it is established, whether or not a generated pallet block image closely resembles its original counterpart.
翻訳日:2022-12-21 13:43:32 公開日:2022-12-20
# 流通一般化のための多種多様なリサイクルモデル

Recycling diverse models for out-of-distribution generalization ( http://arxiv.org/abs/2212.10445v1 )

ライセンス: Link先を確認
Alexandre Ram\'e, Kartik Ahuja, Jianyu Zhang, Matthieu Cord, L\'eon Bottou, David Lopez-Paz(参考訳) ファンデーションモデルは、AIシステムの構築方法を再定義している。 ファウンデーションモデルのコピーをダウンロードし、ターゲットとするタスクに関する社内データを使用して微調整する。 その結果、インターネットは、様々なタスクを微調整したいくつかの基礎モデルによって群がっている。 しかし、これら個々の微調整は強い一般化を欠くことが多く、互いに利益を得ずに孤立して存在する。 当社の意見では、これらの特殊なモデルにはさまざまな機能が含まれているため、これは欠落した機会である。 この知見に基づいて,同一基礎モデルの複数の微調整を多種多様な補助的タスクに活用し,対象タスクの多種多様な初期化として再利用する簡易な手法であるモデルリサイクルを提案する。 具体的には、モデルリサイクリング ターゲットタスクのそれぞれの特殊モデルに並行して微調整を行い、その後、すべてのターゲットの微調整の重みを最終モデルに平均する。 実証的に, モデルリサイクルは多様な補助タスクの恩恵を受け, モデルの多様性を最大化することを示し, 分散一般化のためのリファレンス・ドメインベッド・ベンチマークで新たな技術を実現する。 今後、モデルのリサイクルは、オープンソースのソフトウェア開発と同様に、機械学習モデルの段階的かつ確実な更新に協力する、アップダブル機械学習の新たなパラダイムへの貢献となる。

Foundation models are redefining how AI systems are built. Practitioners now follow a standard procedure to build their machine learning solutions: download a copy of a foundation model, and fine-tune it using some in-house data about the target task of interest. Consequently, the Internet is swarmed by a handful of foundation models fine-tuned on many diverse tasks. Yet, these individual fine-tunings often lack strong generalization and exist in isolation without benefiting from each other. In our opinion, this is a missed opportunity, as these specialized models contain diverse features. Based on this insight, we propose model recycling, a simple strategy that leverages multiple fine-tunings of the same foundation model on diverse auxiliary tasks, and repurposes them as rich and diverse initializations for the target task. Specifically, model recycling fine-tunes in parallel each specialized model on the target task, and then averages the weights of all target fine-tunings into a final model. Empirically, we show that model recycling maximizes model diversity by benefiting from diverse auxiliary tasks, and achieves a new state of the art on the reference DomainBed benchmark for out-of-distribution generalization. Looking forward, model recycling is a contribution to the emerging paradigm of updatable machine learning where, akin to open-source software development, the community collaborates to incrementally and reliably update machine learning models.
翻訳日:2022-12-21 13:43:08 公開日:2022-12-20
# rangeaugment: レンジ学習による効率的なオンライン拡張

RangeAugment: Efficient Online Augmentation with Range Learning ( http://arxiv.org/abs/2212.10553v1 )

ライセンス: Link先を確認
Sachin Mehta and Saeid Naderiparizi and Fartash Faghri and Maxwell Horton and Lailin Chen and Ali Farhadi and Oncel Tuzel and Mohammad Rastegari(参考訳) 視覚認識タスクのための最先端の自動拡張方法(AutoAugmentやRandAugmentなど)は、大規模な拡張操作を使用してトレーニングデータを多様化する。 多くの拡張演算(例えば、明るさとコントラスト)の大きさの範囲は連続である。 したがって、探索を計算可能なものにするために、これらの手法は各操作に対して固定的かつ手動で等級範囲を使用する。 本研究では,各拡張操作における大きさ範囲の重要性に関するオープンな疑問に答えるために,個別の大きさ範囲と複合拡張操作を効率的に学習できるRangeAugmentを紹介した。 RangeAugmentは、画像類似性に基づく補助的損失を、拡張操作のスケール範囲を制御する手段として利用する。 その結果、rangeaugmentは検索、画像類似性のための単一のスカラーパラメータを持ち、単に線形探索によって最適化する。 RangeAugmentは任意のモデルとシームレスに統合され、モデルとタスク固有の拡張ポリシーを学ぶ。 異なるネットワークにまたがるImageNetデータセットに関する広範な実験により、RangeAugmentは4~5倍のオーグメンテーション演算で最先端の自動拡張手法と競合する性能を発揮することを示した。 セマンティックセグメンテーション、オブジェクト検出、基礎モデル、知識蒸留の実験結果は、さらにRangeAugmentの有効性を示している。

State-of-the-art automatic augmentation methods (e.g., AutoAugment and RandAugment) for visual recognition tasks diversify training data using a large set of augmentation operations. The range of magnitudes of many augmentation operations (e.g., brightness and contrast) is continuous. Therefore, to make search computationally tractable, these methods use fixed and manually-defined magnitude ranges for each operation, which may lead to sub-optimal policies. To answer the open question on the importance of magnitude ranges for each augmentation operation, we introduce RangeAugment that allows us to efficiently learn the range of magnitudes for individual as well as composite augmentation operations. RangeAugment uses an auxiliary loss based on image similarity as a measure to control the range of magnitudes of augmentation operations. As a result, RangeAugment has a single scalar parameter for search, image similarity, which we simply optimize via linear search. RangeAugment integrates seamlessly with any model and learns model- and task-specific augmentation policies. With extensive experiments on the ImageNet dataset across different networks, we show that RangeAugment achieves competitive performance to state-of-the-art automatic augmentation methods with 4-5 times fewer augmentation operations. Experimental results on semantic segmentation, object detection, foundation models, and knowledge distillation further shows RangeAugment's effectiveness.
翻訳日:2022-12-21 13:42:45 公開日:2022-12-20
# 協調型自己複製装置による組織ネットワークの構築

Constructing Organism Networks from Collaborative Self-Replicators ( http://arxiv.org/abs/2212.10078v1 )

ライセンス: Link先を確認
Steffen Illium, Maximilian Zorn, Cristian Lenta, Michael K\"olle, Claudia Linnhoff-Popien, Thomas Gabor(参考訳) 我々は、単一ニューラルネットワークのように機能するが、複数の神経粒子ネットワークから構成される有機ネットワークを紹介し、各粒子ネットワークは、有機ネットワーク内での単一重み適用の役割を果たす一方で、自身の重みを自己複製する訓練も行っている。 生物ネットワークは、単純なアーキテクチャよりもはるかに多くのパラメータを特徴付けるため、算術的なタスクや単純化されたMNISTデータセット分類を集合として行う。 我々は,個々の粒子ネットワークがいずれかのタスクを専門とする傾向にあり,二次タスクに完全に特化されたタスクは,プライマリタスクの計算精度を損なうことなくネットワークから落としてもよいことを観察する。 これはスパースニューラルネットワークのための新しいプルーニング戦略の発見につながる

We introduce organism networks, which function like a single neural network but are composed of several neural particle networks; while each particle network fulfils the role of a single weight application within the organism network, it is also trained to self-replicate its own weights. As organism networks feature vastly more parameters than simpler architectures, we perform our initial experiments on an arithmetic task as well as on simplified MNIST-dataset classification as a collective. We observe that individual particle networks tend to specialise in either of the tasks and that the ones fully specialised in the secondary task may be dropped from the network without hindering the computational accuracy of the primary task. This leads to the discovery of a novel pruning-strategy for sparse neural networks
翻訳日:2022-12-21 13:42:23 公開日:2022-12-20
# NusaCrowd: インドネシアのNLPリソースのためのオープンソースイニシアティブ

NusaCrowd: Open Source Initiative for Indonesian NLP Resources ( http://arxiv.org/abs/2212.09648v2 )

ライセンス: Link先を確認
Samuel Cahyawijaya, Holy Lovenia, Alham Fikri Aji, Genta Indra Winata, Bryan Wilie, Rahmad Mahendra, Christian Wibisono, Ade Romadhony, Karissa Vincentio, Fajri Koto, Jennifer Santoso, David Moeljadi, Cahya Wirawan, Frederikus Hudi, Ivan Halim Parmonangan, Ika Alfina, Muhammad Satrio Wicaksono, Ilham Firdausi Putra, Samsul Rahmadani, Yulianti Oenang, Ali Akbar Septiandri, James Jaya, Kaustubh D. Dhole, Arie Ardiyanti Suryani, Rifki Afina Putri, Dan Su, Keith Stevens, Made Nindyatama Nityasya, Muhammad Farid Adilazuarda, Ryan Ignatius, Ryandito Diandaru, Tiezheng Yu, Vito Ghifari, Wenliang Dai, Yan Xu, Dyah Damapuspita, Cuk Tho, Ichwanul Muslim Karo Karo, Tirana Noor Fatyanosa, Ziwei Ji, Pascale Fung, Graham Neubig, Timothy Baldwin, Sebastian Ruder, Herry Sujaini, Sakriani Sakti, Ayu Purwarianti(参考訳) 我々は,インドネシア語の既存リソースの収集と統合を目的とした共同イニシアティブであるnusacrowdを提案する。 このイニシアティブを通じて、私たちは137のデータセットと117の標準化データローダをまとめました。 データセットの品質は手動および自動で評価され、その効果は複数の実験で実証されている。 nusacrowdのデータ収集は、インドネシアとそのローカル言語における自然言語理解と生成のための最初のゼロショットベンチマークの作成を可能にする。 さらに、NusaCrowdはインドネシアとその地域言語で最初の多言語自動音声認識ベンチマークを作成する。 本研究は,低表現言語における自然言語処理研究の推進を支援することを目的としている。

We present NusaCrowd, a collaborative initiative to collect and unite existing resources for Indonesian languages, including opening access to previously non-public resources. Through this initiative, we have has brought together 137 datasets and 117 standardized data loaders. The quality of the datasets has been assessed manually and automatically, and their effectiveness has been demonstrated in multiple experiments. NusaCrowd's data collection enables the creation of the first zero-shot benchmarks for natural language understanding and generation in Indonesian and its local languages. Furthermore, NusaCrowd brings the creation of the first multilingual automatic speech recognition benchmark in Indonesian and its local languages. Our work is intended to help advance natural language processing research in under-represented languages.
翻訳日:2022-12-21 13:41:41 公開日:2022-12-20
# Future Sight: 大きな事前学習言語モデルによる動的ストーリー生成

Future Sight: Dynamic Story Generation with Large Pretrained Language Models ( http://arxiv.org/abs/2212.09947v1 )

ライセンス: Link先を確認
Brian D. Zimmerman, Gaurav Sahu, Olga Vechtomova(参考訳) トランスフォーマーなどのディープラーニング研究の最近の進歩は、自動エージェントが人間が書くものに似た創造的なテキストを生成する能力を強化している。 デフォルトでは、トランスフォーマーデコーダは以前に生成されたテキストに対してのみ新しいテキストを生成することができる。 任意の位置における候補トークンの出力分布は、自己回帰特性をエミュレートするセルフアテンション機構を用いて、予め選択されたトークンに条件付けされる。 これは本質的に、ストーリーを書く際に将来のプロットイベントを条件付ける必要のある制御可能なストーリー生成のようなタスクに制限される。 本研究では,前訓練された生成変圧器を将来のコンディショニングタスクで微調整する手法であるfuture sightを提案する。 トランスフォーマーデコーダは通常、自己注意によって、1回に1つのトークンであるコンテキストを完了させるタスクで事前訓練される。 Future Sightはまた、デコーダが符号化された将来のプロットイベントに参加することを可能にする。 これはデコーダが与えられた未来を論理的に結論づける方法でコンテキストを拡大する動機付けとなる。 推論中、将来のプロットイベントは人間の著者によって書かれ、ある方向に生成された物語を操縦することができる。 人的評価器を用いたストーリー生成作業におけるアプローチの有効性を評価する。

Recent advances in deep learning research, such as transformers, have bolstered the ability for automated agents to generate creative texts similar to those that a human would write. By default, transformer decoders can only generate new text with respect to previously generated text. The output distribution of candidate tokens at any position is conditioned on previously selected tokens using a self-attention mechanism to emulate the property of autoregression. This is inherently limiting for tasks such as controllable story generation where it may be necessary to condition on future plot events when writing a story. In this work, we propose Future Sight, a method for finetuning a pretrained generative transformer on the task of future conditioning. Transformer decoders are typically pretrained on the task of completing a context, one token at a time, by means of self-attention. Future Sight additionally enables a decoder to attend to an encoded future plot event. This motivates the decoder to expand on the context in a way that logically concludes with the provided future. During inference, the future plot event can be written by a human author to steer the narrative being generated in a certain direction. We evaluate the efficacy of our approach on a story generation task with human evaluators.
翻訳日:2022-12-21 13:36:05 公開日:2022-12-20
# 大規模言語モデルは教師に反する

Large Language Models Are Reasoning Teachers ( http://arxiv.org/abs/2212.10071v1 )

ライセンス: Link先を確認
Namgyu Ho, Laura Schmid, and Se-Young Yun(参考訳) 言語モデル(LM)は、インコンテキストの例証や人間の指示を用いて、下流のタスクで顕著なパフォーマンスを示した。 近年の研究では、チェーン・オブ・シント(CoT)が複雑な推論タスクを段階的に解くためにモデルを引き出すことが示されている。 しかしながら、プロンプトベースのCoT法の有効性は、GPT-3 (175B) のような非常に大きなLMに制限されるため、デプロイ性が制限される。 本稿では,特定のタスクを効率的に実行するために最適化された,より小さなLMにおける複雑な推論を可能にするための微調整手法を再検討する。 本研究では、非常に大きなLMの能力を利用して推論サンプルを生成し、より小さなモデルを微調整で教えるファインチューンCoTを提案する。 本手法は,多種多様な複雑なタスクとモデルサイズで利用可能なLMに対して評価する。 また,Fin-Tune-CoTは小型モデルでかなりの推理能力を実現するが,従来のプロンプトベースラインではほぼランダムな性能を示した。 生徒のモデルは、モデルのサイズ要件を数桁減らしながら、いくつかのタスクで教師を上回ることさえできる。 学生モデルの推論能力を理解するために,広範なアブレーションやサンプル研究を実施している。 また、CoTの微調整作業で見過ごされてきたいくつかの重要なニュアンスを特定し、分析でそれらに対処する。

Language models (LMs) have demonstrated remarkable performance on downstream tasks, using in-context exemplars or human instructions. Recent works have shown that chain-of-thought (CoT) prompting can elicit models to solve complex reasoning tasks, step-by-step. However, the efficacy of prompt-based CoT methods is restricted to very large LMs such as GPT-3 (175B), thus limiting deployability. In this paper, we revisit the fine-tuning approach to enable complex reasoning in smaller LMs, optimized to efficiently perform a specific task. We propose Fine-tune-CoT, a method that leverages the capabilities of very large LMs to generate reasoning samples and teach smaller models via fine-tuning. We evaluate our method on publicly available LMs across a wide range of complex tasks and model sizes. We find that Fine-tune-CoT enables substantial reasoning capability in small models, whereas previous prompt-based baselines exhibit near-random performance. Student models can even outperform the teacher in some tasks while reducing model size requirements by several orders of magnitude. We conduct extensive ablations and sample studies to understand the reasoning capabilities of student models. We also identify several important nuances that have been overlooked in concurrent fine-tuning works on CoT and address them in our analysis.
翻訳日:2022-12-21 13:35:46 公開日:2022-12-20
# 自然言語処理のための人間誘導公正分類

Human-Guided Fair Classification for Natural Language Processing ( http://arxiv.org/abs/2212.10154v1 )

ライセンス: Link先を確認
Florian E.Dorner, Momchil Peychev, Nikola Konstantinov, Naman Goel, Elliott Ash, Martin Vechev(参考訳) テキスト分類器は、履歴表示やコンテンツモデレーションなどの高精細なタスクに有望な応用がある。 これらの分類は公平であり、性別や民族などのセンシティブな属性の摂動に不変であることによって差別的決定を避ける必要がある。 しかし、これらの摂動に関する人間の直感と、それらを捉える形式的な類似性仕様との間にはギャップがある。 既存の研究はこのギャップに対処し始めたが、現在の手法はハードコードされた単語置換に基づいており、結果として表現力に制限がある仕様や人間の直観(例えば非対称な反事実)と完全に一致しない仕様が導かれる。 本研究は,表現的かつ直感的な個性仕様を発見することによって,このギャップを埋める新しい手法を提案する。 我々は、教師なしスタイル転送とGPT-3のゼロショット機能を利用して、意味論的に類似した文の表現的候補ペアを自動的に生成する方法を示す。 次に, 有毒性分類の文脈における公正性に関する人間の直観と一致することを確認する, クラウドソーシングによる広範囲な研究により, 生成したペアを検証する。 最後に、下流のフェアネス認識モデルのトレーニングに使用できる類似性仕様を学習するために、人間のフィードバックがいかに限られた量で活用できるかを示す。

Text classifiers have promising applications in high-stake tasks such as resume screening and content moderation. These classifiers must be fair and avoid discriminatory decisions by being invariant to perturbations of sensitive attributes such as gender or ethnicity. However, there is a gap between human intuition about these perturbations and the formal similarity specifications capturing them. While existing research has started to address this gap, current methods are based on hardcoded word replacements, resulting in specifications with limited expressivity or ones that fail to fully align with human intuition (e.g., in cases of asymmetric counterfactuals). This work proposes novel methods for bridging this gap by discovering expressive and intuitive individual fairness specifications. We show how to leverage unsupervised style transfer and GPT-3's zero-shot capabilities to automatically generate expressive candidate pairs of semantically similar sentences that differ along sensitive attributes. We then validate the generated pairs via an extensive crowdsourcing study, which confirms that a lot of these pairs align with human intuition about fairness in the context of toxicity classification. Finally, we show how limited amounts of human feedback can be leveraged to learn a similarity specification that can be used to train downstream fairness-aware models.
翻訳日:2022-12-21 13:35:22 公開日:2022-12-20
# トランスフォーマーに基づくバイオメディカル言語モデルのドメイン内適応

Localising In-Domain Adaptation of Transformer-Based Biomedical Language Models ( http://arxiv.org/abs/2212.10422v1 )

ライセンス: Link先を確認
Tommaso Mario Buonocore (1), Claudio Crema (2), Enea Parimbelli (1), Alberto Redolfi (2), Riccardo Bellazzi (1) ((1) Dept. of Electrical, Computer and Biomedical Engineering, University of Pavia, (2) Laboratory of Neuroinformatics, IRCCS Istituto Centro San Giovanni di Dio Fatebenefratelli)(参考訳) デジタル医療の時代には、病院で毎日生成される膨大なテキスト情報は、タスク固有の、微調整されたバイオメディカル言語表現モデル、患者のケアと管理の改善で活用できる、必須だが未使用の資産である。 このような特殊なドメインに対しては、広範囲のチェックポイントから派生した微調整モデルが、大規模なドメイン内リソースに対する追加のトレーニングラウンドに大きく貢献することを示した。 しかし、これらのリソースはイタリア語のような低リソース言語には到達できないことが多く、地元の医療機関がドメイン内適応を採用するのを妨げている。 このギャップを減らすために,我々の研究は,英語以外の言語で生物医学的言語モデルを導出するための2つのアプローチについて検討した。1つは,英語リソースのニューラルネットワーク翻訳に基づく,品質よりも量を重視する,もう1つは,イタリア語でネイティブに,高品質で狭スコープのコーパスに基づく,量よりも品質を優先する,という,具体的なユースケースである。 本研究は, 生物医学的適応のためのデータ品質よりもデータ量に厳しい制約があることを示すが, 高品質なデータの結合は, 比較的サイズが制限されたコーパスを扱う場合でも, モデル性能を向上させることができる。 我々の調査から得られたモデルは、イタリアの病院やアカデミアにとって重要な研究機会を開放する可能性がある。 最後に、この研究から学んだ一連の教訓は、他の低リソース言語や異なるドメイン設定に一般化可能なバイオメディカル言語モデルを構築するためのソリューションに対する貴重な洞察を構成する。

In the era of digital healthcare, the huge volumes of textual information generated every day in hospitals constitute an essential but underused asset that could be exploited with task-specific, fine-tuned biomedical language representation models, improving patient care and management. For such specialized domains, previous research has shown that fine-tuning models stemming from broad-coverage checkpoints can largely benefit additional training rounds over large-scale in-domain resources. However, these resources are often unreachable for less-resourced languages like Italian, preventing local medical institutions to employ in-domain adaptation. In order to reduce this gap, our work investigates two accessible approaches to derive biomedical language models in languages other than English, taking Italian as a concrete use-case: one based on neural machine translation of English resources, favoring quantity over quality; the other based on a high-grade, narrow-scoped corpus natively in Italian, thus preferring quality over quantity. Our study shows that data quantity is a harder constraint than data quality for biomedical adaptation, but the concatenation of high-quality data can improve model performance even when dealing with relatively size-limited corpora. The models published from our investigations have the potential to unlock important research opportunities for Italian hospitals and academia. Finally, the set of lessons learned from the study constitutes valuable insights towards a solution to build biomedical language models that are generalizable to other less-resourced languages and different domain settings.
翻訳日:2022-12-21 13:35:00 公開日:2022-12-20
# 信頼できない言語モデル:パラメトリックおよび非パラメトリック記憶の有効性と限界を探る

When Not to Trust Language Models: Investigating Effectiveness and Limitations of Parametric and Non-Parametric Memories ( http://arxiv.org/abs/2212.10511v1 )

ライセンス: Link先を確認
Alex Mallen, Akari Asai, Victor Zhong, Rajarshi Das, Hannaneh Hajishirzi, Daniel Khashabi(参考訳) 大きな言語モデル(LM)は、多種多様なタスクにおける印象的なパフォーマンスにもかかわらず、豊かな世界の知識を必要とするタスクに苦戦し、豊富な世界の知識を符号化するためにパラメータのみに依存するという制限を暗示している。 本稿では,10モデルと4つの拡張手法を用いた大規模知識探索実験をPopQA上で実施することにより,事実知識の記憶におけるLMの強みと限界を理解することを目的とする。 LMは、あまり一般的でない事実知識に苦しむが、スケーリングは、事実知識のテールでの記憶を確実に改善することができない。 そして, 検索拡張されたLMは, 大容量のLMよりもはるかに優れており, 高人気エンティティに関する問題では, LMの非支援が競争力を維持していることを示す。 これらの結果に基づき,非パラメトリック記憶を必要時にのみ検索できる,強力かつ効率的な検索型lms法を考案した。 実験結果から,モデルの性能が大幅に向上し,推論コストが低減された。

Despite their impressive performance on diverse tasks, large language models (LMs) still struggle with tasks requiring rich world knowledge, implying the limitations of relying solely on their parameters to encode a wealth of world knowledge. This paper aims to understand LMs' strengths and limitations in memorizing factual knowledge, by conducting large-scale knowledge probing experiments of 10 models and 4 augmentation methods on PopQA, our new open-domain QA dataset with 14k questions. We find that LMs struggle with less popular factual knowledge, and that scaling fails to appreciably improve memorization of factual knowledge in the tail. We then show that retrieval-augmented LMs largely outperform orders of magnitude larger LMs, while unassisted LMs remain competitive in questions about high-popularity entities. Based on those findings, we devise a simple, yet effective, method for powerful and efficient retrieval-augmented LMs, which retrieves non-parametric memories only when necessary. Experimental results show that this significantly improves models' performance while reducing the inference costs.
翻訳日:2022-12-21 13:34:33 公開日:2022-12-20
# PairReranker: 自然言語生成のためのペアワイドリグレード

PairReranker: Pairwise Reranking for Natural Language Generation ( http://arxiv.org/abs/2212.10555v1 )

ライセンス: Link先を確認
Dongfu Jiang, Bill Yuchen Lin, Xiang Ren(参考訳) 事前訓練された言語モデルは自然言語生成(NLG)タスクで成功している。 様々な復号法が用いられているが、しばしば準最適結果を生成する。 まず, 要約, 機械翻訳, 制約付きテキスト生成という3つの NLG タスクの実証分析を行った。 複数の復号法の結果から最高の出力を選択すると性能が大幅に向上することがわかった。 nlgタスクの再ランク付けをさらに改善するために,1つのエンコーダとペアワイズ損失関数を用いて,ソース入力と2つの候補を共同でエンコードし比較する,新しい方法である \textsc{pairreranker} を提案する。 3つのnlgタスクの実験により、以前のベースラインと比較して強い結果を示した \textsc{pairreranker} の有効性と柔軟性が示された。 さらに、我々の \textsc{PairReranker} は GPT-3 (text-davinci-003) の結果(CommonGen では 24.55 %、WMT18 zh-en では 11.35 %)を大幅に改善するために一般化できる。

Pre-trained language models have been successful in natural language generation (NLG) tasks. While various decoding methods have been employed, they often produce suboptimal results. We first present an empirical analysis of three NLG tasks: summarization, machine translation, and constrained text generation. We found that selecting the best output from the results of multiple decoding methods can significantly improve performance. To further improve reranking for NLG tasks, we proposed a novel method, \textsc{PairReranker}, which uses a single encoder and a pairwise loss function to jointly encode a source input and a pair of candidates and compare them. Experiments on three NLG tasks demonstrated the effectiveness and flexibility of \textsc{PairReranker}, showing strong results, compared with previous baselines. In addition, our \textsc{PairReranker} can generalize to significantly improve GPT-3 (text-davinci-003) results (e.g., 24.55\% on CommonGen and 11.35\% on WMT18 zh-en), even though our rerankers are not trained with any GPT-3 candidates.
翻訳日:2022-12-21 13:34:14 公開日:2022-12-20
# Parsel: アルゴリズム推論のための統一自然言語フレームワーク

Parsel: A Unified Natural Language Framework for Algorithmic Reasoning ( http://arxiv.org/abs/2212.10561v1 )

ライセンス: Link先を確認
Eric Zelikman, Qian Huang, Gabriel Poesia, Noah D. Goodman, Nick Haber(参考訳) 近年のLLM推論の成功にもかかわらず、LLMは複雑なプログラムを生成するような階層的な多段階推論に苦戦している。 このような場合、人間は高レベルなアルゴリズム設計から始めて、各部分を徐々に実装する。 本稿では,自然言語の階層関数記述に基づいて,複雑なアルゴリズムをLLMで自動実装し,検証するフレームワークParselを紹介する。 parselは、コード合成、定理証明、ロボット計画など、階層的な推論を必要とする領域で使用できる。 我々は、Parselの機能を使って、1つの記述から現在実装できない複雑なプログラムを生成し、APPSデータセットでPythonプログラムをバック翻訳する。 モデリング機能以外にも、Parselは高レベルのアルゴリズム設計による問題解決を可能にし、学生とプロのプログラマの両方に利益をもたらす。

Despite recent success in large language model (LLM) reasoning, LLMs still struggle with hierarchical multi-step reasoning like generating complex programs. In these cases, humans often start with a high-level algorithmic design and implement each part gradually. We introduce Parsel, a framework enabling automatic implementation and validation of complex algorithms with code LLMs, based on hierarchical function descriptions in natural language. Parsel can be used across domains requiring hierarchical reasoning, e.g. code synthesis, theorem proving, and robotic planning. We demonstrate Parsel's capabilities by using it to generate complex programs that cannot currently be automatically implemented from one description and backtranslating Python programs in the APPS dataset. Beyond modeling capabilities, Parsel allows problem-solving with high-level algorithmic designs, benefiting both students and professional programmers.
翻訳日:2022-12-21 13:33:53 公開日:2022-12-20
# 教師なし文法誘導には画素が必要か?

Does unsupervised grammar induction need pixels? ( http://arxiv.org/abs/2212.10564v1 )

ライセンス: Link先を確認
Boyi Li and Rodolfo Corona and Karttikeya Mangalam and Catherine Chen and Daniel Flaherty and Serge Belongie and Kilian Q. Weinberger and Jitendra Malik and Trevor Darrell and Dan Klein(参考訳) 画像画素などの言語外信号は構成文法の誘導に不可欠か? 過去の研究はマルチモーダルな手がかりからかなりの利益を得ているが、そのような成果が大規模言語モデル(LLM)からの豊富な情報の存在に持続するかどうかを考察する。 LLMに基づくC-PCFG (LC-PCFG) は、教師なし選挙区解析のタスクにおいて従来のマルチモーダル手法よりも優れ、様々なデータセット上で最先端の性能を達成する。 さらに、LC-PCFGはパラメータ数を50%以上削減し、画像支援モデルでは1.7倍、ビデオ支援モデルでは5倍以上のトレーニング時間を高速化する。 これらの結果は、教師なし文法誘導には画像画素などの外部言語信号が必要であるという考えに挑戦し、タスクに対するマルチモーダル性の必要性を評価する上で、テキストのみのベースラインの改善の必要性を指摘する。

Are extralinguistic signals such as image pixels crucial for inducing constituency grammars? While past work has shown substantial gains from multimodal cues, we investigate whether such gains persist in the presence of rich information from large language models (LLMs). We find that our approach, LLM-based C-PCFG (LC-PCFG), outperforms previous multi-modal methods on the task of unsupervised constituency parsing, achieving state-of-the-art performance on a variety of datasets. Moreover, LC-PCFG results in an over 50% reduction in parameter count, and speedups in training time of 1.7x for image-aided models and more than 5x for video-aided models, respectively. These results challenge the notion that extralinguistic signals such as image pixels are needed for unsupervised grammar induction, and point to the need for better text-only baselines in evaluating the need of multi-modality for the task.
翻訳日:2022-12-21 13:33:39 公開日:2022-12-20
# 視覚言語関係アライメントのためのクロスモーダル注意調整

Cross-modal Attention Congruence Regularization for Vision-Language Relation Alignment ( http://arxiv.org/abs/2212.10549v1 )

ライセンス: Link先を確認
Rohan Pandey, Rulin Shao, Paul Pu Liang, Ruslan Salakhutdinov, Louis-Philippe Morency(参考訳) マルチモーダル視覚言語モデルのスケールアップに向けた最近の進歩にもかかわらず、これらのモデルはWinogroundのような合成一般化ベンチマークに苦戦していることが知られている。 現在の視覚言語モデルに欠けている重要な要素は、テキスト(例えば「草の中のマグ」)の方向的意味関係と画像中の空間的関係(例えば、草の相対的なマグの位置)とを一致させる能力である関係レベルアライメントである。 この問題に対処するために,モーグから「グラス」への指示言語注意(意味的関係「イン」をキャプチャする)をモッグから草への指示視覚的注意に合わせることで,関係アライメントが実施可能であることを示す。 相互注意を用いて、トークンとその対応するオブジェクトをソフトに識別する。 我々は,このソフトリレーションアライメントの概念が,モーダル・アテンション・マトリクスによって提供される「ベースの変化」の下で,視覚と言語注意行列の一致を強制することと同値であることを示す。 直感的には、我々のアプローチは言語注意空間への視覚的注意を投影し、実際の言語注意からの分岐を計算し、その逆も計算する。 UNITERにCACR(Cross-modal Attention Congruence Regularization)の損失を適用し,Winogroundに対する最先端アプローチを改善した。

Despite recent progress towards scaling up multimodal vision-language models, these models are still known to struggle on compositional generalization benchmarks such as Winoground. We find that a critical component lacking from current vision-language models is relation-level alignment: the ability to match directional semantic relations in text (e.g., "mug in grass") with spatial relationships in the image (e.g., the position of the mug relative to the grass). To tackle this problem, we show that relation alignment can be enforced by encouraging the directed language attention from 'mug' to 'grass' (capturing the semantic relation 'in') to match the directed visual attention from the mug to the grass. Tokens and their corresponding objects are softly identified using the cross-modal attention. We prove that this notion of soft relation alignment is equivalent to enforcing congruence between vision and language attention matrices under a 'change of basis' provided by the cross-modal attention matrix. Intuitively, our approach projects visual attention into the language attention space to calculate its divergence from the actual language attention, and vice versa. We apply our Cross-modal Attention Congruence Regularization (CACR) loss to UNITER and improve on the state-of-the-art approach to Winoground.
翻訳日:2022-12-21 13:33:22 公開日:2022-12-20
# 数学的推論のための深層学習に関する調査

A Survey of Deep Learning for Mathematical Reasoning ( http://arxiv.org/abs/2212.10535v1 )

ライセンス: Link先を確認
Pan Lu, Liang Qiu, Wenhao Yu, Sean Welleck, Kai-Wei Chang(参考訳) 数学的推論は人間の知能の基本的な側面であり、科学、工学、金融、日常生活など様々な分野に適用できる。 数学の問題を解き、定理を証明できる人工知能(AI)システムの開発は、機械学習や自然言語処理の分野で大きな関心を集めている。 例えば、数学は強力なディープラーニングモデルに挑戦する推論の側面のテストベッドとして機能し、新しいアルゴリズムとモデリングの進歩を駆動する。 一方で、大規模ニューラルネットワークモデルの最近の進歩は、数学的推論にディープラーニングを使用するための新しいベンチマークと機会を開放している。 本稿では,過去10年間の数学的推論と深層学習の交わりにおける重要な課題,データセット,方法について概説する。 また,既存のベンチマークや手法についても検討し,今後の研究の方向性について考察する。

Mathematical reasoning is a fundamental aspect of human intelligence and is applicable in various fields, including science, engineering, finance, and everyday life. The development of artificial intelligence (AI) systems capable of solving math problems and proving theorems has garnered significant interest in the fields of machine learning and natural language processing. For example, mathematics serves as a testbed for aspects of reasoning that are challenging for powerful deep learning models, driving new algorithmic and modeling advances. On the other hand, recent advances in large-scale neural language models have opened up new benchmarks and opportunities to use deep learning for mathematical reasoning. In this survey paper, we review the key tasks, datasets, and methods at the intersection of mathematical reasoning and deep learning over the past decade. We also evaluate existing benchmarks and methods, and discuss future research directions in this domain.
翻訳日:2022-12-21 13:25:42 公開日:2022-12-20
# テキスト対画像生成における空間関係のベンチマーク

Benchmarking Spatial Relationships in Text-to-Image Generation ( http://arxiv.org/abs/2212.10015v1 )

ライセンス: Link先を確認
Tejas Gokhale, Hamid Palangi, Besmira Nushi, Vibhav Vineet, Eric Horvitz, Ece Kamar, Chitta Baral, Yezhou Yang(参考訳) 空間的理解はコンピュータビジョンの基本的な側面であり、画像に関する人間レベルの推論に不可欠なものであり、基底言語理解にとって重要な要素である。 最近の大規模テキストから画像への合成(t2i)モデルは、前例のないフォトリアリズムの改善を示しているが、それらが信頼できる空間理解能力を持っているかどうかは不明である。 本稿では,オブジェクト間の空間関係を正確に生成するT2Iモデルと,画像中のテキストに記述された空間関係がどの程度正確に生成されるかを評価する評価指標であるVISORについて述べる。 既存のモデルをベンチマークするために,2つのオブジェクトを記述する文とそれらの間の空間的関係を含む大規模チャレンジデータセットSR2Dを導入する。 我々は,物体とその空間的関係を認識するためにコンピュータビジョンを利用する自動評価パイプラインを構築し,T2Iモデルの大規模評価に活用する。 実験の結果,最新のT2Iモデルでは画像品質が高いが,複数のオブジェクトを生成する能力や,左/右/上/下のような特定の空間関係が著しく制限されていることがわかった。 本研究は,t2iモデルのバイアスやアーチファクトとして,複数のオブジェクトの生成の難しさ,最初のオブジェクトを生成するためのバイアス,等価な関係に対する空間的不整合アウトプット,オブジェクト共起性と空間理解能力の相関などを示す。 空間的理解に関する人間の判断とVISORの整合性を示す人間の研究を行う。 我々は,T2I空間推論研究を支援するために,SR2DデータセットとVISORメトリクスをコミュニティに提供する。

Spatial understanding is a fundamental aspect of computer vision and integral for human-level reasoning about images, making it an important component for grounded language understanding. While recent large-scale text-to-image synthesis (T2I) models have shown unprecedented improvements in photorealism, it is unclear whether they have reliable spatial understanding capabilities. We investigate the ability of T2I models to generate correct spatial relationships among objects and present VISOR, an evaluation metric that captures how accurately the spatial relationship described in text is generated in the image. To benchmark existing models, we introduce a large-scale challenge dataset SR2D that contains sentences describing two objects and the spatial relationship between them. We construct and harness an automated evaluation pipeline that employs computer vision to recognize objects and their spatial relationships, and we employ it in a large-scale evaluation of T2I models. Our experiments reveal a surprising finding that, although recent state-of-the-art T2I models exhibit high image quality, they are severely limited in their ability to generate multiple objects or the specified spatial relations such as left/right/above/below. Our analyses demonstrate several biases and artifacts of T2I models such as the difficulty with generating multiple objects, a bias towards generating the first object mentioned, spatially inconsistent outputs for equivalent relationships, and a correlation between object co-occurrence and spatial understanding capabilities. We conduct a human study that shows the alignment between VISOR and human judgment about spatial understanding. We offer the SR2D dataset and the VISOR metric to the community in support of T2I spatial reasoning research.
翻訳日:2022-12-21 13:25:31 公開日:2022-12-20
# DePlot:プロットからテーブルへの変換によるワンショット視覚言語推論

DePlot: One-shot visual language reasoning by plot-to-table translation ( http://arxiv.org/abs/2212.10505v1 )

ライセンス: Link先を確認
Fangyu Liu, Julian Martin Eisenschlos, Francesco Piccinno, Syrine Krichene, Chenxi Pang, Kenton Lee, Mandar Joshi, Wenhu Chen, Nigel Collier, Yasemin Altun(参考訳) チャートやプロットのような視覚言語は、人間の世界で広く使われている。 プロットやチャートの理解には強力な推論スキルが必要です。 事前のstate-of-the-art(sota)モデルは、少なくとも数万のトレーニング例を必要とし、その推論能力はまだ限られている。 本稿では,ビジュアル言語推論に対する最初のワンショットソリューションを提案する。 視覚言語推論の課題を,(1)プロットからテキストへの翻訳,(2)翻訳テキスト上での推論という2つのステップに分解する。 この方法のキーはデプロット(deplot)と呼ばれるモダリティ変換モジュールで、プロットやチャートの画像を線形化されたテーブルに変換する。 DePlotの出力は、LLMの少数ショット推論機能を利用して、事前訓練された大規模言語モデル(LLM)を直接的に使用することができる。 デプロットを得るために、統一されたタスクフォーマットとメトリクスを確立し、このタスクをエンド・ツー・エンドにトレーニングすることでプロット・トゥ・テーブルタスクを標準化する。 次にDePlotは、LLMとともに、プラグアンドプレイ方式でオフザシェルフで使用することができる。 28k以上のデータポイントで微調整されたSOTAモデルと比較して、1ショットプロンプトのみのDePlot+LLMは、チャートQAのタスクから人書きクエリで微調整されたSOTAよりも24.0%改善されている。

Visual language such as charts and plots is ubiquitous in the human world. Comprehending plots and charts requires strong reasoning skills. Prior state-of-the-art (SOTA) models require at least tens of thousands of training examples and their reasoning capabilities are still much limited, especially on complex human-written queries. This paper presents the first one-shot solution to visual language reasoning. We decompose the challenge of visual language reasoning into two steps: (1) plot-to-text translation, and (2) reasoning over the translated text. The key in this method is a modality conversion module, named as DePlot, which translates the image of a plot or chart to a linearized table. The output of DePlot can then be directly used to prompt a pretrained large language model (LLM), exploiting the few-shot reasoning capabilities of LLMs. To obtain DePlot, we standardize the plot-to-table task by establishing unified task formats and metrics, and train DePlot end-to-end on this task. DePlot can then be used off-the-shelf together with LLMs in a plug-and-play fashion. Compared with a SOTA model finetuned on more than >28k data points, DePlot+LLM with just one-shot prompting achieves a 24.0% improvement over finetuned SOTA on human-written queries from the task of chart QA.
翻訳日:2022-12-21 13:25:02 公開日:2022-12-20
# CLIP Bind の概念は? 大規模画像モデルにおける構成性の探索

Does CLIP Bind Concepts? Probing Compositionality in Large Image Models ( http://arxiv.org/abs/2212.10537v1 )

ライセンス: Link先を確認
Martha Lewis, Qinan Yu, Jack Merullo, Ellie Pavlick(参考訳) 近年,テキストと画像を組み合わせた大規模モデルが飛躍的な進歩を遂げている。 しかし、複数の形状の図から赤いキューブを正しく選択するなど、構成知識を必要とするタスクでは失敗する可能性がある。 合成知識を必要とする画像のキャプションにおけるCLIP(Radford et al., 2021)の有用性を検討した。 5種類の合成言語モデルを実装し,CLIPが使用する可能性のある構造を探索し,これらのモデルをトレーニングするための新しいトレーニングアルゴリズムであるComposeal Skipgram for Images (CoSI)を開発した。 属性ベースのタスクでは、属性とオブジェクト("赤い立方体"のような)の特定の組み合わせの識別が必要であり、関係性の設定では、2つの形(例えば"球の背後にあるキューブ")間の空間的関係を識別する必要がある。 ある条件下では、CLIPは属性オブジェクトのラベルを学習し、未知の属性オブジェクトの組み合わせに一般化することができる。 しかし、CLIPが機能同士を確実に結合できないという証拠もある。 さらに、クリップはオブジェクト間の関係を確実に学習することができないが、一部の合成モデルはそれらを完璧に学習することができる。 私たちが開発した5つのモデルのうち、見当たらない関係に一般化することはできなかった。

Large-scale models combining text and images have made incredible progress in recent years. However, they can still fail at tasks requiring compositional knowledge, such as correctly picking out a red cube from a picture of multiple shapes. We examine the ability of CLIP (Radford et al., 2021), to caption images requiring compositional knowledge. We implement five compositional language models to probe the kinds of structure that CLIP may be using, and develop a novel training algorithm, Compositional Skipgram for Images (CoSI), to train these models. We look at performance in attribute-based tasks, requiring the identification of a particular combination of attribute and object (such as "red cube"), and in relational settings, where the spatial relation between two shapes (such as "cube behind sphere") must be identified. We find that in some conditions, CLIP is able to learn attribute-object labellings, and to generalize to unseen attribute-object combinations. However, we also see evidence that CLIP is not able to bind features together reliably. Moreover, CLIP is not able to reliably learn relations between objects, whereas some compositional models are able to learn these perfectly. Of the five models we developed, none were able to generalize to unseen relations.
翻訳日:2022-12-21 13:24:36 公開日:2022-12-20