このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240226となっている論文です。

PDF登録状況(公開日: 20240226)

TitleAuthorsAbstract論文公表日・翻訳日
# 獣医学におけるチャットGPT : 臨床・教育・研究における生成人工知能の実践的指導

ChatGPT in Veterinary Medicine: A Practical Guidance of Generative Artificial Intelligence in Clinics, Education, and Research ( http://arxiv.org/abs/2403.14654v1 )

ライセンス: Link先を確認
Candice P. Chu, (参考訳) 最もアクセスしやすい生成人工知能(AI)ツールであるChatGPTは、獣医学にかなりの可能性を秘めている。 本総説は, 獣医学の臨床, 教育, 研究領域におけるChatGPTの最近の研究と実用化を簡潔にまとめたものである。 プログラミングのバックグラウンドを持たない獣医が生成AIを直接利用する方法について、具体的なガイダンスと実行可能な例を提供することを目的としている。 ChatGPTは、患者データを抽出し、進捗ノートを生成し、複雑な症例の診断を支援する。 獣医教育者は生徒支援のために独自のGPTを作成することができ、学生は試験の準備にChatGPTを利用することができる。 ChatGPTは学術的な執筆作業を支援することができるが、獣医出版社は著者が従うための特定の要件を設定している。 変化の可能性にもかかわらず、幻覚のような落とし穴を避けるためには注意深い使用が不可欠である。 このレビューは倫理的考察に対処し、学習資源を提供し、責任ある実装をガイドするための具体的な例を提供する。 大きな言語モデルをホストするプラットフォームへの、慎重に選択された最新のリンクは、プログラミング能力のある先進的な読者に提供される。 このレビューを要約するために、重要な内容の表が提供された。 潜在的な利益と限界を強調することで、このレビューは獣医、教育者、研究者にChatGPTの力を効果的に活用させる。

ChatGPT, the most accessible generative artificial intelligence (AI) tool, offers considerable potential for veterinary medicine, yet a dedicated review of its specific applications is lacking. This review concisely synthesizes the latest research and practical applications of ChatGPT within the clinical, educational, and research domains of veterinary medicine. It intends to provide specific guidance and actionable examples of how generative AI can be directly utilized by veterinary professionals without a programming background. For practitioners, ChatGPT can extract patient data, generate progress notes, and potentially assist in diagnosing complex cases. Veterinary educators can create custom GPTs for student support, while students can utilize ChatGPT for exam preparation. ChatGPT can aid in academic writing tasks in research, but veterinary publishers have set specific requirements for authors to follow. Despite its transformative potential, careful use is essential to avoid pitfalls like hallucination. This review addresses ethical considerations, provides learning resources, and offers tangible examples to guide responsible implementation. Carefully selected, up-to-date links to platforms that host large language models are provided for advanced readers with programming capability. A table of key takeaways was provided to summarize this review. By highlighting potential benefits and limitations, this review equips veterinarians, educators, and researchers to harness the power of ChatGPT effectively.
翻訳日:2024-04-01 03:43:10 公開日:2024-02-26
# 変量推定のための量子サブルーチン:アルゴリズム設計とその応用

Quantum Subroutine for Variance Estimation: Algorithmic Design and Applications ( http://arxiv.org/abs/2403.14655v1 )

ライセンス: Link先を確認
Anna Bernasconi, Alessandro Berti, Gianna M. Del Corso, Riccardo Guidotti, Alessandro Poggiali, (参考訳) 量子コンピューティングは、量子力学によって継承された特異な性質のおかげで、アルゴリズムを設計する新しい方法の基礎となる。 この新たなパラダイムの探索は、どのフィールド量子スピードアップを達成できるかという新たな課題に直面している。 解を見つけるために、従来のものよりも効率的である量子サブルーチンの設計を探すと、新しい強力な量子アルゴリズムに固体の柱が現れる。 ここでは、様々な分野のアプリケーション、特に人工知能(AI)にまたがる有用性を持つ分散の計算である接地サブルーチンを探索する。 実際、これらのビルディングブロックの量子対の発見は、この計量を利用するアルゴリズムに垂直に影響を及ぼす。 本研究では,量子サブルーチンであるQVARを提案し,回路の深さと幅の両方において対数複雑性を示す分散を計算する。 新たな量子アルゴリズムのサブルーチンとしてQVARを使用するというビジョンにより、AI領域の2つのタスクに対処する。 特に、QVARを利用する2つのAIハイブリッド量子アルゴリズム:Hybrid Quantum Feature Selection (HQFS)アルゴリズムとQuantum Outlier Detection Algorithm (QODA)を紹介した。 本稿では,QVAR,HQFS,QODAの実装について述べるとともに,それらの正確さと複雑さを提供し,これらのハイブリッド量子アルゴリズムの有効性を示す。

Quantum computing sets the foundation for new ways of designing algorithms, thanks to the peculiar properties inherited by quantum mechanics. The exploration of this new paradigm faces new challenges concerning which field quantum speedup can be achieved. Towards finding solutions, looking for the design of quantum subroutines that are more efficient than their classical counterpart poses solid pillars to new powerful quantum algorithms. Herewith, we delve into a grounding subroutine, the computation of the variance, whose usefulness spaces across different fields of application, particularly the Artificial Intelligence (AI) one. Indeed, the finding of the quantum counterpart of these building blocks impacts vertically those algorithms that leverage this metric. In this work, we propose QVAR, a quantum subroutine, to compute the variance that exhibits a logarithmic complexity both in the circuit depth and width, excluding the state preparation cost. With the vision of showing the use of QVAR as a subroutine for new quantum algorithms, we tackle two tasks from the AI domain: Feature Selection and Outlier Detection. In particular, we showcase two AI hybrid quantum algorithms that leverage QVAR: the Hybrid Quantum Feature Selection (HQFS) algorithm and the Quantum Outlier Detection Algorithm (QODA). In this manuscript, we describe the implementation of QVAR, HQFS, and QODA, providing their correctness and complexities and showing the effectiveness of these hybrid quantum algorithms with respect to their classical counterpart.
翻訳日:2024-04-01 03:43:10 公開日:2024-02-26
# ゲージ理論の量子シミュレータの安定化と1/fのノイズ対策

Stabilizing Quantum Simulators Of Gauge Theories Against $1/f$ Noise ( http://arxiv.org/abs/2403.14656v1 )

ライセンス: Link先を確認
Bhavik Kumar, (参考訳) この研究は、光学格子の超低温原子、リドベルク原子、超伝導量子ビットなどの様々な合成量子物質プラットフォームを用いた、進行中の「第2」量子革命における量子シミュレーションの適用について検討し、高度な精度と制御でエキゾチック凝縮物質や粒子物理現象を実現する。 ゲージ理論は、低エネルギーテーブルトップデバイスに高エネルギー物理学の新しいプローブを提供するため、現代の量子シミュレーターに特に関心がある。 しかし、量子シミュレータ上でゲージ理論の現象を正確にモデル化するには、基礎となるゲージ対称性の安定化が不可欠である。 この論文を通じて、線形ゲージ保護に基づく最近開発された実験的に実現可能なスキームが、当初はコヒーレントゲージ破壊誤差から保護するために考案されたものであり、様々な量子シミュレーションプラットフォームで顕著な1/f^{\beta}$ノイズに起因する不整合誤差を抑えるためにも使用できることを示した。 ブロッホ・レッドフィールド形式は、環境の騒音パワースペクトルを考えると、これらの不整合誤差によって生じるゲージ違反をモデル化するために導入された。 量子シミュレータにおけるゲージ理論の正則性安定化における線形ゲージ保護の有効性について, 乱れのない局所化に着目した平衡現象から遠ざかるゲージ不変性やエキゾチック性, および1/f^{\beta}$ノイズ源に対する量子多体傷について述べる。 これらの結果は、現代のアナログ量子シミュレータやデジタルNISQデバイスですぐに適用でき、格子ゲージ理論の量子シミュレーションの分野におけるさらなる発展の道を開くことができる。

This work investigates the application of quantum simulation in the ongoing "second" quantum revolution, which employs various synthetic quantum matter platforms, such as ultracold atoms in optical lattices, Rydberg atoms, and superconducting qubits, to realize exotic condensed matter and particle physics phenomena with high precision and control. Gauge theories are of particular interest in modern quantum simulators as they offer a new probe of high-energy physics on low-energy tabletop devices. However, to accurately model gauge-theory phenomena on a quantum simulator, stabilizing the underlying gauge symmetry is crucial. Through this thesis we demonstrate that a recently developed experimentally feasible scheme based on linear gauge protection, initially devised to protect against coherent gauge breaking errors, can also be used to suppress incoherent errors arising from $1/f^{\beta}$ noise prominent in various quantum simulation platforms. The Bloch-Redfield formalism is introduced to model gauge violations arising due to these incoherent errors given the noise power spectrum of the environment. The efficacy of linear gauge protection in stabilizing salient features of gauge theories in quantum simulators, such as gauge invariance and exotic far from equilibrium phenomenon focusing on disorder-free localization, and quantum many-body scars against $1/f^{\beta}$ noise sources, is illustrated. These results are immediately applicable in modern analog quantum simulators and digital NISQ devices, paving the way for further development in the field of quantum simulation of lattice gauge theories.
翻訳日:2024-04-01 03:43:10 公開日:2024-02-26
# アクセスパターンのハイディングは十分ではない! Veil: ストレージと通信効率のよいボリュームハイディングアルゴリズム

Hiding Access-pattern is Not Enough! Veil: A Storage and Communication Efficient Volume-Hiding Algorithm ( http://arxiv.org/abs/2310.12491v2 )

ライセンス: Link先を確認
Shanshan Han, Vishal Chakraborty, Michael Goodrich, Sharad Mehrotra, Shantanu Sharma, (参考訳) 本稿では、暗号化キー値(KV)データセットでキーワードクエリを処理する際に、ボリュームリーク(すなわち、応答セット内のレコード数のリーク)に対処する。 ボリュームリークは、データ分散や/または以前に実行されたクエリに関する事前の知識と相まって、暗号文と現在のユーザクエリの両方を明らかにすることができる。 我々は、キーを一組の等サイズのバケツにランダムにマッピングすることでデータセットを分割するVeilというボリュームリークを防止するソリューションを開発した。 Veilは、データ所有者がストレージと通信オーバーヘッドの間のトレードオフを調査するための調整可能なメカニズムを提供する。 バケツを敵と区別できないものにするために、Veilは、バケットの重複を可能にする新しいパディング戦略を使用して、フェイクレコードを追加する必要を減らした。 理論的および実験的な結果は、ヴェイユが既存の最先端技術を大きく上回っていることを示している。

This paper addresses volume leakage (i.e., leakage of the number of records in the answer set) when processing keyword queries in encrypted key-value (KV) datasets. Volume leakage, coupled with prior knowledge about data distribution and/or previously executed queries, can reveal both ciphertexts and current user queries. We develop a solution to prevent volume leakage, entitled Veil, that partitions the dataset by randomly mapping keys to a set of equi-sized buckets. Veil provides a tunable mechanism for data owners to explore a trade-off between storage and communication overheads. To make buckets indistinguishable to the adversary, Veil uses a novel padding strategy that allow buckets to overlap, reducing the need to add fake records. Both theoretical and experimental results show Veil to significantly outperform existing state-of-the-art.
翻訳日:2024-03-19 02:03:55 公開日:2024-02-26
# トライアド:信頼できない環境でのタイムスタンプ

Triad: Trusted Timestamps in Untrusted Environments ( http://arxiv.org/abs/2311.06156v2 )

ライセンス: Link先を確認
Gabriel P. Fernandez, Andrey Brito, Christof Fetzer, (参考訳) 我々は,ハードウェアインフラストラクチャプロバイダを含む潜在的な敵を収容可能な環境にデプロイされるアプリケーションやクラウドインフラストラクチャに対して,信頼性の高い時間計測メカニズムを提供することを目標としている。 信頼できる実行環境(TEE)は複数のセキュリティ機能を提供しているが、オペレーティングシステムのタイムスタンプはカバーされていない。 それにもかかわらず、一部のサービスでは、許可の検証やイベントの順序付けに時間を要する。 そのニーズに対処するために、タイムスタンプの信頼できるタイムスタンプディスパッチであるTriadを紹介します。 このソリューションは、相互にサポートされたエンクレーブベースのクロックサーバによって強制される信頼されたタイムスタンプを提供する。 強制エグジットやCPUベースのカウンタなどのエンクレーブ特性を利用して、サーバのタイムスタンプカウンタに対する攻撃を軽減します。 Triadは信頼され、秘密にされ、単調に増加するタイムスタンプを、有界なエラーと望ましい非自明な特性で生成する。 実装はIntel SGXとSCONEに依存しており、透過的な使用を可能にする。 我々はTriadの誤りと動作を複数次元で評価する。

We aim to provide trusted time measurement mechanisms to applications and cloud infrastructure deployed in environments that could harbor potential adversaries, including the hardware infrastructure provider. Despite Trusted Execution Environments (TEEs) providing multiple security functionalities, timestamps from the Operating System are not covered. Nevertheless, some services require time for validating permissions or ordering events. To address that need, we introduce Triad, a trusted timestamp dispatcher of time readings. The solution provides trusted timestamps enforced by mutually supportive enclave-based clock servers that create a continuous trusted timeline. We leverage enclave properties such as forced exits and CPU-based counters to mitigate attacks on the server's timestamp counters. Triad produces trusted, confidential, monotonically-increasing timestamps with bounded error and desirable, non-trivial properties. Our implementation relies on Intel SGX and SCONE, allowing transparent usage. We evaluate Triad's error and behavior in multiple dimensions.
翻訳日:2024-03-18 23:32:03 公開日:2024-02-26
# LWEのための代数アルゴリズムの複雑さ

The Complexity of Algebraic Algorithms for LWE ( http://arxiv.org/abs/2402.07852v2 )

ライセンス: Link先を確認
Matthias Johann Steiner, (参考訳) Arora & GeはLearning With Errors(LWE)インスタンスの秘密を線形化することで計算するノイズフリー多項式システムを導入した。 アルブレヒトらは後に、半正則性の仮定の下で、LWE多項式系のGr\"オブナー基底計算の複雑さを研究するために、Arora-Ge多項式モデルを利用した。 本稿ではArora-Ge多項式を再検討し、最近Caminata & Gorlaによって導入された一般性条件を満たすことを証明する。 一般座標における多項式系に対しては、常にカメルヌオボ・マンフォード正則性の観点からDRL Gr\"オブナー基底計算の複雑さを推定することができる。 さらに、Semaev & TentiのGr\"obner基底アルゴリズムを有限の正則性を持つ任意の多項式系に一般化する。 特に、このアルゴリズムの存在は、正規性の度合いの観点からDRL Gr\"オブナー基底計算の複雑さを推定する別のアプローチをもたらす。 実際には、LWE多項式系の正則性の度合いは知られていないが、常に最も低い到達可能な正則性の度合いを推定できる。 その結果、デザイナの最悪の場合から、このアプローチは一般、バイナリシークレット、バイナリエラーLWEの指数未満の複雑さの見積を導き出す。 Dachman-Soledらによる最近の研究で、サイド情報の存在下でのLWEの硬さについて分析した。 それらのフレームワークを利用することで、LWE多項式システムにヒントを組み込む方法や、Gr\"オブザーバ基底計算の複雑さにどのように影響するかについて議論する。

Arora & Ge introduced a noise-free polynomial system to compute the secret of a Learning With Errors (LWE) instance via linearization. Albrecht et al. later utilized the Arora-Ge polynomial model to study the complexity of Gr\"obner basis computations on LWE polynomial systems under the assumption of semi-regularity. In this paper we revisit the Arora-Ge polynomial and prove that it satisfies a genericity condition recently introduced by Caminata & Gorla, called being in generic coordinates. For polynomial systems in generic coordinates one can always estimate the complexity of DRL Gr\"obner basis computations in terms of the Castelnuovo-Mumford regularity and henceforth also via the Macaulay bound. Moreover, we generalize the Gr\"obner basis algorithm of Semaev & Tenti to arbitrary polynomial systems with a finite degree of regularity. In particular, existence of this algorithm yields another approach to estimate the complexity of DRL Gr\"obner basis computations in terms of the degree of regularity. In practice, the degree of regularity of LWE polynomial systems is not known, though one can always estimate the lowest achievable degree of regularity. Consequently, from a designer's worst case perspective this approach yields sub-exponential complexity estimates for general, binary secret and binary error LWE. In recent works by Dachman-Soled et al. the hardness of LWE in the presence of side information was analyzed. Utilizing their framework we discuss how hints can be incorporated into LWE polynomial systems and how they affect the complexity of Gr\"obner basis computations.
翻訳日:2024-03-18 07:28:31 公開日:2024-02-26
# カードによる品質関数のオーバーライトプロトコルとその応用

Card-Based Overwriting Protocol for Equality Function and Applications ( http://arxiv.org/abs/2402.16290v1 )

ライセンス: Link先を確認
Suthee Ruangwises, Tomoki Ono, Yoshiki Abe, Kyosuke Hatsugai, Mitsugu Iwamoto, (参考訳) 1989年、デン・ボーアは5枚のカードを使って論理的および関数を計算するプロトコルを提案した。 それ以来、この地域は多くの研究者から関心を集め、様々な機能を計算するためのカードベースのプロトコルが開発されている。 本稿では,$k$-candidate $n$-variable equality function $f: \{0,1,\ldots ,k-1\}^n \rightarrow \{0,1\}$を安全に計算できるオーバーライトプロトコルを提案する。 また、このプロトコルで使用される手法を他の類似関数の計算に適用する。

Research in the area of secure multi-party computation with an unconventional method of using a physical deck of playing cards began in 1989 when den Boar proposed a protocol to compute the logical AND function using five cards. Since then, the area has gained interest from many researchers and several card-based protocols to compute various functions have been developed. In this paper, we propose a card-based protocol called the overwriting protocol that can securely compute the $k$-candidate $n$-variable equality function $f: \{0,1,\ldots ,k-1\}^n \rightarrow \{0,1\}$. We also apply the technique used in this protocol to compute other similar functions.
翻訳日:2024-03-18 07:18:43 公開日:2024-02-26
# コミュニケーションの最適不均衡なプライベート・セット・ユニオン

Communication Optimal Unbalanced Private Set Union ( http://arxiv.org/abs/2402.16393v1 )

ライセンス: Link先を確認
Jean-Guillaume Dumas, Alexis Galan, Bruno Grenet, Aude Maignan, Daniel S. Roche, (参考訳) プライベート・セット・ユニオン(PSU)問題を考えると、2つのパーティがそれぞれプライベート・セットの要素を持ち、2つのセットのユニオンを学ぶために1つのパーティ(受信機)を欲しがる。 本プロトコルは,受信者の設定サイズが送信者の設定サイズよりも大きい不均衡ケースを対象としており,通信量とローカル計算時間の両方において送信者のコストを最小限に抑えることを目的としている。 この設定は、受信機が小型の低消費電力デバイスで実現される可能性のある送信機よりもはるかに多くのデータ(入力セットサイズ)と計算資源を持つアプリケーションによって動機付けられている。 漸近的に、送信側(より小さい)設定サイズで通信コストを線形にし、各設定サイズでほぼ直線的な送信側と受信側の計算コストを計算します。 我々の知る限り、この不均衡な環境でPSUのほぼ直線的な通信と計算を実現する最初のアルゴリズムである。 本プロトコルは, 完全同型暗号(FHE)と任意に線形同型暗号(LHE)を用いて, プライバシを保ちながら必要な計算を行う。 基礎となる計算は、ホモモルフィック暗号の中で実現された単変量多項式演算、すなわち高速乗算、モジュラーリダクション、マルチポイント評価に基づいている。 これらの漸近的に高速なHE多項式算術アルゴリズムは独立した興味を持つかもしれない。

We consider the private set union (PSU) problem, where two parties each hold a private set of elements, and they want one of the parties (the receiver) to learn the union of the two sets and nothing else. Our protocols are targeted for the unbalanced case where the receiver's set size is larger than the sender's set size, with the goal of minimizing the costs for the sender both in terms of communication volume and local computation time. This setting is motivated by applications where the receiver has significantly more data (input set size) and computational resources than the sender which might be realized on a small, low-power device. Asymptotically, we achieve communication cost linear in the sender's (smaller) set size, and computation costs for sender and receiver which are nearly-linear in their respective set sizes. To our knowledge, ours is the first algorithm to achieve nearly-linear communication and computation for PSU in this unbalanced setting. Our protocols utilize fully homomorphic encryption (FHE) and, optionally, linearly homomorphic encryption (LHE) to perform the necessary computations while preserving privacy. The underlying computations are based on univariate polynomial arithmetic realized within homomorphic encryption, namely fast multiplication, modular reduction, and multi-point evaluation. These asymptotically fast HE polynomial arithmetic algorithms may be of independent interest.
翻訳日:2024-03-18 07:18:43 公開日:2024-02-26
# マルチチェーンタップ根化原子スワップ:ゼロ知識証明による追跡不能性の導入

Multichain Taprootized Atomic Swaps: Introducing Untraceability through Zero-Knowledge Proofs ( http://arxiv.org/abs/2402.16735v1 )

ライセンス: Link先を確認
Oleksandr Kurbatov, Dmytro Zakharov, Anton Levochko, Kyrylo Riabov, Bohdan Skriabin, (参考訳) Taprootized Atomic Swapsは、特定のスワップにおけるトランザクションの追跡不能を可能にするAtomic Swapsの拡張である。 Schnorrシグネチャ、Taproot技術、ゼロ知識証明に基づいて、タップルート化されたアトミックスワップは、通常の支払い間のトランザクションを隠蔽する。 本稿では, シングルトランザクションプロトコル, 受信量を追跡不能な方法で分割するマルチトランザクションプロトコル, マルチチェーンスワッププロトコルを提案する。 提案手法は、スマートコントラクト互換チェーンと複数のTaproot互換チェーンで動作する。 本稿では,プロトコルの具体的な実装とソースコードの公開について述べる。

Taprootized Atomic Swaps is an extension for Atomic Swaps that enables the untraceability of transactions in a particular swap. Based on Schnorr signatures, Taproot technology, and zero-knowledge proofs, the taprootized atomic swaps hide swap transactions between regular payments. We propose several implementation options: single-transaction protocol, multiple-transaction protocol that splits the receiving amount in an untraceable way, and multichain swap protocol. Our proposed approach works with any smart-contract-compatible chain and multiple Taproot-compatible chains. We describe the concrete implementation of the protocol and release the source code publically.
翻訳日:2024-03-18 07:09:00 公開日:2024-02-26
# 侵入検知システムにおける深層学習アルゴリズム

Deep Learning Algorithms Used in Intrusion Detection Systems -- A Review ( http://arxiv.org/abs/2402.17020v1 )

ライセンス: Link先を確認
Richard Kimanzi, Peter Kimanga, Dedan Cherori, Patrick K. Gikunda, (参考訳) ネットワーク攻撃の増加は、リアルタイムに悪意のある活動を識別できる堅牢で効率的な侵入検知システム(IDS)の開発を必要としている。 過去5年間で、ディープラーニングアルゴリズムは、この領域で強力なツールとして登場し、従来の方法と比較して高度な検出機能を提供する。 本稿では、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、ディープリーフネットワーク(DBN)、ディープニューラルネットワーク(DNN)、Long Short-Term Memory(LSTM)、オートエンコーダ(AE)、Multi-Layer Perceptrons(MLP)、Self-Normalizing Networks(SNN)、ハイブリッドモデルなど、近年のディープラーニング技術の応用について述べる。 ネットワークトラフィック分析と異常検出に適した ユニークなアーキテクチャ、トレーニングモデル、分類方法を調べます さらに,進化する脅威に対する検出精度,計算効率,スケーラビリティ,適応性の観点から,各ディープラーニングアプローチの長所と短所を解析する。 さらに,深層学習型IDSの性能評価によく利用される顕著なデータセットとベンチマークフレームワークを強調した。 このレビューは、侵入検知を通じてネットワーク環境のセキュリティフレームワークを強化する最先端のディープラーニングアルゴリズムについて、研究者や業界の実践者に貴重な洞察を提供する。

The increase in network attacks has necessitated the development of robust and efficient intrusion detection systems (IDS) capable of identifying malicious activities in real-time. In the last five years, deep learning algorithms have emerged as powerful tools in this domain, offering enhanced detection capabilities compared to traditional methods. This review paper studies recent advancements in the application of deep learning techniques, including Convolutional Neural Networks (CNN), Recurrent Neural Networks (RNN), Deep Belief Networks (DBN), Deep Neural Networks (DNN), Long Short-Term Memory (LSTM), autoencoders (AE), Multi-Layer Perceptrons (MLP), Self-Normalizing Networks (SNN) and hybrid models, within network intrusion detection systems. we delve into the unique architectures, training models, and classification methodologies tailored for network traffic analysis and anomaly detection. Furthermore, we analyze the strengths and limitations of each deep learning approach in terms of detection accuracy, computational efficiency, scalability, and adaptability to evolving threats. Additionally, this paper highlights prominent datasets and benchmarking frameworks commonly utilized for evaluating the performance of deep learning-based IDS. This review will provide researchers and industry practitioners with valuable insights into the state-of-the-art deep learning algorithms for enhancing the security framework of network environments through intrusion detection.
翻訳日:2024-03-18 07:09:00 公開日:2024-02-26
# 社会志向:対話分析の新しい特徴

Social Orientation: A New Feature for Dialogue Analysis ( http://arxiv.org/abs/2403.04770v1 )

ライセンス: Link先を確認
Todd Morrill, Zhaoyuan Deng, Yanda Chen, Amith Ananthram, Colin Wayne Leach, Kathleen McKeown, (参考訳) 対話の成功や失敗を予測し、説明するのに有用な設定はたくさんあります。 心理学からの円積理論は、会話参加者の社会的指向(例えば、ウォーム・アグレアブル、アロガント・カルキュレーション)をモデル化し、社会的相互作用の結果を予測し説明するために使用することができる。 我々の研究は、会話の結果をモデル化するための社会的指向タグの体系的応用において新しいものである。 本稿では,ソーシャルオリエンテーションタグを付加した対話音声のデータセットを提案する。 ソーシャルオリエンテーションタグは、特に低リソース環境では、英語と中国語のベンチマークでタスクパフォーマンスを向上させる。 また、ニューラルモデルにおける社会的相互作用の結果を説明する上で、社会的指向タグがどのように役立つかを実証する。 対話結果予測タスクにおけるソーシャルオリエンテーションタグの有用性を示すこれらの結果に基づいて、対話発話におけるソーシャルオリエンテーションタグを予測するために微調整されたデータセット、コード、モデルをリリースする。

There are many settings where it is useful to predict and explain the success or failure of a dialogue. Circumplex theory from psychology models the social orientations (e.g., Warm-Agreeable, Arrogant-Calculating) of conversation participants and can be used to predict and explain the outcome of social interactions. Our work is novel in its systematic application of social orientation tags to modeling conversation outcomes. In this paper, we introduce a new data set of dialogue utterances machine-labeled with social orientation tags. We show that social orientation tags improve task performance, especially in low-resource settings, on both English and Chinese language benchmarks. We also demonstrate how social orientation tags help explain the outcomes of social interactions when used in neural models. Based on these results showing the utility of social orientation tags for dialogue outcome prediction tasks, we release our data sets, code, and models that are fine-tuned to predict social orientation tags on dialogue utterances.
翻訳日:2024-03-18 06:29:47 公開日:2024-02-26
# QASE強化PLM:MRC用テキスト生成における制御の改善

QASE Enhanced PLMs: Improved Control in Text Generation for MRC ( http://arxiv.org/abs/2403.04771v1 )

ライセンス: Link先を確認
Lin Ai, Zheng Hui, Zizhou Liu, Julia Hirschberg, (参考訳) 機械読解(MRC)生成モデルにおける制御外生成の課題に対処するため,QASEモジュールを提案する。 事前学習された生成言語モデル (PLM) の微調整中に統合されたQASEは、これらのPLMがSOTA抽出法と整合し、計算コストを大幅に増大させることなく、CMCタスクにおいて GPT-4 のような先進的な LLM よりも優れる。

To address the challenges of out-of-control generation in generative models for machine reading comprehension (MRC), we introduce the Question-Attended Span Extraction (QASE) module. Integrated during the fine-tuning of pre-trained generative language models (PLMs), QASE enables these PLMs to match SOTA extractive methods and outperform leading LLMs like GPT-4 in MRC tasks, without significant increases in computational costs.
翻訳日:2024-03-18 06:29:47 公開日:2024-02-26
# ラフ集合による教育的内容知識の表現

Representing Pedagogic Content Knowledge Through Rough Sets ( http://arxiv.org/abs/2403.04772v1 )

ライセンス: Link先を確認
A Mani, (参考訳) 教師の知識基盤は、数学の内容、学生の認識学の知識、教育学の知識から成り立っている。 本研究は,学生のコンテンツに関する知識の理解と,学習コンテキスト全般に重大な影響を及ぼす。 教育研究文献では,様々な内容知識を近似感覚で形式化する必要性が認識されている。 関連する問題はコヒーレントな形式化性である。 応答性やスマートAIベースのソフトウェアシステムは意味を気にせず、訓練されたソフトウェアは自身の問題に不満を持っている。 本研究では,教師のコンテンツ理解をモデル化する上で,多くの課題が特定され,著者らによって2階層の粗いセットベースモデルが提案されている。 提案手法の主な利点は、あいまいさ、粒度、マルチモーダリティをコヒーレントに扱う能力である。 方程式推論の拡張例は、これらを実証するために用いられる。

A teacher's knowledge base consists of knowledge of mathematics content, knowledge of student epistemology, and pedagogical knowledge. It has severe implications on the understanding of student's knowledge of content, and the learning context in general. The necessity to formalize the different content knowledge in approximate senses is recognized in the education research literature. A related problem is that of coherent formalizability. Responsive or smart AI-based software systems do not concern themselves with meaning, and trained ones are replete with their own issues. In the present research, many issues in modeling teachers' understanding of content are identified, and a two-tier rough set-based model is proposed by the present author. The main advantage of the proposed approach is in its ability to coherently handle vagueness, granularity and multi-modality. An extended example to equational reasoning is used to demonstrate these.
翻訳日:2024-03-18 06:29:47 公開日:2024-02-26
# 児童福祉における予測アルゴリズムを超えて

Beyond Predictive Algorithms in Child Welfare ( http://arxiv.org/abs/2403.05573v1 )

ライセンス: Link先を確認
Erina Seh-Young Moon, Devansh Saxena, Tegan Maharaj, Shion Guha, (参考訳) 児童福祉(CW)セクターのケースワーカーは、リスクアセスメント(RA)データに基づく予測的意思決定アルゴリズムを使用して、CW決定をガイドし、支援する。 研究者は、RAはCWケースの複雑さを平らにするバイアスのある信号を含むことができ、そのアルゴリズムは文脈的にリッチなケースの物語、すなわちケースワーカーによって書かれたケースノートを組み込むことの恩恵を受ける可能性があることを強調している。 この仮説的改善を検討するために、米国CW機関からよく用いられる2つのRAを定量的に分解した。 我々は、RAの予測妥当性をケースノートの物語と無関係に比較するために分類器モデルを訓練し、ケースノート上の計算テキスト分析を適用して、ケースノートで明らかになったトピックをハイライトした。 本研究は、家族の評価やCWS予測リスクモデル(PRM)の構築に使用される共通リスク指標が、出生親と再結合していない子どもの退院を予測できないことを明らかにする。 また,ケースノートは退院効果を予測できないが,文脈的事例信号も含んでいることがわかった。 RAスコアとケースノートの予測妥当性の欠如を踏まえ,公共セクターアルゴリズムの定量的リスクアセスメントを超えて,ナラティブなどの情報ソースを用いて公共社会工学システムを研究することを提案する。

Caseworkers in the child welfare (CW) sector use predictive decision-making algorithms built on risk assessment (RA) data to guide and support CW decisions. Researchers have highlighted that RAs can contain biased signals which flatten CW case complexities and that the algorithms may benefit from incorporating contextually rich case narratives, i.e. - casenotes written by caseworkers. To investigate this hypothesized improvement, we quantitatively deconstructed two commonly used RAs from a United States CW agency. We trained classifier models to compare the predictive validity of RAs with and without casenote narratives and applied computational text analysis on casenotes to highlight topics uncovered in the casenotes. Our study finds that common risk metrics used to assess families and build CWS predictive risk models (PRMs) are unable to predict discharge outcomes for children who are not reunified with their birth parent(s). We also find that although casenotes cannot predict discharge outcomes, they contain contextual case signals. Given the lack of predictive validity of RA scores and casenotes, we propose moving beyond quantitative risk assessments for public sector algorithms and towards using contextual sources of information such as narratives to study public sociotechnical systems.
翻訳日:2024-03-18 06:10:13 公開日:2024-02-26
# HealMe:心理療法のための大規模言語モデルにおける認知的リフレーミングの障害

HealMe: Harnessing Cognitive Reframing in Large Language Models for Psychotherapy ( http://arxiv.org/abs/2403.05574v1 )

ライセンス: Link先を確認
Mengxi Xiao, Qianqian Xie, Ziyan Kuang, Zhicheng Liu, Kailai Yang, Min Peng, Weiguang Han, Jimin Huang, (参考訳) 大きな言語モデル(LLM)は、認知的リフレーミングの重要なタスクを十分に処理し、恥、不信、セラピストのスキルの多様性、資源不足といった課題を克服することで、心理療法において重要な役割を果たす。 認知リフレーミングにおける従来のLLMは、主に否定的な感情を肯定的な感情に変換するが、これらのアプローチは効果が限られており、多くの場合、顧客による代替的な視点の自己発見を促進するものではない。 本稿では、メンタルエンハンスメント(HealMe)モデルにおける適応言語によるヘルピングとエンパワーメントについて紹介する。 この新しい認知的リフレーミング療法は、根深い否定的思考に効果的に対処し、合理的でバランスの取れた視点を育む。 従来のLLM手法とは違い、HealMeは精神療法の枠組みに基づいた共感的な対話を採用している。 顧客を感情から区別し、別の視点でブレインストーミングし、共感的で行動可能な提案を発達させることで、システマティックに顧客を導く。 さらに、AIシミュレーション対話と実際の治療会話の両方において、認知リフレーミングのパフォーマンスを厳格に評価するために特別に設計された、包括的で専門的な心理学的評価指標を採用した。 実験の結果,我々のモデルは共感,指導,論理的コヒーレンスにおいて他者よりも優れており,その効果と心理療法に対する肯定的影響が示された。

Large Language Models (LLMs) can play a vital role in psychotherapy by adeptly handling the crucial task of cognitive reframing and overcoming challenges such as shame, distrust, therapist skill variability, and resource scarcity. Previous LLMs in cognitive reframing mainly converted negative emotions to positive ones, but these approaches have limited efficacy, often not promoting clients' self-discovery of alternative perspectives. In this paper, we unveil the Helping and Empowering through Adaptive Language in Mental Enhancement (HealMe) model. This novel cognitive reframing therapy method effectively addresses deep-rooted negative thoughts and fosters rational, balanced perspectives. Diverging from traditional LLM methods, HealMe employs empathetic dialogue based on psychotherapeutic frameworks. It systematically guides clients through distinguishing circumstances from feelings, brainstorming alternative viewpoints, and developing empathetic, actionable suggestions. Moreover, we adopt the first comprehensive and expertly crafted psychological evaluation metrics, specifically designed to rigorously assess the performance of cognitive reframing, in both AI-simulated dialogues and real-world therapeutic conversations. Experimental results show that our model outperforms others in terms of empathy, guidance, and logical coherence, demonstrating its effectiveness and potential positive impact on psychotherapy.
翻訳日:2024-03-18 06:10:13 公開日:2024-02-26
# 空間的アクセシビリティ分析のためのジオプロセッシングツールボックスによる医療アクセシビリティとエクイティの向上:開発と事例研究

Enhancing Health Care Accessibility and Equity Through a Geoprocessing Toolbox for Spatial Accessibility Analysis: Development and Case Study ( http://arxiv.org/abs/2403.05575v1 )

ライセンス: Link先を確認
Soheil Hashtarkhani, David L Schwartz, Arash Shaban-Nejad, (参考訳) 医療サービスへのアクセスは、人口の健康と健康にとって重要な決定要因である。 医療サービスに対する空間的アクセシビリティの測定は、医療の分布を理解し、潜在的な不平等に対処するために不可欠である。 本研究では,古典的かつ拡張的な2段階フローティング・エリア法を用いて,医療サービスの空間的アクセシビリティを測定するために,ArcGIS Pro環境用のPythonスクリプトツールを含むジオプロセッシング・ツールボックスを開発した。 それぞれのツールには,ユーザの選択に基づいてアクセシビリティスコアを計算するために,距離バッファと走行時間キャッチメントが組み込まれている。 さらに、ローカルに利用可能なネットワークデータセットとArcGIS Onlineデータソースの両方と互換性のある旅行時間キャッチメントを作成するための別ツールを開発した。 4種類のアクセシビリティツールを用いて、テネシー州における血液透析サービスのアクセシビリティに着目したケーススタディを行った。 特に,対象者の年齢の計算は,血液透析サービスアクセシビリティに影響を及ぼす重要な非空間因子であると考えられた。 年齢層別では, 末期腎疾患発生率を用いて体重群を算出した。 実装されたツールは、研究コミュニティが無料で利用できるArcGIS Onlineを通じてアクセスすることができる。 ケーススタディでは、血液透析サービスのアクセシビリティの格差が明らかとなり、都市部は農村部や郊外部に比べて高いスコアを示した。 これらのジオプロセッシングツールは、医療提供者、組織、政策立案者にとって貴重な意思決定支援資源として機能し、医療サービスへの公平なアクセスを改善する。 空間的アクセシビリティを測定するこの包括的アプローチは、医療関係者に、効果的に医療提供の課題に対処するように促すことができる。

Access to health care services is a critical determinant of population health and well-being. Measuring spatial accessibility to health services is essential for understanding health care distribution and addressing potential inequities. In this study, we developed a geoprocessing toolbox including Python script tools for the ArcGIS Pro environment to measure the spatial accessibility of health services using both classic and enhanced versions of the 2-step floating catchment area method. Each of our tools incorporated both distance buffers and travel time catchments to calculate accessibility scores based on users' choices. Additionally, we developed a separate tool to create travel time catchments that is compatible with both locally available network data sets and ArcGIS Online data sources. We conducted a case study focusing on the accessibility of hemodialysis services in the state of Tennessee using the 4 versions of the accessibility tools. Notably, the calculation of the target population considered age as a significant nonspatial factor influencing hemodialysis service accessibility. Weighted populations were calculated using end-stage renal disease incidence rates in different age groups. The implemented tools are made accessible through ArcGIS Online for free use by the research community. The case study revealed disparities in the accessibility of hemodialysis services, with urban areas demonstrating higher scores compared to rural and suburban regions. These geoprocessing tools can serve as valuable decision-support resources for health care providers, organizations, and policy makers to improve equitable access to health care services. This comprehensive approach to measuring spatial accessibility can empower health care stakeholders to address health care distribution challenges effectively.
翻訳日:2024-03-18 06:10:13 公開日:2024-02-26
# MIP:PEFT勾配からのCLIPに基づく画像再構成

MIP: CLIP-based Image Reconstruction from PEFT Gradients ( http://arxiv.org/abs/2403.07901v1 )

ライセンス: Link先を確認
Peiheng Zhou, Ming Hu, Xiaofei Xie, Yihao Huang, Kangjie Chen, Mingsong Chen, (参考訳) 効果的な事前学習型マルチモーダルニューラルネットワークとしてのコントラスト言語-画像事前学習(CLIP)モデルは、分散機械学習タスク、特にフェデレートラーニング(FL)で広く利用されている。 通常、CLIPベースのFLはモデルトレーニングにパラメータ効率の良いファインチューニング(PEFT)を採用する。 PEFTは従来のトレーニングモードとは異なるが,本稿では,アダプタやソフトプロンプトの勾配を画像再構成攻撃に使用することができることを理論的に分析する。 理論解析に基づいて,CLIPをベースとした分散機械学習アーキテクチャを対象とした独自の再構成攻撃手法であるMultm-In-Parvo(MIP)を提案する。 特に、MIPはソフトプロンプトやアダプタの勾配に応じてCLIPトレーニングイメージを再構成することができる。 さらに、MIPは収束を加速するラベル予測戦略と、テキストエンコーダの消失勾配問題を回避する逆勾配推定機構を含む。 実験の結果,MIPはCLIPモデルのソフトプロンプトやアダプタの勾配に応じて,トレーニングイメージを効果的に再構築できることがわかった。

Contrastive Language-Image Pre-training (CLIP) model, as an effective pre-trained multimodal neural network, has been widely used in distributed machine learning tasks, especially Federated Learning (FL). Typically, CLIP-based FL adopts Parameter-Efficient Fine-Tuning (PEFT) for model training, which only fine-tunes adapter parameters or soft prompts rather than the full parameters. Although PEFT is different from the traditional training mode, in this paper, we theoretically analyze that the gradients of adapters or soft prompts can still be used to perform image reconstruction attacks. Based on our theoretical analysis, we propose Multm-In-Parvo (MIP), a proprietary reconstruction attack method targeting CLIP-based distributed machine learning architecture. Specifically, MIP can reconstruct CLIP training images according to the gradients of soft prompts or an adapter. In addition, MIP includes a label prediction strategy to accelerate convergence and an inverse gradient estimation mechanism to avoid the vanishing gradient problem on the text encoder. Experimental results show that MIP can effectively reconstruct training images according to the gradients of soft prompts or adapters of CLIP models.
翻訳日:2024-03-18 06:00:28 公開日:2024-02-26
# DecompDiff: 構造に基づく医薬品設計に先立つ拡散モデル

DecompDiff: Diffusion Models with Decomposed Priors for Structure-Based Drug Design ( http://arxiv.org/abs/2403.07902v1 )

ライセンス: Link先を確認
Jiaqi Guan, Xiangxin Zhou, Yuwei Yang, Yu Bao, Jian Peng, Jianzhu Ma, Qiang Liu, Liang Wang, Quanquan Gu, (参考訳) 標的結合部位内で3Dリガンドを設計することは、薬物発見の基本的な課題である。 既存の構造化された薬物設計法は、全ての配位子原子を等しく扱い、薬物設計のために配位子内の原子の役割が異なることを無視し、大きな薬物のような分子空間を探索するのに効率が良くない。 本稿では、医薬の慣行に触発されて、リガンド分子を2つの部分、すなわち腕と足場に分解し、腕と足場を分解した新しい拡散モデルDecompDiffを提案する。 生成した分子の分解を容易にし, 特性を向上させるために, モデルに結合拡散とサンプリングフェーズに付加的な妥当性ガイダンスを組み込んだ。 また,CrossDocked2020における広範囲な実験により,高親和性分子の生成において高い分子特性と配座安定性を維持しつつ,最大8.39Avgの高親和性分子を生成できることが示唆された。 ヴィナ・ドックの得点と24.5回の成功率。 コードはhttps://github.com/bytedance/DecompDiffで提供されている。

Designing 3D ligands within a target binding site is a fundamental task in drug discovery. Existing structured-based drug design methods treat all ligand atoms equally, which ignores different roles of atoms in the ligand for drug design and can be less efficient for exploring the large drug-like molecule space. In this paper, inspired by the convention in pharmaceutical practice, we decompose the ligand molecule into two parts, namely arms and scaffold, and propose a new diffusion model, DecompDiff, with decomposed priors over arms and scaffold. In order to facilitate the decomposed generation and improve the properties of the generated molecules, we incorporate both bond diffusion in the model and additional validity guidance in the sampling phase. Extensive experiments on CrossDocked2020 show that our approach achieves state-of-the-art performance in generating high-affinity molecules while maintaining proper molecular properties and conformational stability, with up to -8.39 Avg. Vina Dock score and 24.5 Success Rate. The code is provided at https://github.com/bytedance/DecompDiff
翻訳日:2024-03-18 06:00:28 公開日:2024-02-26
# 分散コンピューティングとエッジインテリジェンスの時代における多重アクセス

Multiple Access in the Era of Distributed Computing and Edge Intelligence ( http://arxiv.org/abs/2403.07903v1 )

ライセンス: Link先を確認
Nikos G. Evgenidis, Nikos A. Mitsiou, Vasiliki I. Koutsioumpa, Sotiris A. Tegos, Panagiotis D. Diamantoulakis, George K. Karagiannidis, (参考訳) 本稿では,次世代マルチアクセス技術(NGMA)の最近の研究と革新と,無線ネットワークの第6世代(6G)における他の重要な技術との共存に焦点を当てる。 より詳しくは、ネットワークのエッジにおけるデータ処理と計算能力の増大とネットワークスライシングの需要を満たすために重要なマルチアクセスエッジコンピューティング(MEC)について検討する。 次に,様々な関数を高速かつ効率的に計算する手法として,OTA(Over-the-air)コンピューティングについて検討する。 また,意味情報の交換に着目し,不要なデータを最小限に抑え,効率を高めることで,コミュニケーションシステムを改善する効果的な方法として認識される意味コミュニケーションについても検討する。 機械学習(ML)とマルチアクセス技術との相互関係についても、フェデレーションラーニング、フェデレーション蒸留、分割学習、強化学習、MLベースのマルチアクセスプロトコルの開発に重点が置かれている。 最後に、デジタルツインニングの概念とそのネットワーク管理における役割について論じ、物理ネットワークの仮想レプリケーションがネットワーク効率と信頼性の向上につながることを強調した。

This paper focuses on the latest research and innovations in fundamental next-generation multiple access (NGMA) techniques and the coexistence with other key technologies for the sixth generation (6G) of wireless networks. In more detail, we first examine multi-access edge computing (MEC), which is critical to meeting the growing demand for data processing and computational capacity at the edge of the network, as well as network slicing. We then explore over-the-air (OTA) computing, which is considered to be an approach that provides fast and efficient computation of various functions. We also explore semantic communications, identified as an effective way to improve communication systems by focusing on the exchange of meaningful information, thus minimizing unnecessary data and increasing efficiency. The interrelationship between machine learning (ML) and multiple access technologies is also reviewed, with an emphasis on federated learning, federated distillation, split learning, reinforcement learning, and the development of ML-based multiple access protocols. Finally, the concept of digital twinning and its role in network management is discussed, highlighting how virtual replication of physical networks can lead to improvements in network efficiency and reliability.
翻訳日:2024-03-18 06:00:28 公開日:2024-02-26
# 規制ギャップに対処する - 市民社会を取り入れたEUのAI監査生態系を目指して

Addressing the Regulatory Gap: Moving Towards an EU AI Audit Ecosystem Beyond the AIA by Including Civil Society ( http://arxiv.org/abs/2403.07904v1 )

ライセンス: Link先を確認
David Hartmann, José Renato Laranjeira de Pereira, Chiara Streitbörger, Bettina Berendt, (参考訳) 欧州議会は、プラットフォームと人工知能(AI)製品を規制するためのデジタルサービス法(DSA)と人工知能法(AIA)を提案した。 我々は、サードパーティの監査がどちらの法律にもどの程度含まれているか、また、モデルやデータへのアクセス範囲についてレビューする。 監査エコシステムにおけるサードパーティの監査とサードパーティのデータアクセスの価値を考慮することで、人工知能法が研究者や市民社会にデータへのアクセスを提供していないという規制上のギャップを特定します。 1)コンプライアンスと監視を取り入れたAI監査エコシステムの定義。 2) DSA及びAIA規制枠組みにおける規制ギャップの強調,AI監査エコシステムの確立の防止。 (3)研究・市民社会による第三者監査は、AIAが特定のAI製品にデータとモデルアクセスを含むことを要求するエコシステムの一部でなければならないことを強調する。 我々は、規制ギャップを埋めるために、少なくともリスクの高いシステムに対して、NGOや調査ジャーナリストに委任された行為によるプラットフォームへのデータアクセスを提供し、サードパーティの監査とデータおよびモデルアクセスを提供するためのAIAの適応と修正を要請する。 欧州連合(EU)のAI規制をモデルとした規制は、データアクセスとサードパーティの監査を可能にし、コンプライアンスと監視メカニズムを促進するAI監査エコシステムを育成する。

The European legislature has proposed the Digital Services Act (DSA) and Artificial Intelligence Act (AIA) to regulate platforms and Artificial Intelligence (AI) products. We review to what extent third-party audits are part of both laws and to what extent access to models and data is provided. By considering the value of third-party audits and third-party data access in an audit ecosystem, we identify a regulatory gap in that the Artificial Intelligence Act does not provide access to data for researchers and civil society. Our contributions to the literature include: (1) Defining an AI audit ecosystem that incorporates compliance and oversight. (2) Highlighting a regulatory gap within the DSA and AIA regulatory framework, preventing the establishment of an AI audit ecosystem. (3) Emphasizing that third-party audits by research and civil society must be part of that ecosystem and demand that the AIA include data and model access for certain AI products. We call for the DSA to provide NGOs and investigative journalists with data access to platforms by delegated acts and for adaptions and amendments of the AIA to provide third-party audits and data and model access at least for high-risk systems to close the regulatory gap. Regulations modeled after European Union AI regulations should enable data access and third-party audits, fostering an AI audit ecosystem that promotes compliance and oversight mechanisms.
翻訳日:2024-03-18 06:00:28 公開日:2024-02-26
# 大規模クラウドコンピューティング最適化のためのディープラーニングと強化技術によるKubernetesの自動スケジューリングの強化

Enhancing Kubernetes Automated Scheduling with Deep Learning and Reinforcement Techniques for Large-Scale Cloud Computing Optimization ( http://arxiv.org/abs/2403.07905v1 )

ライセンス: Link先を確認
Zheng Xu, Yulu Gong, Yanlin Zhou, Qiaozhi Bao, Wenpin Qian, (参考訳) クラウドコンピューティングアプリケーションのスケールの継続的な拡大により、Deep LearningやReinforcement Learningといった人工知能技術が、大規模クラウドコンピューティングシステムの自動タスクスケジューリングを解決する重要なツールになりつつある。 本稿では,大規模クラウドコンピューティングシステムにおけるタスクスケジューリングの複雑さとリアルタイム性に着目し,ディープラーニングと強化学習に基づくタスクスケジューリング手法を提案する。 まず、ディープラーニング技術を用いて、クラウドコンピューティングシステムのパラメータをリアルタイムで監視し、予測し、システムステータス情報を取得する。 そして、強化学習アルゴリズムと組み合わせて、リアルタイムシステム状態とタスク特性に応じてタスクスケジューリング戦略を動的に調整し、システムリソースの最適活用とタスク実行効率の最大化を実現する。 本稿では,提案手法の有効性と性能を検証し,大規模クラウドコンピューティングシステムにおけるタスク自動スケジューリングにおける深層学習と強化学習の可能性と応用可能性を示す。

With the continuous expansion of the scale of cloud computing applications, artificial intelligence technologies such as Deep Learning and Reinforcement Learning have gradually become the key tools to solve the automated task scheduling of large-scale cloud computing systems. Aiming at the complexity and real-time requirement of task scheduling in large-scale cloud computing system, this paper proposes an automatic task scheduling scheme based on deep learning and reinforcement learning. Firstly, the deep learning technology is used to monitor and predict the parameters in the cloud computing system in real time to obtain the system status information. Then, combined with reinforcement learning algorithm, the task scheduling strategy is dynamically adjusted according to the real-time system state and task characteristics to achieve the optimal utilization of system resources and the maximum of task execution efficiency. This paper verifies the effectiveness and performance advantages of the proposed scheme in experiments, and proves the potential and application prospect of deep learning and reinforcement learning in automatic task scheduling in large-scale cloud computing systems.
翻訳日:2024-03-18 06:00:28 公開日:2024-02-26
# クラウドガバナンスに関する連邦データ保護基準の反映

Reflection of Federal Data Protection Standards on Cloud Governance ( http://arxiv.org/abs/2403.07907v1 )

ライセンス: Link先を確認
Olga Dye, Justin Heo, Ebru Celikel Cankaya, (参考訳) ストレージと処理能力の需要が急増するにつれて、一般的にクラウドサービスはますます普及し、普及している。 これにより、クラウドベースのインフラストラクチャにおけるデータ侵害のリスクを低減するために、高度に洗練されたメカニズムとガバナンスを開発する必要性が高まっている。 本研究は、複数のデータセキュリティ対策と立法機関との調和によるクラウドガバナンスに焦点を当てている。 本稿では,データ漏洩防止を目的とした法的側面と,データ保護機構の実装に関する技術的要件について述べる。 具体的には、現在市場に出回っている主要なクラウドサービスプロバイダ(CSP)の1つであるAmazon Web Services(AWS)のアプリケーションと相関する最小特権に対処する主要な権限と技術フレームワークについて論じる。

As demand for more storage and processing power increases rapidly, cloud services in general are becoming more ubiquitous and popular. This, in turn, is increasing the need for developing highly sophisticated mechanisms and governance to reduce data breach risks in cloud-based infrastructures. Our research focuses on cloud governance by harmoniously combining multiple data security measures with legislative authority. We present legal aspects aimed at the prevention of data breaches, as well as the technical requirements regarding the implementation of data protection mechanisms. Specifically, we discuss primary authority and technical frameworks addressing least privilege in correlation with its application in Amazon Web Services (AWS), one of the major Cloud Service Providers (CSPs) on the market at present.
翻訳日:2024-03-18 06:00:28 公開日:2024-02-26
# 多概念多変量エロレーティングシステムの医学生研修データへの適応

Adaptation of the Multi-Concept Multivariate Elo Rating System to Medical Students Training Data ( http://arxiv.org/abs/2403.07908v1 )

ライセンス: Link先を確認
Erva Nihan Kandemir, Jill-Jenn Vie, Adam Sanchez-Ayte, Olivier Palombi, Franck Ramus, (参考訳) デジタル学習プラットフォームにおける教育指導の最適化と学習成果の向上において,質問の難易度と生徒のパフォーマンス予測が重要な役割を担っている。 エロ評価システムは,問題難易度と生徒の能力の両方を推定し,計算効率とリアルタイム適応度を推定し,生徒の成績を予測する能力で広く認識されている。 本稿では,医療訓練プラットフォームが収集したデータ,膨大な知識コーパス,膨大な概念間重複を特徴とするプラットフォーム,ユーザ間のインタラクションが広範囲に分散した巨大な質問バンク,および高度に多様なユーザ集団に,Eloレーティングシステムの多種多種多型を適応させ,ユニークな課題を提示する。 本研究は、まず、この実生活データに基づいて、Elo評価システムの性能を総合的に評価することと、オンラインアセスメントのためのElo評価システムを実装する際に、不正確な早期推定の問題に取り組むことの2つの主要な目的によって推進されている。 以上の結果から,Elo評価システムは,デジタルプラットフォーム内のユーザを対象とした最終試験結果の予測において,確立されたロジスティック回帰モデルに匹敵する精度を示すことが示唆された。 さらに,Elo評価推定を履歴データで初期化するとエラーが著しく減少し,特に学生間相互作用の初期段階での予測精度が向上することが示された。

Accurate estimation of question difficulty and prediction of student performance play key roles in optimizing educational instruction and enhancing learning outcomes within digital learning platforms. The Elo rating system is widely recognized for its proficiency in predicting student performance by estimating both question difficulty and student ability while providing computational efficiency and real-time adaptivity. This paper presents an adaptation of a multi concept variant of the Elo rating system to the data collected by a medical training platform, a platform characterized by a vast knowledge corpus, substantial inter-concept overlap, a huge question bank with significant sparsity in user question interactions, and a highly diverse user population, presenting unique challenges. Our study is driven by two primary objectives: firstly, to comprehensively evaluate the Elo rating systems capabilities on this real-life data, and secondly, to tackle the issue of imprecise early stage estimations when implementing the Elo rating system for online assessments. Our findings suggest that the Elo rating system exhibits comparable accuracy to the well-established logistic regression model in predicting final exam outcomes for users within our digital platform. Furthermore, results underscore that initializing Elo rating estimates with historical data remarkably reduces errors and enhances prediction accuracy, especially during the initial phases of student interactions.
翻訳日:2024-03-18 06:00:28 公開日:2024-02-26
# ユーザフィードバックに基づく反事実説明(ufce)の導入

Introducing User Feedback-based Counterfactual Explanations (UFCE) ( http://arxiv.org/abs/2403.00011v1 )

ライセンス: Link先を確認
Muhammad Suffian, Jose M. Alonso-Moral, Alessandro Bogliolo(参考訳) 機械学習モデルは現実世界のアプリケーションで広く使われている。 しかし、その複雑さは、意思決定の背後にある理屈を解釈することがしばしば困難になる。 eXplainable Artificial Intelligence (XAI)において、対実的説明(CE)が理解可能な説明を生成するための有効なソリューションとして浮上している。 ceはユーザに対して、入力に最小限の変更を加えることで、望ましい結果を達成する方法に関するアクション可能な情報を提供する。 しかし、現在のCEアルゴリズムは、通常、変更を最適化して望ましくない結果に切り替える際に、その結果に対する主要なコントリビュータの識別を見落とし、提案された変更の実用性を無視して機能空間全体を運用する。 本研究では,このような制約に対処し,提供された説明に対する信頼感を高めることを目的とした,ユーザフィードバックに基づく反事実説明(ufce)と呼ばれる新しい手法を提案する。 ufceは、機能依存を考慮しながら、実行可能な機能のサブセットにおける最小の変更を決定するためにユーザ制約を組み込むことを可能にし、ベンチマーク評価メトリクスを用いて提案する変更の実用性を評価する。 我々は,5つのデータセットを用いて3つの実験を行い,UFCEがよく知られたCE法を, \textit{proximity}, \textit{sparsity}, \textit{feasibility}の2つで上回っていることを示した。 報告された結果から,ユーザ制約がCEの生成に影響を及ぼすことが示唆された。

Machine learning models are widely used in real-world applications. However, their complexity makes it often challenging to interpret the rationale behind their decisions. Counterfactual explanations (CEs) have emerged as a viable solution for generating comprehensible explanations in eXplainable Artificial Intelligence (XAI). CE provides actionable information to users on how to achieve the desired outcome with minimal modifications to the input. However, current CE algorithms usually operate within the entire feature space when optimizing changes to turn over an undesired outcome, overlooking the identification of key contributors to the outcome and disregarding the practicality of the suggested changes. In this study, we introduce a novel methodology, that is named as user feedback-based counterfactual explanation (UFCE), which addresses these limitations and aims to bolster confidence in the provided explanations. UFCE allows for the inclusion of user constraints to determine the smallest modifications in the subset of actionable features while considering feature dependence, and evaluates the practicality of suggested changes using benchmark evaluation metrics. We conducted three experiments with five datasets, demonstrating that UFCE outperforms two well-known CE methods in terms of \textit{proximity}, \textit{sparsity}, and \textit{feasibility}. Reported results indicate that user constraints influence the generation of feasible CEs.
翻訳日:2024-03-11 00:18:51 公開日:2024-02-26
# 協調言語ゲームにおけるチームメイトへの適応

Adapting to Teammates in a Cooperative Language Game ( http://arxiv.org/abs/2403.00823v1 )

ライセンス: Link先を確認
Christopher Archibald and Spencer Brosnahan(参考訳) Codenamesのゲームは、インテリジェントエージェント設計の関心領域として最近登場した。 このゲームは、チームメイト間の言語と調整が重要な役割を果たすため、ユニークなものです。 このゲームのためにエージェントを設計する以前のアプローチでは、アクションの選択を決定するために単一の内部言語モデルを使用していた。 これにより、エージェントが特定のチームメイトに適応できないため、一部のチームメイトでのパフォーマンスが良くなり、他のチームメイトでのパフォーマンスが劣ることが多い。 本稿では,コードネームを再生するための適応エージェントを提案する。 私たちはアンサンブルアプローチを採用し、特定のチームメートと対話する過程で、それぞれの言語モデルを持つ可能性のある内的専門家エージェントが最適な一致点を決定することを目標にしています。 このアプローチで直面している問題のひとつは、Codenamesチームのパフォーマンスを正確にキャプチャする単一の数値メトリックがないことだ。 以前のコードネーム研究は、エージェントチームを評価するために、いくつかの異なるメトリクスを使用してきた。 我々は,Codenamesチームのパフォーマンスを評価するために,単一チーム(ソリティア)ゲームか,あるいは他のチームとの競争ゲームかという,新しい単一指標を提案する。 次に,提案手法を最大化するために,各ターンで内部専門家を選定するアンサンブルエージェントを提示・解析する。 実験的な分析によると、このアンサンブルアプローチは個々のチームメイトに適応し、しばしばチームメイトにとって最高の内部エキスパートと同等に機能する。 重要なのは、この成功はチームメイトやアンサンブルエージェント、あるいは彼らの互換性に関する以前の知識に依存しません。 この研究は、Codenamesのような協調的な言語設定のための言語ベースのエージェントを、個々のチームメイトに適応させるための重要なステップである。

The game of Codenames has recently emerged as a domain of interest for intelligent agent design. The game is unique due to the way that language and coordination between teammates play important roles. Previous approaches to designing agents for this game have utilized a single internal language model to determine action choices. This often leads to good performance with some teammates and inferior performance with other teammates, as the agent cannot adapt to any specific teammate. In this paper we present the first adaptive agent for playing Codenames. We adopt an ensemble approach with the goal of determining, during the course of interacting with a specific teammate, which of our internal expert agents, each potentially with its own language model, is the best match. One difficulty faced in this approach is the lack of a single numerical metric that accurately captures the performance of a Codenames team. Prior Codenames research has utilized a handful of different metrics to evaluate agent teams. We propose a novel single metric to evaluate the performance of a Codenames team, whether playing a single team (solitaire) game, or a competitive game against another team. We then present and analyze an ensemble agent which selects an internal expert on each turn in order to maximize this proposed metric. Experimental analysis shows that this ensemble approach adapts to individual teammates and often performs nearly as well as the best internal expert with a teammate. Crucially, this success does not depend on any previous knowledge about the teammates, the ensemble agents, or their compatibility. This research represents an important step to making language-based agents for cooperative language settings like Codenames more adaptable to individual teammates.
翻訳日:2024-03-10 23:49:57 公開日:2024-02-26
# InteraRec: マルチモーダル大言語モデルを用いた対話型レコメンデーション

InteraRec: Interactive Recommendations Using Multimodal Large Language Models ( http://arxiv.org/abs/2403.00822v1 )

ライセンス: Link先を確認
Saketh Reddy Karra, Theja Tulabandhula(参考訳) weblogsは、あらゆるwebサイト上のユーザーのアクティビティを詳述したレコードで構成されており、ユーザーの好み、行動、興味に関する貴重な洞察を提供する。 協調フィルタリング、コンテンツベースのフィルタリング、ハイブリッドメソッドといった戦略を駆使した多数のレコメンデーションアルゴリズムは、これらのWebログを通じて収集されたデータを活用して、ユーザにパーソナライズされたレコメンデーションを提供する。 これらのWebログに豊富な情報があるにもかかわらず、関連する情報と重要な特徴を特定し、抽出することは、広範なエンジニアリング努力を必要とする。 データの複雑な性質は、特に非専門家の解釈にも挑戦している。 本研究では,InteraRecと表記される高度でインタラクティブなレコメンデーションフレームワークを紹介し,レコメンデーション生成にウェブログのみに依存する従来のアプローチから逸脱する。 このフレームワークは、ユーザがWebサイトをナビゲートするときに、Webページの高周波スクリーンショットをキャプチャする。 最先端のマルチモーダル大言語モデル(mllms)を活用して,事前定義されたキーワードに基づいたユーザ行動要約を生成することにより,これらのスクリーンショットからユーザの好みに対する貴重な洞察を抽出する。 その後、この要約をLLM統合最適化設定の入力として利用して、カスタマイズされたレコメンデーションを生成する。 実験を通じて,ユーザに対して価値あるパーソナライズされたオファリングを提供する上で,interarecの有効性を実証する。

Weblogs, comprised of records detailing user activities on any website, offer valuable insights into user preferences, behavior, and interests. Numerous recommendation algorithms, employing strategies such as collaborative filtering, content-based filtering, and hybrid methods, leverage the data mined through these weblogs to provide personalized recommendations to users. Despite the abundance of information available in these weblogs, identifying and extracting pertinent information and key features necessitates extensive engineering endeavors. The intricate nature of the data also poses a challenge for interpretation, especially for non-experts. In this study, we introduce a sophisticated and interactive recommendation framework denoted as InteraRec, which diverges from conventional approaches that exclusively depend on weblogs for recommendation generation. This framework captures high-frequency screenshots of web pages as users navigate through a website. Leveraging state-of-the-art multimodal large language models (MLLMs), it extracts valuable insights into user preferences from these screenshots by generating a user behavioral summary based on predefined keywords. Subsequently, this summary is utilized as input to an LLM-integrated optimization setup to generate tailored recommendations. Through our experiments, we demonstrate the effectiveness of InteraRec in providing users with valuable and personalized offerings.
翻訳日:2024-03-10 23:49:32 公開日:2024-02-26
# センサとしてのソーシャルメディア:自然言語処理を用いた乳癌治療効果のTwitterデータ分析

Social Media as a Sensor: Analyzing Twitter Data for Breast Cancer Medication Effects Using Natural Language Processing ( http://arxiv.org/abs/2403.00821v1 )

ライセンス: Link先を確認
Seibi Kobara, Alireza Rafiei, Masoud Nateghi, Selen Bozkurt, Rishikesan Kamaleswaran, Abeed Sarker(参考訳) 乳がんは公衆衛生上の重要な問題であり、女性のがん関連死亡の原因となっている。 乳がん治療の進歩にもかかわらず、薬の非整合は依然として大きな問題である。 電子的な健康記録は典型的に患者が報告した結果を捉えないため、ソーシャルメディアは患者の治療経験の理解を深めるための魅力的なリソースを提供する。 本稿では,自然言語処理(nlp)に基づく手法を開発し,ソーシャルメディアから収集した乳がんコホートが投稿する情報を調べる。 我々は,X(Twitter)上の乳癌患者・生存者を特定するために,トランスフォーマーを用いた分類器を用い,そのプロファイルから縦断的データを収集した。 乳がん治療関連副作用レキシコンを開発し,乳がん患者の薬物使用パターンと関連する副作用を検出するために,多層ルールベースモデルを設計した。 1,454,637件の投稿が583,962件から入手でき、うち62,042件はトランスフォーマーモデルを用いて乳癌メンバーとして検出された。 198人のコホートメンバーがタモキシフェンによる乳がん治療について言及した。 副作用はホルモンと化学療法の副作用としてよく知られている。 さらに、がんや薬物に対する感情が発見され、副作用や情緒的苦痛の前臨床段階が示唆された。 この分析は, 自己申告乳がんポスト, 薬物使用パターン, 治療側効果を同定するための非構造化ソーシャルメディアデータにおけるNLP技術の有用性だけでなく, 臨床上の問題に対する社会データの豊富さも強調した。

Breast cancer is a significant public health concern and is the leading cause of cancer-related deaths among women. Despite advances in breast cancer treatments, medication non-adherence remains a major problem. As electronic health records do not typically capture patient-reported outcomes that may reveal information about medication-related experiences, social media presents an attractive resource for enhancing our understanding of the patients' treatment experiences. In this paper, we developed natural language processing (NLP) based methodologies to study information posted by an automatically curated breast cancer cohort from social media. We employed a transformer-based classifier to identify breast cancer patients/survivors on X (Twitter) based on their self-reported information, and we collected longitudinal data from their profiles. We then designed a multi-layer rule-based model to develop a breast cancer therapy-associated side effect lexicon and detect patterns of medication usage and associated side effects among breast cancer patients. 1,454,637 posts were available from 583,962 unique users, of which 62,042 were detected as breast cancer members using our transformer-based model. 198 cohort members mentioned breast cancer medications with tamoxifen as the most common. Our side effect lexicon identified well-known side effects of hormone and chemotherapy. Furthermore, it discovered a subject feeling towards cancer and medications, which may suggest a pre-clinical phase of side effects or emotional distress. This analysis highlighted not only the utility of NLP techniques in unstructured social media data to identify self-reported breast cancer posts, medication usage patterns, and treatment side effects but also the richness of social data on such clinical questions.
翻訳日:2024-03-10 23:49:09 公開日:2024-02-26
# 検索拡張生成システム:自動データセット作成、評価、ブールエージェントの設定

Retrieval Augmented Generation Systems: Automatic Dataset Creation, Evaluation and Boolean Agent Setup ( http://arxiv.org/abs/2403.00820v1 )

ライセンス: Link先を確認
Tristan Kenneweg and Philip Kenneweg and Barbara Hammer(参考訳) Retrieval Augmented Generation (RAG) システムは、Large-Language Model (LLM) 出力をドメイン固有データと時間機密データで拡張することで大きな人気を得ている。 ごく最近になって、ベクトルデータベースに追加情報を求めるシンプルなRAG設定から、より洗練されたRAG形式へのシフトが起きている。 しかし、異なる具体的なアプローチは、現時点ではほとんどが逸話的な証拠で競っている。 本稿では,RAG戦略を定量的に比較するための厳密なデータセット作成と評価ワークフローを提案する。 我々は、この方法で作成されたデータセットを使用して、boolean agent ragセットアップの開発と評価を行う。 llmがベクトルデータベースに問い合わせるかどうかを判断できるシステムであり、内部知識で答えられる質問のトークンを保存する。 コードとデータセットをオンラインで公開しています。

Retrieval Augmented Generation (RAG) systems have seen huge popularity in augmenting Large-Language Model (LLM) outputs with domain specific and time sensitive data. Very recently a shift is happening from simple RAG setups that query a vector database for additional information with every user input to more sophisticated forms of RAG. However, different concrete approaches compete on mostly anecdotal evidence at the moment. In this paper we present a rigorous dataset creation and evaluation workflow to quantitatively compare different RAG strategies. We use a dataset created this way for the development and evaluation of a boolean agent RAG setup: A system in which a LLM can decide whether to query a vector database or not, thus saving tokens on questions that can be answered with internal knowledge. We publish our code and generated dataset online.
翻訳日:2024-03-10 23:48:41 公開日:2024-02-26
# ランダムにないデータの欠落を推奨する二重校正型推定器

Doubly Calibrated Estimator for Recommendation on Data Missing Not At Random ( http://arxiv.org/abs/2403.00817v1 )

ライセンス: Link先を確認
Wonbin Kweon, Hwanjo Yu(参考訳) 推奨システムは、ユーザが好みのアイテムを評価する傾向があるため、選択バイアスに悩まされることが多い。 このような条件下で収集されたデータセットは、無作為ではない項目が欠落しているため、対象人口を表すランダム化制御試験ではない。 この課題に対処するため、精度の高い不正確な誤りや予測精度が与えられた場合に不偏性を確保するため、二重ロバストな推定器とその拡張型が提案されている。 しかし,既存の推定器は,推定の初歩モデルに依存するため,誤校正誤りや妥当性スコアに頼っている。 本研究では,2つの頑健な推定器の有効性を推定し,実世界のデータセットを用いて定理を検証した。 そこで本研究では,計算モデルと確率モデルの両方のキャリブレーションを含む二重校正推定器を提案する。 そこで本研究では,ユーザ間で異なるロジット分布を考慮したキャリブレーション専門家を紹介する。 さらに,三段階共同学習フレームワークを考案し,キャリブレーションの専門家と予測・計算モデルとの同時最適化を実現する。 実世界のデータセットに関する広範な実験を通じて、偏ったレコメンデーションタスクのコンテキストにおいて、Douubly Calibrated Estimatorの優位性を示す。

Recommender systems often suffer from selection bias as users tend to rate their preferred items. The datasets collected under such conditions exhibit entries missing not at random and thus are not randomized-controlled trials representing the target population. To address this challenge, a doubly robust estimator and its enhanced variants have been proposed as they ensure unbiasedness when accurate imputed errors or predicted propensities are provided. However, we argue that existing estimators rely on miscalibrated imputed errors and propensity scores as they depend on rudimentary models for estimation. We provide theoretical insights into how miscalibrated imputation and propensity models may limit the effectiveness of doubly robust estimators and validate our theorems using real-world datasets. On this basis, we propose a Doubly Calibrated Estimator that involves the calibration of both the imputation and propensity models. To achieve this, we introduce calibration experts that consider different logit distributions across users. Moreover, we devise a tri-level joint learning framework, allowing the simultaneous optimization of calibration experts alongside prediction and imputation models. Through extensive experiments on real-world datasets, we demonstrate the superiority of the Doubly Calibrated Estimator in the context of debiased recommendation tasks.
翻訳日:2024-03-10 23:48:29 公開日:2024-02-26
# CFRet-DVQA:ドキュメントビジュアル質問応答のための粗大な検索と効率的なチューニング

CFRet-DVQA: Coarse-to-Fine Retrieval and Efficient Tuning for Document Visual Question Answering ( http://arxiv.org/abs/2403.00816v1 )

ライセンス: Link先を確認
Jinxu Zhang, Yongqi Yu, Yu Zhang(参考訳) Document Visual Question Answering (DVQA)は、画像の内容に基づいてクエリに応答するタスクである。 既存の作業は、単一のページ内で情報を見つけることに限定されており、ページ間の質問と回答のやりとりが容易ではない。 さらに、モデルへの入力に課されるトークン長の制限は、応答に関連するセグメントの切断につながる可能性がある。 本研究では,CFRet-DVQAと呼ばれる簡易かつ効果的な手法を提案する。 そのため、まず、目の前の質問に関連付けられたドキュメントから複数のセグメントを取得します。 その後、大規模言語モデル(LLM)の高度な推論能力を活用し、命令チューニングによりその性能をさらに向上する。 このアプローチにより、ドキュメントラベルのスタイルに合わせて回答を生成することができる。 実験により,本手法は各分野の単一ページおよび複数ページの文書を用いて,最先端ないし競争的な結果を得た。

Document Visual Question Answering (DVQA) is a task that involves responding to queries based on the content of images. Existing work is limited to locating information within a single page and does not facilitate cross-page question-and-answer interaction. Furthermore, the token length limitation imposed on inputs to the model may lead to truncation of segments pertinent to the answer. In this study, we introduce a simple but effective methodology called CFRet-DVQA, which focuses on retrieval and efficient tuning to address this critical issue effectively. For that, we initially retrieve multiple segments from the document that correlate with the question at hand. Subsequently, we leverage the advanced reasoning abilities of the large language model (LLM), further augmenting its performance through instruction tuning. This approach enables the generation of answers that align with the style of the document labels. The experiments demonstrate that our methodology achieved state-of-the-art or competitive results with both single-page and multi-page documents in various fields.
翻訳日:2024-03-10 23:48:07 公開日:2024-02-26
# Anteater: コンテキスト内のプログラム実行値のインタラクティブな可視化

Anteater: Interactive Visualization of Program Execution Values in Context ( http://arxiv.org/abs/1907.02872v4 )

ライセンス: Link先を確認
Rebecca Faust, Katherine Isaacs, William Z. Bernstein, Michael Sharp, and Carlos Scheidegger(参考訳) デバッグはプログラミングにおいて最も難しい部分です。 本稿では,インタラクティブな可視化を中心的な設計原則とする上で,デバッグ環境はどのようなものか,という問題に取り組む。 我々は,pythonプログラムの実行をトレースし探索するインタラクティブ可視化システム anteater を紹介する。 既存のシステムは、しばしば既存のインフラの上に構築された可視化コンポーネントを持つ。 対照的に、Anteaterのトレースデータの組織化は、様々な視覚化とインタラクションを自動的に合成するために活用できる中間表現を可能にする。 これらのインタラクティブな視覚化は、実行中の重要な構造の発見や予期しない動作の理解、デバッグといったタスクに役立つ。 Anteaterの有用性を評価するために,プログラマがAnteaterを使って独自のピソンプログラムでタスクを完了させる実験を行った。 最後に,限界と今後の研究の必要性について論じる。

Debugging is famously one the hardest parts in programming. In this paper, we tackle the question: what does a debugging environment look like when we take interactive visualization as a central design principle? We introduce Anteater, an interactive visualization system for tracing and exploring the execution of Python programs. Existing systems often have visualization components built on top of an existing infrastructure. In contrast, Anteater's organization of trace data enables an intermediate representation which can be leveraged to automatically synthesize a variety of visualizations and interactions. These interactive visualizations help with tasks such as discovering important structures in the execution and understanding and debugging unexpected behaviors. To assess the utility of Anteater, we conducted a participant study where programmers completed tasks on their own python programs using Anteater. Finally, we discuss limitations and where further research is needed.
翻訳日:2024-03-03 19:41:50 公開日:2024-02-26
# 幾何学的量子状態推定

Geometric Quantum State Estimation ( http://arxiv.org/abs/2008.08679v2 )

ライセンス: Link先を確認
Fabio Anza and James P. Crutchfield(参考訳) 密度行列は、射影的および正の演算子値の測定により、量子系の統計を全て取得する。 しかし、アンサンブルの物理的実現を無視するため、システム統計がどのように作成されるかは明記していない。 幾何学量子力学を用いて、アンサンブルを効率的に追跡するために、幾何量子状態 -- 環境状態に基づく系の状態の確率分布 -- が開発された。 ここでは、密度行列の知識から、幾何学的に適切な量子エントロピーに基づいて、最大エントロピー原理を用いて幾何量子状態を推定する方法を示す。

Density matrices capture all of a quantum system's statistics accessible through projective and positive operator-valued measurements. They do not specify how system statistics are created, however, as they neglect the physical realization of ensembles. Geometric quantum states -- probability distributions of the system state conditioned on the environment state -- were developed to track ensembles efficiently, using geometric quantum mechanics. Here, given knowledge of a density matrix, we show how to estimate the geometric quantum state using a maximum entropy principle based on a geometrically-appropriate quantum entropy.
翻訳日:2024-02-29 19:40:14 公開日:2024-02-26
# EGNN-C+:グラニュラーニューラルネットワークを進化させる解釈可能であり、弱スーパービジョンEEGデータストリームの分類への応用

EGNN-C+: Interpretable Evolving Granular Neural Network and Application in Classification of Weakly-Supervised EEG Data Streams ( http://arxiv.org/abs/2402.17792v1 )

ライセンス: Link先を確認
Daniel Leite, Alisson Silva, Gabriella Casalino, Arnab Sharma, Danielle Fortunato, Axel-Cyrille Ngomo(参考訳) グラニュラーニューラルネットワーク分類器(eGNN-C+)の進化のための改良型インクリメンタル学習アルゴリズムを提案する。 データカバレッジとノイズ抑制のために外部ボックスのロバスト性を高めるために適応手順をカスタマイズし、内部ボックスがドリフトをキャプチャする柔軟性を維持しながら、ダブルバウンダリーハイパーボックスを使用しています。 分類器はスクラッチから進化し、新しいクラスをオンザフライで取り入れ、局所的なインクリメンタルな機能重み付けを実行する。 応用として、脳波(EEG)信号における感情関連パターンの分類に着目する。 感情認識はコンピュータシステムのリアリズムと対話性を高めるのに不可欠である。 我々は、コンピュータゲームをプレイする28人の個人から得られる脳波信号のフーリエスペクトルから特徴を抽出する。 それぞれのゲームは、退屈、落ち着き、恐怖、喜びという、異なる支配的な感情を誘発する。 本研究では,個々の電極,時間窓長,周波数帯域を分析し,ユーザに依存しないニューラルモデルの精度と解釈可能性を評価する。 その結果、両脳半球は、前頭葉電極と後頭葉電極の寄与とともに、特に側頭葉(t8)と頭頂(p7)領域の電極の分類を支援していることが示唆された。 どのバンドにもパターンが現れるが、Alpha (8-13Hz)、Delta (1-4Hz)、Theta (4-8Hz)のバンドは、この順に感情クラスと高い対応を示した。 eGNN-C+は脳波データ学習の有効性を示す。 精度は81.7%で、10秒の時間窓を使って0.0029 iiの解釈が可能で、高度に定時的な4階級の分類問題に直面している。

We introduce a modified incremental learning algorithm for evolving Granular Neural Network Classifiers (eGNN-C+). We use double-boundary hyper-boxes to represent granules, and customize the adaptation procedures to enhance the robustness of outer boxes for data coverage and noise suppression, while ensuring that inner boxes remain flexible to capture drifts. The classifier evolves from scratch, incorporates new classes on the fly, and performs local incremental feature weighting. As an application, we focus on the classification of emotion-related patterns within electroencephalogram (EEG) signals. Emotion recognition is crucial for enhancing the realism and interactivity of computer systems. We extract features from the Fourier spectrum of EEG signals obtained from 28 individuals engaged in playing computer games -- a public dataset. Each game elicits a different predominant emotion: boredom, calmness, horror, or joy. We analyze individual electrodes, time window lengths, and frequency bands to assess the accuracy and interpretability of resulting user-independent neural models. The findings indicate that both brain hemispheres assist classification, especially electrodes on the temporal (T8) and parietal (P7) areas, alongside contributions from frontal and occipital electrodes. While patterns may manifest in any band, the Alpha (8-13Hz), Delta (1-4Hz), and Theta (4-8Hz) bands, in this order, exhibited higher correspondence with the emotion classes. The eGNN-C+ demonstrates effectiveness in learning EEG data. It achieves an accuracy of 81.7% and a 0.0029 II interpretability using 10-second time windows, even in face of a highly-stochastic time-varying 4-class classification problem.
翻訳日:2024-02-29 17:37:17 公開日:2024-02-26
# ナレッジグラフを用いたノード重要度推定のためのラベルインフォームドコントラストプリトレーニング

Label Informed Contrastive Pretraining for Node Importance Estimation on Knowledge Graphs ( http://arxiv.org/abs/2402.17791v1 )

ライセンス: Link先を確認
Tianyu Zhang, Chengbin Hou, Rui Jiang, Xuegong Zhang, Chenghu Zhou, Ke Tang, Hairong Lv(参考訳) ノード重要度推定(NIE)は、グラフ内のノードの重要度を推定するタスクである。 より豊富なデータと知識が利用できるため、NIEの最近の研究関心は、将来や欠落したノードの重要度を予測するための知識グラフに向けられている。 既存の最先端のNIEメソッドは、利用可能なラベルでモデルをトレーニングし、トレーニング前にすべての興味あるノードを平等に検討する。 しかし、より重要度の高いノードは、しばしば現実のシナリオにおいて、より重要度の高い映画やウェブページをもっと気にすることがある。 そこで本研究では,NIE問題に対して,評価スコアの高いノードをよりよく認識するために,Label Informed ContrAstive Pretraining(LICAP)を導入する。 特に、licapは、連続ラベルを十分に活用して、埋め込みを事前学習するためのコントラストサンプルを生成する、新しいタイプのコントラスト学習フレームワークである。 NIE問題を考えると、licAPはトップノードと呼ばれる新しいサンプリング戦略を採用し、すべての興味あるノードをノードの重要度スコアに基づいてトップビンと非トップビンにグループ化し、そのスコアに基づいて上位ビン内のノードをいくつかのより細かいビンに分割する。 これらのビンからコントラストサンプルを生成し、新たに提案された述語認識グラフアテンションネットワーク(pregat)を介して知識グラフのノード埋め込みを事前学習し、トップノードを非トップノードからよりよく分離し、上位ビン内のトップノードを相対的な順序を維持して区別する。 広汎な実験により、licAP事前訓練された埋め込みは、既存のNIEメソッドのパフォーマンスをさらに向上し、回帰とランキングの両方のメトリクスに関する新しい最先端のパフォーマンスを達成することができる。 再現性のためのソースコードはhttps://github.com/zhangtia16/licapで入手できる。

Node Importance Estimation (NIE) is a task of inferring importance scores of the nodes in a graph. Due to the availability of richer data and knowledge, recent research interests of NIE have been dedicating to knowledge graphs for predicting future or missing node importance scores. Existing state-of-the-art NIE methods train the model by available labels, and they consider every interested node equally before training. However, the nodes with higher importance often require or receive more attention in real-world scenarios, e.g., people may care more about the movies or webpages with higher importance. To this end, we introduce Label Informed ContrAstive Pretraining (LICAP) to the NIE problem for being better aware of the nodes with high importance scores. Specifically, LICAP is a novel type of contrastive learning framework that aims to fully utilize the continuous labels to generate contrastive samples for pretraining embeddings. Considering the NIE problem, LICAP adopts a novel sampling strategy called top nodes preferred hierarchical sampling to first group all interested nodes into a top bin and a non-top bin based on node importance scores, and then divide the nodes within top bin into several finer bins also based on the scores. The contrastive samples are generated from those bins, and are then used to pretrain node embeddings of knowledge graphs via a newly proposed Predicate-aware Graph Attention Networks (PreGAT), so as to better separate the top nodes from non-top nodes, and distinguish the top nodes within top bin by keeping the relative order among finer bins. Extensive experiments demonstrate that the LICAP pretrained embeddings can further boost the performance of existing NIE methods and achieve the new state-of-the-art performance regarding both regression and ranking metrics. The source code for reproducibility is available at https://github.com/zhangtia16/LICAP
翻訳日:2024-02-29 17:36:47 公開日:2024-02-26
# ロボット支援リハビリテーションにおけるトレーニングセッションを避けるための脳波分類器クロスタスク転送

EEG classifier cross-task transfer to avoid training sessions in robot-assisted rehabilitation ( http://arxiv.org/abs/2402.17790v1 )

ライセンス: Link先を確認
Niklas Kueper, Su Kyoung Kim and Elsa Andrea Kirchner(参考訳) 背景:リハビリテーション中の患者を個別に支援するには,脳波(EEG)から個別の機械学習モデルを学習する必要がある。 当社のアプローチでは,特定のトレーニングセッションを必要とせずにラベル付きトレーニングデータを記録できる。 この目的のために、計画された外骨格補助リハビリテーションは、影響を受けない腕の活動から運動意図を推測できる両側ミラー療法を可能にする。 このセラピーの間、ラベル付き脳波データを収集し、患者の患部のみの動き予測を可能にする。 方法: 健常者8名を対象に調査を行い, 分類器伝達法の性能評価を行った。 各被験者は,64チャンネルから脳波データを記録しながら,40個の自覚的片側・左右方向の目標への到達動作を3回実施した。 支持ベクトルマシン(SVM)分類器を両動作条件下で訓練し,同じ動作の予測を行った。 さらに,両側運動状態のデータに基づいて訓練したビーイングのみを用いて,片側運動を予測するために分類器の評価を行った。 結果: 片側運動意図を含む脳波データに基づいて直接訓練された分類器と比較して, 選択された脳波チャネルで訓練された分類器の性能は有意に低下しないことが示された。 さらに,本手法は8チャンネルでも4チャンネルでも有効であることがわかった。 結論: 提案手法により, 学習データの明示的な収集を伴わずに, 動作予測が可能となった。 このアプローチは脳波チャンネルが少なくても適用可能であるため、実際の患者とのセラピーセッションにおけるアプローチの実現可能性を示し、脳卒中患者に対するさらなる調査を動機づける。

Background: For an individualized support of patients during rehabilitation, learning of individual machine learning models from the human electroencephalogram (EEG) is required. Our approach allows labeled training data to be recorded without the need for a specific training session. For this, the planned exoskeleton-assisted rehabilitation enables bilateral mirror therapy, in which movement intentions can be inferred from the activity of the unaffected arm. During this therapy, labeled EEG data can be collected to enable movement predictions of only the affected arm of a patient. Methods: A study was conducted with 8 healthy subjects and the performance of the classifier transfer approach was evaluated. Each subject performed 3 runs of 40 self-intended unilateral and bilateral reaching movements toward a target while EEG data was recorded from 64 channels. A support vector machine (SVM) classifier was trained under both movement conditions to make predictions for the same type of movement. Furthermore, the classifier was evaluated to predict unilateral movements by only beeing trained on the data of the bilateral movement condition. Results: The results show that the performance of the classifier trained on selected EEG channels evoked by bilateral movement intentions is not significantly reduced compared to a classifier trained directly on EEG data including unilateral movement intentions. Moreover, the results show that our approach also works with only 8 or even 4 channels. Conclusion: It was shown that the proposed classifier transfer approach enables motion prediction without explicit collection of training data. Since the approach can be applied even with a small number of EEG channels, this speaks for the feasibility of the approach in real therapy sessions with patients and motivates further investigations with stroke patients.
翻訳日:2024-02-29 17:36:09 公開日:2024-02-26
# クラウドソースのデータアノテーションパイプラインにおいて、gpt-4

If in a Crowdsourced Data Annotation Pipeline, a GPT-4 ( http://arxiv.org/abs/2402.16795v1 )

ライセンス: Link先を確認
Zeyu He, Chieh-Yang Huang, Chien-Kuang Cornelia Ding, Shaurya Rohatgi, Ting-Hao 'Kenneth' Huang(参考訳) 近年の研究では、GPT-4は、特にAmazon Mechanical Turk(MTurk)の労働者において、データのラベル付け精度において、オンラインの群衆労働者よりも優れていた。 しかし、これらの研究は、標準的なクラウドソーシングの実践から逸脱し、データ注釈プロセス全体に対する個々の労働者のパフォーマンスを強調したとして批判された。 本稿は,CODA-19の手法を用いて,200の学術論文から3,177の文節をラベル付けし,倫理的かつ優れたMTurkパイプラインと比較した。 2つのワーカーインタフェースは127,080のラベルを生成し、8つのラベル集約アルゴリズムによって最終ラベルを推測するために使用された。 評価の結果, MTurkパイプラインの精度は81.5%, GPT-4は83.6%であった。 興味深いことに、GPT-4のラベルと高度なワーカーインタフェースを通じて収集された群衆ラベルを組み合わせると、8つのアルゴリズムのうち2つはより高い精度(87.5%、87.0%)を達成した。 さらに分析したところ、群衆とGPT-4のラベリング強度が相補的であれば、それらのアグリゲーションはラベリング精度を高めることが示唆された。

Recent studies indicated GPT-4 outperforms online crowd workers in data labeling accuracy, notably workers from Amazon Mechanical Turk (MTurk). However, these studies were criticized for deviating from standard crowdsourcing practices and emphasizing individual workers' performances over the whole data-annotation process. This paper compared GPT-4 and an ethical and well-executed MTurk pipeline, with 415 workers labeling 3,177 sentence segments from 200 scholarly articles using the CODA-19 scheme. Two worker interfaces yielded 127,080 labels, which were then used to infer the final labels through eight label-aggregation algorithms. Our evaluation showed that despite best practices, MTurk pipeline's highest accuracy was 81.5%, whereas GPT-4 achieved 83.6%. Interestingly, when combining GPT-4's labels with crowd labels collected via an advanced worker interface for aggregation, 2 out of the 8 algorithms achieved an even higher accuracy (87.5%, 87.0%). Further analysis suggested that, when the crowd's and GPT-4's labeling strengths are complementary, aggregating them could increase labeling accuracy.
翻訳日:2024-02-29 17:33:26 公開日:2024-02-26
# 医用画像における神経放射場 : 課題と次のステップ

Neural Radiance Fields in Medical Imaging: Challenges and Next Steps ( http://arxiv.org/abs/2402.17797v1 )

ライセンス: Link先を確認
Xin Wang, Shu Hu, Heng Fan, Hongtu Zhu, Xin Li(参考訳) コンピュータビジョンの先駆的技術であるNeRF(Neural Radiance Fields)は、投影された2次元画像データから3次元表現を合成することにより、医用画像に革命をもたらす大きな可能性を提供する。 しかし、医療応用にはユニークな課題がある。 本稿では,NeRFの医用画像への応用を包括的に検討し,画像の基本原理,内部構造要件,オブジェクト境界定義,色密度の4つの重要な課題について述べる。 異なる臓器の現在の方法について議論し、関連する限界について論じる。 また、いくつかのデータセットと評価指標をレビューし、今後の研究に有望な方向性をいくつか提案する。

Neural Radiance Fields (NeRF), as a pioneering technique in computer vision, offer great potential to revolutionize medical imaging by synthesizing three-dimensional representations from the projected two-dimensional image data. However, they face unique challenges when applied to medical applications. This paper presents a comprehensive examination of applications of NeRFs in medical imaging, highlighting four imminent challenges, including fundamental imaging principles, inner structure requirement, object boundary definition, and color density significance. We discuss current methods on different organs and discuss related limitations. We also review several datasets and evaluation metrics and propose several promising directions for future research.
翻訳日:2024-02-29 17:21:39 公開日:2024-02-26
# 意外な失敗? マルチモーダルLCMとNLVRチャレンジ

A Surprising Failure? Multimodal LLMs and the NLVR Challenge ( http://arxiv.org/abs/2402.17793v1 )

ライセンス: Link先を確認
Anne Wu, Kiant\'e Brantley, Yoav Artzi(参考訳) 本研究では,GPT-4V,Gemini Pro,オープンソースモデルIDEFICSの3つの最先端MLLMを,合成自然言語ビジョン推論タスクNLVR上で評価する。 合成画像と組み合わされた人文が与えられた場合、このタスクは、画像に関する文の真理値を決定するためにモデルを必要とする。 これらのモデルで示される強い性能にもかかわらず、構成的・空間的推論を必要とするNLVRでは性能が悪く、意味的・体系的バイアスに対して堅牢である。

This study evaluates three state-of-the-art MLLMs -- GPT-4V, Gemini Pro, and the open-source model IDEFICS -- on the compositional natural language vision reasoning task NLVR. Given a human-written sentence paired with a synthetic image, this task requires the model to determine the truth value of the sentence with respect to the image. Despite the strong performance demonstrated by these models, we observe they perform poorly on NLVR, which was constructed to require compositional and spatial reasoning, and to be robust for semantic and systematic biases.
翻訳日:2024-02-29 17:21:21 公開日:2024-02-26
# 多様体データのカーネル2サンプルテスト

Kernel Two-Sample Tests for Manifold Data ( http://arxiv.org/abs/2105.03425v4 )

ライセンス: Link先を確認
Xiuyuan Cheng, Yao Xie(参考訳) 本稿では,高次元の観測が低次元の多様体に近いことを前提として,最大平均離散性(MMD)に関連するカーネルベースの2サンプルテスト統計量について述べる。 本稿では, カーネル帯域幅, サンプル数, 多様体の内在的次元性に関して, テストレベルとパワーを特徴付ける。 具体的には、データ密度 $p$ と $q$ が $m$-次元空間に埋め込まれた$d$-dimensional sub-manifold ${m}$ でサポートされ、${m}$ で$\beta$ (up to 2) のオーダーで h\"older であるとき、有限サンプルサイズ $n$ に対するテストパワーの保証が $d$, $\beta$, $\delta_2$ 多様体上の$l^2$-divergence と $p$ と $q$ と、適切に選択されたカーネル帯域 $\gamma$ で証明される。 小さな密度のずれに対して、$\Delta_2$ が $n^{- { 2 \beta/(d + 4 \beta ) }} より大きいときのカーネルテストにより、$n$ で検出できることを示し、$\gamma$ scales as $n^{-1/(d+4\beta)}$である。 解析は多様体が境界を持ち、データサンプルが高次元の付加ノイズを含む場合にまで拡張される。 この結果は,低次元多様体上あるいは近傍にデータを置く場合,カーネルの2サンプルテストは,ストローク・オブ・次元性を持たないことを示す。 我々は, 数値実験により, 多様体データに対するカーネルテストの理論と特性を検証した。

We present a study of a kernel-based two-sample test statistic related to the Maximum Mean Discrepancy (MMD) in the manifold data setting, assuming that high-dimensional observations are close to a low-dimensional manifold. We characterize the test level and power in relation to the kernel bandwidth, the number of samples, and the intrinsic dimensionality of the manifold. Specifically, when data densities $p$ and $q$ are supported on a $d$-dimensional sub-manifold ${M}$ embedded in an $m$-dimensional space and are H\"older with order $\beta$ (up to 2) on ${M}$, we prove a guarantee of the test power for finite sample size $n$ that exceeds a threshold depending on $d$, $\beta$, and $\Delta_2$ the squared $L^2$-divergence between $p$ and $q$ on the manifold, and with a properly chosen kernel bandwidth $\gamma$. For small density departures, we show that with large $n$ they can be detected by the kernel test when $\Delta_2$ is greater than $n^{- { 2 \beta/( d + 4 \beta ) }}$ up to a certain constant and $\gamma$ scales as $n^{-1/(d+4\beta)}$. The analysis extends to cases where the manifold has a boundary and the data samples contain high-dimensional additive noise. Our results indicate that the kernel two-sample test has no curse-of-dimensionality when the data lie on or near a low-dimensional manifold. We validate our theory and the properties of the kernel test for manifold data through a series of numerical experiments.
翻訳日:2024-02-29 01:33:00 公開日:2024-02-26
# ゲージ不変量子熱力学:第一法則の結果

Gauge invariant quantum thermodynamics: consequences for the first law ( http://arxiv.org/abs/2104.10153v5 )

ライセンス: Link先を確認
Lucas Chibebe C\'eleri and {\L}ukasz Rudnicki(参考訳) 古典的熱力学の普遍性は中心極限定理に依拠しており、熱ゆらぎの測定はマクロな体の微細構造に関する詳細な情報を明らかにすることができない。 小さな系が考慮され変動が重要になるとき、古典確率力学の文脈で熱力学量を理解することができる。 熱力学の基本的な前提は粗粒化であり、これは全ての自由度に対する制御の欠如に起因する。 しかし、量子システムに関する場合、高いレベルの制御が要求される。 その結果、情報理論は熱力学関数の同定に重要な役割を果たしている。 ここでは、すべての現代的な物理理論に不可欠なゲージ対称性の概念から、我々は新しい可能な中間経路を提唱した。 量子熱力学の分野では、熱力学の背後にある粗粒の緩やかな変種をエンコードする物理的動機付けゲージ変換を明示的に構成する。 結果として、量子ワークと熱を再解釈すると同時に、量子コヒーレンスの役割も再解釈する。

Universality of classical thermodynamics rests on the central limit theorem, due to which, measurements of thermal fluctuations are unable to reveal detailed information regarding the microscopic structure of a macroscopic body. When small systems are considered and fluctuations become important, thermodynamic quantities can be understood in the context of classical stochastic mechanics. A fundamental assumption behind thermodynamics is therefore that of coarse-graning, which stems from a substantial lack of control over all degrees of freedom. However, when quantum systems are concerned, one claims a high level of control. As a consequence, information theory plays a major role in the identification of thermodynamic functions. Here, drawing from the concept of gauge symmetry, essential in all modern physical theories, we put forward a new possible, intermediate route. Working within the realm of quantum thermodynamics we explicitly construct physically motivated gauge transformations which encode a gentle variant of coarse-graining behind thermodynamics. As a consequence, we reinterpret quantum work and heat, as well as the role of quantum coherence.
翻訳日:2024-02-29 01:32:20 公開日:2024-02-26
# 量子擬似性と古典的複雑度

Quantum Pseudorandomness and Classical Complexity ( http://arxiv.org/abs/2103.09320v4 )

ライセンス: Link先を確認
William Kretschmer(参考訳) 私たちは、$\mathsf{bqp} = \mathsf{qma}$であるが、暗号的擬似乱数量子状態と擬似乱数ユニタリ変換が存在する量子オラクルを構築し、疑似乱数状態が量子マーリン=アーサーの敵によって「ブローク」できるという事実から直観に反する結果を得る。 このニュアンスは、量子入力と古典入力を演算するアルゴリズムの区別の結果、どのように生じるかを説明する。 一方, 擬似乱数状態を構成するためには, $\mathsf{bqp} = \mathsf{pp}$ のとき, 擬似乱数状態が存在しないことを証明し, 計算複雑性の仮定が必要であることを示した。 我々は、これらの結果が暗号、複雑性理論、量子トモグラフィに与える影響について論じる。

We construct a quantum oracle relative to which $\mathsf{BQP} = \mathsf{QMA}$ but cryptographic pseudorandom quantum states and pseudorandom unitary transformations exist, a counterintuitive result in light of the fact that pseudorandom states can be "broken" by quantum Merlin-Arthur adversaries. We explain how this nuance arises as the result of a distinction between algorithms that operate on quantum and classical inputs. On the other hand, we show that some computational complexity assumption is needed to construct pseudorandom states, by proving that pseudorandom states do not exist if $\mathsf{BQP} = \mathsf{PP}$. We discuss implications of these results for cryptography, complexity theory, and quantum tomography.
翻訳日:2024-02-29 01:31:27 公開日:2024-02-26
# 高精度デキスタラスロボット操作のための迷路型二分解能深部模倣学習

Gaze-based dual resolution deep imitation learning for high-precision dexterous robot manipulation ( http://arxiv.org/abs/2102.01295v3 )

ライセンス: Link先を確認
Heecheol Kim, Yoshiyuki Ohmura, and Yasuo Kuniyoshi(参考訳) 針のスレッディングのような高精度な操作作業は困難である。 生理学的研究は、低解像度の周辺視覚と高速移動をつなげて物体の近傍に手を運ぶことを提案し、高分解能の焦点視覚を用いて物体への正確な手のホーミングを実現する。 本研究は,人間の視線に基づく双対分解能振動子制御システムにインスパイアされた,深層模倣学習に基づく手法が針縫い作業の解決を可能にすることを示す。 まず,ロボットを遠隔操作している操作者の視線の動きを記録した。 次に,視線周辺の高分解能画像のみを用いて,目標近傍の糸位置を正確に制御した。 我々は低解像度の周辺画像を用いて目標付近に到達した。 本研究で得られた実験結果は,汎用ロボットマニピュレータを用いた高精度操作が可能であり,計算効率が向上することを示す。

A high-precision manipulation task, such as needle threading, is challenging. Physiological studies have proposed connecting low-resolution peripheral vision and fast movement to transport the hand into the vicinity of an object, and using high-resolution foveated vision to achieve the accurate homing of the hand to the object. The results of this study demonstrate that a deep imitation learning based method, inspired by the gaze-based dual resolution visuomotor control system in humans, can solve the needle threading task. First, we recorded the gaze movements of a human operator who was teleoperating a robot. Then, we used only a high-resolution image around the gaze to precisely control the thread position when it was close to the target. We used a low-resolution peripheral image to reach the vicinity of the target. The experimental results obtained in this study demonstrate that the proposed method enables precise manipulation tasks using a general-purpose robot manipulator and improves computational efficiency.
翻訳日:2024-02-29 01:31:10 公開日:2024-02-26
# 実値関数に対する谷本型核の一般化について

On the generalization of Tanimoto-type kernels to real valued functions ( http://arxiv.org/abs/2007.05943v2 )

ライセンス: Link先を確認
Sandor Szedmak (1) Eric Bach (1) ((1) Department of Computer Science, Aalto University)(参考訳) 谷本カーネル(Jaccard index)は、バイナリ属性の集合間の類似性を記述するためのよく知られたツールである。 属性が非負の実値である場合に拡張されている。 本稿では,任意の実数値関数の類似性を測る,より一般的な谷本カーネルの定式化を提案する。 この拡張は、適切に選択された集合を通して属性の表現を統一することで構成される。 カーネルの一般形式を導出した後、カーネル関数から明示的な特徴表現を抽出し、一般カーネルを谷本カーネルに単純に組み込む方法を示す。 最後に、カーネルを分割線形関数の商として表現し、滑らかな近似を提供する。

The Tanimoto kernel (Jaccard index) is a well known tool to describe the similarity between sets of binary attributes. It has been extended to the case when the attributes are nonnegative real values. This paper introduces a more general Tanimoto kernel formulation which allows to measure the similarity of arbitrary real-valued functions. This extension is constructed by unifying the representation of the attributes via properly chosen sets. After deriving the general form of the kernel, explicit feature representation is extracted from the kernel function, and a simply way of including general kernels into the Tanimoto kernel is shown. Finally, the kernel is also expressed as a quotient of piecewise linear functions, and a smooth approximation is provided.
翻訳日:2024-02-29 01:30:55 公開日:2024-02-26
# リアルタイム入札オークションにおける広告のオンライン因果推論

Online Causal Inference for Advertising in Real-Time Bidding Auctions ( http://arxiv.org/abs/1908.08600v4 )

ライセンス: Link先を確認
Caio Waisman, Harikesh S. Nair, Carlos Carrion(参考訳) リアルタイム入札(RTB)システムは、オークションを利用して競合する広告主にユーザー印象を割り当て、デジタル広告の成功を楽しみ続けている。 このような広告の有効性を評価することは、研究と実践における課題である。 本稿では,このようなメカニズムを用いて購入した広告に対して因果推論を行う新しい手法を提案する。 第一価格と第二価格のオークションの経済構造を活用することで、広告の効果が最適入札によって識別されることを示す。 したがって、これらの最適入札は回収すべき唯一の対象であるので、この入札の回収に成功するマルチアームバンディット問題を解決するために、トンプソンサンプリング(ts)アルゴリズムを導入することで、実験コストを最小化しながら広告の効果を生かすことができる。 広告効果を推定する一般的な手法よりも優れていることを示すために,RTBオークションのデータを用いたアルゴリズムを最適に並べた。

Real-time bidding (RTB) systems, which utilize auctions to allocate user impressions to competing advertisers, continue to enjoy success in digital advertising. Assessing the effectiveness of such advertising remains a challenge in research and practice. This paper proposes a new approach to perform causal inference on advertising bought through such mechanisms. Leveraging the economic structure of first- and second-price auctions, we first show that the effects of advertising are identified by the optimal bids. Hence, since these optimal bids are the only objects that need to be recovered, we introduce an adapted Thompson sampling (TS) algorithm to solve a multi-armed bandit problem that succeeds in recovering such bids and, consequently, the effects of advertising while minimizing the costs of experimentation. We derive a regret bound for our algorithm which is order optimal and use data from RTB auctions to show that it outperforms commonly used methods that estimate the effects of advertising.
翻訳日:2024-02-29 01:30:25 公開日:2024-02-26
# 深い一般化されたマックスプール

Deep Generalized Max Pooling ( http://arxiv.org/abs/1908.05040v2 )

ライセンス: Link先を確認
Vincent Christlein, Lukas Spranger, Mathias Seuret, Anguelos Nicolaou, Pavel Kr\'al, Andreas Maier(参考訳) グローバルプール層は畳み込みニューラルネットワーク(cnn)の重要な部分である。 それらは空間的位置の活性化を集約し、いくつかの最先端CNNで固定サイズのベクトルを生成するために使用される。 グローバル平均プーリング(Global average pooling)は、可変サイズの画像の畳み込み特性を固定サイズの埋め込みに変換するために一般的に用いられる。 しかし、どちらのプール層も空間的に独立に計算され、それぞれのアクティベーションマップがプール化され、異なる場所のアクティベーションがプール化される。 対照的に,空間的にコヒーレントな領域のすべての活性化の寄与を均衡させ,すべての記述子を再重み付けすることにより,頻繁かつ希少な領域の影響を均等化する深い一般化マックスプーリングを提案する。 この層は、中古写本の分類(CLAMM'16, CLAMM'17)と著者識別(Historical-WI'17)において、平均と最大のプールよりも優れていることを示す。

Global pooling layers are an essential part of Convolutional Neural Networks (CNN). They are used to aggregate activations of spatial locations to produce a fixed-size vector in several state-of-the-art CNNs. Global average pooling or global max pooling are commonly used for converting convolutional features of variable size images to a fix-sized embedding. However, both pooling layer types are computed spatially independent: each individual activation map is pooled and thus activations of different locations are pooled together. In contrast, we propose Deep Generalized Max Pooling that balances the contribution of all activations of a spatially coherent region by re-weighting all descriptors so that the impact of frequent and rare ones is equalized. We show that this layer is superior to both average and max pooling on the classification of Latin medieval manuscripts (CLAMM'16, CLAMM'17), as well as writer identification (Historical-WI'17).
翻訳日:2024-02-29 01:30:08 公開日:2024-02-26
# 電子健康記録データを用いた樹木誘導型希少特徴選択と論理アグリゲーション

Tree-Guided Rare Feature Selection and Logic Aggregation with Electronic Health Records Data ( http://arxiv.org/abs/2206.09107v2 )

ライセンス: Link先を確認
Jianmin Chen, Robert H. Aseltine, Fei Wang, Kun Chen(参考訳) 電子健康記録(ehr)データの解析において、多くの希少な二進性特徴を持つ統計的学習は、特に先行医療診断と処置を伴う疾患発症のモデリングにおいてよく見られる。 従来の手法はテストの力不足やモデルフィッティングの一貫性の欠如に悩まされる一方で、機械学習の手法では解釈可能な結果や臨床的に意味のあるリスク要因を発生できないという問題もある。 病気分類の自然な階層構造を生かし,EHRに基づくモデリングを改善するために,希少な二分特徴を持つ大規模回帰のための木誘導特徴選択と論理集約手法を提案する。 組合せ問題を線形拘束正規化推定に変換し, 理論的な保証によりスケーラブルな計算が可能となる。 EHRデータを用いた自殺リスクスタディでは,国際疾患分類の診断階層が示すように,従来の精神保健診断を選択・集約することが可能である。 EHR診断記録の希少性と特異性のバランスをとることで,予測とモデル解釈の両方を改善することができる。 自殺リスクの予測において,精神疾患の重要な上位カテゴリーと下位カテゴリを特定し,それぞれに必要な特異度を同時に決定する。

Statistical learning with a large number of rare binary features is commonly encountered in analyzing electronic health records (EHR) data, especially in the modeling of disease onset with prior medical diagnoses and procedures. Dealing with the resulting highly sparse and large-scale binary feature matrix is notoriously challenging as conventional methods may suffer from a lack of power in testing and inconsistency in model fitting while machine learning methods may suffer from the inability of producing interpretable results or clinically-meaningful risk factors. To improve EHR-based modeling and utilize the natural hierarchical structure of disease classification, we propose a tree-guided feature selection and logic aggregation approach for large-scale regression with rare binary features, in which dimension reduction is achieved through not only a sparsity pursuit but also an aggregation promoter with the logic operator of ``or''. We convert the combinatorial problem into a convex linearly-constrained regularized estimation, which enables scalable computation with theoretical guarantees. In a suicide risk study with EHR data, our approach is able to select and aggregate prior mental health diagnoses as guided by the diagnosis hierarchy of the International Classification of Diseases. By balancing the rarity and specificity of the EHR diagnosis records, our strategy improves both prediction and model interpretation. We identify important higher-level categories and subcategories of mental health conditions and simultaneously determine the level of specificity needed for each of them in predicting suicide risk.
翻訳日:2024-02-29 01:26:04 公開日:2024-02-26
# オフラインゼロサムマルコフゲームのためのモデルベース強化学習

Model-Based Reinforcement Learning for Offline Zero-Sum Markov Games ( http://arxiv.org/abs/2206.04044v2 )

ライセンス: Link先を確認
Yuling Yan and Gen Li and Yuxin Chen and Jianqing Fan(参考訳) 本稿では,オフラインデータから2プレイヤーゼロサムマルコフゲームにおけるナッシュ均衡の学習に向けて前進する。 具体的には、$s$状態を持つ$\gamma$-discounted infinite-horizon markovゲームを考えると、max-playerは$a$アクションを持ち、min-playerは$b$アクションを持つ。 我々は、ベルンシュタイン型低信頼境界を持つ悲観的モデルベースアルゴリズム(VI-LCB-Game)を提案する。これは、$\varepsilon$-approximate Nash平衡を、$\frac{C_{\mathsf{clipped}}^{\star}S(A+B)}{(1-\gamma)^{3}\varepsilon^{2}}$(いくつかのログファクターまで)以上の複雑さで証明できる。 ここで、$C_{\mathsf{clipped}}^{\star}$は、利用可能なデータのカバレッジと分散シフト(vis-\`a-vis the target data)を反映する一方的なクリップされた集中係数であり、ターゲット精度$\varepsilon$は$\big(0,\frac{1}{1-\gamma}\big]$内の任意の値である。 我々のサンプルの複雑さは、$\min\{A,B\}$の係数で先行技術を強化し、$\varepsilon$-range全体のミニマックス最適性を達成する。 この結果の特長はアルゴリズムの単純さであり, サンプル最適性を達成するために, 分散低減とサンプル分割の必要性を明らかにする。

This paper makes progress towards learning Nash equilibria in two-player zero-sum Markov games from offline data. Specifically, consider a $\gamma$-discounted infinite-horizon Markov game with $S$ states, where the max-player has $A$ actions and the min-player has $B$ actions. We propose a pessimistic model-based algorithm with Bernstein-style lower confidence bounds -- called VI-LCB-Game -- that provably finds an $\varepsilon$-approximate Nash equilibrium with a sample complexity no larger than $\frac{C_{\mathsf{clipped}}^{\star}S(A+B)}{(1-\gamma)^{3}\varepsilon^{2}}$ (up to some log factor). Here, $C_{\mathsf{clipped}}^{\star}$ is some unilateral clipped concentrability coefficient that reflects the coverage and distribution shift of the available data (vis-\`a-vis the target data), and the target accuracy $\varepsilon$ can be any value within $\big(0,\frac{1}{1-\gamma}\big]$. Our sample complexity bound strengthens prior art by a factor of $\min\{A,B\}$, achieving minimax optimality for the entire $\varepsilon$-range. An appealing feature of our result lies in algorithmic simplicity, which reveals the unnecessity of variance reduction and sample splitting in achieving sample optimality.
翻訳日:2024-02-29 01:25:38 公開日:2024-02-26
# 熱平衡条件下でのナノ粒子とグラフェンのカシミール-ポルダーアトラクションと反発

Casimir-Polder attraction and repulsion between nanoparticles and graphene in out-of-thermal-equilibrium conditions ( http://arxiv.org/abs/2205.13518v2 )

ライセンス: Link先を確認
G. L. Klimchitskaya, V. M. Mostepanenko, and O. Yu. Tsybin(参考訳) ナノ粒子とグラフェンシート間の非平衡カシミール・ポルダー力について, 偏光テンソルの定式化を用いたディラックモデルの枠組みを用いて検討した。 その結果, グラフェンシートの温度が上昇するにつれて, 力の大きさが増加することがわかった。 より大きな分離では、力に対する非平衡状態の影響が小さくなる。 以上の結果から, グラフェンシートの温度が環境よりも小さい場合, カシミール・ポルダー力は特定のナノ粒子-グラフェン分離で消滅し, より大きな分離で反発することがわかった。 この効果は、グラフェンの基礎研究とバイオエレクトロニクスのマイクロデバイスにおける力の制御の両方に応用できる。

The nonequilibrium Casimir-Polder force between a nanoparticle and a graphene sheet kept at different temperatures is investigated in the framework of Dirac model using the formalism of the polarization tensor. It is shown that the force magnitude increases with increasing temperature of a graphene sheet. At larger separations an impact of nonequilibrium conditions on the force becomes smaller. According to our results, the attractive Casimir-Polder force vanishes at some definite nanoparticle-graphene separation and becomes repulsive at larger separations if the temperature of a graphene sheet is smaller than that of the environment. This effect may find applications both in fundamental investigations of graphene and for the control of forces in microdevices of bioelectronics.
翻訳日:2024-02-29 01:24:23 公開日:2024-02-26
# ディープニューラルネットワークを用いたデータ駆動型ロバスト統計調停戦略の検出

Detecting data-driven robust statistical arbitrage strategies with deep neural networks ( http://arxiv.org/abs/2203.03179v4 )

ライセンス: Link先を確認
Ariel Neufeld, Julian Sester, Daiying Yin(参考訳) 我々は、金融市場における堅牢な統計的仲裁戦略を識別できるディープニューラルネットワークに基づくアプローチを提案する。 ロバストな統計仲裁戦略は、モデルあいまいさの下で利益のある取引を可能にする取引戦略を指す。 提案手法は,大量の証券を同時に考慮することが可能であり,統合資産の識別には依存しないため,高次元金融市場や古典的対取引アプローチが失敗する市場では適用可能である。 さらに、観測された市場データから導出可能な許容確率尺度のあいまい性セットを構築する方法を提案する。 したがって、このアプローチはモデルフリーであり、データ駆動であると考えることができる。 金融危機時の50次元においても高い利益率の取引実績と資産対の合併関係が持続しなくなった場合においても,実証調査を行うことにより,本手法の適用性を示す。

We present an approach, based on deep neural networks, that allows identifying robust statistical arbitrage strategies in financial markets. Robust statistical arbitrage strategies refer to trading strategies that enable profitable trading under model ambiguity. The presented novel methodology allows to consider a large amount of underlying securities simultaneously and does not depend on the identification of cointegrated pairs of assets, hence it is applicable on high-dimensional financial markets or in markets where classical pairs trading approaches fail. Moreover, we provide a method to build an ambiguity set of admissible probability measures that can be derived from observed market data. Thus, the approach can be considered as being model-free and entirely data-driven. We showcase the applicability of our method by providing empirical investigations with highly profitable trading performances even in 50 dimensions, during financial crises, and when the cointegration relationship between asset pairs stops to persist.
翻訳日:2024-02-29 01:23:59 公開日:2024-02-26
# ロボットのいない訓練ロボット:マスター・ツー・ロボット政策伝達のための深層模倣学習

Training Robots without Robots: Deep Imitation Learning for Master-to-Robot Policy Transfer ( http://arxiv.org/abs/2202.09574v2 )

ライセンス: Link先を確認
Heecheol Kim, Yoshiyuki Ohmura, Akihiko Nagakubo, and Yasuo Kuniyoshi(参考訳) 深層模倣学習は、デモサンプルのみを必要とするため、ロボット操作に有望である。 本研究では,強いフィードバックを必要とするタスクに対して,深い模倣学習を適用する。 両者の遠隔操作は複雑な制御方式を必要とし、高価であり、審美的指導は人間の介入による視覚障害に苦しむ。 本研究は、力覚フィードバックに基づく操作タスクをロボットに教える必要がない新しいM2Rポリシー伝達システムを提案する。 人間は、コントローラを使用してタスクを直接示します。 このコントローラはロボットアームの運動パラメータに似ており、力/トルク(F/T)センサーを備えた同じエンドエフェクターを用いて力フィードバックを測定する。 このコントローラを使用すると、オペレータは双方向のシステムなしで力フィードバックを感じることができる。 提案手法は,視線に基づく模倣学習と単純な校正手法を用いて,マスタとロボット間の領域ギャップを克服する。 さらに、F/Tセンサ入力からポリシーを推測するためにトランスフォーマーを適用する。 提案システムは, 強制フィードバックを必要とするボトルキャップ開放作業に基づいて評価した。

Deep imitation learning is promising for robot manipulation because it only requires demonstration samples. In this study, deep imitation learning is applied to tasks that require force feedback. However, existing demonstration methods have deficiencies; bilateral teleoperation requires a complex control scheme and is expensive, and kinesthetic teaching suffers from visual distractions from human intervention. This research proposes a new master-to-robot (M2R) policy transfer system that does not require robots for teaching force feedback-based manipulation tasks. The human directly demonstrates a task using a controller. This controller resembles the kinematic parameters of the robot arm and uses the same end-effector with force/torque (F/T) sensors to measure the force feedback. Using this controller, the operator can feel force feedback without a bilateral system. The proposed method can overcome domain gaps between the master and robot using gaze-based imitation learning and a simple calibration method. Furthermore, a Transformer is applied to infer policy from F/T sensory input. The proposed system was evaluated on a bottle-cap-opening task that requires force feedback.
翻訳日:2024-02-29 01:23:43 公開日:2024-02-26
# ハイパーポイントシーケンスに基づくリアルタイム3次元行動認識

Real-time 3D human action recognition based on Hyperpoint sequence ( http://arxiv.org/abs/2111.08492v3 )

ライセンス: Link先を確認
Xing Li, Qian Huang, Zhijian Wang, Zhenjie Hou, Tianjin Yang, Zhuang Miao(参考訳) リアルタイム3dヒューマンアクション認識は、監視、人間とコンピュータのインタラクション、医療監視などの幅広い産業応用がある。 複雑な時空間の局所符号化に頼ることで、既存のクラウドシーケンスネットワークは時空間の局所構造をキャプチャして3次元の人間の行動を認識する。 ポイントクラウドシーケンスモデリングタスクを簡略化するために,リアルタイム3次元動作認識のためのシーケンシャルポイントネットと呼ばれる軽量かつ効果的なポイントクラウドシーケンスネットワークを提案する。 SequentialPointNetは、時空間構造をキャプチャする代わりに、静的な外見の時間的進化をコード化し、人間の行動を認識する。 まず,人間の時間変化をより正確に表現するために,新しい種類の点データであるハイパーポイント(hyperpoint)を定義する。 点雲列をハイパーポイント列に変換するための情報等価性を明らかにする理論的基礎を提供する。 次に、ポイントクラウドシーケンスモデリングタスクを、ハイパーポイント埋め込みタスクとハイパーポイントシーケンスモデリングタスクに分解する。 特に、ハイパーポイント埋め込みでは、ポイントクラウドシーケンスをハイパーポイントシーケンスに変換するために静的ポイントクラウド技術を使用し、フレームレベルの並列性を導入している。 広く使われている3つの3Dアクション認識データセットの大規模な実験により、提案されたSequentialPointNetは、既存のアプローチよりも最大10倍高速で、競合する分類性能を達成することが示された。

Real-time 3D human action recognition has broad industrial applications, such as surveillance, human-computer interaction, and healthcare monitoring. By relying on complex spatio-temporal local encoding, most existing point cloud sequence networks capture spatio-temporal local structures to recognize 3D human actions. To simplify the point cloud sequence modeling task, we propose a lightweight and effective point cloud sequence network referred to as SequentialPointNet for real-time 3D action recognition. Instead of capturing spatio-temporal local structures, SequentialPointNet encodes the temporal evolution of static appearances to recognize human actions. Firstly, we define a novel type of point data, Hyperpoint, to better describe the temporally changing human appearances. A theoretical foundation is provided to clarify the information equivalence property for converting point cloud sequences into Hyperpoint sequences. Secondly, the point cloud sequence modeling task is decomposed into a Hyperpoint embedding task and a Hyperpoint sequence modeling task. Specifically, for Hyperpoint embedding, the static point cloud technology is employed to convert point cloud sequences into Hyperpoint sequences, which introduces inherent frame-level parallelism; for Hyperpoint sequence modeling, a Hyperpoint-Mixer module is designed as the basic building block to learning the spatio-temporal features of human actions. Extensive experiments on three widely-used 3D action recognition datasets demonstrate that the proposed SequentialPointNet achieves competitive classification performance with up to 10X faster than existing approaches.
翻訳日:2024-02-29 01:22:42 公開日:2024-02-26
# 両腕ロボット操作のためのトランスフォーマーを用いた深部模倣学習

Transformer-based deep imitation learning for dual-arm robot manipulation ( http://arxiv.org/abs/2108.00385v2 )

ライセンス: Link先を確認
Heecheol Kim, Yoshiyuki Ohmura, Yasuo Kuniyoshi(参考訳) 深層模倣学習は環境モデルや事前にプログラムされたロボットの動作を必要としないため、巧妙な操作タスクの解決に有望である。 しかし、デュアルアーム操作タスクへの応用は依然として困難である。 デュアルアーム操作のセットアップでは、追加のロボットマニピュレータによって引き起こされる状態次元の増大が障害を引き起こし、結果としてニューラルネットワークの性能が低下する。 我々は,シーケンシャル入力における要素間の依存関係を計算し,重要な要素に焦点を当てたセルフアテンション機構を用いてこの問題に対処する。 自己注意型アーキテクチャの変種であるTransformerは、実世界のデュアルアーム操作タスクを解決するために、深層模倣学習に適用される。 提案手法は実ロボットを用いた双腕操作タスクでテストされている。 実験結果から,トランスフォーマベースの深層模倣学習アーキテクチャは,感覚入力中の重要な特徴に適応できるため,自己着脱機構を伴わないベースラインアーキテクチャと比較して,邪魔や操作性能の向上が期待できることがわかった。

Deep imitation learning is promising for solving dexterous manipulation tasks because it does not require an environment model and pre-programmed robot behavior. However, its application to dual-arm manipulation tasks remains challenging. In a dual-arm manipulation setup, the increased number of state dimensions caused by the additional robot manipulators causes distractions and results in poor performance of the neural networks. We address this issue using a self-attention mechanism that computes dependencies between elements in a sequential input and focuses on important elements. A Transformer, a variant of self-attention architecture, is applied to deep imitation learning to solve dual-arm manipulation tasks in the real world. The proposed method has been tested on dual-arm manipulation tasks using a real robot. The experimental results demonstrated that the Transformer-based deep imitation learning architecture can attend to the important features among the sensory inputs, therefore reducing distractions and improving manipulation performance when compared with the baseline architecture without the self-attention mechanisms.
翻訳日:2024-02-29 01:21:35 公開日:2024-02-26
# ベストアーム識別における文脈情報の役割

The Role of Contextual Information in Best Arm Identification ( http://arxiv.org/abs/2106.14077v3 )

ライセンス: Link先を確認
Masahiro Kato and Kaito Ariu(参考訳) 確率的バンディットにおいて文脈情報(共変量)が利用可能である場合、最良のアーム識別問題を一定の信頼性で検討する。 各ラウンドでコンテキスト情報を使用することは可能ですが、文脈分布よりも余分な平均報酬に関心があります。 私たちのゴールは、エラー率の所定の値の下で最小限のサンプリング数で最適なアームを特定することです。 この問題に対して、インスタンス固有のサンプル複雑性の低い境界を示す。 そこで本研究では,アームの比率が最適な割り当てのセットを追跡し,期待されるアームの数が漸近的に下限に一致することを示す「トラック・アンド・ストップ」戦略の文脈対応版を提案する。 本稿では,Garivier & Kaufmann (2016) の結果と比較して,最適辺縁化平均報酬の同定効率を向上させるために,文脈情報を用いることを実証する。 我々は、文脈情報がより高速なベストアーム識別に寄与することを実験的に確認する。

We study the best-arm identification problem with fixed confidence when contextual (covariate) information is available in stochastic bandits. Although we can use contextual information in each round, we are interested in the marginalized mean reward over the contextual distribution. Our goal is to identify the best arm with a minimal number of samplings under a given value of the error rate. We show the instance-specific sample complexity lower bounds for the problem. Then, we propose a context-aware version of the "Track-and-Stop" strategy, wherein the proportion of the arm draws tracks the set of optimal allocations and prove that the expected number of arm draws matches the lower bound asymptotically. We demonstrate that contextual information can be used to improve the efficiency of the identification of the best marginalized mean reward compared with the results of Garivier & Kaufmann (2016). We experimentally confirm that context information contributes to faster best-arm identification.
翻訳日:2024-02-29 01:21:17 公開日:2024-02-26
# 単一モード動作制約下におけるボソニック量子インタフェースのキャラクタリゼーションと最適化

Characterization and optimized engineering of bosonic quantum interfaces under single-mode operational constraints ( http://arxiv.org/abs/2212.05134v3 )

ライセンス: Link先を確認
Pak-Tik Fong, Sheung Chi Poon, Hoi-Kwan Lau(参考訳) 量子情報処理の無数の実装において、2つのボソニックモード間の量子インターフェースを制御することが不可欠である。 しかし、物理的な制限のため、ほとんどのプラットフォームで完全な制御性が達成されることはまれである。 本研究では,単モード操作のみが可能な最も悲観的な制約の下で,線形2モードインタフェースを完全に特徴付ける。 任意のガウス単モード演算を両モードに適用できる場合、全てのインタフェースは不変伝達強度によって特徴づけられることが分かる。 さらに,1つのモードでスクイーズが制限される現実的な状況において,許容制御の下で不変な2つの付加量,既約スクイーズおよび既約シーリングを発見する。 この特性を用いて,複数の固定コンポーネントインターフェースをカスケードすることで任意のリニアインターフェースを設計するための体系的戦略を開発した。 制限を絞ることなく、プロトコルは最適であり、少なくとも3つのコンポーネントインターフェースが必要です。 スクイーズ制約の下では、我々のプロトコルはカスケードのラウンドを2つ以上使わずに追加の不変量も設計できるように拡張できる。 また,アクティブ補助モードとのインタフェースにより,スクイーズ制限に取り組むためのリモートスクイーズスキームを提案する。

Controlling the quantum interface between two bosonic modes is essential in countless implementations of quantum information processing. However, full controllability is rarely achieved in most platforms due to specific physical limitations. In this work, we completely characterize the linear two-mode interfaces under the most pessimistic restriction that only single-mode operation is available. When arbitrary Gaussian single-mode operations can be applied to both modes, we find that every interface can be characterized by an invariant transmission strength. Moreover, in the practical situation that squeezing is restricted in one of the modes, we discover two additional quantities, irreducible squeezing and irreducible shearing, that are invariant under the allowable controls. By using this characterization, we develop systematic strategies to engineer an arbitrary linear interface through cascading multiple fixed component interfaces. Without squeezing restriction, our protocol is optimal and requires at most three component interfaces. Under the squeezing constraint, our protocol can be extended to engineer also the additional invariants by using no more than two more rounds of cascade. We also propose the remote squeezing scheme to tackle the squeezing restriction through interfacing with an active auxiliary mode.
翻訳日:2024-02-29 01:16:34 公開日:2024-02-26
# ct画像を用いた非侵襲的肝線維化スクリーニング

Non-invasive Liver Fibrosis Screening on CT Images using Radiomics ( http://arxiv.org/abs/2211.14396v2 )

ライセンス: Link先を確認
Jay J. Yoo, Khashayar Namdar, Sean Carey, Sandra E. Fischer, Chris McIntosh, Farzad Khalvati and Patrik Rogalla(参考訳) 目的: 肝のCTで肝線維症を検出するための放射能機械学習モデルの開発と評価。 方法: 肝生検およびCT検査を同時施行した症例のCT画像から, 単心線撮影で興味領域(ROI)から放射線学的特徴を抽出した。 ランダムに配置されたroisの受信者動作特性曲線(auc)下の平均試験面積に基づいて,コントラスト,正規化,機械学習モデル,特徴選択法の組み合わせを決定した。 肝線維化スクリーニングモデルの開発には,高aucとの組合せと選択された特徴を用いた。 結果: 対象は男性101名,女性68名(平均年齢=51.2年$\pm$14.7[SD])であった。 非コントラスト強調ct(auc, 0.6100; 95% ci: 0.5897, 0.6303)はコントラスト強調ct(auc, 0.5680; 95% ci: 0.5471, 0.5890)よりも優れている。 ハイパーパラメータと最高のaucが得られる特徴の組み合わせはロジスティック回帰モデルで、最大、エネルギー、クルトシス、スキューネス、小領域の高グレーレベル強調をガンマ補正で正規化した非コントラスト強化 nc ct から抽出した高グレーレベル強調を、$\gamma$ 1.5 (auc, 0.7833; 95% ci: 0.7821, 0.7845), (感度 0.9091; 95% ci: 0.9091, 0.9091) で入力した。 結論: 放射能に基づく機械学習モデルにより、NCCTの精度と高い感度で肝線維症を検出できる。 したがって、これらのモデルは非侵襲的に肝線維症をスクリーニングするために使用することができ、早期に治療可能な段階における疾患の検出に寄与する。

Objectives: To develop and evaluate a radiomics machine learning model for detecting liver fibrosis on CT of the liver. Methods: For this retrospective, single-centre study, radiomic features were extracted from Regions of Interest (ROIs) on CT images of patients who underwent simultaneous liver biopsy and CT examinations. Combinations of contrast, normalization, machine learning model, and feature selection method were determined based on their mean test Area Under the Receiver Operating Characteristic curve (AUC) on randomly placed ROIs. The combination and selected features with the highest AUC were used to develop a final liver fibrosis screening model. Results: The study included 101 male and 68 female patients (mean age = 51.2 years $\pm$ 14.7 [SD]). When averaging the AUC across all combinations, non-contrast enhanced (NC) CT (AUC, 0.6100; 95% CI: 0.5897, 0.6303) outperformed contrast-enhanced CT (AUC, 0.5680; 95% CI: 0.5471, 0.5890). The combination of hyperparameters and features that yielded the highest AUC was a logistic regression model with inputs features of maximum, energy, kurtosis, skewness, and small area high gray level emphasis extracted from non-contrast enhanced NC CT normalized using Gamma correction with $\gamma$ = 1.5 (AUC, 0.7833; 95% CI: 0.7821, 0.7845), (sensitivity, 0.9091; 95% CI: 0.9091, 0.9091). Conclusions: Radiomics-based machine learning models allow for the detection of liver fibrosis with reasonable accuracy and high sensitivity on NC CT. Thus, these models can be used to non-invasively screen for liver fibrosis, contributing to earlier detection of the disease at a potentially curable stage.
翻訳日:2024-02-29 01:16:15 公開日:2024-02-26
# 量子力学におけるリー群表現の誤差境界

Error bounds for Lie Group representations in quantum mechanics ( http://arxiv.org/abs/2211.08582v2 )

ライセンス: Link先を確認
Lauritz van Luijk, Niklas Galke, Alexander Hahn, Daniel Burgarth(参考訳) 連結リー群の強連続ユニタリ表現に対する状態依存誤差境界を提供する。 すなわち、表現に付随する基準ハミルトニアンと群上の左不変距離に関して、エネルギーの観点からある状態に適用される2つのユニタリの差を束縛する。 我々の方法は任意の連結リー群に対して作用し、計量は選択された表現とは独立である。 このアプローチは射影表現にも適用され、群の任意の好ましく連続なチャネル表現のエネルギー制限されたダイヤモンドノルム距離に境界を与えることができる。

We provide state-dependent error bounds for strongly continuous unitary representations of connected Lie groups. That is, we bound the difference of two unitaries applied to a state in terms of the energy with respect to a reference Hamiltonian associated to the representation and a left-invariant metric distance on the group. Our method works for any connected Lie group and the metric is independent of the chosen representation. The approach also applies to projective representations and allows us to provide bounds on the energy constrained diamond norm distance of any suitably continuous channel representation of the group.
翻訳日:2024-02-29 01:15:16 公開日:2024-02-26
# MRI画像を用いた脳腫瘍切片の弱教師付き生成と評価のためのジェネレーティブ・アドバイサル・ネットワーク

Generative Adversarial Networks for Weakly Supervised Generation and Evaluation of Brain Tumor Segmentations on MR Images ( http://arxiv.org/abs/2211.05269v2 )

ライセンス: Link先を確認
Jay J. Yoo, Khashayar Namdar, Matthias W. Wagner, Liana Nobre, Uri Tabori, Cynthia Hawkins, Birgit B. Ertl-Wagner, Farzad Khalvati(参考訳) 異常を識別するための関心領域(ROI)の分離は、医療画像における主要な問題である。 この問題を解決するために機械学習を使うには、一般に手動で注釈付き地中セグメンテーションが必要であり、放射線科医から幅広い時間とリソースを要求する。 本研究は, 2次元磁気共鳴画像において, 基底真理アノテーションを使わずに, 2次元画像レベルのラベルを効果的に分割する手法を提案する。 我々は,がん画像を健康な変異体に変換するGAN (generative adversarial network) を訓練し,前者は局所化種子とともに使用し,弱教師付きセグメンテーションを改良した。 非セグメンテーションの変種は、弱制御された方法でセグメンテーションを評価するためにも使用できるため、最も効果的なセグメンテーションを識別し、下流臨床分類タスクに適用することができる。 マルチモーダル脳腫瘍セグメンテーション(brats)2020データセットにおいて,提案手法は83.91%のテストサイス係数を達成するセグメンテーションを生成し,同定する。 病理分類にこれらのセグメンテーションを用いると、真のセグメンテーションを用いた場合の95.80%に匹敵する93.32%のテストaucが得られる。

Segmentation of regions of interest (ROIs) for identifying abnormalities is a leading problem in medical imaging. Using machine learning for this problem generally requires manually annotated ground-truth segmentations, demanding extensive time and resources from radiologists. This work presents a weakly supervised approach that utilizes binary image-level labels, which are much simpler to acquire, to effectively segment anomalies in 2D magnetic resonance images without ground truth annotations. We train a generative adversarial network (GAN) that converts cancerous images to healthy variants, which are used along with localization seeds as priors to generate improved weakly supervised segmentations. The non-cancerous variants can also be used to evaluate the segmentations in a weakly supervised fashion, which allows for the most effective segmentations to be identified and then applied to downstream clinical classification tasks. On the Multimodal Brain Tumor Segmentation (BraTS) 2020 dataset, our proposed method generates and identifies segmentations that achieve test Dice coefficients of 83.91%. Using these segmentations for pathology classification results with a test AUC of 93.32% which is comparable to the test AUC of 95.80% achieved when using true segmentations.
翻訳日:2024-02-29 01:14:47 公開日:2024-02-26
# 集団ロバストネス認証のための局所ランダム化平滑化

Localized Randomized Smoothing for Collective Robustness Certification ( http://arxiv.org/abs/2210.16140v3 )

ライセンス: Link先を確認
Jan Schuchardt, Tom Wollschl\"ager, Aleksandar Bojchevski, Stephan G\"unnemann(参考訳) イメージセグメンテーション、ノード分類、その他多くのタスクのモデルは、単一の入力を複数のラベルにマッピングする。 この単一の共有入力(例えば画像)を摂動させることで、敵はいくつかの予測(例えば複数のピクセルを誤分類する)を操作できる。 集合的堅牢性認証は、この脅威モデルの下で堅牢性予測の数を確実に制限するタスクである。 各出力を独立に検証する以上の唯一の専用方法は、厳密な局所モデルに限定され、各予測は小さな受容場に関連付けられる。 我々は、あらゆる種類のモデルに対してより一般的な集合的堅牢性証明を提案する。 さらに、この手法は、各出力が入力全体に依存するが、異なる入力領域(例えば、画像の近接性に基づいて)に異なるレベルの重要度を割り当てる、より大規模な局所モデルに対して有益であることを示す。 この証明は、異なる入力領域に対するランダムな摂動強度が出力に対する重要性に比例する、新しい局所的ランダム化平滑化手法に基づいている。 ローカライズされたスムーズなPareto-は、イメージセグメンテーションとノード分類タスクの両方で既存の証明書を支配し、高い精度と強力な証明書を提供する。

Models for image segmentation, node classification and many other tasks map a single input to multiple labels. By perturbing this single shared input (e.g. the image) an adversary can manipulate several predictions (e.g. misclassify several pixels). Collective robustness certification is the task of provably bounding the number of robust predictions under this threat model. The only dedicated method that goes beyond certifying each output independently is limited to strictly local models, where each prediction is associated with a small receptive field. We propose a more general collective robustness certificate for all types of models. We further show that this approach is beneficial for the larger class of softly local models, where each output is dependent on the entire input but assigns different levels of importance to different input regions (e.g. based on their proximity in the image). The certificate is based on our novel localized randomized smoothing approach, where the random perturbation strength for different input regions is proportional to their importance for the outputs. Localized smoothing Pareto-dominates existing certificates on both image segmentation and node classification tasks, simultaneously offering higher accuracy and stronger certificates.
翻訳日:2024-02-29 01:13:47 公開日:2024-02-26
# 海底環境における色付き点雲における3次元キーポイント検出器と記述器の性能評価

Performance Evaluation of 3D Keypoint Detectors and Descriptors on Coloured Point Clouds in Subsea Environments ( http://arxiv.org/abs/2209.12881v2 )

ライセンス: Link先を確認
Kyungmin Jung, Thomas Hitchcox, James Richard Forbes(参考訳) 近年の高精度海底光スキャナの開発により、3Dキーポイント検出器と特徴ディスクリプタが海底環境からの点雲スキャンで利用できるようになった。 しかし、この文献は、これらの困難で新しい環境で使用される検出器とディスクリプタの最良の組み合わせを特定するための包括的な調査を欠いている。 本稿では,商用水中レーザースキャナーを用いて収集したフィールドデータセットを用いて,最適な検出器/ディスクリプタペアを特定することを目的とする。 さらに、幾何学的特徴拡張のためのテクスチャ情報の導入は、合成データセットにおける特徴マッチングに堅牢性をもたらすことが示されている。 また,水中レーザースキャンにより色付き点雲を生成する新しい手法を提案し,この方法を用いて6次元点雲記述器の有効性について検討する。

The recent development of high-precision subsea optical scanners allows for 3D keypoint detectors and feature descriptors to be leveraged on point cloud scans from subsea environments. However, the literature lacks a comprehensive survey to identify the best combination of detectors and descriptors to be used in these challenging and novel environments. This paper aims to identify the best detector/descriptor pair using a challenging field dataset collected using a commercial underwater laser scanner. Furthermore, studies have shown that incorporating texture information to extend geometric features adds robustness to feature matching on synthetic datasets. This paper also proposes a novel method of fusing images with underwater laser scans to produce coloured point clouds, which are used to study the effectiveness of 6D point cloud descriptors.
翻訳日:2024-02-29 01:12:42 公開日:2024-02-26
# 多体量子スピン系における創発的対局在

Emergent pair localization in a many-body quantum spin system ( http://arxiv.org/abs/2207.14216v2 )

ライセンス: Link先を確認
Titus Franz, Sebastian Geier, Adrian Braemer, Cl\'ement Hainaut, Adrien Signoles, Nithiwadee Thaicharoen, Annika Tebben, Andr\'e Salzinger, Martin G\"arttner, Gerhard Z\"urn, Matthias Weidem\"uller(参考訳) 閉じた量子系が熱平衡に動的に近づく方法を理解することは、統計物理学において大きな未解決問題となる。 本質的には、非可積分量子系は固有状態熱化仮説に従って熱化することが期待されている。 しかし、強い障害の存在下では、スピングラスや多体局在系のように、システムが実験的にアクセス可能な時間スケールで熱化できない程度まで、ダイナミクスが遅くなる可能性がある。 一般に、特に長距離相互作用する量子システムにおいて、前熱的、準安定な状態の出現に必要な障害の特定の性質は、初期緩和の時間スケールとそれに続く遅い熱化の時間スケールを連続的に分離する。 ライドバーグ量子シミュレータにより実現されたランダムカップリング強度の可変分布を持つハイゼンベルクスピンのアンサンブルについて検討する。 乱れ強度の増加に伴う後期磁化の劇的な変化を観察した。 データは強い相互作用を持つスピンのペアに基づくモデルによってよく説明され、それらは弱い障害に対する熱として扱われ、強い障害のために分離される。 この結果から, エネルギー法則相互作用の指数が空間次元と一致する臨界場合において, 数千スピンの閉量子系における対局在前熱状態への交差が示唆された。

Understanding how closed quantum systems dynamically approach thermal equilibrium presents a major unresolved problem in statistical physics. Generically, non-integrable quantum systems are expected to thermalize as they comply with the Eigenstate Thermalization Hypothesis. However, in the presence of strong disorder, the dynamics can possibly slow down to a degree that systems fail to thermalize on experimentally accessible timescales, as in spin glasses or many-body localized systems. In general, particularly in long-range interacting quantum systems, the specific nature of the disorder necessary for the emergence of a prethermal, metastable state--distinctly separating the timescales of initial relaxation and subsequent slow thermalization--remains an open question. We study an ensemble of Heisenberg spins with a tunable distribution of random coupling strengths realized by a Rydberg quantum simulator. We observe a drastic change in the late-time magnetization when increasing disorder strength. The data is well described by models based on pairs of strongly interacting spins, which are treated as thermal for weak disorder and isolated for strong disorder. Our results indicate a crossover into a pair-localized prethermal regime in a closed quantum system of thousands of spins in the critical case where the exponent of the power law interaction matches the spatial dimension.
翻訳日:2024-02-29 01:12:18 公開日:2024-02-26
# 重ね合わせ量子測地線のホログラフィック特性

Holographic properties of superposed quantum geometries ( http://arxiv.org/abs/2207.07625v3 )

ライセンス: Link先を確認
Eugenia Colafranceschi, Simon Langenscheidt and Daniele Oriti(参考訳) 離散幾何データの重ね合わせを特徴とする量子幾何学状態のホログラフィック特性を一般化テンソルネットワークの形で研究する。 このクラスは特にスピンネットワーク、格子ゲージ理論のキネマティック状態、離散量子重力を含む。 量子情報チャネルに基づくホログラフィの代数的、作用素的定義を用いるが、これは我々が考えるような設定において特に有用であり、関連する状態のヒルベルト空間がゲージ不変性のためにサブシステムヒルベルト空間に分解されないような手法である。 ランダムテンソルネットワーク手法(ads/cftコンテキストで成功している)を用いて、この量子幾何学の重ね合わせに伴うバルク-境界-境界-境界マップの情報伝達特性を分析し、固定されたグラフ構造を彩色する幾何学データの平均値に関する典型的な結果を生成する。 この文脈では、エントロピー計算に対する支配的な寄与を符号化する非自明な領域作用素が自然に得られる。 我々の主な成果の1つは、バルク領域を固定された全体領域の境界に等尺的にのみマッピングできることである。 さらに、境界のセグメント間の類似した状態誘発マッピングについて問い合わせ、等尺的挙動に関する関連する条件について議論する。 これらの一般化はテンソルネットワークホログラフィーの量子重力実装をさらに進める。

We study the holographic properties of a class of quantum geometry states characterized by a superposition of discrete geometric data, in the form of generalised tensor networks. This class specifically includes spin networks, the kinematic states of lattice gauge theory and discrete quantum gravity. We employ an algebraic, operatorial definition of holography based on quantum information channels, an approach which is particularly valuable in settings, such as the one we consider, where the relevant Hilbert space of states does not factorize into subsystem Hilbert spaces due to gauge invariance. We apply random tensor network techniques (successfully used in the AdS/CFT context) to analyse information transport properties of the bulk-to-boundary and boundary-to-boundary maps associated with this superposition of quantum geometries, and produce typicality results about the average over the geometric data colouring the fixed graph structure. In this context, one naturally obtains a nontrivial area operator encoding the dominant contribution to entropy calculations. Among our main results is the requirement that one can only isometrically map a bulk region onto boundaries with fixed total area. We furthermore inquire about similar state-induced mappings between segments of the boundary, and discuss related conditions for isometric behaviour. These generalisations make further steps towards quantum gravity implementations of tensor network holography.
翻訳日:2024-02-29 01:11:54 公開日:2024-02-26
# 量子ニューラルネットワークの過パラメトリゼーションにおける雑音の影響

Effects of noise on the overparametrization of quantum neural networks ( http://arxiv.org/abs/2302.05059v2 )

ライセンス: Link先を確認
Diego Garc\'ia-Mart\'in, Martin Larocca, M. Cerezo(参考訳) オーバーパラメトリゼーションは、機械学習で最も驚き、悪名高い現象の1つである。 近年、ハードウェアノイズのない量子ニューラルネットワーク(qnn)が過度にパラメトリズされるかどうか、そしてどのように作用するかの研究がなされている。 特に、状態空間で利用可能なすべての方向を探索するのに十分なパラメータがある場合、QNNを過度にパラメータ化することができることが提案されている。 すなわち、QNNの出力状態に対する量子フィッシャー情報行列(QFIM)のランクが飽和している場合である。 本稿では,ノイズの存在が過度なパラメータ化現象に与える影響を考察する。 以上の結果から,ノイズはQFIMの事前ゼロ固有値を「オン」することができることがわかった。 これにより、パラメータ化状態がアクセス不能な方向を探索することが可能となり、オーバーパラメータ化qnnをアンダーパラメータ化状態に変換することができる。 ノイズレベルが小さい場合、QNNは、大きな固有値と小さな値が共存するため、準過度化される。 そして,ノイズの大きさが増加するにつれて,qfimの固有値が指数関数的に抑制され,パラメータの変化に対して状態が非感受性になることを示す。 このように、ノイズが新しい方向を可能にするだけでなく、パラメータ更新に対する感度も抑制できる、プル・アンド・タグ効果がある。 最後に,現在のqnnのキャパシティ測定は,ハードウェアノイズ発生時に不定義であることを示す。

Overparametrization is one of the most surprising and notorious phenomena in machine learning. Recently, there have been several efforts to study if, and how, Quantum Neural Networks (QNNs) acting in the absence of hardware noise can be overparametrized. In particular, it has been proposed that a QNN can be defined as overparametrized if it has enough parameters to explore all available directions in state space. That is, if the rank of the Quantum Fisher Information Matrix (QFIM) for the QNN's output state is saturated. Here, we explore how the presence of noise affects the overparametrization phenomenon. Our results show that noise can "turn on" previously-zero eigenvalues of the QFIM. This enables the parametrized state to explore directions that were otherwise inaccessible, thus potentially turning an overparametrized QNN into an underparametrized one. For small noise levels, the QNN is quasi-overparametrized, as large eigenvalues coexists with small ones. Then, we prove that as the magnitude of noise increases all the eigenvalues of the QFIM become exponentially suppressed, indicating that the state becomes insensitive to any change in the parameters. As such, there is a pull-and-tug effect where noise can enable new directions, but also suppress the sensitivity to parameter updates. Finally, our results imply that current QNN capacity measures are ill-defined when hardware noise is present.
翻訳日:2024-02-29 01:06:22 公開日:2024-02-26
# 一般測地線上の流れマッチング

Flow Matching on General Geometries ( http://arxiv.org/abs/2302.03660v3 )

ライセンス: Link先を確認
Ricky T. Q. Chen, Yaron Lipman(参考訳) 本稿では,多様体上の連続正規化フローをトレーニングするための簡易かつ強力なフレームワークであるリーマンフローマッチング(RFM)を提案する。 多様体上の生成モデリングの既存の方法は、高価なシミュレーションを必要とするか、本質的に高次元にスケールできないか、あるいは偏りのある訓練目的をもたらす量を制限するために近似を使用する。 リーマンフローマッチングはこれらの制限を回避し、従来のアプローチよりもいくつかの利点がある: 単純な測地ではシミュレーションが不要であり、分岐計算を必要としない、そしてその対象ベクトル場を閉形式で計算する。 RFMの背後にある重要な要素は、既存のユークリッドの場合を含む対象ベクトル場を定義するための比較的単純なプレメトリックの構築である。 一般的な測地線に拡張するために、ハエの事前測度を効率的に計算するためにスペクトル分解を用いる。 提案手法は,多くの実世界の非ユークリッドデータセットにおける最先端性能を実現し,非自明な曲率と境界を持つ三角形メッシュを含む一般測地におけるトラクタブルトレーニングを実演する。

We propose Riemannian Flow Matching (RFM), a simple yet powerful framework for training continuous normalizing flows on manifolds. Existing methods for generative modeling on manifolds either require expensive simulation, are inherently unable to scale to high dimensions, or use approximations for limiting quantities that result in biased training objectives. Riemannian Flow Matching bypasses these limitations and offers several advantages over previous approaches: it is simulation-free on simple geometries, does not require divergence computation, and computes its target vector field in closed-form. The key ingredient behind RFM is the construction of a relatively simple premetric for defining target vector fields, which encompasses the existing Euclidean case. To extend to general geometries, we rely on the use of spectral decompositions to efficiently compute premetrics on the fly. Our method achieves state-of-the-art performance on many real-world non-Euclidean datasets, and we demonstrate tractable training on general geometries, including triangular meshes with highly non-trivial curvature and boundaries.
翻訳日:2024-02-29 01:05:59 公開日:2024-02-26
# 量子機械学習におけるフーリエ級数重み

Fourier series weight in quantum machine learning ( http://arxiv.org/abs/2302.00105v2 )

ライセンス: Link先を確認
Parfait Atchade-Adelomou and Kent Larson(参考訳) 本研究では,量子機械学習モデルにおけるフーリエ級数の影響を確認することを目的とする。 この目的を達成するために、モデル、テスト、デモを提案します。 我々はハミルトニアン符号化を利用した量子機械学習を設計した。 微妙な変化により、三角法補間、二分法および多クラス分類器、および量子信号処理アプリケーションを実行した。 また,量子機械学習に基づいてフーリエ係数を近似的に決定するブロック図を提案した。 提案するすべてのモデルをpennylaneフレームワークを使って実行し,テストした。

In this work, we aim to confirm the impact of the Fourier series on the quantum machine learning model. We will propose models, tests, and demonstrations to achieve this objective. We designed a quantum machine learning leveraged on the Hamiltonian encoding. With a subtle change, we performed the trigonometric interpolation, binary and multiclass classifier, and a quantum signal processing application. We also proposed a block diagram of determining approximately the Fourier coefficient based on quantum machine learning. We performed and tested all the proposed models using the Pennylane framework.
翻訳日:2024-02-29 01:04:35 公開日:2024-02-26
# don't play favorites: 拡散モデルのためのマイノリティガイダンス

Don't Play Favorites: Minority Guidance for Diffusion Models ( http://arxiv.org/abs/2301.12334v2 )

ライセンス: Link先を確認
Soobin Um, Suhyeon Lee, Jong Chul Ye(参考訳) 拡散モデルを用いてマイノリティサンプルを生成する問題を考察する。 マイノリティサンプルは、データ多様体の低密度領域にある例である。 このようなマイノリティなインスタンスを十分な数生成することは重要である。 しかし、拡散モデルの従来の生成過程は、その高い可能性のために多数サンプル(多様体の高密度領域にある)を主に生成し、少数生成タスクでは効率が悪く、時間を要する。 本稿では,拡散モデルの生成過程をマイノリティサンプルに焦点をあてた新しい枠組みを提案する。 まず,tweedieの分別式が多数サンプルに対して良好な結果をもたらすことを強調する。 この観察は、与えられたサンプルの特異性を記述する計量を導入する動機となる。 拡散モデル(拡散モデル)の本質的な嗜好に対処するため,本研究では,所望の確率レベルを持つ領域に向けて生成プロセスを導くサンプリング手法であるマイノリティガイダンスをさらに発展させる。 実データセットのベンチマーク実験により、我々のマイノリティーガイダンスは、既存のジェネレーティブサンプルよりも高品質なマイノリティーサンプルを生成する能力を大幅に改善できることが示された。 医療画像などの実世界のシナリオを要求された場合でも,我々のフレームワークのパフォーマンス上のメリットは持続し,作業の実用的意義をさらに強調する。 コードはhttps://github.com/soobin-um/minority-guidanceで入手できる。

We explore the problem of generating minority samples using diffusion models. The minority samples are instances that lie on low-density regions of a data manifold. Generating a sufficient number of such minority instances is important, since they often contain some unique attributes of the data. However, the conventional generation process of the diffusion models mostly yields majority samples (that lie on high-density regions of the manifold) due to their high likelihoods, making themselves ineffective and time-consuming for the minority generating task. In this work, we present a novel framework that can make the generation process of the diffusion models focus on the minority samples. We first highlight that Tweedie's denoising formula yields favorable results for majority samples. The observation motivates us to introduce a metric that describes the uniqueness of a given sample. To address the inherent preference of the diffusion models w.r.t. the majority samples, we further develop minority guidance, a sampling technique that can guide the generation process toward regions with desired likelihood levels. Experiments on benchmark real datasets demonstrate that our minority guidance can greatly improve the capability of generating high-quality minority samples over existing generative samplers. We showcase that the performance benefit of our framework persists even in demanding real-world scenarios such as medical imaging, further underscoring the practical significance of our work. Code is available at https://github.com/soobin-um/minority-guidance.
翻訳日:2024-02-29 01:04:27 公開日:2024-02-26
# ダイヤモンド中の窒素$-$空孔中心における1E$一重項状態からの光イオン化の分光

Spectroscopy of photoionization from the $^1E$ singlet state in nitrogen$-$vacancy centers in diamond ( http://arxiv.org/abs/2301.10383v2 )

ライセンス: Link先を確認
Sean M. Blakley, Thuc T. Mai, Stephen J. Moxim, Jason T. Ryan, Adam J. Biacchi, Angela R. Hight Walker, Robert D. McMichael(参考訳) 負電荷の窒素空孔を持つダイヤモンドの中心の$^1E-^1A_1$シングルト多様体は、NV^-$中心の量子情報および量子センシングの応用において中心的な役割を果たす。 しかし、ダイヤモンドバンドギャップ内および$^3a_2-^3e$トリプレット多様体に関するこの多様体のエネルギーは直接測定されていない。 光ルミネッセンス(PL)スペクトルに対する電界加熱効果を用いて,高窒素ドープ試料の励起波長,出力,温度,印加磁場の関数として,$^1E-^1A_1$シングルト多様体と$^3A_2$および$^3E$グラウンドとNV^-$の励起三重項状態のエネルギーギャップを報告した。 印加磁場の存在下ではPLの増加とNV^0$からのゼロフォノン線幅の減少が観察され、長寿命の$^1E$シングルト状態からのイオン化が示唆された。 532nmから550nmの温度依存性イオン化しきい値が検出され、ダイヤモンドバンドギャップ内の一重項状態が同定された。

The $^1E-^1A_1$ singlet manifold of the negatively charged nitrogen vacancy $(NV^-)$ center in diamond plays a central role in the quantum information and quantum sensing applications of the $NV^-$ center. However, the energy of this manifold within the diamond bandgap and with respect to the $^3A_2-^3E$ triplet manifold has not been measured directly. Using field-quenching effects on photoluminescence (PL) spectra, we report on the energy gap between the $^1E-^1A_1$ singlet manifold and the $^3A_2$ and $^3E$ ground and excited triplet states of the $NV^-$ as a function of excitation wavelength and power, temperature, and applied magnetic field in a heavily nitrogen-doped sample. Increased PL and decreased zero-phonon line width from the $NV^0$ were observed in the presence of an applied magnetic field, indicating ionization from the long-lived $^1E$ singlet state. A temperature-dependent ionization threshold between 532 nm and 550 nm was found, locating the singlet states within the diamond band gap.
翻訳日:2024-02-29 01:04:04 公開日:2024-02-26
# 減算式による量子コンピューティングからの散乱振幅

Scattering Amplitude from Quantum Computing with Reduction Formula ( http://arxiv.org/abs/2301.04179v2 )

ライセンス: Link先を確認
Tianyin Li, Wai Kin Lai, Enke Wang, Hongxi Xing(参考訳) Lehmann-Symanzik-Zimmermann還元公式を用いることで、量子論における散乱振幅を量子コンピュータで完全に非摂動的に計算するための新しい一般的な枠組みを提案する。 この枠組みでは、運動量ゼロの1粒子状態のみを構築する必要があり、入ってくる粒子の波のパケットは不要である。 この枠組みは境界状態の散乱を組み込むことができ、少数の粒子を含む散乱に理想的である。 排他的ハドロン散乱に適用すると、このフレームワークに特別な利点があることを期待している。 概念実証として, 古典的ハードウェア上でのシミュレーションにより, フェルミオンプロパゲータ, 接続フェルミオン四点関数, フェルミオン反フェルミオン結合状態のプロパゲータがlehmann-symanzik-zimmermann還元式の実装に必須の極構造を持つことを実証する。

Utilizing the Lehmann-Symanzik-Zimmermann reduction formula, we present a new general framework for computing scattering amplitudes in quantum field theory with quantum computers in a fully nonperturbative way. In this framework, one only has to construct one-particle states of zero momentum, and no wave packets of incoming particles are needed. The framework is able to incorporate scatterings of bound states, and is ideal for scatterings involving a small number of particles. We expect this framework to have particular advantages when applied to exclusive hadron scatterings. As a proof of concept, by simulations on classical hardware, we demonstrate that in the one-flavor Gross-Neveu model, the fermion propagator, the connected fermion four-point function, and the propagator of a fermion-antifermion bound state obtained from our proposed quantum algorithm have the desired pole structure crucial to the implementation of the Lehmann-Symanzik-Zimmermann reduction formula.
翻訳日:2024-02-29 01:02:54 公開日:2024-02-26
# 機械学習推論の尾の質

Quality at the Tail of Machine Learning Inference ( http://arxiv.org/abs/2212.13925v3 )

ライセンス: Link先を確認
Zhengxin Yang and Wanling Gao and Chunjie Luo and Lei Wang and Fei Tang and Xu Wen and Jianfeng Zhan(参考訳) 機械学習推論は、特に安全クリティカル(自動運転など)とミッションクリティカル(感情認識など)のコンテキストにおいて、高い推論品質を確保しながら、厳密な推論時間制約を受けるべきである。 どちらの面も無視することは、生命の喪失や財産の損傷など、深刻な結果をもたらす可能性がある。 多くの研究はこれらの指標を包括的に考慮していないため、不完全あるいは誤解を招く評価に繋がる。 ディープラーニングの推論品質は、推論時間によるゆらぎを示しています。 この現象を説明するために、著者らは「テールクオリティ」という新しい用語を作成し、より包括的な評価を提供し、従来のメートル法制限を克服した。 さらに,品質変動に影響を及ぼす要因を分析し,推定品質の潜在的分布の予測を容易にするための初期評価フレームワークを提案する。 評価フレームワークの有効性は、4つのシステムにまたがる3つの異なるタスクに対するディープラーニングモデルによる実験によって検証される。

Machine learning inference should be subject to stringent inference time constraints while ensuring high inference quality, especially in safety-critical (e.g., autonomous driving) and mission-critical (e.g., emotion recognition) contexts. Neglecting either aspect can lead to severe consequences, such as loss of life and property damage. Many studies lack a comprehensive consideration of these metrics, leading to incomplete or misleading evaluations. The study unveils a counterintuitive revelation: deep learning inference quality exhibits fluctuations due to inference time. To depict this phenomenon, the authors coin a new term, "tail quality," providing a more comprehensive evaluation, and overcoming conventional metric limitations. Moreover, the research proposes an initial evaluation framework to analyze factors affecting quality fluctuations, facilitating the prediction of the potential distribution of inference quality. The effectiveness of the evaluation framework is validated through experiments conducted on deep learning models for three different tasks across four systems.
翻訳日:2024-02-29 01:01:57 公開日:2024-02-26
# オープンドメイン質問応答における偽情報攻撃の防止

Defending Against Disinformation Attacks in Open-Domain Question Answering ( http://arxiv.org/abs/2212.10002v3 )

ライセンス: Link先を確認
Orion Weller, Aleem Khan, Nathaniel Weir, Dawn Lawrie, Benjamin Van Durme(参考訳) オープンドメイン質問応答 (ODQA) の最近の研究により, 探索コレクションの敵性中毒が生産システムの精度を大幅に低下させる可能性が示されている。 しかし、これらの攻撃を防御する方法は、ほとんど、あるいは全く提案されていない。 そのためには、冗長な情報がしばしば大きなコーパスに存在するという直感に依存する。 そこで本研究では,クエリ拡張を用いて,元の質問に答えるが毒殺される可能性が低い多種多様な文を検索する手法を提案する。 提案手法は,新たな信頼度法を設計してモデルに新たなパスを組み込んだもので,予測された回答を検索した文脈におけるその外観と比較する(CAR,Answer Redundancy から Confidence と呼ぶ)。 これらの方法では、さまざまなレベルのデータ中毒/知識の衝突に対して、20%近い正確な一致をもたらす、簡易で効果的な毒殺攻撃の防御が可能になる。

Recent work in open-domain question answering (ODQA) has shown that adversarial poisoning of the search collection can cause large drops in accuracy for production systems. However, little to no work has proposed methods to defend against these attacks. To do so, we rely on the intuition that redundant information often exists in large corpora. To find it, we introduce a method that uses query augmentation to search for a diverse set of passages that could answer the original question but are less likely to have been poisoned. We integrate these new passages into the model through the design of a novel confidence method, comparing the predicted answer to its appearance in the retrieved contexts (what we call Confidence from Answer Redundancy, i.e. CAR). Together these methods allow for a simple but effective way to defend against poisoning attacks that provides gains of nearly 20% exact match across varying levels of data poisoning/knowledge conflicts.
翻訳日:2024-02-29 01:01:41 公開日:2024-02-26
# Deep Augmentation: 活性化空間におけるトランスフォーメーションによる自己改善型学習

Deep Augmentation: Self-Supervised Learning with Transformations in Activation Space ( http://arxiv.org/abs/2303.14537v2 )

ライセンス: Link先を確認
Rickard Br\"uel-Gabrielsson, Tongzhou Wang, Manel Baradad, Justin Solomon(参考訳) これは、ニューラルネットワーク内のターゲット層を変換してパフォーマンスと一般化を改善するために、ドロップアウトやpcaを用いた暗黙のデータ拡張のアプローチである。 我々は、NLP、コンピュータビジョン、グラフ学習におけるコントラスト学習タスクに関する広範な実験を通じて、Deep Augmentationを実証する。 コントラスト学習の基盤となるモデルとして,Transformer,ResNets,Graph Neural Networksによる性能向上を観測するが,対応する教師付き問題に対する逆効果を観察する。 分析の結果,Deep Augmentationは「崩壊」の一形態である層間の共適応を緩和することが示唆された。 本研究では,どの層を対象とし,どの層を対象とし,どの層を対象とするかを定式化する手法を提案する。 このアプローチの単純なネットワークとモダリティに依存しない性質は、さまざまな機械学習パイプラインへの統合を可能にする。

We introduce Deep Augmentation, an approach to implicit data augmentation using dropout or PCA to transform a targeted layer within a neural network to improve performance and generalization. We demonstrate Deep Augmentation through extensive experiments on contrastive learning tasks in NLP, computer vision, and graph learning. We observe substantial performance gains with Transformers, ResNets, and Graph Neural Networks as the underlying models in contrastive learning, but observe inverse effects on the corresponding supervised problems. Our analysis suggests that Deep Augmentation alleviates co-adaption between layers, a form of "collapse." We use this observation to formulate a method for selecting which layer to target; in particular, our experimentation reveals that targeting deeper layers with Deep Augmentation outperforms augmenting the input data. The simple network- and modality-agnostic nature of this approach enables its integration into various machine learning pipelines.
翻訳日:2024-02-29 00:55:50 公開日:2024-02-26
# 統一モデルによる化学反応前訓練と条件分子生成のギャップの橋渡し

Bridging the Gap between Chemical Reaction Pretraining and Conditional Molecule Generation with a Unified Model ( http://arxiv.org/abs/2303.06965v4 )

ライセンス: Link先を確認
Bo Qiang, Yiran Zhou, Yuheng Ding, Ningfeng Liu, Song Song, Liangren Zhang, Bo Huang, Zhenming Liu(参考訳) 化学反応は薬物設計と有機化学研究の基本的な構成要素である。 近年,化学反応の基本ルールを効率的に把握できる大規模ディープラーニングフレームワークの必要性が高まっている。 本稿では,反応表現学習と分子生成タスクの両方に対処し,より総合的なアプローチを可能にする統一的な枠組みを提案する。 有機化学機構にインスパイアされた我々は,モデルに誘導バイアスを組み込むことのできる,新しい事前学習フレームワークを開発した。 我々のフレームワークは、下流タスクに挑戦する最先端の成果を達成する。 化学知識を持つことによって、我々の生成枠組みは、少数の反応テンプレートに依存する現在の分子生成モデルの制限を克服した。 広範な実験において,本モデルは高品質の合成可能な薬物様構造を生成する。 全体として、我々の研究は、さまざまな反応ベースのアプリケーションのための大規模なディープラーニングフレームワークに向けて大きな一歩を踏み出した。

Chemical reactions are the fundamental building blocks of drug design and organic chemistry research. In recent years, there has been a growing need for a large-scale deep-learning framework that can efficiently capture the basic rules of chemical reactions. In this paper, we have proposed a unified framework that addresses both the reaction representation learning and molecule generation tasks, which allows for a more holistic approach. Inspired by the organic chemistry mechanism, we develop a novel pretraining framework that enables us to incorporate inductive biases into the model. Our framework achieves state-of-the-art results on challenging downstream tasks. By possessing chemical knowledge, our generative framework overcome the limitations of current molecule generation models that rely on a small number of reaction templates. In the extensive experiments, our model generates synthesizable drug-like structures of high quality. Overall, our work presents a significant step toward a large-scale deep-learning framework for a variety of reaction-based applications.
翻訳日:2024-02-29 00:54:20 公開日:2024-02-26
# 固体量子エミッタの偏光ダイナミクス

Polarization dynamics of solid-state quantum emitters ( http://arxiv.org/abs/2303.04732v2 )

ライセンス: Link先を確認
Anand Kumar, \c{C}a\u{g}lar Samaner, Chanaprom Cholsuk, Tjorben Matthes, Serkan Pa\c{c}al, Ya\u{g}{\i}z Oyun, Ashkan Zand, Robert J. Chapman, Gr\'egoire Saerens, Rachel Grange, Sujin Suwanna, Serkan Ate\c{s}, Tobias Vogl(参考訳) 固体結晶中の量子エミッタは最近、光学量子技術における単純な応用性のために多くの注目を集めている。 量子エミッターによって生成される単一光子の偏光は、光子の区別不能性を用いる量子計算のような応用において重要な役割を果たす重要なパラメータの1つである。 しかし、単光子偏光度は通常、単光子の時間平均発光強度を用いて定量され、固体中の双極子特性に関する限られた情報を提供する。 本研究では,六方晶窒化ホウ素とナノダイヤモンドの単一欠陥を高効率な室温単一光子源とし,固体量子エミッタにおける双極子配向の起源と時間発展を明らかにする。 結晶軸に対する励起・放出双極子の角度を実験的に決定し、密度汎関数理論を用いて計算し、原子構造の欠陥同定と理解のための効率的なツールとして使用できる特定の欠陥ごとに特性角を求める。 さらに、時間分極ダイナミクスは、個々の励起の励起状態の減衰時間に依存する強い修正された線形分極可視性を示す。 この効果は、局所的な結晶環境における過剰電荷の励起に遡ることができる。 このような隠れた時間依存機構を理解することで、偏光センシティブな実験、特に単一光子エミッタとの量子通信の性能をさらに向上させることができる。

Quantum emitters in solid-state crystals have recently attracted a lot of attention due to their simple applicability in optical quantum technologies. The polarization of single photons generated by quantum emitters is one of the key parameters that play a crucial role in the applications, such as quantum computation that uses the indistinguishability of photons. However, the degree of single photon polarization is typically quantified using time-averaged photoluminescence intensity of single emitters, which provides limited information about the dipole properties in solids. In this work, we use single defects in hexagonal boron nitride and nanodiamond as efficient room-temperature single photon sources to reveal the origin and the temporal evolution of dipole orientation in solid-state quantum emitters. The angle of excitation and emission dipoles relative to the crystal axes are determined experimentally and then calculated using density functional theory, which results in characteristic angles for every specific defect that can be used as an efficient tool for defect identification and understanding their atomic structure. Moreover, the temporal polarization dynamics reveal a strongly modified linear polarization visibility that depends on the excited state decay time of individual excitation. This effect can be traced back potentially to the excitation of excess charges in the local crystal environment. Understanding such hidden time-dependent mechanisms can further be used to improve the performance of polarization-sensitive experiments, in particular that of quantum communication with single photon emitters.
翻訳日:2024-02-29 00:54:09 公開日:2024-02-26
# お気に入りとフラグメント: TikTok上での時間の知覚

Likes and Fragments: Examining Perceptions of Time Spent on TikTok ( http://arxiv.org/abs/2303.02041v2 )

ライセンス: Link先を確認
Angelica Goetzen, Ruizhe Wang, Elissa M. Redmiles, Savvas Zannettou, Oshrat Ayalon(参考訳) 研究者は、人々がデジタルメディアに費やす時間に関する情報を様々な目的で使っている。 ソーシャルメディアプラットフォームは、通常、外部アクセスによる使用時間を直接測定することができないが、通常の代替方法は、参加者の自己評価を使用することである。 しかし、自己評価の正確性に疑問が持ち上がり、ソーシャルメディアに費やす時間に対する人々の認識の基礎となる認知的要因に関する疑問を提起した。 本研究では,先行研究を基盤として,使用時間という文脈で新たなソーシャルメディアプラットフォームを探求する。 プラットフォームに依存しないTikTok使用率(n=255)の測定を行い、ユーザの人口統計やプラットフォームへのエンゲージメントが、プラットフォームに費やす時間と推定精度にどのように影響するかを理解する。 私たちの作業は、さまざまなデジタルコンテキストにおける時間推定を理解し、新たな影響力のある関与要因を特定しようとする作業の本体に追加します。

Researchers use information about the amount of time people spend on digital media for numerous purposes. While social media platforms commonly do not allow external access to measure the use time directly, a usual alternative method is to use participants' self-estimation. However, doubts were raised about the self-estimation's accuracy, posing questions regarding the cognitive factors that underline people's perceptions of the time they spend on social media. In this work, we build on prior studies and explore a novel social media platform in the context of use time: TikTok. We conduct platform-independent measurements of people's self-reported and server-logged TikTok usage (n=255) to understand how users' demographics and platform engagement influence their perceptions of the time they spend on the platform and their estimation accuracy. Our work adds to the body of work seeking to understand time estimations in different digital contexts and identifies new influential engagement factors.
翻訳日:2024-02-29 00:53:45 公開日:2024-02-26
# Private Blotto: 分極剤との視点競争

Private Blotto: Viewpoint Competition with Polarized Agents ( http://arxiv.org/abs/2302.14123v2 )

ライセンス: Link先を確認
Kate Donahue and Jon Kleinberg(参考訳) ブロット大佐ゲームは、1921年ボレルで1世紀以上前に提案されたゲーム理論の最も古い設定の1つである。 しかし、元々はゼロサムの「前線」と競合する2つの中央制御された軍隊をモデル化するために設計された。 本研究では,クラウドソーシングやソーシャルメディアと結びついたゲームであるPrivate Blottoゲームを提案し,研究する。 プライベート・ブロットーにおける重要な違いは、個々のエージェントが中央の「大佐」によって調整されることなく独立して行動することである。 このモデルは、複数の問題をめぐって争う活動家グループ、複数の州で選挙をめぐって争う党派募金活動、あるいはニュース記事を誤情報と分類する政治的偏見のあるソーシャルメディアユーザーといったシナリオから自然に生まれる。 本研究では,Private Blotto ゲームにおける Nash stability を完全に特徴づける。 具体的には, 結果関数がゲームの結果に重大な影響を与えていることを示し, 全エージェント(平均結果)を考慮して, 最前線が多数決(中間結果)で勝つか, よりスムーズな結果になるかを検討する。 最終結果に影響を与えない「ミスアロケートされた努力」あるいは選択したエージェントの量にどのように影響するかを研究する。 一般に、平均的な結果により、安定な配置が存在する場合、エージェントは前面に均等に配置され、間違った配置の労力を最小限に抑える。 しかし、平均結果関数は、安定な配置が存在して存在しない場合にもカオスパターンを持つ。 中央値の結果は、安定な配置が存在する場合を正確に特徴づけるが、この結果関数はしばしば、前面にエージェントを極端に不均衡に割り当てることを示す。

Colonel Blotto games are one of the oldest settings in game theory, originally proposed over a century ago in Borel 1921. However, they were originally designed to model two centrally-controlled armies competing over zero-sum "fronts", a specific scenario with limited modern-day application. In this work, we propose and study Private Blotto games, a variant connected to crowdsourcing and social media. One key difference in Private Blotto is that individual agents act independently, without being coordinated by a central "Colonel". This model naturally arises from scenarios such as activist groups competing over multiple issues, partisan fund-raisers competing over elections in multiple states, or politically-biased social media users labeling news articles as misinformation. In this work, we completely characterize the Nash Stability of the Private Blotto game. Specifically, we show that the outcome function has a critical impact on the outcome of the game: we study whether a front is won by majority rule (median outcome) or a smoother outcome taking into account all agents (mean outcome). We study how this impacts the amount of "misallocated effort", or agents whose choices doesn't influence the final outcome. In general, mean outcome ensures that, if a stable arrangement exists, agents are close to evenly spaced across fronts, minimizing misallocated effort. However, mean outcome functions also have chaotic patterns as to when stable arrangements do and do not exist. For median outcome, we exactly characterize when a stable arrangement exists, but show that this outcome function frequently results in extremely unbalanced allocation of agents across fronts.
翻訳日:2024-02-29 00:52:56 公開日:2024-02-26
# ライドバーグ原子のラマン超アレイのフラクタル量子異常ホール位相

Fractional quantum anomalous Hall phase for Raman superarray of Rydberg atoms ( http://arxiv.org/abs/2302.13104v2 )

ライセンス: Link先を確認
Ting-Fung Jeffrey Poon, Xin-Chi Zhou, Bao-Zong Wang, Tian-Hua Yang and Xiong-Jun Liu(参考訳) ライドバーグ原子配列は相関量子物質の量子シミュレーションのための有望なプラットフォームを提供し、大きな関心を集めている。 本研究では、ライドバーグ原子のラマン超アレイを用いた新しいストライプ格子モデルを提案し、ボゾン分数量子異常ホール(FQAH)相を実現する。 2種類のライドバーグ状態(サッパーラレイ配位とラマン配位双極子-交換結合)を実装し、適切な調整可能な実験条件下で大きなバルクギャップを有する位相平帯に分布するハードコアボソンの最小qahモデルを実現する。 これにより、ボソニックなFQAH相がさらに達成され、観測可能となる。 特に,開境界におけるバルクエッジモードとカイラルエッジモード間の分数電荷トンネルにより特徴付けられる分数化クエンチダイナミクスを計測し,分数化励起を調べるための新しいクエンチプロトコルを提案する。

Rydberg atom arrays offer promising platforms for quantum simulation of correlated quantum matter and raise great interests. This work proposes a novel stripe-lattice model with Raman superarray of Rydberg atoms to realize bosonic fractional quantum anomalous Hall (FQAH) phase. Two types of Rydberg states, arranged in a supperarray configuration and with Raman-assisted dipole-exchange couplings, are implemented to realize a minimal QAH model for hard-core bosons populated into a topological flat band with large bulk gap under proper tunable experimental condition. With this the bosonic FQAH phase can be further achieved and probed feasibly. In particular, a novel quench protocol is proposed to probe the fractionalized excitations by measuring the correlated quench dynamics featured by fractional charge tunneling between bulk and chiral edge modes in the open boundary.
翻訳日:2024-02-29 00:52:25 公開日:2024-02-26
# 幾らかの絡み合いは、ほとんどの測定を生き残る

Some Entanglement Survives Most Measurements ( http://arxiv.org/abs/2302.06880v4 )

ライセンス: Link先を確認
Alvin Gonzales and Daniel Dilley and Mark Byrd(参考訳) 量子状態を作成し情報を抽出するために、完全な射影計測を行うことができると仮定されることが多い。 このような測定は、無相関なシステムと環境状態を達成することができる。 しかし、完全に射影的な測定は実際は難しいか不可能である。 量子系作成における繰り返し非射影計測の限界について検討する。 最初は環境に絡み合った$n$-qubit系で測定を行い、その後、弱い測定シーケンスを用いて、測定演算子のうちの1つが極端な極限過程によって完全に射影されない限り、いくつかの絡み合いが残ることを示す。 また,システムとその環境と計測結果が追跡されないシナリオとの相関関係の除去についても論じる。 我々は、$n$-qubit および $n$-dimensional 入力状態について結果を示す。

To prepare quantum states and extract information, it is often assumed that one can perform a perfectly projective measurement. Such measurements can achieve an uncorrelated system and environment state. However, perfectly projective measurements can be difficult or impossible to perform in practice. We investigate the limitations of repeated non-projective measurements in preparing a quantum system. For an $n$-qubit system initially entangled with its environment and subsequently prepared with measurements, using a sequence of weak measurements, we show that some entanglement remains unless one of the measurement operators becomes perfectly projective through an extreme limiting process. Removing initial (unentangled) correlations between a system and its environment and the scenario where measurement outcomes are not tracked are also discussed. We present results for $n$-qubit and $n$-dimensional input states.
翻訳日:2024-02-29 00:51:50 公開日:2024-02-26
# デジタルサービス法におけるコンテンツモデレーションの「正確性」の運用

Operationalizing content moderation "accuracy" in the Digital Services Act ( http://arxiv.org/abs/2305.09601v3 )

ライセンス: Link先を確認
Johnny Tian-Zheng Wei, Frederike Zufall, Robin Jia(参考訳) EUが最近採択したデジタルサービス法(Digital Services Act)では、ソーシャルメディアプラットフォームが自動コンテンツモデレーションシステムの「正確性」を報告する必要がある。 口語という用語は曖昧で、オープンテクスチャで、正解精度(合計で割り切れた正確な予測数)は大きなクラス不均衡の問題には不適であり、精度を測る根拠となる真実とデータセットは特定されていない。 さらなる規定がなければ、規制要件は報告の不足を許容する。 この学際的な研究において,我々は,法的概念を精査し,それらを技術実装に関連付けることで,「正確」な報告を運用する。 我々は,「正確性」の解釈を精度とリコールとして法的に正当化する法律の立法目的を解明することから始める。 これらの指標は、クラス不均衡な設定において情報的であり、EU憲章の基本的権利の比例的バランスを反映している。 提案手法は,極めて高いアノテーションコストを発生させることができ,かつ,プラットフォームがビジネスを行う権利を不当に阻害することができるため,リコールの推定に重点を置いている。 シミュレーション研究を通じて,訓練された分類器を用いた階層化サンプリングを用いて,効率的にリコールを推定できることを示し,その応用に具体的な勧告を提供する。 最後に、この法律の下でredditのサブセットについてリコール報告を行うケーススタディを示す。 この法律の言語に基づいて、不特定性のためにリコールを報告できるいくつかの方法を特定した。 我々は,改良された推定器を用いた可能性の1つを報告し,法的明確化の必要性と意義について論じる。

The Digital Services Act, recently adopted by the EU, requires social media platforms to report the "accuracy" of their automated content moderation systems. The colloquial term is vague, or open-textured -- the literal accuracy (number of correct predictions divided by the total) is not suitable for problems with large class imbalance, and the ground truth and dataset to measure accuracy against is unspecified. Without further specification, the regulatory requirement allows for deficient reporting. In this interdisciplinary work, we operationalize "accuracy" reporting by refining legal concepts and relating them to technical implementation. We start by elucidating the legislative purpose of the Act to legally justify an interpretation of "accuracy" as precision and recall. These metrics remain informative in class imbalanced settings, and reflect the proportional balancing of Fundamental Rights of the EU Charter. We then focus on the estimation of recall, as its naive estimation can incur extremely high annotation costs and disproportionately interfere with the platform's right to conduct business. Through a simulation study, we show that recall can be efficiently estimated using stratified sampling with trained classifiers, and provide concrete recommendations for its application. Finally, we present a case study of recall reporting for a subset of Reddit under the Act. Based on the language in the Act, we identify a number of ways recall could be reported due to underspecification. We report on one possibility using our improved estimator, and discuss the implications and need for legal clarification.
翻訳日:2024-02-29 00:47:06 公開日:2024-02-26
# NevIR: ニューラル情報検索における否定

NevIR: Negation in Neural Information Retrieval ( http://arxiv.org/abs/2305.07614v2 )

ライセンス: Link先を確認
Orion Weller, Dawn Lawrie, Benjamin Van Durme(参考訳) 否定は日常的な現象であり、言語モデル(LM)の弱点の一貫した領域である。 Information Retrieval (IR)コミュニティは、現代のIRアーキテクチャのバックボーンとしてLMを採用するが、ネゲーションがニューラルIRに与える影響を理解する研究はほとんど行われていない。 そこで我々は,irモデルに対して,否定によってのみ異なる2つの文書のランク付けを求めるという,このテーマに対する直接的なベンチマークを構築した。 クロスエンコーダは最もパフォーマンスが良く、後続の相互作用モデルが続き、最後の場所はバイエンコーダとスパースニューラルネットワークアーキテクチャである。 その結果、ほとんどの情報検索モデル(SOTAを含む)は否定を考慮せず、ランダムなランキングと同じか悪い結果をもたらすことがわかった。 否定を含む対照的な文書のデータセットを微調整を続けるという明らかなアプローチは、(モデルのサイズと同様に)性能を高めるが、マシンと人間のパフォーマンスの間には大きなギャップがある。

Negation is a common everyday phenomena and has been a consistent area of weakness for language models (LMs). Although the Information Retrieval (IR) community has adopted LMs as the backbone of modern IR architectures, there has been little to no research in understanding how negation impacts neural IR. We therefore construct a straightforward benchmark on this theme: asking IR models to rank two documents that differ only by negation. We show that the results vary widely according to the type of IR architecture: cross-encoders perform best, followed by late-interaction models, and in last place are bi-encoder and sparse neural architectures. We find that most information retrieval models (including SOTA ones) do not consider negation, performing the same or worse than a random ranking. We show that although the obvious approach of continued fine-tuning on a dataset of contrastive documents containing negations increases performance (as does model size), there is still a large gap between machine and human performance.
翻訳日:2024-02-29 00:46:40 公開日:2024-02-26
# データ駆動型段ボール箱定位のための新しい合成データツール

Novel Synthetic Data Tool for Data-Driven Cardboard Box Localization ( http://arxiv.org/abs/2305.05215v2 )

ライセンス: Link先を確認
Luk\'a\v{s} Gajdo\v{s}ech, Peter Krav\'ar(参考訳) ビンピッキングソリューションを備えた自動化ファクトリなどの産業環境におけるニューラルネットワークの適用には、大規模ラベル付きデータセットのコストがかかる。 本稿では,段ボール箱の手続きモデルを用いた自動データ生成ツールを提案する。 簡単なニューラルネットワークをトレーニングすることにより,システムの性能,各種パラメータ,および生成した合成データの有用性を実証的に実証する。 ツールによって生成されたサンプル合成データを公開する。

Application of neural networks in industrial settings, such as automated factories with bin-picking solutions requires costly production of large labeled data-sets. This paper presents an automatic data generation tool with a procedural model of a cardboard box. We briefly demonstrate the capabilities of the system, its various parameters and empirically prove the usefulness of the generated synthetic data by training a simple neural network. We make sample synthetic data generated by the tool publicly available.
翻訳日:2024-02-29 00:45:57 公開日:2024-02-26
# MECH:超電導量子チップレット用マルチエントリー通信路

MECH: Multi-Entry Communication Highway for Superconducting Quantum Chiplets ( http://arxiv.org/abs/2305.05149v3 )

ライセンス: Link先を確認
Hezi Zhang, Keyi Yin, Anbang Wu, Hassan Shapourian, Alireza Shabani, Yufei Ding(参考訳) chiplet アーキテクチャは量子コンピューティングの新たなアーキテクチャであり、スケーラビリティとモジュール性に優れて qubit リソースを大幅に増加させる可能性がある。 しかし、計算規模が大きくなるにつれて、長いルーティング距離のため、キュービット間の通信はより深刻なボトルネックとなる。 本稿では,プログラム並列化のためのアシラリーキュービットを交換するマルチエントリー通信ハイウェイ(MECH)機構を提案し,ハイウェイ資源を効率的に管理・活用するためのコンパイルフレームワークを構築した。 本手法は,回路深度と典型的な量子ベンチマークにおける演算数の両方において,ベースラインアプローチを著しく上回ることを示す。 これは、量子プログラムのより効率的でエラーの少ないコンパイルを意味する。

Chiplet architecture is an emerging architecture for quantum computing that could significantly increase qubit resources with its great scalability and modularity. However, as the computing scale increases, communication between qubits would become a more severe bottleneck due to the long routing distances. In this paper, we propose a multi-entry communication highway (MECH) mechanism to trade ancillary qubits for program concurrency, and build a compilation framework to efficiently manage and utilize the highway resources. Our evaluation shows that this framework significantly outperforms the baseline approach in both the circuit depth and the number of operations on typical quantum benchmarks. This implies a more efficient and less error-prone compilation of quantum programs.
翻訳日:2024-02-29 00:45:51 公開日:2024-02-26
# CaloClouds: 高速な幾何学非依存な高グラニュラーカロリメータシミュレーション

CaloClouds: Fast Geometry-Independent Highly-Granular Calorimeter Simulation ( http://arxiv.org/abs/2305.04847v2 )

ライセンス: Link先を確認
Erik Buhmann, Sascha Diefenbacher, Engin Eren, Frank Gaede, Gregor Kasieczka, Anatolii Korol, William Korcari, Katja Kr\"uger, Peter McKeown(参考訳) 高粒度検出器における粒子のシャワーのシミュレーションは、粒子物理学への機械学習の適用における重要なフロンティアである。 生成機械学習モデルによって高い精度とスピードを達成することで、従来のシミュレーションを強化し、主要なコンピューティング制約を緩和することができる。 この研究は、固定格子構造に頼らずに3d空間の検出器にエネルギーが堆積した数千の宇宙点の点雲を初めて直接生成することで、このタスクにおける大きなブレークスルーを達成している。 これは2つの重要なイノベーションによって実現される。 一 生成モデルにおける最近の改良により、光子シャワーを高濃度の点雲として生成する拡散モデルを適用した。 ii) 最大6,000ドルの点雲は、初期より高分解能の点雲(いわゆるgeant4ステップ)からダウンサンプリングされるため、主に幾何学に依存しない。 本研究は,国際大検出器(ILD)の電磁熱量計における光子シャワーシミュレーションの具体例を用いて,本手法の性能を実証し,物理的に関連する分布の総合的モデリングを行う。

Simulating showers of particles in highly-granular detectors is a key frontier in the application of machine learning to particle physics. Achieving high accuracy and speed with generative machine learning models would enable them to augment traditional simulations and alleviate a major computing constraint. This work achieves a major breakthrough in this task by, for the first time, directly generating a point cloud of a few thousand space points with energy depositions in the detector in 3D space without relying on a fixed-grid structure. This is made possible by two key innovations: i) Using recent improvements in generative modeling we apply a diffusion model to generate photon showers as high-cardinality point clouds. ii) These point clouds of up to $6,000$ space points are largely geometry-independent as they are down-sampled from initial even higher-resolution point clouds of up to $40,000$ so-called Geant4 steps. We showcase the performance of this approach using the specific example of simulating photon showers in the planned electromagnetic calorimeter of the International Large Detector (ILD) and achieve overall good modeling of physically relevant distributions.
翻訳日:2024-02-29 00:45:40 公開日:2024-02-26
# 大規模言語モデルは計算社会科学を変えることができるか?

Can Large Language Models Transform Computational Social Science? ( http://arxiv.org/abs/2305.03514v3 )

ライセンス: Link先を確認
Caleb Ziems, William Held, Omar Shaikh, Jiaao Chen, Zhehao Zhang, Diyi Yang(参考訳) 大規模言語モデル(llm)は、多くの言語処理タスクをゼロショットで(トレーニングデータなしで)うまく実行することができる。 もしゼロショットのLLMが説得力や政治的イデオロギーといった社会現象を確実に分類し、説明できれば、LLMは計算社会科学(CSS)パイプラインを重要な方法で強化することができる。 この作業は LLM を CSS ツールとして使用するためのロードマップを提供する。 この目的に向けて、25の代表的英語cssベンチマークで13の言語モデルのゼロショットパフォーマンスを測定するための、一連のベストプラクティスと広範な評価パイプラインを提案します。 分類学的ラベリングタスク(分類)では、LLMは最高の微調整モデルよりは優れているが、人間との公正な合意は得られない。 フリーフォームコーディングタスク(世代)では、LLMは、しばしばクラウドワーカーのゴールド参照の品質を超える説明を生成する。 その結果、今日のllmのパフォーマンスは、(1)人間のアノテーションチームでゼロショットデータアノテーションとして機能すること、(2)挑戦的な創造的生成タスクをブートストラップすること(例えば、テキストの基本的な属性を説明すること)の2つの方法でcss研究パイプラインを強化することができる。 要約すると、LLMは人間と共同で社会科学分析に有意義に参加する傾向にある。

Large Language Models (LLMs) are capable of successfully performing many language processing tasks zero-shot (without training data). If zero-shot LLMs can also reliably classify and explain social phenomena like persuasiveness and political ideology, then LLMs could augment the Computational Social Science (CSS) pipeline in important ways. This work provides a road map for using LLMs as CSS tools. Towards this end, we contribute a set of prompting best practices and an extensive evaluation pipeline to measure the zero-shot performance of 13 language models on 25 representative English CSS benchmarks. On taxonomic labeling tasks (classification), LLMs fail to outperform the best fine-tuned models but still achieve fair levels of agreement with humans. On free-form coding tasks (generation), LLMs produce explanations that often exceed the quality of crowdworkers' gold references. We conclude that the performance of today's LLMs can augment the CSS research pipeline in two ways: (1) serving as zero-shot data annotators on human annotation teams, and (2) bootstrapping challenging creative generation tasks (e.g., explaining the underlying attributes of a text). In summary, LLMs are posed to meaningfully participate in social science analysis in partnership with humans.
翻訳日:2024-02-29 00:45:21 公開日:2024-02-26
# ペルソナLLM:大規模言語モデルによるパーソナリティ特性の表現能力の検討

PersonaLLM: Investigating the Ability of Large Language Models to Express Personality Traits ( http://arxiv.org/abs/2305.02547v4 )

ライセンス: Link先を確認
Hang Jiang, Xiajie Zhang, Xubo Cao, Cynthia Breazeal, Jad Kabbara, Deb Roy(参考訳) パーソナライズされたチャットボットの作成における大規模言語モデル(llm)の多くのユースケースにもかかわらず、パーソナライズされたllmの振る舞いが、特定のパーソナリティ特性を正確かつ一貫して反映する程度を評価するための研究は限られている。 我々は, LLMを主体としたエージェントの行動について検討し, GPT-3.5 と GPT-4 を事例として, LLM が割り当てられた個性プロファイルに適合するコンテンツを生成できるかどうかを考察した。 この目的のために、我々は、ビッグファイブのパーソナモデルに基づいて異なるLLMペルソナをシミュレートし、44項目のBig Five Inventory(BFI)パーソナリティテストとストーリーライティングタスクを完了させ、そのエッセイを自動的および人的評価で評価する。 その結果, LLMペルソナの自己申告したBFIスコアは, 5つの特徴にまたがる大きな効果の大きさで, 指定した性格タイプと一致していることがわかった。 さらに、llmペルソナの著作は、人間の文章コーパスと比較すると、パーソナリティ特性に代表される言語パターンが出現する。 さらに、人間評価では、人間は80\%の精度で人格特性を知覚できることが示されている。 興味深いことに、アノテータがAIの作者に通知されると、精度は大幅に低下する。

Despite the many use cases for large language models (LLMs) in creating personalized chatbots, there has been limited research on evaluating the extent to which the behaviors of personalized LLMs accurately and consistently reflect specific personality traits. We consider studying the behavior of LLM-based agents which we refer to as LLM personas and present a case study with GPT-3.5 and GPT-4 to investigate whether LLMs can generate content that aligns with their assigned personality profiles. To this end, we simulate distinct LLM personas based on the Big Five personality model, have them complete the 44-item Big Five Inventory (BFI) personality test and a story writing task, and then assess their essays with automatic and human evaluations. Results show that LLM personas' self-reported BFI scores are consistent with their designated personality types, with large effect sizes observed across five traits. Additionally, LLM personas' writings have emerging representative linguistic patterns for personality traits when compared with a human writing corpus. Furthermore, human evaluation shows that humans can perceive some personality traits with an accuracy of up to 80\%. Interestingly, the accuracy drops significantly when the annotators were informed of the AI's authorship.
翻訳日:2024-02-29 00:44:54 公開日:2024-02-26
# パラダイムシフト:機械翻訳の未来は大きな言語モデルにある

A Paradigm Shift: The Future of Machine Translation Lies with Large Language Models ( http://arxiv.org/abs/2305.01181v2 )

ライセンス: Link先を確認
Chenyang Lyu, Zefeng Du, Jitao Xu, Yitao Duan, Minghao Wu, Teresa Lynn, Alham Fikri Aji, Derek F. Wong, Longyue Wang(参考訳) 深層ニューラルネットワークの発展により、機械翻訳(MT)は長年にわたって大きく進歩してきた。 しかし、GPT-4やChatGPTのような大規模言語モデル(LLM)の出現は、MTドメインに新しいフェーズを導入している。 この文脈では、MTの将来はLLMの能力と密接に結びついていると信じている。 これらのモデルは,広範な言語理解を提供するだけでなく,mtをさらに高める可能性を持つイニシアティブベース手法などの革新的手法ももたらしている。本論文では,今後のmt研究と実装において,llmsの影響を受けて重要な役割を担っているmtにおける重要な機能強化について概説する。 我々は、Long-Document Translation、Stylized Translation、Interactive TranslationなどのシナリオにおけるLLMの利点を強調し、新しいMT方向を強調した。 さらに、LLM駆動MTにおけるプライバシーに関する重要な懸念に対処し、重要なプライバシー保護戦略を提案する。 実例を示すことによって,LLMがもたらすメリット,特に拡張ドキュメントの翻訳などのタスクを実証することを目指している。 我々は,MTの今後の発展を導く上でのLLMの重要役割を強調し,今後の研究開発のロードマップを提供する。

Machine Translation (MT) has greatly advanced over the years due to the developments in deep neural networks. However, the emergence of Large Language Models (LLMs) like GPT-4 and ChatGPT is introducing a new phase in the MT domain. In this context, we believe that the future of MT is intricately tied to the capabilities of LLMs. These models not only offer vast linguistic understandings but also bring innovative methodologies, such as prompt-based techniques, that have the potential to further elevate MT. In this paper, we provide an overview of the significant enhancements in MT that are influenced by LLMs and advocate for their pivotal role in upcoming MT research and implementations. We highlight several new MT directions, emphasizing the benefits of LLMs in scenarios such as Long-Document Translation, Stylized Translation, and Interactive Translation. Additionally, we address the important concern of privacy in LLM-driven MT and suggest essential privacy-preserving strategies. By showcasing practical instances, we aim to demonstrate the advantages that LLMs offer, particularly in tasks like translating extended documents. We conclude by emphasizing the critical role of LLMs in guiding the future evolution of MT and offer a roadmap for future exploration in the sector.
翻訳日:2024-02-29 00:44:29 公開日:2024-02-26
# fusionは不十分:3dオブジェクト検出のためのfusionモデルへの単一モード攻撃

Fusion is Not Enough: Single Modal Attacks on Fusion Models for 3D Object Detection ( http://arxiv.org/abs/2304.14614v2 )

ライセンス: Link先を確認
Zhiyuan Cheng, Hongjun Choi, James Liang, Shiwei Feng, Guanhong Tao, Dongfang Liu, Michael Zuzak, Xiangyu Zhang(参考訳) マルチセンサーフュージョン(MSF)は、特にカメラとLiDARセンサーを用いた3次元物体検出において、自動運転車(AV)において広く用いられている。 融合の目的は、それぞれのモダリティの利点を活かし、弱点を最小限に抑えることである。 高度なディープニューラルネットワーク(DNN)ベースの融合技術は、例外的で業界主導のパフォーマンスを示している。 複数のモードの冗長な情報により、MSFは敵攻撃に対する一般的な防御戦略としても認識されている。 本稿では,核融合の重要度は低いが,攻撃者にとっては手頃な価格であると考えられるカメラモダリティから核融合モデルを攻撃する。 融合モデルの最も弱いリンクは、最も弱いモダリティに依存し、カメラのみの敵攻撃による高度なLiDAR融合に基づく3Dオブジェクト検出モデルをターゲットにした攻撃フレームワークを提案する。 提案手法では,2段階の最適化手法を用いて,まず敵攻撃下で脆弱な画像領域を徹底的に評価し,その後,異なる融合モデルに対して専用の攻撃戦略を適用して,デプロイ可能なパッチを生成する。 6つの高度なカメラ-LiDAR融合モデルと1つのカメラ専用モデルによる評価は、我々の攻撃がそれら全てを危険にさらしたことを示している。 提案手法は,検出性能の平均平均精度(map)を0.824から0.353に低下させるか,対象物体の検出スコアを0.728から0.156に低下させ,提案手法の有効性を示す。 コードは利用可能。

Multi-sensor fusion (MSF) is widely used in autonomous vehicles (AVs) for perception, particularly for 3D object detection with camera and LiDAR sensors. The purpose of fusion is to capitalize on the advantages of each modality while minimizing its weaknesses. Advanced deep neural network (DNN)-based fusion techniques have demonstrated the exceptional and industry-leading performance. Due to the redundant information in multiple modalities, MSF is also recognized as a general defence strategy against adversarial attacks. In this paper, we attack fusion models from the camera modality that is considered to be of lesser importance in fusion but is more affordable for attackers. We argue that the weakest link of fusion models depends on their most vulnerable modality, and propose an attack framework that targets advanced camera-LiDAR fusion-based 3D object detection models through camera-only adversarial attacks. Our approach employs a two-stage optimization-based strategy that first thoroughly evaluates vulnerable image areas under adversarial attacks, and then applies dedicated attack strategies for different fusion models to generate deployable patches. The evaluations with six advanced camera-LiDAR fusion models and one camera-only model indicate that our attacks successfully compromise all of them. Our approach can either decrease the mean average precision (mAP) of detection performance from 0.824 to 0.353, or degrade the detection score of a target object from 0.728 to 0.156, demonstrating the efficacy of our proposed attack framework. Code is available.
翻訳日:2024-02-29 00:44:07 公開日:2024-02-26
# ビデオセグメンテーションのためのマルチスケールエンコーダ・デコーダトランスの一構成法

A Unified Multiscale Encoder-Decoder Transformer for Video Segmentation ( http://arxiv.org/abs/2304.05930v2 )

ライセンス: Link先を確認
Rezaul Karim, He Zhao, Richard P. Wildes, Mennatullah Siam(参考訳) 本稿では,ビデオの高密度予測タスクに着目した,エンドツーエンドの訓練可能なマルチスケールエンコーダ・デコーダトランスを提案する。 提示されたMED-VT(Multiscale Encoder-Decoder Video Transformer)は、マルチスケール表現を用いており、利用可能であればビデオ以外の入力(音声など)をマルチモーダル処理(MED-VT++)に使用する。 エンコーダとデコーダの両方でのマルチスケール表現は、3つの大きな利点をもたらす。 (i)入力オプティカルフローに依存せずにダイナミックスを捕捉するための抽象レベルでの時空間的特徴の暗黙的抽出 (ii)エンコードにおける時間的一貫性 (iii)デコード時の正確な局所化を導く高レベル(例えば、オブジェクト)セマンティクスの粗度から細かな検出 さらに、時間的に一貫したビデオ予測を提供するため、多対多のラベル伝搬によるトランスダクティブ学習方式を提案する。 3つのユニモーダルビデオセグメンテーションタスク(automatic video object segmentation (avos)、actor-action segmentation and video semantic segmentation (vss))、およびマルチモーダルセグメンテーションタスク(audio-visual segmentation (avs))についてmed-vt/med-vt++を紹介する。 その結果,提案手法は,映像のみを入力として,オプティカルフローに依存せずに,複数のベンチマークの代替手法よりも優れていることがわかった。 最後に、モデルの内部学習表現の詳細を文書化し、定量的および質的分析を包含した詳細な解釈可能性研究を提案する。

In this paper, we present an end-to-end trainable unified multiscale encoder-decoder transformer that is focused on dense prediction tasks in video. The presented Multiscale Encoder-Decoder Video Transformer (MED-VT) uses multiscale representation throughout and employs an optional input beyond video (e.g., audio), when available, for multimodal processing (MED-VT++). Multiscale representation at both encoder and decoder yields three key benefits: (i) implicit extraction of spatiotemporal features at different levels of abstraction for capturing dynamics without reliance on input optical flow, (ii) temporal consistency at encoding and (iii) coarse-to-fine detection for high-level (e.g., object) semantics to guide precise localization at decoding. Moreover, we present a transductive learning scheme through many-to-many label propagation to provide temporally consistent video predictions. We showcase MED-VT/MED-VT++ on three unimodal video segmentation tasks (Automatic Video Object Segmentation (AVOS), actor-action segmentation and Video Semantic Segmentation (VSS)) as well as a multimodal segmentation task (Audio-Visual Segmentation (AVS)). Results show that the proposed architecture outperforms alternative state-of-the-art approaches on multiple benchmarks using only video (and optional audio) as input, without reliance on optical flow. Finally, to document details of the model's internal learned representations, we present a detailed interpretability study, encompassing both quantitative and qualitative analyses.
翻訳日:2024-02-29 00:43:07 公開日:2024-02-26
# クラスインクリメンタル学習のためのクロスクラス機能拡張

Cross-Class Feature Augmentation for Class Incremental Learning ( http://arxiv.org/abs/2304.01899v4 )

ライセンス: Link先を確認
Taehoon Kim, Jaeyoo Park, Bohyung Han(参考訳) 本稿では,敵対的攻撃を動機とした機能強化手法を取り入れた新しいクラスインクリメンタル学習手法を提案する。 我々は,学習した学習例を補完するために,知識蒸留の教師としての役割を担うのではなく,過去に学んだ分類器を用いている。 提案手法は,事前学習した分類器に対する逆攻撃を通じて,他のクラスでの例を用いて任意の対象クラスの特徴を増強するため,クラスインクリメンタルラーニングにおける従来の知識を活用するというユニークな視点を持つ。 クロスクラス機能拡張を許すことにより、古いタスクの各クラスは、特徴空間にサンプルを都合よく投入し、特に格納された例の数が少ない場合には、前タスクのサンプル不足に起因する決定境界の崩壊を緩和する。 このアイデアは、アーキテクチャを変更することなく、既存のクラスインクリメンタル学習アルゴリズムに簡単に組み込むことができる。 各種シナリオにおいて,特にメモリ予算が極めて限られている環境下では,本手法が既存の段階的学習手法よりはるかに優れていることを示す。

We propose a novel class incremental learning approach by incorporating a feature augmentation technique motivated by adversarial attacks. We employ a classifier learned in the past to complement training examples rather than simply play a role as a teacher for knowledge distillation towards subsequent models. The proposed approach has a unique perspective to utilize the previous knowledge in class incremental learning since it augments features of arbitrary target classes using examples in other classes via adversarial attacks on a previously learned classifier. By allowing the cross-class feature augmentations, each class in the old tasks conveniently populates samples in the feature space, which alleviates the collapse of the decision boundaries caused by sample deficiency for the previous tasks, especially when the number of stored exemplars is small. This idea can be easily incorporated into existing class incremental learning algorithms without any architecture modification. Extensive experiments on the standard benchmarks show that our method consistently outperforms existing class incremental learning methods by significant margins in various scenarios, especially under an environment with an extremely limited memory budget.
翻訳日:2024-02-29 00:42:37 公開日:2024-02-26
# 時間依存摂動理論を用いた非エルミートエッジバーストの研究

Investigation of a non-Hermitian edge burst with time-dependent perturbation theory ( http://arxiv.org/abs/2303.17219v2 )

ライセンス: Link先を確認
Pengyu Wen, Jinghui Pi, Guilu Long(参考訳) エッジバースト(Edge burst)は、最近の数値研究によって発見された非エルミート量子力学における現象である(W.-T. Xue, et al, Phys. Rev. Lett 2, 128.120401(2022))。 これは、非エルミート量子ウォークのクラスにおける系境界において、多数の粒子損失が発生することを見出している。 本稿では,この格子系における実空間波動関数の進化について検討する。 エッジサイトの波動関数はバルクサイトとは別物であることが判明した。 時間依存摂動理論を用いて,実空間波動関数の解析式を導出し,エッジサイトとバルクサイト間の異なる進化挙動が,その最も近いサイト構成によるものであることを見出した。 また、エッジ波動関数は、隣り合う2つの非死点の遷移によってもたらされる。 さらに、数値対角化により、エッジ波関数は、比較的大きな虚部を持つ固有モード群によって主に伝播されることを示す。 本研究は,非エルミート量子力学問題を研究するための解析手法を提供する。

Edge burst is a phenomenon in non-Hermitian quantum dynamics discovered by a recent numerical study [W.-T. Xue, et al, Phys. Rev. Lett 2, 128.120401(2022)]. It finds that a large proportion of particle loss occurs at the system boundary in a class of non-Hermitian quantum walk. In this paper, we investigate the evolution of real-space wave functions for this lattice system. We find the wave function of the edge site is distinct from the bulk sites. Using time-dependent perturbation theory, we derive the analytical expression of the real-space wave functions and find that the different evolution behaviors between the edge and bulk sites are due to their different nearest-neighbor site configurations. We also find the edge wave function primarily results from the transition of the two nearest-neighbor non-decay sites. Besides, the numerical diagonalization shows the edge wave function is mainly propagated by a group of eigen-modes with a relatively large imaginary part. Our work provides an analytical method for studying non-Hermitian quantum dynamical problems.
翻訳日:2024-02-29 00:42:17 公開日:2024-02-26
# 変圧器診断 : 臨床意思決定のための照明機能空間

Diagnosing Transformers: Illuminating Feature Spaces for Clinical Decision-Making ( http://arxiv.org/abs/2305.17588v3 )

ライセンス: Link先を確認
Aliyah R. Hsu, Yeshwanth Cherapanamjeri, Briton Park, Tristan Naumann, Anobel Y. Odisho, Bin Yu(参考訳) 事前訓練されたトランスフォーマーは、限られた臨床ノートを使用して臨床意思決定を支援するために微調整されることが多い。 モデルの解釈可能性は、特に医療のような高度な領域において、信頼を確立し、人間の関与を必要とする安全を確保するために不可欠である。 我々は,微調整された変圧器特徴空間の解釈性を高める体系的枠組みであるsufoを紹介する。 sufoは、モデル信頼と解釈可能性に関する重要な問題に対処するために、教師付き調査、教師なし類似性分析、特徴動力学、異常解析を含む、様々な分析および可視化技術を使用している。 我々は,実世界の病理分類タスクに着目した事前学習データの影響を事例研究し,MedNLIに関する知見を検証した。 110Mサイズのプレトレーニングトランスモデルを5種類評価し、一般ドメイン(BERT, TNLR)、混合ドメイン(BioBERT, Clinical BioBERT)、ドメイン固有(PubMedBERT)グループに分類した。 ドメイン固有モデルであるPubMedBERTは、微調整に有用な情報を含んでいるが、クラス不均衡が存在する場合、マイノリティクラスに過度に適応できる。 これとは対照的に、混合ドメインモデルではオーバーフィッティングに対する抵抗が強くなり、ドメイン固有のモデルの堅牢性が向上する可能性が示唆され、(2) ドメイン内事前トレーニングは微調整時の特徴の曖昧さを加速し、(3) 特徴空間は、この過程において著しくスパース化され、臨床医は、本論文で示されるように、微調整されたモデル間で共通の異常モードを識別できる。 これらの知見は,医療におけるトランスフォーマーの信頼性と安全性を高める上でのSUFOの有用性を示し,医用およびより重要な領域において,より微調整された言語モデルを評価する上で,SUFOは実践者を支援することができると考えている。

Pre-trained transformers are often fine-tuned to aid clinical decision-making using limited clinical notes. Model interpretability is crucial, especially in high-stakes domains like medicine, to establish trust and ensure safety, which requires human engagement. We introduce SUFO, a systematic framework that enhances interpretability of fine-tuned transformer feature spaces. SUFO utilizes a range of analytic and visualization techniques, including Supervised probing, Unsupervised similarity analysis, Feature dynamics, and Outlier analysis to address key questions about model trust and interpretability. We conduct a case study investigating the impact of pre-training data where we focus on real-world pathology classification tasks, and validate our findings on MedNLI. We evaluate five 110M-sized pre-trained transformer models, categorized into general-domain (BERT, TNLR), mixed-domain (BioBERT, Clinical BioBERT), and domain-specific (PubMedBERT) groups. Our SUFO analyses reveal that: (1) while PubMedBERT, the domain-specific model, contains valuable information for fine-tuning, it can overfit to minority classes when class imbalances exist. In contrast, mixed-domain models exhibit greater resistance to overfitting, suggesting potential improvements in domain-specific model robustness; (2) in-domain pre-training accelerates feature disambiguation during fine-tuning; and (3) feature spaces undergo significant sparsification during this process, enabling clinicians to identify common outlier modes among fine-tuned models as demonstrated in this paper. These findings showcase the utility of SUFO in enhancing trust and safety when using transformers in medicine, and we believe SUFO can aid practitioners in evaluating fine-tuned language models for other applications in medicine and in more critical domains.
翻訳日:2024-02-28 23:00:14 公開日:2024-02-26
# ニュートリノ振動における量子拡散複雑性

Quantum Spread Complexity in Neutrino Oscillations ( http://arxiv.org/abs/2305.17025v3 )

ライセンス: Link先を確認
Khushboo Dixit, S. Shajidul Haque, Soebur Razzaque(参考訳) 量子情報理論は、その強力な測度の一つである研究と量子複雑性の盛んな領域として最近登場し、物理学の多くの分野における複雑なシステムの研究に応用されている。 しかし、実際の物理的状況への応用は、いまだにごくわずかである。 ニュートリノのフレーバー振動(英: Neutrino flavor oscillation)は、粒子物理学の標準モデルを理解し、それを超える物理を探究する上で、はるかに大きな成果をもたらす、広く研究されている物理現象である。 振動は、フレーバーと質量固有状態の混合と、その時間的変化によって生じる。 伝統的にフレーバー転移を確率論的尺度で研究する固有量子システムである。 量子複雑性形式をニュートリノ振動の研究の代替手段として応用した。 特に量子拡散複雑性は、ニュートリノセクタにおける電荷パリティ対称性の破れに関する追加情報を示した。 以上の結果から,最近実験データから示唆された,電荷パリティの最大違反は複雑であることが示唆された。

Quantum information theory has recently emerged as a flourishing area of research and quantum complexity, one of its powerful measures, is being applied for investigating complex systems in many areas of physics. Its application to practical physical situations, however, is still few and far between. Neutrino flavor oscillation is a widely studied physical phenomena with far reaching consequences in understanding the standard model of particle physics and to search for physics beyond it. Oscillation arises because of mixing between the flavor and mass eigenstates, and their evolution over time. It is an inherent quantum system for which flavor transitions are traditionally studied with probabilistic measures. We have applied quantum complexity formalism as an alternate measure to study neutrino oscillations. In particular, quantum spread complexity revealed additional information on the violation of charge-parity symmetry in the neutrino sector. Our results indicate that complexity favors the maximum violation of charge-parity, hinted recently by experimental data.
翻訳日:2024-02-28 22:59:40 公開日:2024-02-26
# 深層ニューラルネットワークテストにおける多様性の再考

Rethinking Diversity in Deep Neural Network Testing ( http://arxiv.org/abs/2305.15698v2 )

ライセンス: Link先を確認
Zi Wang, Jihye Choi, Ke Wang, Somesh Jha(参考訳) 従来のソフトウェアテストの成功により、ディープニューラルネットワーク(DNN)のテストには数多くの多様性対策が提案されている。 本研究では,多様性に基づくテストタスクではなく,指向的なテスト問題としてDNNテストを検討することを提案する。 dnnsをテストする目的は具体的で明確に定義されている: 誤分類につながる入力を特定することだ。 したがって、より正確なテスト手法は、"多様性"を高める入力を強調するのではなく、誤分類を誘発する可能性の高いインプットを優先順位付けすることである。 さらに,目的のスコープを超えてメトリクスを適用すると,その効果が著しく低下する可能性があるため,各メトリックの適切なスコープを慎重に分析する。 評価の結果, 1) 多様性指標は, 入力の摂動によって生じるバギーな入力を識別する指標として特に弱いことが示され, 2) DNNの誤った振る舞いを明らかにする上で, 多様性指標を常に上回っていることが明らかとなった。

Motivated by the success of traditional software testing, numerous diversity measures have been proposed for testing deep neural networks (DNNs). In this study, we propose a shift in perspective, advocating for the consideration of DNN testing as directed testing problems rather than diversity-based testing tasks. We note that the objective of testing DNNs is specific and well-defined: identifying inputs that lead to misclassifications. Consequently, a more precise testing approach is to prioritize inputs with a higher potential to induce misclassifications, as opposed to emphasizing inputs that enhance "diversity." We derive six directed metrics for DNN testing. Furthermore, we conduct a careful analysis of the appropriate scope for each metric, as applying metrics beyond their intended scope could significantly diminish their effectiveness. Our evaluation demonstrates that (1) diversity metrics are particularly weak indicators for identifying buggy inputs resulting from small input perturbations, and (2) our directed metrics consistently outperform diversity metrics in revealing erroneous behaviors of DNNs across all scenarios.
翻訳日:2024-02-28 22:58:55 公開日:2024-02-26
# SmartTrim: 効率的なビジョンランゲージモデルのための適応型トークンとアテンションプルーニング

SmartTrim: Adaptive Tokens and Attention Pruning for Efficient Vision-Language Models ( http://arxiv.org/abs/2305.15033v2 )

ライセンス: Link先を確認
Zekun Wang, Jingchang Chen, Wangchunshu Zhou, Haichao Zhu, Jiafeng Liang, Liping Shan, Ming Liu, Dongliang Xu, Qing Yang, Bing Qin(参考訳) 様々な視覚言語タスクにおける顕著な性能にもかかわらず、トランスフォーマーベースの視覚言語モデル(VLM)は入力やパラメータの冗長性に悩まされ、現実世界のアプリケーションではその効率を著しく損なう。 さらに、トークン表現とアテンションヘッドなどのモデルパラメータの冗長度は、異なる入力に対して大きく異なる。 そこで本研究では,vlmsのための適応加速度フレームワークsmarttrimを提案する。 具体的には、軽量なモジュールを元のバックボーンに統合し、各レイヤ内で冗長なトークン表現とアテンションヘッドを特定してプルークする。 さらに,プレナードモデルと完全容量モデルとの整合性を高めるための自己蒸留戦略を考案した。 様々な視覚言語タスクに対する実験結果から、SmartTrimはパフォーマンスの低下を最小限に抑えながら、オリジナルのモデルを2~3倍加速し、従来のアプローチと比べての有効性と効率性を強調している。 コードはhttps://github.com/kugwzk/smarttrimで入手できる。

Despite achieving remarkable performance on various vision-language tasks, Transformer-based Vision-Language Models (VLMs) suffer from redundancy in inputs and parameters, significantly hampering their efficiency in real-world applications. Moreover, the degree of redundancy in token representations and model parameters, such as attention heads, varies significantly for different inputs. In light of the challenges, we propose SmartTrim, an adaptive acceleration framework for VLMs, which adjusts the computational overhead per instance. Specifically, we integrate lightweight modules into the original backbone to identify and prune redundant token representations and attention heads within each layer. Furthermore, we devise a self-distillation strategy to enhance the consistency between the predictions of the pruned model and its fully-capacity counterpart. Experimental results across various vision-language tasks consistently demonstrate that SmartTrim accelerates the original model by 2-3 times with minimal performance degradation, highlighting the effectiveness and efficiency compared to previous approaches. Code will be available at https://github.com/kugwzk/SmartTrim.
翻訳日:2024-02-28 22:58:38 公開日:2024-02-26
# 「...」:事前学習データからの引用を改善する言語モデルプロンプト

"According to ...": Prompting Language Models Improves Quoting from Pre-Training Data ( http://arxiv.org/abs/2305.13252v2 )

ライセンス: Link先を確認
Orion Weller and Marc Marone and Nathaniel Weir and Dawn Lawrie and Daniel Khashabi and Benjamin Van Durme(参考訳) LLM(Large Language Models)は、実データによる事前学習にもかかわらず、幻覚と偽の情報を生成する。 情報提供者」の報道装置に触発されて,先行したテキストに対してllmを地上応答に指示することを提案する。 この基礎となるテキストコーパスにモデル生成回答が直接現れる範囲を測定するための新しい評価指標(QUIP-Score)を提案する。 われわれは3つのコーパス(Wikipedia、PubMed、米国法税法典)で、これらの効果が我々の指標に基づく基盤の改善を促進させ、エンドタスクのパフォーマンスを頻繁に改善する追加の利点を説明した。 さらに、モデルに接地の減少(または他のコーパスへの接地)を求めるプロンプトは、実際にクイップスコアを減少させ、要求に応じて接地世代を増加または減少させるllmの能力を示す。

Large Language Models (LLMs) may hallucinate and generate fake information, despite pre-training on factual data. Inspired by the journalistic device of "according to sources", we propose according-to prompting: directing LLMs to ground responses against previously observed text. To quantify this grounding, we propose a novel evaluation metric (QUIP-Score) that measures the extent to which model-produced answers are directly found in underlying text corpora. We illustrate with experiments on three corpora (Wikipedia, PubMed, and the U.S. legal tax code) that these prompts improve grounding under our metrics, with the additional benefit of often improving end-task performance. Furthermore, prompts that ask the model to decrease grounding (or to ground to other corpora) indeed decrease QUIP-Score, indicating the ability of LLMs to increase or decrease grounded generations on request.
翻訳日:2024-02-28 22:57:52 公開日:2024-02-26
# 論理推論のための抽象的表現に基づく論理駆動データ拡張

Abstract Meaning Representation-Based Logic-Driven Data Augmentation for Logical Reasoning ( http://arxiv.org/abs/2305.12599v3 )

ライセンス: Link先を確認
Qiming Bao, Alex Yuxuan Peng, Zhenyun Deng, Wanjun Zhong, Gael Gendron, Timothy Pistotti, Neset Tan, Nathan Young, Yang Chen, Yonghua Zhu, Paul Denny, Michael Witbrock, Jiamou Liu(参考訳) 大きな言語モデルと論理的推論を組み合わせることで、堅牢で信頼性の高い方法で問題に取り組む能力が向上する。 それでも、論理的推論の複雑な性質は、総合的なトレーニングデータセットを構築するためのWebからの信頼性のあるデータ収集に困難をもたらし、その後、下流タスクのパフォーマンスに影響を及ぼす。 そこで我々はAMR-LDAという新しい論理駆動型データ拡張手法を提案する。 amr-ldaは、原文を抽象意味表現(amr)グラフに変換し、文の論理構造をカプセル化した構造的意味表現で、その操作によって論理的に修正されたamrグラフを生成する。 修正されたAMRグラフは、拡張データを生成するためにテキストに変換される。 特に,本手法は,GPT-3.5 や GPT-4 などの生成的大言語モデルと,論理駆動型データ拡張による対照的な学習による識別的大言語モデルの両方をアーキテクチャに依存しない。 実験的な証拠は,論理的推論,テキストの包含,自然言語推論など,7つの下流タスクにおける性能向上が提案手法の有効性を裏付けるものである。 さらに、この手法はreclor leaderboard\footnote{\url{https://eval.ai/web/challenges/challenge-page/503/leaderboard/1347}}に導かれる。 ソースコードとデータは、"footnote{\url{https://bit.ly/3owke8r}}"として公開されている。

Combining large language models with logical reasoning enhances their capacity to address problems in a robust and reliable manner. Nevertheless, the intricate nature of logical reasoning poses challenges to gathering reliable data from the web for building comprehensive training datasets, subsequently affecting the performance on downstream tasks. To address this, we introduce a novel logic-driven data augmentation approach, AMR-LDA. AMR-LDA converts the original text into an Abstract Meaning Representation (AMR) graph, a structured semantic representation that encapsulates the logic structure of the sentence, upon which operations are performed to generate logically modified AMR graphs. The modified AMR graphs are subsequently converted back into text to create augmented data. Notably, our methodology is architecture-agnostic and enhances both generative large language models, such as GPT-3.5 and GPT-4, through prompt augmentation, and discriminative large language models through contrastive learning with logic-driven data augmentation. Empirical evidence underscores the efficacy of our proposed method with improvement in performance across seven downstream tasks, such as reading comprehension requiring logical reasoning, textual entailment, and natural language inference. Furthermore, our method leads on the ReClor leaderboard\footnote{\url{https://eval.ai/web/challenges/challenge-page/503/leaderboard/1347}}. The source code and data are publicly available\footnote{\url{https://bit.ly/3OWKe8r}}.
翻訳日:2024-02-28 22:57:16 公開日:2024-02-26
# ハイゼンベルク画像におけるテンソルネットワークによるガウスボソンサンプリングのシミュレーション

Simulating Gaussian Boson Sampling with Tensor Networks in the Heisenberg picture ( http://arxiv.org/abs/2305.11215v3 )

ライセンス: Link先を確認
Dario Cilluffo, Nicola Lorenzoni, Martin B. Plenio(参考訳) Schr{\"o}dinger と Heisenberg の画像は量子力学の等価な定式化であるが、一方を選択したシミュレーションは問題を解くのに必要な計算資源に大きな影響を与える。 ここでは,量子コンピューティングにおける中心的な問題であるガウス・ボーソンサンプリングにおいて,表現のよい選択が,実現可能かつ実現不可能な数値シミュレーション可能性の境界をシフトできることを実証する。 そこで本研究では,ハイゼンベルク画像におけるテンソルネットワークの時間発展に基づくボゾンサンプリングの確率分布を計算する新しい手法を提案する。 さらに,非一様光子損失による現実的なセットアップのシミュレーションを可能にする既存手法の限界を克服する。 本研究では,本手法の有効性と量子コンピューティング研究の進展の可能性を示す。

Although the Schr{\"o}dinger and Heisenberg pictures are equivalent formulations of quantum mechanics, simulations performed choosing one over the other can greatly impact the computational resources required to solve a problem. Here we demonstrate that in Gaussian boson sampling, a central problem in quantum computing, a good choice of representation can shift the boundary between feasible and infeasible numerical simulability. To achieve this, we introduce a novel method for computing the probability distribution of boson sampling based on the time evolution of tensor networks in the Heisenberg picture. In addition, we overcome limitations of existing methods enabling simulations of realistic setups affected by non-uniform photon losses. Our results demonstrate the effectiveness of the method and its potential to advance quantum computing research.
翻訳日:2024-02-28 22:56:28 公開日:2024-02-26
# DecodingTrust: GPTモデルにおける信頼性の総合評価

DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models ( http://arxiv.org/abs/2306.11698v5 )

ライセンス: Link先を確認
Boxin Wang, Weixin Chen, Hengzhi Pei, Chulin Xie, Mintong Kang, Chenhui Zhang, Chejian Xu, Zidi Xiong, Ritik Dutta, Rylan Schaeffer, Sang T. Truong, Simran Arora, Mantas Mazeika, Dan Hendrycks, Zinan Lin, Yu Cheng, Sanmi Koyejo, Dawn Song, Bo Li(参考訳) ジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)モデルは、実践者や一般大衆の関心を捉えながら、その能力にエキサイティングな進歩を見せている。 しかし、GPTモデルの信頼性に関する文献は依然として限られているが、医療や金融といった繊細なアプリケーションに有能なGPTモデルを採用することを提案した。 本研究は,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案し,有害性,ステレオタイプバイアス,敵対的堅牢性,アウト・オブ・ディストリビューションの堅牢性,敵的デモンストレーションに対する堅牢性,プライバシ,マシン倫理,公正性など,さまざまな観点から考察する。 評価の結果,信頼の脅威に対する未公表の脆弱性が発見された。 例えば、GPTモデルは、有毒で偏りのある出力を生成し、トレーニングデータと会話履歴の両方のプライベート情報を漏らすために、容易に誤解される。 また、GPT-4は標準ベンチマークではGPT-3.5よりも信頼性が高いが、GPT-4はJailbreakingシステムやユーザプロンプトにより脆弱である。 我々の研究は、GPTモデルの総合的信頼性評価を示し、信頼性のギャップに光を当てている。 私たちのベンチマークはhttps://decodingtrust.github.io/で、データセットはhttps://huggingface.co/datasets/AI-Secure/DecodingTrustでプレビューできます。 id=kaHpo8OZw2。

Generative Pre-trained Transformer (GPT) models have exhibited exciting progress in their capabilities, capturing the interest of practitioners and the public alike. Yet, while the literature on the trustworthiness of GPT models remains limited, practitioners have proposed employing capable GPT models for sensitive applications such as healthcare and finance -- where mistakes can be costly. To this end, this work proposes a comprehensive trustworthiness evaluation for large language models with a focus on GPT-4 and GPT-3.5, considering diverse perspectives -- including toxicity, stereotype bias, adversarial robustness, out-of-distribution robustness, robustness on adversarial demonstrations, privacy, machine ethics, and fairness. Based on our evaluations, we discover previously unpublished vulnerabilities to trustworthiness threats. For instance, we find that GPT models can be easily misled to generate toxic and biased outputs and leak private information in both training data and conversation history. We also find that although GPT-4 is usually more trustworthy than GPT-3.5 on standard benchmarks, GPT-4 is more vulnerable given jailbreaking system or user prompts, potentially because GPT-4 follows (misleading) instructions more precisely. Our work illustrates a comprehensive trustworthiness evaluation of GPT models and sheds light on the trustworthiness gaps. Our benchmark is publicly available at https://decodingtrust.github.io/ ; our dataset can be previewed at https://huggingface.co/datasets/AI-Secure/DecodingTrust ; a concise version of this work is at https://openreview.net/pdf?id=kaHpo8OZw2 .
翻訳日:2024-02-28 22:48:09 公開日:2024-02-26
# Search-Generate-Modifyによる自動コード編集

Automated Code Editing with Search-Generate-Modify ( http://arxiv.org/abs/2306.06490v2 )

ライセンス: Link先を確認
Changshu Liu, Pelin Cetin, Yogesh Patodia, Saikat Chakraborty, Yangruibo Ding, Baishakhi Ray(参考訳) コード編集はソフトウェア開発の発展に不可欠である。 情報検索ベースの技術と機械学習ベースのコード生成とコード編集モデルの両方を活用する多くの自動コード編集ツールが提案されている。 それぞれのテクニックには独自の約束と危険が伴い、その強みを補完し、弱点を補うためにしばしば使用される。 本稿では,コード検索,生成,修正のパワーを活用して,コード編集をより良く合成するためのハイブリッドアプローチを提案する。 我々のキーとなる観察は、たとえ不完全であっても、検索と検索によって得られたパッチは、コード生成モデルに有用なガイダンスを提供することができることである。 しかし、コード生成モデルによって生成された検索誘導パッチは、意図したパッチからいくつかのトークンを外すことができる。 生成されたパッチは、意図したパッチを作成するためにわずかに変更することができる。 SARGAMは、実際の開発者のコード編集動作を模倣するように設計された新しいツールである。 オリジナルのコードバージョンが与えられたら、開発者は関連するパッチを検索し、コードの生成や書き込みを行い、生成したコードを変更して適切なコンテキストに適応することができる。 編集生成におけるsargamの評価は,現在の技術において優れた性能を示す。 SARGAMは、自動プログラム修復タスクにも優れた効果を示す。

Code editing is essential in evolving software development. Many automated code editing tools have been proposed that leverage both Information Retrieval-based techniques and Machine Learning-based code generation and code editing models. Each technique comes with its own promises and perils, and they are often used together to complement their strengths and compensate for their weaknesses. This paper proposes a hybrid approach to better synthesize code edits by leveraging the power of code search, generation, and modification. Our key observation is that a patch obtained by search and retrieval, even if imperfect, can provide helpful guidance to a code generation model. However, a retrieval-guided patch produced by a code generation model can still be a few tokens off from the intended patch. Such generated patches can be slightly modified to create the intended patches. SARGAM is a novel tool designed to mimic a real developer's code editing behavior. Given an original code version, the developer may search for related patches, generate or write the code, and then modify the generated code to adapt it to the right context. Our evaluation of SARGAM on edit generation shows superior performance with respect to current state-of-the-art techniques. SARGAM also shows great effectiveness on automated program repair tasks.
翻訳日:2024-02-28 22:46:52 公開日:2024-02-26
# 文脈性による誘発コヒーレンスの非古典性

Nonclassicality of induced coherence witnessed by contextuality ( http://arxiv.org/abs/2306.03216v2 )

ライセンス: Link先を確認
F. Haji Shafiee, O. Mahmoudi, R. Nouroozi, and A. Asadian(参考訳) 経路同一性による量子不明瞭性は「誘導コヒーレンス」と呼ばれる新しい光学コヒーレンスを生成する。 この現象は、Zau、Wang、Mandelの実験によって発見されたもので、現代の量子実験において幅広い意味を持つ新しい概念である。 しかし、その真の量子の性質と結果が古典光でエミュレートできるかどうかについては議論がある。 我々は,非文脈的隠れ変数モデルを用いて古典的に記述できない量子予測を区別する条件を,設定が生成する条件を決定するのに適した文脈性試験を設計する。

Quantum indistinguishability by path identity generates a new way of optical coherence, called ``induced coherence". The phenomenon, originally uncovered by Zou, Wang, and Mandel's experiment, is an emerging notion in modern quantum experiments with a wide range of implications. However, there has been controversy over its true quantum nature and whether the result can be emulated with classical light. We design a suitable contextuality test that can determine the conditions under which the setting produces distinguishing quantum predictions that cannot be described classically, namely, via the noncontextual hidden variable model.
翻訳日:2024-02-28 22:46:06 公開日:2024-02-26
# 線形波形推定の基本量子限界を達成する

Achieving the fundamental quantum limit of linear waveform estimation ( http://arxiv.org/abs/2308.06253v3 )

ライセンス: Link先を確認
James W. Gardner, Tuvia Gefen, Simon A. Haine, Joseph J. Hope, and Yanbei Chen(参考訳) 線形量子デバイスを用いた古典信号のセンシングは、量子エンハンス計測の広汎な応用である。 しかし線形波形推定の基本精度限界は完全には理解されていない。 あるケースでは、既知の波形推定量子クレーア・ラオ境界と、デバイスからの出力モードの2次測定による最適感度との間に説明できないギャップがある。 我々は、このギャップを、基本的な精度限界、波形推定のHorevo Cram\'er-Rao Boundを確立することで解決する。 我々は,二元中性子星融合後の残差の探索を加速するために,デチューン重力波干渉法に適用する。 信号のパワーと位相を推定する間の重み付けが不等ければ、この非定常測定を用いて信号対雑音比を$\sqrt2$ でさらに改善する方法を提案する。

Sensing a classical signal using a linear quantum device is a pervasive application of quantum-enhanced measurement. The fundamental precision limits of linear waveform estimation, however, are not fully understood. In certain cases, there is an unexplained gap between the known waveform-estimation Quantum Cram\'er-Rao Bound and the optimal sensitivity from quadrature measurement of the outgoing mode from the device. We resolve this gap by establishing the fundamental precision limit, the waveform-estimation Holevo Cram\'er-Rao Bound, and how to achieve it using a nonstationary measurement. We apply our results to detuned gravitational-wave interferometry to accelerate the search for post-merger remnants from binary neutron-star mergers. If we have an unequal weighting between estimating the signal's power and phase, then we propose how to further improve the signal-to-noise ratio by a factor of $\sqrt2$ using this nonstationary measurement.
翻訳日:2024-02-28 22:40:56 公開日:2024-02-26
# データ駆動型自律系グラフ生成装置

Data-driven Intra-Autonomous Systems Graph Generator ( http://arxiv.org/abs/2308.05254v2 )

ライセンス: Link先を確認
Caio Vinicius Dadauto, Nelson Luis Saldanha da Fonseca and Ricardo da Silva Torres(参考訳) ネットワークトポロジの正確なモデリングは,新しいインターネットソリューションを評価する上で不可欠である。 現在のトポロジ生成装置、特にスケールフリーベースのモデルは、ASトポロジの複数の特性を捉えることができない。 スケールフリーネットワークはノード度分布をエンコードするが、相互性、クラスタリング、乱雑性といった重要なグラフ特性を見落としている。 既存のジェネレータの限界は、様々なインターネットトポロジー特性を含む高度なトポロジージェネレータの必要性を強調し、通信ネットワークにおけるディープラーニングモデルのトレーニングと評価に課題をもたらす。 本稿では,インターネット上での自律性を表す合成グラフの深層学習に基づく生成手法について紹介する。 また、IGraphsと呼ばれるプロジェクトITDKから抽出された実際のASグラフの大規模なデータセットも提示されている。 DGGIは、中心性、クラスタリング、代替性、およびノード次数の特性を正確に再現する合成グラフを作成する。 DGGIジェネレータは、既存のインターネットトポロジージェネレータをオーバーパフォーマンスする。 平均して、DGGIはMDDのメートル法を8,4\%$、9,5.1\%$、9,7.9\%$、9,4.7\%$で改善している。

Accurate modeling of realistic network topologies is essential for evaluating novel Internet solutions. Current topology generators, notably scale-free-based models, fail to capture multiple properties of intra-AS topologies. While scale-free networks encode node-degree distribution, they overlook crucial graph properties like betweenness, clustering, and assortativity. The limitations of existing generators pose challenges for training and evaluating deep learning models in communication networks, emphasizing the need for advanced topology generators encompassing diverse Internet topology characteristics. This paper introduces a novel deep-learning-based generator of synthetic graphs representing intra-autonomous in the Internet, named Deep-Generative Graphs for the Internet (DGGI). It also presents a novel massive dataset of real intra-AS graphs extracted from the project ITDK, called IGraphs. It is shown that DGGI creates synthetic graphs that accurately reproduce the properties of centrality, clustering, assortativity, and node degree. The DGGI generator overperforms existing Internet topology generators. On average, DGGI improves the MMD metric $84.4\%$, $95.1\%$, $97.9\%$, and $94.7\%$ for assortativity, betweenness, clustering, and node degree, respectively.
翻訳日:2024-02-28 22:40:38 公開日:2024-02-26
# LLMeBench: LLMベンチマークを高速化するための柔軟なフレームワーク

LLMeBench: A Flexible Framework for Accelerating LLMs Benchmarking ( http://arxiv.org/abs/2308.04945v2 )

ライセンス: Link先を確認
Fahim Dalvi, Maram Hasanain, Sabri Boughorbel, Basel Mousi, Samir Abdaljalil, Nizi Nazar, Ahmed Abdelali, Shammur Absar Chowdhury, Hamdy Mubarak, Ahmed Ali, Majd Hawasly, Nadir Durrani, Firoj Alam(参考訳) 近年のLarge Language Models (LLMs) の発展と成功は,異なる言語における多様なNLPタスク間での性能評価を必要とする。 いくつかのフレームワークが開発され、公開されているが、特定のタスクやデータセットのカスタマイズ機能は、しばしば異なるユーザーにとって複雑である。 本研究では,言語に関係なく,任意のNLPタスクに対してLLMをシームレスにカスタマイズできるLLMeBenchフレームワークを提案する。 このフレームワークは、ジェネリックデータセットローダ、いくつかのモデルプロバイダ、およびほとんどの標準評価メトリクスをプリ実装する。 ゼロと数ショット設定で、コンテキスト内学習をサポートする。 特定のデータセットとタスクは、与えられたllmに対して20行以下のコードで評価でき、カスタムデータセット、モデル、タスクのフレームワークをフルに柔軟に拡張できる。 このフレームワークは、約296Kのデータポイントを含む90の実験セットアップ内で53の公開データセットを使用して31のユニークなNLPタスクでテストされている。 コミュニティ向けのLLMeBench(https://github.com/qcri/LLMeBench/)をオープンソースとして公開しています。 (https://youtu.be/9cC2m_abk3A)

The recent development and success of Large Language Models (LLMs) necessitate an evaluation of their performance across diverse NLP tasks in different languages. Although several frameworks have been developed and made publicly available, their customization capabilities for specific tasks and datasets are often complex for different users. In this study, we introduce the LLMeBench framework, which can be seamlessly customized to evaluate LLMs for any NLP task, regardless of language. The framework features generic dataset loaders, several model providers, and pre-implements most standard evaluation metrics. It supports in-context learning with zero- and few-shot settings. A specific dataset and task can be evaluated for a given LLM in less than 20 lines of code while allowing full flexibility to extend the framework for custom datasets, models, or tasks. The framework has been tested on 31 unique NLP tasks using 53 publicly available datasets within 90 experimental setups, involving approximately 296K data points. We open-sourced LLMeBench for the community (https://github.com/qcri/LLMeBench/) and a video demonstrating the framework is available online. (https://youtu.be/9cC2m_abk3A)
翻訳日:2024-02-28 22:40:04 公開日:2024-02-26
# スピン量子ビットのリアルタイム2軸制御

Real-time two-axis control of a spin qubit ( http://arxiv.org/abs/2308.02012v2 )

ライセンス: Link先を確認
Fabrizio Berritta, Torbj{\o}rn Rasmussen, Jan A. Krzywda, Joost van der Heijden, Federico Fedele, Saeed Fallahi, Geoffrey C. Gardner, Michael J. Manfra, Evert van Nieuwenburg, Jeroen Danon, Anasua Chatterjee and Ferdinand Kuemmeth(参考訳) 量子ビットの最適制御には、継続的に変化する環境に適応する能力が必要である。 2つの変動するハミルトンパラメータを持つ2電子一重項量子ビットのリアルタイム制御プロトコルを実証する。 本手法はシングルショット読み出し分類と動的波形生成を活用し,フルハミルトン推定により量子ビット性能の動的安定化と最適化を実現する。 fpga(field-programmable gate array)により、量子制御エレクトロニクスは2つの電子間のオーバーハウザー磁場勾配をリアルタイムで推定し、オーバーハウザー駆動のスピン回転を制御することができ、マイクロマグネットや核偏光プロトコルの必要性を回避できる。 また、2つの電子間の交換相互作用を推定し、デチューニングを調整することで、両方のクビット軸のゆらぎを補正する際にアダマール回転が拡張される。 本研究は、量子デバイスの性能と安定性を高める上でのフィードバックの重要性を強調した。 フィードバックは、スピン量子ビットを超えた様々な量子ビット実装のパフォーマンスを改善する上で重要な役割を果たす。

Optimal control of qubits requires the ability to adapt continuously to their ever-changing environment. We demonstrate a real-time control protocol for a two-electron singlet-triplet qubit with two fluctuating Hamiltonian parameters. Our approach leverages single-shot readout classification and dynamic waveform generation, allowing full Hamiltonian estimation to dynamically stabilize and optimize the qubit performance. Powered by a field-programmable gate array (FPGA), the quantum control electronics estimates the Overhauser field gradient between the two electrons in real time, enabling controlled Overhauser-driven spin rotations and thus bypassing the need for micromagnets or nuclear polarization protocols. It also estimates the exchange interaction between the two electrons and adjusts their detuning, resulting in extended coherence of Hadamard rotations when correcting for fluctuations of both qubit axes. Our study emphasizes the critical role of feedback in enhancing the performance and stability of quantum devices affected by quasistatic noise. Feedback will play an essential role in improving performance in various qubit implementations that go beyond spin qubits, helping realize the full potential of quantum devices for quantum technology applications.
翻訳日:2024-02-28 22:39:44 公開日:2024-02-26
# 非マルコフ雑音下での弱測定による負量子状態の量子相関の保護

Protecting quantum correlations of negative quantum states using weak measurement under non-Markovian noise ( http://arxiv.org/abs/2309.06134v2 )

ライセンス: Link先を確認
Jai Lalita and Subhashish Banerjee(参考訳) 弱い測定(WM)と量子測度反転(QMR)は、量子状態の崩壊を保護するために重要である。 WMとQMRの考え方は近年、量子相関と普遍量子テレポーテーション(UQT)プロトコルの保護と強化に使われている。 本稿では,wmとqmrを伴わない離散ウィグナー関数を用いた2量子ビット負の量子状態の量子相関,最大忠実性,忠実性偏差について検討する。 雑音環境の影響を考慮するため、非マルコフ振幅減衰とランダムな電信ノイズ量子チャネルを用いて状態を進化させる。 負の量子状態の性能をベンチマークするために、その成功確率を計算する。 この結果と2ビットの最大絡み合うベル状態との比較を行った。 興味深いことに、いくつかの負の量子状態は、ノイズ量子チャネルを介して進化中の異なる場合のベル状態よりもwmとqmrで良く機能する。

The weak measurement (WM) and quantum measurement reversal (QMR) are crucial in protecting the collapse of quantum states. The idea of WM and QMR has recently been used to protect and enhance quantum correlations and universal quantum teleportation (UQT) protocols. Here, we study the quantum correlations, maximal fidelity, and fidelity deviation of the two-qubit negative quantum states developed using discrete Wigner functions with(without) WM and QMR. To take into account the effect of a noisy environment, we evolve the states via non-Markovian amplitude damping and random telegraph noise quantum channels. To benchmark the performance of negative quantum states, we calculate their success probability. We compare our results with the two-qubit maximally entangled Bell state. Interestingly, we observe that some negative quantum states perform better with WM and QMR than the Bell state for different cases under evolution via noisy quantum channels.
翻訳日:2024-02-28 22:31:02 公開日:2024-02-26
# CaloClouds II:超高速幾何非依存高グラニュラーカロリメータシミュレーション

CaloClouds II: Ultra-Fast Geometry-Independent Highly-Granular Calorimeter Simulation ( http://arxiv.org/abs/2309.05704v2 )

ライセンス: Link先を確認
Erik Buhmann, Frank Gaede, Gregor Kasieczka, Anatolii Korol, William Korcari, Katja Kr\"uger, and Peter McKeown(参考訳) 高グラニュラー検出器内のエネルギー沈着の高速シミュレーションは、より高輝度の将来の衝突実験のために必要である。 生成機械学習(ML)モデルは、物理解析において従来のシミュレーションチェーンをスピードアップし、拡張する。 しかし、以前の取り組みの大半は、固定された通常の検出器の読み出しジオメトリに依存するモデルに限られていた。 主要な進歩は、測位に依存しない拡散モデルであるCaloCloudsモデルであり、予想される国際大検出器(ILD)の電磁量計のための点雲としてカロリーメータシャワーを生成する。 本稿では,CaloClouds IIについて紹介する。 例えば、連続時間スコアベースのモデリングでは、CaloCloudsに匹敵する25ステップのサンプリングが可能で、単一のCPU(5\times$ over CaloClouds)でGeant4よりも6\times$スピードアップできる。 さらに,拡散モデルを1ステップで正確なサンプリングを可能にし,結果として46\times$$(37\times$ over CaloClouds)のスピードアップを実現した。 これは、カロリメータシャワーの生成における一貫性蒸留の最初の応用である。

Fast simulation of the energy depositions in high-granular detectors is needed for future collider experiments with ever-increasing luminosities. Generative machine learning (ML) models have been shown to speed up and augment the traditional simulation chain in physics analysis. However, the majority of previous efforts were limited to models relying on fixed, regular detector readout geometries. A major advancement is the recently introduced CaloClouds model, a geometry-independent diffusion model, which generates calorimeter showers as point clouds for the electromagnetic calorimeter of the envisioned International Large Detector (ILD). In this work, we introduce CaloClouds II which features a number of key improvements. This includes continuous time score-based modelling, which allows for a 25-step sampling with comparable fidelity to CaloClouds while yielding a $6\times$ speed-up over Geant4 on a single CPU ($5\times$ over CaloClouds). We further distill the diffusion model into a consistency model allowing for accurate sampling in a single step and resulting in a $46\times$ ($37\times$ over CaloClouds) speed-up. This constitutes the first application of consistency distillation for the generation of calorimeter showers.
翻訳日:2024-02-28 22:30:47 公開日:2024-02-26
# 再訪したロバスト単回転平均

Robust Single Rotation Averaging Revisited ( http://arxiv.org/abs/2309.05388v3 )

ライセンス: Link先を確認
Seong Hun Lee, Javier Civera(参考訳) そこで本研究では, 極端に大きなアウトリアーを効率的に処理できるロバストな単回転平均法を提案する。 我々のアプローチは、測地線距離の総最小二乗偏差(TLUD)コストを最小化することである。 提案手法は3つのステップからなる: まず, 各入力回転をポテンシャル初期解として考慮し, 断続したコード偏差の最小和を求める。 次に、初期解を用いて不整集合を取得し、その和を$L_2$-meanで計算する。 最後に、この推定から始めて、$SO(3)$でWeiszfeldアルゴリズムを用いて、イリヤの測地線$L_1$-meanを反復的に計算する。 広範な評価により,本手法は最大99%の外れ値に対して十分な精度の異常値が得られ,現在の技術に匹敵するロバストであることが示された。

In this work, we propose a novel method for robust single rotation averaging that can efficiently handle an extremely large fraction of outliers. Our approach is to minimize the total truncated least unsquared deviations (TLUD) cost of geodesic distances. The proposed algorithm consists of three steps: First, we consider each input rotation as a potential initial solution and choose the one that yields the least sum of truncated chordal deviations. Next, we obtain the inlier set using the initial solution and compute its chordal $L_2$-mean. Finally, starting from this estimate, we iteratively compute the geodesic $L_1$-mean of the inliers using the Weiszfeld algorithm on $SO(3)$. An extensive evaluation shows that our method is robust against up to 99% outliers given a sufficient number of accurate inliers, outperforming the current state of the art.
翻訳日:2024-02-28 22:30:26 公開日:2024-02-26
# 離散変数に対する混合変分流

Mixed Variational Flows for Discrete Variables ( http://arxiv.org/abs/2308.15613v3 )

ライセンス: Link先を確認
Gian Carlo Diluvi, Benjamin Bloem-Reddy, Trevor Campbell(参考訳) 変動フローにより、実践者は複雑な連続分布を学習できるが、離散分布を近似することは依然として困難である。 現在の方法論では、通常、離散対象を連続的な空間(通常、連続的な緩和や非量子化を通じて)に埋め込み、連続的な流れを適用する。 これらのアプローチは、元の離散的ターゲットを捉えず、偏りや不安定な勾配を持ち、難しい最適化問題を引き起こすサロゲートターゲットを含む。 本研究では,連続埋め込みを伴わない離散分布に対する変分フローファミリを開発した。 まず,離散的対象不変量を残した測度保存・離散的可逆写像を開発し,その写像に基づいて混合変動流(MAD Mix)を生成する。 我々の家族は、ほとんどチューニングの努力なしに、i.d.サンプリングと密度評価へのアクセスを提供する。 また、連立離散モデルおよび連続モデルを扱うMAD Mixの拡張も開発した。 実験の結果,MAD Mixは連続埋込流よりも信頼性の高い近似を生成できるが,訓練は極めて高速であることが示唆された。

Variational flows allow practitioners to learn complex continuous distributions, but approximating discrete distributions remains a challenge. Current methodologies typically embed the discrete target in a continuous space - usually via continuous relaxation or dequantization - and then apply a continuous flow. These approaches involve a surrogate target that may not capture the original discrete target, might have biased or unstable gradients, and can create a difficult optimization problem. In this work, we develop a variational flow family for discrete distributions without any continuous embedding. First, we develop a measure-preserving and discrete (MAD) invertible map that leaves the discrete target invariant, and then create a mixed variational flow (MAD Mix) based on that map. Our family provides access to i.i.d. sampling and density evaluation with virtually no tuning effort. We also develop an extension to MAD Mix that handles joint discrete and continuous models. Our experiments suggest that MAD Mix produces more reliable approximations than continuous-embedding flows while being significantly faster to train.
翻訳日:2024-02-28 22:29:01 公開日:2024-02-26
# 視覚鳥の目視意味セグメンテーションのための半教師あり学習

Semi-Supervised Learning for Visual Bird's Eye View Semantic Segmentation ( http://arxiv.org/abs/2308.14525v2 )

ライセンス: Link先を確認
Junyu Zhu, Lina Liu, Yu Tang, Feng Wen, Wanlong Li and Yong Liu(参考訳) 視覚鳥の目視(BEV)セマンティックセグメンテーションは、自動運転車が周囲の環境を静的な要素(道路など)や動的要素(自動車、歩行者など)を含む画像からのみ理解するのに役立つ。 しかし、フル教師付き手法のアノテーション手順の高コストは、通常HDマップ、3Dオブジェクト境界ボックス、カメラ外部行列を必要とする視覚的BEVセマンティックセグメンテーションの能力を制限している。 本稿では,学習中にラベルなし画像を利用することにより,視覚 bev 意味セグメンテーションを実現するための,新しい半教師付きフレームワークを提案する。 次に、ラベルのないデータを完全に利用する一貫性損失を提案し、セマンティック予測だけでなく、BEV機能にもモデルを制約する。 さらに,前景画像とBEVセマンティックセグメンテーションの幾何学的関係を維持しつつ,データセットを合理的に増強する,結合回転という新しい効果的なデータ拡張手法を提案する。 nuscenesとargoverseデータセットに関する広範な実験は、半教師付きフレームワークが予測精度を効果的に向上できることを示しています。 我々の知る限りでは、未ラベルデータを用いた視覚的BEVセマンティックセマンティックセマンティクス性能の改善を探求する最初の研究である。 コードはhttps://github.com/junyu-z/semi-bevsegで入手できる。

Visual bird's eye view (BEV) semantic segmentation helps autonomous vehicles understand the surrounding environment only from images, including static elements (e.g., roads) and dynamic elements (e.g., vehicles, pedestrians). However, the high cost of annotation procedures of full-supervised methods limits the capability of the visual BEV semantic segmentation, which usually needs HD maps, 3D object bounding boxes, and camera extrinsic matrixes. In this paper, we present a novel semi-supervised framework for visual BEV semantic segmentation to boost performance by exploiting unlabeled images during the training. A consistency loss that makes full use of unlabeled data is then proposed to constrain the model on not only semantic prediction but also the BEV feature. Furthermore, we propose a novel and effective data augmentation method named conjoint rotation which reasonably augments the dataset while maintaining the geometric relationship between the front-view images and the BEV semantic segmentation. Extensive experiments on the nuScenes and Argoverse datasets show that our semi-supervised framework can effectively improve prediction accuracy. To the best of our knowledge, this is the first work that explores improving visual BEV semantic segmentation performance using unlabeled data. The code is available at https://github.com/Junyu-Z/Semi-BEVseg
翻訳日:2024-02-28 22:28:43 公開日:2024-02-26
# 変形四フレーバーシュウィンガーモデルにおける弦断片化からのハイパーオンスピン相関のリアルタイムダイナミクス

Realtime dynamics of hyperon spin correlations from string fragmentation in a deformed four-flavor Schwinger model ( http://arxiv.org/abs/2308.13596v2 )

ライセンス: Link先を確認
Jo\~ao Barata, Wenjie Gong, Raju Venugopalan(参考訳) 自発的弱崩壊は、衝突器実験で生成された$\lambda{\bar \lambda}$-pairsのスピン相関の測定を通して、qcd弦の断片化における絡み合いの役割に関するユニークな洞察を与える。 基礎となるパルトン力学を表す最も単純な量子場理論は、4つのフレーバーの質量シュウィンガーモデルと効果的なスピンフリップ項であり、フレーバーは光(上下)と重いクォークとそのスピンにマッピングされる。 この構造は、1+1次元の超音速スピン相関を探索する新しい方法を提供する。 モデルハミルトニアンのリッチ構造に敏感な異なる文字列構成に対するこれらの相関関係の進化について検討する。

Self-polarizing weak decays of $\Lambda$-hyperons provide unique insight into the role of entanglement in the fragmentation of QCD strings through measurements of the spin correlations of $\Lambda{\bar \Lambda}$-pairs produced in collider experiments. The simplest quantum field theory representing the underlying parton dynamics is the four-flavor massive Schwinger model plus an effective spin-flip term, where the flavors are mapped to light (up/down) and heavy (strange) quarks and their spins. This construction provides a novel way to explore hyperon spin-correlations in 1+1-dimensions. We investigate the evolution of these correlations for different string configurations that are sensitive to the rich structure of the model Hamiltonian.
翻訳日:2024-02-28 22:27:34 公開日:2024-02-26
# 2つのリストは1より優れているか? 共同意思決定における利益とハーム

When Are Two Lists Better than One?: Benefits and Harms in Joint Decision-making ( http://arxiv.org/abs/2308.11721v3 )

ライセンス: Link先を確認
Kate Donahue, Sreenivas Gollapudi, Kostas Kollias(参考訳) 歴史的に、機械学習の研究の多くはアルゴリズムの性能だけに焦点を当ててきたが、近年は人間-アルゴリズムの協調性能の最適化に注目が集まっている。 ここでは,アルゴリズムが1組の$n$アイテムにアクセス可能な,特定のタイプの人間とアルゴリズムのコラボレーションを分析し,その中の最終項目を選択した人に$k$のサブセットを提示する。 このシナリオは、コンテンツのレコメンデーション、ルート計画、どんな種類のラベル付けタスクでもモデル化できる。 人間とアルゴリズムのどちらも、アイテムの真の順序に関する不完全でノイズの多い情報を持っているので、鍵となる疑問は次のとおりである:$k$の値が最終的にベストアイテムが選択される確率を最大化するか? $k=1$の場合、パフォーマンスはアルゴリズム単独で最適化され、$k=n$の場合、人間単独で最適化される。 驚いたことに、複数のノイズモデルに対して、$k \in [2, n-1]$ - を設定するのが最適である。 理論的には、Mallowsモデルに対して、およびノイズ置換のランダムユーティリティモデルに対して実験的にこれを実証する。 しかし、このパターンは、人間が提示されたアルゴリズムの順序に固定されているときに反転することを示している。 これらの結果は、人間とアルゴリズムが精度のレベルで異なる場合まで拡張し、より正確なエージェントがより正確でないエージェントとのコラボレーションによって厳密に利益を得るような体制が常に存在することを示したが、これらの制度は人間とアルゴリズムの精度の間に非対称である。

Historically, much of machine learning research has focused on the performance of the algorithm alone, but recently more attention has been focused on optimizing joint human-algorithm performance. Here, we analyze a specific type of human-algorithm collaboration where the algorithm has access to a set of $n$ items, and presents a subset of size $k$ to the human, who selects a final item from among those $k$. This scenario could model content recommendation, route planning, or any type of labeling task. Because both the human and algorithm have imperfect, noisy information about the true ordering of items, the key question is: which value of $k$ maximizes the probability that the best item will be ultimately selected? For $k=1$, performance is optimized by the algorithm acting alone, and for $k=n$ it is optimized by the human acting alone. Surprisingly, we show that for multiple of noise models, it is optimal to set $k \in [2, n-1]$ - that is, there are strict benefits to collaborating, even when the human and algorithm have equal accuracy separately. We demonstrate this theoretically for the Mallows model and experimentally for the Random Utilities models of noisy permutations. However, we show this pattern is reversed when the human is anchored on the algorithm's presented ordering - the joint system always has strictly worse performance. We extend these results to the case where the human and algorithm differ in their accuracy levels, showing that there always exist regimes where a more accurate agent would strictly benefit from collaborating with a less accurate one, but these regimes are asymmetric between the human and the algorithm's accuracy.
翻訳日:2024-02-28 22:27:04 公開日:2024-02-26
# マルチビューステレオによるテクスチャーレス認識セグメント化と相関リファインメント

Textureless-aware Segmentation and Correlative Refinement Guided Multi-View Stereo ( http://arxiv.org/abs/2308.09990v2 )

ライセンス: Link先を確認
Zhenlong Yuan, Jiakai Cao, Hao Jiang, Zhaoqi Wang and Zhaoxin Li(参考訳) テクスチャレス領域の再構成は、画像間の信頼性の高い画素対応が欠如しているため、MVSでは長年、難しい問題であった。 本稿では,3次元再構成におけるテクスチャレス領域の課題を,フィルタリング,精細化,セグメント化によって効果的に解決する手法である,テクスチャレスアウェアセグメンテーションとコリレーティブリファインメント誘導マルチビューステレオを提案する。 まず,不均一不連続検出器と信頼度推定器を融合させて不正確な深度推定を除去するジョイント仮説フィルタリングを実装した。 第二に,RANSACを利用して高解像度の画素を生成する反復的相関補正戦略を導入し,高精度に決定された画素の影響を拡大する中央フィルタを継承し,エッジ検出と線検出を利用して3次元平面で装着する大型のテクスチャレス領域を正確に識別するテクスチャレス認識セグメンテーション法を提案する。 広範囲なデータセット実験により,本手法は非学習手法のほとんどを著しく上回り,テクスチャレス領域に頑健さを示しながら細部を保存できることが判明した。

The reconstruction of textureless areas has long been a challenging problem in MVS due to lack of reliable pixel correspondences between images. In this paper, we propose the Textureless-aware Segmentation And Correlative Refinement guided Multi-View Stereo, a novel method that effectively tackles challenges posed by textureless areas in 3D reconstruction through filtering, refinement and segmentation. First, we implement joint hypothesis filtering, a technique that merges a confidence estimator with a disparity discontinuity detector to eliminate incorrect depth estimations. Second, to spread the pixels with confident depth, we introduce a iterative correlation refinement strategy that leverages RANSAC to generate superpixels, succeeded by a median filter for broadening the influence of accurately determined pixels.Finally, we present a textureless-aware segmentation method that leverages edge detection and line detection for accurately identify large textureless regions to be fitted using 3D planes. Experiments on extensive datasets demonstrate that our method significantly outperforms most non-learning methods and exhibits robustness to textureless areas while preserving fine details.
翻訳日:2024-02-28 22:26:36 公開日:2024-02-26
# データ効率アモルトベイズ推定における自己一貫性の活用

Leveraging Self-Consistency for Data-Efficient Amortized Bayesian Inference ( http://arxiv.org/abs/2310.04395v3 )

ライセンス: Link先を確認
Marvin Schmitt, Desi R. Ivanova, Daniel Habermann, Ullrich K\"othe, Paul-Christian B\"urkner, Stefan T. Radev(参考訳) 本稿では,パラメータとデータの連立確率モデルにおける普遍対称性を利用して,償却ベイズ推定の効率と精度を向上させる手法を提案する。 一言で言えば、我々はベイズの定理を反転させ、ジョイントモデルの近似表現に基づいて限界確率を推定する。 完全近似が成立すると、定義による全てのパラメータ値の限界確率は一定となる。 しかし、近似推論における誤差は、異なるパラメータ値の辺縁推定値に望ましくないばらつきをもたらす。 この対称性の違反を \textit{self-consistency loss} で罰し、低データレジームにおける近似推論の品質を大幅に改善し、人気のある神経密度推定器のトレーニングを強化するために使用できる。 本手法を多くの合成問題や現実的な科学的モデルに適用し,神経後部および確率近似の文脈において顕著な利点を見出した。

We propose a method to improve the efficiency and accuracy of amortized Bayesian inference by leveraging universal symmetries in the joint probabilistic model of parameters and data. In a nutshell, we invert Bayes' theorem and estimate the marginal likelihood based on approximate representations of the joint model. Upon perfect approximation, the marginal likelihood is constant across all parameter values by definition. However, errors in approximate inference lead to undesirable variance in the marginal likelihood estimates across different parameter values. We penalize violations of this symmetry with a \textit{self-consistency loss} which significantly improves the quality of approximate inference in low data regimes and can be used to augment the training of popular neural density estimators. We apply our method to a number of synthetic problems and realistic scientific models, discovering notable advantages in the context of both neural posterior and likelihood approximation.
翻訳日:2024-02-28 22:22:16 公開日:2024-02-26
# USB-NeRF: シャッターバンドル調整ニューラルラジアンスフィールドの展開

USB-NeRF: Unrolling Shutter Bundle Adjusted Neural Radiance Fields ( http://arxiv.org/abs/2310.02687v3 )

ライセンス: Link先を確認
Moyang Li, Peng Wang, Lingzhe Zhao, Bangyan Liao and Peidong Liu(参考訳) neural radiance fields (nerf)は、3dシーンを表現し、新しいビューイメージを合成する素晴らしい能力により、近年注目を集めている。 既存の作業は通常、入力画像がグローバルシャッターカメラによってキャプチャされると仮定する。 したがって、ローリングシャッター(RS)画像は、新規なビュー合成のための既製のNeRFアルゴリズムに自明に適用できない。 ローリングシャッター効果はカメラポーズ推定の精度にも影響し(例えばCOLMAP)、RS画像によるNeRFアルゴリズムの成功をさらに防ぐことができる。 本稿では,USB-NeRF(Unrolling Shutter Bundle Adjusted Neural Radiance Fields)を提案する。 USB-NeRFは、RSカメラの物理的画像形成過程をモデル化することにより、回転シャッター歪みを補正し、NeRFの枠組みの下で同時に正確なカメラ運動軌跡を復元することができる。 実験結果から, RS効果除去, 新規視像合成, カメラモーション推定の両面で, USB-NeRFは従来よりも優れた性能を示した。 さらに,我々のアルゴリズムは,RS画像から高忠実度高フレームレートグローバルシャッター映像の復元にも利用できる。

Neural Radiance Fields (NeRF) has received much attention recently due to its impressive capability to represent 3D scene and synthesize novel view images. Existing works usually assume that the input images are captured by a global shutter camera. Thus, rolling shutter (RS) images cannot be trivially applied to an off-the-shelf NeRF algorithm for novel view synthesis. Rolling shutter effect would also affect the accuracy of the camera pose estimation (e.g. via COLMAP), which further prevents the success of NeRF algorithm with RS images. In this paper, we propose Unrolling Shutter Bundle Adjusted Neural Radiance Fields (USB-NeRF). USB-NeRF is able to correct rolling shutter distortions and recover accurate camera motion trajectory simultaneously under the framework of NeRF, by modeling the physical image formation process of a RS camera. Experimental results demonstrate that USB-NeRF achieves better performance compared to prior works, in terms of RS effect removal, novel view image synthesis as well as camera motion estimation. Furthermore, our algorithm can also be used to recover high-fidelity high frame-rate global shutter video from a sequence of RS images.
翻訳日:2024-02-28 22:21:43 公開日:2024-02-26
# LLMエージェントの協調メカニズムを探る:社会心理学の視点から

Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View ( http://arxiv.org/abs/2310.02124v2 )

ライセンス: Link先を確認
Jintian Zhang, Xin Xu, Ningyu Zhang, Ruibo Liu, Bryan Hooi, Shumin Deng(参考訳) 自然言語処理(NLP)システムは、複雑な社会環境においてますます採用されているため、押し付けクエリが出現する: これらのNLPシステムは、複数の大規模言語モデル(LLM)からなるマルチエージェント社会において、人間のような協調的な知性を反映できるだろうか? 本稿では,現代のnlpシステム間の協調機構を理論的洞察と実用実験を融合して検証する。 我々は,llmエージェントからなる4つのユニークな「社会」を作製し,それぞれのエージェントが特定の「トレイト」(容易な行動や自信過剰)を特徴とし,異なる「思考パターン」(行動や反省)と協調する。 これらのマルチエージェント社会を3つのベンチマークデータセットで評価することで、一部の協力戦略が従来のトップ層アプローチよりも優れているだけでなく、効率を最適化する(APIトークンを少なくする)ことに気付く。 さらに, LLMエージェントは, 整合性やコンセンサス到達, 基礎的社会心理学理論の反映など, 人間的な行動を示すことが示唆された。 結論として,我々は社会心理学からの洞察を統合し,llmエージェントの協調を文脈化し,llmの協調機構に関するさらなる調査を促した。 コードとデータセットは、github.com/zjunlp/machinesom}と共有することを約束しています。 この将来性のある道のさらなる研究をねらっている。

As Natural Language Processing (NLP) systems are increasingly employed in intricate social environments, a pressing query emerges: Can these NLP systems mirror human-esque collaborative intelligence, in a multi-agent society consisting of multiple large language models (LLMs)? This paper probes the collaboration mechanisms among contemporary NLP systems by melding practical experiments with theoretical insights. We fabricate four unique `societies' comprised of LLM agents, where each agent is characterized by a specific `trait' (easy-going or overconfident) and engages in collaboration with a distinct `thinking pattern' (debate or reflection). Through evaluating these multi-agent societies on three benchmark datasets, we discern that certain collaborative strategies not only outshine previous top-tier approaches, but also optimize efficiency (using fewer API tokens). Moreover, our results further illustrate that LLM agents manifest human-like social behaviors, such as conformity and consensus reaching, mirroring foundational social psychology theories. In conclusion, we integrate insights from social psychology to contextualize the collaboration of LLM agents, inspiring further investigations into the collaboration mechanism for LLMs. We commit to sharing our code and datasets\footnote{\url{https://github.com/zjunlp/MachineSoM}.}, hoping to catalyze further research in this promising avenue.
翻訳日:2024-02-28 22:21:22 公開日:2024-02-26
# LLMとBoWによる授業支援の自動評価:グローバル予測と特定のフィードバックを結びつける

Automated Evaluation of Classroom Instructional Support with LLMs and BoWs: Connecting Global Predictions to Specific Feedback ( http://arxiv.org/abs/2310.01132v3 )

ライセンス: Link先を確認
Jacob Whitehill and Jennifer LoCasale-Crouch(参考訳) 教師により具体的で頻繁で行動可能な授業フィードバックを提供することを目的として,広範言語モデル(LLM)を用いて,広く使用されている観察プロトコルであるCLLASS(CLassroom Assessment Scoring System)の「インストラクショナルサポート」ドメインスコアを推定する方法について検討した。 我々は,メタのLlama2のゼロショットプロンプトと/または古典的なBag of Words(BoW)モデルを用いて,教師の発話(OpenAIのWhisperで自動的に書き起こされる)の個別発話を教育支援の有無で分類する機械学習アーキテクチャを設計する。 そして、これらの発話レベルの判断を15分間の観察セッションに集約し、グローバルCLASSスコアを推定する。 Experiments on two CLASS-coded datasets of toddler and pre-kindergarten classrooms indicate that (1) automatic CLASS Instructional Support estimation accuracy using the proposed method (Pearson $R$ up to $0.48$) approaches human inter-rater reliability (up to $R=0.55$); (2) LLMs generally yield slightly greater accuracy than BoW for this task, though the best models often combined features extracted from both LLM and BoW; and (3) for classifying individual utterances, there is still room for improvement of automated methods compared to human-level judgments. 最後に,モデルの出力を発話レベルで可視化し,どの発話が最も肯定的か否定的にクラス次元に関連付けられたかを教師に説明可能なフィードバックを与える方法を示す。

With the aim to provide teachers with more specific, frequent, and actionable feedback about their teaching, we explore how Large Language Models (LLMs) can be used to estimate ``Instructional Support'' domain scores of the CLassroom Assessment Scoring System (CLASS), a widely used observation protocol. We design a machine learning architecture that uses either zero-shot prompting of Meta's Llama2, and/or a classic Bag of Words (BoW) model, to classify individual utterances of teachers' speech (transcribed automatically using OpenAI's Whisper) for the presence of Instructional Support. Then, these utterance-level judgments are aggregated over a 15-min observation session to estimate a global CLASS score. Experiments on two CLASS-coded datasets of toddler and pre-kindergarten classrooms indicate that (1) automatic CLASS Instructional Support estimation accuracy using the proposed method (Pearson $R$ up to $0.48$) approaches human inter-rater reliability (up to $R=0.55$); (2) LLMs generally yield slightly greater accuracy than BoW for this task, though the best models often combined features extracted from both LLM and BoW; and (3) for classifying individual utterances, there is still room for improvement of automated methods compared to human-level judgments. Finally, (4) we illustrate how the model's outputs can be visualized at the utterance level to provide teachers with explainable feedback on which utterances were most positively or negatively correlated with specific CLASS dimensions.
翻訳日:2024-02-28 22:20:14 公開日:2024-02-26
# 微分型マルチセンサカルマンフィルタによる自律走行のための確率的3次元多物体協調トラッキング

Probabilistic 3D Multi-Object Cooperative Tracking for Autonomous Driving via Differentiable Multi-Sensor Kalman Filter ( http://arxiv.org/abs/2309.14655v2 )

ライセンス: Link先を確認
Hsu-kuang Chiu, Chien-Yi Wang, Min-Hung Chen, Stephen F. Smith(参考訳) 現状の自動運転車は、知覚タスクを行うために個々のセンサーシステムに依存している。 このようなフレームワークの信頼性は、閉塞やセンサーの故障によって制限される可能性がある。 この問題に対処するために、より最近の研究では、車両間通信(V2V)を用いて他者と認識情報を共有することを提案する。 しかし、ほとんどの関連する研究は協力的発見にのみ焦点を合わせ、未熟な研究分野を協調的に追跡する。 V2V4Realのような最近のデータセットは、3Dマルチオブジェクト協調トラッキングベンチマークを提供する。 しかし,提案手法は主に単一センサkalmanフィルタに基づく追跡アルゴリズムの入力として協調検出結果を用いる。 彼らのアプローチでは、カルマンフィルタに基づくトラッキングアルゴリズムの理論的最適性を利用するために、異なるコネクテッド・オートモービル(CAV)からの異なるセンサの測定の不確かさを適切に見積もることはできない。 本稿では,微分可能なマルチセンサカルマンフィルタを用いた自律走行のための3次元多物体協調トラッキングアルゴリズムを提案する。 提案アルゴリズムは,カルマンフィルタに基づくトラッキング手法の理論的特性をよりよく活用可能な,検出毎に測定の不確かさを推定する。 実験の結果,V2V4Realの最先端手法と比較して,通信コストが0.037倍の追跡精度が17%向上した。 私たちのコードとビデオはhttps://github.com/eddyhkchiu/dmstrack/とhttps://eddyhkchiu.github.io/dmstrack.github.io/で閲覧できます。

Current state-of-the-art autonomous driving vehicles mainly rely on each individual sensor system to perform perception tasks. Such a framework's reliability could be limited by occlusion or sensor failure. To address this issue, more recent research proposes using vehicle-to-vehicle (V2V) communication to share perception information with others. However, most relevant works focus only on cooperative detection and leave cooperative tracking an underexplored research field. A few recent datasets, such as V2V4Real, provide 3D multi-object cooperative tracking benchmarks. However, their proposed methods mainly use cooperative detection results as input to a standard single-sensor Kalman Filter-based tracking algorithm. In their approach, the measurement uncertainty of different sensors from different connected autonomous vehicles (CAVs) may not be properly estimated to utilize the theoretical optimality property of Kalman Filter-based tracking algorithms. In this paper, we propose a novel 3D multi-object cooperative tracking algorithm for autonomous driving via a differentiable multi-sensor Kalman Filter. Our algorithm learns to estimate measurement uncertainty for each detection that can better utilize the theoretical property of Kalman Filter-based tracking methods. The experiment results show that our algorithm improves the tracking accuracy by 17% with only 0.037x communication costs compared with the state-of-the-art method in V2V4Real. Our code and videos are available at https://github.com/eddyhkchiu/DMSTrack/ and https://eddyhkchiu.github.io/dmstrack.github.io/ .
翻訳日:2024-02-28 22:19:15 公開日:2024-02-26
# 複雑な医療意思決定におけるヒューマン・aiコラボレーションの再考--敗血症診断における事例研究

Rethinking Human-AI Collaboration in Complex Medical Decision Making: A Case Study in Sepsis Diagnosis ( http://arxiv.org/abs/2309.12368v2 )

ライセンス: Link先を確認
Shao Zhang, Jianing Yu, Xuhai Xu, Changchang Yin, Yuxuan Lu, Bingsheng Yao, Melanie Tory, Lace M. Padilla, Jeffrey Caterino, Ping Zhang, Dakuo Wang(参考訳) 今日の医学的意思決定支援のためのaiシステムは、しばしば研究論文のベンチマークデータセットで成功するが、実際のデプロイメントでは失敗する。 本研究は、臨床医から高い不確実性を伴う早期診断を必要とする急性期感染症である敗血症の意思決定に焦点を当てる。 我々の目標は、臨床専門家が敗血症早期診断のためのより良い判断を下すのを支援するAIシステムの設計要件を検討することである。 この研究は、なぜ臨床専門家が既存のaiによる敗血症予測モジュールを電気的健康記録(ehr)システムで放棄するのかという調査から始まった。 人間中心のAIシステムは、最終決定のみに焦点を当てるのではなく、医療意思決定プロセスの中間段階(仮説の生成やデータ収集など)で人間の専門家を支援する必要がある、と我々は主張する。 そこで我々は,最先端のaiアルゴリズムに基づくsepsislabを構築し,今後の敗血症開発予測に拡張し,予測の不確かさを可視化し,その不確実性を低減するために実行可能な提案(つまり,追加的な検査結果が収集できる)を提案する。 提案システムを用いた6名の臨床医によるヒューリスティック評価により,sepsislabはai支援敗血症診断の今後に向けて有望な人間とaiのコラボレーションパラダイムを実現することを実証した。

Today's AI systems for medical decision support often succeed on benchmark datasets in research papers but fail in real-world deployment. This work focuses on the decision making of sepsis, an acute life-threatening systematic infection that requires an early diagnosis with high uncertainty from the clinician. Our aim is to explore the design requirements for AI systems that can support clinical experts in making better decisions for the early diagnosis of sepsis. The study begins with a formative study investigating why clinical experts abandon an existing AI-powered Sepsis predictive module in their electrical health record (EHR) system. We argue that a human-centered AI system needs to support human experts in the intermediate stages of a medical decision-making process (e.g., generating hypotheses or gathering data), instead of focusing only on the final decision. Therefore, we build SepsisLab based on a state-of-the-art AI algorithm and extend it to predict the future projection of sepsis development, visualize the prediction uncertainty, and propose actionable suggestions (i.e., which additional laboratory tests can be collected) to reduce such uncertainty. Through heuristic evaluation with six clinicians using our prototype system, we demonstrate that SepsisLab enables a promising human-AI collaboration paradigm for the future of AI-assisted sepsis diagnosis and other high-stakes medical decision making.
翻訳日:2024-02-28 22:17:55 公開日:2024-02-26
# 小惑星近傍のナビゲーションのためのcnnによる局所的特徴

CNN-based local features for navigation near an asteroid ( http://arxiv.org/abs/2309.11156v2 )

ライセンス: Link先を確認
Olli Knuuttila, Antti Kestil\"a, Esa Kallio(参考訳) 本稿では,小惑星探査と軌道上探査における近距離航法の課題について述べる。 伝統的な特徴抽出法は、散乱光が限られているため、小惑星の顕著な外観変化に苦しむ。 そこで,我々は小惑星近接航法に特化した軽量特徴抽出器を提案し,照明変化やアフィン変換に頑健な設計を行った。 小惑星の状況下で,最先端の特徴抽出ネットワークと3つの軽量ネットワークアーキテクチャを比較し,評価する。 提案する特徴抽出器は,NEAR Shoemaker, Hayabusa, Rosetta, OSIRIS-RExなどのミッションからの合成画像と実世界のデータの両方を活用する。 私たちのコントリビューションには、トレーニングされた機能抽出器、既存のメソッドに対するインクリメンタルな改善、ドメイン固有の機能抽出器をトレーニングするためのパイプラインが含まれています。 実験結果から,正確なナビゲーションと位置推定を行う上でのアプローチの有効性が示された。 この研究は小惑星ナビゲーションの分野を前進させることを目的としており、この領域における将来の研究への洞察を提供する。

This article addresses the challenge of vision-based proximity navigation in asteroid exploration missions and on-orbit servicing. Traditional feature extraction methods struggle with the significant appearance variations of asteroids due to limited scattered light. To overcome this, we propose a lightweight feature extractor specifically tailored for asteroid proximity navigation, designed to be robust to illumination changes and affine transformations. We compare and evaluate state-of-the-art feature extraction networks and three lightweight network architectures in the asteroid context. Our proposed feature extractors and their evaluation leverages both synthetic images and real-world data from missions such as NEAR Shoemaker, Hayabusa, Rosetta, and OSIRIS-REx. Our contributions include a trained feature extractor, incremental improvements over existing methods, and a pipeline for training domain-specific feature extractors. Experimental results demonstrate the effectiveness of our approach in achieving accurate navigation and localization. This work aims to advance the field of asteroid navigation and provides insights for future research in this domain.
翻訳日:2024-02-28 22:17:28 公開日:2024-02-26
# 強化学習の能動的学習:確率的最適制御アプローチ

Actively Learning Reinforcement Learning: A Stochastic Optimal Control Approach ( http://arxiv.org/abs/2309.10831v3 )

ライセンス: Link先を確認
Mohammad S. Ramadan, Mahmoud A. Hayajnh, Michael T. Tolley, Kyriakos G. Vamvoudakis(参考訳) 本稿では,2つの相互目的を達成するための枠組みを提案する。 一 活発な探索及び故意の情報収集による強化学習を施し、不一致及び騒音感覚のモデル化による状態及びパラメータの不確かさを規制すること。 (ii)確率的最適制御の膨大な計算コストを克服する。 確率的最適制御則を達成するために強化学習を用いて両目的に接近する。 一方、確率的動的プログラム方程式の直接解を禁ずる次元性の呪いを避ける。 一方、確率的制御にインスパイアされた強化学習エージェントは、二重制御の挙動、すなわち注意と調査の振る舞い、すなわち、状態推定をその推定品質とともに制御することを認める。 探索や搾取とは異なり、学習プロセスが終了しても、警告と探索はリアルタイムでコントローラによって自動的に行われる。 提案手法は,システム識別における新たなクラスに属するモデルの数値的な例を用いている。 このモデルの確率的バージョンでは、動的プログラミングは禁じられ、モデル予測制御は高価な非線形最適化を必要とし、確実な等価性の仮定を持つ線形二次レギュレータは性能とフィルタのばらつきを招き、これらは計算上便利で安定化し、許容できる性能の両方を示す我々のアプローチとは対照的である。

In this paper we propose a framework towards achieving two intertwined objectives: (i) equipping reinforcement learning with active exploration and deliberate information gathering, such that it regulates state and parameter uncertainties resulting from modeling mismatches and noisy sensory; and (ii) overcoming the huge computational cost of stochastic optimal control. We approach both objectives by using reinforcement learning to attain the stochastic optimal control law. On one hand, we avoid the curse of dimensionality prohibiting the direct solution of the stochastic dynamic programming equation. On the other hand, the resulting stochastic control inspired reinforcement learning agent admits the behavior of a dual control, namely, caution and probing, that is, regulating the state estimate together with its estimation quality. Unlike exploration and exploitation, caution and probing are employed automatically by the controller in real-time, even after the learning process is concluded. We use the proposed approach on a numerical example of a model that belongs to an emerging class in system identification. We show how, for the dimensionality of the stochastic version of this model, Dynamic Programming is prohibitive, Model Predictive Control requires an expensive nonlinear optimization, and a Linear Quadratic Regulator with the certainty equivalence assumption leads to poor performance and filter divergence, all contrasting our approach which is shown to be both: computationally convenient, stabilizing and of an acceptable performance.
翻訳日:2024-02-28 22:17:12 公開日:2024-02-26
# 生成クエリとドキュメント拡張はいつ失敗するのか? 方法, 検索, データセットに関する総合的研究

When do Generative Query and Document Expansions Fail? A Comprehensive Study Across Methods, Retrievers, and Datasets ( http://arxiv.org/abs/2309.08541v2 )

ライセンス: Link先を確認
Orion Weller, Kyle Lo, David Wadden, Dawn Lawrie, Benjamin Van Durme, Arman Cohan, Luca Soldaini(参考訳) クエリやドキュメントの拡張に大言語モデル(lms)を使用すると、情報検索の一般化が改善される。 しかし、これらの手法が普遍的に有用か、特定の検索モデル、データセットドメイン、クエリタイプなど、特定の設定でのみ有効であるかどうかは不明である。 そこで我々は,lmベース展開の包括的解析を初めて実施する。 拡張はより弱いモデルに対するスコアを改善するが、一般的にはより強いモデルに害を与える。 この傾向は,11種類の拡張手法,12種類の分散シフトを持つデータセット,24種類の検索モデルにまたがることを示す。 質的誤り分析を通じて、拡張は追加の情報を提供するが(潜在的にリコールを改善する)、関連する文書間の識別を困難にする追加ノイズを付加する(偽陽性をもたらす)と仮定する。 より弱いモデルへの拡張や、ターゲットデータセットがフォーマットのトレーニングコーパスと大きく異なる場合、そうでなければ、関連性信号を明確にするために拡張を避ける。

Using large language models (LMs) for query or document expansion can improve generalization in information retrieval. However, it is unknown whether these techniques are universally beneficial or only effective in specific settings, such as for particular retrieval models, dataset domains, or query types. To answer this, we conduct the first comprehensive analysis of LM-based expansion. We find that there exists a strong negative correlation between retriever performance and gains from expansion: expansion improves scores for weaker models, but generally harms stronger models. We show this trend holds across a set of eleven expansion techniques, twelve datasets with diverse distribution shifts, and twenty-four retrieval models. Through qualitative error analysis, we hypothesize that although expansions provide extra information (potentially improving recall), they add additional noise that makes it difficult to discern between the top relevant documents (thus introducing false positives). Our results suggest the following recipe: use expansions for weaker models or when the target dataset significantly differs from training corpus in format; otherwise, avoid expansions to keep the relevance signal clear.
翻訳日:2024-02-28 22:16:48 公開日:2024-02-26
# O3D:大規模言語モデルを用いた逐次決定処理のためのオフラインデータ駆動探索と蒸留

O3D: Offline Data-driven Discovery and Distillation for Sequential Decision-Making with Large Language Models ( http://arxiv.org/abs/2310.14403v5 )

ライセンス: Link先を確認
Yuchen Xiao, Yanchao Sun, Mengda Xu, Udari Madhushani, Jared Vann, Deepeka Garg, Sumitra Ganesh(参考訳) 大規模言語モデル(LLM)の最近の進歩は、逐次意思決定問題を解決する上で有望な性能を示した。 プロンプト(インコンテキストラーニング)で提供される少数の例を模倣することで、LLMエージェントは外部環境と対話し、追加のトレーニングなしでタスクを完了させることができる。 しかし、そのような少数の例は複雑で長い水平なタスクに対して高品質な解を生成するには不十分であるが、限られた文脈長は長い相互作用の地平線を持つより大規模な実演を消費することができない。 そこで本研究では,オフラインデータを大規模に利用するオフライン学習フレームワーク(例えば,人間のインタラクションログ)を提案し,llmを活用したポリシーを微調整することなく改善する。 提案手法であるO3D (Offline Data-driven Discovery and Distillation) は, オフラインインタラクションデータに基づいて, 再利用可能なスキルを自動的に発見し, 一般化可能な知識を抽出し, 下流タスクを解く能力を向上する。 2つの対話型意思決定ベンチマーク(ALFWorldとWebShop)による実証的な結果から、O3Dはオフライン発見および蒸留プロセスを通じてLLMの意思決定能力を著しく向上し、様々なLLMのベースラインを一貫して上回っていることが確認された。

Recent advancements in large language models (LLMs) have exhibited promising performance in solving sequential decision-making problems. By imitating few-shot examples provided in the prompts (i.e., in-context learning), an LLM agent can interact with an external environment and complete given tasks without additional training. However, such few-shot examples are often insufficient to generate high-quality solutions for complex and long-horizon tasks, while the limited context length cannot consume larger-scale demonstrations with long interaction horizons. To this end, we propose an offline learning framework that utilizes offline data at scale (e.g, logs of human interactions) to improve LLM-powered policies without finetuning. The proposed method O3D (Offline Data-driven Discovery and Distillation) automatically discovers reusable skills and distills generalizable knowledge across multiple tasks based on offline interaction data, advancing the capability of solving downstream tasks. Empirical results under two interactive decision-making benchmarks (ALFWorld and WebShop) verify that O3D can notably enhance the decision-making capabilities of LLMs through the offline discovery and distillation process, and consistently outperform baselines across various LLMs.
翻訳日:2024-02-28 22:12:58 公開日:2024-02-26
# 正確性を超えて: Identity Chainを用いたコード大言語モデルの自己整合性を評価する

Beyond Accuracy: Evaluating Self-Consistency of Code Large Language Models with IdentityChain ( http://arxiv.org/abs/2310.14053v3 )

ライセンス: Link先を確認
Marcus J. Min, Yangruibo Ding, Luca Buratti, Saurabh Pujar, Gail Kaiser, Suman Jana, Baishakhi Ray(参考訳) Code Large Language Models (Code LLMs)は、現実のアプリケーションにますます採用されているため、それらを評価することが重要である。 従来の精度は、個々のタスク群におけるコードllmの性能を評価するが、異なるタスク間での自己一貫性は見過ごされる。 直感的には、信頼できるモデルは、自身のコードで自然言語仕様を生成し、自身の仕様のためにコードを生成する場合に自己一貫性を持つべきである。 自己整合性を維持することの失敗は、自然言語とプログラミング言語の基礎となる共有意味論の理解の欠如を示し、したがってモデルの信頼性を損なう。 本稿では、まず、コードLLMの自己整合性を正式に定義し、その上で、モデルの自己整合性と従来の精度を効果的かつ効率的に評価するフレームワーク、IdentityChainを設計する。 我々は,11個のコードLLMを研究し,従来の精度とは明らかに異なる自己整合性を維持することができないことを示す。 さらに、IdentityChainをモデルデバッギングツールとして使用して、IdentityChainを使用して現在のモデルで認識されている3つの大きな弱点を示すことで、コードLLMの弱点を明らかにすることができることを示す。 私たちのコードはhttps://github.com/marcusm117/identitychainで利用可能です。

Code Large Language Models (Code LLMs) are being increasingly employed in real-life applications, so evaluating them is critical. While the conventional accuracy evaluates the performance of Code LLMs on a set of individual tasks, their self-consistency across different tasks is overlooked. Intuitively, a trustworthy model should be self-consistent when generating natural language specifications for its own code and generating code for its own specifications. Failure to preserve self-consistency reveals a lack of understanding of the shared semantics underlying natural language and programming language, and therefore undermines the trustworthiness of a model. In this paper, we first formally define the self-consistency of Code LLMs and then design a framework, IdentityChain, which effectively and efficiently evaluates the self-consistency and conventional accuracy of a model at the same time. We study eleven Code LLMs and show that they fail to preserve self-consistency, which is indeed a distinct aspect from conventional accuracy. Furthermore, we show that IdentityChain can be used as a model debugging tool to expose weaknesses of Code LLMs by demonstrating three major weaknesses that we identify in current models using IdentityChain. Our code is available at https://github.com/marcusm117/IdentityChain.
翻訳日:2024-02-28 22:12:17 公開日:2024-02-26
# 騒音木量測定器の最適搬送

Optimal Transport for Measures with Noisy Tree Metric ( http://arxiv.org/abs/2310.13653v2 )

ライセンス: Link先を確認
Tam Le, Truyen Nguyen, Kenji Fukumizu(参考訳) 木メートル空間上での確率測度に対する最適輸送(OT)問題について検討する。 そのようなot問題(すなわちtree-wasserstein (tw))は閉形式表現を許容することは知られているが、基本的には入力測度の支持よりも根底にある木構造に依存する。 実際には、与えられた木構造はノイズや逆数の測定によって乱れてしまうことがある。 この問題を軽減するために、木メトリクスの不確実性セット上の2つの入力測度間の最大距離を考えるmax-min robust otアプローチに従う。 一般に、このアプローチは一次元空間で支持される測度に対しても計算が困難であり、これは非凸性と非滑らか性が実用的応用、特に大規模設定を妨げるためである。 そこで本研究では,木構造を多様に網羅したエッジ削除/付加のレンズから,新しい不確実性の木のメトリクスセットを提案する。 したがって,提案する不確実性集合の上に構築し,木構造をサポートよりも活用することにより,ロバストなotは高速計算のための閉形式式を標準ot(すなわちtw)として認めていることを示す。 さらに,ロバストな ot が計量特性を満たし負定値であることを示す。 次に、その負定性を利用して正定値カーネルを提案し、文書分類と位相データ解析に関する様々な実世界のデータセット上でのいくつかのシミュレーションで検証する。

We study optimal transport (OT) problem for probability measures supported on a tree metric space. It is known that such OT problem (i.e., tree-Wasserstein (TW)) admits a closed-form expression, but depends fundamentally on the underlying tree structure over supports of input measures. In practice, the given tree structure may be, however, perturbed due to noisy or adversarial measurements. To mitigate this issue, we follow the max-min robust OT approach which considers the maximal possible distances between two input measures over an uncertainty set of tree metrics. In general, this approach is hard to compute, even for measures supported in one-dimensional space, due to its non-convexity and non-smoothness which hinders its practical applications, especially for large-scale settings. In this work, we propose novel uncertainty sets of tree metrics from the lens of edge deletion/addition which covers a diversity of tree structures in an elegant framework. Consequently, by building upon the proposed uncertainty sets, and leveraging the tree structure over supports, we show that the robust OT also admits a closed-form expression for a fast computation as its counterpart standard OT (i.e., TW). Furthermore, we demonstrate that the robust OT satisfies the metric property and is negative definite. We then exploit its negative definiteness to propose positive definite kernels and test them in several simulations on various real-world datasets on document classification and topological data analysis.
翻訳日:2024-02-28 22:11:53 公開日:2024-02-26
# グラフニューラルネットワーク学習のための準wasserstein損失

A Quasi-Wasserstein Loss for Learning Graph Neural Networks ( http://arxiv.org/abs/2310.11762v3 )

ライセンス: Link先を確認
Minjie Cheng and Hongteng Xu(参考訳) ノードレベルの予測タスクでグラフニューラルネットワーク(GNN)を学習する場合、ノードの埋め込みとそのラベルがグラフ構造のため非i.d.である場合でも、既存の損失関数は各ノードに独立して適用される。 そこで本研究では,グラフ上で定義された最適輸送の助けを借りて,新たな準ワッサーシュタイン損失(QW)を提案し,GNNの新たな学習・予測パラダイムを導出する。 特に,観測された多次元ノードラベルとその推定値間の ``Quasi-Wasserstein'' 距離を設計し,グラフエッジ上で定義されたラベル転送を最適化する。 推定は、最適ラベル輸送がグラフエッジ重みを任意に決定できるGNNによってパラメータ化される。 ラベル転送の厳密な制約をbregman divergence-based regularizerに再構成することで、gnnを学習する2つの効率的な解法と最適なラベル転送に関する疑似wasserstein損失を得る。 ノードラベルを予測する場合、GNNの出力と最適なラベル転送によって提供される残差成分を組み合わせ、新たなトランスダクティブ予測パラダイムを導出する。 実験の結果,提案したQW損失は様々なGNNに適用され,ノードレベルの分類や回帰タスクのパフォーマンス向上に有効であることがわかった。 この研究のコードは \url{https://github.com/SDS-Lab/QW_Loss} で見ることができる。

When learning graph neural networks (GNNs) in node-level prediction tasks, most existing loss functions are applied for each node independently, even if node embeddings and their labels are non-i.i.d. because of their graph structures. To eliminate such inconsistency, in this study we propose a novel Quasi-Wasserstein (QW) loss with the help of the optimal transport defined on graphs, leading to new learning and prediction paradigms of GNNs. In particular, we design a ``Quasi-Wasserstein'' distance between the observed multi-dimensional node labels and their estimations, optimizing the label transport defined on graph edges. The estimations are parameterized by a GNN in which the optimal label transport may determine the graph edge weights optionally. By reformulating the strict constraint of the label transport to a Bregman divergence-based regularizer, we obtain the proposed Quasi-Wasserstein loss associated with two efficient solvers learning the GNN together with optimal label transport. When predicting node labels, our model combines the output of the GNN with the residual component provided by the optimal label transport, leading to a new transductive prediction paradigm. Experiments show that the proposed QW loss applies to various GNNs and helps to improve their performance in node-level classification and regression tasks. The code of this work can be found at \url{https://github.com/SDS-Lab/QW_Loss}.
翻訳日:2024-02-28 22:11:26 公開日:2024-02-26
# 深層ネットワークを用いた予測に基づく非パラメトリックオフポリティ評価のサンプル複雑性

Sample Complexity of Preference-Based Nonparametric Off-Policy Evaluation with Deep Networks ( http://arxiv.org/abs/2310.10556v2 )

ライセンス: Link先を確認
Zihao Li, Xiang Ji, Minshuo Chen, Mengdi Wang(参考訳) 最近普及している強化学習のアプローチは、人間の好みのデータによるものだ。 実際、人間の嗜好データは、人間の嗜好データから学習した報酬と、オフ・ポリティィ・アセスメント(OPE)と呼ばれる分布シフトによる中間ポリシーを評価するアクター・クリティカルな手法のような古典的な強化学習アルゴリズムで使用されている。 このようなアルゴリズムには (i)人間選好データセットからの学習報酬機能、 (二)目標政策の累積報酬を期待すること。 経験的成功にもかかわらず、嗜好データを持つ既存のOPE法は理論的な理解に欠け、ヒューリスティックスに大きく依存することが多い。 本稿では,人選好によるOPEのサンプル効率について検討し,その統計的保証を確立する。 具体的には,ディープニューラルネットワークを用いた適合q評価により,値関数を学習することでopeにアプローチする。 ReLUネットワークのサイズを適切に選択することにより,マルコフ決定過程において任意の低次元多様体構造を活用でき,高データ環境次元の呪いに悩まされることなく,サンプル効率のよい推定器が得られることを示す。 高報酬の滑らかさを前提に、この結果が従来のope結果とほぼ一致し、観測可能な報酬データとなる。 我々の知る限りでは、これはRLHFによる政治外評価の‘textit{provably efficient’保証を確立する最初の結果である。

A recently popular approach to solving reinforcement learning is with data from human preferences. In fact, human preference data are now used with classic reinforcement learning algorithms such as actor-critic methods, which involve evaluating an intermediate policy over a reward learned from human preference data with distribution shift, known as off-policy evaluation (OPE). Such algorithm includes (i) learning reward function from human preference dataset, and (ii) learning expected cumulative reward of a target policy. Despite the huge empirical success, existing OPE methods with preference data often lack theoretical understanding and rely heavily on heuristics. In this paper, we study the sample efficiency of OPE with human preference and establish a statistical guarantee for it. Specifically, we approach OPE by learning the value function by fitted-Q-evaluation with a deep neural network. By appropriately selecting the size of a ReLU network, we show that one can leverage any low-dimensional manifold structure in the Markov decision process and obtain a sample-efficient estimator without suffering from the curse of high data ambient dimensionality. Under the assumption of high reward smoothness, our results \textit{almost align with the classical OPE results with observable reward data}. To the best of our knowledge, this is the first result that establishes a \textit{provably efficient} guarantee for off-policy evaluation with RLHF.
翻訳日:2024-02-28 22:10:34 公開日:2024-02-26
# 非Hermitian bipartite 系における非欠陥遺伝子

Non-defective degeneracy in non-Hermitian bipartite system ( http://arxiv.org/abs/2310.10132v3 )

ライセンス: Link先を確認
Chen-Huan Wu(参考訳) 2つの異なる固有値を持つエルミート作用素から始め、確率行列理論によりガウス直交のアンサンブルに非エルミート二部奏法を構築し、ランダム固有ケットを通して対角的外揺らぎを導入し、2つのD\times D$サブシステム(ヒルベルト空間次元$D$)からなる二部奏法を実現する。 グローバル熱化(chaos)によって要求されるように、2つのサブシステムのうちの1つは完全なランクであり、もう1つはランク不足である。 後者のサブシステムでは、非線形対称性を含む非破壊的縮退性を持つブロックと、隣接する固有ベクトルにおける線型写像の蓄積効果が存在する。 この特別領域の固有ベクトルによる最大混合状態は、熱難燃性の挙動(カノニカルでもギブスでもない)を示さず、対応する還元密度と類似した特性を示し、ロシミッチエコーと虚構スペクトルの分散によって検証できる。 この非欠陥退化領域は、部分的には10.1103/PhysRevLett.122.220603のレンマと、10.1103/PhysRevLett.120.150603の定理に一致する。 この領域における強い絡み合いと初期状態の忠実さの共存により、最大混合密度を達成することができるが、(環境エネルギーや温度に対する完全な無感性を持つ)熱標準アンサンブルではない。 この領域以外では、固有状態(還元密度)の収集は常に対応するヒルベルト空間次元の制限を示し、したがって熱化を抑制する。 エルミート基底と非エルミート基底にはそれらの密度に関する物理学が豊富にあり、ここでこの研究を別々に調査する。

Starting from a Hermitian operator with two distinct eigenvalues, we construct a non-Hermitian bipartite system in Gaussian orthogonal ensemble according to random matrix theory, where we introduce the off-diagonal fluctuations through random eigenkets and realizing the bipartite configuration consisting of two $D\times D$ subsystems (with $D$ the Hilbert space dimension). As required by the global thermalization (chaos), one of the two subsystems is full ranked, while the other is rank deficient. For the latter subsystem, there is a block with non-defective degeneracies containing the non-linear symmetries, as well as the accumulation effect of the linear map in adjacent eigenvectors. The maximally mixed state made by the eigenvectors of this special region exhibit not thermal ensmeble behavior (neither canonical or Gibbs), and exhibit similar character with the corresponding reduced density, which can be verified through the Loschmitch echo and variance of the imaginary spectrum. This non-defective degeneracy region partly meets the Lemma in 10.1103/PhysRevLett.122.220603 and theorem in 10.1103/PhysRevLett.120.150603. The coexistence of strong entanglement and initial state fidelity in this region make it possible to achieve a maximally mixed density which, however, not be a thermal canonical ensemble (with complete insensitivity to the environmental energy or temperature). Outside this region, the collection of eigenstates (reduced density) always exhibit restriction on the corresponding Hilbert space dimension, and thus suppress the thermaliation. There are abundant physics for those densities in Hermitian and non-Hermitian bases, where we investigate seperately in this work.
翻訳日:2024-02-28 22:10:11 公開日:2024-02-26
# トレーニングフリー合成画像検索のための視覚バイ言語

Vision-by-Language for Training-Free Compositional Image Retrieval ( http://arxiv.org/abs/2310.09291v2 )

ライセンス: Link先を確認
Shyamgopal Karthik, Karsten Roth, Massimiliano Mancini, Zeynep Akata(参考訳) 画像とターゲット修正(例えば、エッフェル塔の画像と「人なしで、夜間に」テキスト)が与えられた場合、コンポジション画像検索 (CIR) はデータベースで関連するターゲット画像を取得することを目的としている。 教師付きアプローチは、高価な注釈付け三重項(クエリ画像、テキスト修正、ターゲット画像など)に依存しているが、最近の研究は、大規模な視覚言語モデル(VLM)を使用し、Zero-Shot CIR(ZS-CIR)を実行することで、このニーズに対処している。 しかし、ZS-CIRの最先端のアプローチでは、大量の画像テキストペアに対してタスク固有の、カスタマイズされたモデルをトレーニングする必要がある。 本研究では,大規模なVLMを大規模言語モデル (LLM) で効果的に再結合する,シンプルで理解しやすい,スケーラブルなパイプラインであるCIReVL (CIReVL) を通じて,我々のコンポジション画像検索を通じて,CIRの学習自由な取り組みを提案する。 事前訓練された生成VLMを用いて参照画像をキャプションし、LLMに対して、CLIPによる検索のためのテキストターゲット修正に基づくキャプションの再構成を求めることにより、モジュール言語推論を実現する。 4つのZS-CIRベンチマークでは、教師付きメソッドよりも優れた、競争力のある最先端のパフォーマンスが得られます。 さらに、CIReVLのモジュラリティは、再トレーニングなしに単純なスケーラビリティを提供し、ZS-CIRのスケーリング法則とボトルネックの両方を調査できると同時に、以前報告した結果の2倍以上のパーツに簡単にスケールアップできる。 最後に、CIReVLは言語領域において、画像とテキストをモジュール形式で構成することで、CIRを人間的に理解しやすくする。 コードは受理時にリリースされる。

Given an image and a target modification (e.g an image of the Eiffel tower and the text "without people and at night-time"), Compositional Image Retrieval (CIR) aims to retrieve the relevant target image in a database. While supervised approaches rely on annotating triplets that is costly (i.e. query image, textual modification, and target image), recent research sidesteps this need by using large-scale vision-language models (VLMs), performing Zero-Shot CIR (ZS-CIR). However, state-of-the-art approaches in ZS-CIR still require training task-specific, customized models over large amounts of image-text pairs. In this work, we propose to tackle CIR in a training-free manner via our Compositional Image Retrieval through Vision-by-Language (CIReVL), a simple, yet human-understandable and scalable pipeline that effectively recombines large-scale VLMs with large language models (LLMs). By captioning the reference image using a pre-trained generative VLM and asking a LLM to recompose the caption based on the textual target modification for subsequent retrieval via e.g. CLIP, we achieve modular language reasoning. In four ZS-CIR benchmarks, we find competitive, in-part state-of-the-art performance - improving over supervised methods. Moreover, the modularity of CIReVL offers simple scalability without re-training, allowing us to both investigate scaling laws and bottlenecks for ZS-CIR while easily scaling up to in parts more than double of previously reported results. Finally, we show that CIReVL makes CIR human-understandable by composing image and text in a modular fashion in the language domain, thereby making it intervenable, allowing to post-hoc re-align failure cases. Code will be released upon acceptance.
翻訳日:2024-02-28 22:09:19 公開日:2024-02-26
# Let Models Speakciphers: Embeddingsによるマルチエージェント討論

Let Models Speak Ciphers: Multiagent Debate through Embeddings ( http://arxiv.org/abs/2310.06272v2 )

ライセンス: Link先を確認
Chau Pham, Boyi Liu, Yingxiang Yang, Zhengyu Chen, Tianyi Liu, Jianbo Yuan, Bryan A. Plummer, Zhaoran Wang, Hongxia Yang(参考訳) 大規模言語モデル(LLM)の議論と議論は,LLMの推論能力を高める可能性から注目されている。 自然言語は、llmの言語理解能力によるコミュニケーションの明確な選択であるが、自然言語を生成する際に必要とされるトークンサンプリングステップは、語彙全体にわたってモデルの信念を表現するために1つのトークンのみを使用するため、情報損失の潜在的なリスクをもたらす。 本稿では,この問題に対処するために,cipher(communicative inter-model protocol through embedded representation)という通信方式を提案する。 具体的には, LLMからトークンサンプリングステップを取り除き, 生のトランスフォーマー出力の埋め込みを期待することで, 語彙間の信念を伝達させる。 注目すべきは、CIPHERが自然言語から逸脱することで、モデルの重みを変更することなく幅広い情報のスペクトルを符号化する利点があり、5つの推論タスクと異なるサイズの複数のオープンソースLLMに対して、自然言語を用いた最先端のLLM議論手法を0.5-5.0%上回る。 このことは、LLM間の通信における代替の"言語"としての埋め込みの優位性と堅牢性を示している。 我々はCIPHERがLLMエージェントシステム内でのインタラクション設計をさらに発展させ、この分野における今後の発展に大きな影響を与える可能性のある新たな方向性を提供することを期待している。

Discussion and debate among Large Language Models (LLMs) have gained considerable attention due to their potential to enhance the reasoning ability of LLMs. Although natural language is an obvious choice for communication due to LLM's language understanding capability, the token sampling step needed when generating natural language poses a potential risk of information loss, as it uses only one token to represent the model's belief across the entire vocabulary. In this paper, we introduce a communication regime named CIPHER (Communicative Inter-Model Protocol Through Embedding Representation) to address this issue. Specifically, we remove the token sampling step from LLMs and let them communicate their beliefs across the vocabulary through the expectation of the raw transformer output embeddings. Remarkably, by deviating from natural language, CIPHER offers an advantage of encoding a broader spectrum of information without any modification to the model weights, outperforming the state-of-the-art LLM debate methods using natural language by 0.5-5.0% across five reasoning tasks and multiple open-source LLMs of varying sizes. This showcases the superiority and robustness of embeddings as an alternative "language" for communication among LLMs. We anticipate that CIPHER will inspire further exploration for the design of interactions within LLM agent systems, offering a new direction that could significantly influence future developments in the field.
翻訳日:2024-02-28 22:07:51 公開日:2024-02-26
# 大規模言語モデルはホックな説明の後か?

Are Large Language Models Post Hoc Explainers? ( http://arxiv.org/abs/2310.05797v3 )

ライセンス: Link先を確認
Nicholas Kroeger, Dan Ley, Satyapriya Krishna, Chirag Agarwal, Himabindu Lakkaraju(参考訳) 高リスク設定における予測モデルの利用の増加は、関連するステークホルダがこれらのモデルによる決定を理解し、信頼することの必要性を強調します。 この目的のために、ポストホック方式で複雑な予測モデルの振る舞いを説明するために、最近の文献でいくつかのアプローチが提案されている。 しかし、そのようなポストホックな説明技術が増えているにもかかわらず、多くの場合、モデルへのホワイトボックスアクセスや計算コストが必要であり、次世代のポストホック説明器の必要性を強調している。 近年,Large Language Models (LLM) は,様々なタスクに有効な強力なツールとして出現している。 しかし、他の複雑な予測モデルの振る舞いを説明する可能性は比較的未解明である。 本研究では,他の複雑な予測モデルを説明する上で LLM の有効性を解析するための最初の調査を行う。 そこで本研究では,llmの文脈内学習(icl)機能を活用し,他の複雑なモデルによる予測を説明する3つの新しい手法を提案する。 我々は、これらのアプローチを実世界のデータセット上で広範囲に実験し、LLMが最先端のポストホック説明器と同等に機能することを実証し、複雑な予測モデルに関するLLMベースのポストホック説明の今後の研究に期待できる道を開く。

The increasing use of predictive models in high-stakes settings highlights the need for ensuring that relevant stakeholders understand and trust the decisions made by these models. To this end, several approaches have been proposed in recent literature to explain the behavior of complex predictive models in a post hoc fashion. However, despite the growing number of such post hoc explanation techniques, many require white-box access to the model and/or are computationally expensive, highlighting the need for next-generation post hoc explainers. Recently, Large Language Models (LLMs) have emerged as powerful tools that are effective at a wide variety of tasks. However, their potential to explain the behavior of other complex predictive models remains relatively unexplored. In this work, we carry out one of the initial explorations to analyze the effectiveness of LLMs in explaining other complex predictive models. To this end, we propose three novel approaches that exploit the in-context learning (ICL) capabilities of LLMs to explain the predictions made by other complex models. We conduct extensive experimentation with these approaches on real-world datasets to demonstrate that LLMs perform on par with state-of-the-art post hoc explainers, opening up promising avenues for future research into LLM-based post hoc explanations of complex predictive models.
翻訳日:2024-02-28 22:07:24 公開日:2024-02-26
# kantian deontologyがaiアライメントを満たす - 道徳的根拠のある公平性メトリクスに向けて

Kantian Deontology Meets AI Alignment: Towards Morally Grounded Fairness Metrics ( http://arxiv.org/abs/2311.05227v2 )

ライセンス: Link先を確認
Carlos Mougan, Joshua Brand(参考訳) イマニュエル・カント(immanuel kant)によって特に理解されたデオントロジー倫理(deontological ethics)は、行動の結果よりも義務と原則の重要性を強調する道徳的枠組みを提供する。 この論文は、非オントロジーが卓越しているにもかかわらず、現在見過ごされているフェアネス指標のアプローチであり、AIアライメント分野の一部であるフェアネス指標におけるカンチアンデオントロジーフレームワークの互換性について考察する。 我々は、AI公正度測定における主要なアプローチである実用主義に対するカントの批判を再考し、公正性原理はカンティアン・デオントロジーの枠組みと一致すべきであると主張している。 カント倫理をAIアライメントに組み込むことで、広く受け入れられた顕著な道徳理論をもたらすだけでなく、公正さと正義の追求において結果と手続きのバランスを良くする、より道徳的に根ざしたAIの展望にも取り組みます。

Deontological ethics, specifically understood through Immanuel Kant, provides a moral framework that emphasizes the importance of duties and principles, rather than the consequences of action. Understanding that despite the prominence of deontology, it is currently an overlooked approach in fairness metrics, this paper explores the compatibility of a Kantian deontological framework in fairness metrics, part of the AI alignment field. We revisit Kant's critique of utilitarianism, which is the primary approach in AI fairness metrics and argue that fairness principles should align with the Kantian deontological framework. By integrating Kantian ethics into AI alignment, we not only bring in a widely-accepted prominent moral theory but also strive for a more morally grounded AI landscape that better balances outcomes and procedures in pursuit of fairness and justice.
翻訳日:2024-02-28 22:00:58 公開日:2024-02-26
# 基礎モデルによるチューニングレスオブジェクトネーミング

Tuning-less Object Naming with a Foundation Model ( http://arxiv.org/abs/2311.04924v2 )

ライセンス: Link先を確認
Andrej Lucny, Pavel Petrovic(参考訳) 我々は、一度も見つからない名前付きエンティティの集合を学習できるリアルタイムオブジェクト命名システムを実装した。 このアプローチでは、開始前に何かを見る準備ができていると考える既存の基盤モデルを採用しています。 画像は比較的小さな特徴ベクトルに変換され、モデルを微調整する訓練をせずにインデックスを徐々に構築された語彙に関連付ける。 私たちの貢献は、トランスフォーマーから知られている関連メカニズムを注目することです。 実体を区別するための無関係な情報からの一般化をサポートし、語彙のインデックス以上のものと関連付けることができる。 結果として、システムはワンショットで動作でき、異なる内容のオブジェクトを正しく命名することができる。 また,ブラックボードアーキテクチャに統合されたシステムモジュールの実装詳細についても概説する。 最後に、システムの品質、主にこの方法で処理できるオブジェクトの数を調査する。

We implement a real-time object naming system that enables learning a set of named entities never seen. Our approach employs an existing foundation model that we consider ready to see anything before starting. It turns seen images into relatively small feature vectors that we associate with index to a gradually built vocabulary without any training of fine-tuning of the model. Our contribution is using the association mechanism known from transformers as attention. It has features that support generalization from irrelevant information for distinguishing the entities and potentially enable associating with much more than indices to vocabulary. As a result, the system can work in a one-shot manner and correctly name objects named in different contents. We also outline implementation details of the system modules integrated by a blackboard architecture. Finally, we investigate the system's quality, mainly how many objects it can handle in this way.
翻訳日:2024-02-28 22:00:38 公開日:2024-02-26
# ITEm:eコマースのための教師なしイメージテキスト埋め込み学習

ITEm: Unsupervised Image-Text Embedding Learning for eCommerce ( http://arxiv.org/abs/2311.02084v2 )

ライセンス: Link先を確認
Baohao Liao, Michael Kozielski, Sanjika Hewavitharana, Jiangbo Yuan, Shahram Khadivi, Tomer Lancewicki(参考訳) プロダクトの埋め込みは、eコマースにおける幅広いアプリケーションの基盤となる。 複数のモダリティから学んだ製品埋め込みは、異なるモダリティが補完的な情報を提供するため、単一のモダリティからそれよりも大きな改善を示している。 しかし、いくつかのモダリティは他のモダリティよりも情報的に優位である。 より支配的なモダリティからの情報を無視することなく、異なるモダリティから埋め込みを学ぶためのモデルを教える方法は難しい。 本稿では,画像とテキストのモダリティをよりよく扱うために,教師なし学習手法である画像テキスト埋め込みモデル(ITEm)を提案する。 bertを拡張して,(1)興味のある領域を知らずにテキストや画像から埋め込みを学習し,(2)グローバル表現を訓練してマスクされた単語を予測し,個々の表現を伴わずにマスク画像パッチを構築する。 我々は,非常に類似した商品の探索と,製品カテゴリーの予測という2つのタスクについて事前学習した項目を評価し,強力なベースラインモデルと比較してかなりの利益を示した。

Product embedding serves as a cornerstone for a wide range of applications in eCommerce. The product embedding learned from multiple modalities shows significant improvement over that from a single modality, since different modalities provide complementary information. However, some modalities are more informatively dominant than others. How to teach a model to learn embedding from different modalities without neglecting information from the less dominant modality is challenging. We present an image-text embedding model (ITEm), an unsupervised learning method that is designed to better attend to image and text modalities. We extend BERT by (1) learning an embedding from text and image without knowing the regions of interest; (2) training a global representation to predict masked words and to construct masked image patches without their individual representations. We evaluate the pre-trained ITEm on two tasks: the search for extremely similar products and the prediction of product categories, showing substantial gains compared to strong baseline models.
翻訳日:2024-02-28 21:59:34 公開日:2024-02-26
# AIアライメント: 総合的な調査

AI Alignment: A Comprehensive Survey ( http://arxiv.org/abs/2310.19852v4 )

ライセンス: Link先を確認
Jiaming Ji, Tianyi Qiu, Boyuan Chen, Borong Zhang, Hantao Lou, Kaile Wang, Yawen Duan, Zhonghao He, Jiayi Zhou, Zhaowei Zhang, Fanzhi Zeng, Kwan Yee Ng, Juntao Dai, Xuehai Pan, Aidan O'Gara, Yingshan Lei, Hua Xu, Brian Tse, Jie Fu, Stephen McAleer, Yaodong Yang, Yizhou Wang, Song-Chun Zhu, Yike Guo, Wen Gao(参考訳) AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うことを目的としている。 AIシステムがより有能になるにつれて、ミスアライメントによるリスクも高まる。 アライメント分野の包括的かつ最新の概観を提供するため,本調査ではアライメントの中核的概念,方法論,実践について考察する。 まず、ロバスト性、解釈可能性、制御可能性、倫理性(rice)の4つの原則をaiアライメントの重要な目的とします。 これら4つの原則に基づいて、現在のアライメント研究の展望を概説し、それらを2つの重要なコンポーネント、前方アライメントと後方アライメントに分解する。 前者はアライメントトレーニングを通じてAIシステムをアライメントさせることを目標とし、後者はシステムアライメントに関する証拠を取得し、不正調整リスクの悪化を避けるためにそれらを適切に管理することを目的としている。 本稿では,分散シフト下でのフィードバックと学習から学ぶ手法について考察する。 後方調整について,保証技術とガバナンスの実践について論じる。 また、チュートリアル、論文のコレクション、ブログ投稿、その他のリソースを含むウェブサイト(www.alignmentsurvey.com)もリリースし、継続的に更新しています。

AI alignment aims to make AI systems behave in line with human intentions and values. As AI systems grow more capable, so do risks from misalignment. To provide a comprehensive and up-to-date overview of the alignment field, in this survey, we delve into the core concepts, methodology, and practice of alignment. First, we identify four principles as the key objectives of AI alignment: Robustness, Interpretability, Controllability, and Ethicality (RICE). Guided by these four principles, we outline the landscape of current alignment research and decompose them into two key components: forward alignment and backward alignment. The former aims to make AI systems aligned via alignment training, while the latter aims to gain evidence about the systems' alignment and govern them appropriately to avoid exacerbating misalignment risks. On forward alignment, we discuss techniques for learning from feedback and learning under distribution shift. On backward alignment, we discuss assurance techniques and governance practices. We also release and continually update the website (www.alignmentsurvey.com) which features tutorials, collections of papers, blog posts, and other resources.
翻訳日:2024-02-28 21:58:39 公開日:2024-02-26
# 時系列オンラインブートストラップ

An Online Bootstrap for Time Series ( http://arxiv.org/abs/2310.19683v2 )

ライセンス: Link先を確認
Nicolai Palm and Thomas Nagler(参考訳) ブートストラップのような再サンプリング手法は、機械学習の分野で有用であることが証明されている。 しかし, 従来のブートストラップ法の適用性は, 時系列や空間的相関観測など, 依存データの大きなストリームを扱う場合に制限される。 本稿では,データの依存性を考慮した新しいブートストラップ手法を提案する。 この方法は、ますます依存する重みの自己回帰配列に基づいている。 一般条件下でのブートストラップ方式の理論的妥当性を実証する。 提案手法の有効性をシミュレーションにより実証し, 複雑なデータ依存関係が存在する場合でも信頼性の高い不確実性定量化を実現することを示す。 我々の研究は、古典的な再サンプリング技術と現代のデータ分析の要求のギャップを埋め、動的でデータ豊富な環境における研究者や実践者にとって貴重なツールを提供する。

Resampling methods such as the bootstrap have proven invaluable in the field of machine learning. However, the applicability of traditional bootstrap methods is limited when dealing with large streams of dependent data, such as time series or spatially correlated observations. In this paper, we propose a novel bootstrap method that is designed to account for data dependencies and can be executed online, making it particularly suitable for real-time applications. This method is based on an autoregressive sequence of increasingly dependent resampling weights. We prove the theoretical validity of the proposed bootstrap scheme under general conditions. We demonstrate the effectiveness of our approach through extensive simulations and show that it provides reliable uncertainty quantification even in the presence of complex data dependencies. Our work bridges the gap between classical resampling techniques and the demands of modern data analysis, providing a valuable tool for researchers and practitioners in dynamic, data-rich environments.
翻訳日:2024-02-28 21:58:18 公開日:2024-02-26
# ファンタスティック・ゲインと発見の場所:事前学習されたモデル間の一般知識伝達の存在と展望

Fantastic Gains and Where to Find Them: On the Existence and Prospect of General Knowledge Transfer between Any Pretrained Model ( http://arxiv.org/abs/2310.17653v2 )

ライセンス: Link先を確認
Karsten Roth, Lukas Thede, Almut Sophia Koepke, Oriol Vinyals, Olivier H\'enaff, Zeynep Akata(参考訳) ディープネットワークのトレーニングには、アーキテクチャやデータ拡張、最適化など、さまざまな設計上の決定が必要である。 本研究では、これらのトレーニングのバリエーションが、データからユニークな特徴集合を学習するネットワークになることを示す。 Using public model libraries comprising thousands of models trained on canonical datasets like ImageNet, we observe that for arbitrary pairings of pretrained models, one model extracts significant data context unavailable in the other -- independent of overall performance. Given any arbitrary pairing of pretrained models and no external rankings (such as separate test sets, e.g. due to data privacy), we investigate if it is possible to transfer such "complementary" knowledge from one model to another without performance degradation -- a task made particularly difficult as additional knowledge can be contained in stronger, equiperformant or weaker models. しかし、事前訓練されたモデルペアリングに非依存なシナリオでの堅牢な転送を容易にすることは、モデルや問題固有の制約なしに、モデルリポジトリから補助的なゲインと知識の融合を解き放ちます。 したがって、この研究は、そのような汎用的な知識伝達の実現可能性に関する、初期的で詳細な調査を提供する。 大規模実験において,我々はまず,標準知識蒸留技術の欠点を明らかにし,さらにデータ分割によるより汎用的な拡張を提案する。 最後に,モデルに依存しない知識伝達における基本モデル特性のスケーラビリティと影響を評価する。

Training deep networks requires various design decisions regarding for instance their architecture, data augmentation, or optimization. In this work, we find these training variations to result in networks learning unique feature sets from the data. Using public model libraries comprising thousands of models trained on canonical datasets like ImageNet, we observe that for arbitrary pairings of pretrained models, one model extracts significant data context unavailable in the other -- independent of overall performance. Given any arbitrary pairing of pretrained models and no external rankings (such as separate test sets, e.g. due to data privacy), we investigate if it is possible to transfer such "complementary" knowledge from one model to another without performance degradation -- a task made particularly difficult as additional knowledge can be contained in stronger, equiperformant or weaker models. Yet facilitating robust transfer in scenarios agnostic to pretrained model pairings would unlock auxiliary gains and knowledge fusion from any model repository without restrictions on model and problem specifics - including from weaker, lower-performance models. This work therefore provides an initial, in-depth exploration on the viability of such general-purpose knowledge transfer. Across large-scale experiments, we first reveal the shortcomings of standard knowledge distillation techniques, and then propose a much more general extension through data partitioning for successful transfer between nearly all pretrained models, which we show can also be done unsupervised. Finally, we assess both the scalability and impact of fundamental model properties on successful model-agnostic knowledge transfer.
翻訳日:2024-02-28 21:57:15 公開日:2024-02-26
# 偏光と周波数-ビンハイパーエンタングル光子対のプログラム可能な統合源

Programmable integrated source of polarization and frequency-bin hyperentangled photon pairs ( http://arxiv.org/abs/2311.17313v2 )

ライセンス: Link先を確認
Colin Vendromin, J. E. Sipe, and Marco Liscidini(参考訳) 集積フォトニックデバイス上で、プログラム可能な偏光と周波数結合した光子対を生成することができる4つのリング共振器システムを提案する。 各リングは連続波で励起され、自発的4波混合によって2対の周波数ビンに同じ偏光を持つ光子対を生成する。 生成状態の密度演算子は、偏極および周波数2自由度における超絡み合った状態を表すことを示す。 状態の生成率も計算します。

We present a system of four ring resonators capable of generating programmable polarization and frequency-bin entangled photon pairs on an integrated photonic device. Each ring is pumped with a continuous wave, generating photon pairs with the same polarization in two pairs of frequency bins via spontaneous fourwave mixing. We show that the density operator of the generated state represents a hyperentangled state in the polarization and frequency bin degrees of freedom. We also calculate the generation rate of the state.
翻訳日:2024-02-28 21:52:53 公開日:2024-02-26
# Tube-NeRF:Tube-Guided Data AugmentationとNeRFを用いたMPCからのVisuomotor Policiesの効率的な模倣学習

Tube-NeRF: Efficient Imitation Learning of Visuomotor Policies from MPC using Tube-Guided Data Augmentation and NeRFs ( http://arxiv.org/abs/2311.14153v2 )

ライセンス: Link先を確認
Andrea Tagliabue, Jonathan P. How(参考訳) 模倣学習(il)は、リソース集約型モデル予測コントローラ(mpc)から計算効率の高いセンサモジュレータポリシをトレーニングできるが、多くのサンプルを必要とするため、長いトレーニング時間や限定的な堅牢性が求められる。 これらの問題に対処するために,il と不確実性を考慮したロバストな mpc の変種を組み合わせることで,視覚に基づくポリシの効率的な学習を可能にするデータ拡張 (da) 戦略を設計する。 提案手法はneural radiance field (nerfs) を利用して新しい合成画像を生成し、ロバストなmpc(チューブ)の特性を利用して関連するビューを選択し、対応するアクションを効率的に計算する。 搭載カメラからの映像を水平位置のみのソースとして制御動作を生成するビジュモータポリシーを学習することにより、マルチロータ上での局所化と軌道追跡のタスクに対する我々のアプローチを調整する。 数値評価の結果, 実演効率は80倍に向上し, トレーニング時間も50%減少した。 さらに、当社のポリシーは実マルチロータへの移行に成功し、大きな障害にもかかわらず追跡エラーの少ない1.5msのオンボード推論時間を実現した。

Imitation learning (IL) can train computationally-efficient sensorimotor policies from a resource-intensive Model Predictive Controller (MPC), but it often requires many samples, leading to long training times or limited robustness. To address these issues, we combine IL with a variant of robust MPC that accounts for process and sensing uncertainties, and we design a data augmentation (DA) strategy that enables efficient learning of vision-based policies. The proposed DA method, named Tube-NeRF, leverages Neural Radiance Fields (NeRFs) to generate novel synthetic images, and uses properties of the robust MPC (the tube) to select relevant views and to efficiently compute the corresponding actions. We tailor our approach to the task of localization and trajectory tracking on a multirotor, by learning a visuomotor policy that generates control actions using images from the onboard camera as only source of horizontal position. Numerical evaluations show 80-fold increase in demonstration efficiency and a 50% reduction in training time over current IL methods. Additionally, our policies successfully transfer to a real multirotor, achieving low tracking errors despite large disturbances, with an onboard inference time of only 1.5 ms. Video: https://youtu.be/_W5z33ZK1m4
翻訳日:2024-02-28 21:51:24 公開日:2024-02-26
# 鏡に映るロボット:自己監督モデルと関連づけて模倣する学習

Robot at the Mirror: Learning to Imitate via Associating Self-supervised Models ( http://arxiv.org/abs/2311.13226v2 )

ライセンス: Link先を確認
Andrej Lucny, Kristina Malinovska, and Igor Farkas(参考訳) 学習や微調整に代えて,自己監督型モデルから独自のモデルを構築する手法を提案する。 そこで本研究では,鏡を映し出したヒューマノイドロボットが,知覚した画像から身体の3Dポーズを検出することを実演する。 このモデルを構築するために,まず,ロボットの操作前に用意されたモデルを用いて,視覚入力とロボットの姿勢から特徴を抽出する。 次に,標本効率の良いロボットの自己爆発を鏡に映し出すことにより,それらの潜在空間をマッピングする。 このようにして、ロボットは、徐々に品質を得るのではなく、取得したサンプルですぐに品質が完璧になる3dポーズ検出器を構築する。 特徴ベクトルのペアを関連づけたマッピングは、有名な変圧器モデルのキー値機構と同じ方法で実装される。 最後に、シミュレーションロボットに模倣するためにモデルを配置することで、人間の関与なしにハイパーパラメータを研究し、調整し、体系的に評価することが可能になります。

We introduce an approach to building a custom model from ready-made self-supervised models via their associating instead of training and fine-tuning. We demonstrate it with an example of a humanoid robot looking at the mirror and learning to detect the 3D pose of its own body from the image it perceives. To build our model, we first obtain features from the visual input and the postures of the robot's body via models prepared before the robot's operation. Then, we map their corresponding latent spaces by a sample-efficient robot's self-exploration at the mirror. In this way, the robot builds the solicited 3D pose detector, which quality is immediately perfect on the acquired samples instead of obtaining the quality gradually. The mapping, which employs associating the pairs of feature vectors, is then implemented in the same way as the key-value mechanism of the famous transformer models. Finally, deploying our model for imitation to a simulated robot allows us to study, tune up, and systematically evaluate its hyperparameters without the involvement of the human counterpart, advancing our previous research.
翻訳日:2024-02-28 21:50:57 公開日:2024-02-26
# 融合するか、あるいは失うか: マルチモーダルシミュレーションに基づく推論のためのディープフュージョン

Fuse It or Lose It: Deep Fusion for Multimodal Simulation-Based Inference ( http://arxiv.org/abs/2311.10671v2 )

ライセンス: Link先を確認
Marvin Schmitt, Stefan T. Radev, Paul-Christian B\"urkner(参考訳) ニューラルネットワークを用いたシミュレーションに基づく推論において,異なるソースからの異種データを統合する手法であるMultiNPE(MultiNPE)を提案する。 深層融合学習の進歩に触発され、研究者は異なる領域のデータを分析し、複雑な数学モデルのパラメータを精度良く推測することができる。 我々は,hbox{MultiNPE}(初期,後期,ハイブリッド)の多モード融合法を定式化し,その性能を3つの挑戦実験で評価する。 MultiNPEは、参照タスクにおいて単一ソースベースラインを上回るだけでなく、神経科学や心臓学からの科学的モデルに対する優れた推論も達成している。 異なる核融合戦略に対する部分的欠落データの影響を体系的に調査する。 実験を通して,マルチモーダルシミュレーションに基づく推論の実用的応用法として,後期およびハイブリッド融合技術が出現した。

We present multimodal neural posterior estimation (MultiNPE), a method to integrate heterogeneous data from different sources in simulation-based inference with neural networks. Inspired by advances in deep fusion learning, it empowers researchers to analyze data from different domains and infer the parameters of complex mathematical models with increased accuracy. We formulate multimodal fusion approaches for \hbox{MultiNPE} (early, late, hybrid) and evaluate their performance in three challenging experiments. MultiNPE not only outperforms single-source baselines on a reference task, but also achieves superior inference on scientific models from neuroscience and cardiology. We systematically investigate the impact of partially missing data on the different fusion strategies. Across our experiments, late and hybrid fusion techniques emerge as the methods of choice for practical applications of multimodal simulation-based inference.
翻訳日:2024-02-28 21:49:45 公開日:2024-02-26
# 潜在特徴ベクトルシフトによる生成モデルの出力制御

Controlling the Output of a Generative Model by Latent Feature Vector Shifting ( http://arxiv.org/abs/2311.08850v2 )

ライセンス: Link先を確認
R\'obert Belanec, Peter Lacko, Krist\'ina Malinovsk\'a(参考訳) 最先端生成モデル(例えばstylegan3 \cite{karras2021alias})は、しばしば潜在空間からサンプリングされたベクトルに基づいてフォトリアリスティックな画像を生成する。 しかし、出力を制御する能力は限られている。 本稿では,生成画像の意味的特徴を利用した制御出力画像修正のための潜在ベクトルシフト手法を提案する。 提案手法では,比較的高解像度で現実的な人間の顔の画像を生成するStyleGAN3の事前学習モデルを用いる。 本稿では,生成した画像をcelebaデータセットからバイナリな顔特徴で分類するように訓練した畳み込みニューラルネットワーク分類器resnet34を用いて生成モデルを補完する。 我々の潜在特徴シフト器は、生成モデルの潜在ベクトルを特定の特徴方向にシフトさせるタスクを備えたニューラルネットワークモデルである。 我々は,複数の顔特徴に対して潜在機能シフタを訓練し,所望の機能を持つ生成画像数においてベースライン法を上回った。 潜在機能シフターニューラルネットワークをトレーニングするために、特定の特徴の有無に関わらず、潜在ベクトルのペアのデータセットを設計しました。 評価の結果,我々は,StyleGAN3ジェネレータの制御生成において,潜在機能シフト器のアプローチが成功したと結論した。

State-of-the-art generative models (e.g. StyleGAN3 \cite{karras2021alias}) often generate photorealistic images based on vectors sampled from their latent space. However, the ability to control the output is limited. Here we present our novel method for latent vector shifting for controlled output image modification utilizing semantic features of the generated images. In our approach we use a pre-trained model of StyleGAN3 that generates images of realistic human faces in relatively high resolution. We complement the generative model with a convolutional neural network classifier, namely ResNet34, trained to classify the generated images with binary facial features from the CelebA dataset. Our latent feature shifter is a neural network model with a task to shift the latent vectors of a generative model into a specified feature direction. We have trained latent feature shifter for multiple facial features, and outperformed our baseline method in the number of generated images with the desired feature. To train our latent feature shifter neural network, we have designed a dataset of pairs of latent vectors with and without a certain feature. Based on the evaluation, we conclude that our latent feature shifter approach was successful in the controlled generation of the StyleGAN3 generator.
翻訳日:2024-02-28 21:48:42 公開日:2024-02-26
# 半監督シーケンス生成のための大規模言語モデルからの多段階協調的知識蒸留

Multistage Collaborative Knowledge Distillation from a Large Language Model for Semi-Supervised Sequence Generation ( http://arxiv.org/abs/2311.08640v3 )

ライセンス: Link先を確認
Jiachen Zhao, Wenlong Zhao, Andrew Drozdov, Benjamin Rozonoyer, Md Arafat Sultan, Jay-Yoon Lee, Mohit Iyyer, Andrew McCallum(参考訳) 本研究は半教師付きシーケンス生成タスクについて検討し,いくつかのラベル付き例ではモデルを微調整するには不十分であり,また,少数ショットによる大言語モデル(LLM)は改善の余地を示す。 本稿では,数発のLDMから抽出した学生モデルが,教師よりも一般的に一般化できることを発見し,そのような課題の例を提示する。 生徒は知識蒸留(kd)中に教師が生成した高品質の擬似ラベルから一般的なパターンを学習することができ、低品質の疑似ラベルからの一般的なパターンは好ましくない。 そこで本研究では,LLM (MCKD) を用いた多段階協調的知識蒸留法を提案する。 MCKDの最初の数発は、LLMにラベルなしデータの擬似ラベルを作成するよう促す。 そして、反復的なKDプロセスの各段階で、新しい学生ペアが疑似ラベル付きデータの解離分割を訓練し、目に見えない分割のための新しい改善された疑似ラベルを生成する。 我々は4つの構文解析および意味解析データセットについて広範な実験を行い、MCKDの低リソース半教師付きシーケンス生成における有効性を示す。 例えば、CRAFTのバイオメディカル解析では、50のラベル付き例を持つ3段階のMCKDが、LLMの教師とバニラKDをそれぞれ7.5%、F1を3.7%解析し、500のラベル付き例で教師付き微調整のパフォーマンスに匹敵する。

We study semi-supervised sequence generation tasks, where the few labeled examples are too scarce to finetune a model, and meanwhile, few-shot prompted large language models (LLMs) exhibit room for improvement. In this paper, we present the discovery that a student model distilled from a few-shot prompted LLM can commonly generalize better than its teacher to unseen examples on such tasks. We find that the student is able to learn a general pattern from the high-quality pseudolabels produced by the teacher during knowledge distillation (KD), and favorably not a general pattern from the low-quality pseudolables. Leveraging this discovery, we propose a new method, Multistage Collaborative Knowledge Distillation from an LLM (MCKD), for these tasks. MCKD first few-shot prompts an LLM to produce pseudolabels for unlabeled data. Then at each stage of an iterative KD process, a new pair of students is trained on disjoint partitions of the pseudolabeled data, and produces new and improved pseudolabels for their unseen partitions. We conduct extensive experiments on four syntactic and semantic parsing datasets and show the effectiveness of MCKD for low-resource semi-supervised sequence generation. On CRAFT biomedical parsing, for example, 3-stage MCKD with 50 labeled examples outperforms an LLM teacher and vanilla KD by 7.5% and 3.7% parsing F1, respectively, and matches the performance of supervised finetuning with 500 labeled examples.
翻訳日:2024-02-28 21:48:19 公開日:2024-02-26
# 機械学習による衛星降水補間の不確実性推定

Uncertainty estimation in satellite precipitation interpolation with machine learning ( http://arxiv.org/abs/2311.07511v2 )

ライセンス: Link先を確認
Georgia Papacharalampous, Hristos Tyralis, Nikolaos Doulamis, Anastasios Doulamis(参考訳) 衛星データとゲージデータを機械学習と組み合わせることで、高解像度の降水データセットが生成されるが、不確実性推定はしばしば欠落している。 空間補間における予測の不確かさを定量化するために、6つのアルゴリズムをベンチマークすることで、このギャップに対処する。 連続するアメリカ合衆国(conus)における15年間の月次データでは,分位回帰 (qr) ,分位回帰林 (qrf), 一般化ランダム林 (grf), 勾配ブースティングマシーン (gbm), 光勾配ブースティングマシーン (lightgbm), 分位回帰ニューラルネットワーク (qrnn) を比較した。 予測降水量計を9つの量子レベル(0.025, 0.050, 0.100, 0.250, 0.500, 0.750, 0.900, 0.950, 0.975)で発行する能力について評価した。 特徴的重要度分析により,衛星降水量(PERSIANN)とIMERG(Integrated Multi-SatellitE Retrievals)データセット)が最も重要な予測指標となり,次いで衛星格子点へのゲージ高度と距離が示された。 QRと比較して、LightGBMは11.10%向上し、QRF(7.96%)、GRF(7.44%)、GBM(4.64%)、QRNN(1.73%)が続いた。 特に、lightgbmは、機械学習による空間補間の現在の標準である、すべてのランダムフォレスト変種を上回っている。 そこで本研究では,空間データの補間における不確かさを推定する機械学習アルゴリズムの組を,スコアリング関数とスコアリングルールに基づく形式的評価フレームワークを用いて提案する。

Merging satellite and gauge data with machine learning produces high-resolution precipitation datasets, but uncertainty estimates are often missing. We address this gap by benchmarking six algorithms, mostly novel for this task, for quantifying predictive uncertainty in spatial interpolation. On 15 years of monthly data over the contiguous United States (CONUS), we compared quantile regression (QR), quantile regression forests (QRF), generalized random forests (GRF), gradient boosting machines (GBM), light gradient boosting machines (LightGBM), and quantile regression neural networks (QRNN). Their ability to issue predictive precipitation quantiles at nine quantile levels (0.025, 0.050, 0.100, 0.250, 0.500, 0.750, 0.900, 0.950, 0.975), approximating the full probability distribution, was evaluated using quantile scoring functions and the quantile scoring rule. Feature importance analysis revealed satellite precipitation (PERSIANN (Precipitation Estimation from Remotely Sensed Information using Artificial Neural Networks) and IMERG (Integrated Multi-satellitE Retrievals) datasets) as the most informative predictor, followed by gauge elevation and distance to satellite grid points. Compared to QR, LightGBM showed improved performance with respect to the quantile scoring rule by 11.10%, followed by QRF (7.96%), GRF (7.44%), GBM (4.64%) and QRNN (1.73%). Notably, LightGBM outperformed all random forest variants, the current standard in spatial interpolation with machine learning. To conclude, we propose a suite of machine learning algorithms for estimating uncertainty in interpolating spatial data, supported with a formal evaluation framework based on scoring functions and scoring rules.
翻訳日:2024-02-28 21:47:34 公開日:2024-02-26
# 低コスト高出力メンバーシップ推論攻撃

Low-Cost High-Power Membership Inference Attacks ( http://arxiv.org/abs/2312.03262v2 )

ライセンス: Link先を確認
Sajjad Zarifzadeh, Philippe Liu, Reza Shokri(参考訳) メンバーシップ推論攻撃(MIA)は、機械学習モデルのトレーニングに特定のデータポイントを使用したかどうかを検出することを目的としている。 近年の強力な攻撃は計算コストが高く、様々な条件下では不整合性があり、実際のプライバシーリスク評価には信頼性が低い。 我々は,人口データとモデルのトレーニングデータを正確に区別し,計算オーバーヘッドを最小限に抑える新しい,効率的でロバストなメンバシップ推論攻撃(rmia)を設計する。 我々は、確率比テストにおいてより正確なヌル仮説設定のモデル化を行い、集団からの参照モデルと参照データサンプルの両方を効果的に活用することでこれを達成する。 本アルゴリズムは,tpr-fpr曲線全体において,従来法と比較して,極めて低い偽陽性率(0。 計算制約下では,事前学習された参照モデル(数例1)の数が限られているだけでなく,攻撃の他の要素が異なっても,ランダムな推測に近づいたいくつかの攻撃とは異なり,この手法は極めてよく機能する。 RMIAは、アタック設定のすべての構成において、以前の作業よりも優れています。 RMIAは、機械学習における実用的かつ正確で信頼性の高いプライバシーリスク分析のためのアルゴリズムの基礎を定めている。

Membership inference attacks (MIA) aim to detect if a particular data point was used in training a machine learning model. Recent strong attacks have high computational costs and inconsistent performance under varying conditions, rendering them unreliable for practical privacy risk assessment. We design a novel, efficient, and robust membership inference attack (RMIA) which accurately differentiates between population data and training data of a model, with minimal computational overhead. We achieve this by a more accurate modeling of the null hypothesis setting in our likelihood ratio tests, and effectively leveraging both reference models and reference data samples from the population. Our algorithm exhibits superior test power (true-positive rate) compared to prior methods, throughout the TPR-FPR curve including at extremely low false-positive rates (as low as 0). Under computation constraints, where only a limited number of pre-trained reference models (as few as 1) are available, and also when we vary other elements of the attack, our method performs exceptionally well, unlike some prior attacks that approach random guessing. RMIA outperforms the prior work in all configurations of the attack setup. RMIA lays the algorithmic groundwork for practical yet accurate and reliable privacy risk analysis in machine learning.
翻訳日:2024-02-28 21:38:47 公開日:2024-02-26
# FRAPP\'E: すべて後処理のためのグループフェアネスフレームワーク

FRAPP\'E: A Group Fairness Framework for Post-Processing Everything ( http://arxiv.org/abs/2312.02592v2 )

ライセンス: Link先を確認
Alexandru \c{T}ifrea, Preethi Lahoti, Ben Packer, Yoni Halpern, Ahmad Beirami and Flavien Prost(参考訳) 有望なフェアネスエラートレードオフを達成しているにもかかわらず、グループフェアネスのインプロセッシング緩和技術は、限られた計算資源や予測モデルのトレーニングパイプラインにアクセスできない多くの実用的なアプリケーションには適用できない。 このような状況下では、後処理は実行可能な代替手段です。 しかし、現在の手法は特定の問題設定や公平性の定義に合わせて調整されているため、インプロセッシングほど広く適用できない。 本稿では,任意の正規化処理メソッドを後処理アプローチに変換するフレームワークを提案する。 本手法は,従来の後処理文献よりも幅広い問題設定のための後処理技術を得る方法を規定する。 理論上, 広範囲にわたる実験により, 本フレームワークはインプロセッシングによって達成された公正・エラートレードオフを保ち, 先行処理手法の有効性を向上できることを示した。 最後に,部分群ラベルを用いたタスクの性能向上など,予測モデルのトレーニングを公平性緩和から切り離すモジュラー緩和戦略のいくつかの利点を実証する。

Despite achieving promising fairness-error trade-offs, in-processing mitigation techniques for group fairness cannot be employed in numerous practical applications with limited computation resources or no access to the training pipeline of the prediction model. In these situations, post-processing is a viable alternative. However, current methods are tailored to specific problem settings and fairness definitions and hence, are not as broadly applicable as in-processing. In this work, we propose a framework that turns any regularized in-processing method into a post-processing approach. This procedure prescribes a way to obtain post-processing techniques for a much broader range of problem settings than the prior post-processing literature. We show theoretically and through extensive experiments that our framework preserves the good fairness-error trade-offs achieved with in-processing and can improve over the effectiveness of prior post-processing methods. Finally, we demonstrate several advantages of a modular mitigation strategy that disentangles the training of the prediction model from the fairness mitigation, including better performance on tasks with partial group labels.
翻訳日:2024-02-28 21:38:25 公開日:2024-02-26
# 分数勾配降下の収束解析

Convergence Analysis of Fractional Gradient Descent ( http://arxiv.org/abs/2311.18426v4 )

ライセンス: Link先を確認
Ashwani Aggarwal(参考訳) 分数微分は整数次微分のよく研究された一般化である。 当然、最適化には分数微分を用いた勾配降下の収束特性を理解することが重要である。 分数勾配降下の収束解析は現在,解析手法と解析手法の両方において限定されている。 本稿では,滑らかかつ凸,滑らかかつ強い凸,滑らかかつ非凸設定における分数勾配降下の変動を解析することにより,これらのギャップを埋めることを目的とする。 まず、新しい境界は分数と整数の微分を橋渡しする。 次に、上記の設定にこれらの境界を適用して、滑らかで強い凸函数に対する線型収束と滑らかで凸関数に対する$O(1/T)$収束を証明する。 さらに、滑らかで非凸な函数に対する$O(1/T)$収束を、分数微分に対してより自然な滑らかさ(H\\older smoothness)という拡張概念を用いて証明する。 最後に、標準勾配降下に対する分数勾配降下のポテンシャル速度アップと、この速度アップを説明する予備的な理論的結果について実験結果を示す。

Fractional derivatives are a well-studied generalization of integer order derivatives. Naturally, for optimization, it is of interest to understand the convergence properties of gradient descent using fractional derivatives. Convergence analysis of fractional gradient descent is currently limited both in the methods analyzed and the settings analyzed. This paper aims to fill in these gaps by analyzing variations of fractional gradient descent in smooth and convex, smooth and strongly convex, and smooth and non-convex settings. First, novel bounds will be established bridging fractional and integer derivatives. Then, these bounds will be applied to the aforementioned settings to prove linear convergence for smooth and strongly convex functions and $O(1/T)$ convergence for smooth and convex functions. Additionally, we prove $O(1/T)$ convergence for smooth and non-convex functions using an extended notion of smoothness - H\"older smoothness - that is more natural for fractional derivatives. Finally, empirical results will be presented on the potential speed up of fractional gradient descent over standard gradient descent as well as some preliminary theoretical results explaining this speed up.
翻訳日:2024-02-28 21:36:51 公開日:2024-02-26
# GD-CAF: 降雨予報のためのグラフデュアルストリーム畳み込み注意融合

GD-CAF: Graph Dual-stream Convolutional Attention Fusion for Precipitation Nowcasting ( http://arxiv.org/abs/2401.07958v2 )

ライセンス: Link先を確認
Lorand Vatamany, Siamak Mehrkanoon(参考訳) 洪水予報、災害管理、農業活動の最適化、交通路の管理、再生可能エネルギーなど、様々な応用に正確な降水量計が不可欠である。 いくつかの研究はシーケンス・ツー・シーケンスの観点からこの課題に対処してきたが、その多くは複数の領域間の既存の相関を考慮せずに単一の領域に焦点を当てている。 本稿では,時空間グラフ列の降水問題として降水流を定式化する。 特にGD-CAF(Graph Dual-stream Convolutional Attention Fusion)を紹介する。これは降水マップの時空間グラフから学習するための新しいアプローチであり、将来は異なる場所の降水に先んじる。 gd-cafは時空間的畳み込みの注意と、奥行き分離可能な畳み込み操作を備えたゲート融合モジュールから構成される。 この拡張により、降水マップの高次元時空間グラフを直接処理し、データ次元間の高次相関を利用することができる。 コペルニクス気候変動サービス(copernicus climate change services)が提供したera5データセットから収集したヨーロッパとその周辺地域の7年間の降水マップについて評価した。 実験の結果,gd-cafモデルが他の実験モデルと比較して優れた性能を示した。 さらに、テストセット全体の平均的な季節的空間的および時間的注意点の可視化は、多様な領域と時間ステップの間の最も堅牢な関係に関する貴重な洞察を提供する。

Accurate precipitation nowcasting is essential for various applications, including flood prediction, disaster management, optimizing agricultural activities, managing transportation routes and renewable energy. While several studies have addressed this challenging task from a sequence-to-sequence perspective, most of them have focused on a single area without considering the existing correlation between multiple disjoint regions. In this paper, we formulate precipitation nowcasting as a spatiotemporal graph sequence nowcasting problem. In particular, we introduce Graph Dual-stream Convolutional Attention Fusion (GD-CAF), a novel approach designed to learn from historical spatiotemporal graph of precipitation maps and nowcast future time step ahead precipitation at different spatial locations. GD-CAF consists of spatio-temporal convolutional attention as well as gated fusion modules which are equipped with depthwise-separable convolutional operations. This enhancement enables the model to directly process the high-dimensional spatiotemporal graph of precipitation maps and exploits higher-order correlations between the data dimensions. We evaluate our model on seven years of precipitation maps across Europe and its neighboring areas collected from the ERA5 dataset, provided by Copernicus Climate Change Services. The experimental results reveal the superior performance of the GD-CAF model compared to the other examined models. Additionally, visualizations of averaged seasonal spatial and temporal attention scores across the test set offer valuable insights into the most robust connections between diverse regions or time steps.
翻訳日:2024-02-28 21:31:35 公開日:2024-02-26
# マーケティングミックスモデリング(MMM)と共有価値回帰を用いたチャネルパートナーレベルのマーケティング性能の定量化

Quantifying Marketing Performance at Channel-Partner Level by Using Marketing Mix Modeling (MMM) and Shapley Value Regression ( http://arxiv.org/abs/2401.05653v2 )

ライセンス: Link先を確認
Sean Tang, Sriya Musunuru, Baoshi Zong, Brooks Thornton(参考訳) 本稿では,チャネルレベルのマーケティング・ミックス・モデリング(MMM)を補完する,チャネルパートナーレベルでのマーケティング・パフォーマンスの分離におけるShapley Value Regressionの適用について検討する。 金融サービス産業における実世界のデータを利用して,個々のパートナー貢献度の評価におけるシャプリー価値回帰の実用性を示す。 協調ゲーム理論と共に構造化されたフィールドテストは最も正確であるが、しばしば非常に複雑で費用がかかる。 従って、共有価値回帰は、マーケティングチャネル内の各マーケティングパートナーの影響を弱めるための、より実現可能なアプローチである。 また,シェープリー値回帰の調整係数を導出する簡易な方法を提案し,代替手法と比較する。

This paper explores the application of Shapley Value Regression in dissecting marketing performance at channel-partner level, complementing channel-level Marketing Mix Modeling (MMM). Utilizing real-world data from the financial services industry, we demonstrate the practicality of Shapley Value Regression in evaluating individual partner contributions. Although structured in-field testing along with cooperative game theory is most accurate, it can often be highly complex and expensive to conduct. Shapley Value Regression is thus a more feasible approach to disentangle the influence of each marketing partner within a marketing channel. We also propose a simple method to derive adjusted coefficients of Shapley Value Regression and compares it with alternative approaches.
翻訳日:2024-02-28 21:30:49 公開日:2024-02-26
# INACIA:ブラジルの監査裁判所における大規模言語モデルの統合:機会と課題

INACIA: Integrating Large Language Models in Brazilian Audit Courts: Opportunities and Challenges ( http://arxiv.org/abs/2401.05273v3 )

ライセンス: Link先を確認
Jayr Pereira, Andre Assumpcao, Julio Trecenti, Luiz Airosa, Caio Lente, Jhonatan Cl\'eto, Guilherme Dobins, Rodrigo Nogueira, Luis Mitchell, Roberto Lotufo(参考訳) Instru\c{c}\~ao Assistida com Intelig\^encia Artificialは,大規模言語モデル(LLM)をブラジル連邦会計裁判所(TCU)の運用枠組みに組み込むために設計された画期的なシステムである。 本システムは, 基本情報抽出, 許容度検査, モラおよびフムス・ボニ・イウリス分析の周辺部, 推薦生成など, 事例分析の様々な段階を自動化する。 一連の実験を通じて,イナシアが事例文書から関連情報を抽出し,その法的可能性を評価し,司法意思決定のための提案を定式化する可能性を示す。 評価手法は, LLMと併用した検証データセットを用いて, 人的判断と高い相関性を有するシステム性能評価手法を提案する。 これらの結果は、現在の制限を認識しながら、複雑な法的タスクハンドリングにおけるINACIAの可能性を強調している。 この研究は、AIを法的文脈に適用する可能性や、より広範な意味を論じており、INACIAは、実証的な知見に基づく慎重な楽観主義とともに、世界中の法律システムにAIを統合するための重要なステップであることを示している。

This paper introduces INACIA (Instru\c{c}\~ao Assistida com Intelig\^encia Artificial), a groundbreaking system designed to integrate Large Language Models (LLMs) into the operational framework of Brazilian Federal Court of Accounts (TCU). The system automates various stages of case analysis, including basic information extraction, admissibility examination, Periculum in mora and Fumus boni iuris analyses, and recommendations generation. Through a series of experiments, we demonstrate INACIA's potential in extracting relevant information from case documents, evaluating its legal plausibility, and formulating propositions for judicial decision-making. Utilizing a validation dataset alongside LLMs, our evaluation methodology presents a novel approach to assessing system performance, correlating highly with human judgment. These results underscore INACIA's potential in complex legal task handling while also acknowledging the current limitations. This study discusses possible improvements and the broader implications of applying AI in legal contexts, suggesting that INACIA represents a significant step towards integrating AI in legal systems globally, albeit with cautious optimism grounded in the empirical findings.
翻訳日:2024-02-28 21:30:34 公開日:2024-02-26
# lampat:adversarial trainingを用いた多言語パラフレージングのための低ランク適応

LAMPAT: Low-Rank Adaption for Multilingual Paraphrasing Using Adversarial Training ( http://arxiv.org/abs/2401.04348v2 )

ライセンス: Link先を確認
Khoi M.Le and Trinh Pham and Tho Quan and Anh Tuan Luu(参考訳) パラフレーズ(paraphrases)は、異なる単語や文構造を用いて同じ意味を伝えるテキストである。 これは、多くの自然言語処理タスク、特にデータ不足が重大な問題である低リソース言語を扱う場合に、自動データ拡張ツールとして使用できる。 多言語環境でパラフレーズを生成するために、以前の研究では機械翻訳分野からの知識、すなわち同じ言語でゼロショット機械翻訳によってパラフレーズを形成する。 人間の評価は良好だが、これらの手法は並列翻訳データセットを必要とするため、並列コーパスを持たない言語には適用できない。 この問題を緩和するために、我々は、LAMPAT ($\textbf{L}$ow-rank $\textbf{A}$daptation for $\textbf{M}$ultilingual $\textbf{P}$araphrasing using $\textbf{A}$dversarial $\textbf{T}$raining という、単言語データセットが人間に似た文を生成するのに十分な、最初の教師なし多言語パラフレーズモデルを提案した。 実験を通して,本手法は英語だけでなく,目に見えない言語にも適用可能であることがわかった。 データとコードはhttps://github.com/VinAIResearch/LAMPAT.comで入手できる。

Paraphrases are texts that convey the same meaning while using different words or sentence structures. It can be used as an automatic data augmentation tool for many Natural Language Processing tasks, especially when dealing with low-resource languages, where data shortage is a significant problem. To generate a paraphrase in multilingual settings, previous studies have leveraged the knowledge from the machine translation field, i.e., forming a paraphrase through zero-shot machine translation in the same language. Despite good performance on human evaluation, those methods still require parallel translation datasets, thus making them inapplicable to languages that do not have parallel corpora. To mitigate that problem, we proposed the first unsupervised multilingual paraphrasing model, LAMPAT ($\textbf{L}$ow-rank $\textbf{A}$daptation for $\textbf{M}$ultilingual $\textbf{P}$araphrasing using $\textbf{A}$dversarial $\textbf{T}$raining), by which monolingual dataset is sufficient enough to generate a human-like and diverse sentence. Throughout the experiments, we found out that our method not only works well for English but can generalize on unseen languages as well. Data and code are available at https://github.com/VinAIResearch/LAMPAT.
翻訳日:2024-02-28 21:30:12 公開日:2024-02-26
# moe-mamba: 専門家の混合による効率的な選択状態空間モデル

MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts ( http://arxiv.org/abs/2401.04081v2 )

ライセンス: Link先を確認
Maciej Pi\'oro, Kamil Ciebiera, Krystian Kr\'ol, Jan Ludziejewski, Micha{\l} Krutul, Jakub Krajewski, Szymon Antoniak, Piotr Mi{\l}o\'s, Marek Cygan, Sebastian Jaszczur(参考訳) 状態空間モデル(ssm)はシーケンシャルモデリングの分野で真剣な競争相手となり、トランスフォーマーの支配に挑戦している。 同時に、Mixture of Experts (MoE)は、最近の最先端のオープンモデルを含むトランスフォーマーベースの大規模言語モデルを大幅に改善した。 スケーリングのためのSSMの可能性を解き放つためには、MoEと組み合わせるべきである。 我々はこれをSSMベースの最近のモデルであるMambaで紹介する。 私たちのモデルであるMoE-Mambaは、MambaとベースラインのTransformer-MoEより優れています。 特に、MoE-Mambaは、Transformerに対するMambaの推論性能向上を保ちながら、トレーニングステップを減らし、2.35\timesでMambaと同じパフォーマンスに達する。

State Space Models (SSMs) have become serious contenders in the field of sequential modeling, challenging the dominance of Transformers. At the same time, Mixture of Experts (MoE) has significantly improved Transformer-based Large Language Models, including recent state-of-the-art open models. We propose that to unlock the potential of SSMs for scaling, they should be combined with MoE. We showcase this on Mamba, a recent SSM-based model that achieves remarkable performance. Our model, MoE-Mamba, outperforms both Mamba and baseline Transformer-MoE. In particular, MoE-Mamba reaches the same performance as Mamba in $2.35\times$ fewer training steps while preserving the inference performance gains of Mamba against Transformer.
翻訳日:2024-02-28 21:29:37 公開日:2024-02-26
# 一般化量子シュタインの補題:資源論の第二法則を還元する

Generalized Quantum Stein's Lemma: Redeeming Second Law of Resource Theories ( http://arxiv.org/abs/2401.01926v2 )

ライセンス: Link先を確認
Hayata Yamasaki, Kohdai Kuroiwa(参考訳) [注:この写本の最初のバージョンがアップロードされた後、[Berta, Brand\~ao, Gour, Lami, Plenio, Regula, and Tomamichel, Quantum 7, 1103 (2023)]の著者らは、前バージョンの[Bluhm, Capel, Gondolf, P\'erez-Hern\'andez, IEEE Trans.]の主張の一部を指摘した。 インフ。 理論69,5869 (2023)]を用いた。 この問題により、この写本の前バージョンの解析は、一般化された量子シュタインの補題の完全な証明とは考えられなくなった。 このバージョンは、このメモを追加するための一時的なアップデートである。 我々は、この問題と一般化された量子シュタインの補題の証明を完了させるために必要な条件を説明するために、さらに原稿を更新する計画である。 ]

[Note: After the first version of this manuscript was uploaded, the authors of [Berta, Brand\~ao, Gour, Lami, Plenio, Regula, and Tomamichel, Quantum 7, 1103 (2023)] pointed out an issue about a part of the claims in the previous version of [Bluhm, Capel, Gondolf, P\'erez-Hern\'andez, IEEE Trans. Inf. Theory 69, 5869 (2023)] used in our analysis. Due to this issue, the analysis in the previous version of this manuscript can no longer be considered complete proof of the generalized quantum Stein's lemma. This version is a temporal update to add this note. We are planning to update the manuscript further to explain the issue and what conditions we will additionally need to complete the proof of the generalized quantum Stein's lemma.]
翻訳日:2024-02-28 21:29:02 公開日:2024-02-26
# 長時間ビデオ質問応答のための簡易LLMフレームワーク

A Simple LLM Framework for Long-Range Video Question-Answering ( http://arxiv.org/abs/2312.17235v2 )

ライセンス: Link先を確認
Ce Zhang, Taixi Lu, Md Mohaiminul Islam, Ziyang Wang, Shoubin Yu, Mohit Bansal, Gedas Bertasius(参考訳) 長距離ビデオ質問応答(LVQA)のための言語ベースのフレームワークであるLLoViを提案する。 従来の長距離映像理解手法とは異なり,この手法ではフレーム/クリップレベルの視覚キャプション(例えば, blip2, lavila, llava)と大規模言語モデル(gpt-3.5, gpt-4)を組み合わせることで,単純かつ驚くほど効率的なlvqaフレームワークを実現する。 具体的には,LVQAの短距離・長距離モデリングの側面を2段階に分解する。 まず、短いビデオクリップ(0.5-8秒)のテキスト記述を生成するために、短い視覚キャプタを用いて、長い入力ビデオから密にサンプリングする。 その後、LLMは、高密度に抽出された短い字幕を集約して、ビデオ全体を理解して質問に答えるために必要な長距離時間的推論を行う。 単純なフレームワークをなぜ効果的にするかを分析するため、システムの様々なコンポーネントを徹底的に評価する。 その結果,視覚的キャプタとLLMの選択がLVQAの良好な性能に重要であることが明らかとなった。 さらに,LLMに対して,まずノイズの多い短期的な視覚的キャプションを要約し,与えられた入力質問に答える特別なプロンプトが,LVQA性能を著しく向上させることを示す。 非常に長い形式のビデオ質問応答ベンチマークとして知られるegoschemaでは、従来のベストパフォーマンスアプローチを18.1%上回って50.3%の精度を達成している(絶対ゲイン)。 さらに,NeXT-QAとIntentQAでは,従来の最先端技術よりも4.1%,3.1%向上した。 また、LLoViを接地したLVQAに拡張し、NeXT-GQAデータセット上のすべての先行メソッドより優れていることを示す。 コードをhttps://github.com/CeeZh/LLoViでリリースします。

We present LLoVi, a language-based framework for long-range video question-answering (LVQA). Unlike prior long-range video understanding methods, which are often costly and require specialized long-range video modeling design (e.g., memory queues, state-space layers, etc.), our approach uses a frame/clip-level visual captioner (e.g., BLIP2, LaViLa, LLaVA) coupled with a Large Language Model (GPT-3.5, GPT-4) leading to a simple yet surprisingly effective LVQA framework. Specifically, we decompose short and long-range modeling aspects of LVQA into two stages. First, we use a short-term visual captioner to generate textual descriptions of short video clips (0.5-8s in length) densely sampled from a long input video. Afterward, an LLM aggregates the densely extracted short-term captions to perform long-range temporal reasoning needed to understand the whole video and answer a question. To analyze what makes our simple framework so effective, we thoroughly evaluate various components of our system. Our empirical analysis reveals that the choice of the visual captioner and LLM is critical for good LVQA performance. Furthermore, we show that a specialized prompt that asks the LLM first to summarize the noisy short-term visual captions and then answer a given input question leads to a significant LVQA performance boost. On EgoSchema, which is best known as a very long-form video question-answering benchmark, our method achieves 50.3% accuracy, outperforming the previous best-performing approach by 18.1% (absolute gain). In addition, our approach outperforms the previous state-of-the-art by 4.1% and 3.1% on NeXT-QA and IntentQA. We also extend LLoVi to grounded LVQA and show that it outperforms all prior methods on the NeXT-GQA dataset. We will release our code at https://github.com/CeeZh/LLoVi.
翻訳日:2024-02-28 21:28:19 公開日:2024-02-26
# 時系列パッチを独立に埋め込む学習

Learning to Embed Time Series Patches Independently ( http://arxiv.org/abs/2312.16427v2 )

ライセンス: Link先を確認
Seunghan Lee, Taeyoung Park, Kibok Lee(参考訳) 近年,時系列モデリングは時系列の自己教師型表現学習戦略として注目されている。 コンピュータビジョンにおけるマスク付きイメージモデリングにインスパイアされた最近の研究は、まず最初にパッチをパッチ化し、部分的に時系列をマスクアウトし、次にトランスフォーマーをトレーニングして、マスク付きパッチを非マスクパッチから予測することでパッチ間の依存関係をキャプチャする。 しかし、このようなパッチ依存関係をキャプチャすることは、時系列表現学習の最適戦略ではなく、個別にパッチを埋め込む学習は、より良い時系列表現をもたらす。 具体的には 1)他のパッチを見ることなく各パッチを自動エンコードする簡単なパッチ再構築タスク。 2) パッチを個別に埋め込むシンプルなパッチワイドMLP。 さらに,隣接時系列情報を階層的に効率的に捉えるために,補完的コントラスト学習を導入する。 提案手法は,現状のトランスフォーマーモデルと比較して時系列予測と分類性能を向上し,パラメータ数やトレーニング/推論時間の観点からより効率的である。 コードは、このリポジトリで入手できる。

Masked time series modeling has recently gained much attention as a self-supervised representation learning strategy for time series. Inspired by masked image modeling in computer vision, recent works first patchify and partially mask out time series, and then train Transformers to capture the dependencies between patches by predicting masked patches from unmasked patches. However, we argue that capturing such patch dependencies might not be an optimal strategy for time series representation learning; rather, learning to embed patches independently results in better time series representations. Specifically, we propose to use 1) the simple patch reconstruction task, which autoencode each patch without looking at other patches, and 2) the simple patch-wise MLP that embeds each patch independently. In addition, we introduce complementary contrastive learning to hierarchically capture adjacent time series information efficiently. Our proposed method improves time series forecasting and classification performance compared to state-of-the-art Transformer-based models, while it is more efficient in terms of the number of parameters and training/inference time. Code is available at this repository: https://github.com/seunghan96/pits.
翻訳日:2024-02-28 21:27:41 公開日:2024-02-26
# 時系列のソフトコントラスト学習

Soft Contrastive Learning for Time Series ( http://arxiv.org/abs/2312.16424v2 )

ライセンス: Link先を確認
Seunghan Lee, Taeyoung Park, Kibok Lee(参考訳) コントラスト学習は時系列からの表現を自己指導的に学習するのに有効であることが示されている。 しかし、類似の時系列インスタンスや時系列内の隣接するタイムスタンプからの値と対照的に、それらの固有の相関は無視され、結果として学習された表現の品質が低下する。 この問題に対処するために,時系列の簡易かつ効果的なソフトコントラスト学習戦略であるSoftCLTを提案する。 これは、ゼロから1までのソフト代入を伴うインスタンス毎および時間的コントラスト損失を導入することで実現される。 具体的にはソフトな割り当てを定義します 1)データ空間上の時系列間の距離によるケースワイドコントラスト損失と 2)タイムスタンプの違いによる時間的コントラスト損失。 SoftCLTは時系列のコントラスト学習のためのプラグアンドプレイ方式であり、ベルやホイッスルを使わずに学習表現の品質を向上させる。 実験により,softcltは分類,半教師付き学習,転送学習,異常検出などの下流タスクのパフォーマンスを一貫して向上させ,最先端のパフォーマンスを示すことを示した。 コードは、このリポジトリで入手できる。 https://github.com/seunghan96/softclt。

Contrastive learning has shown to be effective to learn representations from time series in a self-supervised way. However, contrasting similar time series instances or values from adjacent timestamps within a time series leads to ignore their inherent correlations, which results in deteriorating the quality of learned representations. To address this issue, we propose SoftCLT, a simple yet effective soft contrastive learning strategy for time series. This is achieved by introducing instance-wise and temporal contrastive loss with soft assignments ranging from zero to one. Specifically, we define soft assignments for 1) instance-wise contrastive loss by the distance between time series on the data space, and 2) temporal contrastive loss by the difference of timestamps. SoftCLT is a plug-and-play method for time series contrastive learning that improves the quality of learned representations without bells and whistles. In experiments, we demonstrate that SoftCLT consistently improves the performance in various downstream tasks including classification, semi-supervised learning, transfer learning, and anomaly detection, showing state-of-the-art performance. Code is available at this repository: https://github.com/seunghan96/softclt.
翻訳日:2024-02-28 21:27:23 公開日:2024-02-26
# 定量的MRIにおけるパラメータ推定のためのバイアス生成ニューラルネットワーク

Bias-Reduced Neural Networks for Parameter Estimation in Quantitative MRI ( http://arxiv.org/abs/2312.11468v2 )

ライセンス: Link先を確認
Andrew Mao, Sebastian Flassbeck, Jakob Assl\"ander(参考訳) 目的: ニューラルネットワーク(NN)に基づく定量的MRIパラメータ推定器を開発する。 理論と方法: NNの推定値のバイアスと分散を制御するために平均2乗誤差損失を一般化する。 得られたNNのバイアスと分散特性を2つのニューロイメージング応用のために研究した。 結果: シミュレーションにおいて,提案手法はパラメータ空間全体の推定バイアスを低減し,Cram\'er-Rao境界に近い分散を実現する。 In vivoでは,提案したNNから推定したパラメータマップと,非線形最小二乗フィッティングなどの従来の推定値との一致が良好であるのに対し,最先端のNNは偏差が大きい。 結論: 提案したNNは平均二乗誤差を用いて訓練されたものに比べてバイアスを著しく低減し, 従来の推定値よりも高い精度で計算効率が向上した。

Purpose: To develop neural network (NN)-based quantitative MRI parameter estimators with minimal bias and a variance close to the Cram\'er-Rao bound. Theory and Methods: We generalize the mean squared error loss to control the bias and variance of the NN's estimates, which involves averaging over multiple noise realizations of the same measurements during training. Bias and variance properties of the resulting NNs are studied for two neuroimaging applications. Results: In simulations, the proposed strategy reduces the estimates' bias throughout parameter space and achieves a variance close to the Cram\'er-Rao bound. In vivo, we observe good concordance between parameter maps estimated with the proposed NNs and traditional estimators, such as non-linear least-squares fitting, while state-of-the-art NNs show larger deviations. Conclusion: The proposed NNs have greatly reduced bias compared to those trained using the mean squared error and offer significantly improved computational efficiency over traditional estimators with comparable or better accuracy.
翻訳日:2024-02-28 21:26:12 公開日:2024-02-26
# LLMによるNLG評価の現状と課題

LLM-based NLG Evaluation: Current Status and Challenges ( http://arxiv.org/abs/2402.01383v2 )

ライセンス: Link先を確認
Mingqi Gao, Xinyu Hu, Jie Ruan, Xiao Pu, Xiaojun Wan(参考訳) 自然言語生成(NLG)を評価することは人工知能において不可欠だが難しい問題である。 従来の評価基準では、システム出力と参照の間のコンテンツ(例えばn-gram)の重なりは満足のいくものではないが、chatgptのような大規模言語モデル(llm)は近年、nlgの評価において大きな可能性を秘めている。 LLMに基づく様々な自動評価手法が提案され、LLMから派生したメトリクス、LLMの促進、ラベル付き評価データによる微調整 LLM などが提案されている。 本調査ではまず, LLM を用いた NLG 評価手法の分類について述べ, その長所と短所について考察する。 また,NLG評価のための人間-LLMコラボレーションについても論じる。 最後に,この領域におけるいくつかのオープンな問題について論じ,今後の研究の方向性を指摘する。

Evaluating natural language generation (NLG) is a vital but challenging problem in artificial intelligence. Traditional evaluation metrics mainly capturing content (e.g. n-gram) overlap between system outputs and references are far from satisfactory, and large language models (LLMs) such as ChatGPT have demonstrated great potential in NLG evaluation in recent years. Various automatic evaluation methods based on LLMs have been proposed, including metrics derived from LLMs, prompting LLMs, and fine-tuning LLMs with labeled evaluation data. In this survey, we first give a taxonomy of LLM-based NLG evaluation methods, and discuss their pros and cons, respectively. We also discuss human-LLM collaboration for NLG evaluation. Lastly, we discuss several open problems in this area and point out future research directions.
翻訳日:2024-02-28 21:20:47 公開日:2024-02-26
# スコアに基づく因果表現学習:線形および一般変換

Score-based Causal Representation Learning: Linear and General Transformations ( http://arxiv.org/abs/2402.00849v2 )

ライセンス: Link先を確認
Burak Var{\i}c{\i}, Emre Acart\"urk, Karthikeyan Shanmugam, Abhishek Kumar, Ali Tajer(参考訳) 本稿では、一般的な非パラメトリック潜時因果モデルに基づく介入に基づく因果表現学習(CRL)と、潜時変数を観測変数にマッピングする未知の変換について述べる。 線形および一般変換について検討した。 本稿は、識別可能性と達成可能性の両方に対処する。 識別可能性(identifiability)とは、真の潜在因果変数とそれらの背後にある潜在因果グラフの回復を保証するアルゴリズム非依存な条件を決定することを指す。 achievabilityはアルゴリズムの側面を指し、識別可能性保証を達成するアルゴリズムの設計に取り組んでいる。 スコア関数(すなわち密度関数の対数勾配)とCRLの間の新しい接続を描画することにより、識別可能性と達成可能性の両方を保証するスコアベースのアルゴリズムを設計する。 まず,線形変換に着目し,ノード毎の確率的ハード介入によって識別性が保証されることを示す。 また、一般的な因果モデルに対する祖先への識別可能性や十分な非線形因果モデルに対する完全な潜在グラフ回復など、ソフト介入に対する部分的な識別可能性を保証する。 第2に,一般変換に着目し,ノード毎の確率的ハード介入が2つあることを示す。 特に、どの一対の介入環境が同じノードに介入しているかを知る必要はない。

This paper addresses intervention-based causal representation learning (CRL) under a general nonparametric latent causal model and an unknown transformation that maps the latent variables to the observed variables. Linear and general transformations are investigated. The paper addresses both the identifiability and achievability aspects. Identifiability refers to determining algorithm-agnostic conditions that ensure recovering the true latent causal variables and the latent causal graph underlying them. Achievability refers to the algorithmic aspects and addresses designing algorithms that achieve identifiability guarantees. By drawing novel connections between score functions (i.e., the gradients of the logarithm of density functions) and CRL, this paper designs a score-based class of algorithms that ensures both identifiability and achievability. First, the paper focuses on linear transformations and shows that one stochastic hard intervention per node suffices to guarantee identifiability. It also provides partial identifiability guarantees for soft interventions, including identifiability up to ancestors for general causal models and perfect latent graph recovery for sufficiently non-linear causal models. Secondly, it focuses on general transformations and shows that two stochastic hard interventions per node suffice for identifiability. Notably, one does not need to know which pair of interventional environments have the same node intervened.
翻訳日:2024-02-28 21:20:14 公開日:2024-02-26
# Chain-of-Abstraction Reasoningを用いた効率的なツールの開発

Efficient Tool Use with Chain-of-Abstraction Reasoning ( http://arxiv.org/abs/2401.17464v2 )

ライセンス: Link先を確認
Silin Gao, Jane Dwivedi-Yu, Ping Yu, Xiaoqing Ellen Tan, Ramakanth Pasunuru, Olga Golovneva, Koustuv Sinha, Asli Celikyilmaz, Antoine Bosselut, Tianlu Wang(参考訳) 人間の期待に沿う忠実な推論を達成するためには、大規模言語モデル(LLM)は現実世界の知識(例えば、Webの事実、数学、物理ルール)に対する推論の基礎となる必要がある。 ツールは、この外部知識にアクセスするのに役立ちますが、マルチステップ推論問題においてツールを呼び出すためのllmエージェント(例えば、ツールフォーマー)の微調整には、依然として課題があります。 本研究では,多段階推論におけるツールの活用を向上するLLMの新しい手法を提案する。 提案手法であるChain-of-Abstraction(CoA)では,LLMを学習し,まず抽象的なプレースホルダーで推論チェーンをデコードし,ドメインツールを呼び出し,特定の知識を充足して各推論チェーンを再構築する。 この抽象チェーンによる計画により、llmはより一般的な推論戦略を学ぶことができ、異なる推論問題に関連するドメイン知識(例えば数学の結果)のシフトに頑健である。 また、LCMは外部ツールのデコードと呼び出しを並列に行うことができ、ツールの応答を待つことで引き起こされる推論遅延を回避することができる。 数学的推論とWiki QA領域において、我々の手法は、平均6%の絶対QA精度で、分布内および分布外の両方のベースラインを常に上回ることを示す。 また,本手法で訓練したLLMエージェントは,標準ツール拡張LLMよりも平均1.4倍高速な推論速度で,より効率的なツール利用を示す。

To achieve faithful reasoning that aligns with human expectations, large language models (LLMs) need to ground their reasoning to real-world knowledge (e.g., web facts, math and physical rules). Tools help LLMs access this external knowledge, but there remains challenges for fine-tuning LLM agents (e.g., Toolformer) to invoke tools in multi-step reasoning problems, where inter-connected tool calls require holistic and efficient tool usage planning. In this work, we propose a new method for LLMs to better leverage tools in multi-step reasoning. Our method, Chain-of-Abstraction (CoA), trains LLMs to first decode reasoning chains with abstract placeholders, and then call domain tools to reify each reasoning chain by filling in specific knowledge. This planning with abstract chains enables LLMs to learn more general reasoning strategies, which are robust to shifts of domain knowledge (e.g., math results) relevant to different reasoning questions. It also allows LLMs to perform decoding and calling of external tools in parallel, which avoids the inference delay caused by waiting for tool responses. In mathematical reasoning and Wiki QA domains, we show that our method consistently outperforms previous chain-of-thought and tool-augmented baselines on both in-distribution and out-of-distribution test sets, with an average ~6% absolute QA accuracy improvement. LLM agents trained with our method also show more efficient tool use, with inference speed being on average ~1.4x faster than baseline tool-augmented LLMs.
翻訳日:2024-02-28 21:19:51 公開日:2024-02-26
# 100のサンプルはどこまで? Tiny Multi-Parallelデータによるゼロショット多言語翻訳のアンロック

How Far Can 100 Samples Go? Unlocking Overall Zero-Shot Multilingual Translation via Tiny Multi-Parallel Data ( http://arxiv.org/abs/2401.12413v2 )

ライセンス: Link先を確認
Di Wu, Shaomu Tan, Yan Meng, David Stap and Christof Monz(参考訳) ゼロショット翻訳は、Multilingual Machine Translation (MMT)において訓練中に見られない言語ペア間の翻訳を目標としている。 リソース消費の一般的な解決策は、可能な限り多くの関連する翻訳方向をトレーニングコーパスに追加することだ。 本稿では、英語中心のモデルでは、ごく少量のマルチパラレルデータで微調整するだけで驚くほど大きなゼロショット改善を実現できることを示す。 例えば、ec30データセットでは、英語中心の翻訳品質を維持しつつ、100個のマルチパラレルサンプルを使用して、最大+21.7chrf非英語総合改善(870方向)を得る。 微調整データのサイズ効果とその伝達能力を調べると、既に小さな無作為サンプリングされた微調整方向の集合が同等の改善を達成するのに十分であることがわかった。 結果として得られる非英語のパフォーマンスは、完全な翻訳上界に近い。 最小限の設定でも -- 1つのサンプルのみによる微調整 -- 、よく知られたオフターゲット問題は、ほぼ完全に解決され、部品の説明もすべてではない -- 、翻訳品質の向上が観察されている。

Zero-shot translation aims to translate between language pairs not seen during training in Multilingual Machine Translation (MMT) and is largely considered an open problem. A common, albeit resource-consuming, solution is to add as many related translation directions as possible to the training corpus. In this paper, we show that for an English-centric model, surprisingly large zero-shot improvements can be achieved by simply fine-tuning with a very small amount of multi-parallel data. For example, on the EC30 dataset, we obtain up to +21.7 ChrF non-English overall improvements (870 directions) by using only 100 multi-parallel samples while preserving English-centric translation quality. When investigating the size effect of fine-tuning data and its transfer capabilities, we found that already a small, randomly sampled set of fine-tuning directions is sufficient to achieve comparable improvements. The resulting non-English performance is close to the complete translation upper bound. Even in a minimal setting -- fine-tuning with only one single sample -- the well-known off-target issue is almost completely resolved, explaining parts--but not all -- of the observed improvements in translation quality.
翻訳日:2024-02-28 21:18:03 公開日:2024-02-26
# 自己教師付き細粒度視覚分類のためのクロスレベルマルチインスタンス蒸留

Cross-Level Multi-Instance Distillation for Self-Supervised Fine-Grained Visual Categorization ( http://arxiv.org/abs/2401.08860v2 )

ライセンス: Link先を確認
Qi Bi and Wei Ji and Jingjun Yi and Haolan Zhan and Gui-Song Xia(参考訳) きめ細かい視覚カテゴリーの高品質なアノテーションは、税制と時間のかかる専門家の知識を必要とする。 あるいは、自己教師付き学習によって、巨大なラベルのない画像(種、ブランドなど)からきめ細かい視覚表現を学習することが、実現可能な解決策となる。 しかし,近年の研究では,従来の自己指導型学習手法では,細かなカテゴリを表現できないことが判明している。 ボトルネックは、プリテキスト表現がすべてのパッチ単位の埋め込みから構築されるのに対して、きめ細かいカテゴリはイメージのキーパッチによってのみ決定される点にある。 本稿では,この課題に対処するクロスレベルマルチインスタンス蒸留(CMD)フレームワークを提案する。 私たちの重要なアイデアは、複数のインスタンス学習によるきめ細かい事前テキスト表現を決定する上で、各イメージパッチの重要性を検討することです。 インフォメーションパッチと細粒度意味論の関係を包括的に学習するために、教師と学生ネットの地域/画像作物対と、教師/学生ネット内の地域画像作物の両方にマルチインテンス知識蒸留を行い、我々はインフォメーションレベルマルチインテンス蒸留及びインターレベルマルチインテンス蒸留を行う。 CUB-200-2011、スタンフォード・カーズ、FGVCエアクラフトの大規模な実験により、提案手法は現代の手法を最大10.14%上回り、既存の最先端の自己教師あり学習手法を最大19.78%上回った。

High-quality annotation of fine-grained visual categories demands great expert knowledge, which is taxing and time consuming. Alternatively, learning fine-grained visual representation from enormous unlabeled images (e.g., species, brands) by self-supervised learning becomes a feasible solution. However, recent researches find that existing self-supervised learning methods are less qualified to represent fine-grained categories. The bottleneck lies in that the pre-text representation is built from every patch-wise embedding, while fine-grained categories are only determined by several key patches of an image. In this paper, we propose a Cross-level Multi-instance Distillation (CMD) framework to tackle the challenge. Our key idea is to consider the importance of each image patch in determining the fine-grained pre-text representation by multiple instance learning. To comprehensively learn the relation between informative patches and fine-grained semantics, the multi-instance knowledge distillation is implemented on both the region/image crop pairs from the teacher and student net, and the region-image crops inside the teacher / student net, which we term as intra-level multi-instance distillation and inter-level multi-instance distillation. Extensive experiments on CUB-200-2011, Stanford Cars and FGVC Aircraft show that the proposed method outperforms the contemporary method by upto 10.14% and existing state-of-the-art self-supervised learning approaches by upto 19.78% on both top-1 accuracy and Rank-1 retrieval metric.
翻訳日:2024-02-28 21:16:36 公開日:2024-02-26
# 変圧器アーキテクチャの限界について

On Limitations of the Transformer Architecture ( http://arxiv.org/abs/2402.08164v2 )

ライセンス: Link先を確認
Binghui Peng, Srini Narayanan, Christos Papadimitriou(参考訳) 大型言語モデル(LLM)における幻覚の根本原因は何か? 通信複雑度を用いて、関数のドメインが十分に大きい場合、トランスフォーマー層が関数を構成することができないこと(例えば、系図上の人の祖父母を特定する)を証明する。 また,llmでは難しいと考えられる構成的タスクの核となるいくつかの数学的タスクは,計算複雑性の分野においてある程度受け入れられている予想が真であるとして,トランスフォーマーによって解ける可能性は低いことを指摘した。

What are the root causes of hallucinations in large language models (LLMs)? We use Communication Complexity to prove that the Transformer layer is incapable of composing functions (e.g., identify a grandparent of a person in a genealogy) if the domains of the functions are large enough; we show through examples that this inability is already empirically present when the domains are quite small. We also point out that several mathematical tasks that are at the core of the so-called compositional tasks thought to be hard for LLMs are unlikely to be solvable by Transformers, for large enough instances and assuming that certain well accepted conjectures in the field of Computational Complexity are true.
翻訳日:2024-02-28 21:11:13 公開日:2024-02-26
# シュワルツシルト時空における光子-重力結合

Photon-Gravity Coupling in Schwarzschild Spacetime ( http://arxiv.org/abs/2402.07969v2 )

ライセンス: Link先を確認
Masoud Molaei(参考訳) 曲面時空における量子電磁力学の正準形式性を開発した。 この形式化はシュヴァルツシルト重力場における光子の系統的な研究を可能にし、新しい結果をもたらし、ヒューリスティックな方法によって予測された以前の結果を精錬する。 重力赤方偏移はスペクトルの全ての周波数の光子の鋭い周波数のシフトである」という主張が証明されている。 重力デコヒーレンスは、曲がった時空現象における光子-重力結合と観測者依存の量子電磁力学に起因する。 光子重力インターフェロメトリ相対位相シフトの完全な量子一般相対論的性質が示され、その観測によってニュートン重力の妥当性とアインシュタイン同値原理の1点を超えて(弱い一様重力場においても)拡張することが示されている。

A canonical formalism for quantum electrodynamics in curved spacetime is developed. This formalism enables a systematic investigation of photons in the Schwarzschild gravitational field, yielding novel results as well as refining previous results that were predicted by heuristic methods. The claim that "the gravitational redshift is a shift in the sharp frequencies of the photons for all frequencies of the spectrum" is proved. It is shown the gravitational decoherence is due to photon-gravity coupling and observer-dependent quantum electrodynamics in curved spacetime phenomena. The full quantum-general relativistic nature of the photon gravitational interferometric relative phase shift is demonstrated, and it is shown its observation will falsify the validity of Newtonian gravity and the extension of the Einstein equivalence principle beyond a single point (even in the weak uniform gravitational field.)
翻訳日:2024-02-28 21:11:01 公開日:2024-02-26
# 量子テトラヘドラの安定化エントロピー

Stabilizer entropy of quantum tetrahedra ( http://arxiv.org/abs/2402.07843v3 )

ライセンス: Link先を確認
Simone Cepollaro, Goffredo Chirco, Gianluca Cuffaro, Gianluca Esposito, Alioscia Hamma(参考訳) 量子幾何学の構造はどの程度複雑か? いくつかのアプローチでは、時空原子は量子四面体と呼ばれるsu(2)中間子によって得られる。 この構造の複雑さは、そのようなモデルをシミュレートし、量子重力効果の実験的実証に向けての最近の試みにおいて、具体的な結果をもたらす。 したがって、このクラスのモデルに固有の計算と実験的な複雑さの両方が存在する。 本稿では,安定度エントロピー(SE)のレンズ下で,この複雑さについて検討する。 ゲージ不変基底状態のseと、su(2)ゲージ不変部分空間におけるその平均を計算する。 定容積の状態は(ほぼ)最大SEによって選択され、利用可能な量子コンピュータ上での実験的なデモンストレーションを行うための検証プロトコルに正確な境界を与える。

How complex is the structure of quantum geometry? In several approaches, the spacetime atoms are obtained by the SU(2) intertwiner called quantum tetrahedron. The complexity of this construction has a concrete consequence in recent efforts to simulate such models and toward experimental demonstrations of quantum gravity effects. There are, therefore, both a computational and an experimental complexity inherent to this class of models. In this paper, we study this complexity under the lens of stabilizer entropy (SE). We calculate the SE of the gauge-invariant basis states and its average in the SU(2) gauge invariant subspace. We find that the states of definite volume are singled out by the (near) maximal SE and give precise bounds to the verification protocols for experimental demonstrations on available quantum computers.
翻訳日:2024-02-28 21:10:48 公開日:2024-02-26
# 信頼できる自律システムを保証する決定多様体の発見

Discovering Decision Manifolds to Assure Trusted Autonomous Systems ( http://arxiv.org/abs/2402.07791v2 )

ライセンス: Link先を確認
Matthew Litton, Doron Drusinsky, and James Bret Michael(参考訳) 複雑なシステムの開発と開発には、設計と運用要件に関して確実に正しいことを証明する必要がある。 特に、予期せぬ創発行動を示す自律システムでは、可能な正しい行動と誤動作の範囲を完全に列挙することは困難である。 そこで本研究では,システムが提示できる正誤応答の範囲を抽出する,高品質,高分散,非自明なデータを生成するための最適化に基づく探索手法を提案する。 この望ましい振る舞いと望ましくない振る舞いの多様体は、従来のテストやモンテカルロシミュレーションよりもシステムの信頼性をより詳細に理解する。 多様体に沿ってデータポイントを発見した後、決定多様体の基礎となる数学的関数を定量化するために機械学習技術を適用する。 このようなモデルは、開発およびテスト中の検証と運用中の継続的な保証の両方を可能にするために、システム適応や動的運用環境の中でも使用できる正確性特性として機能する。 本手法は,システム設計者やユーザへの信頼性の証明をシミュレータと組み合わせることで,複雑なシステムのデプロイに対する信頼性を確立することを目的としたものである。 この概念実証では,本手法を自動運転車のループ内ソフトウェア評価に適用する。

Developing and fielding complex systems requires proof that they are reliably correct with respect to their design and operating requirements. Especially for autonomous systems which exhibit unanticipated emergent behavior, fully enumerating the range of possible correct and incorrect behaviors is intractable. Therefore, we propose an optimization-based search technique for generating high-quality, high-variance, and non-trivial data which captures the range of correct and incorrect responses a system could exhibit. This manifold between desired and undesired behavior provides a more detailed understanding of system reliability than traditional testing or Monte Carlo simulations. After discovering data points along the manifold, we apply machine learning techniques to quantify the decision manifold's underlying mathematical function. Such models serve as correctness properties which can be utilized to enable both verification during development and testing, as well as continuous assurance during operation, even amidst system adaptations and dynamic operating environments. This method can be applied in combination with a simulator in order to provide evidence of dependability to system designers and users, with the ultimate aim of establishing trust in the deployment of complex systems. In this proof-of-concept, we apply our method to a software-in-the-loop evaluation of an autonomous vehicle.
翻訳日:2024-02-28 21:10:36 公開日:2024-02-26
# 公開プロパガンダ:人間のアノテーションと機械分類を比較したスタイリスティックな方法の分析

Exposing propaganda: an analysis of stylistic cues comparing human annotations and machine classification ( http://arxiv.org/abs/2402.03780v3 )

ライセンス: Link先を確認
G\'eraud Faye, Benjamin Icard, Morgane Casanova, Julien Chanson, Fran\c{c}ois Maine, Fran\c{c}ois Bancilhon, Guillaume Gadek, Guillaume Gravier, Paul \'Egr\'e(参考訳) 本稿では,プロパガンダの言語とその様式的特徴について検討する。 Pseudo-Newsは、専門家機関によってプロパガンダソースとして特定されたウェブサイトから抽出されたニュース記事からなるマルチソース、多言語、マルチモーダルデータセットである。 このセットの限られたサンプルは、通常のフランスの報道機関の論文とランダムに混同され、そのURLがマスクされ、11の異なるラベルを使って人による注釈実験が行われた。 その結果,ヒトのアノテータは各ラベル間で2種類のプレスを確実に識別することができた。 アノテーションが使用するキューを識別するための異なるNLP手法を提案し,それらを機械分類と比較する。 これには、談話の曖昧さと主観性を測定するためのアナライザVAGO、ベースラインとして機能するTF-IDF、および2つのRoBERTaベースのモデル、構文を用いたCATS、構文と意味的特徴を組み合わせた1つのXGBoostの4つの異なる分類器が含まれる。

This paper investigates the language of propaganda and its stylistic features. It presents the PPN dataset, standing for Propagandist Pseudo-News, a multisource, multilingual, multimodal dataset composed of news articles extracted from websites identified as propaganda sources by expert agencies. A limited sample from this set was randomly mixed with papers from the regular French press, and their URL masked, to conduct an annotation-experiment by humans, using 11 distinct labels. The results show that human annotators were able to reliably discriminate between the two types of press across each of the labels. We propose different NLP techniques to identify the cues used by the annotators, and to compare them with machine classification. They include the analyzer VAGO to measure discourse vagueness and subjectivity, a TF-IDF to serve as a baseline, and four different classifiers: two RoBERTa-based models, CATS using syntax, and one XGBoost combining syntactic and semantic features.
翻訳日:2024-02-28 21:08:39 公開日:2024-02-26
# mod-slam:unbounded 3d scene reconstructionのための単眼高密度マッピング

MoD-SLAM: Monocular Dense Mapping for Unbounded 3D Scene Reconstruction ( http://arxiv.org/abs/2402.03762v4 )

ライセンス: Link先を確認
Heng Zhou, Zhetao Guo, Shuhong Liu, Lechen Zhang, Qihao Wang, Yuxiang Ren, Mingrui Li(参考訳) ニューラルネットワークの暗黙的表現は、最近、同時局在化とマッピング(slam)を含む多くの分野で実証されている。 現在のニューラルSLAMは境界シーンの再構成において理想的な結果が得られるが、これはRGB-D画像の入力に依存する。 rgb画像のみに基づくニューラルベースslamでは,シーンのスケールを正確に再構築することはできず,追跡中に蓄積されたエラーによりスケールドリフトに支障をきたす。 このような制約を克服するために,世界的ポーズ最適化と3次元再構成を非有界シーンで実現可能な単眼的密集マッピング法 mod-slam を提案する。 単眼深度推定によるシーン再構築の最適化とループ閉鎖検出によるカメラポーズの更新により、大規模シーンの詳細な再現が可能となる。 これまでの作業と比べて、私たちのアプローチはより堅牢で、スケーラブルで、多用途です。 実験の結果,MoD-SLAMのマッピング性能は,特に大きな境界のないシーンにおいて,従来のSLAM法よりも優れていた。

Neural implicit representations have recently been demonstrated in many fields including Simultaneous Localization And Mapping (SLAM). Current neural SLAM can achieve ideal results in reconstructing bounded scenes, but this relies on the input of RGB-D images. Neural-based SLAM based only on RGB images is unable to reconstruct the scale of the scene accurately, and it also suffers from scale drift due to errors accumulated during tracking. To overcome these limitations, we present MoD-SLAM, a monocular dense mapping method that allows global pose optimization and 3D reconstruction in real-time in unbounded scenes. Optimizing scene reconstruction by monocular depth estimation and using loop closure detection to update camera pose enable detailed and precise reconstruction on large scenes. Compared to previous work, our approach is more robust, scalable and versatile. Our experiments demonstrate that MoD-SLAM has more excellent mapping performance than prior neural SLAM methods, especially in large borderless scenes.
翻訳日:2024-02-28 21:08:17 公開日:2024-02-26
# 頭部運動パターンによるサイバーシックネス検出:有望なアプローチ

Cybersickness Detection through Head Movement Patterns: A Promising Approach ( http://arxiv.org/abs/2402.02725v2 )

ライセンス: Link先を確認
Masoud Salehi, Nikoo Javadpour, Brietta Beisner, Mohammadamin Sanaei, Stephen B. Gilbert(参考訳) 仮想現実(VR)技術が広く採用されているにもかかわらず、サイバーシックネスは一部のユーザーにとって障壁となっている。 本研究は,サイバーシックネス検出のための新しい生理マーカーとして,頭部運動パターンを調査した。 従来のマーカーとは異なり、頭部の動きは、すべての商用VRヘッドセットに埋め込まれたセンサーを通して簡単に捉えられる連続した非侵襲的な手段を提供する。 私たちは、75人の参加者を含むvr実験の公開データセットを使用して、6軸にわたる頭の動きを分析しました。 その後,頭部運動データセットとその派生品である速度,加速度,ジャークに対して広範な特徴抽出処理を行った。 統計的特徴,時間的特徴,スペクトル特徴を含む3つの特徴カテゴリーが抽出された。 その後,再帰的特徴除去法を用いて,最も重要かつ効果的な特徴を選定した。 一連の実験で、さまざまな機械学習アルゴリズムをトレーニングしました。 その結果,頭部運動に基づくサイバーシックネスの予測において76%の精度と83%の精度が得られた。 この研究は、サイバーシックネス文学への貢献は、新しいデータソースの予備分析を提供し、頭の動きとサイバーシックネスの関係についての洞察を提供することである。

Despite the widespread adoption of Virtual Reality (VR) technology, cybersickness remains a barrier for some users. This research investigates head movement patterns as a novel physiological marker for cybersickness detection. Unlike traditional markers, head movements provide a continuous, non-invasive measure that can be easily captured through the sensors embedded in all commercial VR headsets. We used a publicly available dataset from a VR experiment involving 75 participants and analyzed head movements across six axes. An extensive feature extraction process was then performed on the head movement dataset and its derivatives, including velocity, acceleration, and jerk. Three categories of features were extracted, encompassing statistical, temporal, and spectral features. Subsequently, we employed the Recursive Feature Elimination method to select the most important and effective features. In a series of experiments, we trained a variety of machine learning algorithms. The results demonstrate a 76% accuracy and 83% precision in predicting cybersickness in the subjects based on the head movements. This study contribution to the cybersickness literature lies in offering a preliminary analysis of a new source of data and providing insight into the relationship of head movements and cybersickness.
翻訳日:2024-02-28 21:07:05 公開日:2024-02-26
# 極端に言うな - 暗黙のヘイトスピーチ検出におけるllmの過度の感度とキャリブレーション制限を明らかにする

Don't Go To Extremes: Revealing the Excessive Sensitivity and Calibration Limitations of LLMs in Implicit Hate Speech Detection ( http://arxiv.org/abs/2402.11406v2 )

ライセンス: Link先を確認
Min Zhang, Jianfeng He, Taoran Ji, Chang-Tien Lu(参考訳) 大規模言語モデル(LLM)の公平性と信頼性は注目されている。 憎しみの意図を伝えるために間接言語を用いる暗黙のヘイトスピーチは、実践のかなりの部分を占める。 しかし、LLMがこの問題に効果的に対処する程度については、まだ十分に検証されていない。 本稿では,LLMが暗黙のヘイトスピーチ(分類タスク)を検出し,その応答に対する自信を表現する能力について述べる。 本評価は,様々なプロンプトパターンと主観的不確実性推定手法を念頭において検討する。 1) LLMは, 公平性問題を引き起こす可能性のあるグループやトピックに対して過度な感受性を示し, ヘイトスピーチとして良心的発言を誤分類する。 (2)各手法に対するllmsの信頼度スコアは固定範囲に集中し、データセットの複雑さにかかわらず変わらない。 これにより、キャリブレーション性能は一次分類精度に大きく依存する。 これらの発見はLSMの新たな制限を明らかにし、極端に向かないようモデルを最適化する際の注意が必要であることを強調している。 これは、モデルフェアネスの追求における感度と信頼性を慎重に考慮するためのリマインダーとして機能する。

The fairness and trustworthiness of Large Language Models (LLMs) are receiving increasing attention. Implicit hate speech, which employs indirect language to convey hateful intentions, occupies a significant portion of practice. However, the extent to which LLMs effectively address this issue remains insufficiently examined. This paper delves into the capability of LLMs to detect implicit hate speech (Classification Task) and express confidence in their responses (Calibration Task). Our evaluation meticulously considers various prompt patterns and mainstream uncertainty estimation methods. Our findings highlight that LLMs exhibit two extremes: (1) LLMs display excessive sensitivity towards groups or topics that may cause fairness issues, resulting in misclassifying benign statements as hate speech. (2) LLMs' confidence scores for each method excessively concentrate on a fixed range, remaining unchanged regardless of the dataset's complexity. Consequently, the calibration performance is heavily reliant on primary classification accuracy. These discoveries unveil new limitations of LLMs, underscoring the need for caution when optimizing models to ensure they do not veer towards extremes. This serves as a reminder to carefully consider sensitivity and confidence in the pursuit of model fairness.
翻訳日:2024-02-28 21:00:39 公開日:2024-02-26
# ChatEarthNet:ビジョン言語ジオファウンデーションモデルを活用した世界規模の画像テキストデータセット

ChatEarthNet: A Global-Scale Image-Text Dataset Empowering Vision-Language Geo-Foundation Models ( http://arxiv.org/abs/2402.11325v2 )

ライセンス: Link先を確認
Zhenghang Yuan, Zhitong Xiong, Lichao Mou, and Xiao Xiang Zhu(参考訳) 地球観測において地球規模の土地被覆の深い理解が不可欠であり、様々な応用の基礎を形成している。 リモートセンシング技術は急速に進歩し、衛星画像の拡散につながるが、これらの画像の本質的な複雑さは、専門家でないユーザにとって理解しづらいことが多い。 自然言語は、人間の知識のキャリアとして、一般的なユーザーと複雑な衛星画像の間の橋渡しとなる。 本研究では,衛星画像の理解を容易にするために,センティネル2データの自然言語記述を提供するリモートセンシングのための,大規模で高品質な画像テキストデータセットを提案する。 具体的には,欧州宇宙機関(ESA)のWorldCoverプロジェクトのセマンティックセグメンテーションラベルを用いて,土地被覆に関する記述を充実させる。 詳細な意味分析を行うことで、ChatGPTから豊富な記述を引き出すための詳細なプロンプトを定式化する。 データセットの品質を高めるために,手動検証プロセスを導入する。 このステップでは、データセットを洗練するための手作業による検査と修正によって、精度と品質を大幅に向上します。 最後に,グローバルカバレッジ,高品質,多彩な多様性,詳細な説明を特徴とする大規模画像テキストデータセットである,コミュニティチャットアースネットを提案する。 chatearthnet は163,488個の画像テキスト対と chatgpt-3.5 が生成するキャプションと、chatgpt-4v (ision) が生成するキャプションと10,000個の画像テキスト対からなる。 このデータセットは、視覚言語ジオファウンデーションモデルをトレーニングし、リモートセンシングのための大きな視覚言語モデルを評価するための大きな可能性を秘めている。 データセットは一般公開される予定だ。

An in-depth comprehension of global land cover is essential in Earth observation, forming the foundation for a multitude of applications. Although remote sensing technology has advanced rapidly, leading to a proliferation of satellite imagery, the inherent complexity of these images often makes them difficult for non-expert users to understand. Natural language, as a carrier of human knowledge, can be a bridge between common users and complicated satellite imagery. In this context, we introduce a global-scale, high-quality image-text dataset for remote sensing, providing natural language descriptions for Sentinel-2 data to facilitate the understanding of satellite imagery for common users. Specifically, we utilize Sentinel-2 data for its global coverage as the foundational image source, employing semantic segmentation labels from the European Space Agency's (ESA) WorldCover project to enrich the descriptions of land covers. By conducting in-depth semantic analysis, we formulate detailed prompts to elicit rich descriptions from ChatGPT. To enhance the dataset's quality, we introduce the manual verification process. This step involves manual inspection and correction to refine the dataset, thus significantly improving its accuracy and quality. Finally, we offer the community ChatEarthNet, a large-scale image-text dataset characterized by global coverage, high quality, wide-ranging diversity, and detailed descriptions. ChatEarthNet consists of 163,488 image-text pairs with captions generated by ChatGPT-3.5 and an additional 10,000 image-text pairs with captions generated by ChatGPT-4V(ision). This dataset has significant potential for training vision-language geo-foundation models and evaluating large vision-language models for remote sensing. The dataset will be made publicly available.
翻訳日:2024-02-28 21:00:12 公開日:2024-02-26
# 3つの世界のベスト:デジタルマーケティング実践のための適応実験

Best of Three Worlds: Adaptive Experimentation for Digital Marketing in Practice ( http://arxiv.org/abs/2402.10870v3 )

ライセンス: Link先を確認
Tanner Fiez, Houssam Nassif, Yu-Cheng Chen, Sergio Gamez, Lalit Jain(参考訳) 適応的実験設計 (Adaptive experimental design, AED) 法は、従来のA/B/N試験法と比較して、試験のスループットを向上したり、実験コストを削減したりするためのツールとして、業界でますます使われている。 しかし,そのような手法の動作と保証は,理想的な定常設定以上のことは十分に理解されていない。 本稿では,非定常な産業環境でのAEDシステム導入の課題について,適切な目的やシステム仕様について考察した。 そこで我々は,これらの経験に基づく実例推論のためのAEDフレームワークを開発し,商業環境でテストした。

Adaptive experimental design (AED) methods are increasingly being used in industry as a tool to boost testing throughput or reduce experimentation cost relative to traditional A/B/N testing methods. However, the behavior and guarantees of such methods are not well-understood beyond idealized stationary settings. This paper shares lessons learned regarding the challenges of naively using AED systems in industrial settings where non-stationarity is prevalent, while also providing perspectives on the proper objectives and system specifications in such settings. We developed an AED framework for counterfactual inference based on these experiences, and tested it in a commercial environment.
翻訳日:2024-02-28 20:59:18 公開日:2024-02-26
# TimeSeriesBench: 時系列異常検出モデルのための産業グレードベンチマーク

TimeSeriesBench: An Industrial-Grade Benchmark for Time Series Anomaly Detection Models ( http://arxiv.org/abs/2402.10802v2 )

ライセンス: Link先を確認
Haotian Si, Changhua Pei, Hang Cui, Jingwen Yang, Yongqian Sun, Shenglin Zhang, Jingjing Li, Haiming Zhang, Jing Han, Dan Pei, Jianhui Li, Gaogang Xie(参考訳) 実世界の応用シナリオとスケールの増大により、時系列異常検出(TSAD)は学術的、産業的関心を集めている。 しかし,既存のアルゴリズムでは,実世界の産業システムの実際のニーズと比較して,トレーニングパラダイムやオンライン検出パラダイム,評価基準のギャップが生じる。 まず、現在のアルゴリズムは個々の時系列ごとに特定のモデルを訓練する。 数万の曲線を持つ大規模オンラインシステムでは、このような多数のモデルを維持することは現実的ではない。 単一統一モデルのみを用いて異常を検出する性能は未だ不明である。 第二に、ほとんどのTSADモデルは時系列の歴史的部分で訓練され、将来のセグメントでテストされる。 しかし、分散システムでは、システムデプロイメントやアップグレードが頻繁に行われ、新しい、以前は目に見えない新しい時系列が毎日現れています。 現在のTSADアルゴリズムで新たに入ってくる未確認時系列をテストする性能は未だ不明である。 最後に, 詳細な調査を行った論文もあるが, オンライン評価プラットフォームが存在しないことは, 「現在, 異常検出に最も適しているのか? 本稿では,業界レベルのベンチマークであるTimeSeriesBenchを提案する。 このリーダボード上で,168以上の評価設定において,異なるトレーニングパラダイムとテストパラダイム,評価メトリクス,データセットを組み合わせた既存のアルゴリズムのパフォーマンスを評価する。 結果の包括的分析を通じて, 異常検出アルゴリズムの今後の設計について提案する。 既存の公開データセットに関する既知の問題に対処するため、TimeSeriesBenchとともに産業データセットを公開しています。 すべてのコード、データ、オンラインのリーダーボードが公開されている。

Driven by the proliferation of real-world application scenarios and scales, time series anomaly detection (TSAD) has attracted considerable scholarly and industrial interest. However, existing algorithms exhibit a gap in terms of training paradigm, online detection paradigm, and evaluation criteria when compared to the actual needs of real-world industrial systems. Firstly, current algorithms typically train a specific model for each individual time series. In a large-scale online system with tens of thousands of curves, maintaining such a multitude of models is impractical. The performance of using merely one single unified model to detect anomalies remains unknown. Secondly, most TSAD models are trained on the historical part of a time series and are tested on its future segment. In distributed systems, however, there are frequent system deployments and upgrades, with new, previously unseen time series emerging daily. The performance of testing newly incoming unseen time series on current TSAD algorithms remains unknown. Lastly, although some papers have conducted detailed surveys, the absence of an online evaluation platform prevents answering questions like "Who is the best at anomaly detection at the current stage?" In this paper, we propose TimeSeriesBench, an industrial-grade benchmark that we continuously maintain as a leaderboard. On this leaderboard, we assess the performance of existing algorithms across more than 168 evaluation settings combining different training and testing paradigms, evaluation metrics and datasets. Through our comprehensive analysis of the results, we provide recommendations for the future design of anomaly detection algorithms. To address known issues with existing public datasets, we release an industrial dataset to the public together with TimeSeriesBench. All code, data, and the online leaderboard have been made publicly available.
翻訳日:2024-02-28 20:59:07 公開日:2024-02-26
# テクスチャレスステレオマッチングのための深さ認識ボリュームアテンション

Depth-aware Volume Attention for Texture-less Stereo Matching ( http://arxiv.org/abs/2402.08931v2 )

ライセンス: Link先を確認
Tong Zhao, Mingyu Ding, Wei Zhan, Masayoshi Tomizuka, Yintao Wei(参考訳) ステレオマッチングは3次元知覚とシナリオ理解において重要な役割を果たす。 有望な手法の普及にもかかわらず、テクスチャやテクスチャの反復的な条件への対処は、リッチな幾何学的、セマンティックな情報の入手が不十分なため、依然として困難である。 本稿では,実用的な屋外シナリオにおけるテクスチャ劣化に対処する軽量ボリューム改善手法を提案する。 具体的には,画像テクスチャの相対階層を捉えた,地中深度マップで教師ありした深度ボリュームを提案する。 その後、ディファリティ差分ボリュームは、奥行き認識階層の注意と目標認識のディファリティの注意モジュールを組み込んだ階層フィルタリングを行う。 局所的な微細構造と文脈は、ボリュームアグリゲーション中のあいまいさと冗長性を軽減するために強調される。 さらに,より厳密な評価基準を提案し,深度関係誤差を考慮し,普遍的ステレオマッチングと深度推定モデルに対する包括的評価を行う。 提案手法の公共データセット上での優位性を広く検証する。 以上の結果から,テクスチャレス画像のシナリオでは特に優れた技術性能が得られた。 コードはhttps://github.com/ztsrxh/dvanetで入手できる。

Stereo matching plays a crucial role in 3D perception and scenario understanding. Despite the proliferation of promising methods, addressing texture-less and texture-repetitive conditions remains challenging due to the insufficient availability of rich geometric and semantic information. In this paper, we propose a lightweight volume refinement scheme to tackle the texture deterioration in practical outdoor scenarios. Specifically, we introduce a depth volume supervised by the ground-truth depth map, capturing the relative hierarchy of image texture. Subsequently, the disparity discrepancy volume undergoes hierarchical filtering through the incorporation of depth-aware hierarchy attention and target-aware disparity attention modules. Local fine structure and context are emphasized to mitigate ambiguity and redundancy during volume aggregation. Furthermore, we propose a more rigorous evaluation metric that considers depth-wise relative error, providing comprehensive evaluations for universal stereo matching and depth estimation models. We extensively validate the superiority of our proposed methods on public datasets. Results demonstrate that our model achieves state-of-the-art performance, particularly excelling in scenarios with texture-less images. The code is available at https://github.com/ztsrxh/DVANet.
翻訳日:2024-02-28 20:57:30 公開日:2024-02-26
# LDTrack:拡散モデルを用いたサービスロボットによる動的人物追跡

LDTrack: Dynamic People Tracking by Service Robots using Diffusion Models ( http://arxiv.org/abs/2402.08774v2 )

ライセンス: Link先を確認
Angus Fung, Beno Benhabib, Goldie Nejat(参考訳) 乱雑で混み合った人間中心の環境でのダイナミックな人々の追跡は、オクルージョン、ポーズ変形、照明のバリエーションなどクラス内変異が存在するため、ロボット工学の課題である。 本稿では,条件付き潜時拡散モデルである潜時拡散トラック(ldtrack)を用いて,クラス内変動下で複数の動的人物を追跡する新しいディープラーニングアーキテクチャを提案する。 条件付き潜在拡散モデルを利用して時間的人物の埋め込みを捉えることで、我々のアーキテクチャは時間とともに人の外観変化に対応できる。 我々は,高次元の潜伏空間内での拡散処理を可能にする潜在特徴エンコーダネットワークを導入し,人物の外観,動き,位置,アイデンティティ,文脈情報などの豊富な特徴の抽出と時間的改善を可能にする。 集団実験により, クラス内変動下での混在する人中心環境において, LDTrackの他の最先端追跡法に対する効果が示された。 すなわち,本手法は,統計的に有意な追跡精度と追跡精度の両方において,既存の深層学習ロボットよりも優れることを示す。

Tracking of dynamic people in cluttered and crowded human-centered environments is a challenging robotics problem due to the presence of intraclass variations including occlusions, pose deformations, and lighting variations. This paper introduces a novel deep learning architecture, using conditional latent diffusion models, the Latent Diffusion Track (LDTrack), for tracking multiple dynamic people under intraclass variations. By uniquely utilizing conditional latent diffusion models to capture temporal person embeddings, our architecture can adapt to appearance changes of people over time. We incorporated a latent feature encoder network which enables the diffusion process to operate within a high-dimensional latent space to allow for the extraction and spatial-temporal refinement of such rich features as person appearance, motion, location, identity, and contextual information. Extensive experiments demonstrate the effectiveness of LDTrack over other state-of-the-art tracking methods in cluttered and crowded human-centered environments under intraclass variations. Namely, the results show our method outperforms existing deep learning robotic people tracking methods in both tracking accuracy and tracking precision with statistical significance.
翻訳日:2024-02-28 20:57:08 公開日:2024-02-26
# fessロス:医用画像解析の最適化のための空間分割損失

FESS Loss: Feature-Enhanced Spatial Segmentation Loss for Optimizing Medical Image Analysis ( http://arxiv.org/abs/2402.08582v2 )

ライセンス: Link先を確認
Charulkumar Chodvadiya, Navyansh Mahla, Kinshuk Gaurav Singh, Kshitij Sharad Jadhav(参考訳) 医用画像分割は医療画像の分野において重要なプロセスであり、診断、治療、研究において重要な役割を果たす。 画像は複数の領域に分割され、解剖学的または病理学的構造を表す。 従来の手法では、従来の損失関数に依存するため、空間的精度と包括的特徴表現のバランスをとることにしばしば挑戦する。 これを解決するために,Dice損失に固有の空間的精度と対比学習(特に医療画像のニュアンス領域において,複雑な特徴を抽出する)の利点を統合する特徴強化空間分割損失(FESS損失)を提案する。 医療画像のセグメント化における空間的精度と特徴に基づく表現の両立が目的である。 FESSロスは顕著な進歩を示し、より正確で洗練されたセグメンテーションプロセスを提供し、最終的に医療画像の分析における精度の向上に貢献している。 さらに、FESS損失は、医療領域にしばしば存在する限られた注釈付きデータ可用性シナリオにおいて、優れたパフォーマンスを示す。

Medical image segmentation is a critical process in the field of medical imaging, playing a pivotal role in diagnosis, treatment, and research. It involves partitioning of an image into multiple regions, representing distinct anatomical or pathological structures. Conventional methods often grapple with the challenge of balancing spatial precision and comprehensive feature representation due to their reliance on traditional loss functions. To overcome this, we propose Feature-Enhanced Spatial Segmentation Loss (FESS Loss), that integrates the benefits of contrastive learning (which extracts intricate features, particularly in the nuanced domain of medical imaging) with the spatial accuracy inherent in the Dice loss. The objective is to augment both spatial precision and feature-based representation in the segmentation of medical images. FESS Loss signifies a notable advancement, offering a more accurate and refined segmentation process, ultimately contributing to heightened precision in the analysis of medical images. Further, FESS loss demonstrates superior performance in limited annotated data availability scenarios often present in the medical domain.
翻訳日:2024-02-28 20:56:50 公開日:2024-02-26
# AttackGNN:強化学習を用いたハードウェアセキュリティにおけるGNNの再編成

AttackGNN: Red-Teaming GNNs in Hardware Security Using Reinforcement Learning ( http://arxiv.org/abs/2402.13946v2 )

ライセンス: Link先を確認
Vasudev Gohil, Satwik Patnaik, Dileep Kalathil, Jeyavijayan Rajendran(参考訳) 機械学習は、いくつかの重要なハードウェアセキュリティ問題に対処する上で大きな可能性を秘めている。 特に、研究者は、知的財産権(IP)の海賊行為、ハードウェアトロイの木馬(HT)の検出、リバースエンジニアリング回路などを検出する新しいグラフニューラルネットワーク(GNN)ベースの技術を開発した。 これらの技術は顕著な精度を示し、コミュニティで多くの注目を集めている。 しかし、これらの技術はセキュリティアプリケーションに使用されるため、それらを徹底的に評価し、堅牢で、集積回路のセキュリティを損なわないよう保証することが不可欠である。 本研究では,ハードウェアセキュリティにおけるGNNベースの技術に対する最初のレッドチーム攻撃であるAttackGNNを提案する。 そこで我々は,GNNに基づく手法に対して,回路の逆例を生成する新しい強化学習(RL)エージェントを考案した。 有効性,スケーラビリティ,汎用性の3つの課題を克服し,強力なRLエージェントを考案する。 我々は,IP海賊行為,HTの検出とローカライズ,リバースエンジニアリング,ハードウェア難読化という,ハードウェアセキュリティにおける4つの重要な問題に対して,GNNベースの5つのテクニックをターゲットにしている。 このアプローチを通じて、私たちはこの作業で考慮されたすべてのGNNを騙す回路を作ります。 例えば、IP海賊行為の検出を避けるために、GNNベースの防御を騙して、我々の製造した回路を海賊ではないと分類する敵海賊回路を生成する。 HTローカライゼーションGNNを攻撃するために、我々の攻撃はHTに感染した回路を生成し、テストされた全ての回路の防御を妨害する。 問題の全クラスについて、GNNに対して同様の100%の成功率を得る。

Machine learning has shown great promise in addressing several critical hardware security problems. In particular, researchers have developed novel graph neural network (GNN)-based techniques for detecting intellectual property (IP) piracy, detecting hardware Trojans (HTs), and reverse engineering circuits, to name a few. These techniques have demonstrated outstanding accuracy and have received much attention in the community. However, since these techniques are used for security applications, it is imperative to evaluate them thoroughly and ensure they are robust and do not compromise the security of integrated circuits. In this work, we propose AttackGNN, the first red-team attack on GNN-based techniques in hardware security. To this end, we devise a novel reinforcement learning (RL) agent that generates adversarial examples, i.e., circuits, against the GNN-based techniques. We overcome three challenges related to effectiveness, scalability, and generality to devise a potent RL agent. We target five GNN-based techniques for four crucial classes of problems in hardware security: IP piracy, detecting/localizing HTs, reverse engineering, and hardware obfuscation. Through our approach, we craft circuits that fool all GNNs considered in this work. For instance, to evade IP piracy detection, we generate adversarial pirated circuits that fool the GNN-based defense into classifying our crafted circuits as not pirated. For attacking HT localization GNN, our attack generates HT-infested circuits that fool the defense on all tested circuits. We obtain a similar 100% success rate against GNNs for all classes of problems.
翻訳日:2024-02-28 20:52:10 公開日:2024-02-26
# BenchCloudVision: リモートセンシング画像におけるクラウド検出とセグメンテーションのためのディープラーニングアプローチのベンチマーク分析

BenchCloudVision: A Benchmark Analysis of Deep Learning Approaches for Cloud Detection and Segmentation in Remote Sensing Imagery ( http://arxiv.org/abs/2402.13918v2 )

ライセンス: Link先を確認
Loddo Fabio, Dario Piga, Michelucci Umberto, El Ghazouali Safouane(参考訳) 光センサーを搭載した衛星は高解像度の画像を撮影し、様々な環境現象に関する貴重な洞察を提供する。 近年、多様な景観における水の検出から山や地形の区分まで、リモートセンシングにおけるいくつかの課題に焦点をあてる研究が急増している。 衛星画像解析の精度と効率を高めるための研究が進行中である。 特に, 環境モニタリング, 資源管理, 災害対応等において重要となる, 正確な水域検出, 雪と雲の検出手法の開発が注目されている。 本稿では,リモートセンシング画像からのクラウドセグメンテーションに焦点をあてる。 光センサーベースのアプリケーションに雲が存在するため、正確なリモートセンシングデータ分析は困難である。 アプリケーションや研究などの成果物の品質は、リモートセンシングデータ処理パイプラインにおいて重要な役割を果たすクラウド検出によって直接影響を受ける。 本稿では,クラウド識別に適用された7つの最先端意味セグメンテーションと検出アルゴリズムについて検討し,そのアーキテクチャ的アプローチを評価し,最もパフォーマンスの高いものを特定するためのベンチマーク分析を行った。 モデルの適応性を高めるために、トレーニング中に使用される画像の種類とスペクトル帯域の量を含む重要な要素を解析する。 さらに、本研究では、RGBとRGBN-IRの組み合わせを含む少数のスペクトルバンドのみを用いて、クラウドセグメンテーションを実行できる機械学習アルゴリズムの開発を試みる。 様々なアプリケーションやユーザシナリオに対するモデルの柔軟性は、sentinel-2とlandsat-8の画像からデータセットとして評価される。 このベンチマークは、このgithubリンクの材料を使って再現することができる。

Satellites equipped with optical sensors capture high-resolution imagery, providing valuable insights into various environmental phenomena. In recent years, there has been a surge of research focused on addressing some challenges in remote sensing, ranging from water detection in diverse landscapes to the segmentation of mountainous and terrains. Ongoing investigations goals to enhance the precision and efficiency of satellite imagery analysis. Especially, there is a growing emphasis on developing methodologies for accurate water body detection, snow and clouds, important for environmental monitoring, resource management, and disaster response. Within this context, this paper focus on the cloud segmentation from remote sensing imagery. Accurate remote sensing data analysis can be challenging due to the presence of clouds in optical sensor-based applications. The quality of resulting products such as applications and research is directly impacted by cloud detection, which plays a key role in the remote sensing data processing pipeline. This paper examines seven cutting-edge semantic segmentation and detection algorithms applied to clouds identification, conducting a benchmark analysis to evaluate their architectural approaches and identify the most performing ones. To increase the model's adaptability, critical elements including the type of imagery and the amount of spectral bands used during training are analyzed. Additionally, this research tries to produce machine learning algorithms that can perform cloud segmentation using only a few spectral bands, including RGB and RGBN-IR combinations. The model's flexibility for a variety of applications and user scenarios is assessed by using imagery from Sentinel-2 and Landsat-8 as datasets. This benchmark can be reproduced using the material from this github link: https://github.com/toelt-llc/cloud_segmentation_comparative.
翻訳日:2024-02-28 20:51:44 公開日:2024-02-26
# ミンコフスキー時空のコーシー曲面上の量子粒子局在観測器とその因果特性

Quantum particle localization observables on Cauchy surfaces of Minkowski spacetime and their causal properties ( http://arxiv.org/abs/2402.13894v2 )

ライセンス: Link先を確認
Carmine De Rosa, Valter Moretti (Trento U and INFN)(参考訳) ミンコフスキー時空における量子系の空間様滑らかなコーシー曲面上の空間局在の一般概念を紹介・研究する。 この概念は正規化された povm のコヒーレント族(英語版)(coherent family)という用語で構成される。 このタイプのPOVMの族が自動的にカスティーリャーノ曲面を一般化する因果条件を満たすことを証明し、平坦な空間のようなコーシー曲面に制限するときにそれを暗示する。 その結果、ヘーゲルフェルトの定理との矛盾は生じない。 さらに、これらのPOVMの族がクライン=ゴルドン粒子に対して存在することを証明している。 これらは正定核から構成されるか、あるいは応力エネルギーテンソル作用素の項で定義される。 これらの構造のさらなる特徴、特にニュートン・ウィグナー自己随伴作用素の三重項と他のミンコフスキー参照フレームの3$-空間におけるハイゼンベルク不等式の修正形式との関係について検討する。

We introduce and study a general notion of spatial localization on spacelike smooth Cauchy surfaces of quantum systems in Minkowski spacetime. The notion is constructed in terms of a coherent family of normalized POVMs, one for each said Cauchy surface. We prove that a family of POVMs of this type automatically satisfies a causality condition which generalizes Castrigiano's one and implies it when restricting to flat spacelike Cauchy surfaces. As a consequence no conflict with Hegerfeldt's theorem arises. We furthermore prove that such families of POVMs do exist for massive Klein-Gordon particles, since some of them are extensions of already known spatial localization observables. These are constructed out of positive definite kernels or are defined in terms of the stress-energy tensor operator. Some further features of these structures are investigated, in particular, the relation with the triple of Newton-Wigner selfadjoint operators and a modified form of Heisenberg inequality in the rest $3$-spaces of Minkowski reference frames
翻訳日:2024-02-28 20:51:16 公開日:2024-02-26
# 非互換機器の定量化への熱力学的アプローチ

A thermodynamic approach to quantifying incompatible instruments ( http://arxiv.org/abs/2402.13080v2 )

ライセンス: Link先を確認
Chung-Yun Hsieh, Shin-Liang Chen(参考訳) 熱力学的制約を受ける資源理論を通じて計器非互換性を定量化するための熱力学的枠組みを考える。 この資源理論では、不整合性のシグネチャを消すのに必要な最小熱化時間を用いて、楽器がどの程度不整合であるかを測定する。 本手法は作業抽出作業において明確な操作意味があることを示し,非互換機器の熱力学的利点を明らかにする。 我々は,非互換署名が一般進化下で存続する時間を延ばすことの可能性と不可能性をさらに分析する。 最後に, 測定不適合性およびステアリング蒸留に対する実験結果の物理的意義について考察する。

We consider a thermodynamic framework to quantify instrument incompatibility through a resource theory subject to thermodynamic constraints. In this resource theory, we use the minimal thermalisation time needed to erase incompatibility's signature to measure how incompatible an instrument is. We show that this measure has a clear operational meaning in some work extraction tasks, thereby uncovering the thermodynamic advantages of incompatible instruments. We further analyse the possibility and impossibility of extending the time for incompatible signature to survive under general evolution. Finally, we discuss the physical implications of our findings to measurement incompatibility and steering distillation.
翻訳日:2024-02-28 20:49:25 公開日:2024-02-26
# AnyGPT:離散シーケンスモデリングによる統一型マルチモーダルLCM

AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling ( http://arxiv.org/abs/2402.12226v2 )

ライセンス: Link先を確認
Jun Zhan, Junqi Dai, Jiasheng Ye, Yunhua Zhou, Dong Zhang, Zhigeng Liu, Xin Zhang, Ruibin Yuan, Ge Zhang, Linyang Li, Hang Yan, Jie Fu, Tao Gui, Tianxiang Sun, Yugang Jiang, Xipeng Qiu(参考訳) 我々は、音声、テキスト、画像、音楽を含む様々なモーダルの統一処理に離散表現を利用する、任意のマルチモーダル言語モデルであるAnyGPTを紹介する。 任意のGPTは、現在の大規模言語モデル(LLM)アーキテクチャやトレーニングパラダイムを変更することなく、安定してトレーニングすることができる。 代わりに、それはデータレベルのプリプロセッシングにのみ依存し、新しい言語の導入に似たllmへの新しいモダリティのシームレスな統合を促進する。 我々はマルチモーダルアライメント事前学習のためのマルチモーダルテキスト中心データセットを構築する。 生成モデルを用いて、我々は最初の大規模任意のマルチモーダル命令データセットを合成する。 様々なモダリティを複雑に織り交ぜるマルチターン会話の108kのサンプルで構成されており、マルチモーダル入力と出力の任意の組み合わせを扱うためのモデルを備えている。 実験結果から,AnyGPTは任意のマルチモーダル対話を促進できると同時に,すべてのモダリティにまたがる特殊モデルに匹敵する性能を実現し,言語モデル内の複数のモダリティを効果的かつ便利に統一できることが証明された。 デモはhttps://junzhan2000.github.io/AnyGPT.github.io/で見ることができる。

We introduce AnyGPT, an any-to-any multimodal language model that utilizes discrete representations for the unified processing of various modalities, including speech, text, images, and music. AnyGPT can be trained stably without any alterations to the current large language model (LLM) architecture or training paradigms. Instead, it relies exclusively on data-level preprocessing, facilitating the seamless integration of new modalities into LLMs, akin to the incorporation of new languages. We build a multimodal text-centric dataset for multimodal alignment pre-training. Utilizing generative models, we synthesize the first large-scale any-to-any multimodal instruction dataset. It consists of 108k samples of multi-turn conversations that intricately interweave various modalities, thus equipping the model to handle arbitrary combinations of multimodal inputs and outputs. Experimental results demonstrate that AnyGPT is capable of facilitating any-to-any multimodal conversation while achieving performance comparable to specialized models across all modalities, proving that discrete representations can effectively and conveniently unify multiple modalities within a language model. Demos are shown in https://junzhan2000.github.io/AnyGPT.github.io/
翻訳日:2024-02-28 20:48:29 公開日:2024-02-26
# ジャンルと話題特性に基づく選択的マスキングによる専門分野への言語モデル適応

Language Model Adaptation to Specialized Domains through Selective Masking based on Genre and Topical Characteristics ( http://arxiv.org/abs/2402.12036v2 )

ライセンス: Link先を確認
Anas Belfathi, Ygor Gallina, Nicolas Hernandez, Richard Dufour, Laura Monceaux(参考訳) 事前学習された言語モデリングの最近の進歩は、様々な自然言語処理(NLP)タスクにおいて大きな進歩をもたらした。 モデルトレーニング中のワードマスキングは、BERTのようなアーキテクチャにおける言語モデリングの重要な要素である。 しかし、単語マスキングの一般的な方法はランダムな選択に依存し、ドメイン固有の言語属性を無視する可能性がある。 本稿では、ジャンルや話題情報を活用した革新的なマスキング手法を導入し、言語モデルを専門ドメインにカスタマイズする。 本手法では,その重要度に基づいて単語を優先順位付けし,マスキング手順の指導を行う。 法域内での継続事前学習を用いて行った実験は、英語のLegalGLUEベンチマークにおけるアプローチの有効性を裏付けている。 事前訓練された言語モデルとコードは無料で利用できる。

Recent advances in pre-trained language modeling have facilitated significant progress across various natural language processing (NLP) tasks. Word masking during model training constitutes a pivotal component of language modeling in architectures like BERT. However, the prevalent method of word masking relies on random selection, potentially disregarding domain-specific linguistic attributes. In this article, we introduce an innovative masking approach leveraging genre and topicality information to tailor language models to specialized domains. Our method incorporates a ranking process that prioritizes words based on their significance, subsequently guiding the masking procedure. Experiments conducted using continual pre-training within the legal domain have underscored the efficacy of our approach on the LegalGLUE benchmark in the English language. Pre-trained language models and code are freely available for use.
翻訳日:2024-02-28 20:47:55 公開日:2024-02-26
# スロベニア語における意味変化検出--新しいデータセットと最適トランスポートに基づくアプローチ

Semantic change detection for Slovene language: a novel dataset and an approach based on optimal transport ( http://arxiv.org/abs/2402.16596v1 )

ライセンス: Link先を確認
Marko Pranji\'c (1 and 2), Kaja Dobrovoljc (1), Senja Pollak (1), Matej Martinc (1) ((1) Jo\v{z}ef Stefan Institute, Ljubljana, Slovenia, (2) Jo\v{z}ef Stefan International Postgraduate School, Ljubljana, Slovenia)(参考訳) 本稿では,200万人の話者を持つ低資源のスラヴ語であるSloveneにおける意味変化の検出に焦点を当てた。 意味的変化の検出と追跡は、社会と文化の変化によって引き起こされる言語の進化に関する洞察を提供する。 近年,この研究を支援するシステムをいくつか提案されているが,すべて手作業による金標準データセットによる評価である。 本稿では,3000以上の注釈付き文対から得られた104語の意味変化スコアを集約した意味変化検出システムを評価するための最初のスロベニアデータセットを提案する。 このデータセット上で既存の意味変化検出手法を評価し,22.8%の誤差低減率で既存の最先端システムを改善する最適輸送に基づく新しい手法を提案する。

In this paper, we focus on the detection of semantic changes in Slovene, a less resourced Slavic language with two million speakers. Detecting and tracking semantic changes provides insights into the evolution of the language caused by changes in society and culture. Recently, several systems have been proposed to aid in this study, but all depend on manually annotated gold standard datasets for evaluation. In this paper, we present the first Slovene dataset for evaluating semantic change detection systems, which contains aggregated semantic change scores for 104 target words obtained from more than 3000 manually annotated sentence pairs. We evaluate several existing semantic change detection methods on this dataset and also propose a novel approach based on optimal transport that improves on the existing state-of-the-art systems with an error reduction rate of 22.8%.
翻訳日:2024-02-28 20:41:29 公開日:2024-02-26
# CURSOR: CUR分解によるスケーラブル混合次ハイパーグラフマッチング

CURSOR: Scalable Mixed-Order Hypergraph Matching with CUR Decomposition ( http://arxiv.org/abs/2402.16594v1 )

ライセンス: Link先を確認
Qixuan Zheng, Ming Zhang, Hong Yan(参考訳) 精度を高めるために、ハイパーグラフマッチングアルゴリズムは計算資源の指数的な増加を必要とする。 最近のkd-tree-based approximation closest neighbor (ann) 法は、互換性テンソルのスパース性にもかかわらず、大規模グラフマッチングのための徹底的な計算を必要とする。 本研究は, CURテンソル分解を利用して, 高速なハイパーグラフマッチングのための第2および第3次ハイパーグラフマッチングフレームワーク(CURSOR)を導入する。 CURベースの2次グラフマッチングアルゴリズムを用いて粗マッチングを行い、その後、ファイバーCURベースのテンソル生成法であるCURSORのコアが、最初の2次マッチング結果を利用して互換性テンソルのエントリを直接計算する。 これは時間複雑性とテンソル密度を著しく減少させる。 スパーステンソルに適した確率緩和ラベリング(prl)に基づくマッチングアルゴリズムを開発した。 大規模合成データセットと広く評価されたベンチマークセットの実験結果は、既存の手法よりもCURSORの方が優れていることを示す。 CURSORのテンソル生成法は,既存のハイパーグラフマッチング法とシームレスに統合することにより,性能の向上と計算コストの低減を実現している。

To achieve greater accuracy, hypergraph matching algorithms require exponential increases in computational resources. Recent kd-tree-based approximate nearest neighbor (ANN) methods, despite the sparsity of their compatibility tensor, still require exhaustive calculations for large-scale graph matching. This work utilizes CUR tensor decomposition and introduces a novel cascaded second and third-order hypergraph matching framework (CURSOR) for efficient hypergraph matching. A CUR-based second-order graph matching algorithm is used to provide a rough match, and then the core of CURSOR, a fiber-CUR-based tensor generation method, directly calculates entries of the compatibility tensor by leveraging the initial second-order match result. This significantly decreases the time complexity and tensor density. A probability relaxation labeling (PRL)-based matching algorithm, specifically suitable for sparse tensors, is developed. Experiment results on large-scale synthetic datasets and widely-adopted benchmark sets demonstrate the superiority of CURSOR over existing methods. The tensor generation method in CURSOR can be integrated seamlessly into existing hypergraph matching methods to improve their performance and lower their computational costs.
翻訳日:2024-02-28 20:41:15 公開日:2024-02-26
# 補間平滑化による顔認識における逆攻撃のjpeg耐性向上

Improving the JPEG-resistance of Adversarial Attacks on Face Recognition by Interpolation Smoothing ( http://arxiv.org/abs/2402.16586v1 )

ライセンス: Link先を確認
Kefu Guo, Fengfan Zhou, Hefei Ling, Ping Li and Hui Liu(参考訳) JPEG圧縮は、従来の顔認識(FR)に対する敵攻撃が適切に対処されていない対向顔例の性能を著しく損なう可能性がある。 この課題を考慮し、JPEG圧縮に対する敵例の抵抗を改善することを目的としたFRに対する新たな敵攻撃を提案する。 具体的には, 対向顔例を生成する反復過程において, 対向顔例を小さいサイズに補間する。 次に、これらの補間された対向顔例を用いて、次のイテレーションで対向顔例を作成する。 その後、補間により対向顔の例を元の大きさに復元する。 提案手法は, jpeg圧縮により通常排除される敵顔例における高周波信号の存在を効果的に軽減し, 逆摂動を円滑に行うことができる。 提案手法の有効性を実験的に検証し, 逆顔例のJPEG抵抗性向上に有効であることを示した。

JPEG compression can significantly impair the performance of adversarial face examples, which previous adversarial attacks on face recognition (FR) have not adequately addressed. Considering this challenge, we propose a novel adversarial attack on FR that aims to improve the resistance of adversarial examples against JPEG compression. Specifically, during the iterative process of generating adversarial face examples, we interpolate the adversarial face examples into a smaller size. Then we utilize these interpolated adversarial face examples to create the adversarial examples in the next iteration. Subsequently, we restore the adversarial face examples to their original size by interpolating. Throughout the entire process, our proposed method can smooth the adversarial perturbations, effectively mitigating the presence of high-frequency signals in the crafted adversarial face examples that are typically eliminated by JPEG compression. Our experimental results demonstrate the effectiveness of our proposed method in improving the JPEG-resistance of adversarial face examples.
翻訳日:2024-02-28 20:40:56 公開日:2024-02-26
# 大規模言語モデルのためのマルチビット歪みなし透かし

Multi-Bit Distortion-Free Watermarking for Large Language Models ( http://arxiv.org/abs/2402.16578v1 )

ライセンス: Link先を確認
Massieh Kordi Boroujeny, Ya Jiang, Kai Zeng, Brian Mark(参考訳) モデル出力分布をわずかに変えてai生成テキストと人間の生成テキストを区別する大規模な言語モデルのウォーターマーク法が提案されているが、テキストの品質を歪め、ウォーターマークを逆検出にさらしている。 最近では、透かしを検出する秘密鍵を必要とする歪みのない透かし法が提案されている。 以前の方法は一般的に、テキストをAI生成としてタグ付けする以上の情報を提供しないゼロビットの透かしを埋め込む。 透かしの一部としてメタ情報の複数ビットを埋め込むことにより,既存のゼロビット歪みのない透かし法を拡張した。 また,少ないビット誤り率で透かしから埋め込み情報を抽出する計算効率の良い復号器を開発した。

Methods for watermarking large language models have been proposed that distinguish AI-generated text from human-generated text by slightly altering the model output distribution, but they also distort the quality of the text, exposing the watermark to adversarial detection. More recently, distortion-free watermarking methods were proposed that require a secret key to detect the watermark. The prior methods generally embed zero-bit watermarks that do not provide additional information beyond tagging a text as being AI-generated. We extend an existing zero-bit distortion-free watermarking method by embedding multiple bits of meta-information as part of the watermark. We also develop a computationally efficient decoder that extracts the embedded information from the watermark with low bit error rate.
翻訳日:2024-02-28 20:40:41 公開日:2024-02-26
# スピン相関ハイパーオン-反ハイペロン崩壊における一般化量子測定

Generalized quantum measurement in spin-correlated hyperon-antihyperon decays ( http://arxiv.org/abs/2402.16574v1 )

ライセンス: Link先を確認
Sihao Wu, Chen Qian, Yang-Guang Yang and Qun Wang(参考訳) 量子情報科学(qis)の急速な発展は、基礎物理学を探求するための新しい道を開いた。 量子非局所性(Quantum nonlocality)は、古典的な情報と量子情報を区別するための重要な側面であり、ベル型不等式に違反して粒子の崩壊を広範囲に調べている。 これらの進歩にもかかわらず、粒子相互作用のための量子情報理論に基づく包括的なフレームワークはまだ不足している。 このギャップを埋めるために、スピン1/2ハイパーンの崩壊過程に対する一般化量子計測記述を導入する。 このアプローチを確立された理論計算と整合させて検証し、相関関係を持つ$\lambda\bar{\lambda}$対の合同崩壊に適用する。 我々は超音速崩壊におけるCHSH不等式違反の観測に量子シミュレーションを用いる。 北京電子ポジトロン衝突型加速器(BEPC)における北京分光器III(BESIII)実験において、我々の一般化された測定記述は適応可能であり、ベクトル中間子の崩壊、$J/\psi,\psi(2S)\rightarrow\Lambda\bar{\Lambda}$を含む様々な高エネルギープロセスに拡張することができる。 本研究で開発された手法は,基本相互作用における量子相関と情報処理に適用できる。

The rapid developments of Quantum Information Science (QIS) have opened up new avenues for exploring fundamental physics. Quantum nonlocality, a key aspect for distinguishing quantum information from classical one, has undergone extensive examinations in particles' decays through the violation of Bell-type inequalities. Despite these advancements, a comprehensive framework based on quantum information theory for particle interaction is still lacking. Trying to close this gap, we introduce a generalized quantum measurement description for decay processes of spin-1/2 hyperons. We validate this approach by aligning it with established theoretical calculations and apply it to the joint decay of correlated $\Lambda\bar{\Lambda}$ pairs. We employ quantum simulation to observe the violation of CHSH inequalities in hyperon decays. Our generalized measurement description is adaptable and can be extended to a variety of high energy processes, including decays of vector mesons, $J/\psi,\psi(2S)\rightarrow\Lambda\bar{\Lambda}$, in the Beijing Spectrometer III (BESIII) experiment at the Beijing Electron Positron Collider (BEPC). The methodology developed in this study can be applied to quantum correlation and information processing in fundamental interactions.
翻訳日:2024-02-28 20:40:27 公開日:2024-02-26
# 熱赤外歩行者追跡のための軽量ネットワークアーキテクチャの探索

Searching a Lightweight Network Architecture for Thermal Infrared Pedestrian Tracking ( http://arxiv.org/abs/2402.16570v1 )

ライセンス: Link先を確認
Peng Gao, Xiao Liu, Yu Wang, Ru-Yue Yuan(参考訳) 熱赤外歩行者追跡(TIR-PT)のための手動設計のネットワークアーキテクチャは、人間の専門家による多大な努力を必要とする。 ResNetバックボーンを持つニューラルネットワークは、TIR-PTで人気がある。 しかし、TIR-PTは追跡タスクであり、分類や検出よりも難しい。 本稿では,TIR-PTの最適ネットワークアーキテクチャを早期に探索し,単ボットセルと二ボットセルを基本探索単位とし,検索空間内に8つの動作候補を組み込む。 探索処理を迅速化するために、操作候補の評価に先立ってランダムチャネル選択戦略を用いる。 分類、バッチハードトリプルト、センターロスは、検索されたアーキテクチャを再訓練するために共同で使用される。 その結果、パラメータと計算効率の両方で高性能なネットワークアーキテクチャが実現した。 広範な実験により、自動化手法の有効性が証明された。

Manually-designed network architectures for thermal infrared pedestrian tracking (TIR-PT) require substantial effort from human experts. Neural networks with ResNet backbones are popular for TIR-PT. However, TIR-PT is a tracking task and more challenging than classification and detection. This paper makes an early attempt to search an optimal network architecture for TIR-PT automatically, employing single-bottom and dual-bottom cells as basic search units and incorporating eight operation candidates within the search space. To expedite the search process, a random channel selection strategy is employed prior to assessing operation candidates. Classification, batch hard triplet, and center loss are jointly used to retrain the searched architecture. The outcome is a high-performance network architecture that is both parameter- and computation-efficient. Extensive experiments proved the effectiveness of the automated method.
翻訳日:2024-02-28 20:40:02 公開日:2024-02-26
# 大規模言語モデルを用いた時間的知識グラフの2段階生成質問応答

Two-stage Generative Question Answering on Temporal Knowledge Graph Using Large Language Models ( http://arxiv.org/abs/2402.16568v1 )

ライセンス: Link先を確認
Yifu Gao, Linbo Qiao, Zhigang Kan, Zhihua Wen, Yongquan He, Dongsheng Li(参考訳) 時間的知識グラフ質問応答(TKGQA)は、質問に隠された時間的制約と、動的構造化された知識から求められた回答のために重要な課題となる。 大規模言語モデル (LLM) は構造化データに対する推論能力に大きな進歩を遂げているが、TKGQAタスクへの応用は未探索領域である。 本稿ではまず,LLM に時間的質問への回答を誘導する新たな時間的知識グラフ質問応答フレームワークであるGenTKGQAを提案する。 まず,LLMの本質的な知識を利用して,時間的制約や構造的リンクを余分な訓練なしに抽出し,時間的および構造的次元のサブグラフ探索空間を狭める。 次に、仮想知識インジケータを設計し、サブグラフのグラフニューラルネットワーク信号とllmのテキスト表現を非シュローな方法で融合させ、オープンソースのllmが検索された事実間の時間的順序と構造的依存関係を命令チューニングによって深く理解できるようにする。 実験の結果,本モデルが最先端のベースラインを上回っており,単純な質問型で測定値の100\%を達成していることが分かった。

Temporal knowledge graph question answering (TKGQA) poses a significant challenge task, due to the temporal constraints hidden in questions and the answers sought from dynamic structured knowledge. Although large language models (LLMs) have made considerable progress in their reasoning ability over structured data, their application to the TKGQA task is a relatively unexplored area. This paper first proposes a novel generative temporal knowledge graph question answering framework, GenTKGQA, which guides LLMs to answer temporal questions through two phases: Subgraph Retrieval and Answer Generation. First, we exploit LLM's intrinsic knowledge to mine temporal constraints and structural links in the questions without extra training, thus narrowing down the subgraph search space in both temporal and structural dimensions. Next, we design virtual knowledge indicators to fuse the graph neural network signals of the subgraph and the text representations of the LLM in a non-shallow way, which helps the open-source LLM deeply understand the temporal order and structural dependencies among the retrieved facts through instruction tuning. Experimental results demonstrate that our model outperforms state-of-the-art baselines, even achieving 100\% on the metrics for the simple question type.
翻訳日:2024-02-28 20:39:33 公開日:2024-02-26
# 大規模言語モデルのドメイン固有グラフデータベースへのアライメント

Aligning Large Language Models to a Domain-specific Graph Database ( http://arxiv.org/abs/2402.16567v1 )

ライセンス: Link先を確認
Yuanyuan Liang, Keren Tan, Tingyu Xie, Wenbiao Tao, Siyuan Wang, Yunshi Lan, Weining Qian(参考訳) グラフデータベース(Graph DB)は金融、ソーシャルネットワーク、医療など様々な分野で広く利用されている。 しかしながら、自然言語(NL)をグラフクエリ言語(GQL)に変換することは、NL2GQLとして知られているが、その固有の複雑さと特殊性のため、難しいことが証明されている。 大規模言語モデル(LLM)を使ってtext2SQLのような類似タスクに対処するアプローチもある。 それでも、特定のドメインでのNL2GQLタスクに関しては、ドメイン固有のNL-GQLデータペアが存在しないため、LLMとグラフDBの整合性を確立するのは難しい。 この課題に対処するために,我々は明確に定義されたパイプラインを提案する。 具体的には、ChatGPTを使用して、自己命令付きグラフDBに基づいて、NL-GQLデータペアを作成する。 次に、作成したデータを用いてLLMを微調整し、LLMとグラフDBの整合性を実現する。 さらに, 推定中に, クエリされたnlのスキーマを入力コンテキストとして抽出し, llmをガイドして正確なgqlを生成する手法を提案し, 金融領域のグラフdbと医学領域のグラフdb, fingqlとmedigqlから導出した2つのデータセットについて評価を行った。 実験の結果,EMでは5.90点,EMでは6.36点,EXでは6.00点,EXでは7.09点,それぞれ改良された。

Graph Databases (Graph DB) are widely applied in various fields, including finance, social networks, and medicine. However, translating Natural Language (NL) into the Graph Query Language (GQL), commonly known as NL2GQL, proves to be challenging due to its inherent complexity and specialized nature. Some approaches have sought to utilize Large Language Models (LLMs) to address analogous tasks like text2SQL. Nevertheless, when it comes to NL2GQL taskson a particular domain, the absence of domain-specific NL-GQL data pairs makes it difficult to establish alignment between LLMs and the graph DB. To address this challenge, we propose a well-defined pipeline. Specifically, we utilize ChatGPT to create NL-GQL data pairs based on the given graph DB with self-instruct. Then, we use the created data to fine-tune LLMs, thereby achieving alignment between LLMs and the graph DB. Additionally, during inference, we propose a method that extracts relevant schema to the queried NL as the input context to guide LLMs for generating accurate GQLs.We evaluate our method on two constructed datasets deriving from graph DBs in finance domain and medicine domain, namely FinGQL and MediGQL. Experimental results demonstrate that our method significantly outperforms a set of baseline methods, with improvements of 5.90 and 6.36 absolute points on EM, and 6.00 and 7.09 absolute points on EX, respectively.
翻訳日:2024-02-28 20:39:08 公開日:2024-02-26
# オプティマイザの部分的ランキング

Partial Rankings of Optimizers ( http://arxiv.org/abs/2402.16565v1 )

ライセンス: Link先を確認
Julian Rodemann and Hannah Blocher(参考訳) 様々なテスト関数に対して,複数の基準に従ってオプティマイザをベンチマークするフレームワークを提案する。 最近導入された部分順序/ランク付けのためのユニオンフリーの汎用深度関数に基づいて、順序情報を完全に活用し、非互換性を実現する。 本手法は,集合の悪名高い欠点を避けるため,すべての部分順序/ランクの分布を記述する。 これにより、オプティマイザの中央あるいは外部のランキングを生成するテスト関数を特定し、ベンチマークスイートの品質を評価することができる。

We introduce a framework for benchmarking optimizers according to multiple criteria over various test functions. Based on a recently introduced union-free generic depth function for partial orders/rankings, it fully exploits the ordinal information and allows for incomparability. Our method describes the distribution of all partial orders/rankings, avoiding the notorious shortcomings of aggregation. This permits to identify test functions that produce central or outlying rankings of optimizers and to assess the quality of benchmarking suites.
翻訳日:2024-02-28 20:38:40 公開日:2024-02-26
# 機械学習注意モデルを用いた時間バイアス補正

A Temporal Bias Correction using a Machine Learning Attention model ( http://arxiv.org/abs/2402.14169v2 )

ライセンス: Link先を確認
Omer Nivron, Damon J. Wischik, Mathieu Vrac(参考訳) 気候モデルは現実世界の観測に偏りがあり、通常、影響研究の前に校正する必要がある。 このような校正を可能にする統計手法の組をバイアス補正(bc)と呼ぶ。 しかし、現在のbc法は、連続する時間軸間の依存性を無視するため、時間バイアスの調整に苦労している。 結果として、熱波の持続時間や周波数などの長期的特性を持つ気候統計を正確に修正することはできず、そのような気候統計に関する信頼性の高い影響研究を作成するのが困難になる。 本稿では,時間的バイアスを補正する新しいBC手法を提案する。 これは可能である。 一 アルゴリズム的手続きではなく確率モデルとしてbcを再考すること、及び 二 最先端機械学習(ML)の確率的注意モデルを適用すること。 アブハ、ナイジェリア、東京における熱波持続時間統計のケーススタディにより、現在の気候モデルと代替のBC法と比較して顕著な結果が得られた。

Climate models are biased with respect to real world observations and usually need to be calibrated prior to impact studies. The suite of statistical methods that enable such calibrations is called bias correction (BC). However, current BC methods struggle to adjust for temporal biases, because they disregard the dependence between consecutive time-points. As a result, climate statistics with long-range temporal properties, such as heatwave duration and frequency, cannot be corrected accurately, making it more difficult to produce reliable impact studies on such climate statistics. In this paper, we offer a novel BC methodology to correct for temporal biases. This is made possible by i) re-thinking BC as a probability model rather than an algorithmic procedure, and ii) adapting state-of-the-art machine-learning (ML) probabilistic attention models to fit the BC task. With a case study of heatwave duration statistics in Abuja, Nigeria, and Tokyo, Japan, we show striking results compared to current climate model outputs and alternative BC methods.
翻訳日:2024-02-28 20:36:58 公開日:2024-02-26
# genainet: 知識伝達と推論によるワイヤレス集団インテリジェンスの実現

GenAINet: Enabling Wireless Collective Intelligence via Knowledge Transfer and Reasoning ( http://arxiv.org/abs/2402.16631v1 )

ライセンス: Link先を確認
Hang Zou, Qiyang Zhao, Lina Bariah, Yu Tian, Mehdi Bennis, Samson Lasaulce, Merouane Debbah, Faouzi Bader(参考訳) 生成的人工知能(GenAI)と通信ネットワークは、6Gで画期的なシナジーを持つことが期待されている。 無線ネットワークを介してGenAIエージェントを接続することは、集団知能の力を解き放ち、人工知能(AGI)の道を開く可能性がある。 しかし、現在の無線ネットワークは「データパイプ」として設計されており、GenAIのパワーに対応・活用するには適していない。 本稿では,分散GenAIエージェントが知識(高レベル概念や抽象概念)を伝達して任意のタスクを遂行するGenAINetフレームワークを提案する。 我々はまず、ネットワークプロトコルとアプリケーションの両方を管理するGenAI機能を統合したネットワークアーキテクチャを提供する。 そこで本研究では,セマンティクスネイティブなジェナイネットを提案することにより,効果的なコミュニケーションと推論の問題を検討する。 具体的には、GenAIエージェントは、マルチモーダルな生データからセマンティックな概念を抽出し、それらのセマンティックな関係を表す知識ベースを構築する。 このパラダイムの下では、エージェントは効率的なコミュニケーションでより良い決定を下すために、他のエージェントの経験から素早く学習することができる。 さらに,無線機器問合せにおいて,知識の抽出と伝達がコミュニケーションの削減によってクエリの正確性を向上させることを示す2つのケーススタディを実施し,分散エージェントが協調推論によって意思決定を改善できることを示す。 最後に、階層的セマンティックレベル通信世界モデルの開発は、集団的知性ネットワークへの鍵となる道であると論じる。

Generative artificial intelligence (GenAI) and communication networks are expected to have groundbreaking synergies in 6G. Connecting GenAI agents over a wireless network can potentially unleash the power of collective intelligence and pave the way for artificial general intelligence (AGI). However, current wireless networks are designed as a "data pipe" and are not suited to accommodate and leverage the power of GenAI. In this paper, we propose the GenAINet framework in which distributed GenAI agents communicate knowledge (high-level concepts or abstracts) to accomplish arbitrary tasks. We first provide a network architecture integrating GenAI capabilities to manage both network protocols and applications. Building on this, we investigate effective communication and reasoning problems by proposing a semantic-native GenAINet. Specifically, GenAI agents extract semantic concepts from multi-modal raw data, build a knowledgebase representing their semantic relations, which is retrieved by GenAI models for planning and reasoning. Under this paradigm, an agent can learn fast from other agents' experience for making better decisions with efficient communications. Furthermore, we conduct two case studies where in wireless device query, we show that extracting and transferring knowledge can improve query accuracy with reduced communication; and in wireless power control, we show that distributed agents can improve decisions via collaborative reasoning. Finally, we address that developing a hierarchical semantic level Telecom world model is a key path towards network of collective intelligence.
翻訳日:2024-02-28 20:33:14 公開日:2024-02-26
# 半導体moir\'e材料の非線形分光

Nonlinear spectroscopy of semiconductor moir\'e materials ( http://arxiv.org/abs/2402.16630v1 )

ライセンス: Link先を確認
B. Evrard, A. Ghita, T. Uto, L. Ciorciaro, K. Watanabe, T. Taniguchi, M. Kroner and A. \.Imamo\u{g}lu(参考訳) 我々は、時間分解非線形ポンプ-プローブ測定を用いて、リニア分光にはアクセスできない半導体モアレ材料の特徴を明らかにする。 赤調の強いポンプパルスにより、様々なmoir\'eミニバンドにおいて高濃度の仮想励起子または励起子-ポーラロンを生成する。 広帯域プローブパルスはポンプ生成励起によって引き起こされる全ての光共鳴の応答を測定する。 We generically observe a coherent blue shift originating from contact-like exciton--exciton interactions. At charge neutrality, these measurements allow us to assess the spatial overlap between different optical excitations: in particular, we observe signatures of a bound biexciton state between two different moire exciton modes. For integer fillings $\nu=2$ and $\nu=3$ of the moir\'e lattice with electrons, the correlated Mott state results in a suppression of the exciton--polaron interactions, providing a nonlinear optical signature of electronic incompressibility. 対照的に、低い電子充填量$\nu < 2$ の場合、魅力的なポーラロン共鳴の光シフトは電子密度に依存しない。 したがって、深い局所化モワール・ポーラロンは、単一エミッターのアクスターク効果を受けない相互作用しない2レベルの原子のアンサンブルに似ている。 最後に, ポンプレーザと魅力的なポラロンとの共振を$\nu < 2$で調整し, 局所的なポラロンでモアイー格子の充填を実演し, モアイー平面バンドにおける非平衡ボース-フェルミ混合を実現する。

We use time-resolved nonlinear pump--probe measurements to reveal features of semiconductor moir\'e materials not accessible to linear spectroscopy. With an intense, red-detuned pump pulse, we generate a high density of virtual excitons or exciton--polarons in various moir\'e minibands. A broadband probe pulse in turn measures the response of all optical resonances induced by the pump-generated excitations. We generically observe a coherent blue shift originating from contact-like exciton--exciton interactions. At charge neutrality, these measurements allow us to assess the spatial overlap between different optical excitations: in particular, we observe signatures of a bound biexciton state between two different moire exciton modes. For integer fillings $\nu=2$ and $\nu=3$ of the moir\'e lattice with electrons, the correlated Mott state results in a suppression of the exciton--polaron interactions, providing a nonlinear optical signature of electronic incompressibility. In stark contrast, for lower electron fillings $\nu < 2$, the light shift of the attractive polaron resonance is electron density independent. Deeply localized moir\'e polarons are thus akin to an ensemble of non-interacting two-level atoms, subject to the single-emitter ac Stark effect. Finally, tuning the pump laser on resonance with the attractive polaron for $\nu < 2$, we demonstrate the filling of the moir\'e lattice with localized polarons and thereby realize a nonequilibrium Bose--Fermi mixture in moir\'e flat bands.
翻訳日:2024-02-28 20:32:48 公開日:2024-02-26
# 単一ニューロモルフィック・メムリスタはエネルギー効率の良いニューラルネットワークのための複数のシナプス機構を密にエミュレートする

Single Neuromorphic Memristor closely Emulates Multiple Synaptic Mechanisms for Energy Efficient Neural Networks ( http://arxiv.org/abs/2402.16628v1 )

ライセンス: Link先を確認
Christoph Weilenmann, Alexandros Ziogas, Till Zellweger, Kevin Portner, Marko Mladenovi\'c, Manasa Kaniselvan, Timoleon Moraitis, Mathieu Luisier, Alexandros Emboras(参考訳) 生物学的ニューラルネットワークは、ニューラルネットワークで一般的に想定されるように、長期記憶と重み乗算機能を含むだけでなく、短期記憶、短期可塑性、メタ可塑性といったより複雑な機能を含む。 本稿では,これらすべてのシナプス機能を本質的にエミュレートするSrTiO3系ナノデバイスについて述べる。 これらのメムリスタは、安定かつエネルギー効率の良い運転を可能にする非定常低伝導状態で動作する。 バイオインスパイアされたディープニューラルネットワーク(DNN)のクラスのマルチファンクショナルハードウェアシナプスとして機能し、長期的および短期的なシナプス力学の両方を使用し、メタラーニングや"学習から学習"が可能な。 バイオインスパイアされたDNNは、ダイナミックな環境で複雑な強化学習タスクであるAtari Pongをプレイするように訓練される。 解析の結果,DNNの多機能化によるエネルギー消費は,純粋なGPU実装と比較して約2桁減少することがわかった。 この知見に基づき,シナプス機能のエミュレーションが向上したmemristive deviceは,ニューロモルフィックコンピューティングの適用範囲を広げるだけでなく,特定の人工知能応用の性能やエネルギーコストも向上する可能性が示唆された。

Biological neural networks do not only include long-term memory and weight multiplication capabilities, as commonly assumed in artificial neural networks, but also more complex functions such as short-term memory, short-term plasticity, and meta-plasticity - all collocated within each synapse. Here, we demonstrate memristive nano-devices based on SrTiO3 that inherently emulate all these synaptic functions. These memristors operate in a non-filamentary, low conductance regime, which enables stable and energy efficient operation. They can act as multi-functional hardware synapses in a class of bio-inspired deep neural networks (DNN) that make use of both long- and short-term synaptic dynamics and are capable of meta-learning or "learning-to-learn". The resulting bio-inspired DNN is then trained to play the video game Atari Pong, a complex reinforcement learning task in a dynamic environment. Our analysis shows that the energy consumption of the DNN with multi-functional memristive synapses decreases by about two orders of magnitude as compared to a pure GPU implementation. Based on this finding, we infer that memristive devices with a better emulation of the synaptic functionalities do not only broaden the applicability of neuromorphic computing, but could also improve the performance and energy costs of certain artificial intelligence applications.
翻訳日:2024-02-28 20:32:22 公開日:2024-02-26
# テキスト誘導ビジュアル生成と編集のためのクロスモーダル文脈拡散モデル

Cross-Modal Contextualized Diffusion Models for Text-Guided Visual Generation and Editing ( http://arxiv.org/abs/2402.16627v1 )

ライセンス: Link先を確認
Ling Yang, Zhilong Zhang, Zhaochen Yu, Jingwei Liu, Minkai Xu, Stefano Ermon, Bin Cui(参考訳) 条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。 それにもかかわらず、一般的なテキストガイドによるビジュアル拡散モデルは、主にテキストとビジュアルの関係をリバースプロセスにのみ組み込むことに重点を置いている。 この前方プロセスと逆プロセスの矛盾は、視覚合成結果におけるテキスト意味論の正確な伝達を制限する可能性がある。 本稿では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルなコンテキストをフォワードおよびリバースプロセスに組み込んだ,新しい汎用文脈拡散モデル(contextdiff)を提案する。 我々はこの文脈を2つのプロセスのすべての時間ステップに伝播させ、それらの軌道に適応させ、モーダルな条件付きモデリングを容易にする。 DDPMとDDIMの両方への文脈的拡散を理論的導出により一般化し,テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価におけるモデルの有効性を示す。 各タスクにおいて、ContextDiffは、テキスト条件と生成されたサンプルのセマンティックアライメントを大幅に向上させ、定量的および定性的な評価によって証明された。 私たちのコードはhttps://github.com/YangLing0818/ContextDiffで利用可能です。

Conditional diffusion models have exhibited superior performance in high-fidelity text-guided visual generation and editing. Nevertheless, prevailing text-guided visual diffusion models primarily focus on incorporating text-visual relationships exclusively into the reverse process, often disregarding their relevance in the forward process. This inconsistency between forward and reverse processes may limit the precise conveyance of textual semantics in visual synthesis results. To address this issue, we propose a novel and general contextualized diffusion model (ContextDiff) by incorporating the cross-modal context encompassing interactions and alignments between text condition and visual sample into forward and reverse processes. We propagate this context to all timesteps in the two processes to adapt their trajectories, thereby facilitating cross-modal conditional modeling. We generalize our contextualized diffusion to both DDPMs and DDIMs with theoretical derivations, and demonstrate the effectiveness of our model in evaluations with two challenging tasks: text-to-image generation, and text-to-video editing. In each task, our ContextDiff achieves new state-of-the-art performance, significantly enhancing the semantic alignment between text condition and generated samples, as evidenced by quantitative and qualitative evaluations. Our code is available at https://github.com/YangLing0818/ContextDiff
翻訳日:2024-02-28 20:31:55 公開日:2024-02-26
# 並列文脈符号化によるLong-Context言語モデリング

Long-Context Language Modeling with Parallel Context Encoding ( http://arxiv.org/abs/2402.16617v1 )

ライセンス: Link先を確認
Howard Yen, Tianyu Gao, Danqi Chen(参考訳) 長い入力を処理するために大きな言語モデル(LLM)を拡張することは、多くのアプリケーションにとって不可欠である。 しかし、トランスのかなりの計算コストは、位置符号化の限定的な一般化と相まって、コンテキストウィンドウのサイズを制限する。 既存のデコーダのみのLLMに適用可能なフレームワークであるCEPE(Context Expansion with Parallel Encoding)を導入し、コンテキストウィンドウを拡張する。 CEPEは小さなエンコーダを採用して長い入力チャンクをチャンク単位で処理し、凍結したデコーダはクロスアテンションを通じて追加のコンテキストを活用することができる。 CEPEは効率が高く、一般化可能で、汎用的であり、8Kの文書で訓練されたCEPEは、LLAMA-2のコンテキストウィンドウを128Kのトークンに拡張し、メモリの1/6で10倍のスループットを提供する。 CEPEは、言語モデリングとコンテキスト内学習に強いパフォーマンスをもたらす。 CEPEは検索拡張アプリケーションでも優れており、既存の長期コンテキストモデルは検索コンテキストで縮退する。 さらに、ラベル付きデータのみを用いて命令調整モデルのコンテキストウィンドウを拡張するCEPE変異を導入し、LLAMA-2-CHAT上での有効性を示し、下流タスクで非常に長いコンテキストを活用できる強力な命令追従モデルを実現する。

Extending large language models (LLMs) to process longer inputs is crucial for numerous applications. However, the considerable computational cost of transformers, coupled with limited generalization of positional encoding, restricts the size of their context window. We introduce Context Expansion with Parallel Encoding (CEPE), a framework that can be applied to any existing decoder-only LLMs to extend their context window. CEPE adopts a small encoder to process long inputs chunk by chunk and enables the frozen decoder to leverage additional contexts via cross-attention. CEPE is efficient, generalizable, and versatile: trained with 8K-token documents, CEPE extends the context window of LLAMA-2 to 128K tokens, offering 10x the throughput with only 1/6 of the memory. CEPE yields strong performance on language modeling and in-context learning. CEPE also excels in retrieval-augmented applications, while existing long-context models degenerate with retrieved contexts. We further introduce a CEPE variant that can extend the context window of instruction-tuned models with only unlabeled data, and showcase its effectiveness on LLAMA-2-CHAT, leading to a strong instruction-following model that can leverage very long context on downstream tasks.
翻訳日:2024-02-28 20:31:06 公開日:2024-02-26
# 畳み込みニューラルネットワークを用いた構造光ゲートの量子プロセストモグラフィー

Quantum process tomography of structured optical gates with convolutional neural networks ( http://arxiv.org/abs/2402.16616v1 )

ライセンス: Link先を確認
Tareq Jaouni, Francesco Di Colandrea, Lorenzo Amato, Filippo Cardano, Ebrahim Karimi(参考訳) ユニタリゲートのキャラクタリゼーションは量子プロセストモグラフィーによって実験的に達成され、異なる射影計測結果を組み合わせて基礎となる演算子を再構築する。 プロセスマトリックスは通常、最大線量推定から抽出される。 近年,進化的および機械学習に基づく最適化戦略が提案されている。 本稿では,空間依存型SU(2)演算子の高速かつ高精度な再構成を可能にする深層学習手法について検討する。 我々は,スケーラブルなu-netアーキテクチャに基づく畳み込みニューラルネットワークを訓練し,実験画像全体を並列に処理する。 合成過程は90%以上の忠実度で再構成される。 我々のルーチンの性能は、複素偏光変換で実験的に検証される。 この手法は量子プロセストモグラフィへのデータ駆動アプローチのツールボックスをさらに拡大し、複雑な光学ゲートのリアルタイムキャラクタリゼーションにおいて有望性を示す。

The characterization of a unitary gate is experimentally accomplished via Quantum Process Tomography, which combines the outcomes of different projective measurements to reconstruct the underlying operator. The process matrix is typically extracted from maximum-likelihood estimation. Recently, optimization strategies based on evolutionary and machine-learning techniques have been proposed. Here, we investigate a deep-learning approach that allows for fast and accurate reconstructions of space-dependent SU(2) operators, only processing a minimal set of measurements. We train a convolutional neural network based on a scalable U-Net architecture to process entire experimental images in parallel. Synthetic processes are reconstructed with average fidelity above 90%. The performance of our routine is experimentally validated on complex polarization transformations. Our approach further expands the toolbox of data-driven approaches to Quantum Process Tomography and shows promise in the real-time characterization of complex optical gates.
翻訳日:2024-02-28 20:30:45 公開日:2024-02-26
# PAQA: オープンレトリヴァルな質問回答の実現に向けて

PAQA: Toward ProActive Open-Retrieval Question Answering ( http://arxiv.org/abs/2402.16608v1 )

ライセンス: Link先を確認
Pierre Erbacher and Jian-Yun Nie and Philippe Preux and Laure Soulier(参考訳) 会話システムは自然言語応答の生成に大きな進歩をもたらした。 しかし, 情報検索における受動的役割から, 会話型検索システムとしての潜在性は限られている。 主な制限の1つは、ラベル付きあいまいな質問と、文書のコーパスと関連する明確化質問を提供するデータセットの不足である。 本研究の目的は,ユーザ問合せと文書の両方に存在する固有のあいまいさを考慮に入れて,適切な明確化問題を生成することにある。 そこで本稿では,既存のAmbiNQデータセットの拡張であるPAQAを提案する。 次に,様々なモデルの評価を行い,経路探索があいまいさの検出と明瞭な質問の生成に与える影響を評価する。 対話型検索システムにおけるこのギャップに対処することで,情報検索プロセスへの積極的に参加し,ユーザに対してより正確な結果を提供するために,さらなる監視を行うことを目指している。

Conversational systems have made significant progress in generating natural language responses. However, their potential as conversational search systems is currently limited due to their passive role in the information-seeking process. One major limitation is the scarcity of datasets that provide labelled ambiguous questions along with a supporting corpus of documents and relevant clarifying questions. This work aims to tackle the challenge of generating relevant clarifying questions by taking into account the inherent ambiguities present in both user queries and documents. To achieve this, we propose PAQA, an extension to the existing AmbiNQ dataset, incorporating clarifying questions. We then evaluate various models and assess how passage retrieval impacts ambiguity detection and the generation of clarifying questions. By addressing this gap in conversational search systems, we aim to provide additional supervision to enhance their active participation in the information-seeking process and provide users with more accurate results.
翻訳日:2024-02-28 20:29:59 公開日:2024-02-26
# GEA:モノクロ映像から3Dガウスアバターを再構築

GEA: Reconstructing Expressive 3D Gaussian Avatar from Monocular Video ( http://arxiv.org/abs/2402.16607v1 )

ライセンス: Link先を確認
Xinqi Liu, Chenming Wu, Xing Liu, Jialun Liu, Jinbo Wu, Chen Zhao, Haocheng Feng, Errui Ding, Jingdong Wang(参考訳) 本稿では,3次元ガウスアンに基づく体と手の高忠実度再構成による表現力のある3Dアバター作成手法であるGAAを提案する。 主な貢献は2つです。 まず、入力画像から正確なSMPL-Xポーズを得るための2段階ポーズ推定法を設計し、トレーニング画像の画素とSMPL-Xモデルとの正確なマッピングを提供する。 注意を意識したネットワークと最適化スキームを使用して、画像中の推定SMPL-X体と実物との間の正規とシルエットを整列する。 第2に,ガウス表現が直面する不均衡な集約と初期化バイアスに対処する反復的初期化戦略を提案する。 この戦略は、アバターのガウス点を反復的に再分配し、メッシュ化、再サンプリング、再ゲージ操作を施し、人体表面付近に均等に分布させる。 その結果、高品質なレンダリングが可能になる。 本モデルの有効性を実験的に検証し, 人体と手ポーズのきめ細かい制御を提供しながら, フォトリアリスティックな新規ビュー合成における最先端性能を実現することを実証した。 プロジェクトページ: https://3d-aigc.github.io/GEA/。

This paper presents GEA, a novel method for creating expressive 3D avatars with high-fidelity reconstructions of body and hands based on 3D Gaussians. The key contributions are twofold. First, we design a two-stage pose estimation method to obtain an accurate SMPL-X pose from input images, providing a correct mapping between the pixels of a training image and the SMPL-X model. It uses an attention-aware network and an optimization scheme to align the normal and silhouette between the estimated SMPL-X body and the real body in the image. Second, we propose an iterative re-initialization strategy to handle unbalanced aggregation and initialization bias faced by Gaussian representation. This strategy iteratively redistributes the avatar's Gaussian points, making it evenly distributed near the human body surface by applying meshing, resampling and re-Gaussian operations. As a result, higher-quality rendering can be achieved. Extensive experimental analyses validate the effectiveness of the proposed model, demonstrating that it achieves state-of-the-art performance in photorealistic novel view synthesis while offering fine-grained control over the human body and hand pose. Project page: https://3d-aigc.github.io/GEA/.
翻訳日:2024-02-28 20:29:44 公開日:2024-02-26
# 弱相互作用フェルミ・ハバード模型における動的準凝縮

Dynamical quasi-condensation in the weakly interacting Fermi-Hubbard model ( http://arxiv.org/abs/2402.16604v1 )

ライセンス: Link先を確認
Iva B\v{r}ezinov\'a, Markus Stimpfle, Stefan Donsa, Angel Rubio(参考訳) フェルミ・ハバード模型における動的(quasi)凝縮の研究は,近接する二重占有部位の全く無相関な初期状態から始まった。 系を1次元に拡大すると、動的(quasi)凝縮は二重子凝縮を通じて大きな相互作用だけでなく、小さな相互作用に対しても起こることが示されている。 システムの挙動は2つのパラメータレジームで大きく異なり、作業中の異なるメカニズムを基礎としている。 熱力学的限界において力学(量子)凝縮効果が持続するかどうかを問う。 この目的のために, 2粒子還元密度行列法を用いて, 大規模システムサイズ, 長寿命伝搬時間, 2次元(2次元)系への拡張を可能にする。 その結果, この効果は熱力学的限界で消失することがわかった。 しかし、特に2次元では、数値的に抽出可能なシステムサイズを超えるさらなる調査は、量子シミュレータの使用を要求するものであり、この結果が密度変動の探索によって調べられることを示す。

We study dynamical (quasi)-condensation in the Fermi-Hubbard model starting from a completely uncorrelated initial state of adjacent doubly occupied sites. We show that upon expansion of the system in one dimension, dynamical (quasi)-condensation occurs not only for large interactions via the condensation of doublons, but also for small interactions. The behavior of the system is distinctly different in the two parameter regimes, underlining a different mechanism at work. We address the question whether the dynamical (quasi-)condensation effect persists in the thermodynamic limit. For this purpose, we use the two-particle reduced density matrix method, which allows the extension to large system sizes, long propagation times, and two-dimensional (2D) systems. Our results indicate that the effect vanishes in the thermodynamic limit. However, especially in 2D, further investigation beyond numerically tractable system sizes calls for the use of quantum simulators, for which we show that the described effect can be investigated by probing density fluctuations.
翻訳日:2024-02-28 20:29:21 公開日:2024-02-26
# 集積フォトニック回路におけるqubitsとquditsを用いた任意状態形成のエネルギーコストの推定

Estimating the electrical energy cost of performing arbitrary state preparation using qubits and qudits in integrated photonic circuits ( http://arxiv.org/abs/2402.16603v1 )

ライセンス: Link先を確認
Maria Carolina Volpato and Pierre-Louis de Assis(参考訳) 量子情報処理に単一光子とフォトニック集積回路(PIC)を用いる場合、量子状態は量子ビットまたは量子ビットで符号化できる。 量子ビットは、同じ次元に到達するのに使用される導波路の数でより効率的であり、量子ビットが使用する2\log_2d$導波路と比較して、quditは$d$の導波路を必要とする。 有用なタスクに十分な大きさの次元については、他のリソースが少なくともPICの導波路の数と多項式的にスケールするため、これは明らかに量子ビットが最良の選択肢であることを示している。 しかし、比較はそれほど直接的ではない。 例えば、変分量子アルゴリズムに関係のある量子状態準備の課題について考察する。 このタスクは、 \textit{n} qubits に対して、回路は、 \textit{n} に指数関数的な多数の制御なし(cnot)ゲートを持つ必要がある。 どちらの実装も指数関数的リソースコストに苦しむため、より詳細な評価が必要である。 量子状態形成を行うためのフォトニック回路をプログラムするために平均して費やさなければならない電気エネルギーの量の観点から、qubitとquditのアプローチを比較した。 完全に再構成可能な干渉計の配列を持つ画像が使用される場合、qubitsを使うにはquditsを使うよりも多くのエネルギーが必要となる。 しかしながら、専用CNOTブロックを持つ回路はエネルギー消費がはるかに小さく、CNOTゲートの確率的性質など、より重要なボトルネックが発生するような大きな量子ビット数でも有効であることを示す。

When using single photons and photonic integrated circuits (PICs) for quantum information processing, quantum states can be encoded using either qubits or qudits. Qudits are more efficient in terms of requiring less photons (in principle, only one) to encode the state, while qubits are more efficient in terms of the number of waveguides used to reach the same dimension $d$, as qudits need $d$ waveguides in comparison to the $2\log_2d$ waveguides used by qubits. For dimensions large enough for useful tasks, this would indicate that qubits are clearly the best option, as other resources scale at least polynomially with the number of waveguides in the PIC. The comparison, however, is not so direct. We consider the task of quantum state preparation, which is relevant for variational quantum algorithms, for instance. For \textit{n} qubits, this task requires the circuit to have a number of Controlled-NOT (CNOT) gates that is exponential in \textit{n}. Since both implementations suffer from an exponential resource cost, a more detailed evaluation is required. We compare the qubit and qudit approaches in terms of the amount of electrical energy that must be spent, on average, to program a photonic circuit to perform quantum state preparation. We find that if a PIC with a fully reconfigurable array of interferometers is to be used, using qubits requires more energy than using qudits. We show, however, that a circuit with dedicated CNOT blocks has a much smaller energy consumption, remaining viable even at large qubit numbers, where more important bottlenecks come into play, such as the probabilistic nature of the CNOT gates.
翻訳日:2024-02-28 20:29:03 公開日:2024-02-26
# 生成的名前付きエンティティ認識のための負のインスタンス再考

Rethinking Negative Instances for Generative Named Entity Recognition ( http://arxiv.org/abs/2402.16602v1 )

ライセンス: Link先を確認
Yuyang Ding, Juntao Li, Pinzheng Wang, Zecheng Tang, Bowen Yan, Min Zhang(参考訳) 大規模言語モデル(llm)は、目に見えないタスクを一般化する素晴らしい能力を示している。 名前付きエンティティ認識(NER)タスクにおいて、近年の進歩は、エンティティ中心スキーマを採用することで、命令チューニングによる幅広いエンティティドメインにおけるLLMの顕著な改善が見られた。 本研究では, 負のインスタンスをトレーニングに組み込むことにより, 既存の手法の強化の可能性を検討する。 実験の結果,(1)文脈情報の導入,(2)ラベル境界の明確化により,負のインスタンスが顕著な改善をもたらすことが明らかになった。 さらに,非構造化予測を構造化エンティティに変換するために,階層マッチングと呼ばれる新しい効率的なアルゴリズムを提案する。 これらのコンポーネントを統合することで、未知のエンティティドメイン間でゼロショット性能が改善されたジェネレーティブNERシステムであるGNERを提案する。 総合評価の結果,ゼロショット評価ではsof-the-art (sota) 法を11$f_1$スコアで上回った。

Large Language Models (LLMs) have demonstrated impressive capabilities for generalizing in unseen tasks. In the Named Entity Recognition (NER) task, recent advancements have seen the remarkable improvement of LLMs in a broad range of entity domains via instruction tuning, by adopting entity-centric schema. In this work, we explore the potential enhancement of the existing methods by incorporating negative instances into training. Our experiments reveal that negative instances contribute to remarkable improvements by (1) introducing contextual information, and (2) clearly delineating label boundaries. Furthermore, we introduce a novel and efficient algorithm named Hierarchical Matching, which is tailored to transform unstructured predictions into structured entities. By integrating these components, we present GNER, a Generative NER system that shows improved zero-shot performance across unseen entity domains. Our comprehensive evaluation illustrates our system's superiority, surpassing state-of-the-art (SoTA) methods by 11 $F_1$ score in zero-shot evaluation.
翻訳日:2024-02-28 20:28:31 公開日:2024-02-26
# 入射放射場を用いた高精細画像会議のための分解能非依存ニューラル圧縮

Resolution-Agnostic Neural Compression for High-Fidelity Portrait Video Conferencing via Implicit Radiance Fields ( http://arxiv.org/abs/2402.16599v1 )

ライセンス: Link先を確認
Yifei Li, Xiaohong Liu, Yicong Peng, Guangtao Zhai, and Jun Zhou(参考訳) 近年,ビデオ会議が注目されている。 高忠実度と低帯域幅はビデオ会議アプリケーションにおけるビデオ圧縮の2つの主要な目的である。 ほとんどの先駆的手法は、高レベルな特徴埋め込みを伴わない古典的なビデオ圧縮コーデックに依存しているため、帯域幅は極端に低い。 最近の研究では、モデルベースのニューラル圧縮を用いて、顔のランドマーク情報などの各フレームのスパース表現を用いて超低ビットレートを取得するが、これらのアプローチは2次元画像ベースのワープによって高い忠実性を維持することはできない。 本稿では,暗黙的放射場を用いた高忠実度ポートレートビデオ会議のための低帯域ニューラル圧縮手法を提案する。 我々は動的ニューラルラジアンス場を利用して、伝達のフレーム置換として表される表現特徴を持つ高忠実な音声頭部を再構成する。 システム全体はディープモデルを用いて送信側の表現特徴を符号化し、超低帯域幅のデコーダとしてボリュームレンダリングを用いて受信側のポートレートを再構成する。 特に, ニューラルラディアンス場モデルの特徴から, 圧縮手法は分解能に依存しないため, 高分解能再構成のための忠実さを維持しつつ, ビデオ解像度とは無関係である。 実験により,(1)超低帯域幅ビデオ会議の構築,(2)高忠実度像の維持,(3)高精細度映像圧縮の性能向上が実証された。

Video conferencing has caught much more attention recently. High fidelity and low bandwidth are two major objectives of video compression for video conferencing applications. Most pioneering methods rely on classic video compression codec without high-level feature embedding and thus can not reach the extremely low bandwidth. Recent works instead employ model-based neural compression to acquire ultra-low bitrates using sparse representations of each frame such as facial landmark information, while these approaches can not maintain high fidelity due to 2D image-based warping. In this paper, we propose a novel low bandwidth neural compression approach for high-fidelity portrait video conferencing using implicit radiance fields to achieve both major objectives. We leverage dynamic neural radiance fields to reconstruct high-fidelity talking head with expression features, which are represented as frame substitution for transmission. The overall system employs deep model to encode expression features at the sender and reconstruct portrait at the receiver with volume rendering as decoder for ultra-low bandwidth. In particular, with the characteristic of neural radiance fields based model, our compression approach is resolution-agnostic, which means that the low bandwidth achieved by our approach is independent of video resolution, while maintaining fidelity for higher resolution reconstruction. Experimental results demonstrate that our novel framework can (1) construct ultra-low bandwidth video conferencing, (2) maintain high fidelity portrait and (3) have better performance on high-resolution video compression than previous works.
翻訳日:2024-02-28 20:28:14 公開日:2024-02-26
# PCR-99:99%のアウトリーチを持つポイントクラウド登録の実践的方法

PCR-99: A Practical Method for Point Cloud Registration with 99% Outliers ( http://arxiv.org/abs/2402.16598v1 )

ライセンス: Link先を確認
Seong Hun Lee, Javier Civera, Patrick Vandewalle(参考訳) 本稿では,未知のスケールと極端外周比の両方を扱える点雲登録法を提案する。 本手法はpcr-99と呼ばれる決定論的3点サンプリング手法を用いて,(1)ペアワイズスケールの一貫性に基づくサンプルの順序付けの改善,(2)イリアーになりやすい点対応の優先順位付け,(2)トリプルトスケールの一貫性に基づく効率的な外れ値拒否スキーム,悪いサンプルの事前スクリーニング,およびテストすべき仮説の数を減らす,という2つの新しい機構を用いる。 評価の結果, 提案手法は, 最大98%の異常率で, 最先端技術に匹敵する性能が得られることがわかった。 しかし、99%のアウトラヤ比では、既知のスケールと未知のスケールの両方の問題で芸術の状態を上回ります。 特に後者では、ロバスト性と速度の観点から明らかな優位性を観察する。

We propose a robust method for point cloud registration that can handle both unknown scales and extreme outlier ratios. Our method, dubbed PCR-99, uses a deterministic 3-point sampling approach with two novel mechanisms that significantly boost the speed: (1) an improved ordering of the samples based on pairwise scale consistency, prioritizing the point correspondences that are more likely to be inliers, and (2) an efficient outlier rejection scheme based on triplet scale consistency, prescreening bad samples and reducing the number of hypotheses to be tested. Our evaluation shows that, up to 98% outlier ratio, the proposed method achieves comparable performance to the state of the art. At 99% outlier ratio, however, it outperforms the state of the art for both known-scale and unknown-scale problems. Especially for the latter, we observe a clear superiority in terms of robustness and speed.
翻訳日:2024-02-28 20:27:48 公開日:2024-02-26
# 強化学習のためのプログラムベース戦略誘導

Program-Based Strategy Induction for Reinforcement Learning ( http://arxiv.org/abs/2402.16668v1 )

ライセンス: Link先を確認
Carlos G. Correa and Thomas L. Griffiths and Nathaniel D. Daw(参考訳) 典型的な学習モデルは、期待される報酬のような連続的に変化する決定変数の漸進的な推定を仮定する。 しかし、この種のモデルは、人間や動物が示すような、より慣用的な、離散的なヒューリスティックや戦略を捉えることができない。 古典的モデルを一般化するリカレントネットワークのようなツールを用いた戦略発見の最近の進歩にもかかわらず、結果として得られる戦略はしばしば解釈し難いものであり、認識への接続を確立するのが困難である。 ベイズプログラムのインダクションをプログラムによって実装された戦略の発見に使用し、戦略の単純さをその効果と引き換えにします。 バンドイットのタスクに焦点をあてると、報酬や不利な試行からの非対称学習、適応的地平面依存ランダム探索、離散状態切替など、古典的な漸進的学習において困難あるいは予期せぬ戦略が見つかる。

Typical models of learning assume incremental estimation of continuously-varying decision variables like expected rewards. However, this class of models fails to capture more idiosyncratic, discrete heuristics and strategies that people and animals appear to exhibit. Despite recent advances in strategy discovery using tools like recurrent networks that generalize the classic models, the resulting strategies are often onerous to interpret, making connections to cognition difficult to establish. We use Bayesian program induction to discover strategies implemented by programs, letting the simplicity of strategies trade off against their effectiveness. Focusing on bandit tasks, we find strategies that are difficult or unexpected with classical incremental learning, like asymmetric learning from rewarded and unrewarded trials, adaptive horizon-dependent random exploration, and discrete state switching.
翻訳日:2024-02-28 20:23:55 公開日:2024-02-26
# RepoAgent: リポジトリレベルのコードドキュメンテーション生成のためのLLMベースのオープンソースフレームワーク

RepoAgent: An LLM-Powered Open-Source Framework for Repository-level Code Documentation Generation ( http://arxiv.org/abs/2402.16667v1 )

ライセンス: Link先を確認
Qinyu Luo, Yining Ye, Shihao Liang, Zhong Zhang, Yujia Qin, Yaxi Lu, Yesai Wu, Xin Cong, Yankai Lin, Yingli Zhang, Xiaoyin Che, Zhiyuan Liu, Maosong Sun(参考訳) 生成モデルは、特にコード生成やデバッギングといったタスクにおいて、ソフトウェア工学においてかなりの可能性を示している。 しかし、コードドキュメンテーション生成の領域での利用については、まだ未定である。 この目的のために、コードドキュメンテーションを積極的に生成、保守、更新することを目的とした、大規模な言語モデルによるオープンソースのフレームワークであるRepoAgentを紹介します。 質的および定量的な評価を通じて、我々のアプローチの有効性を検証し、RepoAgentが高品質なリポジトリレベルのドキュメントを生成するのに優れていることを示す。 コードと結果はhttps://github.com/OpenBMB/RepoAgent.comで公開されている。

Generative models have demonstrated considerable potential in software engineering, particularly in tasks such as code generation and debugging. However, their utilization in the domain of code documentation generation remains underexplored. To this end, we introduce RepoAgent, a large language model powered open-source framework aimed at proactively generating, maintaining, and updating code documentation. Through both qualitative and quantitative evaluations, we have validated the effectiveness of our approach, showing that RepoAgent excels in generating high-quality repository-level documentation. The code and results are publicly accessible at https://github.com/OpenBMB/RepoAgent.
翻訳日:2024-02-28 20:23:39 公開日:2024-02-26
# UN-SAM: 一般化核画像のためのユニバーサルプロンプトフリーセグメンテーション

UN-SAM: Universal Prompt-Free Segmentation for Generalized Nuclei Images ( http://arxiv.org/abs/2402.16663v1 )

ライセンス: Link先を確認
Zhen Chen, Qing Xu, Xinyu Liu, Yixuan Yuan(参考訳) デジタル病理学では、正確な核分画は、組織の種類、染色プロトコル、画像条件の多様性によっても重要な課題である。 近年,S segment anything model (SAM) は自然シナリオにおいて圧倒的な性能を示し,医用画像への顕著な適応を示した。 これらの利点にもかかわらず、分節化としての労働集約的な手動アノテーションの依存は、特に密集した手動のプロンプトが実用的でない巨大な細胞を含む核画像解析において、臨床応用性を著しく阻害する。 優位性を維持しつつ,現在のSAM手法の限界を克服するため,Universal prompt-free SAM framework for Nuclei segmentation (UN-SAM)を提案する。 具体的には,マルチスケール自己プロンプト生成(spgen)モジュールを考案し,セグメンテーションタスクを導くための高品質マスクヒントを自動生成することにより,臨床ワークフローに革命をもたらす。 さらに,種々の核画像にまたがってSAMの一般化能力を解き放つために,ドメイン適応型チューニングエンコーダ(DT-Encoder)を考案し,異なるドメイン領域のセグメンテーションデコードに学習可能なドメインクエリを活用することで,視覚的特徴とドメイン固有知識をシームレスに調和させ,ドメインクエリ拡張デコーダ(DQ-Decoder)を考案した。 広範な実験により、UN-SAMは核のインスタンスやセマンティックセグメンテーションの最先端、特にゼロショットシナリオにおける一般化能力を超越していることが証明された。 ソースコードはhttps://github.com/CUHK-AIM-Group/UN-SAMで入手できる。

In digital pathology, precise nuclei segmentation is pivotal yet challenged by the diversity of tissue types, staining protocols, and imaging conditions. Recently, the segment anything model (SAM) revealed overwhelming performance in natural scenarios and impressive adaptation to medical imaging. Despite these advantages, the reliance of labor-intensive manual annotation as segmentation prompts severely hinders their clinical applicability, especially for nuclei image analysis containing massive cells where dense manual prompts are impractical. To overcome the limitations of current SAM methods while retaining the advantages, we propose the Universal prompt-free SAM framework for Nuclei segmentation (UN-SAM), by providing a fully automated solution with remarkable generalization capabilities. Specifically, to eliminate the labor-intensive requirement of per-nuclei annotations for prompt, we devise a multi-scale Self-Prompt Generation (SPGen) module to revolutionize clinical workflow by automatically generating high-quality mask hints to guide the segmentation tasks. Moreover, to unleash the generalization capability of SAM across a variety of nuclei images, we devise a Domain-adaptive Tuning Encoder (DT-Encoder) to seamlessly harmonize visual features with domain-common and domain-specific knowledge, and further devise a Domain Query-enhanced Decoder (DQ-Decoder) by leveraging learnable domain queries for segmentation decoding in different nuclei domains. Extensive experiments prove that UN-SAM with exceptional performance surpasses state-of-the-arts in nuclei instance and semantic segmentation, especially the generalization capability in zero-shot scenarios. The source code is available at https://github.com/CUHK-AIM-Group/UN-SAM.
翻訳日:2024-02-28 20:23:28 公開日:2024-02-26
# ペナルライズド生成変数選択

Penalized Generative Variable Selection ( http://arxiv.org/abs/2402.16661v1 )

ライセンス: Link先を確認
Tong Wang, Jian Huang, Shuangge Ma(参考訳) ディープネットワークは、高次元予測器を含むデータを含む、幅広いデータにますます適用される。 このような分析では、推定/モデル構築とともに変数の選択が必要となる。 変数選択を含む既存のディープネットワーク研究の多くは、方法論的および数値的発展に限られている。 本研究では,条件付きwasserstein生成型adversarial networkを用いたモデリング・推定について検討する。 グループラッソペナリゼーションは変数選択に適用され、モデル推定/予測、解釈可能性、安定性などを改善する。 既存の文献から重要な進歩が見られ、検閲された生存データの分析も検討されている。 近似誤差を考慮して変数選択の収束率を確立し,より効率的な分布推定値を得る。 実実験データのシミュレーションと解析により,本解析の実用性が実証された。

Deep networks are increasingly applied to a wide variety of data, including data with high-dimensional predictors. In such analysis, variable selection can be needed along with estimation/model building. Many of the existing deep network studies that incorporate variable selection have been limited to methodological and numerical developments. In this study, we consider modeling/estimation using the conditional Wasserstein Generative Adversarial networks. Group Lasso penalization is applied for variable selection, which may improve model estimation/prediction, interpretability, stability, etc. Significantly advancing from the existing literature, the analysis of censored survival data is also considered. We establish the convergence rate for variable selection while considering the approximation error, and obtain a more efficient distribution estimation. Simulations and the analysis of real experimental data demonstrate satisfactory practical utility of the proposed analysis.
翻訳日:2024-02-28 20:22:51 公開日:2024-02-26
# 量子化学の効率的な量子コンピューティングを目指して:トランスコラートおよび適応アンザッツ法による回路複雑度低減

Towards Efficient Quantum Computing for Quantum Chemistry: Reducing Circuit Complexity with Transcorrelated and Adaptive Ansatz Techniques ( http://arxiv.org/abs/2402.16659v1 )

ライセンス: Link先を確認
Erika Magnusson, Aaron Fitzpatrick, Stefan Knecht, Martin Rahm, Werner Dobrautz(参考訳) 量子コンピュータの短期的有用性は、ノイズの形でハードウェアの制約によって妨げられる。 ハイブリッド量子アルゴリズムにおけるノイズレジリエンスを達成する1つの道は、与えられた問題を解決するために必要な回路深度(ゲートの数)を減らすことである。 本研究は,変分量子想像時間進化(AVQITE)の文脈において,トランスコリックス(TC)アプローチと適応量子アンセアゼとその実装を組み合わせることで回路深さを低減する方法を示す。 組み合わせたTC-AVQITE法は、H$_4$, LiH, H$_2$Oのポテンシャルエネルギー面における基底状態エネルギーを計算するために用いられる。 特に、H$_4$は単体や二重励起を含む一元結合クラスタ理論が正確な結果を与えることができないという非常に難しいケースである。 tcを付加すると、適応ans\"atzeにおいて必要な演算子の数と回路深度を削減しながら、完全基底集合(cbs)の限界に近いエネルギーが得られる。 さらに,回路深度の低減によりノイズ耐性が向上し,収束が促進される。 本研究は, 適応型 ans\atze とTC 法を組み合わせることで, CBS 限界に近い精度の量子化学結果が得られる小型, 耐雑音性, 最適化容易な量子回路が得られることを示す。

The near-term utility of quantum computers is hindered by hardware constraints in the form of noise. One path to achieving noise resilience in hybrid quantum algorithms is to decrease the required circuit depth -- the number of applied gates -- to solve a given problem. This work demonstrates how to reduce circuit depth by combining the transcorrelated (TC) approach with adaptive quantum ans\"atze and their implementations in the context of variational quantum imaginary time evolution (AVQITE). The combined TC-AVQITE method is used to calculate ground state energies across the potential energy surfaces of H$_4$, LiH, and H$_2$O. In particular, H$_4$ is a notoriously difficult case where unitary coupled cluster theory, including singles and doubles excitations, fails to provide accurate results. Adding TC yields energies close to the complete basis set (CBS) limit while reducing the number of necessary operators -- and thus circuit depth -- in the adaptive ans\"atze. The reduced circuit depth furthermore makes our algorithm more noise-resilient and accelerates convergence. Our study demonstrates that combining the TC method with adaptive ans\"atze yields compact, noise-resilient, and easy-to-optimize quantum circuits that yield accurate quantum chemistry results close to the CBS limit.
翻訳日:2024-02-28 20:22:30 公開日:2024-02-26
# 局所的なビーフ画像と映像ファイルを用いたデータ処理と最適化によるロバストなセンサネットワーク設計の実現

Enabling robust sensor network design with data processing and optimization making use of local beehive image and video files ( http://arxiv.org/abs/2402.16655v1 )

ライセンス: Link先を確認
Ephrance Eunice Namugenyi (1), David Tugume (2), Augustine Kigwana (3), Benjamin Rukundo (4) ((1) Department of Computer Networks, CoCIS, Makerere University, Uganda AdEMNEA Project)(参考訳) 堅牢なセンサネットワークのダイナミックな性質と、データ駆動アプローチへの依存度が高まることを考えると、リソース効率を改善するための創造的な方法がすぐに必要であり、大きな課題のひとつは、例えば最適なビーヒーブ画像やビデオデータファイルなど、センサネットワークから収集された大きなデータファイルを管理することである。 われわれは最先端のエッジコンピューティング技術を用いてデータ転送とストレージを最適化し、この問題に対処する革新的なパラダイムを編み出した。 提案手法は,画像とビデオのデータ圧縮と数値データに対するデータ集約技術を組み合わせたものである。 具体的には,データ圧縮率とスループットの観点から,従来のbzip2よりも優れた性能を持つ新しい圧縮アルゴリズムを提案する。 また,ネットワークトラフicを小さくすることで,個々のデータパケットのオーバヘッドを処理する時間を削減することで,基本的に非常によく動作するデータアグリゲーションアルゴリズムも設計した。 私たちのアプローチの重要な側面は、さまざまなデータセットを得たローカルの養蜂農場アプリケーションに見られるような、リソースに制約された環境での運用を可能にすることです。 これを実現するために,スループットや遅延耐性,圧縮速度,データ再送信といった重要なパラメータを慎重に検討する。 これにより、リソースへの影響を最小限に抑えながら、堅牢なネットワーク管理のユニークな要件を満たすことが可能になります。 全体として,本研究は,ロバストなセンサネットワーク間のデータ伝送と処理を最適化し,特に局所的なビーフ画像と映像データファイルに最適化するための総合的なソリューションを提示し,注目する。 我々のアプローチは、堅牢なセンサネットワーク管理の効率性と効率性を大幅に改善する可能性があり、Bee Hive Data Managementのような様々なIoTアプリケーションにおける持続可能なプラクティスをサポートする。

There is an immediate need for creative ways to improve resource ef iciency given the dynamic nature of robust sensor networks and their increasing reliance on data-driven approaches.One key challenge faced is ef iciently managing large data files collected from sensor networks for example optimal beehive image and video data files. We of er a revolutionary paradigm that uses cutting-edge edge computing techniques to optimize data transmission and storage in order to meet this problem. Our approach encompasses data compression for images and videos, coupled with a data aggregation technique for numerical data. Specifically, we propose a novel compression algorithm that performs better than the traditional Bzip2, in terms of data compression ratio and throughput. We also designed as an addition a data aggregation algorithm that basically performs very well by reducing on the time to process the overhead of individual data packets there by reducing on the network traf ic. A key aspect of our approach is its ability to operate in resource-constrained environments, such as that typically found in a local beehive farm application from where we obtained various datasets. To achieve this, we carefully explore key parameters such as throughput, delay tolerance, compression rate, and data retransmission. This ensures that our approach can meet the unique requirements of robust network management while minimizing the impact on resources. Overall, our study presents and majorly focuses on a holistic solution for optimizing data transmission and processing across robust sensor networks for specifically local beehive image and video data files. Our approach has the potential to significantly improve the ef iciency and ef ectiveness of robust sensor network management, thereby supporting sustainable practices in various IoT applications such as in Bee Hive Data Management.
翻訳日:2024-02-28 20:21:18 公開日:2024-02-26
# GigaPevt: マルチモーダル医療アシスタント

GigaPevt: Multimodal Medical Assistant ( http://arxiv.org/abs/2402.16654v1 )

ライセンス: Link先を確認
Pavel Blinov, Konstantin Egorov, Ivan Sviridov, Nikolay Ivanov, Stepan Botman, Evgeniy Tagin, Stepan Kudin, Galina Zubkova, Andrey Savchenko(参考訳) インテリジェントで効率的な医療アシスタントを構築することは、依然として難しいAI問題である。 主な制限は、総合的な患者の知覚を減少させるデータモダリティの欠如にある。 大規模言語モデルの対話機能と専門的な医療モデルを組み合わせた,最初のマルチモーダル医療アシスタントであるgigapevtを提案する。 このようなアプローチは、ダイアログの品質とメトリックパフォーマンスのすぐれた利点を示し、質問応答タスクにおける1.18\%の精度向上を示している。

Building an intelligent and efficient medical assistant is still a challenging AI problem. The major limitation comes from the data modality scarceness, which reduces comprehensive patient perception. This demo paper presents the GigaPevt, the first multimodal medical assistant that combines the dialog capabilities of large language models with specialized medical models. Such an approach shows immediate advantages in dialog quality and metric performance, with a 1.18\% accuracy improvement in the question-answering task.
翻訳日:2024-02-28 20:20:23 公開日:2024-02-26
# 信頼性ルールベース(BRB)ハイブリッドエキスパートシステムに関する包括的調査:ブリッジング意思決定科学とプロフェッショナルサービス

A Comprehensive Survey of Belief Rule Base (BRB) Hybrid Expert system: Bridging Decision Science and Professional Services ( http://arxiv.org/abs/2402.16651v1 )

ライセンス: Link先を確認
Karim Derrick(参考訳) 信頼ルールベース(brb)システムは、エキスパートシステムの精度とデータ駆動モデルの適応性を統合するハイブリッドアプローチを採用している。 信念の度合いを通じて様々な不確実性に対応するためにif-thenルールを使用することによって特徴付けられるBRBは、曖昧さ、ランダムさ、無知を順応的に扱う。 この半定量的ツールは、様々な情報源から数値データと言語知識の処理に優れており、複雑な非線形システムのモデリングにおいて必須の資源となっている。 特に、BRBの透明で白い箱の性質は、意思決定者や利害関係者のアクセシビリティと明確性を保証し、適用性をさらに向上させる。 本研究は,ネットワークセキュリティや障害診断における意思決定や信頼性評価から,BRBの進化と多面的応用まで,さまざまな分野で採用されている。 異なる領域にわたる開発を分析することで、BRBは伝統的に技術的破壊に抵抗する分野、特に保険や法律に革命を起こす可能性を強調します。

The Belief Rule Base (BRB) system that adopts a hybrid approach integrating the precision of expert systems with the adaptability of data-driven models. Characterized by its use of if-then rules to accommodate various types of uncertainty through belief degrees, BRB adeptly handles fuzziness, randomness, and ignorance. This semi-quantitative tool excels in processing both numerical data and linguistic knowledge from diverse sources, making it as an indispensable resource in modelling complex nonlinear systems. Notably, BRB's transparent, white-box nature ensures accessibility and clarity for decision-makers and stakeholders, further enhancing its applicability. With its growing adoption in fields ranging from decision-making and reliability evaluation in network security and fault diagnosis, this study aims to explore the evolution and the multifaceted applications of BRB. By analysing its development across different domains, we highlight BRB's potential to revolutionize sectors traditionally resistant to technological disruption, in particular insurance and law.
翻訳日:2024-02-28 20:20:10 公開日:2024-02-26
# ESG知覚分析:GPTを含む人間と言語モデルの性能の比較

ESG Sentiment Analysis: comparing human and language model performance including GPT ( http://arxiv.org/abs/2402.16650v1 )

ライセンス: Link先を確認
Karim Derrick(参考訳) 本稿では,環境・社会・ガバナンス(ESG)のソーシャルメディアにおける感情測定の課題について考察する。 ESGは近年、金融セクターからの関心が高まり、ESG関連の評判にもとづく多くのビジネスのパフォーマンスが重要視されている。 ESGに関する評判を測定するための感情分析の利用が発展し、それを行う機械の使用に関心を持つようになった。 デジタルメディアの時代は、ソーシャルメディアプラットフォームの成長によって、新たなメディアソースが爆発的に増加した。 この成長するデータ環境は、政治、医療、市場研究を含む多くの分野にわたる行動的洞察研究の優れた源となっている。 本研究は,ESG関連感情測定において,機械性能の最先端性と比較することを目的とする。 この目的のために、研究者は150ツイートの感情を分類し、信頼性測定を行う。 次に、3人の研究者のコンセンサスに基づいて金標準データセットを確立し、このデータセットを使用して、感情分類のためのVADER辞書アプローチと、Llama2、T5、Mistral、Mixtral、FINBERT、GPT3.5、GPT4を含む複数の言語モデルアプローチに基づいて、異なるマシンアプローチのパフォーマンスを測定する。

In this paper we explore the challenges of measuring sentiment in relation to Environmental, Social and Governance (ESG) social media. ESG has grown in importance in recent years with a surge in interest from the financial sector and the performance of many businesses has become based in part on their ESG related reputations. The use of sentiment analysis to measure ESG related reputation has developed and with it interest in the use of machines to do so. The era of digital media has created an explosion of new media sources, driven by the growth of social media platforms. This growing data environment has become an excellent source for behavioural insight studies across many disciplines that includes politics, healthcare and market research. Our study seeks to compare human performance with the cutting edge in machine performance in the measurement of ESG related sentiment. To this end researchers classify the sentiment of 150 tweets and a reliability measure is made. A gold standard data set is then established based on the consensus of 3 researchers and this data set is then used to measure the performance of different machine approaches: one based on the VADER dictionary approach to sentiment classification and then multiple language model approaches, including Llama2, T5, Mistral, Mixtral, FINBERT, GPT3.5 and GPT4.
翻訳日:2024-02-28 20:19:39 公開日:2024-02-26
# オープンエンドのビジュアル品質比較に向けて

Towards Open-ended Visual Quality Comparison ( http://arxiv.org/abs/2402.16641v1 )

ライセンス: Link先を確認
Haoning Wu, Hanwei Zhu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Chunyi Li, Annan Wang, Wenxiu Sun, Qiong Yan, Xiaohong Liu, Guangtao Zhai, Shiqi Wang, and Weisi Lin(参考訳) 比較設定(例えば、ペアワイズ選択、リストワイズランキング)は、画像品質評価(iqa)のための幅広い主観的研究で採用されている。 本研究では,新たな大規模マルチモダリティモデル(LMM)のエッジを拡張し,視覚的品質比較をオープンエンド設定へ拡張する。 1)品質比較に関するオープンレンジ質問に回答できる。 2) 直接回答以上の詳細な推論を提供することができる。 そこで我々は,コ・インストラクトを提案する。 このオープンソースのオープンソースの視覚的品質比較器を訓練するために、2つのソースからCo-Instruct-562Kデータセットを収集します。 (a)LMMをマージした単一画像品質記述 b) ラベルなしデータに対する GPT-4V "Teacher" 応答 さらに、この設定をよりよく評価するために、LMMのマルチイメージ比較に関する最初のベンチマークであるMICBenchを提案する。 我々は、Co-Instructが最先端のオープンソースLMMよりも30%高い精度を達成するだけでなく、既存のベンチマークと提案したMICBenchの両方でGPT-4V(教師)よりも優れていることを示した。 私たちのモデルはhttps://huggingface.co/q-future/co-instructで公開しています。

Comparative settings (e.g. pairwise choice, listwise ranking) have been adopted by a wide range of subjective studies for image quality assessment (IQA), as it inherently standardizes the evaluation criteria across different observers and offer more clear-cut responses. In this work, we extend the edge of emerging large multi-modality models (LMMs) to further advance visual quality comparison into open-ended settings, that 1) can respond to open-range questions on quality comparison; 2) can provide detailed reasonings beyond direct answers. To this end, we propose the Co-Instruct. To train this first-of-its-kind open-source open-ended visual quality comparer, we collect the Co-Instruct-562K dataset, from two sources: (a) LMM-merged single image quality description, (b) GPT-4V "teacher" responses on unlabeled data. Furthermore, to better evaluate this setting, we propose the MICBench, the first benchmark on multi-image comparison for LMMs. We demonstrate that Co-Instruct not only achieves 30% higher superior accuracy than state-of-the-art open-source LMMs, but also outperforms GPT-4V (its teacher), on both existing related benchmarks and the proposed MICBench. Our model is published at https://huggingface.co/q-future/co-instruct.
翻訳日:2024-02-28 20:19:17 公開日:2024-02-26
# drsi-net:マルチパーソンポーズ推定のためのデュアルレシデント空間インタラクションネットワーク

DRSI-Net: Dual-Residual Spatial Interaction Network for Multi-Person Pose Estimation ( http://arxiv.org/abs/2402.16640v1 )

ライセンス: Link先を確認
Shang Wu, Bin Wang(参考訳) フレーム内のすべての人のキーポイントを見つけることを目的とした多人数ポーズ推定(MPPE)は、コンピュータビジョンの活発な研究分野である。 異なる人間のポーズや複雑なシーンはMPPEを局所的な細部とグローバルな構造の両方に依存し、それらの欠如はキーポイントの特徴的不一致を引き起こす可能性がある。 この場合、特徴の局所的および大域的情報を効果的にリンクできる高次空間的相互作用は特に重要である。 しかし、ほとんどの手法は空間的相互作用を持たず、少数の手法は低次空間的相互作用を持つが、精度と複雑さのバランスが良くない。 そこで本稿では,mppeを高精度かつ低複雑性で利用するためのdual-residual spatial interaction network (drsi-net)を提案する。 drsi-netは, 浅層特徴と深層特徴との間に, より有用な空間情報を保持し, 類似度を高めるために, 隣接特徴の残余空間情報インタラクションを再帰的に行う。 マルチスケール機能融合で導入されたチャネルと空間の二重注意機構は、ターゲットキーポイントに関連する特徴に適応的に焦点を合わせるのに役立つ。 同時に、インタラクティブなチャネル次元を最適化し、勾配フローを分割することで、空間的相互作用モジュールは軽量に設計され、ネットワークの複雑さが軽減される。 COCOデータセットの実験結果によると、提案されたDRSI-Netは、精度と複雑さの両方で、他の最先端の手法よりも優れている。

Multi-person pose estimation (MPPE), which aims to locate keypoints for all persons in the frames, is an active research branch of computer vision. Variable human poses and complex scenes make MPPE dependent on both local details and global structures, and the absence of them may cause keypoint feature misalignment. In this case, high-order spatial interactions that can effectively link the local and global information of features are particularly important. However, most methods do not have spatial interactions, and a few methods have low-order spatial interactions but they are difficult to achieve a good balance between accuracy and complexity. To address the above problems, a Dual-Residual Spatial Interaction Network (DRSI-Net) for MPPE with high accuracy and low complexity is proposed in this paper. DRSI-Net recursively performs residual spatial information interactions on neighbor features, so that more useful spatial information can be retained and more similarities can be obtained between shallow and deep extracted features. The channel and spatial dual attention mechanism introduced in the multi-scale feature fusion also helps the network to adaptively focus on features relevant to target keypoints and further refine generated poses. At the same time, by optimizing interactive channel dimensions and dividing gradient flow, the spatial interaction module is designed to be lightweight, which reduces the complexity of the network. According to the experimental results on the COCO dataset, the proposed DRSI-Net outperforms other state-of-the-art methods in both accuracy and complexity.
翻訳日:2024-02-28 20:18:48 公開日:2024-02-26
# 最適配置サンプリングを用いた微分粒子フィルタ

Differentiable Particle Filtering using Optimal Placement Resampling ( http://arxiv.org/abs/2402.16639v1 )

ライセンス: Link先を確認
Domonkos Csuzdi, Oliv\'er T\"or\H{o}, Tam\'as B\'ecsi(参考訳) 粒子フィルタは非線形および非ガウス状態空間モデルにおける推論タスクにおいて頻繁に選択される。 これらは、フィルタリング分布を近似することで状態推論や、限界データ(観測)の確率を近似してパラメータ推論に使用できる。 低分散推定を得るためには、良い提案分布とよい再サンプリング方式が不可欠である。 しかし、多項再サンプリングのような従来の手法は、パラメータ推定のためのPFベースの損失関数に非微分性を導入し、勾配に基づく学習タスクを禁止している。 本研究では,経験的累積分布関数から決定論的サンプリングを行うことで,微分可能な再サンプリング手法を提案する。 本稿ではパラメータ推論タスクと提案学習について評価する。

Particle filters are a frequent choice for inference tasks in nonlinear and non-Gaussian state-space models. They can either be used for state inference by approximating the filtering distribution or for parameter inference by approximating the marginal data (observation) likelihood. A good proposal distribution and a good resampling scheme are crucial to obtain low variance estimates. However, traditional methods like multinomial resampling introduce nondifferentiability in PF-based loss functions for parameter estimation, prohibiting gradient-based learning tasks. This work proposes a differentiable resampling scheme by deterministic sampling from an empirical cumulative distribution function. We evaluate our method on parameter inference tasks and proposal learning.
翻訳日:2024-02-28 20:18:22 公開日:2024-02-26
# 小児脳画像におけるスカルストリッピング性能の向上

Boosting Skull-Stripping Performance for Pediatric Brain Images ( http://arxiv.org/abs/2402.16634v1 )

ライセンス: Link先を確認
William Kelley, Nathan Ngo, Adrian V. Dalca, Bruce Fischl, Lilla Z\"ollei, Malte Hoffmann(参考訳) 頭蓋骨採取とは、脳の画像から背景と非脳の解剖学的特徴を取り除くことである。 頭蓋骨を切断する道具は多数存在するが、対象とする小児は少ない。 周産期脳の発達を理解するための多施設の小児データ取得の取り組みが出現し、関連するデータ処理の準備が整った堅牢でよくテストされたツールを開発することが不可欠である。 しかし、発達する脳の幅広い神経解剖学的変化は、高い運動レベルや肩や胸の信号などの追加の課題と相まって、小児科の頭蓋切断に不適な成人特有の多くの道具を残している。 そこで我々は, 頭蓋骨切断モデルであるSynthStrip (d-SynthStrip) を開発した。 このフレームワークはラベルマップから合成された高度に可変な画像にネットワークを公開する。 我々のモデルは、スキャンタイプと年齢コホートで小児のベースラインを大幅に上回る。 さらに、このツールの<1分のランタイムは、最速のベースラインと比較できる。 私たちはモデルをhttps://w3id.org/synthstrip.comで配布します。

Skull-stripping is the removal of background and non-brain anatomical features from brain images. While many skull-stripping tools exist, few target pediatric populations. With the emergence of multi-institutional pediatric data acquisition efforts to broaden the understanding of perinatal brain development, it is essential to develop robust and well-tested tools ready for the relevant data processing. However, the broad range of neuroanatomical variation in the developing brain, combined with additional challenges such as high motion levels, as well as shoulder and chest signal in the images, leaves many adult-specific tools ill-suited for pediatric skull-stripping. Building on an existing framework for robust and accurate skull-stripping, we propose developmental SynthStrip (d-SynthStrip), a skull-stripping model tailored to pediatric images. This framework exposes networks to highly variable images synthesized from label maps. Our model substantially outperforms pediatric baselines across scan types and age cohorts. In addition, the <1-minute runtime of our tool compares favorably to the fastest baselines. We distribute our model at https://w3id.org/synthstrip.
翻訳日:2024-02-28 20:18:12 公開日:2024-02-26
# イタリア語における概念記述の複合化のためのドメイン埋め込み

Domain Embeddings for Generating Complex Descriptions of Concepts in Italian Language ( http://arxiv.org/abs/2402.16632v1 )

ライセンス: Link先を確認
Alessandro Maisto(参考訳) 本研究では,電子辞書から抽出した言語情報と語彙情報に富んだ分散意味資源を提案し,分布ベクトルで表される連続意味値と一般的な意味論理論で表される離散記述とのギャップを埋めることの課題に対処する。 近年、多くの研究者が埋め込みと意味論と意味論の包括的理論の間のネクサスに集中している。 これはしばしば、分散モデルにおける単語の意味の表現を、神経的復号法を用いて、意味的プリミティブや特徴のような、独立した手作業で構築された特性の集合に復号する。 本手法は,言語データに基づく代替戦略を導入する。 我々は,4つの意味的特徴と20の具体的な名詞サブカテゴリに分類されたイタリア語名詞の分類と,それらの意味的クラスに基づいて分類されたイタリア語動詞のリストという,ドメイン固有の共起行列のコレクションを開発した。 これらの行列において、各単語の共起値は、特定の語彙領域に関連する単語の集合でのみ計算される。 リソースは21のドメイン固有の行列と1つの包括的なマトリックスとグラフィカルユーザインタフェースから構成される。 本モデルは,位置名詞に基づくマトリクスや動物生息地の概念など,具体的な概念知識に直接関連するマトリクスを選択することにより,概念の推論された意味記述の生成を促進する。 本研究は,動物名詞の自動分類と動物特徴の抽出という2つの実験を通して資源の有用性を評価し,有望な結果を得た。

In this work, we propose a Distributional Semantic resource enriched with linguistic and lexical information extracted from electronic dictionaries, designed to address the challenge of bridging the gap between the continuous semantic values represented by distributional vectors and the discrete descriptions offered by general semantics theory. Recently, many researchers have concentrated on the nexus between embeddings and a comprehensive theory of semantics and meaning. This often involves decoding the representation of word meanings in Distributional Models into a set of discrete, manually constructed properties such as semantic primitives or features, using neural decoding techniques. Our approach introduces an alternative strategy grounded in linguistic data. We have developed a collection of domain-specific co-occurrence matrices, derived from two sources: a classification of Italian nouns categorized into 4 semantic traits and 20 concrete noun sub-categories, and a list of Italian verbs classified according to their semantic classes. In these matrices, the co-occurrence values for each word are calculated exclusively with a defined set of words pertinent to a particular lexical domain. The resource comprises 21 domain-specific matrices, one comprehensive matrix, and a Graphical User Interface. Our model facilitates the generation of reasoned semantic descriptions of concepts by selecting matrices directly associated with concrete conceptual knowledge, such as a matrix based on location nouns and the concept of animal habitats. We assessed the utility of the resource through two experiments, achieving promising outcomes in both: the automatic classification of animal nouns and the extraction of animal features.
翻訳日:2024-02-28 20:17:53 公開日:2024-02-26
# SelectIT:不確実性を考慮した自己回帰による大規模言語モデルの選択的インストラクションチューニング

SelectIT: Selective Instruction Tuning for Large Language Models via Uncertainty-Aware Self-Reflection ( http://arxiv.org/abs/2402.16705v1 )

ライセンス: Link先を確認
Liangxin Liu, Xuebo Liu, Derek F. Wong, Dongfang Li, Ziyi Wang, Baotian Hu, Min Zhang(参考訳) インストラクションチューニング(IT)は、人間中心の相互作用に対して大きな言語モデル(LLM)を調整するために重要である。 近年の進歩は、小型で高品質なITデータのサブセットを慎重に選択することで、LCMの性能を大幅に向上させることができることを示している。 これにもかかわらず、一般的なアプローチは追加のモデルやデータセットに依存することが多い。 本研究では,LLM自体の基盤的能力を生かした,SelectITと呼ばれる新しいアプローチを提案する。 具体的には、LLMに存在する本質的な不確実性を利用して、余分なリソースを必要とせずに、より効果的に高品質なITデータを選択する。 さらに,SelectITをAlpaca-GPT4データセットに適用した新しいITデータセットであるSelective Alpacaを導入する。 実証的な結果は、Selective Alpacaを使用したITが、実質的なモデル能力の向上につながることを示している。 SelectITの堅牢性は、様々な基礎モデルやドメイン固有のタスクでも裏付けられている。 我々の発見は、より長く、より計算集約的なITデータが、ITの優れた情報源として役立ち、この分野における将来の研究に貴重な洞察をもたらすことを示唆している。 データ、コード、スクリプトはhttps://github.com/Blue-Raincoat/SelectITで無料で入手できる。

Instruction tuning (IT) is crucial to tailoring large language models (LLMs) towards human-centric interactions. Recent advancements have shown that the careful selection of a small, high-quality subset of IT data can significantly enhance the performance of LLMs. Despite this, common approaches often rely on additional models or data sets, which increases costs and limits widespread adoption. In this work, we propose a novel approach, termed SelectIT, that capitalizes on the foundational capabilities of the LLM itself. Specifically, we exploit the intrinsic uncertainty present in LLMs to more effectively select high-quality IT data, without the need for extra resources. Furthermore, we introduce a novel IT dataset, the Selective Alpaca, created by applying SelectIT to the Alpaca-GPT4 dataset. Empirical results demonstrate that IT using Selective Alpaca leads to substantial model ability enhancement. The robustness of SelectIT has also been corroborated in various foundation models and domain-specific tasks. Our findings suggest that longer and more computationally intensive IT data may serve as superior sources of IT, offering valuable insights for future research in this area. Data, code, and scripts are freely available at https://github.com/Blue-Raincoat/SelectIT.
翻訳日:2024-02-28 20:12:58 公開日:2024-02-26
# 感性分析のための効果的なアンサンブルの生成

Generating Effective Ensembles for Sentiment Analysis ( http://arxiv.org/abs/2402.16700v1 )

ライセンス: Link先を確認
Itay Etelis, Avi Rosenfeld, Abraham Itzhak Weinberg, David Sarne(参考訳) 近年、トランスフォーマーモデルは自然言語処理(NLP)に革命をもたらし、感性分析(SA)など様々なタスクで例外的な成果を上げている。 そのため、現在のSAの最先端のアプローチは、主にトランスフォーマーモデルのみに依存しており、ベンチマークデータセット上で印象的な精度レベルを実現している。 本稿では, トランスモデルよりもトランスモデルの方が劣っているにもかかわらず, トランスモデルだけでなく, 従来のNLPモデルも組み込むことで, SAのアンサンブルの精度を向上する鍵となることを示す。 しかし、実証的に示すように、これはアンサンブルの構築方法の変更を必要とし、特に我々が提示する階層型アンサンブル構成(HEC)アルゴリズムに依存している。 8つの標準SAデータセットにわたる実証研究により、HECを介して構築されたモデルタイプを組み込んだアンサンブルが、従来のアンサンブルよりも大幅に優れていることが明らかになった。 最後に, HEC と GPT-4 の性能の比較分析を行い, GPT-4 が最先端の SA 手法に近づきつつも, 提案したアンサンブル戦略に勝っていることを示す。

In recent years, transformer models have revolutionized Natural Language Processing (NLP), achieving exceptional results across various tasks, including Sentiment Analysis (SA). As such, current state-of-the-art approaches for SA predominantly rely on transformer models alone, achieving impressive accuracy levels on benchmark datasets. In this paper, we show that the key for further improving the accuracy of such ensembles for SA is to include not only transformers, but also traditional NLP models, despite the inferiority of the latter compared to transformer models. However, as we empirically show, this necessitates a change in how the ensemble is constructed, specifically relying on the Hierarchical Ensemble Construction (HEC) algorithm we present. Our empirical studies across eight canonical SA datasets reveal that ensembles incorporating a mix of model types, structured via HEC, significantly outperform traditional ensembles. Finally, we provide a comparative analysis of the performance of the HEC and GPT-4, demonstrating that while GPT-4 closely approaches state-of-the-art SA methods, it remains outperformed by our proposed ensemble strategy.
翻訳日:2024-02-28 20:12:38 公開日:2024-02-26
# 大規模言語モデルのための意思決定と一般化可能なツール利用を目指して

Look Before You Leap: Towards Decision-Aware and Generalizable Tool-Usage for Large Language Models ( http://arxiv.org/abs/2402.16696v1 )

ライセンス: Link先を確認
Anchun Gui, Jian Li, Yong Dai, Nan Du, Han Xiao(参考訳) ツールによる大規模言語モデル(llm)は、最新の知識にアクセスし、幻覚の問題を緩和するときに広く注目を集めている。 今日では、高度なクローズドソース LLM (例:ChatGPT) は、プロンプトやコンテキスト内学習技術を通じて、驚くほどのツール使用能力を実証している。 ツール操作におけるオープンソースのLLM(例えばLLaMA)の機能を強化するため、現在の取り組みはテンプレート駆動またはトークントリガーツールの使用に重点を置いている。 しかしながら、制約されたツールインタラクションによる多様なユーザクエリに対処する、以前のLLMの柔軟性は、ツール使用学習がタスクとツール固有のデータセットに基づいているため、新しいツールを使用する際の一般化性を制限している。 本稿では,これらの懸念を軽減するために,DeER(Decior-aware and generalizable tool-usage framework)を提案する。 具体的には,複数の決定枝を持つツール使用サンプルを自動生成パイプラインで構築し,多様なシナリオにおいてllmの意思決定意識を喚起する。 一方,LLMの非表示ツールに対する一般化性を高めるための新しいツールサンプリング手法を提案する。 広範な実験により,提案するシカは有効性を示し,各種データセットのベースラインを著しく上回っている。

Tool-augmented large language models (LLMs) are attracting widespread attention when accessing up-to-date knowledge and alleviating hallucination issues. Nowadays, advanced closed-source LLMs (e.g., ChatGPT) have demonstrated surprising tool-usage capabilities through prompting and in-context learning techniques. To empower the capabilities of open-source LLMs (e.g., LLaMA) in manipulating tools, current efforts focus on either template-driven or token-triggered tool-usage. However, the former hampers LLMs' flexibility to address diverse user's queries due to constrained tool interactions, while the latter limits the generalizability when engaging with new tools, since tool-usage learning is based on task- and tool-specific datasets. To alleviate these concerns, in this paper, we propose a decision-aware and generalizable tool-usage framework (DEER). Specifically, we first construct the tool-usage samples with multiple decision branches via an automatic generation pipeline, thereby inspiring the decision-making awareness of LLMs under diverse scenarios. Meanwhile, we propose a novel tool sampling strategy to enhance the generalizability of LLMs over unseen tools. Extensive experiments demonstrate that our proposed DEER is effective and significantly outperforms baselines across various datasets.
翻訳日:2024-02-28 20:12:18 公開日:2024-02-26
# 小型シリコンウェハセルにおけるアルカリ金属ガスの間接励起

Indirect pumping of alkali-metal gases in a miniature silicon-wafer cell ( http://arxiv.org/abs/2402.16695v1 )

ライセンス: Link先を確認
J. D. Zipfel, P. Bevington, L. Wright, W. Chalupczak, G. Quick, B. Steele, J. Nicholson and V. Guarrera(参考訳) 原子スピンセンサーは量子技術のシナリオにおいて重要な位置を占めており、多くの応用において重要な小型パッケージと正確な測定を組み合わせることができる。 本研究では,二重チャンバー構造とヒータを一体化した小型シリコンウェハセルの設計と実現について報告する。 細胞は、主ポンプパラメータ、温度、バイアス磁場のスピンダイナミクス依存性を体系的に研究することによって試験される。 結果はcmサイズのパラフィンコート細胞に対してベンチマークを行い、無線周波数駆動型原子磁気センサの動作条件の最適化を可能にした。 特に、2つの細胞で間接的な光ポンピングを行うと、全く異なる条件下で類似の線狭化機構が現れることが観察される。 磁気共鳴線幅を最大信号-雑音比で約100Hz、非ゼロ磁場設定で、原子ショット-ノイズ制限状態で、競合する結果が得られる。

Atom spin sensors occupy a prominent position in the scenario of quantum technology, as they can combine precise measurements with appealing miniature packages which are crucial for many applications. In this work, we report on the design and realization of miniature silicon-wafer cells, with a double-chamber configuration and integrated heaters. The cells are tested by systematically studying the spin dynamics dependence on the main pump parameters, temperature, and bias magnetic field. The results are benchmarked against cm-sized paraffin-coated cells, which allows for optimisation of operating conditions of a radio-frequency driven atomic magnetometer. In particular, we observe that, when indirect optical pumping is performed on the two cells, an analogous line narrowing mechanism appears in otherwise very different cells' conditions. Competitive results are obtained, with magnetic resonance linewidths of roughly 100 Hz at the maximum signal-to-noise ratio, in a non-zero magnetic field setting, and in an atomic shot-noise limited regime.
翻訳日:2024-02-28 20:11:56 公開日:2024-02-26
# HumanEval-XL: 言語間自然言語一般化のための多言語コード生成ベンチマーク

HumanEval-XL: A Multilingual Code Generation Benchmark for Cross-lingual Natural Language Generalization ( http://arxiv.org/abs/2402.16694v1 )

ライセンス: Link先を確認
Qiwei Peng, Yekun Chai, Xuhong Li(参考訳) 大規模言語モデル(LLM)は、テキストプロンプトからコードを生成することに大きく進歩している。 しかし、既存のベンチマークは主に英語のプロンプトを多言語コードに翻訳するか、非常に制限された自然言語(nls)に制限されている。 これらのベンチマークは、多言語コードに対する膨大な多言語NLの展望を見落とし、多言語LLMの評価において重要なギャップを残している。 これに対しHumanEval-XLは,この欠陥に対処するために開発された多言語コード生成ベンチマークである。 HumanEval-XLは23のNLと12のプログラミング言語(PL)の接続を確立し、平均8.33のテストケースを持つ22,080のプロンプトからなる。 複数のNLとPLの並列データを保証することで、HumanEval-XLは多言語LLMのための総合的な評価プラットフォームを提供し、異なるNLの理解を評価することができる。 我々の研究は、多言語コード生成領域におけるNL一般化の評価において、空白を埋める先駆的なステップとなる。 評価コードとデータは \url{https://github.com/FloatAI/HumanEval-XL} で公開しています。

Large language models (LLMs) have made significant progress in generating codes from textual prompts. However, existing benchmarks have mainly concentrated on translating English prompts to multilingual codes or have been constrained to very limited natural languages (NLs). These benchmarks have overlooked the vast landscape of massively multilingual NL to multilingual code, leaving a critical gap in the evaluation of multilingual LLMs. In response, we introduce HumanEval-XL, a massively multilingual code generation benchmark specifically crafted to address this deficiency. HumanEval-XL establishes connections between 23 NLs and 12 programming languages (PLs), and comprises of a collection of 22,080 prompts with an average of 8.33 test cases. By ensuring parallel data across multiple NLs and PLs, HumanEval-XL offers a comprehensive evaluation platform for multilingual LLMs, allowing the assessment of the understanding of different NLs. Our work serves as a pioneering step towards filling the void in evaluating NL generalization in the area of multilingual code generation. We make our evaluation code and data publicly available at \url{https://github.com/FloatAI/HumanEval-XL}.
翻訳日:2024-02-28 20:11:40 公開日:2024-02-26
# Tavis-Cummingsモデルに対するノイズ量子シミュレーションアルゴリズムのリソース要求の比較

Comparing resource requirements of noisy quantum simulation algorithms for the Tavis-Cummings model ( http://arxiv.org/abs/2402.16692v1 )

ライセンス: Link先を確認
Alisa Haukisalmi, Matti Raasakka, Ilkka Tittonen(参考訳) フォールトトレラント量子コンピュータは、古典計算では実現不可能な量子システムのシミュレーションを促進することができる。 しかし、現在および近未来のノイズの多い中間スケール量子(NISQ)デバイスは制限されており、その利用にはさらなる戦略が必要である。 デバイスノイズを緩和するための量子エラー緩和(QEM)や、古典的な最適化とパラメータ化量子回路を組み合わせた変分量子アルゴリズム(VQA)などがある。 我々は、ゼロノイズ外挿法(ZNE)と回路折り畳みによるノイズ増幅法(ISL)と、VQAの回路再コンパイル方式であるインクリメンタル構造学習(ISL)を比較した。 これらは、ノイズシミュレーションによるTavis-Cummingsモデル(TCM)の時間進化に応用される。 どちらの手法も回路評価のオーバーヘッドを増大させるため、それらが生成する力学の精度と使用する量子資源の両面でどのように比較されるかは注目に値する。 さらに、ILLによる時間進化回路の雑音再コンパイルは、これまで検討されていない。 システムサイズが小さい場合,ISL は ZNE よりも誤差が小さいが,ZNE が優れている 4 キュービットに対して正しいダイナミクスを生成できないことがわかった。 ISLとZNEのリソース要件の多様化が観察され、ICLは多数の回路評価を犠牲にして低回路深度を実現している。

Fault-tolerant quantum computers could facilitate the simulation of quantum systems unfeasible for classical computation. However, the noisy intermediate-scale quantum (NISQ) devices of the present and near term are limited and their utilisation requires additional strategies. These include quantum error mitigation (QEM) for alleviating device noise, and variational quantum algorithms (VQAs) which combine classical optimization with short-depth, parameterized quantum circuits. We compare two such methods: zero-noise extrapolation (ZNE) with noise amplification by circuit folding, and incremental structural learning (ISL), a type of circuit recompiling VQA. These are applied to Trotterized time-evolution of the Tavis--Cummings model (TCM) under a noise simulation. Since both methods add circuit evaluation overhead, it is of interest to see how they compare both in the accuracy of the dynamics they produce, and in terms of the quantum resources used. Additionally, noisy recompilation of time-evolution circuits with ISL has not previously been explored. We find that while ISL achieves lower error than ZNE for smaller system sizes, it fails to produce correct dynamics for 4 qubits, where ZNE is superior. Diverging resource requirements for ISL and ZNE are observed, with ISL achieving low circuit depths at the cost of a large number of circuit evaluations.
翻訳日:2024-02-28 20:11:19 公開日:2024-02-26
# 単粒子グラフェン量子ドットにおけるフォノン制限谷寿命時間

Phonon-limited valley life times in single-particle bilayer graphene quantum dots ( http://arxiv.org/abs/2402.16691v1 )

ライセンス: Link先を確認
Luca Banszerus, Katrin Hecker, Lin Wang, Samuel M\"oller, Kenji Watanabe, Takashi Taniguchi, Guido Burkard, Christian Volk, Christoph Stampfer(参考訳) 2D半導体、グラフェン、二層グラフェンなどのハニカム結晶のバレー自由度はスピンと電荷と共に量子情報のキャリアとして有望である。 ゲート制御された単一粒子量子ドット (QD) が二層グラフェン (BLG) で実証され、スピンとバレーの量子ビットの実現への道が開かれたため、これはさらに真実である。 BLG QDでは長いスピン緩和時間が報告されているが、単一粒子谷の寿命については何も分かっていない。 ここでは,静電的に定義されたblg qdsにおいて,数マイクロ秒を超える1粒子の谷緩和時間(t_1$ times)を報告する。 垂直磁場に対する$T_1$の観測された依存は、電子-フォノン結合によって制限されるモデルにより定性的かつ定量的に理解することができる。 結合長の変化と変形電位による音響フォノンとの結合を制限機構として同定した。

The valley degree of freedom in honeycomb crystals such as 2D semiconductors, graphene and bilayer graphene is a promising carrier of quantum information alongside spin and charge. This is all the more true since gate-controlled single-particle quantum dots (QDs) have been demonstrated in bilayer graphene (BLG), paving the way for the realisation of spin and valley qubits. Although long spin relaxation times have recently been reported in BLG QDs, nothing is known about single-particle valley lifetimes. Here we report single-particle valley relaxation times ($T_1$ times) exceeding several microseconds in electrostatically defined BLG QDs. The observed dependence of $T_1$ on the perpendicular magnetic field can be understood qualitatively and quantitatively by a model in which $T_1$ is limited by electron-phonon coupling. We identify coupling to acoustic phonons via the bond length change and via the deformation potential as the limiting mechanisms.
翻訳日:2024-02-28 20:10:56 公開日:2024-02-26
# 生医学的および臨床訓練済みモデルのフランス長期文書への適応--比較研究

Adaptation of Biomedical and Clinical Pretrained Models to French Long Documents: A Comparative Study ( http://arxiv.org/abs/2402.16689v1 )

ライセンス: Link先を確認
Adrien Bazoge, Emmanuel Morin, Beatrice Daille, Pierre-Antoine Gourraud(参考訳) 近年,フランスの生物医学領域において,BERTに基づく事前学習言語モデルが導入されている。 これらのモデルは、バイオメディカルおよび臨床NLPタスクの最先端の結果を得たが、512トークンの入力シーケンスの長さに制限されており、臨床ノートに適用した場合に課題が生じる。 本稿では,Longformerアーキテクチャを利用した長周期モデルに対する3つの適応戦略の比較研究を行う。 バイオメディカル領域と臨床領域にまたがる16の下流課題において,これらのモデルの評価を行った。 以上の結果から, フランスのバイオメディカルテキストを用いた英語臨床モデルの事前トレーニングは, フランスのバイオメディカルBERTをLongformerアーキテクチャに変換し, フランスのバイオメディカルLongformerをスクラッチから事前トレーニングすることも可能であることがわかった。 その結果、長いシーケンスのフランスのバイオメディカルモデルは、シーケンスの長さに関わらず下流のタスクのほとんどでパフォーマンスが向上するが、bertベースのモデルは名前付きエンティティ認識タスクにおいて最も効率的である。

Recently, pretrained language models based on BERT have been introduced for the French biomedical domain. Although these models have achieved state-of-the-art results on biomedical and clinical NLP tasks, they are constrained by a limited input sequence length of 512 tokens, which poses challenges when applied to clinical notes. In this paper, we present a comparative study of three adaptation strategies for long-sequence models, leveraging the Longformer architecture. We conducted evaluations of these models on 16 downstream tasks spanning both biomedical and clinical domains. Our findings reveal that further pre-training an English clinical model with French biomedical texts can outperform both converting a French biomedical BERT to the Longformer architecture and pre-training a French biomedical Longformer from scratch. The results underscore that long-sequence French biomedical models improve performance across most downstream tasks regardless of sequence length, but BERT based models remain the most efficient for named entity recognition tasks.
翻訳日:2024-02-28 20:10:40 公開日:2024-02-26
# ノイズ・コントラスト推定とコントラスト発散の関係について

On the connection between Noise-Contrastive Estimation and Contrastive Divergence ( http://arxiv.org/abs/2402.16688v1 )

ライセンス: Link先を確認
Amanda Olmin, Jakob Lindqvist, Lennart Svensson, Fredrik Lindsten(参考訳) ノイズコントラスト推定(NCE)は、複雑なデータ分布のモデル化に有効なエネルギーベースモデルなどの非正規化確率モデルを推定するための一般的な手法である。 重要サンプリング(ML-ISで再帰する)やMCMC(CDで逆転する)に依存する古典的最大可能性推定とは異なり、NCEは、しばしば難解な正規化定数を評価する必要性を避けるためにプロキシ基準を使用する。 明らかに概念的な違いがあるにもかかわらず,2つの評価基準であるランキングnce (rnce) と条件nce (cnce) はml推定法と見なせる。 具体的には、RNCEはML推定と条件付き重要サンプリングの組み合わせであり、RNCEとCNCEはどちらもCDの特殊なケースである。 これらの知見は両者のギャップを埋め、ML-ISとCD文学の技法をNCEに適用し、いくつかの有利な拡張を提供する。

Noise-contrastive estimation (NCE) is a popular method for estimating unnormalised probabilistic models, such as energy-based models, which are effective for modelling complex data distributions. Unlike classical maximum likelihood (ML) estimation that relies on importance sampling (resulting in ML-IS) or MCMC (resulting in contrastive divergence, CD), NCE uses a proxy criterion to avoid the need for evaluating an often intractable normalisation constant. Despite apparent conceptual differences, we show that two NCE criteria, ranking NCE (RNCE) and conditional NCE (CNCE), can be viewed as ML estimation methods. Specifically, RNCE is equivalent to ML estimation combined with conditional importance sampling, and both RNCE and CNCE are special cases of CD. These findings bridge the gap between the two method classes and allow us to apply techniques from the ML-IS and CD literature to NCE, offering several advantageous extensions.
翻訳日:2024-02-28 20:10:21 公開日:2024-02-26
# 古典流体の量子シミュレーションへの3つのカールマン経路

Three Carleman routes to the quantum simulation of classical fluids ( http://arxiv.org/abs/2402.16686v1 )

ライセンス: Link先を確認
Sauro Succi, Claudio Sanavio, Riccardo Scatamacchia, Carlo De Falco(参考訳) 古典流体の量子シミュレーションにおけるカールマンのアプローチについて論じる。 一 格子ボルツマン(CLB) 二 ナビエ・ストークス(CNS)及び 三 流体力学の粒(CG)定式化 CLBは優れた収束特性を示すが、カルマン変数の数で対応する回路の指数的な深さをもたらす非局所性に悩まされている。 CNSはカールマン変数を劇的に減らし、それが実現可能な深さに繋がる可能性があるが、局所性は保存可能であり、収束は縮小可能なレイノルズ数でも適度な数の反復で達成できる。 最後に、CGはCLBとCNSの最高の組み合わせになるかもしれないと論じられている。

We discuss the Carleman approach to the quantum simulation of classical fluids, as applied to i) Lattice Boltzmann (CLB), ii) Navier-Stokes (CNS) and iii) Grad (CG) formulations of fluid dynamics. CLB shows excellent convergence properties, but it is plagued by nonlocality which results in an exponential depth of the corresponding circuit with the number of Carleman variables. The CNS offers a dramatic reduction of the number Carleman variables, which might lead to a viable depth, provided locality can be preserved and convergence can be achieved with a moderate number of iterates also at sizeable Reynolds numbers. Finally it is argued that CG might combine the best of CLB and CNS.
翻訳日:2024-02-28 20:09:59 公開日:2024-02-26
# 高速洪水マッピングのための大規模マルチモーダルモデルを用いた洪水深度自動推定

Automated Floodwater Depth Estimation Using Large Multimodal Model for Rapid Flood Mapping ( http://arxiv.org/abs/2402.16684v1 )

ライセンス: Link先を確認
Temitope Akinboyewa, Huan Ning, M. Naser Lessani, Zhenlong Li(参考訳) 浸水深度に関する情報は洪水の影響を受けた地域の迅速な地図作成に不可欠である。 しかし、フィールドサーベイ、リモートセンシング、機械学習技術を含む洪水水深を推定する以前のアプローチは、時間消費と資源集約である。 本稿では,現場の洪水写真から水深を自動的かつ高速に推定する手法を提案する。 事前訓練された大型マルチモーダルモデルであるgpt-4 visionは特に洪水水の推定に使用された。 入力データには、道路標識、車、人、建物などの参照対象を含む写真が溢れていた。 共通物体の高さを基準として、モデルが洪水深度を出力として返却した。 その結果, 提案手法は, 洪水写真からの洪水深度を迅速かつ確実に推定できることを示した。 このような急速な推定は洪水浸水マッピングに変化をもたらし、洪水の重大度をほぼリアルタイムに評価し、効果的な洪水対応戦略に不可欠である。

Information on the depth of floodwater is crucial for rapid mapping of areas affected by floods. However, previous approaches for estimating floodwater depth, including field surveys, remote sensing, and machine learning techniques, can be time-consuming and resource-intensive. This paper presents an automated and fast approach for estimating floodwater depth from on-site flood photos. A pre-trained large multimodal model, GPT-4 Vision, was used specifically for estimating floodwater. The input data were flooding photos that contained referenced objects, such as street signs, cars, people, and buildings. Using the heights of the common objects as references, the model returned the floodwater depth as the output. Results show that the proposed approach can rapidly provide a consistent and reliable estimation of floodwater depth from flood photos. Such rapid estimation is transformative in flood inundation mapping and assessing the severity of the flood in near-real time, which is essential for effective flood response strategies.
翻訳日:2024-02-28 20:09:47 公開日:2024-02-26
# re-envisioning numerical information field theory (nifty.re):ガウス過程と変分推論のためのライブラリ

Re-Envisioning Numerical Information Field Theory (NIFTy.re): A Library for Gaussian Processes and Variational Inference ( http://arxiv.org/abs/2402.16683v1 )

ライセンス: Link先を確認
Gordian Edenhofer, Philipp Frank, Jakob Roth, Reimar H. Leike, Massin Guerdi, Lukas I. Scheel-Platz, Matteo Guardiani, Vincent Eberle, Margret Westerkamp, and Torsten A. En{\ss}lin(参考訳) イメージングは、ノイズの多い不完全なデータを人間が解釈できる空間に変換するプロセスである。 NIFTyはベイズ的なイメージングの枠組みであり、すでに天体物理学の多くの分野に応用されている。 以前の設計決定は、パフォーマンスとメソッドの開発を巧みに後押ししていた。 我々は、NIFTyの書き直し、NIFTy.reという、モデリングの原則を再検討し、推論戦略を拡張し、JAXへの重み付けの多くをアウトソースします。 このリライトはNIFTyで書かれたモデルを劇的に加速し、新しいタイプの推論マシンの基礎を築き、保守性を改善し、NIFTyとJAX機械学習エコシステムの相互運用性を可能にする。

Imaging is the process of transforming noisy, incomplete data into a space that humans can interpret. NIFTy is a Bayesian framework for imaging and has already successfully been applied to many fields in astrophysics. Previous design decisions held the performance and the development of methods in NIFTy back. We present a rewrite of NIFTy, coined NIFTy.re, which reworks the modeling principle, extends the inference strategies, and outsources much of the heavy lifting to JAX. The rewrite dramatically accelerates models written in NIFTy, lays the foundation for new types of inference machineries, improves maintainability, and enables interoperability between NIFTy and the JAX machine learning ecosystem.
翻訳日:2024-02-28 20:09:31 公開日:2024-02-26
# マルチパス転送カリキュラムによる連続領域適応の強化

Enhancing Continuous Domain Adaptation with Multi-Path Transfer Curriculum ( http://arxiv.org/abs/2402.16681v1 )

ライセンス: Link先を確認
Hanbing Liu, Jingge Wang, Xuan Zhang, Ye Guo, Yang Li(参考訳) トレーニングとテストデータの大きな分散ギャップに対処することは、機械学習における長年の課題であり、トランスファーラーニングやドメイン適応といった分野が生まれている。 近年,CDA(Continuous Domain Adaptation)が有効な手法として登場し,一連の中間ドメインを活用してそのギャップを埋めている。 本稿では,従来の研究で見過ごされたドメイン順序やエラー蓄積問題に厳格に対処する新しいCDA手法であるW-MPOTを提案する。 具体的には、CDAの理論的解析を動機とした、Wasserstein距離に基づくソースおよび中間領域上の転送カリキュラムを構築する。 次に,継続最適トランスポートの修正版を用いて,カリキュラム内の複数の有効なパスを通じて,ソースモデルを対象ドメインに転送する。 連続転送中の累積マッピングエラーの影響を軽減するために、双方向パス一貫性制約が導入された。 複数のデータセット上でW-MPOTを広範囲に評価し、マルチセッションアルツハイマーMR画像分類における54.1\%の精度向上と、バッテリー容量推定における94.7\%のMSE削減を実現した。

Addressing the large distribution gap between training and testing data has long been a challenge in machine learning, giving rise to fields such as transfer learning and domain adaptation. Recently, Continuous Domain Adaptation (CDA) has emerged as an effective technique, closing this gap by utilizing a series of intermediate domains. This paper contributes a novel CDA method, W-MPOT, which rigorously addresses the domain ordering and error accumulation problems overlooked by previous studies. Specifically, we construct a transfer curriculum over the source and intermediate domains based on Wasserstein distance, motivated by theoretical analysis of CDA. Then we transfer the source model to the target domain through multiple valid paths in the curriculum using a modified version of continuous optimal transport. A bidirectional path consistency constraint is introduced to mitigate the impact of accumulated mapping errors during continuous transfer. We extensively evaluate W-MPOT on multiple datasets, achieving up to 54.1\% accuracy improvement on multi-session Alzheimer MR image classification and 94.7\% MSE reduction on battery capacity estimation.
翻訳日:2024-02-28 20:09:19 公開日:2024-02-26
# Consept: Adapter-based Vision Transformer による連続的セマンティックセマンティックセグメンテーション

ConSept: Continual Semantic Segmentation via Adapter-based Vision Transformer ( http://arxiv.org/abs/2402.16674v1 )

ライセンス: Link先を確認
Bowen Dong, Guanglei Yang, Wangmeng Zuo, Lei Zhang(参考訳) 本稿では,従来の文献では十分に研究されていない問題である連続的セマンティックセグメンテーションのための視覚変換器の領域を探索する。 バニラVTへの既存のフレームワークの適応に関する実証的研究により、ViTにビジュアルアダプターを組み込んだり、蒸留条件で微調整VTを組み込むことは、新規クラスのセグメンテーション能力を高めるのに有利であることが判明した。 これらの知見は,Adapter ベースの ViT,すなわち ConSept による連続的セマンティックセグメンテーションを提案する動機となっている。 線形セグメンテーションヘッドを備えたViTの単純化されたアーキテクチャの中で、ConSeptは軽量アテンションベースのアダプタをバニラViTに統合する。 これらのアダプタの特徴適応能力を活用して、ConSeptは古いクラスで優れたセグメンテーション能力を保持するだけでなく、新しいクラスで有望なセグメンテーション品質を得る。 従来型および新クラスのセグメンテーション能力を同時に向上させ,ConSeptの本質的な抗破滅的忘れ込み能力をさらに活用するために, 抗破滅的忘れ込みを改善するための決定論的旧クラス境界による蒸留と, セグメンテーションマップの正規化における二重ダイス損失の2つの主要な戦略を提案する。 複数の連続的セマンティックセグメンテーションベンチマークにおけるConSeptの有効性は、重なり合うか不連続である。 コードは \url{https://github.com/DongSky/ConSept} で公開される。

In this paper, we delve into the realm of vision transformers for continual semantic segmentation, a problem that has not been sufficiently explored in previous literature. Empirical investigations on the adaptation of existing frameworks to vanilla ViT reveal that incorporating visual adapters into ViTs or fine-tuning ViTs with distillation terms is advantageous for enhancing the segmentation capability of novel classes. These findings motivate us to propose Continual semantic Segmentation via Adapter-based ViT, namely ConSept. Within the simplified architecture of ViT with linear segmentation head, ConSept integrates lightweight attention-based adapters into vanilla ViTs. Capitalizing on the feature adaptation abilities of these adapters, ConSept not only retains superior segmentation ability for old classes, but also attains promising segmentation quality for novel classes. To further harness the intrinsic anti-catastrophic forgetting ability of ConSept and concurrently enhance the segmentation capabilities for both old and new classes, we propose two key strategies: distillation with a deterministic old-classes boundary for improved anti-catastrophic forgetting, and dual dice losses to regularize segmentation maps, thereby improving overall segmentation performance. Extensive experiments show the effectiveness of ConSept on multiple continual semantic segmentation benchmarks under overlapped or disjoint settings. Code will be publicly available at \url{https://github.com/DongSky/ConSept}.
翻訳日:2024-02-28 20:08:57 公開日:2024-02-26
# StructLM:構造化知識接地のための汎用モデルの構築に向けて

StructLM: Towards Building Generalist Models for Structured Knowledge Grounding ( http://arxiv.org/abs/2402.16671v1 )

ライセンス: Link先を確認
Alex Zhuang, Ge Zhang, Tianyu Zheng, Xinrun Du, Junjie Wang, Weiming Ren, Stephen W. Huang, Jie Fu, Xiang Yue, Wenhu Chen(参考訳) テーブル、グラフ、データベースなどの構造化データソースはユビキタスな知識ソースである。 プレーンテキスト上での大規模言語モデル(LLM)の実証能力にもかかわらず、構造化データの解釈と利用能力は依然として限られている。 我々の研究は、LLMが構造化データを処理する能力に顕著な欠陥があることを明らかにしている。例えば、ChatGPTは最先端(SoTA)モデルに平均35%遅れている。 llmsにおける構造化知識グラウンド(skg)機能を強化するため,111万例からなる包括的命令チューニングデータセットを開発した。 このデータセットを利用して、7Bから34BパラメータのCode-LLaMAアーキテクチャに基づいて、StructLMと呼ばれる一連のモデルをトレーニングする。 我々のStructLMシリーズは、評価された18のデータセットのうち14のタスク固有モデルを超え、7つのSKGタスクに新しいSoTAの成果を確立する。 さらに、StructLMは6つの新しいSKGタスクにまたがる例外的な一般化を示す。 予測とは対照的に,StructLM-34BはStructLM-7Bよりもわずかに改善されている。 これは、構造化知識基盤は依然として困難な課題であり、新しいレベルに進むためにはより革新的な設計が必要であることを示唆している。

Structured data sources, such as tables, graphs, and databases, are ubiquitous knowledge sources. Despite the demonstrated capabilities of large language models (LLMs) on plain text, their proficiency in interpreting and utilizing structured data remains limited. Our investigation reveals a notable deficiency in LLMs' ability to process structured data, e.g., ChatGPT lags behind state-of-the-art (SoTA) model by an average of 35%. To augment the Structured Knowledge Grounding (SKG) capabilities in LLMs, we have developed a comprehensive instruction tuning dataset comprising 1.1 million examples. Utilizing this dataset, we train a series of models, referred to as StructLM, based on the Code-LLaMA architecture, ranging from 7B to 34B parameters. Our StructLM series surpasses task-specific models on 14 out of 18 evaluated datasets and establishes new SoTA achievements on 7 SKG tasks. Furthermore, StructLM demonstrates exceptional generalization across 6 novel SKG tasks. Contrary to expectations, we observe that scaling model size offers marginal benefits, with StructLM-34B showing only slight improvements over StructLM-7B. This suggests that structured knowledge grounding is still a challenging task and requires more innovative design to push to a new level.
翻訳日:2024-02-28 20:08:29 公開日:2024-02-26
# MISC:大規模マルチモーダルモデルによる超低ビットレート画像セマンティック圧縮

MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model ( http://arxiv.org/abs/2402.16749v1 )

ライセンス: Link先を確認
Chunyi Li, Guo Lu, Donghui Feng, Haoning Wu, Zicheng Zhang, Xiaohong Liu, Guangtao Zhai, Weisi Lin, Wenjun Zhang(参考訳) ストレージと通信プロトコルの進化に伴い、超低ビットレート画像圧縮が要求されるトピックとなっている。 しかし、既存の圧縮アルゴリズムは、地上の真実との整合性を犠牲にするか、超低ビットレートでの知覚品質を犠牲にしなければならない。 近年,LMM(Large Multimodal Model)の急速な発展により,これらの2つの目標のバランスが図られている。 本稿では、画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、上記の情報に基づいて画像を再構成するデコーダとからなる、マルチモーダル画像セマンティック圧縮(MISC)と呼ばれる手法を提案する。 実験の結果,提案したMISCは,従来の自然感画像(NSI)とAIGI(AIGI)コンテンツの両方を圧縮するのに適していることがわかった。 50%のビットレートを節約しながら、最適な一貫性と知覚結果を達成することができる。 コードはhttps://github.com/lcysyzxdxc/MISCでリリースされる。

With the evolution of storage and communication protocols, ultra-low bitrate image compression has become a highly demanding topic. However, existing compression algorithms must sacrifice either consistency with the ground truth or perceptual quality at ultra-low bitrate. In recent years, the rapid development of the Large Multimodal Model (LMM) has made it possible to balance these two goals. To solve this problem, this paper proposes a method called Multimodal Image Semantic Compression (MISC), which consists of an LMM encoder for extracting the semantic information of the image, a map encoder to locate the region corresponding to the semantic, an image encoder generates an extremely compressed bitstream, and a decoder reconstructs the image based on the above information. Experimental results show that our proposed MISC is suitable for compressing both traditional Natural Sense Images (NSIs) and emerging AI-Generated Images (AIGIs) content. It can achieve optimal consistency and perception results while saving 50% bitrate, which has strong potential applications in the next generation of storage and communication. The code will be released on https://github.com/lcysyzxdxc/MISC.
翻訳日:2024-02-28 20:02:37 公開日:2024-02-26
# 超次数推定の強化:事前条件化と再パラメータ化の検討

Enhancing Hypergradients Estimation: A Study of Preconditioning and Reparameterization ( http://arxiv.org/abs/2402.16748v1 )

ライセンス: Link先を確認
Zhenzhang Ye, Gabriel Peyr\'e, Daniel Cremers, Pierre Ablin(参考訳) バイレベル最適化は、内部最適化問題の解に依存する外部目的関数を最適化することを目的としている。 機械学習において、特にハイパーパラメータチューニングに使用される。 外部問題の過次性を計算する従来の方法は、Implicit Function Theorem (IFT) を使うことである。 内部問題解決の誤差の関数として、IFT法の誤差について検討する。 我々は、IFT式をプレコンディションし、内部問題をパラメータ化する2つの方法を分析する。 これら2つの修正がエラーに与える影響を詳細に説明し、関連する関数の上位導関数が果たす役割を強調する。 理論的には,超効率,すなわち内的問題の誤差に二次的に依存する超勾配の誤差が達成可能であり,これが不可能である場合の2つのアプローチを比較した。 回帰問題に対するハイパーパラメータチューニングの数値評価は,我々の理論的知見を裏付けるものである。

Bilevel optimization aims to optimize an outer objective function that depends on the solution to an inner optimization problem. It is routinely used in Machine Learning, notably for hyperparameter tuning. The conventional method to compute the so-called hypergradient of the outer problem is to use the Implicit Function Theorem (IFT). As a function of the error of the inner problem resolution, we study the error of the IFT method. We analyze two strategies to reduce this error: preconditioning the IFT formula and reparameterizing the inner problem. We give a detailed account of the impact of these two modifications on the error, highlighting the role played by higher-order derivatives of the functionals at stake. Our theoretical findings explain when super efficiency, namely reaching an error on the hypergradient that depends quadratically on the error on the inner problem, is achievable and compare the two approaches when this is impossible. Numerical evaluations on hyperparameter tuning for regression problems substantiate our theoretical findings.
翻訳日:2024-02-28 20:02:15 公開日:2024-02-26
# 可視波長フォトニックコイル共振器安定化ブリルアンレーザーによる捕捉イオン量子化とクロック動作

Trapped ion qubit and clock operations with a visible wavelength photonic coil resonator stabilized integrated Brillouin laser ( http://arxiv.org/abs/2402.16742v1 )

ライセンス: Link先を確認
Nitesh Chauhan, Christopher Caron, Jiawei Wang, Andrei Isichenko, Nishat Helaly, Kaikai Liu, Robert J. Niffenegger, Daniel J. Blumenthal(参考訳) 精密で安定で超低ノイズの可視光レーザーを原子システムに統合することは、量子情報科学の進歩とスケーラビリティと可搬性の向上に不可欠である。 閉じ込められたイオンは、高忠実度量子コンピューティング、高精度光時計、精密量子センサーのための主要なアプローチである。 しかし、現在のイオン系システムは、原子系のサイズ、重量、拡張性、可搬性を制限し、偏光クロックと量子ビットの動作に偏光精度のレーザーと光学安定化キャビティを頼っている。 超低ノイズレーザーと光学クロック遷移で直接動作し、量子ビットとクロック操作が可能な基準キャビティのチップスケール統合は、原子と閉じ込められたイオンベースの量子技術における大きな転換を表している。 しかし、この目標は未解決のままである。 ここでは,3メートルコイル共振器参照キャビティに安定化したフォトニック集積直接駆動可視波長ブリルアンレーザと,表面電極チップに捕捉された$^{88}$Sr$^+$イオンの光クロック遷移を用いた,トラップイオンに対するチップスケール光時計および量子ビット動作の初披露を行う。 また,我々の知識を最大限に活用し,ラビ振動や高忠実度(99%)量子ビット状態形成測定(spam)などの量子ビット演算を,バルク光学安定化共振器や第2高調波発生を伴わない直接駆動集積フォトニック技術を用いて初めて実証した。 我々のチップスケール安定化ブリルアンレーザーは、0.4Hz四重極遷移の$^{88}$Sr$^+$と、捕獲されたイオン量子ビット上のラムゼー干渉による60$\mu$sの自己一貫性コヒーレンス時間で6kHzの直線幅を示す。 さらに,ロックされたブリルアンレーザーの5$\times10^{-13}/ \sqrt{\tau}=1秒時の安定性を2光時計を用いて実証した。

Integrating precise, stable, ultra-low noise visible light lasers into atomic systems is critical for advancing quantum information sciences and improving scalability and portability. Trapped ions are a leading approach for high-fidelity quantum computing, high-accuracy optical clocks, and precision quantum sensors. However, current ion-based systems rely on bulky, lab-scale precision lasers and optical stabilization cavities for optical clock and qubit operations, constraining the size, weight, scalability, and portability of atomic systems. Chip-scale integration of ultra-low noise lasers and reference cavities operating directly at optical clock transitions and capable of qubit and clock operations will represent a major transformation in atom and trapped ion-based quantum technologies. However, this goal has remained elusive. Here we report the first demonstration of chip-scale optical clock and qubit operations on a trapped ion using a photonic integrated direct-drive visible wavelength Brillouin laser stabilized to an integrated 3-meter coil-resonator reference cavity and the optical clock transition of a $^{88}$Sr$^+$ ion trapped on a surface electrode chip. We also demonstrate for the first time, to the best of our knowledge, trapped-ion spectroscopy and qubit operations such as Rabi oscillations and high fidelity (99%) qubit state preparation and measurement (SPAM) using direct drive integrated photonic technologies without bulk optic stabilization cavities or second harmonic generation. Our chip-scale stabilized Brillouin laser exhibits a 6 kHz linewidth with the 0.4 Hz quadrupole transition of $^{88}$Sr$^+$ and a self-consistent coherence time of 60 $\mu$s via Ramsey interferometry on the trapped ion qubit. Furthermore, we demonstrate the stability of the locked Brillouin laser to 5$\times10^{-13}/ \sqrt{\tau}$ at 1 second using dual optical clocks.
翻訳日:2024-02-28 20:02:00 公開日:2024-02-26
# デコヒーレンスが情報ゲインをもたらす

Decoherence Implies Information Gain ( http://arxiv.org/abs/2402.16740v1 )

ライセンス: Link先を確認
Dorje C. Brody and Lane P. Hughston(参考訳) 量子系の波動関数が、望ましい可観測性に基づいて密度行列の対角要素が一定であるような任意のランダム変換を受ける場合、 (i)密度行列の外対角要素の大きさが小さくなり、 (ii)このシステムは、可観測性の不確実性が減少するという意味で、好ましい可観測性に関する情報を得る。 これらの結果は、システムと環境の相互作用がシステムの状態の変換をどのように生み出すかの詳細とは無関係であり、協調性が情報損失ではなく情報獲得につながることを示唆している。

It is shown that if the wave function of a quantum system undergoes an arbitrary random transformation such that the diagonal elements of the density matrix in the basis of a preferred observable remain constant, then (i) the off-diagonal elements of the density matrix become smaller in magnitude, and (ii) the system gains information about the preferred observable in the sense that the uncertainty of the observable reduces. These results are independent of the details of how the system-environment interaction generates the transformation of the state of the system, and together imply that decoherence leads to information gain, not information loss.
翻訳日:2024-02-28 20:01:16 公開日:2024-02-26
# ニューラルメッシュ融合:教師なし3次元平面表面理解

Neural Mesh Fusion: Unsupervised 3D Planar Surface Understanding ( http://arxiv.org/abs/2402.16739v1 )

ライセンス: Link先を確認
Farhad G. Zanjani, Hong Cai, Yinhao Zhu, Leyla Mirvakhabova, Fatih Porikli(参考訳) 本論文では,多視点画像観測と教師なし3次元平面表面解析による多角形メッシュの共同最適化手法であるNeural Mesh Fusion (NMF)を提案する。 暗黙的なニューラル表現とは対照的に、NMFは表面トライアングルメッシュの変形を直接学習し、勾配に基づく最適化を通じて、教師なしの3次元平面分割のための埋め込みを生成する。 実験の結果,NMFは現状の多面的な平面再構成と比較して,地上3Dや平面の監督を必要とせず,競争的な結果が得られることがわかった。 さらに、NMFは暗黙のニューラルネットワークに基づくシーン再構成手法に比べて、計算効率がかなり高い。

This paper presents Neural Mesh Fusion (NMF), an efficient approach for joint optimization of polygon mesh from multi-view image observations and unsupervised 3D planar-surface parsing of the scene. In contrast to implicit neural representations, NMF directly learns to deform surface triangle mesh and generate an embedding for unsupervised 3D planar segmentation through gradient-based optimization directly on the surface mesh. The conducted experiments show that NMF obtains competitive results compared to state-of-the-art multi-view planar reconstruction, while not requiring any ground-truth 3D or planar supervision. Moreover, NMF is significantly more computationally efficient compared to implicit neural rendering-based scene reconstruction approaches.
翻訳日:2024-02-28 20:01:06 公開日:2024-02-26
# 医用画像分類におけるラベルノイズに対する視覚トランスフォーマーのロバスト性の検討

Investigating the Robustness of Vision Transformers against Label Noise in Medical Image Classification ( http://arxiv.org/abs/2402.16734v1 )

ライセンス: Link先を確認
Bidur Khanal, Prashant Shrestha, Sanskar Amgain, Bishesh Khanal, Binod Bhattarai, Cristian A. Linte(参考訳) 医用画像分類データセットのラベルノイズは、教師付き深層学習法の訓練を著しく妨げ、その一般化性を損なう。 モデルの試験性能はラベルノイズ率が増加するにつれて低下する傾向がある。 近年,医療画像分類におけるラベルノイズの影響を緩和し,モデルのロバスト性を高めるため,いくつかの手法が提案されている。 これらの作品はCNNベースのアーキテクチャを特徴抽出のための分類器のバックボーンとして採用している。 しかし、近年ではビジョントランスフォーマー(ViT)ベースのバックボーンがCNNに取って代わられ、パフォーマンスが向上し、特にデータセットが大きい場合には、より一般化可能な機能を学ぶ能力が向上している。 それにもかかわらず、トランスフォーマーベースのバックボーンが医療画像分類におけるラベルノイズの影響をどのように扱うか、以前の研究は厳密に検討されていない。 本稿では,ラベルノイズに対するViTのアーキテクチャ的ロバスト性について検討し,それをCNNと比較する。 医療画像分類データセットとして、COVID-DU-ExとNCT-CRC-HE-100Kの2つを使用します。 さらに,プレトレーニングは,教師付きトレーニングにおけるラベルノイズに対するViTの堅牢性向上に不可欠であることを示す。

Label noise in medical image classification datasets significantly hampers the training of supervised deep learning methods, undermining their generalizability. The test performance of a model tends to decrease as the label noise rate increases. Over recent years, several methods have been proposed to mitigate the impact of label noise in medical image classification and enhance the robustness of the model. Predominantly, these works have employed CNN-based architectures as the backbone of their classifiers for feature extraction. However, in recent years, Vision Transformer (ViT)-based backbones have replaced CNNs, demonstrating improved performance and a greater ability to learn more generalizable features, especially when the dataset is large. Nevertheless, no prior work has rigorously investigated how transformer-based backbones handle the impact of label noise in medical image classification. In this paper, we investigate the architectural robustness of ViT against label noise and compare it to that of CNNs. We use two medical image classification datasets -- COVID-DU-Ex, and NCT-CRC-HE-100K -- both corrupted by injecting label noise at various rates. Additionally, we show that pretraining is crucial for ensuring ViT's improved robustness against label noise in supervised training.
翻訳日:2024-02-28 20:00:53 公開日:2024-02-26
# 実処理インメモリシステムにおけるグラフニューラルネットワークの高速化

Accelerating Graph Neural Networks on Real Processing-In-Memory Systems ( http://arxiv.org/abs/2402.16731v1 )

ライセンス: Link先を確認
Christina Giannoula, Peiming Yang, Ivan Fernandez Vega, Jiacheng Yang, Yu Xin Li, Juan Gomez Luna, Mohammad Sadrosadati, Onur Mutlu, Gennady Pekhimenko(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造データを解析するためのMLモデルである。 グラフニューラルネットワーク(gnn)の実行には、計算集約型カーネルとメモリ集約型カーネルの両方が含まれており、後者は合計時間を支配し、メモリとプロセッサ間のデータ移動によって著しくボトルネックとなっている。 Processing-In-Memory (PIM) システムは、単純なプロセッサをメモリアレイの近傍または内側に配置することで、このデータ移動のボトルネックを軽減することができる。 本稿では,実PIMシステム上でGNNを高速化する効率的なMLフレームワークであるPyGimを紹介する。 我々は,実PIMシステムに適したGNNのメモリ集約カーネルのためのインテリジェント並列化手法を提案し,それらのための便利なPython APIを開発した。 計算集約型カーネルとメモリ集約型カーネルをそれぞれプロセッサ中心のコンピュータシステムとメモリ中心のコンピュータシステムで実行し,そのアルゴリズム特性に適合するハイブリッドGNN実行を提供する。 我々は、1992年のPIMコアを持つ実世界のPIMシステム上で、新しいGNNモデルを用いてPyGimを広範囲に評価し、Intel Xeonの最先端CPUを平均3.04倍で上回り、CPUやGPUシステムよりも高いリソース利用を実現することを実証した。 本研究は,ソフトウェア,システム,ハードウェア設計者に対して有用なレコメンデーションを提供する。 PyGimはオープンソースとして公開され、GNNでPIMシステムを広く利用できるようになる。

Graph Neural Networks (GNNs) are emerging ML models to analyze graph-structure data. Graph Neural Network (GNN) execution involves both compute-intensive and memory-intensive kernels, the latter dominates the total time, being significantly bottlenecked by data movement between memory and processors. Processing-In-Memory (PIM) systems can alleviate this data movement bottleneck by placing simple processors near or inside to memory arrays. In this work, we introduce PyGim, an efficient ML framework that accelerates GNNs on real PIM systems. We propose intelligent parallelization techniques for memory-intensive kernels of GNNs tailored for real PIM systems, and develop handy Python API for them. We provide hybrid GNN execution, in which the compute-intensive and memory-intensive kernels are executed in processor-centric and memory-centric computing systems, respectively, to match their algorithmic nature. We extensively evaluate PyGim on a real-world PIM system with 1992 PIM cores using emerging GNN models, and demonstrate that it outperforms its state-of-the-art CPU counterpart on Intel Xeon by on average 3.04x, and achieves higher resource utilization than CPU and GPU systems. Our work provides useful recommendations for software, system and hardware designers. PyGim will be open-sourced to enable the widespread use of PIM systems in GNNs.
翻訳日:2024-02-28 20:00:31 公開日:2024-02-26
# lindblad dynamicsと近似チャネルを用いた誤差補正のモデル化

Modeling error correction with Lindblad dynamics and approximate channels ( http://arxiv.org/abs/2402.16727v1 )

ライセンス: Link先を確認
Zohar Schwartzman-Nowik, Liran Shirizly and Haggai Landa(参考訳) リンドブラッド・マスター方程式によりモデル化された物理モチベーション雑音に対する量子誤り訂正符号の性能解析を行った。 コード・キャパシティ・フレームワーク内での作業では,1量子ビット項と2量子クロストークの散逸とコヒーレントを考慮し,ノイズの異なる近似が5量子ビット符号の性能をいかに捉えるかを研究する。 各ノイズ項が別々に考慮される合成チャネル近似は、多くの物理的ケースの挙動をかなり長い時間スケールまでキャプチャし、非可換項の影響によってその結果の失敗を分析する。 対照的に、単一キュービット近似は、短時間であっても2キュービット雑音による誤差補正のダイナミクスを適切に捉えていない。 パウリ近似は単一量子チャネルを超えており、ノイズ、状態、デコーダの詳細に敏感であり、ノイズ強度に対して短時間で成功し、失敗することが多い。 このモデル内で出現する擬似閾値を計算し、より優れたデコーダの設計に量子ビットパラメータと接続性に関する知識をどのように利用できるかを示す。 これらの結果は,現実的な雑音の存在下での誤り訂正符号の性能に光を当て,有用な量子誤り訂正に向けた継続的な取り組みを進めることができる。

We analyze the performance of a quantum error correction code subject to physically-motivated noise modeled by a Lindblad master equation. Working within the code-capacity framework, we consider dissipative and coherent single-qubit terms and two-qubit crosstalk, studying how different approximations of the noise capture the performance of the five-qubit code. A composite-channel approximation where every noise term is considered separately, captures the behavior in many physical cases up to considerably-long timescales, and we analyze its eventual failure due to the effect of noncommuting terms. In contrast, we find that single-qubit approximations do not properly capture the error correction dynamics with two-qubit noise, even for short times. A Pauli approximation going beyond a single-qubit channel, is sensitive to the details of the noise, state, and decoder, and succeeds in many cases at short timescales relative to the noise strength, beyond which it fails. We calculate the code pseudo-threshold emerging within this model, and demonstrate how knowledge of the qubit parameters and connectivity can be used to design better decoders. These results shed light on the performance of error correction codes in the presence of realistic noise and can advance the ongoing efforts toward useful quantum error correction.
翻訳日:2024-02-28 20:00:05 公開日:2024-02-26
# 量子熱デバイスにおける熱電流制御の解離変形効果

Unveiling Detuning Effects for Heat-Current Control in Quantum Thermal Devices ( http://arxiv.org/abs/2402.16721v1 )

ライセンス: Link先を確認
Andr\'e H. A. Malavazi, Borhan Ahmadi, Pawe{\l} Mazurek and Antonio Mandarino(参考訳) 量子スケールにおける熱管理の複雑さのナビゲートは、高度なナノスケール技術の追求における課題である。 この範囲では、例えば電子電流増幅器やトランジスタの機能を反映した最小モデルを導入する理論的枠組みが提案されている。 量子熱デバイスを構成するサブシステムの異なるアーキテクチャを考えることができ、適切に設計されると欠点や利点が引き起こされる。 本稿では, 制御サブシステムにおける第3の励起レベルに着目した強結合型3サブシステム熱デバイスについて, 従来の研究を拡張した。 本装置は,熱スイッチ,整流器,安定化器,増幅器などの内部パラメータの選択を条件とした多目的デバイスとして使用できる。 調整されたレベルの探索は、デバイスのパフォーマンスと動作の仕組みにおいて重要な役割を担っている。 広範囲の温度に持続する安定かつ強い増幅効果を観測した。 制御温度と直接接触する3レベルシステムを考えると、出力電流を増加させ、様々な温度でスイッチとしてデバイスを操作することができる。

Navigating the intricacies of thermal management at the quantum scale is a challenge in the pursuit of advanced nanoscale technologies. To this extent, theoretical frameworks introducing minimal models mirroring the functionality of electronic current amplifiers and transistors, for instance, have been proposed. Different architectures of the subsystems composing a quantum thermal device can be considered, tacitly bringing drawbacks or advantages if properly engineered. This paper extends the prior research on thermotronics, studying a strongly coupled three-subsystem thermal device with a specific emphasis on a third excited level in the control subsystem. Our setup can be employed as a multipurpose device conditioned on the specific choice of internal parameters: heat switch, rectifier, stabilizer, and amplifier. The exploration of the detuned levels unveils a key role in the performance and working regime of the device. We observe a stable and strong amplification effect persisting over broad ranges of temperature. We conclude that considering a three-level system, as the one directly in contact with the control temperature, boosts output currents and the ability to operate our devices as a switch at various temperatures.
翻訳日:2024-02-28 19:59:28 公開日:2024-02-26
# 立体放射線治療の現状と展望

An Overview of the Development of Stereotactic Body Radiation Therapy ( http://arxiv.org/abs/2402.16718v1 )

ライセンス: Link先を確認
Yanqi Zong, Zhengrong Cui, Luqi Lin, Sihao Wang, Yizhi Chen(参考訳) 立体的身体放射線療法(sbrt)とは、腫瘍病変領域の3次元空間における高エネルギー線を集束させ、周囲の正常組織から受ける線量を減らし、腫瘍の局所制御率を効果的に改善し、合併症の可能性を減少させる。 医用画像、放射線生物学、その他の分野の包括的発展に伴い、この低屈折率で高線量放射線治療法が臨床に応用されつつある。 本稿では,SBRTの背景,放射線生物学的基礎,キー技術,主要機器について論じ,今後の開発方向性について述べる。

Stereotactic body radiation therapy (SBRT) refers to focusing high-energy rays in three-dimensional space on the tumor lesion area, reducing the dose received by surrounding normal tissues, which can effectively improve the local control rate of the tumor and reduce the probability of complications. With the comprehensive development of medical imaging, radiation biology and other disciplines, this less-fractional, high-dose radiotherapy method has been increasingly developed and applied in clinical practice. The background, radio-biological basis, key technologies and main equipment of SBRT are discussed, and its future development direction is prospected.
翻訳日:2024-02-28 19:59:12 公開日:2024-02-26
# CodeChameleon: 大きな言語モデルをジェイルブレイクするためのパーソナライズされた暗号化フレームワーク

CodeChameleon: Personalized Encryption Framework for Jailbreaking Large Language Models ( http://arxiv.org/abs/2402.16717v1 )

ライセンス: Link先を確認
Huijie Lv, Xiao Wang, Yuansen Zhang, Caishuang Huang, Shihan Dou, Junjie Ye, Tao Gui, Qi Zhang, Xuanjing Huang(参考訳) 特に、モデルの安全性と倫理的プロトコルを回避している 'jailbreaking' を通じて、敵対的な誤用は、Large Language Models (LLMs) にとって大きな課題となる。 本稿では,このような攻撃を成功させるメカニズムを考察し,協調型LLMの安全性機構の仮説,すなわち意図的セキュリティ認識と応答生成を導入する。 この仮説に基づいて,パーソナライズされた暗号化手法に基づく新しいジェイルブレイクフレームワークであるCodeChameleonを提案する。 目的のセキュリティ認識フェーズを省略するため,タスクをコード補完形式に再構成し,パーソナライズされた暗号化機能を使用してクエリを暗号化する。 応答生成機能を保証するために、命令内に復号関数を埋め込み、llmが暗号化クエリの復号と実行を成功させる。 我々は7つのllmについて広範囲な実験を行い,最新の平均攻撃成功率(asr)を達成した。 ここでは, GPT-4-1106 上で86.6 % ASR を達成する。

Adversarial misuse, particularly through `jailbreaking' that circumvents a model's safety and ethical protocols, poses a significant challenge for Large Language Models (LLMs). This paper delves into the mechanisms behind such successful attacks, introducing a hypothesis for the safety mechanism of aligned LLMs: intent security recognition followed by response generation. Grounded in this hypothesis, we propose CodeChameleon, a novel jailbreak framework based on personalized encryption tactics. To elude the intent security recognition phase, we reformulate tasks into a code completion format, enabling users to encrypt queries using personalized encryption functions. To guarantee response generation functionality, we embed a decryption function within the instructions, which allows the LLM to decrypt and execute the encrypted queries successfully. We conduct extensive experiments on 7 LLMs, achieving state-of-the-art average Attack Success Rate (ASR). Remarkably, our method achieves an 86.6\% ASR on GPT-4-1106.
翻訳日:2024-02-28 19:58:59 公開日:2024-02-26
# 量子線形代数はトランスフォーマーアーキテクチャに必要な全てである

Quantum linear algebra is all you need for Transformer architectures ( http://arxiv.org/abs/2402.16714v1 )

ライセンス: Link先を確認
Naixu Guo, Zhan Yu, Aman Agrawal, and Patrick Rebentrost(参考訳) 大言語モデルのような生成的機械学習手法は、テキストや画像の生成に革命をもたらしている。 これらのモデルは強力ですが、大量の計算リソースも活用します。 変換器は、与えられた部分シーケンスの適切な完了を生成することを目的とした、大きな言語モデルのキーコンポーネントである。 本研究では,フォールトトレラント量子コンピューティングのレンズ下でトランスフォーマーアーキテクチャを調べる。 入力モデルは、事前学習された重み行列をブロックエンコーディングとして与えて、トランスのクエリ、キー、値行列を構成するものである。 最初のステップとして、アダマール積を用いたソフトマックス関数の行ワイズ適用により、自己注意行列のブロック符号化を作成する方法を示す。 さらに,量子サブルーチンを組み合わせることで,トランス,残差接続,層正規化,フィードフォワードニューラルネットワークの重要な構成要素を構築する。 我々のサブルーチンは、予測を得るために測定可能なトランス出力の振幅符号化を作成する。 量子アドバンテージを得るための可能性と課題について論じる。

Generative machine learning methods such as large-language models are revolutionizing the creation of text and images. While these models are powerful they also harness a large amount of computational resources. The transformer is a key component in large language models that aims to generate a suitable completion of a given partial sequence. In this work, we investigate transformer architectures under the lens of fault-tolerant quantum computing. The input model is one where pre-trained weight matrices are given as block encodings to construct the query, key, and value matrices for the transformer. As a first step, we show how to prepare a block encoding of the self-attention matrix, with a row-wise application of the softmax function using the Hadamard product. In addition, we combine quantum subroutines to construct important building blocks in the transformer, the residual connection, layer normalization, and the feed-forward neural network. Our subroutines prepare an amplitude encoding of the transformer output, which can be measured to obtain a prediction. We discuss the potential and challenges for obtaining a quantum advantage.
翻訳日:2024-02-28 19:58:41 公開日:2024-02-26
# スケーラブルでロバストなスパース主成分分析

Scalable Robust Sparse Principal Component Analysis ( http://arxiv.org/abs/2402.16712v1 )

ライセンス: Link先を確認
Xiao Ling, Paul Brooks(参考訳) 本研究では,スパースロバストな一次元部分空間を推定するための最適化フレームワークを提案する。 我々の目標は、l1-ノルム基準の観点から、表現エラーとペナルティの両方を最小化することです。 問題はnpハードであることから,線形緩和に基づくアプローチを導入する。 さらに,簡単な比率とソート技術を用いて,新たなフィッティング手順を提案する。 提案アルゴリズムは$O(n^2 m \log n)$の最悪の時間複雑性を示し、ある場合において、スパースロバスト部分空間に対する大域的最適性を達成し、多項式時間効率を示す。 既存の手法と比較すると、提案手法は最小不一致の部分空間を見つけ、スパーシティとフィットの間のスムーズなトレードオフを提供する。 そのアーキテクチャにはスケーラビリティがあり、CPUバージョンよりも2000×2000の行列の計算速度が16倍に向上したことが証明されている。 さらに, この手法は, 初期化や決定論的, 複製的手順からの独立性など, いくつかの利点がある。 さらに, この手法は, 初期化や決定論的, 複製的手順からの独立性など, いくつかの利点がある。 実世界の例は、アルゴリズムが有意義な空間性を達成するための有効性を示し、その正確で有用な応用を様々な領域にわたって示している。

In this work, we propose an optimization framework for estimating a sparse robust one-dimensional subspace. Our objective is to minimize both the representation error and the penalty, in terms of the l1-norm criterion. Given that the problem is NP-hard, we introduce a linear relaxation-based approach. Additionally, we present a novel fitting procedure, utilizing simple ratios and sorting techniques. The proposed algorithm demonstrates a worst-case time complexity of $O(n^2 m \log n)$ and, in certain instances, achieves global optimality for the sparse robust subspace, thereby exhibiting polynomial time efficiency. Compared to extant methodologies, the proposed algorithm finds the subspace with the lowest discordance, offering a smoother trade-off between sparsity and fit. Its architecture affords scalability, evidenced by a 16-fold improvement in computational speeds for matrices of 2000x2000 over CPU version. Furthermore, this method is distinguished by several advantages, including its independence from initialization and deterministic and replicable procedures. Furthermore, this method is distinguished by several advantages, including its independence from initialization and deterministic and replicable procedures. The real-world example demonstrates the effectiveness of algorithm in achieving meaningful sparsity, underscoring its precise and useful application across various domains.
翻訳日:2024-02-28 19:58:26 公開日:2024-02-26
# コストアウェアによるベストアーム識別

Cost Aware Best Arm Identification ( http://arxiv.org/abs/2402.16710v1 )

ライセンス: Link先を確認
Kellen Kanarios, Qining Zhang, Lei Ying(参考訳) 本稿では,双対物体に対する最善のアーム識別問題について検討する。 古典的な報酬に加えて、各アームはコスト分布と関連付けられ、最も大きな報酬アームを最小の期待コストで識別することが目標である。 これは、製品開発パイプラインにおけるテストと実装フェーズの分離を捉え、フェーズ間の客観的なシフト、すなわち、テストのコストと実装に対する報酬をモデル化します。 まず CABAI に対する理論的下界を導出し,それを漸近的に一致させるために $\mathsf{CTAS}$ というアルゴリズムを提案する。 さらに,二本腕モデルにおいて最適であることが証明され,数値実験において驚くほどよく一般化される正方根則に基づく,coと呼ばれる低複素性アルゴリズムを提案する。 私たちの結果は (i)不均質な行動費用を無視した場合、実際、最適以下となること、 (II)低複素性アルゴリズムは、幅広い問題に対してほぼ最適性能を提供する。

In this paper, we study a best arm identification problem with dual objects. In addition to the classic reward, each arm is associated with a cost distribution and the goal is to identify the largest reward arm using the minimum expected cost. We call it \emph{Cost Aware Best Arm Identification} (CABAI), which captures the separation of testing and implementation phases in product development pipelines and models the objective shift between phases, i.e., cost for testing and reward for implementation. We first derive an theoretic lower bound for CABAI and propose an algorithm called $\mathsf{CTAS}$ to match it asymptotically. To reduce the computation of $\mathsf{CTAS}$, we further propose a low-complexity algorithm called CO, based on a square-root rule, which proves optimal in simplified two-armed models and generalizes surprisingly well in numerical experiments. Our results show (i) ignoring the heterogeneous action cost results in sub-optimality in practice, and (ii) low-complexity algorithms deliver near-optimal performance over a wide range of problems.
翻訳日:2024-02-28 19:58:08 公開日:2024-02-26
# 政治的コンパスか 回転矢か? 大規模言語モデルにおける価値と意見のより意味のある評価に向けて

Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models ( http://arxiv.org/abs/2402.16786v1 )

ライセンス: Link先を確認
Paul R\"ottger, Valentin Hofmann, Valentina Pyatkin, Musashi Hinck, Hannah Rose Kirk, Hinrich Sch\"utze, Dirk Hovy(参考訳) 近年の研究では, 大規模言語モデル (LLM) の評価と評価を, 複数項目のアンケートとアンケートを用いて行っている。 この作業の大部分は、現実世界のllmアプリケーションに関する懸念によるものだ。 例えば、政治的に偏ったllmは、何百万人もの人々が使うときに社会に悪影響を及ぼす可能性がある。 しかし、このような現実世界の懸念は、現在の評価の人工性とは全く対照的である。 本研究は,LLMにおける価値観と意見の制約評価パラダイムに挑戦し,より現実的な非制約評価を探求する。 ケーススタディでは、人気のある政治コンパステスト(PCT)に焦点を当てる。 体系的なレビューでは、PCTを用いた以前の作業のほとんどは、PCTの多重選択フォーマットに従わざるを得ない。 我々は,モデルが強制されない場合,従属的に異なる答えを与えること,モデルが強制される方法によって答えが変化すること,また,言い換えれば頑健性に欠けることを示す。 そして,よりリアルなオープンエンドの回答設定で,モデルが別の回答を返すことを実証する。 我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。

Much recent work seeks to evaluate values and opinions in large language models (LLMs) using multiple-choice surveys and questionnaires. Most of this work is motivated by concerns around real-world LLM applications. For example, politically-biased LLMs may subtly influence society when they are used by millions of people. Such real-world concerns, however, stand in stark contrast to the artificiality of current evaluations: real users do not typically ask LLMs survey questions. Motivated by this discrepancy, we challenge the prevailing constrained evaluation paradigm for values and opinions in LLMs and explore more realistic unconstrained evaluations. As a case study, we focus on the popular Political Compass Test (PCT). In a systematic review, we find that most prior work using the PCT forces models to comply with the PCT's multiple-choice format. We show that models give substantively different answers when not forced; that answers change depending on how models are forced; and that answers lack paraphrase robustness. Then, we demonstrate that models give different answers yet again in a more realistic open-ended answer setting. We distill these findings into recommendations and open challenges in evaluating values and opinions in LLMs.
翻訳日:2024-02-28 19:54:20 公開日:2024-02-26
# carte: 表学習のための事前トレーニングと転送

CARTE: pretraining and transfer for tabular learning ( http://arxiv.org/abs/2402.16785v1 )

ライセンス: Link先を確認
Myung Jun Kim, L\'eo Grinsztajn, and Ga\"el Varoquaux(参考訳) 事前訓練されたディープラーニングモデルは、画像やテキストのゴーツーソリューションである。 しかし、表データの場合、標準は木ベースのモデルをトレーニングすることである。 事前トレーニングや転送は、一般的なテーブルには、ソースによって大きく異なる量や命名規則に関する列があるため、大きな課題である。 データ統合は、列のスキーママッチングとエントリのエンティティマッチングという、複数のソース間の対応に取り組む。 このようなマッチングを必要としないニューラルアーキテクチャを提案する。 結果として、マッチしていないバックグラウンドデータに事前トレーニングすることができる。 テーブルエントリのコンテキストを意識した表現のためのアーキテクチャーカート - 異なる列でテーブルを処理するために表(あるいはリレーショナル)データのグラフ表現、オープンボキャブラリをモデル化するためにエントリと列名の文字列埋め込み、そして列名と隣接するエントリでエントリをコンテキスト化するグラフ対応ネットワークを使用する。 広範なベンチマークでは、CARTEが学習を容易にし、最高のツリーベースモデルを含む一連のベースラインを上回ることが示されている。 CARTEはまた、マッチしない列を持つテーブル間の共同学習を可能にし、より大きな列を持つ小さなテーブルを拡張する。 CARTEは、大きな事前訓練されたモデルへの扉を開く。

Pretrained deep-learning models are the go-to solution for images or text. However, for tabular data the standard is still to train tree-based models. Pre-training or transfer is a huge challenge as in general tables have columns about different quantities and naming conventions that vary vastly across sources. Data integration tackles correspondences across multiple sources: schema matching for columns, and entity matching for entries. We propose a neural architecture that does not need such matches. As a result, we can pretrain it on background data that has not been matched. The architecture - CARTE for Context Aware Representation of Table Entries - uses a graph representation of tabular (or relational) data to process tables with different columns, string embeddings of entries and columns names to model an open vocabulary, and a graph-attentional network to contextualize entries with column names and neighboring entries. An extensive benchmark shows that CARTE facilitates learning, outperforming a solid set of baselines including the best tree-based models. CARTE also enables joint learning across tables with unmatched columns, enhancing a small table with bigger ones. CARTE opens the door to large pretrained models embarking information for tabular data.
翻訳日:2024-02-28 19:53:47 公開日:2024-02-26
# 格子場理論のゲージ-冗長デジタイズに対する量子誤差閾値

Quantum error thresholds for gauge-redundant digitizations of lattice field theories ( http://arxiv.org/abs/2402.16780v1 )

ライセンス: Link先を確認
Marcela Carena, Henry Lamm, Ying-Ying Li, Wanqiang Liu(参考訳) 格子ゲージ理論の量子シミュレーションでは、ゲージ対称性はヒルベルト空間の冗長性として固定あるいは符号化することができる。 ゲージ固定は量子ビット数を減少させるが、ゲージ冗長性を維持することで、ガウスの法則の検証と復元によって量子エラーを緩和し修正するコード空間を提供できる。 本研究では,一般有限ゲージ群の補正可能な誤差を考慮し,それを検出・修正するための量子回路を設計する。 ガウスの法則誤差補正によるゲージ依存ディジタル化がゲージ固定ディジタル化よりも忠実であるような誤差閾値を計算する。 この結果は格子ゲージ理論のフォールトトレラント量子シミュレーションのガイダンスを提供する。

In the quantum simulation of lattice gauge theories, gauge symmetry can be either fixed or encoded as a redundancy of the Hilbert space. While gauge-fixing reduces the number of qubits, keeping the gauge redundancy can provide code space to mitigate and correct quantum errors by checking and restoring Gauss's law. In this work, we consider the correctable errors for generic finite gauge groups and design the quantum circuits to detect and correct them. We calculate the error thresholds below which the gauge-redundant digitization with Gauss's law error correction has better fidelity than the gauge-fixed digitization. Our results provide guidance for fault-tolerant quantum simulations of lattice gauge theories.
翻訳日:2024-02-28 19:53:14 公開日:2024-02-26
# 差分的私的オンライン学習における誤りの増大について:低境界視点

On the Growth of Mistakes in Differentially Private Online Learning: A Lower Bound Perspective ( http://arxiv.org/abs/2402.16778v1 )

ライセンス: Link先を確認
Daniil Dmitriev, Krist\'of Szab\'o, Amartya Sanyal(参考訳) 本稿では,微分プライベート(dp)オンライン学習アルゴリズムに対して,下限を提供する。 その結果、$(\varepsilon,\delta)$-dpオンラインアルゴリズムの広いクラスにおいて、$\log t\leq o(1 / \delta)$ となるような$t$ に対して、アルゴリズムによって生じる期待される誤りの数は$\omega(\log \frac{t}{\delta})$ となる。 これはgolowichとlivni(2021年)によって得られた上限と一致し、非プライベートなオンライン学習とは対照的に、誤りの数は$t$から独立している。 私たちの知る限りでは、私たちの研究はdp-online learningの低限の解決に向けた最初の成果であり、sanyal and ramponi (2022) のオープン問題に部分的に対処しています。

In this paper, we provide lower bounds for Differentially Private (DP) Online Learning algorithms. Our result shows that, for a broad class of $(\varepsilon,\delta)$-DP online algorithms, for $T$ such that $\log T\leq O(1 / \delta)$, the expected number of mistakes incurred by the algorithm grows as $\Omega(\log \frac{T}{\delta})$. This matches the upper bound obtained by Golowich and Livni (2021) and is in contrast to non-private online learning where the number of mistakes is independent of $T$. To the best of our knowledge, our work is the first result towards settling lower bounds for DP-Online learning and partially addresses the open question in Sanyal and Ramponi (2022).
翻訳日:2024-02-28 19:52:45 公開日:2024-02-26
# 大規模言語モデルのための量子化戦略の総合的評価

A Comprehensive Evaluation of Quantization Strategies for Large Language Models ( http://arxiv.org/abs/2402.16775v1 )

ライセンス: Link先を確認
Renren Jin, Jiangcun Du, Wuwei Huang, Wei Liu, Jian Luan, Bin Wang, Deyi Xiong(参考訳) 大規模言語モデル(llm)におけるパラメータ数の増加は通常、ダウンストリームタスクのパフォーマンスが向上するが、計算コストとメモリコストが増大し、リソース制限された設定でのデプロイメントが困難になる。 モデル重みやアクティベーションに必要なビットを最小限の性能損失で削減する量子化技術は、LLMの台頭により人気を博している。 しかし、ほとんどの量子化研究は事前学習されたLLMを用いており、量子化が命令調整されたLLMに与える影響や、量子化LLMのパープレキシティとベンチマーク性能の関係はよく理解されていない。 量子化 LLM の評価は言語モデリングやいくつかの分類タスクに限られており、他のベンチマークでの性能は不明確である。 これらのギャップに対処するために,(1)知識とキャパシティ,(2)アライメント,(3)効率という3つの重要な次元からなる構造化評価フレームワークを提案する。 実験結果から, 4ビット量子化 LLM は, 量子化されていない LLM に匹敵する性能を保ち得ることが示唆された。 さらに、パラメータスケールが大きい量子化LLMは、より小さなLLMよりも優れる。 量子化によってメモリが節約されるにもかかわらず、llmの推論速度も遅くなる。 したがって、量子化LDMの文脈において、デコード速度とメモリ消費のバランスの取れた最適化を実現するためには、かなりのエンジニアリング努力とハードウェアサポートが必要である。

Increasing the number of parameters in large language models (LLMs) usually improves performance in downstream tasks but raises compute and memory costs, making deployment difficult in resource-limited settings. Quantization techniques, which reduce the bits needed for model weights or activations with minimal performance loss, have become popular due to the rise of LLMs. However, most quantization studies use pre-trained LLMs, and the impact of quantization on instruction-tuned LLMs and the relationship between perplexity and benchmark performance of quantized LLMs are not well understood. Evaluation of quantized LLMs is often limited to language modeling and a few classification tasks, leaving their performance on other benchmarks unclear. To address these gaps, we propose a structured evaluation framework consisting of three critical dimensions: (1) knowledge \& capacity, (2) alignment, and (3) efficiency, and conduct extensive experiments across ten diverse benchmarks. Our experimental results indicate that LLMs with 4-bit quantization can retain performance comparable to their non-quantized counterparts, and perplexity can serve as a proxy metric for quantized LLMs on most benchmarks. Furthermore, quantized LLMs with larger parameter scales can outperform smaller LLMs. Despite the memory savings achieved through quantization, it can also slow down the inference speed of LLMs. Consequently, substantial engineering efforts and hardware support are imperative to achieve a balanced optimization of decoding speed and memory consumption in the context of quantized LLMs.
翻訳日:2024-02-28 19:52:17 公開日:2024-02-26
# ディープラーニングを用いたビデオベース自閉症検出

Video-Based Autism Detection with Deep Learning ( http://arxiv.org/abs/2402.16774v1 )

ライセンス: Link先を確認
M. Serna-Aguilera, X. B. Nguyen, A. Singh, L. Rockers, S. Park, L. Neely, H. Seo, K. Luu(参考訳) 自閉症スペクトラム障害 (ASD) はしばしば子どもの生活を困難にするため、適切な治療とケアのために早期診断が必要である。 そこで本研究では,子どものasdを早期発見支援のために検出・分類することの問題点について考察する。 そこで本研究では,asd患者と非asd患者の反応と行動の鍵となる違いを捉える目的で,感覚刺激に反応する子どものビデオクリップを分析する深層学習モデルを開発した。 asd分類の多くの作品とは異なり、彼らのデータは高価なmri装置を必要とするmriデータで構成されており、一方、この方法はパワフルで比較的安価なgpu、まともなコンピュータセットアップ、そして推論のためのビデオカメラのみに依存している。 以上の結果から,本モデルは十分に一般化でき,患者の動きにおける重要な違いを把握できることが示唆された。 これは、ディープラーニング問題のための限られた量のデータ、入力としてモデルに利用可能な時間的情報、そして動きによるノイズがある場合でもである。

Autism Spectrum Disorder (ASD) can often make life difficult for children, therefore early diagnosis is necessary for proper treatment and care. Thus, in this work, we consider the problem of detecting or classifying ASD in children to aid medical professionals in early detection. To this end, we develop a deep learning model that analyzes video clips of children reacting to sensory stimuli, with the intent on capturing key differences in reactions and behavior between ASD and non-ASD patients. Unlike many works in ASD classification, their data consist of MRI data, which requires expensive specialized MRI equipment, meanwhile our method need only rely on a powerful but relatively cheaper GPU, a decent computer setup, and a video camera for inference. Results on our data show that our model can generalize well and can understand key differences in the distinct movements of the patients. This is despite limited amounts of data for a deep learning problem, limited temporal information available to the model as input, and even when there is noise due to movement.
翻訳日:2024-02-28 19:51:50 公開日:2024-02-26
# 共有潜在構造を有するタスクのニューラルポピュレーション幾何と最適符号化

Neural Population Geometry and Optimal Coding of Tasks with Shared Latent Structure ( http://arxiv.org/abs/2402.16770v1 )

ライセンス: Link先を確認
Albert J. Wakhloo, Will Slatton, and SueYeon Chung(参考訳) 人間や動物は環境中の潜在構造を認識し、この情報を使って効率的に世界をナビゲートすることができる。 いくつかの最近の研究は、脳がこれらの能力をサポートし、そのような潜在構造を柔軟で一般化可能な方法でエンコードする神経表現を形成すると主張している。 しかし、神経集団活動のどの側面がこれらの計算能力に寄与しているかはまだ不明である。 そこで我々は,多タスク学習問題における神経集団の活動のメソスコピック統計と一般化性能を結びつける解析理論を開発した。 これを実現するために、異なるタスクが共通の観測不能な潜在構造に依存する生成モデルに依存し、予測は神経集団の活動の線形な読み出しから形成される。 人口活動の3つの幾何学的尺度は,これらの設定において一般化性能を決定する。 この理論を用いて、実験的に観察された因子化(あるいは非絡み合い)表現が、マルチタスク学習問題の最適解として自然に現れることを発見した。 続いて、データが不足している場合、最適なコードは情報に富んだ潜伏変数を圧縮し、データが豊富であれば、この情報を状態空間に拡張することを示す。 生物および人工ニューラルネットワークデータを用いた理論からの予測を検証する。 そこで本研究では,神経集団の幾何構造をマルチタスク学習問題に結びつけ,これらの環境での集団活動の構造を規範的に予測する。

Humans and animals can recognize latent structures in their environment and apply this information to efficiently navigate the world. Several recent works argue that the brain supports these abilities by forming neural representations that encode such latent structures in flexible, generalizable ways. However, it remains unclear what aspects of neural population activity are contributing to these computational capabilities. Here, we develop an analytical theory linking the mesoscopic statistics of a neural population's activity to generalization performance on a multi-task learning problem. To do this, we rely on a generative model in which different tasks depend on a common, unobserved latent structure and predictions are formed from a linear readout of a neural population's activity. We show that three geometric measures of the population activity determine generalization performance in these settings. Using this theory, we find that experimentally observed factorized (or disentangled) representations naturally emerge as an optimal solution to the multi-task learning problem. We go on to show that when data is scarce, optimal codes compress less informative latent variables, and when data is abundant, optimal codes expand this information in the state space. We validate predictions from our theory using biological and artificial neural network data. Our results therefore tie neural population geometry to the multi-task learning problem and make normative predictions of the structure of population activity in these settings.
翻訳日:2024-02-28 19:51:33 公開日:2024-02-26
# 効果的なビデオテキスト検索のための潜時表現と語彙表現の統一

Unifying Latent and Lexicon Representations for Effective Video-Text Retrieval ( http://arxiv.org/abs/2402.16769v1 )

ライセンス: Link先を確認
Haowei Liu, Yaya Shi, Haiyang Xu, Chunfeng Yuan, Qinghao Ye, Chenliang Li, Ming Yan, Ji Zhang, Fei Huang, Bing Li, Weiming Hu(参考訳) ビデオテキスト検索において、既存の手法の多くは高速検索にデュアルエンコーダアーキテクチャを採用しており、2つの個別エンコーダを使用してビデオやテキストのグローバル潜在表現を抽出する。 しかし、細粒度のセマンティクス概念を捉えることの難しさに直面する。 本研究では,語彙表現を学習して微細な意味を捉えるUNIFYフレームワークを提案し,映像テキスト検索に潜時表現と語彙表現の強みを組み合わせた。 具体的には、ビデオやテキストを事前に定義されたレキシコン空間にマッピングし、各次元が意味概念に対応する。 意味的関連次元を活性化し,無関係次元を抑制するための二段階意味的基底化手法を提案する。 学習された語彙表現は、ビデオやテキストのきめ細かい意味を反映することができる。 さらに, 潜在表現とレキシコン表現の相補性を活用するために, 構造共有と自己蒸留による相互学習を容易にする統一学習方式を提案する。 実験の結果,unifyフレームワークは,msr-vttとdidemoでは4.8%,re recall@1が8.2%改善した。

In video-text retrieval, most existing methods adopt the dual-encoder architecture for fast retrieval, which employs two individual encoders to extract global latent representations for videos and texts. However, they face challenges in capturing fine-grained semantic concepts. In this work, we propose the UNIFY framework, which learns lexicon representations to capture fine-grained semantics and combines the strengths of latent and lexicon representations for video-text retrieval. Specifically, we map videos and texts into a pre-defined lexicon space, where each dimension corresponds to a semantic concept. A two-stage semantics grounding approach is proposed to activate semantically relevant dimensions and suppress irrelevant dimensions. The learned lexicon representations can thus reflect fine-grained semantics of videos and texts. Furthermore, to leverage the complementarity between latent and lexicon representations, we propose a unified learning scheme to facilitate mutual learning via structure sharing and self-distillation. Experimental results show our UNIFY framework largely outperforms previous video-text retrieval methods, with 4.8% and 8.2% Recall@1 improvement on MSR-VTT and DiDeMo respectively.
翻訳日:2024-02-28 19:51:10 公開日:2024-02-26
# CorpusBrain++: 知識集約型言語タスクのための継続的生成事前学習フレームワーク

CorpusBrain++: A Continual Generative Pre-Training Framework for Knowledge-Intensive Language Tasks ( http://arxiv.org/abs/2402.16767v1 )

ライセンス: Link先を確認
Jiafeng Guo, Changjiang Zhou, Ruqing Zhang, Jiangui Chen, Maarten de Rijke, Yixing Fan and Xueqi Cheng(参考訳) 知識集約型言語タスク(KILT)は通常、特定の回答を生成するために、信頼できるコーパス(例えばウィキペディア)から関連文書を取得する必要がある。 近頃,前訓練された人工的キルト検索モデルであるコーパスブレインが提案され,新たな検索性能が得られた。 しかし、CorpsBrainを含む既存のKILTの研究のほとんどは、新しいドキュメントがソースコーパスに継続的に組み込まれている実世界のシナリオの動的な性質を見越して、静的なドキュメントコレクションに重点を置いている。 このギャップに対処するためには,キルトに固有の動的検索シナリオを効果的に処理する検索モデルの能力を検討することが重要である。 本研究では,KILT のための連続文書学習 (CDL) タスクを最初に導入し,KILT++ という名の新しいベンチマークデータセットを構築した。 次に, KILT++ 上での CorpusBrain の使用に関する総合的研究を行った。 定常シナリオにおける有望な結果とは異なり、CorpusBrainは動的シナリオにおいて破滅的な忘れをしがちである。 この問題を軽減するために,我々はCorpsBrain++を提案する。 実験の結果,コーパスブレイン++は従来のir法とジェネレーティブir法の両方と比較して有意な有効性と著明な効率を示した。

Knowledge-intensive language tasks (KILTs) typically require retrieving relevant documents from trustworthy corpora, e.g., Wikipedia, to produce specific answers. Very recently, a pre-trained generative retrieval model for KILTs, named CorpusBrain, was proposed and reached new state-of-the-art retrieval performance. However, most existing research on KILTs, including CorpusBrain, has predominantly focused on a static document collection, overlooking the dynamic nature of real-world scenarios, where new documents are continuously being incorporated into the source corpus. To address this gap, it is crucial to explore the capability of retrieval models to effectively handle the dynamic retrieval scenario inherent in KILTs. In this work, we first introduce the continual document learning (CDL) task for KILTs and build a novel benchmark dataset named KILT++ based on the original KILT dataset for evaluation. Then, we conduct a comprehensive study over the use of pre-trained CorpusBrain on KILT++. Unlike the promising results in the stationary scenario, CorpusBrain is prone to catastrophic forgetting in the dynamic scenario, hence hampering the retrieval performance. To alleviate this issue, we propose CorpusBrain++, a continual generative pre-training framework. Empirical results demonstrate the significant effectiveness and remarkable efficiency of CorpusBrain++ in comparison to both traditional and generative IR methods.
翻訳日:2024-02-28 19:50:50 公開日:2024-02-26
# 工学高等教育における産業参加のパラドックス

The Paradox of Industrial Involvement in Engineering Higher Education ( http://arxiv.org/abs/2402.16766v1 )

ライセンス: Link先を確認
Srinjoy Mitra, Jean-Pierre Raskin(参考訳) 本稿では,特にEE/CS分野における工学部におけるリフレクティブ教育の重要性について論じる。 ほとんどのエンジニアリング分野は歴史的にテクノロジー産業の要求と一致してきたが、業界の実践に対する批判的な検証の欠如と、正義、平等、持続可能性に対する影響は自明である。 今日、有能なエンジニアリング/テクノロジー企業(その一部は世界最大の企業)も、大学における工学教育と研究の物語を形作っている。 工学系卒業生が西洋諸国のSTEM分野における最大のコホートを形成するにつれ、彼らは将来のプロフェッショナルとなり、この業界で働き、リードし、あるいは会社を設立する。 残念なことに、工学教育におけるカリキュラムは、総合的な大学教育の重要な構成要素である社会現実の深い理解を欠いていることが多い。 ここで我々は、数十年間エンジニアリング高等教育を駆り立ててきた業界との特異なつながりと、社会に対する明らかなネガティブな影響を確立する。 我々は、このnexusを分析し、エンジニアリングスクールがより批判的な視点を持つ必要があることを強調する。 現代技術企業の富と力、特にICT分野において、その技術解決論は高等教育機関において不可欠である。

This paper discusses the importance of reflective and socially conscious education in engineering schools, particularly within the EE/CS sector. While most engineering disciplines have historically aligned themselves with the demands of the technology industry, the lack of critical examination of industry practices and their impact on justice, equality, and sustainability is self-evident. Today, the for-profit engineering/technology companies, some of which are among the largest in the world, also shape the narrative of engineering education and research in universities. As engineering graduates form the largest cohorts within STEM disciplines in Western countries, they become future professionals who will work, lead, or even establish companies in this industry. Unfortunately, the curriculum within engineering education often lacks a deep understanding of social realities, an essential component of a comprehensive university education. Here we establish this unusual connection with the industry that has driven engineering higher education for several decades and its obvious negative impacts to society. We analyse this nexus and highlight the need for engineering schools to hold a more critical viewpoint. Given the wealth and power of modern technology companies, particularly in the ICT domain, questioning their techno-solutionism narrative is essential within the institutes of higher education.
翻訳日:2024-02-28 19:50:26 公開日:2024-02-26
# カオスからの秩序:構造化ニューロンの繰り返しネットワークにおける開発と学習の相互作用

Order from chaos: Interplay of development and learning in recurrent networks of structured neurons ( http://arxiv.org/abs/2402.16763v1 )

ライセンス: Link先を確認
Laura Kriener, Kristin V\"olk, Ben von H\"unerbein, Federico Benitez, Walter Senn, Mihai A. Petrovici(参考訳) 行動は神経活動によって引き起こされる行動の時間的シーケンスとして記述することができる。 ニューラルネットワークで複雑なシーケンシャルパターンを学ぶには、過去の活動の記憶は、単一神経活動の緩和時間よりもかなり長い時間スケールで持続する必要がある。 リカレントネットワークはそのような長いトランジェントを生成することができるが、生物学的に妥当な方法でこれらのネットワークをトレーニングすることは困難である。 1つのアプローチは、リカレントネットワークからリードアウトまでの重みのみを学習する貯水池コンピューティングである。 他のモデルは、伝播誤差を用いて繰り返しシナプス重みの学習を実現する。 しかしながら、生物学的な可能性は通常、局所性、リソース割り当て、パラメータスケール、チューニングといった問題に苦しむ。 これらの問題の多くは、樹状情報記憶と計算を考慮すれば緩和できると提案する。 完全に局所的で常に可塑性の規則を適用することで、2つの集団からなる再帰的ネットワークで複雑なシーケンスを学習することができる。 重要なのは、我々のモデルはリソース効率が高く、少数のニューロンだけで複雑なシーケンスを学習できることです。 これらの特徴を鳥の鳴き声学習のモックアップで示し、我々のネットワークはまず、外乱にもかかわらず頑健に再現できる長いマルコフ列を学習する。

Behavior can be described as a temporal sequence of actions driven by neural activity. To learn complex sequential patterns in neural networks, memories of past activities need to persist on significantly longer timescales than relaxation times of single-neuron activity. While recurrent networks can produce such long transients, training these networks in a biologically plausible way is challenging. One approach has been reservoir computing, where only weights from a recurrent network to a readout are learned. Other models achieve learning of recurrent synaptic weights using propagated errors. However, their biological plausibility typically suffers from issues with locality, resource allocation or parameter scales and tuning. We suggest that many of these issues can be alleviated by considering dendritic information storage and computation. By applying a fully local, always-on plasticity rule we are able to learn complex sequences in a recurrent network comprised of two populations. Importantly, our model is resource-efficient, enabling the learning of complex sequences using only a small number of neurons. We demonstrate these features in a mock-up of birdsong learning, in which our networks first learn a long, non-Markovian sequence that they can then reproduce robustly despite external disturbances.
翻訳日:2024-02-28 19:50:04 公開日:2024-02-26
# ダークパターン分類学の統合

Integrating Dark Pattern Taxonomies ( http://arxiv.org/abs/2402.16760v1 )

ライセンス: Link先を確認
Frank Lewis, Julita Vassileva(参考訳) ユーザインターフェース/ユーザエクスペリエンス(UI/UX)設計における‘Dark Patterns’の問題は、対処するのが難しい問題である。 過去10年間に悪質で挑発的なデザインが複数のドメインに拡張され、その結果複数の分類学がそれらを記述しようとしている。 これらの分類学は独自の価値を持ち、文学に独自の貢献をするが、独立した実体としての有用性は限られている。 悪質なインタフェース設計を規制する上で有意義な進歩をするためには、まず暗黒パターンの分類とラベル付けのためにグローバル調和システム(GHS)を構築しなければならない。 本稿では,ネットワーク解析ツールや手法に頼って,既存の分類学とその要素を有向グラフとして合成する。 そうすることで、ダークパターンの相互接続性は、コミュニティ(クラスタ)検出によってより明確になる。 最終的には、この研究がダークパターンの分類のためのグリフベースのGHSの作成のインスピレーションになることを期待します。

The problem of ``Dark Patterns" in user interface/user experience (UI/UX) design has proven a difficult issue to tackle. Malicious and explotitative design has expanded to multiple domains in the past 10 years and which has in turn led to multiple taxonomies attempting to describe them. While these taxonomies holds their own merit, and constitute unique contributions to the literature, their usefulness as separate entities is limited. We believe that in order to make meaningful progress in regulating malicious interface design, we must first form a globally harmonized system (GHS) for the classification and labeling of Dark Patterns. By leaning on network analysis tools and methods, this paper synthesizes existing taxonomies and their elements through as a directed graph. In doing so, the interconnectedness of Dark patterns can be more clearly revealed via community (cluster) detection. Ultimately, we hope that this work can serve as the inspiration for the creation of a glyph-based GHS for the classification of Dark Patterns.
翻訳日:2024-02-28 19:49:43 公開日:2024-02-26
# ベルペアの曖昧な準備

Unambiguous preparation of Bell pairs ( http://arxiv.org/abs/2402.16752v1 )

ライセンス: Link先を確認
Orsolya K\'alm\'an, Aur\'el G\'abris, Igor Jex, Tam\'as Kiss(参考訳) 完全ベル対を実用的なスキームで作成する能力は、分散量子コンピューティングと同様に量子通信にとっても非常に有益である。 確率論的に、しかし明白に同じ任意の純量子状態の4つのキュービット対のコピーから$\left|\Phi_{+}\right>$ Bellペアを生成するスキームを提案する。 当初、8つの量子ビット対に拡張された同じスキームは、2次的に抑圧された雑音を持つ$\left|\Phi_{+}\right>$ Bell対を明白に生成する。 提案手法のコアステップは,2つの遠隔地それぞれに適用された局所的な2ビット演算と,各パーティにおける部分射影計測とポストセレクションにより構成され,その結果は古典的に伝達される。 このスキームは標準的なエンタングルメント蒸留プロトコルに似ているが、わずか3回で成功し、現実世界のアプリケーションには魅力的である。

The ability of preparing perfect Bell pairs with a practical scheme is of great relevance for quantum communication as well as distributed quantum computing. We propose a scheme which probabilistically, but unambiguously produces the $\left|\Phi_{+}\right>$ Bell pair from four copies of qubit pairs initially in the same arbitrary pure quantum state. The same scheme, extended to eight qubit pairs initially in the same, moderately mixed quantum state, unambiguously produces the $\left|\Phi_{+}\right>$ Bell pair with quadratically suppressed noise. The core step of the proposed scheme consists of a pair of local two-qubit operations applied at each of the two distant locations, followed by a partial projective measurement and postselection at each party, with results communicated classically. While the scheme resembles standard entanglement distillation protocols, it achieves success within just three iterations, making it attractive for real-world applications.
翻訳日:2024-02-28 19:49:29 公開日:2024-02-26
# ハイブリッド参加システムにおける価値推定と曖昧さ

Value Preferences Estimation and Disambiguation in Hybrid Participatory Systems ( http://arxiv.org/abs/2402.16751v1 )

ライセンス: Link先を確認
Enrico Liscio, Luciano C. Siebert, Catholijn M. Jonker, Pradeep K. Murukannaiah(参考訳) 参加型システムにおける市民の価値を理解することは、市民中心の政策作成に不可欠である。 我々は、参加者が選択し、モチベーションを提供するハイブリッド参加システムを構想し、AIエージェントは、それらと対話することで価値の選好を見積もる。 我々は,参加者の選択と動機の衝突が検出される状況に着目し,検出された不一致を参加者と対話して対処しながら,価値の選好を推定する方法を提案する。 我々は「評価は意図的に連続的である」という哲学的スタンスを運用する。 すなわち、ある参加者の選択が価値の選好の熟考に基づいている場合、その参加者が選択に対して与えるモチベーションの中で価値の選好が観察される。 そこで本稿では,選択のみから見積もる値よりも,モチベーションから見積もった値を優先する値推定手法を提案し,比較する。 次に, 参加者と直接対話することで, 選択と動機の間の不一致を解消する曖昧さ回避戦略を提案する。 エネルギー遷移に関する大規模調査のデータセットを用いて提案手法の評価を行った。 その結果,選択とモチベーションの不整合に明示的に対処することで,個人の価値嗜好の推定が向上することが示唆された。 非曖昧化戦略は、類似のベースラインと比較して大きな改善を示すものではないが、しかしながら、このアプローチの新規性が新たな研究の道を開き、現在の制限に対処するための改善を提案する。

Understanding citizens' values in participatory systems is crucial for citizen-centric policy-making. We envision a hybrid participatory system where participants make choices and provide motivations for those choices, and AI agents estimate their value preferences by interacting with them. We focus on situations where a conflict is detected between participants' choices and motivations, and propose methods for estimating value preferences while addressing detected inconsistencies by interacting with the participants. We operationalize the philosophical stance that "valuing is deliberatively consequential." That is, if a participant's choice is based on a deliberation of value preferences, the value preferences can be observed in the motivation the participant provides for the choice. Thus, we propose and compare value estimation methods that prioritize the values estimated from motivations over the values estimated from choices alone. Then, we introduce a disambiguation strategy that addresses the detected inconsistencies between choices and motivations by directly interacting with the participants. We evaluate the proposed methods on a dataset of a large-scale survey on energy transition. The results show that explicitly addressing inconsistencies between choices and motivations improves the estimation of an individual's value preferences. The disambiguation strategy does not show substantial improvements when compared to similar baselines--however, we discuss how the novelty of the approach can open new research avenues and propose improvements to address the current limitations.
翻訳日:2024-02-28 19:49:11 公開日:2024-02-26
# 熱気体中のスピン拡散モードの光制御とコヒーレントカップリング

Optical control and coherent coupling of spin diffusive modes in thermal gases ( http://arxiv.org/abs/2402.16750v1 )

ライセンス: Link先を確認
P. Bevington, J. Nicholson, J. D. Zipfel, W. Chalupczak, C. Mishra, and V. Guarrera(参考訳) 熱ガスの集合スピンは、様々な科学や技術応用の核心にある。 ほとんどの場合、粒子のランダムな熱運動はデコヒーレンスとノイズの原因として有害であると考えられている。 拡散伝播の条件下では、熱原子はガラスセル内の様々な安定な空間モードを占有することができる。 拡張または局所化された拡散モードは、原子細胞の境界条件によって異なる磁気特性を持ち、外部の摂動と異なる反応をする。 ここでは、これらのモードを選択的に励起し、操作し、レーザー光を用いて原子の熱蒸気中に尋問できることを実証する。 特に、光のシフトやパワーブロードニングといった光ポンピングによって引き起こされる望ましくない効果に対して、例外的にレジリエントなモードを生成するための条件を解明する。 さらに, ランダム拡散原子運動上, ポンプ内の空間的不均一性の存在は, 2つの長寿命モード間の励起のコヒーレントな交換を導く結合をもたらすことを示した。 その結果, 拡散性ガスの多モード特性の系統的工学は, アルカリ金属熱ガスに基づく量子技術応用の性能向上に大いに寄与する可能性が示唆され, 量子情報応用のための汎用ツールとして, これらの単純な実験システムを促進できることがわかった。

Collective spins in thermal gases are at the core of a multitude of science and technology applications. In most of them, the random thermal motion of the particles is considered detrimental as it is responsible for decoherence and noise. In conditions of diffusive propagation, thermal atoms can potentially occupy various stable spatial modes in a glass cell. Extended or localized, diffusive modes have different magnetic properties, depending on the boundary conditions of the atomic cell, and can react differently to external perturbations. Here we demonstrate that few of these modes can be selectively excited, manipulated, and interrogated in atomic thermal vapours using laser light. In particular, we individuate the conditions for the generation of modes that are exceptionally resilient to undesirable effects introduced by optical pumping, such as light shifts and power-broadening, which are often the dominant sources of systematic errors in atomic magnetometers and co-magnetometers. Moreover, we show that the presence of spatial inhomogeneity in the pump, on top of the random diffusive atomic motion, introduces a coupling that leads to a coherent exchange of excitation between the two longest-lived modes. Our results indicate that systematic engineering of the multi-mode nature of diffusive gases has great potential for improving the performance of quantum technology applications based on alkali-metal thermal gases, and promote these simple experimental systems as versatile tools for quantum information applications.
翻訳日:2024-02-28 19:48:47 公開日:2024-02-26
# グルーピングによるハイパーチューニングの有効性の検討

Investigating the Effectiveness of HyperTuning via Gisting ( http://arxiv.org/abs/2402.16817v1 )

ライセンス: Link先を確認
Jason Phang(参考訳) gisting (mu et al., 2023) は、修正されたアテンションマスクを用いて情報をより少ないトークン表現に圧縮するモデルの訓練方法であり、トランスフォーマーベースのハイパーネットワークを訓練するための経済的アプローチとして機能する。 我々は,llama-2 モデル上に構築された gisting ベースのハイパーネットワークである hyperllama について紹介する。 P3, Super-Natural Instructions および Symbol Tuning データセットを用いた実験では,HyperLlama モデルが少数例の情報をソフトプレフィックスに効果的に圧縮できることが示されている。 しかし、マルチタスクの微調整言語モデルでは、数ショットのインコンテキストの例よりも十分に注目されている。 また, HyperLlama 生成した軟式接頭辞は, さらなる接頭辞チューニングのためのより良い初期化として機能することを示す。 全体として、グルーピングベースのハイパーネットワークは経済的で実装が容易であるが、経験的なパフォーマンスが混在している。

Gisting (Mu et al., 2023) is a simple method for training models to compress information into fewer token representations using a modified attention mask, and can serve as an economical approach to training Transformer-based hypernetworks. We introduce HyperLlama, a set of Gisting-based hypernetworks built on Llama-2 models that generates task-specific soft prefixes based on few-shot inputs. In experiments across P3, Super-NaturalInstructions and Symbol Tuning datasets, we show that HyperLlama models can effectively compress information from few-shot examples into soft prefixes. However, they still underperform multi-task fine-tuned language models with full attention over few-shot in-context examples. We also show that HyperLlama-generated soft prefixes can serve as better initializations for further prefix tuning. Overall, Gisting-based hypernetworks are economical and easy to implement, but have mixed empirical performance.
翻訳日:2024-02-28 19:43:39 公開日:2024-02-26
# マルチカット多面体の切削面と立方体面

Cut Facets and Cube Facets of Lifted Multicut Polytopes ( http://arxiv.org/abs/2402.16814v1 )

ライセンス: Link先を確認
Lucas Fabian Naumann, Jannik Irmai, Shengxian Zhao, Bjoern Andres(参考訳) 昇降型マルチカット問題はコンピュータビジョンの分野で様々な応用がある。 線形プログラミングに基づく厳密なアルゴリズムは、持ち上げられたマルチカットポリトープを理解する必要がある。 最近の進歩にもかかわらず、これらのポリトープに関する基本的な2つの疑問は未解決のままである。 本稿では,必要かつ十分かつ効率的に決定可能な条件を確立することで,最初の質問に答える。 第2の質問に向けて、カット不等式のファセット定義性を決定することはNPハードであることを示す。 これにより、昇降型マルチカットポリトープの正準面の解析が完了する。

The lifted multicut problem has diverse applications in the field of computer vision. Exact algorithms based on linear programming require an understanding of lifted multicut polytopes. Despite recent progress, two fundamental questions about these polytopes have remained open: Which lower cube inequalities define facets, and which cut inequalities define facets? In this article, we answer the first question by establishing conditions that are necessary, sufficient and efficiently decidable. Toward the second question, we show that deciding facet-definingness of cut inequalities is NP-hard. This completes the analysis of canonical facets of lifted multicut polytopes.
翻訳日:2024-02-28 19:43:21 公開日:2024-02-26
# 確率的後悔境界を用いたベイズ最適化の停止

Stopping Bayesian Optimization with Probabilistic Regret Bounds ( http://arxiv.org/abs/2402.16811v1 )

ライセンス: Link先を確認
James T. Wilson(参考訳) ベイズ最適化は、限られた事前情報に基づいて問題に対する高品質な解を効率的に見つけるための一般的なフレームワークである。 ルールとして、これらのアルゴリズムは、事前に定義された予算が枯渇するまで、次に何をするかを反復的に選択する。 このデファクト停止規則を$(\epsilon, \delta)$-criterionに置き換えることについて検討する: 最適値が $\epsilon > 0$ の範囲内にある解が見つかったとき、そのモデルの下で少なくとも 1 - \delta$ の確率で停止する。 問題の事前分布へのアクセスを前提として, 後方からのドロー数を限定して, この条件を実際に検証する方法を示す。 ガウス過程の事前に対しては、提案する基準を満たしたベイズ最適化が有限時間で停止し、穏やかな仮定の下で $(\epsilon, \delta)$-criterion を満たす点を返すことを証明する。 これらの発見には、このアプローチの強みと弱みを示す広範な実験結果が伴う。

Bayesian optimization is a popular framework for efficiently finding high-quality solutions to difficult problems based on limited prior information. As a rule, these algorithms operate by iteratively choosing what to try next until some predefined budget has been exhausted. We investigate replacing this de facto stopping rule with an $(\epsilon, \delta)$-criterion: stop when a solution has been found whose value is within $\epsilon > 0$ of the optimum with probability at least $1 - \delta$ under the model. Given access to the prior distribution of problems, we show how to verify this condition in practice using a limited number of draws from the posterior. For Gaussian process priors, we prove that Bayesian optimization with the proposed criterion stops in finite time and returns a point that satisfies the $(\epsilon, \delta)$-criterion under mild assumptions. These findings are accompanied by extensive empirical results which demonstrate the strengths and weaknesses of this approach.
翻訳日:2024-02-28 19:43:10 公開日:2024-02-26
# oncogpt: 大規模言語モデルメタai(llama)に関するオンコロジー領域の専門知識を備えた医療会話モデル

OncoGPT: A Medical Conversational Model Tailored with Oncology Domain Expertise on a Large Language Model Meta-AI (LLaMA) ( http://arxiv.org/abs/2402.16810v1 )

ライセンス: Link先を確認
Fujian Jia, Xin Liu, Lixi Deng, Jiwen Gu, Chunchao Pu, Tunan Bai, Mengjiang Huang, Yuanzhi Lu, Kang Liu(参考訳) この1年間、医学分野に大規模言語モデル(llm)を適用する傾向が高まり、特にopenaiによって開発されたchatgptのような先進言語モデルが出現した。 しかし、オンコロジー関連のクエリに特化してLLMの研究は限られている。 本研究の目的は,腫瘍学に関するアドバイスの提供において,精度の向上を示す専門言語モデルを開発することである。 医師・患者プラットフォームから収集したoncologyを中心に,オンライン質問・回答インタラクションの広範なデータ収集を行った。 データクリーニングと匿名化に続いて,180K以上のオンコロジー関連会話を含むデータセットが確立された。 会話は、現場の専門家や臨床医によって正確に分類され、慎重にレビューされた。 LLaMAモデルや他の選択したオープンソースデータセットを用いて,基礎的医学的会話におけるモデルの習熟度を高めるため,反復的微調整を行った。 そこで本研究では,本モデルにおける真正の患者質問に対する理解の充実と,その微調整プロセスにおける実際のオンライン質問応答の活用によるオンコロジー関連アドバイスの信頼性について検討した。 データベースとモデルを研究コミュニティにリリースする(https://github.com/OncoGPT1)。

In the past year, there has been a growing trend in applying Large Language Models (LLMs) to the field of medicine, particularly with the advent of advanced language models such as ChatGPT developed by OpenAI. However, there is limited research on LLMs specifically addressing oncology-related queries. The primary aim of this research was to develop a specialized language model that demonstrates improved accuracy in providing advice related to oncology. We performed an extensive data collection of online question-answer interactions centered around oncology, sourced from reputable doctor-patient platforms. Following data cleaning and anonymization, a dataset comprising over 180K+ oncology-related conversations was established. The conversations were categorized and meticulously reviewed by field specialists and clinicians to ensure precision. Employing the LLaMA model and other selected open-source datasets, we conducted iterative fine-tuning to enhance the model's proficiency in basic medical conversation and specialized oncology knowledge. We observed a substantial enhancement in the model's understanding of genuine patient inquiries and its reliability in offering oncology-related advice through the utilization of real online question-answer interactions in the fine-tuning process. We release database and models to the research community (https://github.com/OncoGPT1).
翻訳日:2024-02-28 19:42:48 公開日:2024-02-26
# 2.5\times10^{-18}$の不確かさを持つ$^{115}$in$^+$-$^{172}$yb$^+$クーロン結晶時計

An $^{115}$In$^+$-$^{172}$Yb$^+$ Coulomb crystal clock with $2.5\times10^{-18}$ systematic uncertainty ( http://arxiv.org/abs/2402.16807v1 )

ライセンス: Link先を確認
H. N. Hausser, J. Keller, T. Nordmann, N. M. Bhatt, J. Kiethe, H. Liu, M. von Boehn, J. Rahm, S. Weyers, E. Benkler, B. Lipphardt, S. Doerscher, K. Stahl, J. Klose, C. Lisdat, M. Filzinger, N. Huntemann, E. Peik, and T. E. Mehlst\"aubler(参考訳) 我々は,$^1S_0$$\leftrightarrow$$^3P_0$ transition in $^{115}$In$^+$に基づいて,スケーラブルな混合種Coulomb結晶時計を提案する。 $^{172}$yb$^+$ イオンは共トラップされ、交感神経冷却に用いられる。 置換制御を伴う条件付き調製配列により、混種クーロン結晶の再現可能な問合せ条件が確保される。 1in$^+$-3yb$^+$結晶によるクロック演算を実証し、2.5\times10^{-18}$の相対的系統的不確かさと、1.6\times10^{-15}/\sqrt{\tau/1\;s}$の相対周波数不安定性を達成する。 1.3\times10^{-16}$の絶対周波数測定と、$^{171}$yb$^+$ (e3) と$^{87}$srのクロック遷移に対する光周波数比について、それぞれ$^{18}$の4.4$と$4.7$の小さな不確かさで報告する。 後者は、これまでで最も正確な周波数比の測定値であり、以前の$^{115}$in$^+$/$^{87}$sr比の不確かさを2桁大きく改善している。 また、9.2\times10^{-16}/\sqrt{\tau/1\;s}$まで不安定になる4つの$^{115}$In$^+$クロックイオンによる動作を実証する。

We present a scalable mixed-species Coulomb crystal clock based on the $^1S_0$ $\leftrightarrow$ $^3P_0$ transition in $^{115}$In$^+$. $^{172}$Yb$^+$ ions are co-trapped and used for sympathetic cooling. Reproducible interrogation conditions for mixed-species Coulomb crystals are ensured by a conditional preparation sequence with permutation control. We demonstrate clock operation with a 1In$^+$-3Yb$^+$ crystal, achieving a relative systematic uncertainty of $2.5\times10^{-18}$ and a relative frequency instability of $1.6\times10^{-15}/\sqrt{\tau/1\;s}$. We report on an absolute frequency measurement with an uncertainty of $1.3\times10^{-16}$ and optical frequency ratios relative to the $^{171}$Yb$^+$ (E3) and $^{87}$Sr clock transitions with fractional uncertainties of $4.4$ and $4.7$ parts in 10$^{18}$, respectively. The latter are among the most precise measurements of frequency ratios to date and improve upon the previous uncertainty of the $^{115}$In$^+$/$^{87}$Sr ratio by two orders of magnitude. We also demonstrate operation with four $^{115}$In$^+$ clock ions, which reduces the instability to $9.2\times10^{-16}/\sqrt{\tau/1\;s}$.
翻訳日:2024-02-28 19:42:26 公開日:2024-02-26
# トランスフォーマによるマルチヒューマンメッシュリカバリ

Multi-Human Mesh Recovery with Transformers ( http://arxiv.org/abs/2402.16806v1 )

ライセンス: Link先を確認
Zeyu Wang, Zhenzhen Weng, Serena Yeung-Levy(参考訳) ヒトのメッシュ回復に対する従来のアプローチは、主に地域ベースの戦略を採用している。 これは、まず人間の中心の領域を前処理ステップとして切り抜き、その後のモデリングはこのズームインイメージにフォーカスします。 このパイプラインは、個々の人物が個別に処理されるため、複数の個人を特徴とする画像を扱う際の課題を生じさせ、しばしば相対的な位置決めの不正確さを引き起こす。 この制限に対処するために画像ベースのアプローチを採用する利点はあるものの、この方向の初期の取り組みは、最近の地域ベースの方法に比べて性能が不足している。 本研究では, 同時にすべての個人を考慮し, 全体的コンテキストとインタラクションを活用することで, 多人数シナリオにおける精度向上の可能性を強調し, 同時にすべての人々をモデル化する未探索領域を提唱する。 我々は,マルチスケール機能導入,集中的注意機構,相対的な共同監督という3つの重要な設計選択を特徴とする,トランスフォーマティブを合理化した新モデルを提案する。 提案手法は,複数の個人を含む様々なベンチマークにおいて,最先端の領域ベースおよび全画像ベース手法を上回って,大幅な性能向上を示す。

Conventional approaches to human mesh recovery predominantly employ a region-based strategy. This involves initially cropping out a human-centered region as a preprocessing step, with subsequent modeling focused on this zoomed-in image. While effective for single figures, this pipeline poses challenges when dealing with images featuring multiple individuals, as different people are processed separately, often leading to inaccuracies in relative positioning. Despite the advantages of adopting a whole-image-based approach to address this limitation, early efforts in this direction have fallen short in performance compared to recent region-based methods. In this work, we advocate for this under-explored area of modeling all people at once, emphasizing its potential for improved accuracy in multi-person scenarios through considering all individuals simultaneously and leveraging the overall context and interactions. We introduce a new model with a streamlined transformer-based design, featuring three critical design choices: multi-scale feature incorporation, focused attention mechanisms, and relative joint supervision. Our proposed model demonstrates a significant performance improvement, surpassing state-of-the-art region-based and whole-image-based methods on various benchmarks involving multiple individuals.
翻訳日:2024-02-28 19:41:54 公開日:2024-02-26
# craftax: オープン拡張強化学習のためのlightning-fastベンチマーク

Craftax: A Lightning-Fast Benchmark for Open-Ended Reinforcement Learning ( http://arxiv.org/abs/2402.16801v1 )

ライセンス: Link先を確認
Michael Matthews and Michael Beukman and Benjamin Ellis and Mikayel Samvelyan and Matthew Jackson and Samuel Coward and Jakob Foerster(参考訳) ベンチマークは強化学習(RL)アルゴリズムの開発と分析において重要な役割を果たす。 オープンエンド学習の研究に用いられる既存のベンチマークは、2つのカテゴリに分類される。 Crafter、NetHack、Minecraftのような膨大な計算資源なしで有意義な研究を行うには遅すぎるか、あるいはMinigridやProcgenのような大きな課題を起こすにはほどんど複雑ではない。 これを改善するために、私たちは最初にCraftax-Classicを紹介します: Pythonネイティブのオリジナルよりも最大250倍高速なJAXでのCrafterの書き直しです。 10億の環境相互作用を使用したPPOの実行は、1つのGPUだけで1時間以内に終了し、最適な報酬の90%を平均します。 NetHackからインスパイアされた要素によるCrafterのメカニックの大幅な拡張である、メインのCraftaxベンチマークを提示する。 Craftaxの解決には、深い探索、長期計画と記憶、そして世界が発見されるにつれて新しい状況への継続的な適応が必要である。 本研究では,グローバル・エピソード探索を含む既存の手法と,教師なし環境設計がベンチマークで実質的な進歩を損なうことを示す。 craftaxは、計算リソースが限られている複雑なオープンな環境で研究者が実験できる、とわれわれは信じている。

Benchmarks play a crucial role in the development and analysis of reinforcement learning (RL) algorithms. We identify that existing benchmarks used for research into open-ended learning fall into one of two categories. Either they are too slow for meaningful research to be performed without enormous computational resources, like Crafter, NetHack and Minecraft, or they are not complex enough to pose a significant challenge, like Minigrid and Procgen. To remedy this, we first present Craftax-Classic: a ground-up rewrite of Crafter in JAX that runs up to 250x faster than the Python-native original. A run of PPO using 1 billion environment interactions finishes in under an hour using only a single GPU and averages 90% of the optimal reward. To provide a more compelling challenge we present the main Craftax benchmark, a significant extension of the Crafter mechanics with elements inspired from NetHack. Solving Craftax requires deep exploration, long term planning and memory, as well as continual adaptation to novel situations as more of the world is discovered. We show that existing methods including global and episodic exploration, as well as unsupervised environment design fail to make material progress on the benchmark. We believe that Craftax can for the first time allow researchers to experiment in a complex, open-ended environment with limited computational resources.
翻訳日:2024-02-28 19:41:32 公開日:2024-02-26
# set the clock: 事前学習された言語モデルの時間アライメント

Set the Clock: Temporal Alignment of Pretrained Language Models ( http://arxiv.org/abs/2402.16797v1 )

ライセンス: Link先を確認
Bowen Zhao, Zander Brumbaugh, Yizhong Wang, Hannaneh Hajishirzi, Noah A. Smith(参考訳) 言語モデル(LM)は、多くの時点から派生したWebテキストに基づいて訓練され、一般には、明確な時間的根拠を持たない。 本研究は,事前学習されたlmsの時間的カオスを調査し,その内部知識を目標時間に合わせる手法を探究するものである。 そこで我々はまず,2000年から2023年にかけて,20Kの時間依存質問とその回答を含むデータセットを自動構築する。 このデータセットに基づいて、最近事前訓練されたLM(例:LLaMa2)がカットオフ(例:2022年)されているにもかかわらず、ほとんどは以前の知識(例:2019年)を使って質問に答えていることを実証的に示す。 次に,質問に答える際に,lmsに最新の知識を利用するように調整する手法を開発し,この調整における様々な要因について検討する。 実験の結果,LLaMa2と2022年を合わせることで,事前トレーニング後のモデルの内部感覚の整合性を示すとともに,時間情報に明示的に言及することなく,2022年に比較して最大62%の性能向上が期待できることがわかった。 最後に、2010年には、2010年の未整合LMの性能が2.8$\times$となるように、歴史的時間へのアライメントも可能であることを発見した。 これらの結果は, lmsの内部知識体系の高度化と調整の必要性を示唆する。

Language models (LMs) are trained on web text originating from many points in time and, in general, without any explicit temporal grounding. This work investigates the temporal chaos of pretrained LMs and explores various methods to align their internal knowledge to a target time, which we call "temporal alignment." To do this, we first automatically construct a dataset containing 20K time-sensitive questions and their answers for each year from 2000 to 2023. Based on this dataset, we empirically show that pretrained LMs (e.g., LLaMa2), despite having a recent pretraining cutoff (e.g., 2022), mostly answer questions using earlier knowledge (e.g., in 2019). We then develop several methods, from prompting to finetuning, to align LMs to use their most recent knowledge when answering questions, and investigate various factors in this alignment. Our experiments show that aligning LLaMa2 to the year 2022 can boost its performance by up to 62% relatively as measured by that year, even without mentioning time information explicitly, indicating the possibility of aligning models' internal sense of time after pretraining. Finally, we find that alignment to a historical time is also possible, with up to 2.8$\times$ the performance of the unaligned LM in 2010 if finetuning models to that year. These findings hint at the sophistication of LMs' internal knowledge organization and the necessity of tuning them properly.
翻訳日:2024-02-28 19:41:09 公開日:2024-02-26
# ヒューマノイドロボットの表現型全身制御

Expressive Whole-Body Control for Humanoid Robots ( http://arxiv.org/abs/2402.16796v1 )

ライセンス: Link先を確認
Xuxin Cheng, Yandong Ji, Junming Chen, Ruihan Yang, Ge Yang, Xiaolong Wang(参考訳) 人間型ロボットが現実世界で豊かで多様で表現力のある動きを生成できるだろうか? 人間の動きを可能な限りリアルに再現するために,人間サイズのロボットの全身制御方針を学習することを提案する。 このようなポリシーをトレーニングするために,強化学習フレームワークにおいて,グラフィックコミュニティからの大規模ヒューマンモーションキャプチャデータを活用する。 しかし、モーションキャプチャデータセットによる模倣学習は、自由度と物理的能力のギャップが大きいため、実際のヒューマノイドロボットでは機能しない。 本手法は,両脚の模倣制約を緩和し,与えられた速度を頑健に追従することのみを要求しながら,上半身の人体に基準運動を模倣するよう促すことで,全身制御(exbody)を表現し,この問題に対処している。 シミュレーションとSim2Real転送のトレーニングにより、私たちのポリシーはヒューマノイドロボットを制御して、さまざまなスタイルで歩いたり、人と握手したり、現実世界で人間と踊ったりできる。 本手法の有効性を示すため,シミュレーションと実世界の両方における多様な動きに関する広範な研究と比較を行った。

Can we enable humanoid robots to generate rich, diverse, and expressive motions in the real world? We propose to learn a whole-body control policy on a human-sized robot to mimic human motions as realistic as possible. To train such a policy, we leverage the large-scale human motion capture data from the graphics community in a Reinforcement Learning framework. However, directly performing imitation learning with the motion capture dataset would not work on the real humanoid robot, given the large gap in degrees of freedom and physical capabilities. Our method Expressive Whole-Body Control (Exbody) tackles this problem by encouraging the upper humanoid body to imitate a reference motion, while relaxing the imitation constraint on its two legs and only requiring them to follow a given velocity robustly. With training in simulation and Sim2Real transfer, our policy can control a humanoid robot to walk in different styles, shake hands with humans, and even dance with a human in the real world. We conduct extensive studies and comparisons on diverse motions in both simulation and the real world to show the effectiveness of our approach.
翻訳日:2024-02-28 19:40:41 公開日:2024-02-26
# 早期停止勾配降下に対するクロスバリデーションの失敗と成功

Failures and Successes of Cross-Validation for Early-Stopped Gradient Descent ( http://arxiv.org/abs/2402.16793v1 )

ライセンス: Link先を確認
Pratik Patil, Yuchen Wu, Ryan J. Tibshirani(参考訳) 高次元最小二乗回帰における一般化クロスバリデーション (gcv) とレフトワンアウトクロスバリデーション (loocv) の統計特性を, 早期停止勾配降下 (gd) に適用した。 等方性を有する線形モデルであっても, GCV は早期停止型GD の予測リスクの予測器として不整合であることが証明された。 対照的に, LOOCVはGD軌道に沿って一様に収束し, 予測リスクを示す。 本理論では,データ分布に対する軽度の仮定のみを求め,基礎となる回帰関数が線形である必要はない。 さらに、個々のloocv誤差を利用して、gd軌道に沿った予測誤差分布全体の一貫した推定器と、幅広いエラー汎関数の一貫した推定器を構築する。 これは特に、訓練データに基づいて漸近的に正しい公称被覆条件を持つgdイテレートに基づくパスワイズ予測区間の構築を可能にする。

We analyze the statistical properties of generalized cross-validation (GCV) and leave-one-out cross-validation (LOOCV) applied to early-stopped gradient descent (GD) in high-dimensional least squares regression. We prove that GCV is generically inconsistent as an estimator of the prediction risk of early-stopped GD, even for a well-specified linear model with isotropic features. In contrast, we show that LOOCV converges uniformly along the GD trajectory to the prediction risk. Our theory requires only mild assumptions on the data distribution and does not require the underlying regression function to be linear. Furthermore, by leveraging the individual LOOCV errors, we construct consistent estimators for the entire prediction error distribution along the GD trajectory and consistent estimators for a wide class of error functionals. This in particular enables the construction of pathwise prediction intervals based on GD iterates that have asymptotically correct nominal coverage conditional on the training data.
翻訳日:2024-02-28 19:40:22 公開日:2024-02-26
# プライベートペアワイズランキングを用いたレート最適ランクアグリゲーション

Rate-Optimal Rank Aggregation with Private Pairwise Rankings ( http://arxiv.org/abs/2402.16792v1 )

ライセンス: Link先を確認
Shirong Xu, Will Wei Sun, Guang Cheng(参考訳) レコメンダシステムや政治調査のような様々な現実世界のシナリオでは、ペアワイズランキングが一般的に収集され、ランクアグリゲーションに利用され、アイテムの全体的なランキングを得る。 しかし、選好ランキングは個人の個人の好みを明らかにし、下流の分析のためにリリースする前に保護する必要性を強調している。 本稿では,bradley-terry-luce(btl)モデルから生成した対数ランキングに基づくランクアグリゲーションの有用性を確保しつつ,プライバシの保護という課題に対処する。 ランダム化応答機構を用いて、生のペアワイズランキングを摂動させることは、実際には一般的なプライバシー保護戦略であるが、民営化ランキングがもはやBTLモデルに従わないため、ダウンストリームのランク集計タスクに重大なバイアスをもたらすため、重要な課題が発生する。 そこで本研究では,低位ランキングにおける真の選好とランキングの一貫した推定を実現するために,素のペアワイズランキングを保護するために,偏りのないランダム化応答機構を提案する。 理論的には,プライバシ全般の保証とプライベートランキングデータからの推測誤差の関係を考察し,推定誤差の最小化率を確立する。 これにより、ランクアグリゲーションにおける一貫性と堅牢なプライバシ保護とのバランスが、最適なプライバシ保証を決定することができる。 また,部分的および全体的ランキング回復のための期待ランキング誤差の収束率を調査し,プライバシ保護が上位$k$項目セットと完全ランキングの仕様に与える影響を定量化する。 我々の発見は広範なシミュレーションと実際の応用によって検証される。

In various real-world scenarios like recommender systems and political surveys, pairwise rankings are commonly collected and utilized for rank aggregation to obtain an overall ranking of items. However, preference rankings can reveal individuals' personal preferences, underscoring the need to protect them before releasing for downstream analysis. In this paper, we address the challenge of preserving privacy while ensuring the utility of rank aggregation based on pairwise rankings generated from the Bradley-Terry-Luce (BTL) model. Using the randomized response mechanism to perturb raw pairwise rankings is a common privacy protection strategy used in practice, but a critical challenge arises because the privatized rankings no longer adhere to the BTL model, resulting in significant bias in downstream rank aggregation tasks. Motivated from this, we propose a debiased randomized response mechanism to protect the raw pairwise rankings, ensuring consistent estimation of true preferences and rankings in downstream rank aggregation. Theoretically, we offer insights into the relationship between overall privacy guarantees and estimation errors from private ranking data, and establish minimax rates for estimation errors. This enables the determination of optimal privacy guarantees that balance consistency in rank aggregation with robust privacy protection. We also investigate convergence rates of expected ranking errors for partial and full ranking recovery, quantifying how privacy protection influences the specification of top-$K$ item sets and complete rankings. Our findings are validated through extensive simulations and a real application.
翻訳日:2024-02-28 19:40:02 公開日:2024-02-26
# 自己学習的注意を超えて:注意誘導を用いた変圧器モデルにおける注意バイアスの緩和

Beyond Self-learned Attention: Mitigating Attention Bias in Transformer-based Models Using Attention Guidance ( http://arxiv.org/abs/2402.16790v1 )

ライセンス: Link先を確認
Jiri Gesi and Iftekhar Ahmed(参考訳) トランスフォーマーベースのモデルは、ソフトウェア工学におけるソースコードモデリングタスクにかなりの可能性を示している。 しかし、自動的自己着力重み学習機構のみに依存することで制限される。 以前の研究では、これらのモデルがトークン化剤(例えば[CLS]、[SEP])が付加したデリミッターを過度に強調していることが示されており、元の入力ソースコードに不可欠な情報を見落としてしまう可能性がある。 この課題に対処するため,我々はsyntaguidを導入する。このアプローチは,適切な予測を行う際に,特定のソースコードの構文トークンやast(abstract syntax tree)要素に対して注意重みが偏りやすいという観測結果を活用した新しいアプローチである。 SyntaGuidは、注目度学習のガイダンスを促進し、様々なソフトウェアエンジニアリングタスクにおけるモデルパフォーマンスを改善する。 我々は,複数のタスクにおけるSyntaGuidの有効性を評価し,既存の最先端モデルよりも高い性能を示す。 実験の結果、syntaguidは全体のパフォーマンスを3.25%改善し、28.3%の誤った予測を修正できることがわかった。 我々の研究は、Transformerベースのモデルの注意を微調整中に重要なソースコードトークンへと導く最初の試みであり、ソフトウェア工学におけるTransformerベースのモデルを強化する可能性を強調しています。

Transformer-based models have demonstrated considerable potential for source code modeling tasks in software engineering. However, they are limited by their dependence solely on automatic self-attention weight learning mechanisms. Previous studies have shown that these models overemphasize delimiters added by tokenizers (e.g., [CLS], [SEP]), which may lead to overlooking essential information in the original input source code. To address this challenge, we introduce SyntaGuid, a novel approach that utilizes the observation that attention weights tend to be biased towards specific source code syntax tokens and abstract syntax tree (AST) elements in fine-tuned language models when they make correct predictions. SyntaGuid facilitates the guidance of attention-weight learning, leading to improved model performance on various software engineering tasks. We evaluate the effectiveness of SyntaGuid on multiple tasks and demonstrate that it outperforms existing state-of-the-art models in overall performance without requiring additional data. Experimental result shows that SyntaGuid can improve overall performance up to 3.25% and fix up to 28.3% wrong predictions. Our work represents the first attempt to guide the attention of Transformer-based models towards critical source code tokens during fine-tuning, highlighting the potential for enhancing Transformer-based models in software engineering.
翻訳日:2024-02-28 19:39:34 公開日:2024-02-26
# 絡み合うチャネルは量子記憶資源である

Entanglement-breaking channels are a quantum memory resource ( http://arxiv.org/abs/2402.16789v1 )

ライセンス: Link先を確認
Lucas B. Vieira, Huan-Yu Ku, Costantino Budroni(参考訳) 絡み合い破壊チャネル(英: entanglement-breaking channel)は、多成分の空間的量子相関を壊す能力を持つ量子演算の重要なクラスである。 この性質に触発されて、これらのチャネルが古典的資源として効果的に機能するという仮定の下で、「古典的記憶」の概念を定義するのにも用いられてきた。 単一システムのマルチタイムシナリオでは、絡み込みブレークングチャネルは依然として量子メモリリソースであり、絡み込みブレークングチャネルを通過するキューディットは同じ次元の古典的なシステムではシミュレートできない。 エンタングルメントブレーキングチャネルが同じ大きさの古典記憶より優れているメモリベース出力生成タスクの明確な例を示す。 この結果から,時間的シナリオにおける古典的メモリ効果を,追加の仮定なしで特徴づけるには,絡み合うチャネルは一般的には利用できないことが示唆された。

Entanglement-breaking channels (equivalently, measure-and-prepare channels) are an important class of quantum operations noted for their ability to destroy multipartite spatial quantum correlations. Inspired by this property, they have also been employed in defining notions of "classical memory", under the assumption that such channels effectively act as a classical resource. We show that, in a single-system multi-time scenario, entanglement-breaking channels are still a quantum memory resource: a qudit going through an entanglement-breaking channel cannot be simulated by a classical system of same dimension. We provide explicit examples of memory-based output generation tasks where entanglement-breaking channels outperform classical memories of the same size. Our results imply that entanglement-breaking channels cannot be generally employed to characterize classical memory effects in temporal scenarios without additional assumptions.
翻訳日:2024-02-28 19:39:08 公開日:2024-02-26
# トランスフォーマーがAdamを必要とする理由

Why Transformers Need Adam: A Hessian Perspective ( http://arxiv.org/abs/2402.16788v1 )

ライセンス: Link先を確認
Yushun Zhang, Congliang Chen, Tian Ding, Ziniu Li, Ruoyu Sun, Zhi-Quan Luo(参考訳) SGDはトランスフォーマーのかなりの差でAdamよりもパフォーマンスが悪いが、その理由は不明だ。 本稿では、ヘッセンのレンズを通してSGDがトランスフォーマーに失敗したことを説明する。 (i)トランスフォーマーは ``heterogeneous'' であり、パラメータブロック間のヘッシアンスペクトルは劇的に異なり、``block heterogeneity' と呼ばれる現象である。 (II) 異種ハマーSGD: SGDはブロックの不均一性の問題に対してひどく作用する。 ヘテロジニティハマーSGDを検証するために、様々なトランスフォーマー、CNN、MPP、二次問題を確認し、異種性をブロックすることなく問題に対してうまく機能するが、異種性が存在する場合には性能が良くないことを示す。 我々の最初の理論的分析は、SGDはブロック間の不均一性を扱うことができない全てのブロックに対して1つの学習率を適用するため失敗することを示している。 adam氏が設計したように、ブロック間で異なる学習率を割り当てることができれば、失敗は救えるでしょう。

SGD performs worse than Adam by a significant margin on Transformers, but the reason remains unclear. In this work, we provide an explanation of SGD's failure on Transformers through the lens of Hessian: (i) Transformers are ``heterogeneous'': the Hessian spectrum across parameter blocks vary dramatically, a phenomenon we call ``block heterogeneity"; (ii) Heterogeneity hampers SGD: SGD performs badly on problems with block heterogeneity. To validate that heterogeneity hampers SGD, we check various Transformers, CNNs, MLPs, and quadratic problems, and find that SGD works well on problems without block heterogeneity but performs badly when the heterogeneity exists. Our initial theoretical analysis indicates that SGD fails because it applies one single learning rate for all blocks, which cannot handle the heterogeneity among blocks. The failure could be rescued if we could assign different learning rates across blocks, as designed in Adam.
翻訳日:2024-02-28 19:38:50 公開日:2024-02-26
# 単体トリビティ圧縮による内因性多体複合体の解離

Unveiling Intrinsic Many-Body Complexity by Compressing Single-Body Triviality ( http://arxiv.org/abs/2402.16841v1 )

ライセンス: Link先を確認
Ke Liao, Lexin Ding, Christian Schilling(参考訳) 強相関電子系における静的および動的相関の同時処理は重要な課題である。 特に、多体波動関数の表現複雑性を最小化する単粒子軌道基底を同定するための普遍的なスキームを見つけることは、証明可能で長い問題である。 その解に対する実質的な寄与として、全軌道相関が実際に波動関数の内在的な複雑さを明らかにし、定量化していることが示される。 この概念の実効性を示すために,tccsd (tailored coupled cluster singles and doubles) ansatz (tccsd) によって計算された全軌道相関を最小化することにより,軌道を最適化する反復スキームが提案されている。 最適化された軌道は、改良された波動関数とエネルギーによって示される多体波動関数のより非自明な情報を取得することができる。 このスキームの最初の応用は、強く相関したC$_{\rm 2}$分子とCr$_{\rm 2}$分子のシングルト基底ポテンシャルエネルギー曲線の予測におけるTCCSDの大幅な改善を示している。

The simultaneous treatment of static and dynamical correlations in strongly-correlated electron systems is a critical challenge. In particular, finding a universal scheme for identifying a single-particle orbital basis that minimizes the representational complexity of the many-body wavefunction is a formidable and longstanding problem. As a substantial contribution towards its solution, we show that the total orbital correlation actually reveals and quantifies the intrinsic complexity of the wavefunction,once it is minimized via orbital rotations. To demonstrate the power of this concept in practice, an iterative scheme is proposed to optimize the orbitals by minimizing the total orbital correlation calculated by the tailored coupled cluster singles and doubles (TCCSD) ansatz. The optimized orbitals enable the limited TCCSD ansatz to capture more non-trivial information of the many-body wavefunction, indicated by the improved wavefunction and energy. An initial application of this scheme shows great improvement of TCCSD in predicting the singlet ground state potential energy curves of the strongly correlated C$_{\rm 2}$ and Cr$_{\rm 2}$ molecule.
翻訳日:2024-02-28 19:34:59 公開日:2024-02-26
# MobiLlama:正確で軽量な完全透明GPTを目指して

MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT ( http://arxiv.org/abs/2402.16840v1 )

ライセンス: Link先を確認
Omkar Thawakar, Ashmal Vayani, Salman Khan, Hisham Cholakal, Rao M. Anwer, Michael Felsberg, Tim Baldwin, Eric P. Xing, Fahad Shahbaz Khan(参考訳) 近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。 しかし、LCMはオンデバイス処理、エネルギー効率、メモリフットプリントの低さ、応答効率を必要とするシナリオには適していない。 これらの要件は、プライバシ、セキュリティ、持続可能なデプロイメントに不可欠です。 本稿では,資源制約のあるデバイスに対して,正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処する。 我々の主な貢献は、リソース制約コンピューティングの特定のニーズに対応し、リソース要求の低減によるパフォーマンスの向上に重点を置いた、正確で完全なオープンソース0.5億(0.5B)パラメータのSLMの導入である。 mobillamaはslm設計であり、より大きなモデルから開始し、事前トレーニングとデプロイメントコストの両方を削減するために注意深いパラメータ共有スキームを適用する。 私たちの研究は、オープンソースのslmのギャップを埋めるだけでなく、完全なトレーニングデータパイプライン、トレーニングコード、モデルウェイト、300以上のチェックポイント、評価コードなど、完全な透過性を確保しようとしています。

"Bigger the better" has been the predominant trend in recent Large Language Models (LLMs) development. However, LLMs do not suit well for scenarios that require on-device processing, energy efficiency, low memory footprint, and response efficiency. These requisites are crucial for privacy, security, and sustainable deployment. This paper explores the "less is more" paradigm by addressing the challenge of designing accurate yet efficient Small Language Models (SLMs) for resource constrained devices. Our primary contribution is the introduction of an accurate and fully transparent open-source 0.5 billion (0.5B) parameter SLM, named MobiLlama, catering to the specific needs of resource-constrained computing with an emphasis on enhanced performance with reduced resource demands. MobiLlama is a SLM design that initiates from a larger model and applies a careful parameter sharing scheme to reduce both the pre-training and the deployment cost. Our work strives to not only bridge the gap in open-source SLMs but also ensures full transparency, where complete training data pipeline, training code, model weights, and over 300 checkpoints along with evaluation codes is available at : https://github.com/mbzuai-oryx/MobiLlama.
翻訳日:2024-02-28 19:34:37 公開日:2024-02-26
# 大規模言語モデルはマルチホップ推論を遅延的に行うか?

Do Large Language Models Latently Perform Multi-Hop Reasoning? ( http://arxiv.org/abs/2402.16837v1 )

ライセンス: Link先を確認
Sohee Yang, Elena Gribovskaya, Nora Kassner, Mor Geva, Sebastian Riedel(参考訳) 本稿では,Large Language Models (LLMs) が "The mother of the singer of 'Superstition' is is." のような複雑なプロンプトでマルチホップ推論を行うかどうかを検討する。 我々は,LLM(1)が「迷信」の歌手を橋梁の実体であるスティービー・ワンダー(Stevie Wonder)と認識し,(2)スティービー・ワンダー(Stevie Wonder)の母親の知識を駆使してプロンプトを完遂する潜在的推論経路の証拠を探る。 これら2つのホップを個別に分析し,それらの共起を潜在的マルチホップ推論の指標と考える。 最初のホップでは、他のどのエンティティよりも間接的にブリッジエンティティに言及するプロンプトを変更すると、LLMの内部でブリッジエンティティをリコールする。 第2のホップでは、このリコールの増加がLLMのブリッジエンティティに関する知識をより有効活用させるかどうかをテストする。 我々は,ある関係型のプロンプトに対する潜在的マルチホップ推論の強い証拠と,プロンプトの80%以上で使用されている推論経路を見いだした。 しかし、利用状況は高度であり、さまざまなタイプのプロンプトによって異なる。 また、平均して、第2ホップと全マルチホップトラバーサルの証拠は、比較的適度であり、第1ホップでのみ十分である。 さらに,モデルサイズを増加させることで,推論の第一段階に留まらず,第二段階のホップに留まらず,明確なスケーリング傾向を見出した。 実験結果から, LLMの今後の開発と応用に向けた課題と機会が示唆された。

We study whether Large Language Models (LLMs) latently perform multi-hop reasoning with complex prompts such as "The mother of the singer of 'Superstition' is". We look for evidence of a latent reasoning pathway where an LLM (1) latently identifies "the singer of 'Superstition'" as Stevie Wonder, the bridge entity, and (2) uses its knowledge of Stevie Wonder's mother to complete the prompt. We analyze these two hops individually and consider their co-occurrence as indicative of latent multi-hop reasoning. For the first hop, we test if changing the prompt to indirectly mention the bridge entity instead of any other entity increases the LLM's internal recall of the bridge entity. For the second hop, we test if increasing this recall causes the LLM to better utilize what it knows about the bridge entity. We find strong evidence of latent multi-hop reasoning for the prompts of certain relation types, with the reasoning pathway used in more than 80% of the prompts. However, the utilization is highly contextual, varying across different types of prompts. Also, on average, the evidence for the second hop and the full multi-hop traversal is rather moderate and only substantial for the first hop. Moreover, we find a clear scaling trend with increasing model size for the first hop of reasoning but not for the second hop. Our experimental findings suggest potential challenges and opportunities for future development and applications of LLMs.
翻訳日:2024-02-28 19:34:13 公開日:2024-02-26
# PhyGrasp:物理インフォームド大規模マルチモーダルモデルによるロボットグラスピングの一般化

PhyGrasp: Generalizing Robotic Grasping with Physics-informed Large Multimodal Models ( http://arxiv.org/abs/2402.16836v1 )

ライセンス: Link先を確認
Dingkun Guo, Yuqi Xiang, Shuqi Zhao, Xinghao Zhu, Masayoshi Tomizuka, Mingyu Ding, Wei Zhan(参考訳) ロボットの把握は、ロボットがオブジェクトとどのように相互作用するかを定義するロボット機能の基本的側面である。 実質的な進歩にもかかわらず、非一般的な材料や形状を持つ物体のような直観的あるいは長いシナリオに対する一般化は依然として課題である。 対照的に、人間は直感的な物理学を巧みに把握し、これまで見たことのない物体でも効率的に把握を変えることができる。 この研究は、そのような物理的常識的推論をロボット操作に注入する。 自然言語と3dポイントクラウドという2つのモダリティから入力を活用し,ブリッジモジュールを通じてシームレスに統合したマルチモーダル大規模モデルであるphygraspを紹介する。 言語モダリティは、様々な物理的特性が把握に与える影響に関する堅牢な推論能力を示し、3Dモダリティはオブジェクトの形状や部分を理解する。 これらの2つの能力により、PhyGraspはオブジェクトの物理的特性を正確に評価し、最適な把握ポーズを決定することができる。 さらに、モデルの言語理解は、人間の指示解釈を可能にし、人間の好みに合致した把握ポーズを生成する。 phygraspをトレーニングするために、異なる物理特性と人間の好みを持つ195kのオブジェクトインスタンスを持つデータセット phypartnet を構築し、対応する言語記述と併用する。 シミュレーションと実際のロボットで実施された大規模な実験は、PhyGraspが最先端のパフォーマンスを達成することを実証している。 プロジェクトページ: https://sites.google.com/view/phygrasp

Robotic grasping is a fundamental aspect of robot functionality, defining how robots interact with objects. Despite substantial progress, its generalizability to counter-intuitive or long-tailed scenarios, such as objects with uncommon materials or shapes, remains a challenge. In contrast, humans can easily apply their intuitive physics to grasp skillfully and change grasps efficiently, even for objects they have never seen before. This work delves into infusing such physical commonsense reasoning into robotic manipulation. We introduce PhyGrasp, a multimodal large model that leverages inputs from two modalities: natural language and 3D point clouds, seamlessly integrated through a bridge module. The language modality exhibits robust reasoning capabilities concerning the impacts of diverse physical properties on grasping, while the 3D modality comprehends object shapes and parts. With these two capabilities, PhyGrasp is able to accurately assess the physical properties of object parts and determine optimal grasping poses. Additionally, the model's language comprehension enables human instruction interpretation, generating grasping poses that align with human preferences. To train PhyGrasp, we construct a dataset PhyPartNet with 195K object instances with varying physical properties and human preferences, alongside their corresponding language descriptions. Extensive experiments conducted in the simulation and on the real robots demonstrate that PhyGrasp achieves state-of-the-art performance, particularly in long-tailed cases, e.g., about 10% improvement in success rate over GraspNet. Project page: https://sites.google.com/view/phygrasp
翻訳日:2024-02-28 19:33:45 公開日:2024-02-26
# LLMにおけるロバスト・アンラーニングの評価方法

Eight Methods to Evaluate Robust Unlearning in LLMs ( http://arxiv.org/abs/2402.16835v1 )

ライセンス: Link先を確認
Aengus Lynch, Phillip Guo, Aidan Ewart, Stephen Casper, Dylan Hadfield-Menell(参考訳) 機械学習は、大きな言語モデル(LLM)から有害な能力や記憶されたテキストを取り除くのに役立つが、それを厳格に評価する標準的な方法はまだ存在しない。 本稿では,既存の未学習評価の手法と限界を最初に調査する。 第2に,eldan and russinovich (2023) による "who's harry potter" (whp) モデルにおけるアンラーニングの堅牢性と競争力について,包括的なテストセットを適用する。 whpのアンラーニングは、eldanとrussinovichの"親密性"の指標で評価するとうまく一般化するが、 一 ベースライン以上の知識を確実に抽出することができる。 二 WHPは、ハリー・ポッターのQ&A作業の原型と同等の動作をする。 三 原案と相反する潜在知識を表現し、かつ、 四 関連領域に傍観的未学習があること。 総じて,アドホックなメトリクスを回避した総合的アンラーニング評価の重要性を強調する。

Machine unlearning can be useful for removing harmful capabilities and memorized text from large language models (LLMs), but there are not yet standardized methods for rigorously evaluating it. In this paper, we first survey techniques and limitations of existing unlearning evaluations. Second, we apply a comprehensive set of tests for the robustness and competitiveness of unlearning in the "Who's Harry Potter" (WHP) model from Eldan and Russinovich (2023). While WHP's unlearning generalizes well when evaluated with the "Familiarity" metric from Eldan and Russinovich, we find i) higher-than-baseline amounts of knowledge can reliably be extracted, ii) WHP performs on par with the original model on Harry Potter Q&A tasks, iii) it represents latent knowledge comparably to the original model, and iv) there is collateral unlearning in related domains. Overall, our results highlight the importance of comprehensive unlearning evaluation that avoids ad-hoc metrics.
翻訳日:2024-02-28 19:33:15 公開日:2024-02-26
# 謎の投影:マルチモーダルLCMは、よりリッチなクロスモーダル投影なしでドメイン特有の視覚能力を得る

Mysterious Projections: Multimodal LLMs Gain Domain-Specific Visual Capabilities Without Richer Cross-Modal Projections ( http://arxiv.org/abs/2402.16832v1 )

ライセンス: Link先を確認
Gaurav Verma, Minje Choi, Kartik Sharma, Jamelle Watson-Daniels, Sejoon Oh, Srijan Kumar(参考訳) LLaVAやGPT-4(V)のようなマルチモーダルな大言語モデル(MLLM)は、言語モダリティを持つ画像に関する汎用的な会話を可能にする。 市販のMLLMは皮膚科や農業などの領域の画像に制限があるため、ドメイン固有のアプリケーションをアンロックするためには微調整が必要である。 現在のオープンソースMLLMのアーキテクチャは、イメージ言語(クロスモーダル)プロジェクションネットワークと大きな言語モデルという2つの主要なモジュールから構成されている。 これら2つのモジュールがドメイン固有の視覚特性をモデル化し、将来のモデルの設計を知らせ、現在のモデルにおける解釈可能性の取り組みを合理化する役割を理解することが望ましい。 この目的のために、4つのデータセットの実験と2つの微調整された設定により、MLLMは微調整されているため、実際にドメイン固有の視覚能力を得るが、更新は関連するドメイン固有の視覚属性をプロジェクション抽出することにつながることはない。 本結果は,投影のみを微調整した場合でも,ドメイン固有の視覚特性がLLMによってモデル化されていることを示す。 本研究では,MLLMアーキテクチャにおけるクロスモーダル射影の役割を再解釈する可能性について述べる。 プロジェクションwebページ: https://claws-lab.github.io/projection-in-mllms/

Multimodal large language models (MLLMs) like LLaVA and GPT-4(V) enable general-purpose conversations about images with the language modality. As off-the-shelf MLLMs may have limited capabilities on images from domains like dermatology and agriculture, they must be fine-tuned to unlock domain-specific applications. The prevalent architecture of current open-source MLLMs comprises two major modules: an image-language (cross-modal) projection network and a large language model. It is desirable to understand the roles of these two modules in modeling domain-specific visual attributes to inform the design of future models and streamline the interpretability efforts on the current models. To this end, via experiments on 4 datasets and under 2 fine-tuning settings, we find that as the MLLM is fine-tuned, it indeed gains domain-specific visual capabilities, but the updates do not lead to the projection extracting relevant domain-specific visual attributes. Our results indicate that the domain-specific visual attributes are modeled by the LLM, even when only the projection is fine-tuned. Through this study, we offer a potential reinterpretation of the role of cross-modal projections in MLLM architectures. Projection webpage: https://claws-lab.github.io/projection-in-MLLMs/
翻訳日:2024-02-28 19:33:02 公開日:2024-02-26
# 良い)ldpc符号の物理ii。 製品構造

The Physics of (good) LDPC Codes II. Product constructions ( http://arxiv.org/abs/2402.16831v1 )

ライセンス: Link先を確認
Tibor Rakovszky and Vedika Khemani(参考訳) 物理の観点から古典的および量子的低密度パリティチェック(LDPC)コードの研究を継続する。 構成的アプローチに着目し、一般的なユークリッドグラフや非ユークリッドグラフに様々な特徴を持つコードを体系的に構築するための一般的なフレームワークを定式化する。 これらの符号は、物質相の固定点制限として機能する。 機械を構築するために、私たちは、対称性や冗長性といった物理原理の観点からコーディング文献から様々な製品構成を解き放ち、新しい立方体製品を導入し、これらの製品を、パートiで導入されたゲージとヒッグスリングのアイデアと組み合わせます。 有限ユークリッド次元におけるこのアプローチの有用性について、一次元イジングモデルを出発点として、I型およびII型フラクトン、SPT相を含む古典的および量子的な物質相の非常に大きな動物園を体系的に生成できることを示す。 また, 平衡積を用いて新しいユークリッドモデルを構築し, 翻訳対称性によって高められた位相次数を持つモデルと, フラクタルスピン液体のモデルとトーリック符号のモデルを組み合わせて励起を形成する他のエキゾチックフラクトンモデルを用いて, エキゾチックモビリティ制約を生じさせる。 ユークリッドモデルを超えて、優れたqLDPC符号と古典的な局所的なテスト可能な符号の既存の構成を概観し、量子コード距離と古典的なエネルギー障壁の関係を製品構成の観点から詳細に述べる。

We continue the study of classical and quantum low-density parity check (LDPC) codes from a physical perspective. We focus on constructive approaches and formulate a general framework for systematically constructing codes with various features on generic Euclidean and non-Euclidean graphs. These codes can serve as fixed-point limits for phases of matter. To build our machinery, we unpack various product constructions from the coding literature in terms of physical principles such as symmetries and redundancies, introduce a new cubic product, and combine these products with the ideas of gauging and Higgsing introduced in Part I. We illustrate the usefulness of this approach in finite Euclidean dimensions by showing that using the one-dimensional Ising model as a starting point, we can systematically produce a very large zoo of classical and quantum phases of matter, including type I and type II fractons and SPT phases with generalized symmetries. We also use the balanced product to construct new Euclidean models, including one with topological order enriched by translation symmetry, and another exotic fracton model whose excitations are formed by combining those of a fractal spin liquid with those of a toric code, resulting in exotic mobility constraints. Moving beyond Euclidean models, we give a review of existing constructions of good qLDPC codes and classical locally testable codes and elaborate on the relationship between quantum code distance and classical energy barriers, discussed in Part I, from the perspective of product constructions.
翻訳日:2024-02-28 19:32:39 公開日:2024-02-26
# SKILL: 自己指導型音声学習のための類似性認識型知識分散

SKILL: Similarity-aware Knowledge distILLation for Speech Self-Supervised Learning ( http://arxiv.org/abs/2402.16830v1 )

ライセンス: Link先を確認
Luca Zampierin, Ghouthi Boukli Hacene, Bac Nguyen, Mirco Ravanelli(参考訳) 自己教師付き学習(SSL)は様々な音声処理タスクで顕著に成功している。 効率を高めるために、以前の作品はしばしば圧縮技術を利用している。 注目すべき最近の試みはDPHuBERTで、より小さなSSLモデルを学ぶために共同知識蒸留(KD)と構造化プルーニングを適用している。 本稿では,教師ネットワーク内の個々の層を任意に蒸留する代わりに,層群間で蒸留を行う新しい手法であるSKILLを導入することにより,本研究領域に寄与する。 蒸留する層を同定するには, 層類似度測定に適用した階層的クラスタリング法を用いる。 拡張実験により, 蒸留したWavLM Base+はDPHuBERTより優れるだけでなく, 複数のSUPERBタスクにまたがる30Mパラメーターモデルクラスにおいて, 最先端の結果が得られることが示された。

Self-supervised learning (SSL) has achieved remarkable success across various speech-processing tasks. To enhance its efficiency, previous works often leverage the use of compression techniques. A notable recent attempt is DPHuBERT, which applies joint knowledge distillation (KD) and structured pruning to learn a significantly smaller SSL model. In this paper, we contribute to this research domain by introducing SKILL, a novel method that conducts distillation across groups of layers instead of distilling individual arbitrarily selected layers within the teacher network. The identification of the layers to distill is achieved through a hierarchical clustering procedure applied to layer similarity measures. Extensive experiments demonstrate that our distilled version of WavLM Base+ not only outperforms DPHuBERT but also achieves state-of-the-art results in the 30M parameters model class across several SUPERB tasks.
翻訳日:2024-02-28 19:32:10 公開日:2024-02-26
# gistembed: テキスト埋め込み微調整のためのトレーニング負のサンプル内選択

GISTEmbed: Guided In-sample Selection of Training Negatives for Text Embedding Fine-tuning ( http://arxiv.org/abs/2402.16829v1 )

ライセンス: Link先を確認
Aivin V. Solatorio(参考訳) 埋め込みモデルは、セマンティック検索、パーソナライズされたレコメンデーション、LLMの検索強化生成のようなAIアプリケーションに不可欠なもので、高品質なトレーニングデータを必要とする。 しかし、手動のデータキュレーションのスケーラビリティが制限されているため、データの整合性を確保するために自動メソッドが必要である。 従来の教師なしトリプルトマイニングは、モデルのトレーニングに不可欠なトレーニングデータ生成を自動化するが、不注意にバイアスとノイズを注入することで、モデルのパフォーマンスを低下させる。 そこで本研究では,対照訓練中におけるバッチ内負の選択性を高める新しい手法であるgistembedをガイドモデルとして紹介する。 このアプローチは、ランダムサンプリングとバッチ負の等価効用仮定に依存し、データ品質の問題からノイズを著しく低減し、モデル微調整を改善する。 MTEB(Massive Text Embedding Benchmark)に対してベンチマークされたGISTEmbedは、さまざまなモデルサイズで一貫したパフォーマンス向上を示し、特定のカテゴリで最先端の結果を達成する。 このフレームワークは、強力なリソース集約型大規模モデルの能力を活用することで、より小さなモデルの大幅な拡張を可能にします。 GISTEmbedは、高度に効率的で小さなモデルの作成に革命をもたらす可能性がある。 これらのテクノロジをよりアクセシビリティにし、コスト効率を向上し、特にリソースに制約されたアプリケーションに対して、さまざまな分野にわたる最先端AIソリューションの影響とアクセシビリティを大きく拡大する。

Embedding models are integral to AI applications like semantic search, personalized recommendations, and retrieval augmented generation for LLMs, necessitating high-quality training data. However, the limited scalability of manual data curation prompts the need for automated methods to ensure data integrity. Traditional unsupervised triplet mining automates training data generation, crucial for embedding model training, yet inadvertently injects biases and noise, thereby degrading model performance. Addressing this, we introduce GISTEmbed, a novel strategy that enhances in-batch negative selection during contrastive training through a guide model. This approach departs from reliance on random sampling and equal utility assumption of batch negatives, significantly reducing noise from data quality issues and improving model fine-tuning. Benchmarked against the Massive Text Embedding Benchmark (MTEB), GISTEmbed showcases consistent performance improvements across various model sizes and achieves state-of-the-art results in select categories. This framework enables significant enhancements for smaller models by leveraging the capabilities of powerful yet resource-intensive large models. GISTEmbed can potentially revolutionize the creation of highly efficient, smaller models, democratizing access to advanced AI technologies. Making these technologies more accessible and cost-effective, especially for applications constrained by resources, significantly expands the impact and accessibility of state-of-the-art AI solutions across diverse sectors.
翻訳日:2024-02-28 19:31:54 公開日:2024-02-26
# 並列低ランクアダプタによるスクラッチニューラルネットワークのトレーニング

Training Neural Networks from Scratch with Parallel Low-Rank Adapters ( http://arxiv.org/abs/2402.16828v1 )

ライセンス: Link先を確認
Minyoung Huh, Brian Cheung, Jeremy Bernstein, Phillip Isola, Pulkit Agrawal(参考訳) ディープラーニングモデルのスケーラビリティは、コンピューティングリソース、メモリ、通信によって根本的に制限されている。 ローランク適応 (LoRA) のような手法は、モデル微調整のコストを削減しているが、モデル事前訓練におけるその適用は、ほとんど探索されていない。 本稿では、LoRAを事前学習のモデルに拡張し、この文脈における標準LoRA固有の制約と制限を特定する。 演算ノード間の複数の低ランクヘッドの並列トレーニングを実現するために設計された,新しい双方向最適化アルゴリズムであるLoRA-the-Explorer(LTE)を導入する。 我々のアプローチには、様々なビジョンデータセットを用いたビジョントランスフォーマーの広範な実験が含まれており、LTEが標準の事前トレーニングと競合していることが示されている。

The scalability of deep learning models is fundamentally limited by computing resources, memory, and communication. Although methods like low-rank adaptation (LoRA) have reduced the cost of model finetuning, its application in model pre-training remains largely unexplored. This paper explores extending LoRA to model pre-training, identifying the inherent constraints and limitations of standard LoRA in this context. We introduce LoRA-the-Explorer (LTE), a novel bi-level optimization algorithm designed to enable parallel training of multiple low-rank heads across computing nodes, thereby reducing the need for frequent synchronization. Our approach includes extensive experimentation on vision transformers using various vision datasets, demonstrating that LTE is competitive with standard pre-training.
翻訳日:2024-02-28 19:31:26 公開日:2024-02-26
# 言語モデルのためのデータ選択に関する調査

A Survey on Data Selection for Language Models ( http://arxiv.org/abs/2402.16827v1 )

ライセンス: Link先を確認
Alon Albalak, Yanai Elazar, Sang Michael Xie, Shayne Longpre, Nathan Lambert, Xinyi Wang, Niklas Muennighoff, Bairu Hou, Liangming Pan, Haewon Jeong, Colin Raffel, Shiyu Chang, Tatsunori Hashimoto, William Yang Wang(参考訳) 最近の大規模言語モデルの成功の大きな要因は、教師なし事前学習のための巨大で成長を続けるテキストデータセットの使用である。 しかし、利用可能なすべてのデータに対して、利用可能なテキストデータの質が変化するため、モデルを直接的にトレーニングすることは最適ではないかもしれない。 データのフィルタリングは、必要なトレーニングの量を減らすことで、トレーニングモデルのカーボンフットプリントと財政コストを削減できる。 データ選択手法は、トレーニングデータセットに含まれる候補データポイントと、選択したデータポイントから適切にサンプリングする方法を決定することを目的としている。 改良されたデータ選択方法の約束により、この分野の研究は急速に拡大した。 しかし、ディープラーニングは主に実験的な証拠と大規模なデータの実験によって駆動されるため、広範なデータ選択研究のためのリソースを持つ組織はほとんどない。 その結果、効果的なデータ選択のプラクティスに関する知識は、いくつかの組織に集中するようになった。 知識のギャップを狭めるために,データ選択手法および関連研究分野に関する既存の文献を包括的にレビューし,既存のアプローチの分類法を提供する。 本研究は,現在の研究状況を説明することにより,新たな研究者のエントリーポイントを確立することにより,データ選択の進展を加速することを目的とする。 さらに,本研究を通じて,文献の目立った穴に注意を向け,将来的な研究の道筋を提案し,論文をまとめる。

A major factor in the recent success of large language models is the use of enormous and ever-growing text datasets for unsupervised pre-training. However, naively training a model on all available data may not be optimal (or feasible), as the quality of available text data can vary. Filtering out data can also decrease the carbon footprint and financial costs of training models by reducing the amount of training required. Data selection methods aim to determine which candidate data points to include in the training dataset and how to appropriately sample from the selected data points. The promise of improved data selection methods has caused the volume of research in the area to rapidly expand. However, because deep learning is mostly driven by empirical evidence and experimentation on large-scale data is expensive, few organizations have the resources for extensive data selection research. Consequently, knowledge of effective data selection practices has become concentrated within a few organizations, many of which do not openly share their findings and methodologies. To narrow this gap in knowledge, we present a comprehensive review of existing literature on data selection methods and related research areas, providing a taxonomy of existing approaches. By describing the current landscape of research, this work aims to accelerate progress in data selection by establishing an entry point for new and established researchers. Additionally, throughout this review we draw attention to noticeable holes in the literature and conclude the paper by proposing promising avenues for future research.
翻訳日:2024-02-28 19:31:12 公開日:2024-02-26
# 摂動理論からの発光アンサンブルの定常状態における量子相関

Quantum correlations in the steady state of light-emitter ensembles from perturbation theory ( http://arxiv.org/abs/2402.16824v1 )

ライセンス: Link先を確認
Dolf Huybrechts and Tommaso Roscilde(参考訳) 量子系の環境への結合は一般にデコヒーレンスにつながり、系自体内の量子相関に有害である。 しかし、いくつかの形での量子相関は環境の存在に対して堅牢であり、あるいはそれによって安定化されることもある。 開量子系の定常状態が平衡熱力学状態とは大きく異なる可能性があることを考えると、それらを予測(単体理解)することは困難であり、その再構成には、数値的に非常にコストがかかるリンドブラッド方程式の数値解が必要である。 ここでは、自然崩壊する発光器のアンサンブルの高度に関係のある状況に注目し、ハミルトニアンがU(1)対称形式から遠ざかるたびに、定常量子相関は純状態摂動理論によって再構成可能であることを示す。 その結果, 単一エミッタ駆動あるいは2エミッタ駆動を受ける発光体の系では, u(1) 限界から遠ざかる定常状態が一般的にスピンスクイーズを示し, 集合スピン成分に対する不確かさが最小となり, スクイーズがこの状態を用いた絡み合い支援メトロロジーの最適資源であることが判明した。

The coupling of a quantum system to an environment leads generally to decoherence, and it is detrimental to quantum correlations within the system itself. Yet some forms of quantum correlations can be robust to the presence of an environment - or may even be stabilized by it. Predicting (let alone understanding) them remains arduous, given that the steady state of an open quantum system can be very different from an equilibrium thermodynamic state; and its reconstruction requires generically the numerical solution of the Lindblad equation, which is extremely costly for numerics. Here we focus on the highly relevant situation of ensembles of light emitters undergoing spontaneous decay; and we show that, whenever their Hamiltonian is perturbed away from a U(1) symmetric form, steady-state quantum correlations can be reconstructed via pure-state perturbation theory. Our main result is that in systems of light emitters subject to single-emitter or two-emitter driving, the steady state perturbed away from the U(1) limit generically exhibits spin squeezing; and it has minimal uncertainty for the collective-spin components, revealing that squeezing represents the optimal resource for entanglement-assisted metrology using this state.
翻訳日:2024-02-28 19:30:23 公開日:2024-02-26
# rainbow teaming: さまざまな敵のプロンプトのオープンな世代

Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts ( http://arxiv.org/abs/2402.16822v1 )

ライセンス: Link先を確認
Mikayel Samvelyan, Sharath Chandra Raparthy, Andrei Lupu, Eric Hambro, Aram H. Markosyan, Manish Bhatt, Yuning Mao, Minqi Jiang, Jack Parker-Holder, Jakob Foerster, Tim Rockt\"aschel, Roberta Raileanu(参考訳) 大規模言語モデル(llm)が多くの現実のアプリケーションで普及するにつれ、ユーザ入力に対するロバスト性の理解と強化が重要になっている。 敵のプロンプトを特定する既存の方法は、特定のドメイン、多様性の欠如、あるいは広範な人間のアノテーションを必要とする傾向がある。 このような制約に対処するため、様々な敵のプロンプトを生産するための新しいアプローチであるレインボー・チーム(Rainbow Teaming)を提案する。 Rainbow Teamingは、品質多様性の問題として敵のプロンプト生成をキャストし、オープンな検索を使用して、効果的かつ多様なプロンプトを生成する。 この論文では、安全、質問応答、サイバーセキュリティなど、幅広いドメインにわたるモデルの脆弱性を明らかにすることができる。 また,Rainbow Teamingが生成した合成データの微調整により,汎用性と有用性を損なうことなく,最先端のLCMの安全性が向上し,オープンエンド自己改善への道が拓かれることを示した。

As large language models (LLMs) become increasingly prevalent across many real-world applications, understanding and enhancing their robustness to user inputs is of paramount importance. Existing methods for identifying adversarial prompts tend to focus on specific domains, lack diversity, or require extensive human annotations. To address these limitations, we present Rainbow Teaming, a novel approach for producing a diverse collection of adversarial prompts. Rainbow Teaming casts adversarial prompt generation as a quality-diversity problem, and uses open-ended search to generate prompts that are both effective and diverse. It can uncover a model's vulnerabilities across a broad range of domains including, in this paper, safety, question answering, and cybersecurity. We also demonstrate that fine-tuning on synthetic data generated by Rainbow Teaming improves the safety of state-of-the-art LLMs without hurting their general capabilities and helpfulness, paving the path to open-ended self-improvement.
翻訳日:2024-02-28 19:29:42 公開日:2024-02-26
# InterroGate:マルチタスク学習のための共有、専門化、プーン表現の学習

InterroGate: Learning to Share, Specialize, and Prune Representations for Multi-task Learning ( http://arxiv.org/abs/2402.16848v1 )

ライセンス: Link先を確認
Babak Ehteshami Bejnordi, Gaurav Kumar, Amelie Royer, Christos Louizos, Tijmen Blankevoort, Mohsen Ghafoorian(参考訳) 統一されたモデルで複数のタスクを共同学習することで精度とデータの効率が向上するが、あるタスクの目的を最適化することが、他のタスクのパフォーマンスを意図的に損なうという課題に直面している。 この問題を軽減する解決策は、共有機能の上に、干渉のないタスク固有のパラメータを割り当てることである。 しかし、これらのアーキテクチャを手動で設計するのは面倒で、実践者はすべてのタスク全体のパフォーマンスと、新しく追加されたパラメータによって引き起こされる計算コストのバランスをとる必要がある。 本研究では,タスク干渉を軽減し,推論計算効率を最適化する新しいマルチタスク学習(MTL)アーキテクチャである「textit{InterroGate}」を提案する。 学習可能なゲーティング機構を用いて、すべてのタスクのパフォーマンスを保ちながら、共有表現とタスク固有の表現を自動的にバランスさせる。 重要なことに、パラメータ共有と特殊化のパターンはトレーニング中に動的に学習され、推論時に固定され、静的に最適化されたMTLアーキテクチャとなる。 本研究では,CelebA,NYUD-v2,PASCAL-Contextのコンボリューショナルおよびトランスフォーマーベースバックボーンを用いた3つのMTLベンチマークのSoTA結果を示す。

Jointly learning multiple tasks with a unified model can improve accuracy and data efficiency, but it faces the challenge of task interference, where optimizing one task objective may inadvertently compromise the performance of another. A solution to mitigate this issue is to allocate task-specific parameters, free from interference, on top of shared features. However, manually designing such architectures is cumbersome, as practitioners need to balance between the overall performance across all tasks and the higher computational cost induced by the newly added parameters. In this work, we propose \textit{InterroGate}, a novel multi-task learning (MTL) architecture designed to mitigate task interference while optimizing inference computational efficiency. We employ a learnable gating mechanism to automatically balance the shared and task-specific representations while preserving the performance of all tasks. Crucially, the patterns of parameter sharing and specialization dynamically learned during training, become fixed at inference, resulting in a static, optimized MTL architecture. Through extensive empirical evaluations, we demonstrate SoTA results on three MTL benchmarks using convolutional as well as transformer-based backbones on CelebA, NYUD-v2, and PASCAL-Context.
翻訳日:2024-02-28 19:21:45 公開日:2024-02-26
# GROUNDHOG: 大規模言語モデルからホロスティックセグメンテーションへ

GROUNDHOG: Grounding Large Language Models to Holistic Segmentation ( http://arxiv.org/abs/2402.16846v1 )

ライセンス: Link先を確認
Yichi Zhang, Ziqiao Ma, Xiaofeng Gao, Suhaila Shakiah, Qiaozi Gao, Joyce Chai(参考訳) ほとんどのマルチモーダル大規模言語モデル(MLLM)は、境界ボックスを位置トークンのシーケンスとして捉えた因果言語モデリングを通じて言語からオブジェクトへのグラウンドを学習する。 このパラダイムは、微細な視覚的理解と診断に重要なピクセルレベルの表現を欠いている。 本研究では,Large Language ModelsをベースとしたMLLMであるGROUNDHOGを紹介する。 GROUNDHOGはマスク付き特徴抽出器を内蔵し、抽出した特徴をMLLMバックボーンの視覚的エンティティトークンに変換する。 M3G2はマルチモーダル・マルチグラインド・グラウンディングを用いて,リッチアノテーションを用いたセグメンテーション・グラウンドド・データセットの収集により,グラウンドド・ビジュアル・インストラクション・チューニング・データセットである。 実験の結果,タスク固有の微調整を行わずに,様々な言語グラウンドタスクで優れた性能を達成でき,オブジェクト幻覚を著しく低減できることがわかった。 GROUNDHOGはまた、複雑な視覚入力へのより良い基盤を示し、障害ケースで容易に理解できる診断を提供する。

Most multimodal large language models (MLLMs) learn language-to-object grounding through causal language modeling where grounded objects are captured by bounding boxes as sequences of location tokens. This paradigm lacks pixel-level representations that are important for fine-grained visual understanding and diagnosis. In this work, we introduce GROUNDHOG, an MLLM developed by grounding Large Language Models to holistic segmentation. GROUNDHOG incorporates a masked feature extractor and converts extracted features into visual entity tokens for the MLLM backbone, which then connects groundable phrases to unified grounding masks by retrieving and merging the entity masks. To train GROUNDHOG, we carefully curated M3G2, a grounded visual instruction tuning dataset with Multi-Modal Multi-Grained Grounding, by harvesting a collection of segmentation-grounded datasets with rich annotations. Our experimental results show that GROUNDHOG achieves superior performance on various language grounding tasks without task-specific fine-tuning, and significantly reduces object hallucination. GROUNDHOG also demonstrates better grounding towards complex forms of visual input and provides easy-to-understand diagnosis in failure cases.
翻訳日:2024-02-28 19:21:14 公開日:2024-02-26
# 局所積分および微分核を持つニューラル演算子

Neural Operators with Localized Integral and Differential Kernels ( http://arxiv.org/abs/2402.16845v1 )

ライセンス: Link先を確認
Miguel Liu-Schiaffini, Julius Berner, Boris Bonev, Thorsten Kurth, Kamyar Azizzadenesheli, Anima Anandkumar(参考訳) ニューラル作用素は関数空間間の写像を学習し、これはPDEの解演算子と他の科学的モデリング応用の学習に有効である。 その中でもフーリエニューラルネットワーク(fno)は、フーリエ空間における大域的な畳み込みを実行する一般的なアーキテクチャである。 しかし、このようなグローバルな操作は、しばしば過度にスムースになりがちで、ローカルな詳細を捉えられない場合がある。 対照的に、畳み込みニューラルネットワーク(cnn)は局所的な特徴をキャプチャできるが、単一の解像度でトレーニングと推論に限定される。 本稿では,微分演算子と局所支援カーネルを持つ積分演算子を学習することにより,2つのフレームワークの下で局所特徴を捉えるための,演算子学習の原理的アプローチを提案する。 具体的には、ステンシル法に着想を得て、CNNのカーネル値の適切なスケーリングの下で微分演算子を得る。 局所積分演算子を得るには、離散連続的畳み込みに基づくカーネルの適切な基底表現を利用する。 これらのアプローチはどちらも演算子学習の特性を保ち、従って任意の解像度で予測できる。 乱流2D Navier-Stokes流体流と球状浅水方程式に関する実験では, 相対L2エラーを34~72%低減し, FNOに層を追加することで性能が大幅に向上した。

Neural operators learn mappings between function spaces, which is practical for learning solution operators of PDEs and other scientific modeling applications. Among them, the Fourier neural operator (FNO) is a popular architecture that performs global convolutions in the Fourier space. However, such global operations are often prone to over-smoothing and may fail to capture local details. In contrast, convolutional neural networks (CNN) can capture local features but are limited to training and inference at a single resolution. In this work, we present a principled approach to operator learning that can capture local features under two frameworks by learning differential operators and integral operators with locally supported kernels. Specifically, inspired by stencil methods, we prove that we obtain differential operators under an appropriate scaling of the kernel values of CNNs. To obtain local integral operators, we utilize suitable basis representations for the kernels based on discrete-continuous convolutions. Both these approaches preserve the properties of operator learning and, hence, the ability to predict at any resolution. Adding our layers to FNOs significantly improves their performance, reducing the relative L2-error by 34-72% in our experiments on turbulent 2D Navier-Stokes fluid flow and the spherical shallow water equations.
翻訳日:2024-02-28 19:20:48 公開日:2024-02-26
# 高速自動回帰デコードのためのLCM-to-SLM

Think Big, Generate Quick: LLM-to-SLM for Fast Autoregressive Decoding ( http://arxiv.org/abs/2402.16844v1 )

ライセンス: Link先を確認
Benjamin Bergner, Andrii Skliar, Amelie Royer, Tijmen Blankevoort, Yuki Asano, Babak Ehteshami Bejnordi(参考訳) 大規模言語モデル(llm)は、実際にはユビキタスになり、翻訳、要約、命令追従などの生成タスクに広く使われている。 しかし、その巨大なサイズと自動回帰デコードへの依存は、デプロイメントコストを増大させ、レイテンシクリティカルなアプリケーションでの使用を複雑にする。 本研究では,異なる大きさの言語モデルを組み合わせて,高い性能を維持しながら自己回帰復号の効率を向上させるハイブリッド手法を提案する。 提案手法では, 並列に全てのプロンプトトークンを符号化し, その表現を条件付けし, 小言語モデル(SLM)を導出し, その応答をより効率的に生成する。 異なるモデルファミリーのエンコーダデコーダとデコーダのみのslmを組み合わせたエンコーダデコーダllmの組み合わせを調査し,slmの微調整のみを必要とする。 様々なベンチマークによる実験では、LLMと比較して、翻訳および要約タスクに対して、パフォーマンスの小さなペナルティが1-2\%の4ドルまでの大幅なスピードアップを示している。

Large language models (LLMs) have become ubiquitous in practice and are widely used for generation tasks such as translation, summarization and instruction following. However, their enormous size and reliance on autoregressive decoding increase deployment costs and complicate their use in latency-critical applications. In this work, we propose a hybrid approach that combines language models of different sizes to increase the efficiency of autoregressive decoding while maintaining high performance. Our method utilizes a pretrained frozen LLM that encodes all prompt tokens once in parallel, and uses the resulting representations to condition and guide a small language model (SLM), which then generates the response more efficiently. We investigate the combination of encoder-decoder LLMs with both encoder-decoder and decoder-only SLMs from different model families and only require fine-tuning of the SLM. Experiments with various benchmarks show substantial speedups of up to $4\times$, with minor performance penalties of $1-2\%$ for translation and summarization tasks compared to the LLM.
翻訳日:2024-02-28 19:20:22 公開日:2024-02-26
# 画像生成のためのマルチロラ合成

Multi-LoRA Composition for Image Generation ( http://arxiv.org/abs/2402.16843v1 )

ライセンス: Link先を確認
Ming Zhong, Yelong Shen, Shuohang Wang, Yadong Lu, Yizhu Jiao, Siru Ouyang, Donghan Yu, Jiawei Han, Weizhu Chen(参考訳) Low-Rank Adaptation (LoRA) はテキスト・ツー・イメージ・モデルにおいて、異なる文字や生成された画像のユニークなスタイルのような特定の要素の正確な再描画に広く利用されている。 にもかかわらず、既存の手法は複数のLoRAを効果的に構成する上で、特に統合するLoRAの数が増え、複雑な画像の作成を妨げているため、課題に直面している。 本稿では,デコード中心の観点からマルチロラ合成について検討する。 我々は,各聴覚ステップで異なるLoRAを交互に切り替えるLoRA Switchと,より密着的な画像合成を導くためにすべてのLoRAを同時に組み込むLoRA Compositeの2つのトレーニングフリー手法を提案する。 提案手法を評価するため,本研究の一環として,新しい総合的なテストベッドであるComposeLoRAを構築した。 480の合成セットを持つ多様なLoRAカテゴリが特徴である。 gpt-4vに基づく評価フレームワークを用いて,本手法のベースラインよりも性能が明らかに向上し,特に構成中のロラス数の増加が顕著であることを示す。

Low-Rank Adaptation (LoRA) is extensively utilized in text-to-image models for the accurate rendition of specific elements like distinct characters or unique styles in generated images. Nonetheless, existing methods face challenges in effectively composing multiple LoRAs, especially as the number of LoRAs to be integrated grows, thus hindering the creation of complex imagery. In this paper, we study multi-LoRA composition through a decoding-centric perspective. We present two training-free methods: LoRA Switch, which alternates between different LoRAs at each denoising step, and LoRA Composite, which simultaneously incorporates all LoRAs to guide more cohesive image synthesis. To evaluate the proposed approaches, we establish ComposLoRA, a new comprehensive testbed as part of this research. It features a diverse range of LoRA categories with 480 composition sets. Utilizing an evaluation framework based on GPT-4V, our findings demonstrate a clear improvement in performance with our methods over the prevalent baseline, particularly evident when increasing the number of LoRAs in a composition.
翻訳日:2024-02-28 19:19:59 公開日:2024-02-26
# デコヒーレンス下におけるトーリックコードのコヒーレント情報の厳密な計算:基本誤差閾値の同定

Exact Calculations of Coherent Information for Toric Codes under Decoherence: Identifying the Fundamental Error Threshold ( http://arxiv.org/abs/2402.16937v1 )

ライセンス: Link先を確認
Jong Yeon Lee(参考訳) トーリックコードは、トポロジカルエラー訂正コードの標準的な例である。 トーリック符号に格納された2つの論理キュービットは局所的デコヒーレンスに対して頑健であり、エラーレートが一定のしきい値以下である限り、これらのキュービットを忠実に検索できる。 近年の研究では、デコーディングプロトコルとは無関係に、内在的な情報理論的な遷移のようなしきい値の振る舞いが研究されている。 これらの研究は、レニー(replica)近似を用いて計算された情報理論メトリクスが、特定の誤差率で急激な遷移を示すことを示した。 しかし、レプリカのトリックを避けるための正確な解析式は示されておらず、情報理論能力の遷移とRBIM(ランダム・ボンディング・イジング・モデル)の関連性は間接的にのみ確立されている。 本研究では,デコヒーレントなトーリック符号のコヒーレントな情報に対する最初の解析式を示し,基本誤差閾値とRBIMの臨界値との厳密な接続を確立する。

The toric code is a canonical example of a topological error-correcting code. Two logical qubits stored within the toric code are robust against local decoherence, ensuring that these qubits can be faithfully retrieved as long as the error rate remains below a certain threshold. Recent studies have explored such a threshold behavior as an intrinsic information-theoretic transition, independent of the decoding protocol. These studies have shown that information-theoretic metrics, calculated using the Renyi (replica) approximation, demonstrate sharp transitions at a specific error rate. However, an exact analytic expression that avoids using the replica trick has not been shown, and the connection between the transition in information-theoretic capacity and the random bond Ising model (RBIM) has only been indirectly established. In this work, we present the first analytic expression for the coherent information of a decohered toric code, thereby establishing a rigorous connection between the fundamental error threshold and the criticality of the RBIM.
翻訳日:2024-02-28 19:05:23 公開日:2024-02-26
# レイアウト学習による不連続3次元シーン生成

Disentangled 3D Scene Generation with Layout Learning ( http://arxiv.org/abs/2402.16936v1 )

ライセンス: Link先を確認
Dave Epstein, Ben Poole, Ben Mildenhall, Alexei A. Efros, Aleksander Holynski(参考訳) 本稿では,コンポーネントオブジェクトに絡み合った3Dシーンを生成する手法を提案する。 この絡み合いは教師なしであり、大きな事前学習されたテキストから画像へのモデルの知識のみに依存している。 私たちの重要な洞察は、オブジェクトは空間的に再構成された場合、同じシーンの有効な構成を生成する3Dシーンの一部を見つけることで発見できるということです。 具体的には、複数のNeRF(それぞれが自身のオブジェクトを表す)をスクラッチから最適化し、それらのオブジェクトをシーンに合成するレイアウトのセットを作成します。 次に、画像生成装置に従ってこれらの合成シーンを配信することを推奨する。 単純さにもかかわらず,本手法は個々のオブジェクトに分解された3Dシーンを生成することに成功し,テキストから3Dコンテンツへの新たな機能を実現する。 結果とインタラクティブなデモについては、https://dave.ml/layoutlearning/のプロジェクトページを参照してください。

We introduce a method to generate 3D scenes that are disentangled into their component objects. This disentanglement is unsupervised, relying only on the knowledge of a large pretrained text-to-image model. Our key insight is that objects can be discovered by finding parts of a 3D scene that, when rearranged spatially, still produce valid configurations of the same scene. Concretely, our method jointly optimizes multiple NeRFs from scratch - each representing its own object - along with a set of layouts that composite these objects into scenes. We then encourage these composited scenes to be in-distribution according to the image generator. We show that despite its simplicity, our approach successfully generates 3D scenes decomposed into individual objects, enabling new capabilities in text-to-3D content creation. For results and an interactive demo, see our project page at https://dave.ml/layoutlearning/
翻訳日:2024-02-28 19:05:03 公開日:2024-02-26
# 量子論の因果局所的定式化の新しい展望

New Prospects for a Causally Local Formulation of Quantum Theory ( http://arxiv.org/abs/2402.16935v1 )

ライセンス: Link先を確認
Jacob A. Barandes(参考訳) 教科書量子論で見られる限られた成分から因果局所性の信頼性基準を抽出することは困難である。 結局ベルは、彼の同名定理は「最も疑い深い疑念で見るべき」という基準に基づいていると謙虚に警告した。 顕著なことに、波動関数のパラダイムの外側を踏み出すことで、「非正則」法則とともに古い構成空間の観点で量子論を再構成することができる。 これらの非倫理的な法則は有向条件確率の形式をとり、ミクロフィジカル因果関係をエンコードするホスピタブルな基礎となる。 この一様改革は、量子理論により単純でより透明な公理的基礎を与え、測定問題を確実に解決し、重ね合わせ、干渉、絡み合いに関する様々なエキゾチックな主張を宣言する。 そこで本稿では,ベルの基準を満たした因果局所性の新たな原理を導入し,空間的分離に留まったシステムが相互に因果的影響を及ぼさないことを示す。 これらの結果から、因果局所性と相容れない量子論の一般的な隠れ変数解釈が導かれる。

It is difficult to extract reliable criteria for causal locality from the limited ingredients found in textbook quantum theory. In the end, Bell humbly warned that his eponymous theorem was based on criteria that "should be viewed with the utmost suspicion." Remarkably, by stepping outside the wave-function paradigm, one can reformulate quantum theory in terms of old-fashioned configuration spaces together with 'unistochastic' laws. These unistochastic laws take the form of directed conditional probabilities, which turn out to provide a hospitable foundation for encoding microphysical causal relationships. This unistochastic reformulation provides quantum theory with a simpler and more transparent axiomatic foundation, plausibly resolves the measurement problem, and deflates various exotic claims about superposition, interference, and entanglement. Making use of this reformulation, this paper introduces a new principle of causal locality that is intended to improve on Bell's criteria, and shows directly that systems that remain at spacelike separation cannot exert causal influences on each other, according to that new principle. These results therefore lead to a general hidden-variables interpretation of quantum theory that is arguably compatible with causal locality.
翻訳日:2024-02-28 19:04:48 公開日:2024-02-26
# fedreview: フェデレーション学習における有毒な更新を拒否するレビューメカニズム

FedReview: A Review Mechanism for Rejecting Poisoned Updates in Federated Learning ( http://arxiv.org/abs/2402.16934v1 )

ライセンス: Link先を確認
Tianhang Zheng and Baochun Li(参考訳) フェデレーション学習は、ユーザデータにアクセスせずにハイパフォーマンスモデルを学ぶための分散的なアプローチとして最近登場した。 その効果にもかかわらず、連合学習は悪意のあるユーザーに対して、有毒なモデル更新をサーバにアップロードすることでモデルを操作する機会を与える。 本稿では,フェデレーション学習における有毒な更新の可能性を特定するためのFedReviewと呼ばれるレビューメカニズムを提案する。 この仕組みでは、サーバはクライアントのサブセットをレビュアーとしてランダムに割り当て、各ラウンドのトレーニングデータセットのモデル更新を評価する。 評価結果に基づいてモデル更新をランク付けし、比較的低い品質の更新数を有毒な更新の推定数としてカウントする。 レビューレポートに基づいて、サーバは多数決機構を採用し、ランキングを統合し、モデル集約プロセスで潜在的に有害な更新を削除する。 複数のデータセットに対する広範囲な評価は、FedReviewがサーバが敵の環境でよくパフォーマンスのよいグローバルモデルを学ぶのを助けることを実証している。

Federated learning has recently emerged as a decentralized approach to learn a high-performance model without access to user data. Despite its effectiveness, federated learning gives malicious users opportunities to manipulate the model by uploading poisoned model updates to the server. In this paper, we propose a review mechanism called FedReview to identify and decline the potential poisoned updates in federated learning. Under our mechanism, the server randomly assigns a subset of clients as reviewers to evaluate the model updates on their training datasets in each round. The reviewers rank the model updates based on the evaluation results and count the number of the updates with relatively low quality as the estimated number of poisoned updates. Based on review reports, the server employs a majority voting mechanism to integrate the rankings and remove the potential poisoned updates in the model aggregation process. Extensive evaluation on multiple datasets demonstrate that FedReview can assist the server to learn a well-performed global model in an adversarial environment.
翻訳日:2024-02-28 19:04:29 公開日:2024-02-26
# 人間の概念形成を用いた視覚分類におけるカタストロフィック・フォーミングの回避

Avoiding Catastrophic Forgetting in Visual Classification Using Human Concept Formation ( http://arxiv.org/abs/2402.16933v1 )

ライセンス: Link先を確認
Nicki Barari, Xin Lian, Christopher J. MacLellan(参考訳) 深層ニューラルネットワークは、特に視覚タスクにおいて機械学習に優れてきたが、新しいタスクを逐次学習する際の破滅的な忘れに苦しむことが多い。 本研究では,人間が時間とともに新しい概念を段階的に学習する方法に着想を得た,人間ライクな学習システムであるcobwebをベースとする,新しい視覚分類手法であるcobweb4vを提案する。 本研究では,視覚概念の学習におけるCobweb4Vの習熟度を示すとともに,従来の手法に比べて学習効率の低いデータを必要とすること,時間の経過とともに安定したパフォーマンスを維持すること,破滅的な記憶効果を伴わずに回復可能な漸近的行動を達成すること,を包括的に評価する。 これらの特徴は、人間の認知における学習戦略と一致し、cobweb4vをニューラルネットワークアプローチの有望な代替として位置づけている。

Deep neural networks have excelled in machine learning, particularly in vision tasks, however, they often suffer from catastrophic forgetting when learning new tasks sequentially. In this work, we propose Cobweb4V, a novel visual classification approach that builds on Cobweb, a human like learning system that is inspired by the way humans incrementally learn new concepts over time. In this research, we conduct a comprehensive evaluation, showcasing the proficiency of Cobweb4V in learning visual concepts, requiring less data to achieve effective learning outcomes compared to traditional methods, maintaining stable performance over time, and achieving commendable asymptotic behavior, without catastrophic forgetting effects. These characteristics align with learning strategies in human cognition, positioning Cobweb4V as a promising alternative to neural network approaches.
翻訳日:2024-02-28 19:04:11 公開日:2024-02-26
# PromptSet: プログラマのプロンプトデータセット

PromptSet: A Programmer's Prompting Dataset ( http://arxiv.org/abs/2402.16932v1 )

ライセンス: Link先を確認
Kaiser Pister, Dhruba Jyoti Paul, Patrick Brophy, Ishan Joshi(参考訳) 大規模言語モデルによって表現される能力の台頭は、アプリケーションレベルのロジックに同じ複雑なシステムを統合することで急速に続いている。 アルゴリズム、プログラム、システム、企業は、設計と実装の大半が'エージェントモード'のキャプチャと定量化に費やされているブラックボックスモデルに促されるように構造化されている。 クローズド言語モデルを形作る標準的な方法は、それを特定のタスクのために調整されたプロンプトで素付けることである。 テキストはコードベースとの共同開発を促すもので,従来のコードファイルと同じように,レビューやメンテナンスが必要なアーティファクトとして,プロジェクトのライフサイクルを形作るものだ。 従来のコードとは異なり、プロンプトは実行時の問題を防ぐために効果的な静的テストやリンティングを受けない。 本稿では,オープンソースのPythonプログラムで使用する61,000以上のユニークな開発者プロンプトを備えた,PromptSetという新しいデータセットを提案する。 このデータセットの解析を行い,プロンプトに対して静的linterの概念を導入する。 このパブリッシャとともにリリースされたhughingfaceデータセットとgithubリポジトリは、どちらも \texttt{pisterlabs/promptset}という名前で、コレクションと処理の作業を再現する。

The rise of capabilities expressed by large language models has been quickly followed by the integration of the same complex systems into application level logic. Algorithms, programs, systems, and companies are built around structured prompting to black box models where the majority of the design and implementation lies in capturing and quantifying the `agent mode'. The standard way to shape a closed language model is to prime it for a specific task with a tailored prompt, often initially handwritten by a human. The textual prompts co-evolve with the codebase, taking shape over the course of project life as artifacts which must be reviewed and maintained, just as the traditional code files might be. Unlike traditional code, we find that prompts do not receive effective static testing and linting to prevent runtime issues. In this work, we present a novel dataset called PromptSet, with more than 61,000 unique developer prompts used in open source Python programs. We perform analysis on this dataset and introduce the notion of a static linter for prompts. Released with this publication is a HuggingFace dataset and a Github repository to recreate collection and processing efforts, both under the name \texttt{pisterlabs/promptset}.
翻訳日:2024-02-28 19:03:54 公開日:2024-02-26
# TrustMol:分子動力学とアライメントによる、信頼できる逆分子設計

TrustMol: Trustworthy Inverse Molecular Design via Alignment with Molecular Dynamics ( http://arxiv.org/abs/2402.16930v1 )

ライセンス: Link先を確認
Kevin Tirta Wijaya, Navid Ansari, Hans-Peter Seidel, Vahid Babaei(参考訳) 所望の特性を持つデータ駆動分子の生成(逆分子設計(IMD)とも呼ばれる)は近年大きな注目を集めている。 ソリューションの正確性と多様性が著しく進歩しているにもかかわらず、既存のIMD手法は信頼性の点で遅れている。 根本的問題は、これらの手法の設計プロセスはますます暗黙的かつ間接的なものになり、このプロセスは分子動力学をモデル化する基底構造関数であるネイティブフォワードプロセス(NFP)からも分離されることである。 そこで本研究では,信頼に値するIMD手法であるTrustMolを提案する。 この目的のために、TrustMolは新しい変分オートエンコーダネットワークを含む一連の技術革新に依存している。 さらに,分子空間の高周波および不連続性のため,直感的かつ困難なプロセスである分子潜在最適化の複雑さを効果的にナビゲートする潜在固有対取得法を提案する。 TrustMolはまた、不確実性認識を分子潜在最適化に統合する。 これらはimdプロセスの説明可能性と信頼性の両方を改善している。 我々は、trustmolの信頼性を幅広い実験を通して検証する。

Data-driven generation of molecules with desired properties, also known as inverse molecular design (IMD), has attracted significant attention in recent years. Despite the significant progress in the accuracy and diversity of solutions, existing IMD methods lag behind in terms of trustworthiness. The root issue is that the design process of these methods is increasingly more implicit and indirect, and this process is also isolated from the native forward process (NFP), the ground-truth function that models the molecular dynamics. Following this insight, we propose TrustMol, an IMD method built to be trustworthy. For this purpose, TrustMol relies on a set of technical novelties including a new variational autoencoder network. Moreover, we propose a latent-property pairs acquisition method to effectively navigate the complexities of molecular latent optimization, a process that seems intuitive yet challenging due to the high-frequency and discontinuous nature of molecule space. TrustMol also integrates uncertainty-awareness into molecular latent optimization. These lead to improvements in both explainability and reliability of the IMD process. We validate the trustworthiness of TrustMol through a wide range of experiments.
翻訳日:2024-02-28 19:03:34 公開日:2024-02-26
# LangGPT: LLMの構造化再利用可能なプロンプト設計フレームワークをプログラミング言語から再考

LangGPT: Rethinking Structured Reusable Prompt Design Framework for LLMs from the Programming Language ( http://arxiv.org/abs/2402.16929v1 )

ライセンス: Link先を確認
Ming Wang, Yuanzhong Liu, Xiaoming Zhang, Songlian Li, Yijie Huang, Chi Zhang, Daling Wang, Shi Feng, Jigang Li(参考訳) LLMは様々な領域で高い性能を示している。 それでも、LLMを効果的に指導するための高品質なプロンプトの定式化は、非AI専門家にとって課題となる。 プロンプトエンジニアリングにおける既存の研究は、幾分断片化された最適化の原則と設計を実証的に依存するプロンプトオプティマイザを提案する。 残念ながら、これらの取り組みには構造化された設計テンプレートがなく、高い学習コストがかかり、再利用性が低い。 構造化再利用可能なプログラミング言語に着想を得て,llms用プログラミング言語として2層プロンプト設計フレームワークlanggptを提案する。 LangGPTは簡単に学習できる規範構造を持ち、マイグレーションと再利用のために拡張された構造を提供する。 実験により,LangGPTはLLMの容量を大幅に向上し,ベースラインよりも優れた品質の応答が得られることが示された。 さらに、LangGPTはLLMを誘導して高品質なプロンプトを生成するのに有効であることが証明されている。 我々は,プロンプトデザインの授業と共有を容易にするため,LangGPT上にコミュニティを構築した。 また,コミュニティユーザ調査を通じて,LangGPTの使いやすさと再利用性についても分析した。

LLMs have demonstrated commendable performance across diverse domains. Nevertheless, formulating high-quality prompts to effectively instruct LLMs poses a challenge for non-AI experts. Existing research in prompt engineering suggests somewhat fragmented optimization principles and designs empirically dependent prompt optimizers. Unfortunately, these endeavors lack a structured design template, incurring high learning costs and resulting in low reusability. Inspired by structured reusable programming languages, we propose LangGPT, a dual-layer prompt design framework as the programming language for LLMs. LangGPT has an easy-to-learn normative structure and provides an extended structure for migration and reuse. Experiments illustrate that LangGPT significantly enhances the capacity of LLMs to produce responses of superior quality compared to baselines. Moreover, LangGPT has proven effective in guiding LLMs to generate high-quality prompts. We have built a community on LangGPT to facilitate the tuition and sharing of prompt design. We also analyzed the ease of use and reusability of LangGPT through a community user survey.
翻訳日:2024-02-28 19:03:16 公開日:2024-02-26
# CLAP: 自然言語による変換可能なバイナリコード表現の学習

CLAP: Learning Transferable Binary Code Representations with Natural Language Supervision ( http://arxiv.org/abs/2402.16928v1 )

ライセンス: Link先を確認
Hao Wang, Zeyu Gao, Chao Zhang, Zihan Sha, Mingyang Sun, Yuchen Zhou, Wenyu Zhu, Wenju Sun, Han Qiu, Xi Xiao(参考訳) バイナリコード表現学習はバイナリ解析タスクにおいて大きなパフォーマンスを示している。 しかし、既存のソリューションは、特にタスクのトレーニングサンプルがほとんど、あるいは全くない、少数またはゼロショットのシナリオでは、転送性に乏しいことが多い。 この問題に対処するため,我々は,言語指導を駆使したCLAP(Contrastive Language-Assembly Pre-training)を提案し,バイナリコード(アセンブリコード)の表現性を向上し,転送性を向上させる。 その中心となるアプローチは、バイナリコードを(自然言語で)セマンティクスの説明と効果的に整合させることで、優れたトランスファー学習能力を高めます。 このアライメントトレーニングを可能にするために、バイナリコードと対応する自然言語説明からなる大規模で多様なデータセットを自動的に生成できる効率的なデータセットエンジンを提案する。 私たちは1億9500万のバイナリコードと説明を生成し、CLAPのプロトタイプをトレーニングしました。 二分法解析における各種下流タスクに対するCLAPの評価は、いずれも例外的な性能を示している。 特に、タスク固有のトレーニングがなければ、CLAPは完全な教師付きベースラインと競合し、優れた転送性を示すことが多い。 トレーニング済みのモデルとコードはhttps://github.com/Hustcw/CLAP.orgで公開しています。

Binary code representation learning has shown significant performance in binary analysis tasks. But existing solutions often have poor transferability, particularly in few-shot and zero-shot scenarios where few or no training samples are available for the tasks. To address this problem, we present CLAP (Contrastive Language-Assembly Pre-training), which employs natural language supervision to learn better representations of binary code (i.e., assembly code) and get better transferability. At the core, our approach boosts superior transfer learning capabilities by effectively aligning binary code with their semantics explanations (in natural language), resulting a model able to generate better embeddings for binary code. To enable this alignment training, we then propose an efficient dataset engine that could automatically generate a large and diverse dataset comprising of binary code and corresponding natural language explanations. We have generated 195 million pairs of binary code and explanations and trained a prototype of CLAP. The evaluations of CLAP across various downstream tasks in binary analysis all demonstrate exceptional performance. Notably, without any task-specific training, CLAP is often competitive with a fully supervised baseline, showing excellent transferability. We release our pre-trained model and code at https://github.com/Hustcw/CLAP.
翻訳日:2024-02-28 19:03:00 公開日:2024-02-26
# 仮説テスト問題としてのMLバックドア検出の可能性について

On the (In)feasibility of ML Backdoor Detection as an Hypothesis Testing Problem ( http://arxiv.org/abs/2402.16926v1 )

ライセンス: Link先を確認
Georg Pichler, Marco Romanelli, Divya Prakash Manivannan, Prashanth Krishnamurthy, Farshad Khorrami, Siddharth Garg(参考訳) 本稿では,機械学習システムにおけるバックドア検出問題に対する形式的統計的定義を導入し,その実現可能性を分析し,その有用性と適用性を示す証拠を提供する。 この研究の主な貢献は、バックドア検出のための不可能性と達成可能性の結果である。 我々は、非常に小さなアルファベットサイズを除いて、普遍的な(敵対的でない)バックドア検出が不可能であることを証明し、無自由lunch定理を示す。 したがって、バックドア検出手法は明示的に、あるいは暗黙的に敵対的に認識する必要がある。 しかし,本研究は,バックドア検出法が科学的文献で成功した証拠として,特定のシナリオにおいてバックドア検出が機能しないことを示唆するものではない。 さらに,我々の定義を,分布外検出問題のほぼ正解(PAC)学習可能性に結びつける。

We introduce a formal statistical definition for the problem of backdoor detection in machine learning systems and use it to analyze the feasibility of such problems, providing evidence for the utility and applicability of our definition. The main contributions of this work are an impossibility result and an achievability result for backdoor detection. We show a no-free-lunch theorem, proving that universal (adversary-unaware) backdoor detection is impossible, except for very small alphabet sizes. Thus, we argue, that backdoor detection methods need to be either explicitly, or implicitly adversary-aware. However, our work does not imply that backdoor detection cannot work in specific scenarios, as evidenced by successful backdoor detection methods in the scientific literature. Furthermore, we connect our definition to the probably approximately correct (PAC) learnability of the out-of-distribution detection problem.
翻訳日:2024-02-28 19:02:36 公開日:2024-02-26
# グラフニューラルネットワークを用いた強化学習による強構造制御性制御入力の最小化

Minimize Control Inputs for Strong Structural Controllability Using Reinforcement Learning with Graph Neural Network ( http://arxiv.org/abs/2402.16925v1 )

ライセンス: Link先を確認
Mengbang Zou, Weisi Guo, Bailu Jin(参考訳) 強構造制御可能性(ssc)は、パラメータの全ての数値的実現に対して線形不変ダイナミクス制御可能なネットワークシステムを保証する。 現在の研究は、ゼロ/ノンゼロあるいはゼロ/ノンゼロ/アービタリー構造に対するSSCの代数的およびグラフ的条件を確立している。 関連する実用的な問題のひとつは、入力信号の最小数でシステムを完全に制御し、どのノードにシグナルを課さなければならないかを識別する方法である。 これまでの研究では、この最適化問題はNPハードであり、解を見つけるのは難しいことが示されている。 この問題を解決するために,0/nonzero および 0/nonzero/arbitrary 構造の両方に対する ssc のグラフ理論的条件に従って,グラフ彩色過程をマルコフ決定過程 (mdp) として定式化する。 我々は,MDPを最適化するために,グラフの色情報を表すダイレクトグラフニューラルネットワークを用いたアクタ批判手法を用いる。 本手法は実データと異なる複雑なネットワークモデルを用いた社会的影響ネットワークにおいて検証される。 その結果,入力ノード数はネットワークの平均次数によって決定され,入力ノードは低次ノードを選択する傾向にあり,高次ノードは避けられることがわかった。

Strong structural controllability (SSC) guarantees networked system with linear-invariant dynamics controllable for all numerical realizations of parameters. Current research has established algebraic and graph-theoretic conditions of SSC for zero/nonzero or zero/nonzero/arbitrary structure. One relevant practical problem is how to fully control the system with the minimal number of input signals and identify which nodes must be imposed signals. Previous work shows that this optimization problem is NP-hard and it is difficult to find the solution. To solve this problem, we formulate the graph coloring process as a Markov decision process (MDP) according to the graph-theoretical condition of SSC for both zero/nonzero and zero/nonzero/arbitrary structure. We use Actor-critic method with Directed graph neural network which represents the color information of graph to optimize MDP. Our method is validated in a social influence network with real data and different complex network models. We find that the number of input nodes is determined by the average degree of the network and the input nodes tend to select nodes with low in-degree and avoid high-degree nodes.
翻訳日:2024-02-28 19:02:23 公開日:2024-02-26
# 情報の破壊的側面の理論的統一

Theoretical Unification of the Fractured Aspects of Information ( http://arxiv.org/abs/2402.16924v1 )

ライセンス: Link先を確認
Marcin J. Schroeder(参考訳) この論文は、不要な方法論的仮定に関連する情報の研究における基本的な認識論的障害の同定と、認識論的障害のバヘラルド的破壊と解釈できる情報の基本的側面の分割における一般的な信念の脱ミステレーションを主目的としている。 These general considerations are preceded by an overview of the motivations for the study of information and the role of the concept of information in the conceptualization of intelligence, complexity, and consciousness justifying the need for a sufficiently general perspective in the study of information, and are followed at the end of the article by a brief exposition of an example of a possible application in the development of the unified theory of information free from unnecessary divisions and claims of superiority of the existing preferences in methodology. ガストン・バチャール(Gaston Bachelard)と彼の認識論的障害と認識論的破断の考え方への言及は、情報研究の発展の反映、特に情報の意味論の欠如、構造解析の無視、デジタルおよびアナログ形式の分離、数学の誤用といった障害の文脈において、非常に適切と思われる。

The article has as its main objective the identification of fundamental epistemological obstacles in the study of information related to unnecessary methodological assumptions and the demystification of popular beliefs in the fundamental divisions of the aspects of information that can be understood as Bachelardian rupture of epistemological obstacles. These general considerations are preceded by an overview of the motivations for the study of information and the role of the concept of information in the conceptualization of intelligence, complexity, and consciousness justifying the need for a sufficiently general perspective in the study of information, and are followed at the end of the article by a brief exposition of an example of a possible application in the development of the unified theory of information free from unnecessary divisions and claims of superiority of the existing preferences in methodology. The reference to Gaston Bachelard and his ideas of epistemological obstacles and epistemological ruptures seems highly appropriate for the reflection on the development of information study, in particular in the context of obstacles such as the absence of semantics of information, negligence of its structural analysis, separation of its digital and analog forms, and misguided use of mathematics.
翻訳日:2024-02-28 19:02:02 公開日:2024-02-26
# ニューラルアーキテクチャサーチによる個人化フェデレーションチューニング

Personalized Federated Instruction Tuning via Neural Architecture Search ( http://arxiv.org/abs/2402.16919v1 )

ライセンス: Link先を確認
Pengyu Zhang, Yingbo Zhou, Ming Hu, Junxian Feng, Jiawen Weng, and Mingsong Chen(参考訳) Federated Instruction Tuning (FIT)は、プライベートデータを共有することなく、大規模データ所有者間で協調的なモデルチューニングを実現する能力を示している。 しかし、データとリソースの不均一性という2つの重要な課題に直面している。 データ所有者間でのデータの分散や嗜好の変化により、FITは個々の所有者のパーソナライズされたデータに適応できない。 さらに、計算能力に優れたクライアントは、弱いクライアントと同じ微調整アーキテクチャを維持する必要があるため、制約を受ける。 これらの課題に対処するために,アーキテクチャ探索に基づく新しいパーソナライズド・フェデレーション・インストラクション・チューニング(PerFIT)フレームワークを提案する。 具体的には,グローバルモデルのトレーニング可能なパラメータ空間を拡張した上で,パラメータを元の状態にプルーニングすることで,各クライアントがパーソナライズされたアーキテクチャを検索することができる。 この手順は、拡張されたパラメータ空間内でパーソナライズされた命令の微調整を可能にする。 さらに,ヘテロジニアス計算資源の能力を解放し,局所データにおけるパーソナライズ性能を向上させるために,パーソナライズされたパラメータ・アグリゲーションを利用する。 複数のLLMの非IIDシナリオによる評価は, 最先端FIT法と比較して, パープレキシティの最大で23%低下することを示す。

Federated Instruction Tuning (FIT) has shown the ability to achieve collaborative model instruction tuning among massive data owners without sharing private data. However, it still faces two key challenges, i.e., data and resource heterogeneity. Due to the varying data distribution and preferences among data owners, FIT cannot adapt to the personalized data of individual owners. Moreover, clients with superior computational abilities are constrained since they need to maintain the same fine-tuning architecture as the weaker clients. To address these issues, we propose a novel Personalized Federated Instruction Tuning (PerFIT) framework based on architecture search. Specifically, PerFIT allows each client to search for a personalized architecture by expanding the trainable parameter space of the global model followed by pruning the parameters to the original state. This procedure allows personalized instruction fine-tuning within expanded parameter spaces, concurrently preserving the same number of trainable parameters. Furthermore, to release the abilities of heterogeneous computational resources and enhance the performance of personalization on local data, we exploit personalized parameter-wise aggregation. The evaluation with multiple LLMs non-IID scenarios demonstrates that compared to the state-of-the-art FIT methods, our approach can achieve up to a 23% decrease in perplexity.
翻訳日:2024-02-28 19:01:43 公開日:2024-02-26
# m2mKD:モジュールからモジュールへの知識蒸留

m2mKD: Module-to-Module Knowledge Distillation for Modular Transformers ( http://arxiv.org/abs/2402.16918v1 )

ライセンス: Link先を確認
Ka Man Lo, Yiming Liang, Wenyu Du, Yuantao Fan, Zili Wang, Wenhao Huang, Lei Ma, Jie Fu(参考訳) モジュラニューラルアーキテクチャは、一般化と新しいドメインへのサンプル効率適応の強力な能力により、注目を集めている。 しかしながら、モジュールモデルのトレーニング、特に初期の段階では、本質的な疎結合から生じる最適化の困難さが問題となる。 知識蒸留のような技術を用いてモノリシックなモデルから知識を活用することは、モジュラーモデルの訓練を促進し、様々なソースで事前訓練された複数のモデルから知識を統合することを可能にする。 しかしながら、従来の知識蒸留手法はモジュラーモデルに適合せず、ユニークなアーキテクチャと膨大な数のパラメータによって直接適用されると失敗する可能性がある。 これらの課題に乗じて,モジュール間の知識伝達のための一般モジュール間知識蒸留法(m2mKD)を提案する。 我々のアプローチでは、教師モジュールが事前訓練されたモノリシックモデルとモジュールモデルの学生モジュールから分離する。 m2mKDはこれらのモジュールと共有メタモデルを別々に組み合わせ、教師モジュールの振る舞いを真似るように学生モジュールを奨励する。 ニューラルネットワーク(NAC)とVision Mixture-of-Experts(V-MoE)の2つの異なるモジュール型ニューラルネットワークに対するm2mKDの有効性を評価する。 NACにm2mKDを適用することで、Tiny-ImageNetのID精度(最大5.6%)とTiny-ImageNet-RのOOD堅牢性(最大4.2%)が大幅に向上した。 平均して、ImageNet と ImageNet-R のいずれにおいても、1% の増加が見受けられる。 m2mKDでトレーニングされたV-MoE-Baseモデルは、ImageNetのエンドツーエンドトレーニングよりも3.5%高い精度を実現している。 本手法は,事前学習されたモノリシックモデルとモジュールネットワークを接続するための有望なソリューションであることを示す。 コードはhttps://github.com/kamanphoebe/m2mKDで入手できる。

Modular neural architectures are gaining increasing attention due to their powerful capability for generalization and sample-efficient adaptation to new domains. However, training modular models, particularly in the early stages, poses challenges due to the optimization difficulties arising from their intrinsic sparse connectivity. Leveraging the knowledge from monolithic models, using techniques such as knowledge distillation, is likely to facilitate the training of modular models and enable them to integrate knowledge from multiple models pretrained on diverse sources. Nevertheless, conventional knowledge distillation approaches are not tailored to modular models and can fail when directly applied due to the unique architectures and the enormous number of parameters involved. Motivated by these challenges, we propose a general module-to-module knowledge distillation (m2mKD) method for transferring knowledge between modules. Our approach involves teacher modules split from a pretrained monolithic model, and student modules of a modular model. m2mKD separately combines these modules with a shared meta model and encourages the student module to mimic the behaviour of the teacher module. We evaluate the effectiveness of m2mKD on two distinct modular neural architectures: Neural Attentive Circuits (NACs) and Vision Mixture-of-Experts (V-MoE). By applying m2mKD to NACs, we achieve significant improvements in IID accuracy on Tiny-ImageNet (up to 5.6%) and OOD robustness on Tiny-ImageNet-R (up to 4.2%). On average, we observe a 1% gain in both ImageNet and ImageNet-R. The V-MoE-Base model trained using m2mKD also achieves 3.5% higher accuracy than end-to-end training on ImageNet. The experimental results demonstrate that our method offers a promising solution for connecting modular networks with pretrained monolithic models. Code is available at https://github.com/kamanphoebe/m2mKD.
翻訳日:2024-02-28 19:01:19 公開日:2024-02-26
# セイリエンシーアウェア自動仏像認識

Saliency-Aware Automatic Buddhas Statue Recognition ( http://arxiv.org/abs/2402.16980v1 )

ライセンス: Link先を確認
Yong Qi, Fanghan Zhao(参考訳) 多くの宗教の象徴である仏像は、異なる地域の文化や歴史を理解する上で重要な文化的意味合いを有しており、仏像の認識は仏学の分野において重要な関連点となっている。 しかし、仏像の認識には知識のある専門家の膨大な時間と労力が要し、演奏に要する費用がかかる。 畳み込みニューラルネットワーク(CNN)は、視覚情報を処理する上で本質的に効率的であるが、クラス不均衡の問題に直面すると、CNN単独で不正確な分類決定を行う可能性が高い。 そこで本稿では,サリエンシマップのサンプリングに基づくエンドツーエンドの自動仏像認識モデルを提案する。 提案されているGrid-Wise Local Self-Attention Module (GLSA)は、データセットを充実させ、CNNがより包括的な方法で観察できるような、より詳細な機能を提供する。 最終的には,仏の専門家の支援を得て収集したブッダデータセット上で評価を行い,mul-addをわずかに増加させながら,top-1の精度を平均4.63\%向上させた。

Buddha statues, as a symbol of many religions, have significant cultural implications that are crucial for understanding the culture and history of different regions, and the recognition of Buddha statues is therefore the pivotal link in the field of Buddha study. However, the Buddha statue recognition requires extensive time and effort from knowledgeable professionals, making it a costly task to perform. Convolution neural networks (CNNs) are inherently efficient at processing visual information, but CNNs alone are likely to make inaccurate classification decisions when subjected to the class imbalance problem. Therefore, this paper proposes an end-to-end automatic Buddha statue recognition model based on saliency map sampling. The proposed Grid-Wise Local Self-Attention Module (GLSA) provides extra salient features which can serve to enrich the dataset and allow CNNs to observe in a much more comprehensive way. Eventually, our model is evaluated on a Buddha dataset collected with the aid of Buddha experts and outperforms state-of-the-art networks in terms of Top-1 accuracy by 4.63\% on average, while only marginally increasing MUL-ADD.
翻訳日:2024-02-28 18:54:23 公開日:2024-02-26
# コンテンツモデレーションにおけるアルゴリズム的任意性

Algorithmic Arbitrariness in Content Moderation ( http://arxiv.org/abs/2402.16979v1 )

ライセンス: Link先を確認
Juan Felipe Gomez and Caio Vieira Machado and Lucas Monteiro Paes and Flavio P. Calmon(参考訳) 機械学習(ML)はオンラインコンテンツの適度化に広く利用されている。 人間のモデレーションに対するスケーラビリティにもかかわらず、MLの使用はコンテンツモデレーションに固有の課題をもたらす。 コンテンツ分類のための競合する複数のモデルは、平均的に同じようにうまく機能するが、矛盾する予測を同じコンテンツに割り当てる。 この多重性は、パラメータ初期化のためのランダムシード選択など、モデル開発中の一見無害な選択から生じる可能性がある。 我々は,コンテンツモデレーションツールが任意にサンプルを有毒に分類する方法を実験的に実証し,音声に対する任意の制限を導いた。 これらの知見を,国際公民権条約(ICCPR)が定める人権,表現の自由,非差別,手続き的正義の観点から論じる。 分析して (i)有毒物の検出に用いられる最先端llmの予測重複度の範囲 (ii)この社会的集団間の任意性の違いによる影響 (iii)モデル重複度と非あいまいな人間分類の比較 以上の結果から,アルゴリズムが人権を不均等に管理するアルゴリズムレビアサンを正当化するアルゴリズムモデレーションリスクが示唆された。 このようなリスクを軽減するため,本研究では,コンテンツモデレーションアプリケーションにおける任意性の透明性を識別し,高める必要性を強調する。 アルゴリズムによるコンテンツモデレーションは、偽情報やヘイトスピーチなどの社会的関心を喚起することで促進されているため、害に関する議論は、政策論争に関連する関心を喚起する。 また,欧州連合のデジタルサービス法,英国のオンライン安全法,ブラジルのフェイクニュース法案など,多くの国で議論・可決されているコンテンツモデレーションおよび仲介責任法にも寄与している。

Machine learning (ML) is widely used to moderate online content. Despite its scalability relative to human moderation, the use of ML introduces unique challenges to content moderation. One such challenge is predictive multiplicity: multiple competing models for content classification may perform equally well on average, yet assign conflicting predictions to the same content. This multiplicity can result from seemingly innocuous choices during model development, such as random seed selection for parameter initialization. We experimentally demonstrate how content moderation tools can arbitrarily classify samples as toxic, leading to arbitrary restrictions on speech. We discuss these findings in terms of human rights set out by the International Covenant on Civil and Political Rights (ICCPR), namely freedom of expression, non-discrimination, and procedural justice. We analyze (i) the extent of predictive multiplicity among state-of-the-art LLMs used for detecting toxic content; (ii) the disparate impact of this arbitrariness across social groups; and (iii) how model multiplicity compares to unambiguous human classifications. Our findings indicate that the up-scaled algorithmic moderation risks legitimizing an algorithmic leviathan, where an algorithm disproportionately manages human rights. To mitigate such risks, our study underscores the need to identify and increase the transparency of arbitrariness in content moderation applications. Since algorithmic content moderation is being fueled by pressing social concerns, such as disinformation and hate speech, our discussion on harms raises concerns relevant to policy debates. Our findings also contribute to content moderation and intermediary liability laws being discussed and passed in many countries, such as the Digital Services Act in the European Union, the Online Safety Act in the United Kingdom, and the Fake News Bill in Brazil.
翻訳日:2024-02-28 18:54:04 公開日:2024-02-26
# 不規則ブレグマン近位点法とその不均衡最適輸送のための加速版

An inexact Bregman proximal point method and its acceleration version for unbalanced optimal transport ( http://arxiv.org/abs/2402.16978v1 )

ライセンス: Link先を確認
Xiang Chen, Faqiang Wang, Jun Liu, Li Cui(参考訳) uot(unbalanced optimal transport)問題は、計算生物学、計算イメージング、ディープラーニングにおいてますます重要な役割を担っている。 スケーリングアルゴリズムは、その利便性と優れた収束特性のために、UTTを解くために広く用いられている。 しかし、このアルゴリズムは大きな正規化パラメータの精度が低く、安定性の問題のため、小さな正規化パラメータは数値オーバーフローに容易に導くことができる。 UOTを解くための不正確なBregman近点法を開発することで、この問題に対処する。 このアルゴリズムは、各イテレーションのスケーリングアルゴリズムを用いて近距離演算子を近似する。 アルゴリズム(1)は UOT の真の解に収束し、(2) は理論的保証と頑健な正則化パラメータ選択を持ち、(3) 数値安定性問題を緩和し、(4) はスケーリングアルゴリズムに比例する計算複雑性を具体的に達成することができる。 そこで我々は,Bregman近点法の加速技術を用いて,UOTを解く不正確なBregman近点法の高速化版を開発し,収束と加速度の理論的保証と実験的検証を行う。

The Unbalanced Optimal Transport (UOT) problem plays increasingly important roles in computational biology, computational imaging and deep learning. Scaling algorithm is widely used to solve UOT due to its convenience and good convergence properties. However, this algorithm has lower accuracy for large regularization parameters, and due to stability issues, small regularization parameters can easily lead to numerical overflow. We address this challenge by developing an inexact Bregman proximal point method for solving UOT. This algorithm approximates the proximal operator using the Scaling algorithm at each iteration. The algorithm (1) converges to the true solution of UOT, (2) has theoretical guarantees and robust regularization parameter selection, (3) mitigates numerical stability issues, and (4) can achieve comparable computational complexity to the Scaling algorithm in specific practice. Building upon this, we develop an accelerated version of inexact Bregman proximal point method for solving UOT by using acceleration techniques of Bregman proximal point method and provide theoretical guarantees and experimental validation of convergence and acceleration.
翻訳日:2024-02-28 18:53:35 公開日:2024-02-26
# REのためのデータ処理: NLPとジェネレーティブAIによる課題の緩和

Dealing with Data for RE: Mitigating Challenges using NLP and Generative AI ( http://arxiv.org/abs/2402.16977v1 )

ライセンス: Link先を確認
Smita Ghaisas and Anmol Singhal(参考訳) 今日の動的なビジネスの状況の中で、企業はますます多くの課題に直面している。 これには、絶えず進化する規制環境、ソフトウェアアプリケーション内のパーソナライゼーションに対する需要の増加、ガバナンスの強調などが含まれる。 このような多面的な要求に応えて、大企業はコアビジネスプロセスの最適化から顧客エクスペリエンスの向上に至るまで、自動化を採用してきました。 実際、人工知能(AI)は現代のソフトウェアシステムの重要な要素として現れています。 この文脈では、データは必須の役割を果たす。 ai中心のソフトウェアシステム 教師付き学習と産業規模での運用は、効果的に実行するために大量のトレーニングデータを必要とする。 さらに、生成AIの組み入れにより、適切な評価ベンチマークの需要が高まっている。 この分野での経験から,大規模データセットのトレーニングと評価の要件には,多くの複雑な課題があることが分かりました。 本書の章は、ソフトウェアエンジニアリング(se)の一般的な進化の風景と、特にai統合によって特徴づけられたこの時代の要件工学(re)を探求する。 自然言語処理(NLP)と生成AIをエンタープライズクリティカルなソフトウェアシステムに統合する際に生じる課題について論じる。 この章は、読者にnlpで効果的にソリューションを構築するために必要な知識とツールを提供するための実践的な洞察、ソリューション、サンプルを提供する。 また、これらのテキストデータ中心のタスクが従来のREプロセスとどのように連携するかを反映しています。 また、ソフトウェアシステムの開発に関わる重要なテキストデータ中心性を扱うために必要な新しいREタスクを強調します。

Across the dynamic business landscape today, enterprises face an ever-increasing range of challenges. These include the constantly evolving regulatory environment, the growing demand for personalization within software applications, and the heightened emphasis on governance. In response to these multifaceted demands, large enterprises have been adopting automation that spans from the optimization of core business processes to the enhancement of customer experiences. Indeed, Artificial Intelligence (AI) has emerged as a pivotal element of modern software systems. In this context, data plays an indispensable role. AI-centric software systems based on supervised learning and operating at an industrial scale require large volumes of training data to perform effectively. Moreover, the incorporation of generative AI has led to a growing demand for adequate evaluation benchmarks. Our experience in this field has revealed that the requirement for large datasets for training and evaluation introduces a host of intricate challenges. This book chapter explores the evolving landscape of Software Engineering (SE) in general, and Requirements Engineering (RE) in particular, in this era marked by AI integration. We discuss challenges that arise while integrating Natural Language Processing (NLP) and generative AI into enterprise-critical software systems. The chapter provides practical insights, solutions, and examples to equip readers with the knowledge and tools necessary for effectively building solutions with NLP at their cores. We also reflect on how these text data-centric tasks sit together with the traditional RE process. We also highlight new RE tasks that may be necessary for handling the increasingly important text data-centricity involved in developing software systems.
翻訳日:2024-02-28 18:53:13 公開日:2024-02-26
# 照明電位誤差と推奨補正による不完全な指示を受けたヒトの誘導

Successfully Guiding Humans with Imperfect Instructions by Highlighting Potential Errors and Suggesting Corrections ( http://arxiv.org/abs/2402.16973v1 )

ライセンス: Link先を確認
Lingjun Zhao, Khanh Nguyen, Hal Daum\'e III(参考訳) 本稿では,不完全な言語モデルを活用して,ナビゲーションタスクのコンテキストにおける人間の意思決定を導くという課題に対処する。 不完全な命令生成モデルは、人間を誘導する上でより成功させる効果的なコミュニケーションメカニズムで補完できることを示す。 私たちが構築するコミュニケーションメカニズムは、命令の潜在的幻覚を検出し、実用的な代替案を提案するモデルと、その情報をユーザに提示するための直感的なインターフェースから構成される。 このアプローチは、人間のナビゲーションエラーを最大29%低減し、追加の認知的負担を伴わないことを示す。 この結果は、さまざまなコミュニケーションチャネルをAIシステムに統合し、不完全性を補い、人間の有用性を向上する可能性を示している。

This paper addresses the challenge of leveraging imperfect language models to guide human decision-making in the context of a grounded navigation task. We show that an imperfect instruction generation model can be complemented with an effective communication mechanism to become more successful at guiding humans. The communication mechanism we build comprises models that can detect potential hallucinations in instructions and suggest practical alternatives, and an intuitive interface to present that information to users. We show that this approach reduces the human navigation error by up to 29% with no additional cognitive burden. This result underscores the potential of integrating diverse communication channels into AI systems to compensate for their imperfections and enhance their utility for humans.
翻訳日:2024-02-28 18:52:50 公開日:2024-02-26
# サイバーセキュリティにおける大規模言語モデルの検討

A Survey of Large Language Models in Cybersecurity ( http://arxiv.org/abs/2402.16968v1 )

ライセンス: Link先を確認
Gabriel de Jesus Coelho da Silva, Carlos Becker Westphall(参考訳) 大規模言語モデル(LLM)は、自然言語を処理しながら様々な分野における最先端の処理を行う能力により、急速に普及している。 重要な研究分野は、サイバーセキュリティの文脈におけるそのようなモデルの応用である。 この調査は、サイバーセキュリティ分野のllmがすでに適用されている場所、使われている方法、分野における制限を特定することを目的としている。 最後に、このような制限をいかに改善するか、これらの制限を克服したら、これらのシステムから何が期待できるかについて提案する。

Large Language Models (LLMs) have quickly risen to prominence due to their ability to perform at or close to the state-of-the-art in a variety of fields while handling natural language. An important field of research is the application of such models at the cybersecurity context. This survey aims to identify where in the field of cybersecurity LLMs have already been applied, the ways in which they are being used and their limitations in the field. Finally, suggestions are made on how to improve such limitations and what can be expected from these systems once these limitations are overcome.
翻訳日:2024-02-28 18:52:38 公開日:2024-02-26
# WIPI: LLM駆動Webエージェントのための新しいWeb脅威

WIPI: A New Web Threat for LLM-Driven Web Agents ( http://arxiv.org/abs/2402.16965v1 )

ライセンス: Link先を確認
Fangzhou Wu, Shutong Wu, Yulong Cao, Chaowei Xiao(参考訳) 大規模言語モデル(LLM)の急速な開発に伴い、LLM主導のWebエージェント(略してWeb Agents)は、複数のWebツールを備えた人間の脳のような決定を、外部にデプロイされたWebサイトと積極的に対話する上で、LCMが中心となる機能のために、多くの注目を集めている。 webエージェントがリリースされ、そのようなllmシステムが急速に開発され、私たちの日常生活で広く展開されるようになるにつれ、本質的で差し迫った疑問が生まれます。 本稿では,webエージェントを間接的に制御して,公開webページに埋め込まれた悪意のある命令を実行する,新たな脅威であるwipiを紹介する。 WIPIを成功させるためには、ブラックボックス環境で動作する。 この方法論は、外部ウェブページ内の間接命令の形式と内容に焦点を当て、攻撃の効率とステルス性を高める。 提案手法の有効性を評価するため,7つのプラグインベースのChatGPT Web Agent,8つのWeb GPT,および3つの異なるオープンソースWeb Agentを用いた広範囲な実験を行った。 その結果,純粋なブラックボックスシナリオにおいても平均攻撃成功率(ASR)が90%を超えることが判明した。 さらに, 各種ユーザプレフィックス命令に対するアブレーション調査を通じて, WIPIは強い堅牢性を示し, 多様なプレフィックス命令に対して高い性能を維持していることを示した。

With the fast development of large language models (LLMs), LLM-driven Web Agents (Web Agents for short) have obtained tons of attention due to their superior capability where LLMs serve as the core part of making decisions like the human brain equipped with multiple web tools to actively interact with external deployed websites. As uncountable Web Agents have been released and such LLM systems are experiencing rapid development and drawing closer to widespread deployment in our daily lives, an essential and pressing question arises: "Are these Web Agents secure?". In this paper, we introduce a novel threat, WIPI, that indirectly controls Web Agent to execute malicious instructions embedded in publicly accessible webpages. To launch a successful WIPI works in a black-box environment. This methodology focuses on the form and content of indirect instructions within external webpages, enhancing the efficiency and stealthiness of the attack. To evaluate the effectiveness of the proposed methodology, we conducted extensive experiments using 7 plugin-based ChatGPT Web Agents, 8 Web GPTs, and 3 different open-source Web Agents. The results reveal that our methodology achieves an average attack success rate (ASR) exceeding 90% even in pure black-box scenarios. Moreover, through an ablation study examining various user prefix instructions, we demonstrated that the WIPI exhibits strong robustness, maintaining high performance across diverse prefix instructions.
翻訳日:2024-02-28 18:52:28 公開日:2024-02-26
# ゼロ変動量子ワーク抽出

Zero-Fluctuation Quantum Work Extraction ( http://arxiv.org/abs/2402.16964v1 )

ライセンス: Link先を確認
Raffaele Salvia and Vittorio Giovannetti(参考訳) 量子システムから作業を取り出すための決定論的プロトコルの可能性について検討する。 2点測定作業抽出のシナリオに着目して、ハミルトニアンが有理スペクトルを持つ場合、系の十分なコピーで、そのようなゼロゆらぎプロトコルは常に存在することを証明する。 この結果を利用して、任意のハミルトニアンに対して、1/\delta$で指数関数的に多くのコピーを必要とするが、任意の間隔で厳密に制限された作業変動を伴うシステムの十分な数のコピー上でユニタリ駆動プロトコルを構築することができることを示した。

We study the possibility of deterministic protocols for extracting work from quantum systems. Focusing on the two-point measurement work extraction scenario, we prove that, with enough copies of the system, such zero-fluctuation protocols always exist if the Hamiltonian has a rational spectrum. Leveraging this result, we show that for any Hamiltonian, it is possible to construct an unitary driving protocol on sufficiently many copies of the system with work fluctuations strictly bounded within an arbitrary interval $\pm \delta$, albeit requiring exponentially many copies in $1/\delta$.
翻訳日:2024-02-28 18:52:02 公開日:2024-02-26
# スピン量子ビットとフォノンを用いた高忠実度量子情報処理と量子シミュレーション

Toward high-fidelity quantum information processing and quantum simulation with spin qubits and phonons ( http://arxiv.org/abs/2402.16960v1 )

ライセンス: Link先を確認
I. Arrazola, Y. Minoguchi, M.-A. Lemonde, A. Sipahigil, P. Rabl(参考訳) ダイヤモンド中のシリコン空孔中心に付随するスピン量子ビットに対する高忠実かつフォノンを介するゲート演算と量子シミュレーションスキームの実装を解析する。 具体的には, 連続的動的デカップリング法の適用により, 量子状態のコヒーレンスが著しく向上すると同時に, この方法で実装可能な実効スピンモデルの多様性も増大することを示す。 実モデルと詳細な数値シミュレーションに基づいて,この分離手法はゲート誤差を2桁以上抑えることができ,実験的に関連する雑音パラメータに対して$\sim 10^{-4}$以下のゲート不適合性を実現する。 したがって、埋め込みされた欠陥中心の配列を持つフォノン格子に一般化されると、この手法は他の主要な量子技術プラットフォームと競合するレベルの制御で、スピンとフォノンを持つ中規模および大規模量子デバイスへの現実的な経路を提供する。

We analyze the implementation of high-fidelity, phonon-mediated gate operations and quantum simulation schemes for spin qubits associated with silicon vacancy centers in diamond. Specifically, we show how the application of continuous dynamical decoupling techniques can substantially boost the coherence of the qubit states while increasing at the same time the variety of effective spin models that can be implemented in this way. Based on realistic models and detailed numerical simulations, we demonstrate that this decoupling technique can suppress gate errors by more than two orders of magnitude and enable gate infidelities below $\sim 10^{-4}$ for experimentally relevant noise parameters. Therefore, when generalized to phononic lattices with arrays of implanted defect centers, this approach offers a realistic path toward moderate- and large-scale quantum devices with spins and phonons, at a level of control that is competitive with other leading quantum-technology platforms.
翻訳日:2024-02-28 18:51:49 公開日:2024-02-26
# 量子エンタングルメントからの振幅の正当性

Positivity in Amplitudes from Quantum Entanglement ( http://arxiv.org/abs/2402.16956v1 )

ライセンス: Link先を確認
Rafael Aoude, Gilly Elor, Grant N. Remmen, Olcyr Sumensari(参考訳) 摂動散乱に対する前方弾性振幅の仮想部分の正値性は、s行列が生成するエンタングルメント(フレーバーのような任意の内部量子数を持つ状態)の一貫性と等価であることを示した。 また、S行列の作用がサブシステムエンタングルメントを減少させるような、非常に絡み合った初期状態である「異方体」も解析する。

We show that positivity of the imaginary part of forward elastic amplitudes for perturbative scattering is equivalent to consistency of the entanglement generated by the S-matrix, for states with arbitrary internal quantum numbers such as flavor. We also analyze "disentanglers," certain highly entangled initial states for which the action of the S-matrix is to decrease subsystem entanglement.
翻訳日:2024-02-28 18:51:31 公開日:2024-02-26
# 非フェルミ液体からの軌道選択次数と {\mathbb{z}_3$ potts nematicity

Orbital selective order and $\mathbb{Z}_3$ Potts nematicity from a non-Fermi liquid ( http://arxiv.org/abs/2402.16952v1 )

ライセンス: Link先を確認
YuZheng Xie, Andrew Hardy, Arun Paramekanti(参考訳) 高温非フェルミ液体が低温に$\mathbb{Z}_3$Pottsネマティック秩序を与えるシステムによって動機付けられ、大容量N$限界の3軌道Sachdev-Ye-Kitaev(SYK)モデルを検討した。 このモデルでは、自発的な軌道選択遷移を示し、平均的な粒子-ホール対称性を保ち、2つの軌道が絶縁体となり、3番目の軌道は非フェルミ液体のままである。 この研究を3軌道SYKドットの格子モデルに拡張し、三角形および立方体格子上の一様対称性の破れを探索する。 高温では、これらの格子モデルは異方性非フェルミ液体金属相を示す。 3次元立方体格子上では、低温の$\mathbb{Z}_3$ネマティック状態は、小さなホッピングで粒子-ホール対称性を保ち、大きなホッピングで粒子-ホール対称性を自発的に破壊する軌道選択層状態に対応する。 幅広い温度で、この層状状態の輸送は金属の面内比抵抗を示すが、面外比抵抗を絶縁する。 2次元三角格子上では、均一な軌道秩序を持つ低温状態は軌道選択的輸送と相関する$\mathbb{Z}_3$ネマティックであるが、両方の主方向では金属のままである。 これらすべてのモデルにおける位相図の健全な特徴とネマティック秩序をキャプチャする、$\mathbb{Z}_3$クロック項を持つランダウ理論について論じる。 また,等方性非フェルミ液体状態の近似波動ベクトル依存性軌道感受性についても検討した。

Motivated by systems where a high temperature non-Fermi liquid gives way to low temperature $\mathbb{Z}_3$ Potts nematic order, we studied a three-orbital Sachdev-Ye-Kitaev (SYK) model in the large-$N$ limit. In the single-site limit, this model exhibits a spontaneous orbital-selective transition which preserves average particle-hole symmetry, with two orbitals becoming insulators while the third orbital remains a non-Fermi liquid down to zero temperature. We extend this study to lattice models of three-orbital SYK dots, exploring uniform symmetry broken states on the triangular and cubic lattices. At high temperature, these lattice models exhibit an isotropic non-Fermi liquid metal phase. On the three-dimensional (3D) cubic lattice, the low temperature uniform $\mathbb{Z}_3$ nematic state corresponds to an orbital selective layered state which preserves particle-hole symmetry at small hopping and spontaneously breaks the particle-hole symmetry at large hopping. Over a wide range of temperature, the transport in this layered state shows metallic in-plane resistivity but insulating out-of-plane resistivity. On the 2D triangular lattice, the low temperature state with uniform orbital order is also a correlated $\mathbb{Z}_3$ nematic with orbital-selective transport but it remains metallic in both principal directions. We discuss a Landau theory with $\mathbb{Z}_3$ clock terms which captures salient features of the phase diagram and nematic order in all these models. We also present results on the approximate wavevector dependent orbital susceptibility of the isotropic non-Fermi liquid states.
翻訳日:2024-02-28 18:51:23 公開日:2024-02-26
# ゼロノイズ外挿による直流磁気測定の緩和誤差

Mitigating Errors in DC Magnetometry via Zero-Noise Extrapolation ( http://arxiv.org/abs/2402.16949v1 )

ライセンス: Link先を確認
John S. Van Dyke, Zackary White, Gregory Quiroz(参考訳) ノイズスケーリングと外挿による量子回路期待値を推定するゼロノイズ外挿法(ZNE)は、量子コンピューティングの文脈においてよく研究されている。 量子センシング分野におけるZNEの適用性について検討する。 本研究では,Ramseyプロトコルを用いた直流磁力計の問題点に着目し,傾斜検出方式におけるZNEを用いた場合の感度(最小検出信号の意味で)が向上しないことを示す。 一方、十分な大きさの信号をより正確に推定することができる。 この結果は、ZNEプロトコルの様々なノイズモデルと設計上の選択に対して堅牢であり、シングルキュービットとマルチキュービットの絡み合いに基づくセンシングを含む。

Zero-noise extrapolation (ZNE), a technique to estimate quantum circuit expectation values through noise scaling and extrapolation, is well-studied in the context of quantum computing. We examine the applicability of ZNE to the field of quantum sensing. Focusing on the problem of DC magnetometry using the Ramsey protocol, we show that the sensitivity (in the sense of the minimum detectable signal) does not improve upon using ZNE in the slope detection scheme. On the other hand, signals of sufficiently large magnitude can be estimated more accurately. Our results are robust across various noise models and design choices for the ZNE protocols, including both single-qubit and multi-qubit entanglement-based sensing.
翻訳日:2024-02-28 18:50:48 公開日:2024-02-26
# 量子コンピュータにおけるmach-zehnder干渉法によるanyonic statisticsの探索

Probing anyonic statistics via Mach-Zehnder interferometry in quantum computers ( http://arxiv.org/abs/2402.16944v1 )

ライセンス: Link先を確認
Shiyu Zhou, Yi Teng, Claudio Chamon, Claudio Castelnovo, Armin Rahmani(参考訳) 我々は,量子スピン液体に現れる陽電子励起の分数交換統計を調べるために,量子コンピューティングデバイスのための合成マッハ・ツェンダー干渉計を導入する。 量子コンピュータIonQを用いて、このスキームをトーリック符号の準1次元還元であるトーリックラダーに適用する。 我々は「電磁」励起の移動と「電磁」励起の存在による干渉パターンを観察する。 我々は、イオンqのノイズを非分極化リンドブラジアンダイナミクスを用いてモデル化し、量子デバイスから得られた測定値と定量的に一致させる。 したがって、合成マッハ・ツェンダー干渉計は、マルチキュービットノイズ量子デバイスのコヒーレンス長と時間スケールを探索する有効な手段としても機能する。

We introduce a synthetic Mach-Zehnder interferometer for digitized quantum computing devices to probe fractional exchange statistics of anyonic excitations that appear in quantum spin liquids. Employing an IonQ quantum computer, we apply this scheme to the toric ladder, a quasi-one-dimensional reduction of the toric code. We observe interference patterns resulting from the movement of `electric' excitations in the presence and absence of `magnetic' ones. We model the noise in IonQ via depolarizing Lindbladian dynamics, and find quantitative agreement with the measurements obtained from the quantum device. The synthetic Mach-Zehnder interferometer can thus also serve as an effective means to probe the coherence length and time scales of multi-qubit noisy quantum devices.
翻訳日:2024-02-28 18:50:37 公開日:2024-02-26
# ヘテロダイン検出によるハイブリッドBB84の安全性

Security of hybrid BB84 with heterodyne detection ( http://arxiv.org/abs/2402.16941v1 )

ライセンス: Link先を確認
Jasminder S. Sidhu and Rocco Maggi and Saverio Pascazio and Cosmo Lupo(参考訳) 量子鍵分布(QKD)は物理学の法則に基づく永続的なセキュリティを約束する。 ほとんどの一般的なプロトコルは、情報を運ぶのに使用される自由度に基づいて2つの異なるカテゴリに分類される。 近年,両カテゴリの利点を活かすためにハイブリッドQKDプロトコルが導入された。 本研究では,2021年にQiが導入したプロトコルの厳密なセキュリティ証明を提供する。このプロトコルでは,情報を分散したBennett Brassard 1984 (BB84)プロトコルのように離散変数に符号化するが,ヘテロダイン検出によって復号化する。 ハイブリッドプロトコルのセキュリティ証明は、非有界次元による連続可変プロトコルに関連する同じ課題を継承する。 ここでは対称性を利用してこれらの課題に対処する。 提案手法により,近似誤差を正確に制御したヒルベルト空間の切断が可能となり,集団攻撃下での漸近キーレートの厳密な半解析式が得られた。 具体的な例として,パッシブアタック,線形損失,ガウス雑音における鍵レートの計算に本理論を適用した。

Quantum key distribution (QKD) promises everlasting security based on the laws of physics. Most common protocols are grouped into two distinct categories based on the degrees of freedom used to carry information, which can be either discrete or continuous, each presenting unique advantages in either performance, feasibility for near-term implementation, and compatibility with existing telecommunications architectures. Recently, hybrid QKD protocols have been introduced to leverage advantages from both categories. In this work we provide a rigorous security proof for a protocol introduced by Qi in 2021, where information is encoded in discrete variables as in the widespread Bennett Brassard 1984 (BB84) protocol but decoded continuously via heterodyne detection. Security proofs for hybrid protocols inherit the same challenges associated with continuous-variable protocols due to unbounded dimensions. Here we successfully address these challenges by exploiting symmetry. Our approach enables truncation of the Hilbert space with precise control of the approximation errors and lead to a tight, semi-analytical expression for the asymptotic key rate under collective attacks. As concrete examples, we apply our theory to compute the key rates under passive attacks, linear loss, and Gaussian noise.
翻訳日:2024-02-28 18:50:23 公開日:2024-02-26
# 多体量子カオスの一般モデルの投影状態アンサンブル

Projected state ensemble of a generic model of many-body quantum chaos ( http://arxiv.org/abs/2402.16939v1 )

ライセンス: Link先を確認
Amos Chan and Andrea De Luca(参考訳) 投影されたアンサンブルは、その補数における射影的測定に基づいて条件付けられたサブシステム $a$ の量子状態の研究に基づいている。 近年の研究では、カオス量子系の熱化のより洗練された尺度は、投影されたアンサンブルの量子状態設計への収束、すなわち、一様に分布する純状態のハールアンサンブルから、k$-thモーメントまでの区別不能になったときに熱化することに基づいて定義できることが示されている。 ここでは,ブロック壁形状のランダムなユニタリ回路を考察し,フレームポテンシャルと統計的機械的問題へのマッピングを通して,Haarアンサンブルへの収束を解析する。 このアプローチは, エンタングルメントエントロピーの研究に現れるような, 変動する膜の存在に基づいて, フレームポテンシャルの幾何学的解釈を強調できる。 大きい局所ヒルベルト空間次元 $q$ において、すべてのモーメントは、以前に双対ユニタリモデルで観測された特徴である領域 $a$ で線形にスケールする時間と同時に収束する。 しかし、幾何学的解釈に基づいて、希少な膜ゆらぎに基づいて有限$q$でのスケーリングは、設計時間$t_k = o(\log k)$ の対数スケーリングを見つける。 その結果,$q=2$で数値シミュレーションを行った。

The projected ensemble is based on the study of the quantum state of a subsystem $A$ conditioned on projective measurements in its complement. Recent studies have observed that a more refined measure of the thermalization of a chaotic quantum system can be defined on the basis of convergence of the projected ensemble to a quantum state design, i.e. a system thermalizes when it becomes indistinguishable, up to the $k$-th moment, from a Haar ensemble of uniformly distributed pure states. Here we consider a random unitary circuit with the brick-wall geometry and analyze its convergence to the Haar ensemble through the frame potential and its mapping to a statistical mechanical problem. This approach allows us to highlight a geometric interpretation of the frame potential based on the existence of a fluctuating membrane, similar to those appearing in the study of entanglement entropies. At large local Hilbert space dimension $q$, we find that all moments converge simultaneously with a time scaling linearly in the size of region $A$, a feature previously observed in dual unitary models. However, based on the geometric interpretation, we argue that the scaling at finite $q$ on the basis of rare membrane fluctuations, finding the logarithmic scaling of design times $t_k = O(\log k)$. Our results are supported with numerical simulations performed at $q=2$.
翻訳日:2024-02-28 18:50:00 公開日:2024-02-26
# DiffuCOMET: コンテキストコモンセンス知識拡散

DiffuCOMET: Contextual Commonsense Knowledge Diffusion ( http://arxiv.org/abs/2402.17011v1 )

ライセンス: Link先を確認
Silin Gao, Mete Ismayilzada, Mengjie Zhao, Hiromi Wakaki, Yuki Mitsufuji, Antoine Bosselut(参考訳) 物語を理解するために文脈的に関連があり多様なコモンセンスを推測することは、知識モデルにとって依然として困難である。 本研究では、拡散を利用して物語コンテキストと関連するコモンセンス知識との間の暗黙的な意味的関係を再構築する一連の知識モデルDiffuCOMETを開発する。 複数の拡散過程において,本手法は物語に固定されたコモンセンス事実の表現を段階的に洗練し,文脈的・多様なコモンセンス推論を入力コンテキストに対して生成する。 DiffuCOMETを評価するために,知識の多様性と文脈的関連性をより深く測定するコモンセンス推論のための新しい指標を提案する。 ComFact と WebNLG+ の2つの異なるベンチマークの結果から,DiffuCOMET が生成した知識は,ベースライン知識モデルと比較して,コモンセンスの多様性,文脈的関連性,および既知ゴールド参照との整合性の間のトレードオフを良好に達成できることが示された。

Inferring contextually-relevant and diverse commonsense to understand narratives remains challenging for knowledge models. In this work, we develop a series of knowledge models, DiffuCOMET, that leverage diffusion to learn to reconstruct the implicit semantic connections between narrative contexts and relevant commonsense knowledge. Across multiple diffusion steps, our method progressively refines a representation of commonsense facts that is anchored to a narrative, producing contextually-relevant and diverse commonsense inferences for an input context. To evaluate DiffuCOMET, we introduce new metrics for commonsense inference that more closely measure knowledge diversity and contextual relevance. Our results on two different benchmarks, ComFact and WebNLG+, show that knowledge generated by DiffuCOMET achieves a better trade-off between commonsense diversity, contextual relevance and alignment to known gold references, compared to baseline knowledge models.
翻訳日:2024-02-28 18:45:03 公開日:2024-02-26
# 大規模言語モデルは人間のような参照位置を思い出せるか?

Can Large Language Models Recall Reference Location Like Humans? ( http://arxiv.org/abs/2402.17010v1 )

ライセンス: Link先を確認
Ye Wang, Xinrun Xu, Rui Xie, Wenxin Hu, Wei Ye(参考訳) 知識集約的なタスクを完了するとき、人間は答えだけでなく、補助的な読解のための参照パスも必要となる。 それまでの方法は、追加の検索モデルにより、事前分割された記事チャンクを取得する必要があった。 本稿では,大言語モデル(llms)の事前学習段階で記憶されたパラメータ化知識を活用して,任意の開始位置から参照通路を独立に記憶する手法を提案する。 忘れやすい参照を記憶する人間のシナリオをシミュレートする2段階フレームワークを提案する。 最初、LLMはドキュメントのタイトル識別子をリコールして、粗い粒度のドキュメントセットを取得するように促される。 そして、取得した粗粒度文書集合に基づいて細粒度を記憶する。 2段階のリコールプロセスでは、制約付きデコードを使用して、格納されたドキュメント以外のコンテンツが生成されないようにする。 速度を上げるために、第2段階の短い接頭辞のみを思い出し、その位置を突き止めて完全な通路を検索する。 KILTナレッジセンシティブなタスクの実験では、LLMが様々なタスク形式の参照通路位置を独立にリコールできることが確認され、得られた参照が下流タスクを著しく補助する。

When completing knowledge-intensive tasks, humans sometimes need not just an answer but also a corresponding reference passage for auxiliary reading. Previous methods required obtaining pre-segmented article chunks through additional retrieval models. This paper explores leveraging the parameterized knowledge stored during the pre-training phase of large language models (LLMs) to independently recall reference passage from any starting position. We propose a two-stage framework that simulates the scenario of humans recalling easily forgotten references. Initially, the LLM is prompted to recall document title identifiers to obtain a coarse-grained document set. Then, based on the acquired coarse-grained document set, it recalls fine-grained passage. In the two-stage recall process, we use constrained decoding to ensure that content outside of the stored documents is not generated. To increase speed, we only recall a short prefix in the second stage, then locate its position to retrieve a complete passage. Experiments on KILT knowledge-sensitive tasks have verified that LLMs can independently recall reference passage location in various task forms, and the obtained reference significantly assist downstream tasks.
翻訳日:2024-02-28 18:44:42 公開日:2024-02-26
# 意味的オーバーラップ要約課題におけるLCMのベンチマーク

Benchmarking LLMs on the Semantic Overlap Summarization Task ( http://arxiv.org/abs/2402.17008v1 )

ライセンス: Link先を確認
John Salvador, Naman Bansal, Mousumi Akter, Souvika Sarkar, Anupam Das, and Shubhra Kanti Karmaker ("Santu")(参考訳) 意味重複要約(semantic overlap summarization、sos)は、制約付きマルチドキュメント要約タスクであり、制約は2つの異なる物語間の共通/重複情報をキャプチャすることである。 近年のLarge Language Models (LLM) の進歩は, 多数の要約タスクにおいて優れた性能を発揮しているが, LLMを用いたSOSタスクのベンチマーク研究はまだ行われていない。 LLMの応答はプロンプト設計のわずかなバリエーションに敏感であるため、そのようなベンチマーク研究を行う上で大きな課題は、信頼できる結論を出す前に様々なプロンプトを体系的に探索することである。 幸運にも、最近になってTELeR分類法が提案され、LLMの様々なプロンプトの設計と探索に利用できる。 このTELeR分類法と15のLLMを用いて,SOSタスク上のLLMを総合的に評価し,複数の代替物語から重なる情報を要約する能力を評価する。 評価のために, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語データセット上で報告する。 この記事は、様々なllmの強みと限界を分析して、この研究に使用されたコードとデータセットが重複する情報をキャプチャする能力について、https://anonymous.4open.science/r/llm_eval-e16dで利用可能である。

Semantic Overlap Summarization (SOS) is a constrained multi-document summarization task, where the constraint is to capture the common/overlapping information between two alternative narratives. While recent advancements in Large Language Models (LLMs) have achieved superior performance in numerous summarization tasks, a benchmarking study of the SOS task using LLMs is yet to be performed. As LLMs' responses are sensitive to slight variations in prompt design, a major challenge in conducting such a benchmarking study is to systematically explore a variety of prompts before drawing a reliable conclusion. Fortunately, very recently, the TELeR taxonomy has been proposed which can be used to design and explore various prompts for LLMs. Using this TELeR taxonomy and 15 popular LLMs, this paper comprehensively evaluates LLMs on the SOS Task, assessing their ability to summarize overlapping information from multiple alternative narratives. For evaluation, we report well-established metrics like ROUGE, BERTscore, and SEM-F1$ on two different datasets of alternative narratives. We conclude the paper by analyzing the strengths and limitations of various LLMs in terms of their capabilities in capturing overlapping information The code and datasets used to conduct this study are available at https://anonymous.4open.science/r/llm_eval-E16D.
翻訳日:2024-02-28 18:44:23 公開日:2024-02-26
# 量子秘密鍵のコスト

Cost of quantum secret key ( http://arxiv.org/abs/2402.17007v1 )

ライセンス: Link先を確認
Karol Horodecki, Leonard Sikorski, Siddhartha Das, Mark M. Wilde(参考訳) 本稿では,量子秘密鍵の資源理論について述べる。 ゼロの蒸留可能な鍵で絡み合った状態が存在しないという仮定の下では、量子状態の鍵コストと装置を定義する。 我々はその性質を、形成の鍵と呼ばれる量のレンズを通して研究する。 本稿の主な結果は、規則化された生成鍵が量子状態の鍵コストの上限であることである。 この結果の根底にある中核的なプロトコルは、理想的なプライバシーを含む状態を、希薄なプライバシーを持つものに変換するプライバシーの希釈である。 次に、鍵となるコストは、特定の種類の状態に対するプライバシ生成-蒸留プロセスの不可逆性を意味する、エンタングルメントの正規化相対エントロピーによって下から制限されることを示す。 さらに、プライバシー領域における純量子状態の混合状態類似性に注目し、純量子状態の場合と同様、多くの絡み合い対策がこれらの状態に対して互いに等しいことを証明した。 シングルショット方式におけるプライバシコストと蒸留可能なキーは利回りコストの関係を示し、量子デバイスに対する基本的な結果も提供する。

In this paper, we develop the resource theory of quantum secret key. Operating under the assumption that entangled states with zero distillable key do not exist, we define the key cost of a quantum state, and device. We study its properties through the lens of a quantity that we call the key of formation. The main result of our paper is that the regularized key of formation is an upper bound on the key cost of a quantum state. The core protocol underlying this result is privacy dilution, which converts states containing ideal privacy into ones with diluted privacy. Next, we show that the key cost is bounded from below by the regularized relative entropy of entanglement, which implies the irreversibility of the privacy creation-distillation process for a specific class of states. We further focus on mixed-state analogues of pure quantum states in the domain of privacy, and we prove that a number of entanglement measures are equal to each other for these states, similar to the case of pure entangled states. The privacy cost and distillable key in the single-shot regime exhibit a yield-cost relation, and basic consequences for quantum devices are also provided.
翻訳日:2024-02-28 18:43:57 公開日:2024-02-26
# 臨床におけるオンライン強化学習アルゴリズムの忠実度モニタリング

Monitoring Fidelity of Online Reinforcement Learning Algorithms in Clinical Trials ( http://arxiv.org/abs/2402.17003v1 )

ライセンス: Link先を確認
Anna L. Trella, Kelly W. Zhang, Inbal Nahum-Shani, Vivek Shetty, Iris Yan, Finale Doshi-Velez, Susan A. Murphy(参考訳) オンライン強化学習(RL)アルゴリズムは、臨床試験参加者に対するパーソナライズ治療に大きな可能性を秘めている。 しかし、オンラインで自律的なアルゴリズムを医療現場に配置することは、品質管理とデータ品質の達成を特に困難にしている。 本稿では,オンラインRLアルゴリズムを臨床試験に導入するための重要な要件として,アルゴリズムの忠実性を提案する。 本研究は,(1)参加者を保護し,(2)裁判後分析におけるデータの科学的有用性を維持するためのアルゴリズムの責務を強調する。 また,プレデプロイ計画とリアルタイムモニタリングのためのフレームワークを提案することで,アルゴリズム開発者や臨床研究者がアルゴリズムの忠実性を保証するのに役立つ。 本フレームワークの実用的応用を説明するために,Oralytics 臨床試験から実例を提示する。 2023年春以降、この試行は、歯科疾患のリスクがある参加者に対する行動介入をパーソナライズする、自律的なオンラインRLアルゴリズムを成功させた。

Online reinforcement learning (RL) algorithms offer great potential for personalizing treatment for participants in clinical trials. However, deploying an online, autonomous algorithm in the high-stakes healthcare setting makes quality control and data quality especially difficult to achieve. This paper proposes algorithm fidelity as a critical requirement for deploying online RL algorithms in clinical trials. It emphasizes the responsibility of the algorithm to (1) safeguard participants and (2) preserve the scientific utility of the data for post-trial analyses. We also present a framework for pre-deployment planning and real-time monitoring to help algorithm developers and clinical researchers ensure algorithm fidelity. To illustrate our framework's practical application, we present real-world examples from the Oralytics clinical trial. Since Spring 2023, this trial successfully deployed an autonomous, online RL algorithm to personalize behavioral interventions for participants at risk for dental disease.
翻訳日:2024-02-28 18:43:37 公開日:2024-02-26
# 入射直交バイアスによる対称性群構造の発見

Discovering Symmetry Group Structures via Implicit Orthogonality Bias ( http://arxiv.org/abs/2402.17002v1 )

ライセンス: Link先を確認
Dongsung Huh(参考訳) データ内の対称性グループ構造を自律的に発見するための新しいアプローチであるHyperCubeネットワークを導入する。 重要なイノベーションは、直交表現を学ぶための強力な帰納的バイアスを注入する新しい正規化子と組み合わされたユニークな分解アーキテクチャである。 これはすべてのコンパクトかつ有限な群は直交行列で表せるという表現論の基本的な定理を利用する。 HyperCubeは、部分的に観測されたデータからグループ操作を効率よく学習し、完全な操作テーブルを回復する。 驚くべきことに、学習された因子は基礎となる群の正確な行列表現に直接対応している。 さらに、これらの因子は群の既約表現の完全な集合を捉え、群畳み込みを行うための一般化されたフーリエ基底を形成する。 グループおよび非グループのシンボル操作による広範な実験では、HyperCubeはTransformerベースラインに比べてトレーニング速度が100~1000倍、サンプル効率が2~10倍向上した。 これらの結果から,本手法は,データ固有の対称性を活用可能な新たな学習モデルのクラスを開放し,性能と適用性に大きな改善をもたらすことが示唆された。

We introduce the HyperCube network, a novel approach for autonomously discovering symmetry group structures within data. The key innovation is a unique factorization architecture coupled with a novel regularizer that instills a powerful inductive bias towards learning orthogonal representations. This leverages a fundamental theorem of representation theory that all compact/finite groups can be represented by orthogonal matrices. HyperCube efficiently learns general group operations from partially observed data, successfully recovering complete operation tables. Remarkably, the learned factors correspond directly to exact matrix representations of the underlying group. Moreover, these factors capture the group's complete set of irreducible representations, forming the generalized Fourier basis for performing group convolutions. In extensive experiments with both group and non-group symbolic operations, HyperCube demonstrates a dramatic 100-1000x improvement in training speed and 2-10x greater sample efficiency compared to the Transformer baseline. These results suggest that our approach unlocks a new class of deep learning models capable of harnessing inherent symmetries within data, leading to significant improvements in performance and broader applicability.
翻訳日:2024-02-28 18:43:22 公開日:2024-02-26
# 量子誤り訂正のためのフライングキャットパリティチェック

Flying-cat parity checks for quantum error correction ( http://arxiv.org/abs/2402.17001v1 )

ライセンス: Link先を確認
Z. M. McIntyre and W. A. Coish(参考訳) 長距離マルチキュービットパリティチェックは、量子誤差補正と測定に基づく絡み合い発生の両方に応用できる。 このようなパリティチェックは、電磁界のコヒーレント状態$\vert\alpha\rangle$で記述された光のパルスを伝播する量子状態依存の位相シフトを用いて行うことができる。 我々は、schr\"odinger's cat state $\vert\alpha\rangle\pm \vert-\alpha\rangle$ に対する量子非退化(qnd)である絡み込み演算に基づく ``flying-cat'' パリティチェックを考える。 この操作は、最大に識別可能なコヒーレント状態である$\vert\pm \alpha\rangle$の位相でパリティ情報を符号化する。 単一量子ビット誤差と測定誤差を独立に扱う多くの実装とは対照的に、フライングキャットパリティチェックにおける光子損失は、測定誤差の確率と反相関な速度で物理量子ビット上の誤差を導入する。 サブシステム表面コードによる普遍的フォールトトレラント量子コンピューティングの要件である3量子パリティチェックのトレードオフを分析する。 さらに、これらの3キュービットパリティチェックを用いて、6キュービットの '`tetrahedron'' 状態がどのように準備できるかを示す。 テトラヘドロン状態は、2量子状態の制御された量子テレポーテーションの資源として、あるいは3つのパーティの量子鍵分布における潜在的な応用と共有ランダム性の源として用いられる。

Long range, multi-qubit parity checks have applications in both quantum error correction and measurement-based entanglement generation. Such parity checks could be performed using qubit-state-dependent phase shifts on propagating pulses of light described by coherent states $\vert\alpha\rangle$ of the electromagnetic field. We consider ``flying-cat'' parity checks based on an entangling operation that is quantum non-demolition (QND) for Schr\"odinger's cat states $\vert\alpha\rangle\pm \vert-\alpha\rangle$. This operation encodes parity information in the phase of maximally distinguishable coherent states $\vert\pm \alpha\rangle$, which can be read out using a phase-sensitive measurement of the electromagnetic field. In contrast to many implementations, where single-qubit errors and measurement errors can be treated as independent, photon loss during flying-cat parity checks introduces errors on physical qubits at a rate that is anti-correlated with the probability for measurement errors. We analyze this trade-off for three-qubit parity checks, which are a requirement for universal fault-tolerant quantum computing with the subsystem surface code. We further show how a six-qubit entangled ``tetrahedron'' state can be prepared using these three-qubit parity checks. The tetrahedron state can be used as a resource for controlled quantum teleportation of a two-qubit state, or as a source of shared randomness with potential applications in three-party quantum key distribution.
翻訳日:2024-02-28 18:43:03 公開日:2024-02-26
# 量子電池の高速充電を強調する

Dephasing Enabled Fast Charging of Quantum Batteries ( http://arxiv.org/abs/2402.16999v1 )

ライセンス: Link先を確認
Rahul Shastri, Chao Jiang, Guo-Hua Xu, B. Prasanna Venkatesh, and Gentaro Watanabe(参考訳) 本稿では, 制御された純粋な充電器を用いた駆動型充電器システムを用いて, 量子電池の高速充電を実現する普遍的な方法を提案する。 電池は弱い充電器の減圧のためのコヒーレントな過度なエネルギー振動を示すが、高い減圧時のチャージャーエネルギーの量子ゼノ凍結は電池へのエネルギーの移動速度を抑制する。 レジーム間の最適なデファスレートを選択すると、バッテリの充電が高速になる。 2レベルシステムまたは高調波発振器でモデル化したチャージャーとバッテリで結果を示す。 高速充電は別として、充電性能は2レベルシステムケースの充電器、駆動装置、バッテリーの周波数の調整によりより堅牢になる。

We propose and analyze a universal method to obtain fast charging of a quantum battery by a driven charger system using controlled, pure dephasing of the charger. While the battery displays coherent underdamped oscillations of energy for weak charger dephasing, the quantum Zeno freezing of the charger energy at high dephasing suppresses the rate of transfer of energy to the battery. Choosing an optimum dephasing rate between the regimes leads to a fast charging of the battery. We illustrate our results with the charger and battery modeled by either two-level systems or harmonic oscillators. Apart from the fast charging, the dephasing also renders the charging performance more robust to detuning between the charger, drive, and battery frequencies for the two-level systems case.
翻訳日:2024-02-28 18:42:35 公開日:2024-02-26
# 言語モデルは何を聴くか? 言語モデルにおける聴覚表現の探索

What Do Language Models Hear? Probing for Auditory Representations in Language Models ( http://arxiv.org/abs/2402.16998v1 )

ライセンス: Link先を確認
Jerry Ngo, Yoon Kim(参考訳) この研究は、言語モデルがオブジェクトの音の有意義な基底表現を符号化するかどうかを考察する。 我々は,その物体に関連する音声のスニペットを与えられた物体の正しいテキスト表現を検索する線形プローブを学習し,音声表現を事前学習した音声モデルで与える。 このプローブは、互いに近接するオブジェクトの言語表現と音声表現をプッシュする、対照的な損失によって訓練される。 訓練後、探査機は訓練中に見られなかった物体に一般化する能力で試験される。 異なる言語モデルと音声モデルの間で、プローブの一般化は多くの場合、原文のみに基づいて訓練されているにもかかわらず、いくつかのオブジェクトに対する音の基底知識を符号化していることを示す。

This work explores whether language models encode meaningfully grounded representations of sounds of objects. We learn a linear probe that retrieves the correct text representation of an object given a snippet of audio related to that object, where the sound representation is given by a pretrained audio model. This probe is trained via a contrastive loss that pushes the language representations and sound representations of an object to be close to one another. After training, the probe is tested on its ability to generalize to objects that were not seen during training. Across different language models and audio models, we find that the probe generalization is above chance in many cases, indicating that despite being trained only on raw text, language models encode grounded knowledge of sounds for some objects.
翻訳日:2024-02-28 18:42:23 公開日:2024-02-26
# 受聴音声における脳活動の復号に向けて

Towards Decoding Brain Activity During Passive Listening of Speech ( http://arxiv.org/abs/2402.16996v1 )

ライセンス: Link先を確認
Mil\'an Andr\'as Fodor and Tam\'as G\'abor Csap\'o and Frigyes Viktor Arthur(参考訳) この研究の目的は、音声知覚の複雑なメカニズムを調査し、最終的には音声を聴きながら脳の電気的変化を解読することである。 深層学習法を用いて頭蓋内脳波(iEEG)データから発声音声を復号しようとする。 目標は、音声合成のための脳-コンピュータインタフェース(bci)技術の進歩を支援し、願わくば、音声知覚の認知過程に関するさらなる視点を提供することである。 このアプローチは、従来の音声生成の焦点から外れ、知覚された音声の神経表現を調査することを選択する。 この角度は複雑な視点を開き、より洗練された神経パターンの研究を可能にします。 深層学習モデルのパワーを活かし、これらの複雑な神経活動と対応する音声音との関係を確立することを目的とした。 アプローチはまだ画期的な成果を上げていないが、この研究は、音声認識中の神経活動の復号化の可能性に光を当てている。 我々の現在の取り組みは基礎として機能し、より高度なBCIに近づき、認識される音声とその音声音声との関係の理解を深めるために、この研究を拡大し、改善する可能性について楽観的である。

The aim of the study is to investigate the complex mechanisms of speech perception and ultimately decode the electrical changes in the brain accruing while listening to speech. We attempt to decode heard speech from intracranial electroencephalographic (iEEG) data using deep learning methods. The goal is to aid the advancement of brain-computer interface (BCI) technology for speech synthesis, and, hopefully, to provide an additional perspective on the cognitive processes of speech perception. This approach diverges from the conventional focus on speech production and instead chooses to investigate neural representations of perceived speech. This angle opened up a complex perspective, potentially allowing us to study more sophisticated neural patterns. Leveraging the power of deep learning models, the research aimed to establish a connection between these intricate neural activities and the corresponding speech sounds. Despite the approach not having achieved a breakthrough yet, the research sheds light on the potential of decoding neural activity during speech perception. Our current efforts can serve as a foundation, and we are optimistic about the potential of expanding and improving upon this work to move closer towards more advanced BCIs, better understanding of processes underlying perceived speech and its relation to spoken speech.
翻訳日:2024-02-28 18:42:08 公開日:2024-02-26
# GEM3D:三次元形状合成のためのジェネレーティブメディア抽象化

GEM3D: GEnerative Medial Abstractions for 3D Shape Synthesis ( http://arxiv.org/abs/2402.16994v1 )

ライセンス: Link先を確認
Dmitry Petrov, Pradyumn Goyal, Vikas Thamizharasan, Vladimir G. Kim, Matheus Gadelha, Melinos Averkiou, Siddhartha Chaudhuri, Evangelos Kalogerakis(参考訳) GEM3Dは3次元形状の新しい深層トポロジ対応生成モデルである。 本手法の鍵となる要素は,形状トポロジーと幾何学の両方の情報を符号化する神経骨格に基づく表現である。 拡散確率モデルを用いて,本手法はまずメディア軸変換(MAT)に従って骨格ベースの表現を生成し,次いで骨格駆動型ニューラル暗黙の定式化により表面を生成する。 ニューラル暗黙は、生成されたスケルトン表現に格納された位相的および幾何学的情報を考慮に入れ、以前の神経磁場の定式化よりも位相的および幾何学的に正確な表面を生成する。 形状合成および点雲再構成作業における本手法の適用について検討し,定性的かつ定量的に評価した。 我々は,Thingi10KやShapeNetから構造的に複雑で高密度な形状表面を再構成・合成する困難なシナリオを含む,最先端技術と比較して,より忠実な表面再構成と多様な形状生成結果を示す。

We introduce GEM3D -- a new deep, topology-aware generative model of 3D shapes. The key ingredient of our method is a neural skeleton-based representation encoding information on both shape topology and geometry. Through a denoising diffusion probabilistic model, our method first generates skeleton-based representations following the Medial Axis Transform (MAT), then generates surfaces through a skeleton-driven neural implicit formulation. The neural implicit takes into account the topological and geometric information stored in the generated skeleton representations to yield surfaces that are more topologically and geometrically accurate compared to previous neural field formulations. We discuss applications of our method in shape synthesis and point cloud reconstruction tasks, and evaluate our method both qualitatively and quantitatively. We demonstrate significantly more faithful surface reconstruction and diverse shape generation results compared to the state-of-the-art, also involving challenging scenarios of reconstructing and synthesizing structurally complex, high-genus shape surfaces from Thingi10K and ShapeNet.
翻訳日:2024-02-28 18:41:49 公開日:2024-02-26
# 拡散モデルの相転移はデータの階層性を明らかにする

A Phase Transition in Diffusion Models Reveals the Hierarchical Nature of Data ( http://arxiv.org/abs/2402.16991v1 )

ライセンス: Link先を確認
Antonio Sclocchi, Alessandro Favero, Matthieu Wyart(参考訳) 実際のデータ構造を理解することは、現代のディープラーニング手法の進展において最重要である。 画像などの自然データは、階層的および組合せ的な方法で組織化された特徴で構成されており、学習中にニューラルネットワークがキャプチャする。 最近の進歩は、拡散モデルが高品質な画像を生成できることを示し、その基盤となる構造を捉える能力を示している。 我々はこの現象を階層的データ生成モデルで研究する。 画像のクラスのようなハイレベルな特徴を再構築する確率が突然低下する、あるしきい値時の位相遷移によって、t$ の時間後に作用する後方拡散過程が支配されることがわかった。 代わりに、画像の特定の詳細のような低レベルの特徴の再構成は、拡散過程全体にわたってスムーズに進化する。 この結果は、遷移を超えるとクラスが変わったが、生成されたサンプルは初期画像の低レベル要素で構成される可能性があることを示している。 我々は,これらの理論的知見を,クラス非条件画像ネット拡散モデルに関する数値実験により検証する。 本分析では,拡散モデルにおける時間とスケールの関係を特徴付け,組合せデータ特性をモデル化するための強力なツールとして生成モデルを前進させる。

Understanding the structure of real data is paramount in advancing modern deep-learning methodologies. Natural data such as images are believed to be composed of features organised in a hierarchical and combinatorial manner, which neural networks capture during learning. Recent advancements show that diffusion models can generate high-quality images, hinting at their ability to capture this underlying structure. We study this phenomenon in a hierarchical generative model of data. We find that the backward diffusion process acting after a time $t$ is governed by a phase transition at some threshold time, where the probability of reconstructing high-level features, like the class of an image, suddenly drops. Instead, the reconstruction of low-level features, such as specific details of an image, evolves smoothly across the whole diffusion process. This result implies that at times beyond the transition, the class has changed but the generated sample may still be composed of low-level elements of the initial image. We validate these theoretical insights through numerical experiments on class-unconditional ImageNet diffusion models. Our analysis characterises the relationship between time and scale in diffusion models and puts forward generative models as powerful tools to model combinatorial data properties.
翻訳日:2024-02-28 18:41:32 公開日:2024-02-26
# InGRASS:低抵抗次元分解によるインクリメンタルグラフスペクトルスペーサー化

inGRASS: Incremental Graph Spectral Sparsification via Low-Resistance-Diameter Decomposition ( http://arxiv.org/abs/2402.16990v1 )

ライセンス: Link先を確認
Ali Aghdaei and Zhuo Feng(参考訳) この研究は、大きな非方向グラフのインクリメンタルスペクトルスカラー化のために設計された新しいアルゴリズムであるInGRASSを提示する。 提案するingrassアルゴリズムは高度にスケーラブルで並列性に富み、セットアップフェーズのほぼ線形な時間複雑性と、n$ノードで元のグラフへのインクリメンタルな変更毎に$o(\log n)$時間でスペクトルスパーシファイアを更新できる能力を備えている。 InGRASSのセットアップフェーズにおけるキーコンポーネントは、スペクトルクリティカルエッジを効率的に識別し、冗長なエッジを効果的に検出するために導入されたマルチレベル抵抗埋め込みフレームワークであり、低抵抗径分解(LRD)方式を利用して、初期スペーサーを多くのノードクラスタに分割することで実現されている。 InGRASSの更新フェーズでは、低次元ノード埋め込みベクトルを利用して、新しく追加されたエッジの重要性とユニークさを効率的に推定する。 広範な実験によって実証されたように、InGRASSは、回路シミュレーション、有限要素解析、ソーシャルネットワークなど、様々なデータセットから得られるグラフのインクリメンタルスペクトルスカラー化において、同等のソリューション品質を維持しながら、200ドル以上のスピードアップを達成する。

This work presents inGRASS, a novel algorithm designed for incremental spectral sparsification of large undirected graphs. The proposed inGRASS algorithm is highly scalable and parallel-friendly, having a nearly-linear time complexity for the setup phase and the ability to update the spectral sparsifier in $O(\log N)$ time for each incremental change made to the original graph with $N$ nodes. A key component in the setup phase of inGRASS is a multilevel resistance embedding framework introduced for efficiently identifying spectrally-critical edges and effectively detecting redundant ones, which is achieved by decomposing the initial sparsifier into many node clusters with bounded effective-resistance diameters leveraging a low-resistance-diameter decomposition (LRD) scheme. The update phase of inGRASS exploits low-dimensional node embedding vectors for efficiently estimating the importance and uniqueness of each newly added edge. As demonstrated through extensive experiments, inGRASS achieves up to over $200 \times$ speedups while retaining comparable solution quality in incremental spectral sparsification of graphs obtained from various datasets, such as circuit simulations, finite element analysis, and social networks.
翻訳日:2024-02-28 18:41:13 公開日:2024-02-26
# 長いダイアログ要約:分析

Long Dialog Summarization: An Analysis ( http://arxiv.org/abs/2402.16986v1 )

ライセンス: Link先を確認
Ankan Mullick, Ayan Kumar Bhowmick, Raghav R, Ravi Kokku, Prasenjit Dey, Pawan Goyal, Niloy Ganguly(参考訳) ダイアログの要約は、様々な領域にわたる大規模会話の管理と理解においてますます重要になっている。 本課題は,要約のための多ターン長会話のキーポイント,コンテキスト,ニュアンスを抽出する上で,ユニークな課題を示す。 要約技術は、ショッピングチャットボットのシナリオなど、特定の要件に基づいて異なり、ダイアログの要約はユーザの嗜好を学習するのに役立つが、カスタマーコールセンターの場合は、ユーザが指定した問題属性と提供された最終的な解決が関係していることに注意する必要がある。 この研究は、様々なアプリケーションにおける効果的なコミュニケーションのために、コヒーレントでコンテキスト的にリッチな要約を作成することの重要性を強調している。 異なる領域における長いダイアログの要約に対する現在の最先端のアプローチについて検討し、ベンチマークに基づく評価により、1つのモデルが異なる要約タスクのために様々な領域でうまく機能しないことを示す。

Dialog summarization has become increasingly important in managing and comprehending large-scale conversations across various domains. This task presents unique challenges in capturing the key points, context, and nuances of multi-turn long conversations for summarization. It is worth noting that the summarization techniques may vary based on specific requirements such as in a shopping-chatbot scenario, the dialog summary helps to learn user preferences, whereas in the case of a customer call center, the summary may involve the problem attributes that a user specified, and the final resolution provided. This work emphasizes the significance of creating coherent and contextually rich summaries for effective communication in various applications. We explore current state-of-the-art approaches for long dialog summarization in different domains and benchmark metrics based evaluations show that one single model does not perform well across various areas for distinct summarization tasks.
翻訳日:2024-02-28 18:40:46 公開日:2024-02-26
# 2x2 正規形式ゲーム: 2xtwogame LaTeX Package

Visualizing 2x2 Normal-Form Games: twoxtwogame LaTeX Package ( http://arxiv.org/abs/2402.16985v1 )

ライセンス: Link先を確認
Luke Marris, Ian Gemp, Siqi Liu, Joel Z. Leibo, Georgios Piliouras(参考訳) 2人のプレイヤーが2つの戦略を持つ通常のゲームが最も学習されたクラスのゲームである。 いわゆる2x2ゲームは、様々な戦略的相互作用をモデル化するために使用される。 ゲーム理論、経済学、人工知能の研究に登場している。 しかし、そのようなゲームの記述と視覚化のためのツールが欠けている。 この作業では2x2ゲームを視覚化するためのLaTeXパッケージが導入された。 第一に、科学的な出版物に適した高品質なツールとベクターグラフィックの可視化を提供することである。 次に、2x2ゲームの名前と表現の標準化を促進する。 LaTeXパッケージは2xtwogameで、GitHubでメンテナンスされ、CTANでミラーされ、寛容なApache 2ライセンスで利用できる。

Normal-form games with two players, each with two strategies, are the most studied class of games. These so-called 2x2 games are used to model a variety of strategic interactions. They appear in game theory, economics, and artificial intelligence research. However, there lacks tools for describing and visualizing such games. This work introduces a LaTeX package for visualizing 2x2 games. This work has two goals: first, to provide high-quality tools and vector graphic visualizations, suitable for scientific publications. And second, to help promote standardization of names and representations of 2x2 games. The LaTeX package, twoxtwogame, is maintained on GitHub and mirrored on CTAN, and is available under a permissive Apache 2 license.
翻訳日:2024-02-28 18:40:28 公開日:2024-02-26
# 高次元入力をもつ縮小次数モデルに対する多重忠実法

A Multi-Fidelity Methodology for Reduced Order Models with High-Dimensional Inputs ( http://arxiv.org/abs/2402.17061v1 )

ライセンス: Link先を確認
Bilal Mufti, Christian Perron and Dimitri N. Mavris (ASDL, Daniel Guggenheim School of Aerospace Engineering, Georgia Institute of Technology, Atlanta, Georgia)(参考訳) 航空宇宙設計の初期段階では、複数の評価を必要とする多項目のシナリオにおいて、物理リッチなフィールド情報の使用に伴う計算コストを最小化するために、還元順序モデル(rom)が不可欠である。 航空宇宙設計の複雑さは、詳細な特徴と設計のバラツキを正確に捉えるために高次元の設計空間を使用する必要がある。 しかし、これらの空間は、高次元の入力と実質的なトレーニングデータと計算労力の両方から生じる次元の呪いを含む重要な課題をもたらす。 これらの複雑さに対処するために、高次元コンテキスト用に設計された新しい多相性、パラメトリック、非侵入性ROMフレームワークを提案する。 Proper Orthogonal Decomposition (POD) と Model-based Active Subspace を併用し, ROM 構築のための多面性回帰を用いた, 多様体アライメントと次元縮小のための機械学習技術を統合する。 2D RAE~2822翼と3D NASA CRM翼の2つのテストケースを用いて,各種忠実度レベル,トレーニングデータ比,サンプルサイズの組み合わせを評価した。 シングルフィデリティpcas法と比較して,マルチフィデリティソリューションはコスト精度の向上と計算要求の低減による予測精度の向上を実現している。 さらに,提案手法は,空間設計の複雑な課題に対処する上で,シナリオの入力次元が大きい場合において,MA-ROM法を50%向上させる。

In the early stages of aerospace design, reduced order models (ROMs) are crucial for minimizing computational costs associated with using physics-rich field information in many-query scenarios requiring multiple evaluations. The intricacy of aerospace design demands the use of high-dimensional design spaces to capture detailed features and design variability accurately. However, these spaces introduce significant challenges, including the curse of dimensionality, which stems from both high-dimensional inputs and outputs necessitating substantial training data and computational effort. To address these complexities, this study introduces a novel multi-fidelity, parametric, and non-intrusive ROM framework designed for high-dimensional contexts. It integrates machine learning techniques for manifold alignment and dimension reduction employing Proper Orthogonal Decomposition (POD) and Model-based Active Subspace with multi-fidelity regression for ROM construction. Our approach is validated through two test cases: the 2D RAE~2822 airfoil and the 3D NASA CRM wing, assessing combinations of various fidelity levels, training data ratios, and sample sizes. Compared to the single-fidelity PCAS method, our multi-fidelity solution offers improved cost-accuracy benefits and achieves better predictive accuracy with reduced computational demands. Moreover, our methodology outperforms the manifold-aligned ROM (MA-ROM) method by 50% in handling scenarios with large input dimensions, underscoring its efficacy in addressing the complex challenges of aerospace design.
翻訳日:2024-02-28 18:36:47 公開日:2024-02-26
# キセノンにおける新しい光磁気量計による量子重力試験の可能性解析

Feasibility analysis of a proposed test of quantum gravity via novel optical magnetometry in xenon ( http://arxiv.org/abs/2402.17057v1 )

ライセンス: Link先を確認
James Maldaner, Mitja Fridman, Saurya Das, Gil Porat(参考訳) 本稿では、高貴な気体同位体である$^{129}$Xeの光学磁気学に基づく新しいアプローチを用いて、提案した量子重力探索の感度限界の解析を行う。 この解析は、量子重力理論のほとんどの定式化と一致する一般的な不確実性原理モデルに依存しており、標準の不確実性関係は運動量に線形な前階補正項によって修正される。 この補正は、スピン偏極化された$^{129}$xe原子の磁場に浸漬した磁気モーメントを修正し、2光子レーザー分光法によって検出される幼虫の周波数の速度依存性の変化をもたらす。 ドップラー効果と連動して原子速度の熱分布を用いて、異なる原子速度にわたって質問レーザーを走査し、そのラーモア周波数の対応する変動を探索する。 先行量子重力補正の既存の限界は、既存の技術で10−7$に改善できることを示し、そこでは10−2$の別の要因が、ほぼ将来的な技術的能力で可能である。

We present an analysis of the sensitivity limits of a proposed experimental search for quantum gravity, using a novel approach based on optical magnetometry in the noble gas isotope $^{129}$Xe. The analysis relies on a general uncertainty principle model that is consistent with most formulations of quantum gravity theory, where the canonical uncertainty relations are modified by a leading-order correction term that is linear in momentum. In turn, this correction modifies the magnetic moment of the spin-polarized $^{129}$Xe atoms that are immersed in a magnetic field in the proposed experiment, which results in a velocity-dependent variation of their Larmour frequency, that is detected via two-photon laser spectroscopy. The thermal distribution of atomic velocities, in conjunction with the Doppler effect, is used to scan the interrogating laser over different atomic velocities, and search for a corresponding variation in their Larmor frequencies. We show that the existing bounds on the leading-order quantum gravity correction can be improved by $10^{7}$ with existing technology, where another factor of $10^{2}$ is possible with near-future technical capabilities.
翻訳日:2024-02-28 18:36:21 公開日:2024-02-26
# サイバー攻撃検出のための最先端機械学習手法の性能に関する調査

An Investigation into the Performances of the State-of-the-art Machine Learning Approaches for Various Cyber-attack Detection: A Survey ( http://arxiv.org/abs/2402.17045v1 )

ライセンス: Link先を確認
Tosin Ige, Christopher Kiekintveld, Aritran Piplai(参考訳) サイバー犯罪を犯すシステムの脆弱性を利用して攻撃者からコンピュータや情報システムを保護するために,情報システムのセキュリティを改善するために,脆弱性をリアルタイムに検出する方法が提案されている。 提案手法のすべてにおいて、機械学習は、ソフトウェア脆弱性の早期検出からシステム内の進行中の妥協のリアルタイム検出まで、システムのセキュリティにおいて最も効果的な方法であった。 異なるタイプのサイバー攻撃が存在するため、既存の最先端の機械学習モデルはそれぞれ、トレーニングのための異なるアルゴリズムに依存しており、特定のタイプのサイバー攻撃の検出に適している。 本研究では,過去10年間のさまざまなサイバー攻撃検出のための最先端機械学習モデルについて,最新の研究成果を中心に分析し,サイバー攻撃のカテゴリごとに作業を行うために必要な知識ギャップを特定することを目的とした。

To secure computers and information systems from attackers taking advantage of vulnerabilities in the system to commit cybercrime, several methods have been proposed for real-time detection of vulnerabilities to improve security around information systems. Of all the proposed methods, machine learning had been the most effective method in securing a system with capabilities ranging from early detection of software vulnerabilities to real-time detection of ongoing compromise in a system. As there are different types of cyberattacks, each of the existing state-of-the-art machine learning models depends on different algorithms for training which also impact their suitability for detection of a particular type of cyberattack. In this research, we analyzed each of the current state-of-theart machine learning models for different types of cyberattack detection from the past 10 years with a major emphasis on the most recent works for comparative study to identify the knowledge gap where work is still needed to be done with regard to detection of each category of cyberattack
翻訳日:2024-02-28 18:36:01 公開日:2024-02-26
# 試行錯誤からターゲット人口への推論の一般化に向けて

Towards Generalizing Inferences from Trials to Target Populations ( http://arxiv.org/abs/2402.17042v1 )

ライセンス: Link先を確認
Melody Y Huang, Sarah E Robertson, Harsh Parikh(参考訳) ランダム化制御試験(Randomized Controlled Trials, RCTs)は、最小限の仮定で内部的に有効な見積もりを生成する上で重要なものであり、因果推論手法の進歩に特化した研究者の基盤となっている。 しかし、外部に妥当な推定を達成するために実験的なコホートを超えてこれらの発見を拡張することは、より広い科学的調査に不可欠である。 本稿は,2023年秋にブラウン大学数学計算実験研究所(ICERM)で開かれた多分野ワークショップの本質を包括して,これらの外的妥当性問題に対処する最前線について述べる。 このワークショップは、社会科学、医学、公衆衛生、統計学、コンピュータ科学、教育など様々な分野の専門家を集め、実験結果の外挿において各分野が直面する固有の障害に対処した。 本研究は,継続的な取り組みの統合,フィールド間の方法論的シナジーの強調,ワークショップの談話に基づく一般化性と輸送性に関する徹底的なレビュー,今後の研究への道筋を示唆しながら永続的なハードルを特定するという3つの重要な貢献を提示する。 そこで本研究では,因果効果の一般化可能性と伝達可能性の集団的理解を深め,学際的コラボレーションを育成し,因果推論法を改良・適用する研究者に有用な知見を提供する。

Randomized Controlled Trials (RCTs) are pivotal in generating internally valid estimates with minimal assumptions, serving as a cornerstone for researchers dedicated to advancing causal inference methods. However, extending these findings beyond the experimental cohort to achieve externally valid estimates is crucial for broader scientific inquiry. This paper delves into the forefront of addressing these external validity challenges, encapsulating the essence of a multidisciplinary workshop held at the Institute for Computational and Experimental Research in Mathematics (ICERM), Brown University, in Fall 2023. The workshop congregated experts from diverse fields including social science, medicine, public health, statistics, computer science, and education, to tackle the unique obstacles each discipline faces in extrapolating experimental findings. Our study presents three key contributions: we integrate ongoing efforts, highlighting methodological synergies across fields; provide an exhaustive review of generalizability and transportability based on the workshop's discourse; and identify persistent hurdles while suggesting avenues for future research. By doing so, this paper aims to enhance the collective understanding of the generalizability and transportability of causal effects, fostering cross-disciplinary collaboration and offering valuable insights for researchers working on refining and applying causal inference methods.
翻訳日:2024-02-28 18:35:47 公開日:2024-02-26
# 後処理手法による欧州電力システム評価への気候変動の影響の組み入れ

Incorporating climate change effects into the European power system adequacy assessment using a post-processing method ( http://arxiv.org/abs/2402.17039v1 )

ライセンス: Link先を確認
In\`es Harang, Fabian Heymann, Laurens P. Stoop(参考訳) 電力システムの需給バランスは、基本的に気候条件と結びついている。 そこで本研究では,気候変動が欧州の電力システム,特に長期信頼性に与える影響をモデル化することを目的としている。 電力供給が需要を覆っているシステムであるリソースの適切な電力システムは、発電能力、需要パターン、ネットワーク構造と容量に敏感である。 気候変動はこれらの構成要素に影響を与えやすい。 本研究では,電力系統の温度変化が電力需要に与える影響,水流入が水力発電に与える影響の2つの要因に着目した。 文献から得られた結果に基づいて, 後処理手法を用いて, 欧州地域をカバーする大規模電力市場モデルの入力を改良した。 その結果、気候変動によりヨーロッパにおける総LOLE (Loss of Load expectation) 時間は50%以上減少し、冬季の気温上昇により需要が大幅に減少する可能性が示唆された。 その結果,需要に対する気候変動の影響はlole値の低下傾向にあり,水文環境における気候変動の影響はlole値の上昇傾向にあった。 この研究は限られた量のオープンソースデータに基づいており、様々な仮定を柔軟に組み込むことができる。 結果は、気候変動が電力系統の適切性に与える影響を確実にモデル化する現在の困難さも示している。 概して,提案手法は,電力ネットワーク研究における気候変動の影響の関連性を示す。

The demand-supply balance of electricity systems is fundamentally linked to climate conditions. In light of this, the present study aims to model the effect of climate change on the European electricity system, specifically on its long-term reliability. A resource adequate power system -- a system where electricity supply covers demand -- is sensitive to generation capacity, demand patterns, and the network structure and capacity. Climate change is foreseen to affect each of these components. In this analysis, we focused on two drivers of power system adequacy: the impact of temperature variations on electricity demand, and of water inflows changes on hydro generation. Using a post-processing approach, based on results found in the literature, the inputs of a large-scale electricity market model covering the European region were modified. The results show that climate change may decrease total LOLE (Loss of Load Expectation) hours in Europe by more than 50%, as demand will largely decrease because of a higher temperatures during winter. We found that the climate change impact on demand tends to decrease LOLE values, while the climate change effects on hydrological conditions tend to increase LOLE values. The study is built on a limited amount of open-source data and can flexibly incorporate various sets of assumptions. Outcomes also show the current difficulties to reliably model the effects of climate change on power system adequacy. Overall, our presented method displays the relevance of climate change effects in electricity network studies.
翻訳日:2024-02-28 18:35:23 公開日:2024-02-26
# 非線形力学系の状態とパラメータ推定のための反復INLA

Iterated INLA for State and Parameter Estimation in Nonlinear Dynamical Systems ( http://arxiv.org/abs/2402.17036v1 )

ライセンス: Link先を確認
Rafael Anderka, Marc Peter Deisenroth and So Takao(参考訳) データ同化法(DA)法は、微分方程式から生じる先行値を用いてデータを頑健に補間・外挿する。 高次元非線形PDE事前処理を行うアンサンブル法のような一般的な手法は、主に状態推定に焦点をあてるが、パラメータを正確に学習することは困難である。 一方、機械学習に基づくアプローチは、状態とパラメータを自然に学習することができるが、適用性は制限されるか、解釈が難しい不確実性を生成することができる。 空間統計学におけるIntegrated Nested Laplace Approximation (INLA)法に着想を得て,動的モデルの反復線形化に基づくDAへの代替手法を提案する。 これにより、各イテレーションでガウスマルコフランダムフィールドを生成し、INLAを使って状態とパラメータを推測することができる。 本手法は解釈可能性を維持しつつ任意の非線形システムに適用でき,daタスクで既存の手法よりも優れることを示す。 非線形PDE事前処理に対するよりニュアンスなアプローチを提供することにより、予測精度の向上とロバスト性、特にデータ空間が普及している場所での予測を行う。

Data assimilation (DA) methods use priors arising from differential equations to robustly interpolate and extrapolate data. Popular techniques such as ensemble methods that handle high-dimensional, nonlinear PDE priors focus mostly on state estimation, however can have difficulty learning the parameters accurately. On the other hand, machine learning based approaches can naturally learn the state and parameters, but their applicability can be limited, or produce uncertainties that are hard to interpret. Inspired by the Integrated Nested Laplace Approximation (INLA) method in spatial statistics, we propose an alternative approach to DA based on iteratively linearising the dynamical model. This produces a Gaussian Markov random field at each iteration, enabling one to use INLA to infer the state and parameters. Our approach can be used for arbitrary nonlinear systems, while retaining interpretability, and is furthermore demonstrated to outperform existing methods on the DA task. By providing a more nuanced approach to handling nonlinear PDE priors, our methodology offers improved accuracy and robustness in predictions, especially where data sparsity is prevalent.
翻訳日:2024-02-28 18:34:59 公開日:2024-02-26
# REFACTOR: 証明から理論を抽出する学習

REFACTOR: Learning to Extract Theorems from Proofs ( http://arxiv.org/abs/2402.17032v1 )

ライセンス: Link先を確認
Jin Peng Zhou, Yuhuai Wu, Qiyang Li, Roger Grosse(参考訳) 人間の数学者は、しばしば複雑な数学的結果をもたらすモジュラーで再利用可能な定理を認識するのが得意である。 本稿では,形式的数理定理証明において,ニューラルネットワークを訓練し,その能力を模倣する新しい手法である theorem-from-proof extractor (refactor) を提案する。 未確認の証明のセットで、REFACTORは人間が証明を書くのに使用する定理の19.6%を抽出することができる。 このモデルを既存のMetamathライブラリに適用する際、REFACTORは16の新しい定理を抽出した。 新たに抽出された定理により,MetaMathデータベースの既存の証明がリファクタリング可能であることを示す。 新しい定理は、リファクタリング後に733.5回の平均使用量で非常に頻繁に使用され、証明の長さの短縮に役立つ。 最後に,新理論リファクターデータセットでトレーニングされた証明者は,新たに抽出された様々な定理を頻繁に活用することにより,より多くのテスト定理を証明し,最先端のベースラインを上回ることを実証する。 コードはhttps://github.com/jinpz/refactor.orgにある。

Human mathematicians are often good at recognizing modular and reusable theorems that make complex mathematical results within reach. In this paper, we propose a novel method called theoREm-from-prooF extrACTOR (REFACTOR) for training neural networks to mimic this ability in formal mathematical theorem proving. We show on a set of unseen proofs, REFACTOR is able to extract 19.6% of the theorems that humans would use to write the proofs. When applying the model to the existing Metamath library, REFACTOR extracted 16 new theorems. With newly extracted theorems, we show that the existing proofs in the MetaMath database can be refactored. The new theorems are used very frequently after refactoring, with an average usage of 733.5 times, and help shorten the proof lengths. Lastly, we demonstrate that the prover trained on the new-theorem refactored dataset proves more test theorems and outperforms state-of-the-art baselines by frequently leveraging a diverse set of newly extracted theorems. Code can be found at https://github.com/jinpz/refactor.
翻訳日:2024-02-28 18:34:38 公開日:2024-02-26
# 畳み込みニューラルネットワークアクティベーション特徴を用いたオフラインライタ識別

Offline Writer Identification Using Convolutional Neural Network Activation Features ( http://arxiv.org/abs/2402.17029v1 )

ライセンス: Link先を確認
Vincent Christlein, David Bernecker, Andreas Maier, Elli Angelopoulou(参考訳) 畳み込みニューラルネットワーク(cnns)は最近、大規模画像分類の最先端ツールとなっている。 本研究では,cnnのアクティベーション機能をスクリプト識別のためのローカルディスクリプタとして使用することを提案する。 グローバルディスクリプタはGMMスーパーベクターエンコーディングによって形成され、KL-カーネルの正規化によりさらに改良される。 ICDAR 2013ベンチマークデータベースとCVLデータセットの2つの公開データセット上で本手法の評価を行った。 CVLにおける技術状況と相容れない性能を示す一方で,提案手法は,難解なバイリンガルICDARデータセット上でのmAPにおいて,約0.21の絶対的な改善をもたらす。

Convolutional neural networks (CNNs) have recently become the state-of-the-art tool for large-scale image classification. In this work we propose the use of activation features from CNNs as local descriptors for writer identification. A global descriptor is then formed by means of GMM supervector encoding, which is further improved by normalization with the KL-Kernel. We evaluate our method on two publicly available datasets: the ICDAR 2013 benchmark database and the CVL dataset. While we perform comparably to the state of the art on CVL, our proposed method yields about 0.21 absolute improvement in terms of mAP on the challenging bilingual ICDAR dataset.
翻訳日:2024-02-28 18:34:19 公開日:2024-02-26
# 古典スカラー場による動的波動関数崩壊を伴う量子重力

Quantum gravity with dynamical wave-function collapse via a classical scalar field ( http://arxiv.org/abs/2402.17024v1 )

ライセンス: Link先を確認
Zachary Weller-Davies(参考訳) ハイブリッド古典量子論では、古典系の力学は量子系の古典性を誘導するので、そのようなモデルは確率的測定結果を記述するために必ずしも測定を仮定する必要はない。 近年、同変古典量子力学は、古典変数と量子変数の組合せ作用でエンコードされたダイナミクスを用いて経路積分法を用いて構築できることが示されている。 この研究は古典量子モデルを導入し、量子重力は古典スカラー場と相互作用する。 スカラー場は、量子重力理論のデコヒーレンスにより、基本的に古典的あるいは事実上古典的と見なすことができる。 力学は、そのリッチスカラーに従って量子時空を崩壊させ、量子バック反応によるスカラー場の拡散に対応する。 古典的極限において、スカラー場内の拡散はニュートンポテンシャルの確率的ゆらぎによって現れる。 古典スカラー場を摂動量子重力に結合するため、この理論は再正規化可能ではなく、代わりに有効場理論と見なすことができる。 しかし、必ずしも測度仮定を必要としない実効的場の理論である。 より一般に、我々の研究は崩壊ダイナミクスを高エネルギー物理学と共変性と統合することができることを示した。

In hybrid classical-quantum theories, the dynamics of the classical system induce the classicality of the quantum system, meaning that such models do not necessarily require a measurement postulate to describe probabilistic measurement outcomes. It has recently been shown that covariant classical-quantum dynamics can be constructed using path integral methods, with the dynamics encoded in a combined action for the classical and quantum variables. This work introduces a classical-quantum model whereby quantum gravity interacts with a classical scalar field. The scalar field can be viewed as fundamentally classical or effectively classical due to the decoherence of a quantum gravity theory. The dynamics act to collapse quantum spacetimes according to their Ricci scalar, with corresponding diffusion in the scalar field due to the quantum back-reaction. In the classical limit, the diffusion in the scalar field manifests itself via stochastic fluctuations in the Newtonian potential. Because we couple a classical scalar field to perturbative quantum gravity, we find the theory is not renormalizable but is instead to be viewed as an effective field theory. However, it is an effective field theory that does not necessarily require a measurement postulate. More generally, our work shows it is possible to integrate collapse dynamics with high-energy physics and covariance.
翻訳日:2024-02-28 18:34:00 公開日:2024-02-26
# ストーリーテリングによる複雑な法的概念学習のための大規模言語モデルの導入

Leveraging Large Language Models for Learning Complex Legal Concepts through Storytelling ( http://arxiv.org/abs/2402.17019v1 )

ライセンス: Link先を確認
Hang Jiang, Xiajie Zhang, Robert Mahari, Daniel Kessler, Eric Ma, Tal August, Irene Li, Alex 'Sandy' Pentland, Yoon Kim, Jad Kabbara, Deb Roy(参考訳) 非専門家に法的知識を提供することは、一般の法的リテラシーを高め、民主主義への市民の参加を促進するために重要である。 しかし、法的背景のない人々にとって、法的文書は理解が難しいことが多い。 本稿では,非専門家が複雑で抽象的な概念を伝えるための効果的な教育的ツールであるストーリーテリングを通じて,複雑な法概念を学ぶことを支援するため,法学教育における大規模言語モデル(llm)の新たな応用について述べる。 295の複雑な法的教義から成り、それぞれにストーリーとllmによって生成された複数の質問が付随する新しいデータセットも紹介する。 このデータセットを構築するために、我々は様々なLSMを用いてこれらの概念を説明する法的物語を生成する。 さらに,複数の質問を反復的に設計するためにexpert-in-the-loop法を用いる。 次に,データセットから抽出した10試料について,法的な初心者によるrct実験により,llmを用いたストーリーテリングの有効性を評価する。 LLMが生成した物語は、定義のみと比較して、法的概念の理解と、非ネイティブ話者間の法律への関心を高める。 さらに、物語は参加者が法的概念を生活に関連付けるのに役立つ。 最後に,非母国語話者のフォローアップ評価において,物語による学習の方が高い定着率を示すことがわかった。 我々の研究は、法学以外の分野での教育と学習の促進にLLMを使うことに強い意味を持っている。

Making legal knowledge accessible to non-experts is crucial for enhancing general legal literacy and encouraging civic participation in democracy. However, legal documents are often challenging to understand for people without legal backgrounds. In this paper, we present a novel application of large language models (LLMs) in legal education to help non-experts learn intricate legal concepts through storytelling, an effective pedagogical tool in conveying complex and abstract concepts. We also introduce a new dataset LegalStories, which consists of 295 complex legal doctrines, each accompanied by a story and a set of multiple-choice questions generated by LLMs. To construct the dataset, we experiment with various LLMs to generate legal stories explaining these concepts. Furthermore, we use an expert-in-the-loop method to iteratively design multiple-choice questions. Then, we evaluate the effectiveness of storytelling with LLMs through an RCT experiment with legal novices on 10 samples from the dataset. We find that LLM-generated stories enhance comprehension of legal concepts and interest in law among non-native speakers compared to only definitions. Moreover, stories consistently help participants relate legal concepts to their lives. Finally, we find that learning with stories shows a higher retention rate for non-native speakers in the follow-up assessment. Our work has strong implications for using LLMs in promoting teaching and learning in the legal field and beyond.
翻訳日:2024-02-28 18:33:26 公開日:2024-02-26
# スキップ接続を用いた完全畳み込み・微分可能なフロントエンドによる勾配攻撃に対する顕著な弾力性

A Curious Case of Remarkable Resilience to Gradient Attacks via Fully Convolutional and Differentiable Front End with a Skip Connection ( http://arxiv.org/abs/2402.17018v1 )

ライセンス: Link先を確認
Leonid Boytsov, Ameya Joshi, Filipe Condessa(参考訳) 我々は,凍結型分類器をスキップ接続付き微分可能・完全畳み込みモデルで予測したフロントエンド強化ニューラルモデルを検証した。 約1年間,少量の学習率で学習することで,自動攻撃パッケージからapgdやfab-t攻撃などの勾配攻撃に耐性を持ちながら,バックボーン分類器の精度を保ったモデルを得た。 勾配マスキング現象は新しいものではないが、JPEG圧縮のような勾配散乱成分を持たない完全微分可能なモデルや、勾配の減少を期待するコンポーネントでは、マスキングの程度は顕著であった。 ブラックボックス攻撃は勾配マスキングに対して部分的に有効であるが、モデルとランダムアンサンブルを組み合わせることで容易に打ち破られる。 CIFAR10, CIFAR100, ImageNetでは, 適応攻撃時の精度がほぼゼロであるにもかかわらず, ほぼSOTAオートアタック精度が得られると推定する。 バックボーン分類器の逆訓練は、勾配攻撃に対するフロントエンド強化モデルの耐性をさらに高めることができる。 CIFAR10では、各ランダム化アンサンブルはAutoAttackで90.8$\pm 2.5$% (99% CI)の精度を達成し、適応攻撃では18.2$\pm 3.6$%の精度でしかなかった。 我々は、敵の堅牢性においてSOTAを確立しない。 その代わり、我々は方法論的な貢献を行い、モデルアーキテクチャの完全な知識で設計された適応攻撃はモデルの堅牢性を示す上で不可欠であり、いわゆるホワイトボックス勾配攻撃でさえ適用性に制限があるという仮説をさらに支持する。 勾配攻撃はSQUARE攻撃や0次PGDのようなブラックボックス攻撃と補完できるが、ブラックボックス攻撃はランダムアンサンブル(例えばアンサンブルモデルがグラデーションをマスクする場合)に対して弱い。

We tested front-end enhanced neural models where a frozen classifier was prepended by a differentiable and fully convolutional model with a skip connection. By training them using a small learning rate for about one epoch, we obtained models that retained the accuracy of the backbone classifier while being unusually resistant to gradient attacks including APGD and FAB-T attacks from the AutoAttack package, which we attributed to gradient masking. The gradient masking phenomenon is not new, but the degree of masking was quite remarkable for fully differentiable models that did not have gradient-shattering components such as JPEG compression or components that are expected to cause diminishing gradients. Though black box attacks can be partially effective against gradient masking, they are easily defeated by combining models into randomized ensembles. We estimate that such ensembles achieve near-SOTA AutoAttack accuracy on CIFAR10, CIFAR100, and ImageNet despite having virtually zero accuracy under adaptive attacks. Adversarial training of the backbone classifier can further increase resistance of the front-end enhanced model to gradient attacks. On CIFAR10, the respective randomized ensemble achieved 90.8$\pm 2.5$% (99% CI) accuracy under AutoAttack while having only 18.2$\pm 3.6$% accuracy under the adaptive attack. We do not establish SOTA in adversarial robustness. Instead, we make methodological contributions and further supports the thesis that adaptive attacks designed with the complete knowledge of model architecture are crucial in demonstrating model robustness and that even the so-called white-box gradient attacks can have limited applicability. Although gradient attacks can be complemented with black-box attack such as the SQUARE attack or the zero-order PGD, black-box attacks can be weak against randomized ensembles, e.g., when ensemble models mask gradients.
翻訳日:2024-02-28 18:32:48 公開日:2024-02-26
# 8192-Tokenバイリンガルテキスト埋め込みのためのマルチタスクコントラスト学習

Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings ( http://arxiv.org/abs/2402.17016v1 )

ライセンス: Link先を確認
Isabelle Mohr, Markus Krimmel, Saba Sturua, Mohammad Kalim Akram, Andreas Koukounas, Michael G\"unther, Georgios Mastrapas, Vinit Ravishankar, Joan Fontanals Mart\'inez, Feng Wang, Qi Liu, Ziniu Yu, Jie Fu, Saahil Ognawala, Susana Guzman, Bo Wang, Maximilian Werk, Nan Wang, Han Xiao(参考訳) 本稿では,英語や他の対象言語をサポートするように設計された,最先端のバイリンガルテキスト埋め込みモデルを紹介する。 これらのモデルは、最大8192個のトークンで長いテキスト入力を処理でき、テキスト検索、クラスタリング、セマンティックテキスト類似性(STS)計算などの自然言語処理タスクに非常に多用途である。 バイリンガルモデルに焦点をあて、ユニークなマルチタスク学習目標を導入することにより、STSタスクにおけるモデル性能を大幅に改善し、ターゲット言語理解と言語間評価の両タスクにおいて、既存のマルチリンガルモデルの性能を上回った。 さらに、我々のバイリンガルモデルはより効率的で、より少ないパラメータと少ないメモリを必要とする。 さらに、ドイツ語とスペイン語の埋め込みモデルのベンチマークを含むように、Massive Text Embedding Benchmark (MTEB)を拡張した。 この統合は、これらの言語のためのテキスト埋め込み技術のさらなる研究と進歩を促すことを目的としている。

We introduce a novel suite of state-of-the-art bilingual text embedding models that are designed to support English and another target language. These models are capable of processing lengthy text inputs with up to 8192 tokens, making them highly versatile for a range of natural language processing tasks such as text retrieval, clustering, and semantic textual similarity (STS) calculations. By focusing on bilingual models and introducing a unique multi-task learning objective, we have significantly improved the model performance on STS tasks, which outperforms the capabilities of existing multilingual models in both target language understanding and cross-lingual evaluation tasks. Moreover, our bilingual models are more efficient, requiring fewer parameters and less memory due to their smaller vocabulary needs. Furthermore, we have expanded the Massive Text Embedding Benchmark (MTEB) to include benchmarks for German and Spanish embedding models. This integration aims to stimulate further research and advancement in text embedding technologies for these languages.
翻訳日:2024-02-28 18:31:48 公開日:2024-02-26
# Z-AGI Labs at ClimateActivism 2024: Stance and Hate Event Detection on Social Media

Z-AGI Labs at ClimateActivism 2024: Stance and Hate Event Detection on Social Media ( http://arxiv.org/abs/2402.17014v1 )

ライセンス: Link先を確認
Nikhil Narayan, Mrutyunjay Biswal(参考訳) デジタルの世界では、リッチデータは社会的、政治的、経済的景観の複雑さに関する重要な洞察源となっている。 イベントに関する情報の質の向上とヘイトスピーチ対策の課題に対処するため,ケース2024における「気候活動状況共有タスク」と「ヘイトイベント検出」の設立に繋がった。 ソーシャルメディア上でヘイトスピーチと競合する気候活動家に焦点をあてて、我々の研究はツイートからのヘイトスピーチの識別に寄与する。 Tf-Idfに基づくLSTM,Xgboost,LGBMの3つのサブタスクを解析し,Hate Speech Detection (Sub-task A),Tate Speech Identification (Sub-task B),Stance Detection (Sub-task C)の3つのサブタスクを解析した。 結果は、Subtask-B (F1: 0.5604) とSubtask-C (F1: 0.7081) で、LGBMはSubtask-A (F1: 0.8684) の最高性能モデルとして登場した。 この研究は、気候ヘイトスピーチと姿勢検出のための古典的機械学習モデルの適合性に関する貴重な洞察を与え、堅牢なメカニズムのための情報モデル選択を支援する。

In the digital realm, rich data serves as a crucial source of insights into the complexities of social, political, and economic landscapes. Addressing the growing need for high-quality information on events and the imperative to combat hate speech, this research led to the establishment of the Shared Task on Climate Activism Stance and Hate Event Detection at CASE 2024. Focused on climate activists contending with hate speech on social media, our study contributes to hate speech identification from tweets. Analyzing three sub-tasks - Hate Speech Detection (Sub-task A), Targets of Hate Speech Identification (Sub-task B), and Stance Detection (Sub-task C) - Team Z-AGI Labs evaluated various models, including LSTM, Xgboost, and LGBM based on Tf-Idf. Results unveiled intriguing variations, with Catboost excelling in Subtask-B (F1: 0.5604) and Subtask-C (F1: 0.7081), while LGBM emerged as the top-performing model for Subtask-A (F1: 0.8684). This research provides valuable insights into the suitability of classical machine learning models for climate hate speech and stance detection, aiding informed model selection for robust mechanisms.
翻訳日:2024-02-28 18:31:21 公開日:2024-02-26
# スイスの判断予測における説明可能性と公正性:多言語データセットのベンチマーク

Towards Explainability and Fairness in Swiss Judgement Prediction: Benchmarking on a Multilingual Dataset ( http://arxiv.org/abs/2402.17013v1 )

ライセンス: Link先を確認
Santosh T.Y.S.S, Nina Baumgartner, Matthias St\"urmer, Matthias Grabmair, Joel Niklaus(参考訳) 法的判断予測(ljp)システムにおける説明可能性の評価は、信頼に値する透明なシステムを構築する上で、特に法的関連性を欠いたり、機密性のある属性を含む要因にこれらのシステムの依存を考慮する上で重要である。 本研究はスイス判断予測(SJP)を用いて,LJPモデルにおける説明可能性と公正性の領域について考察する。 われわれは,ドイツ語,フランス語,イタリア語の108件について,法律専門家からの「支持」と「提案」の判断を総合的に収集する。 オークルージョンに基づく説明可能性アプローチを用いて,最先端のモノリンガルモデルと多言語BERTベースのLJPモデルと,データ拡張やクロスリンガル転送といった手法を用いて開発されたモデルを用いて,予測性能の向上を示す。 特に, 予測性能の向上は説明可能性の向上とは必ずしも一致せず, 説明可能性の観点からモデル評価の重要性を強調する。 さらに,モデル予測に対する下級裁判所情報の影響を定量化し,現行モデルのバイアスを明らかにするための新たな評価枠組みであるLCI(Lower Court Insertion)を導入する。

The assessment of explainability in Legal Judgement Prediction (LJP) systems is of paramount importance in building trustworthy and transparent systems, particularly considering the reliance of these systems on factors that may lack legal relevance or involve sensitive attributes. This study delves into the realm of explainability and fairness in LJP models, utilizing Swiss Judgement Prediction (SJP), the only available multilingual LJP dataset. We curate a comprehensive collection of rationales that `support' and `oppose' judgement from legal experts for 108 cases in German, French, and Italian. By employing an occlusion-based explainability approach, we evaluate the explainability performance of state-of-the-art monolingual and multilingual BERT-based LJP models, as well as models developed with techniques such as data augmentation and cross-lingual transfer, which demonstrated prediction performance improvement. Notably, our findings reveal that improved prediction performance does not necessarily correspond to enhanced explainability performance, underscoring the significance of evaluating models from an explainability perspective. Additionally, we introduce a novel evaluation framework, Lower Court Insertion (LCI), which allows us to quantify the influence of lower court information on model predictions, exposing current models' biases.
翻訳日:2024-02-28 18:30:54 公開日:2024-02-26
# PandoraのWhite-Box:オープンLLMのトレーニングデータ漏洩の増加

Pandora's White-Box: Increased Training Data Leakage in Open LLMs ( http://arxiv.org/abs/2402.17012v1 )

ライセンス: Link先を確認
Jeffrey G. Wang, Jason Wang, Marvin Li, Seth Neel(参考訳) 本稿では,オープンソース大規模言語モデル(llms)に対するプライバシ攻撃に関する体系的な研究を行い,敵がモデル重み,勾配,損失のいずれかにアクセスし,基礎となるトレーニングデータについて何かを学ぶために利用しようとする。 本研究のメインラインは,高いTPRと低いFPRを同時に達成できる事前学習LLMに対するMIA攻撃であり,自然条件下での微調整LLMから50ドル以上の微調整データセットを抽出できることを示すパイプラインである。 基礎となるモデルへのアクセスの度合い、言語モデルのカスタマイズ、攻撃者が利用できるリソースについて検討する。 プレトレーニング設定では,勾配ノルムに基づく攻撃,教師付きニューラルネットワーク分類器,単一ステップ損失比攻撃という,新たな3つのホワイトボックスmiasを提案する。 既存のブラックボックスベースラインを全て上回り、監視された攻撃は、LSMや他のモデルに対するMIA攻撃の成功の間のギャップを埋めます。 微調整では、細調整されたモデルとベースモデルの損失を考慮すれば、細調整された損失比攻撃FLoRAは、ほぼ完全なMIA性能を実現することができる。 次に、これらのMIAを利用して、微調整言語モデルから微調整データを抽出する。 各トレーニングサンプルのプレフィックスの小さなスニペットでトリガーされた微調整モデルから生成するパイプラインが、FLoRaを使用して最も可能性の高いトレーニングサンプルを選択し、わずか3ドル(約3,300円)の微調整データセットの過半数を継承することがわかった。 これらの結果から, LLMのトレーニング環境のほとんどすべてにおいて, 極めて効果的なMIAが利用可能であること, そして, LLMが高感度なデータに基づいて微調整され, 展開する前には, 非常に注意が必要であること, が明らかになった。

In this paper we undertake a systematic study of privacy attacks against open source Large Language Models (LLMs), where an adversary has access to either the model weights, gradients, or losses, and tries to exploit them to learn something about the underlying training data. Our headline results are the first membership inference attacks (MIAs) against pre-trained LLMs that are able to simultaneously achieve high TPRs and low FPRs, and a pipeline showing that over $50\%$ (!) of the fine-tuning dataset can be extracted from a fine-tuned LLM in natural settings. We consider varying degrees of access to the underlying model, customization of the language model, and resources available to the attacker. In the pre-trained setting, we propose three new white-box MIAs: an attack based on the gradient norm, a supervised neural network classifier, and a single step loss ratio attack. All outperform existing black-box baselines, and our supervised attack closes the gap between MIA attack success against LLMs and other types of models. In fine-tuning, we find that given access to the loss of the fine-tuned and base models, a fine-tuned loss ratio attack FLoRA is able to achieve near perfect MIA peformance. We then leverage these MIAs to extract fine-tuning data from fine-tuned language models. We find that the pipeline of generating from fine-tuned models prompted with a small snippet of the prefix of each training example, followed by using FLoRa to select the most likely training sample, succeeds the majority of the fine-tuning dataset after only $3$ epochs of fine-tuning. Taken together, these findings show that highly effective MIAs are available in almost all LLM training settings, and highlight that great care must be taken before LLMs are fine-tuned on highly sensitive data and then deployed.
翻訳日:2024-02-28 18:30:32 公開日:2024-02-26
# 2パラメータモデルと勾配流による高次元目標学習

Learning high-dimensional targets by two-parameter models and gradient flow ( http://arxiv.org/abs/2402.17089v1 )

ライセンス: Link先を確認
Dmitry Yarotsky(参考訳) グラデーションフロー (gf) を用いて,$w<d$ の場合,$w$パラメータモデルを用いて$d$次元の目標を学習する理論的可能性を検討する。 本研究の主な成果は、目標が特定の$d$次元確率分布によって記述されている場合、任意に高い成功確率で目標を学習できる2つのパラメータを持つモデルが存在することである。 一方、w<d$の場合、gf-non-learnableターゲットの大規模なサブセットが必ず存在することを示す。 特に、学習可能な対象の集合は $\mathbb R^d$ では密でなく、$W$次元球面に同型な $\mathbb R^d$ の任意の部分集合は非学習可能な対象を含む。 最後に, ほぼ保証された2パラメータ学習における主定理のモデルが階層的手続きを用いて構築され, その結果, 1つの基本関数では表現できないことを観察する。 この制限は,多くの基本関数に対してそのような学習可能性を排除できるという意味で不可欠であることを示す。

We explore the theoretical possibility of learning $d$-dimensional targets with $W$-parameter models by gradient flow (GF) when $W<d$. Our main result shows that if the targets are described by a particular $d$-dimensional probability distribution, then there exist models with as few as two parameters that can learn the targets with arbitrarily high success probability. On the other hand, we show that for $W<d$ there is necessarily a large subset of GF-non-learnable targets. In particular, the set of learnable targets is not dense in $\mathbb R^d$, and any subset of $\mathbb R^d$ homeomorphic to the $W$-dimensional sphere contains non-learnable targets. Finally, we observe that the model in our main theorem on almost guaranteed two-parameter learning is constructed using a hierarchical procedure and as a result is not expressible by a single elementary function. We show that this limitation is essential in the sense that such learnability can be ruled out for a large class of elementary functions.
翻訳日:2024-02-28 18:23:36 公開日:2024-02-26
# 潜伏ルート変数を持つベイズネットワークに関する一考察

A Note on Bayesian Networks with Latent Root Variables ( http://arxiv.org/abs/2402.17087v1 )

ライセンス: Link先を確認
Marco Zaffalon and Alessandro Antonucci(参考訳) 潜在変数をルートノードとしてベイジアンネットワークから計算した帰納関数を特徴付ける。 残りの, 証明, 変数に対する限界分布もまたベイズ的ネットワークとして分解され, 経験的と呼ぶ。 マニフェスト変数の観測のデータセットにより、経験的ベイズネットのパラメータを定量化することができる。 私たちはそれを証明します (i)元のベイズネットワークからのそのようなデータセットの可能性は、経験的ネットワークからの可能性のグローバルな最大度に支配されている;そして、 (ii)そのような最大値は、ベイズネットワークのパラメータが経験的モデルのパラメータと一致している場合にのみ達成される。

We characterise the likelihood function computed from a Bayesian network with latent variables as root nodes. We show that the marginal distribution over the remaining, manifest, variables also factorises as a Bayesian network, which we call empirical. A dataset of observations of the manifest variables allows us to quantify the parameters of the empirical Bayesian net. We prove that (i) the likelihood of such a dataset from the original Bayesian network is dominated by the global maximum of the likelihood from the empirical one; and that (ii) such a maximum is attained if and only if the parameters of the Bayesian network are consistent with those of the empirical model.
翻訳日:2024-02-28 18:23:18 公開日:2024-02-26
# シンプルさのベネラを再構築する - 地域起業家による導入型生成AIワークショップの共同設計

Deconstructing the Veneer of Simplicity: Co-Designing Introductory Generative AI Workshops with Local Entrepreneurs ( http://arxiv.org/abs/2402.17082v1 )

ライセンス: Link先を確認
Yasmine Kotturi, Angel Anderson, Glenn Ford, Michael Skirpan, Jeffrey P. Bigham(参考訳) 生成可能なAIプラットフォームと機能は、作業の多くの側面に浸透しています。 特にリーン経済の起業家は、限られたリソースを与えられた生成AIにタスクをアウトソースする立場にある。 本稿では、テクノロジーと起業家シップの株式を専門とする地元起業家ハブと4年間のパートナーシップを組むことで、これらの技術の利用格差の増大に対処する。 私たちは共同で、地元の起業家から生成AIプラットフォームへの参加を目的とした、インタラクティブなワークショップシリーズを設計しました。 5ヶ月にわたる4つのコミュニティ主導の反復的なワークショップと合わせて、15の地元の起業家やコミュニティプロバイダとのインタビューを実施しました。 我々は、地域起業家のための生成AIツールに対する共同的かつ支援的な露出の重要性、実行可能な使用(および非使用のサポート)、起業力を強調して生成AI技術を模倣すること、そして、成功に必要な多くの運用スキルに対処するために単純さの拒否を同時に行うことの重要性を詳述する。

Generative AI platforms and features are permeating many aspects of work. Entrepreneurs from lean economies in particular are well positioned to outsource tasks to generative AI given limited resources. In this paper, we work to address a growing disparity in use of these technologies by building on a four-year partnership with a local entrepreneurial hub dedicated to equity in tech and entrepreneurship. Together, we co-designed an interactive workshops series aimed to onboard local entrepreneurs to generative AI platforms. Alongside four community-driven and iterative workshops with entrepreneurs across five months, we conducted interviews with 15 local entrepreneurs and community providers. We detail the importance of communal and supportive exposure to generative AI tools for local entrepreneurs, scaffolding actionable use (and supporting non-use), demystifying generative AI technologies by emphasizing entrepreneurial power, while simultaneously deconstructing the veneer of simplicity to address the many operational skills needed for successful application.
翻訳日:2024-02-28 18:23:09 公開日:2024-02-26
# 並列化時空間結合

Parallelized Spatiotemporal Binding ( http://arxiv.org/abs/2402.17077v1 )

ライセンス: Link先を確認
Gautam Singh, Yue Wang, Jiawei Yang, Boris Ivanovic, Sungjin Ahn, Marco Pavone, Tong Che(参考訳) 現代のベストプラクティスは、長距離インタラクションをサポートするスケーラブルなアーキテクチャを提唱していますが、オブジェクト指向モデルは、これらのアーキテクチャを完全に受け入れていません。 特に、RNNベースの実装に依存している既存の逐次入力を処理するオブジェクト中心モデルでは、安定性とキャパシティが低く、長いシーケンスでのトレーニングが遅い。 逐次入力のための最初の時間並列化可能なスロット学習アーキテクチャであるPSB(Parallelizable Spatiotemporal Binder)を導入する。 従来のRNNベースのアプローチとは異なり、PSBは全ての時間ステップを並列に、スロットとして知られるオブジェクト中心の表現を生成する。 これは、すべての時間ステップにまたがる初期スロットを、因果的注意を備えた一定数の層を通して精錬することで達成される。 アーキテクチャによって引き起こされる並列性に乗じて、提案モデルは効率を大幅に向上させる。 実験では、さまざまなデコーダオプションと組み合わせた自動エンコーディングフレームワーク内で、psbをエンコーダとして広範囲にテストする。 現状と比較して、我々のアーキテクチャはより長いシーケンスで安定したトレーニングを行い、トレーニング速度が60%向上する並列化を実現し、教師なしの2Dおよび3Dオブジェクト中心のシーン分解と理解に匹敵する性能を得る。

While modern best practices advocate for scalable architectures that support long-range interactions, object-centric models are yet to fully embrace these architectures. In particular, existing object-centric models for handling sequential inputs, due to their reliance on RNN-based implementation, show poor stability and capacity and are slow to train on long sequences. We introduce Parallelizable Spatiotemporal Binder or PSB, the first temporally-parallelizable slot learning architecture for sequential inputs. Unlike conventional RNN-based approaches, PSB produces object-centric representations, known as slots, for all time-steps in parallel. This is achieved by refining the initial slots across all time-steps through a fixed number of layers equipped with causal attention. By capitalizing on the parallelism induced by our architecture, the proposed model exhibits a significant boost in efficiency. In experiments, we test PSB extensively as an encoder within an auto-encoding framework paired with a wide variety of decoder options. Compared to the state-of-the-art, our architecture demonstrates stable training on longer sequences, achieves parallelization that results in a 60% increase in training speed, and yields performance that is on par with or better on unsupervised 2D and 3D object-centric scene decomposition and understanding.
翻訳日:2024-02-28 18:22:50 公開日:2024-02-26
# デジタル画像相関を用いたアスファルトコンクリートの性状評価:ベストプラクティス,応用,今後の展望の体系的考察

Asphalt Concrete Characterization Using Digital Image Correlation: A Systematic Review of Best Practices, Applications, and Future Vision ( http://arxiv.org/abs/2402.17074v1 )

ライセンス: Link先を確認
Siqi Wang, Zehui Zhu, Tao Ma, Jianwei Fan(参考訳) デジタル画像相関(digital image correlation, dic)は、撮像された画像列のパターン移動を追跡して変位とひずみを測定する光学的手法である。 DICは2000年代初頭からアスファルト舗装工学で認知されている。 しかし、ユーザはDICテクニックをアウトオブボックスツールとして認識し、その運用と測定の原則を十分に理解していないことが多い。 本稿では, アスファルトコンクリート(AC)の試験試験における重要なツールとしてのDICの現状について, 広く利用されている2D-DIC技術と3D-DIC技術に着目して概説する。 ユーザからの頻繁な質問に対処するために、スペックルパターンの作成、単一カメラまたはデュアルカメライメージングシステムの設定、DIC分析の実行、様々な応用の探索方法について徹底的に検討した。 さらに,Digital Volume correlationやDeep-learning-based DICといった新しいDIC手法を導入し,今後の舗装工学への応用の可能性を強調した。 この記事はまた、ACキャラクタリゼーションにDICを実装するための包括的で信頼性の高いフローチャートも提供している。 最後に,今後の研究の方向性について述べる。

Digital Image Correlation (DIC) is an optical technique that measures displacement and strain by tracking pattern movement in a sequence of captured images during testing. DIC has gained recognition in asphalt pavement engineering since the early 2000s. However, users often perceive the DIC technique as an out-of-box tool and lack a thorough understanding of its operational and measurement principles. This article presents a state-of-art review of DIC as a crucial tool for laboratory testing of asphalt concrete (AC), primarily focusing on the widely utilized 2D-DIC and 3D-DIC techniques. To address frequently asked questions from users, the review thoroughly examines the optimal methods for preparing speckle patterns, configuring single-camera or dual-camera imaging systems, conducting DIC analyses, and exploring various applications. Furthermore, emerging DIC methodologies such as Digital Volume Correlation and deep-learning-based DIC are introduced, highlighting their potential for future applications in pavement engineering. The article also provides a comprehensive and reliable flowchart for implementing DIC in AC characterization. Finally, critical directions for future research are presented.
翻訳日:2024-02-28 18:22:29 公開日:2024-02-26
# 超次元計算を用いたワンショットグラフ表現学習

One-Shot Graph Representation Learning Using Hyperdimensional Computing ( http://arxiv.org/abs/2402.17073v1 )

ライセンス: Link先を確認
Abhishek Dalvi, Vasant Honavar(参考訳) グラフ上の半教師あり学習のための,新しい,単純で,高速で,効率的なアプローチを提案する。 提案手法は,ランダム射影を用いたデータサンプルを高次元空間(略してhd空間)に符号化する超次元計算を利用する。 具体的には,グラフニューラルネットワーク群におけるノード表現のインジェクティビティ特性を活用した超次元グラフ学習(hdgl)アルゴリズムを提案する。 hdglはノードの機能をhd空間にマッピングし、バンドルやバインディングなどのhdオペレータを使用して各ノードのローカル近傍から情報を集約する。 広く使われているベンチマークデータセットを用いた実験の結果、HDGLは計算コストのかかるトレーニングを必要とせず、最先端のディープラーニング手法と競合する予測性能を達成することが示された。

We present a novel, simple, fast, and efficient approach for semi-supervised learning on graphs. The proposed approach takes advantage of hyper-dimensional computing which encodes data samples using random projections into a high dimensional space (HD space for short). Specifically, we propose a Hyper-dimensional Graph Learning (HDGL) algorithm that leverages the injectivity property of the node representations of a family of graph neural networks. HDGL maps node features to the HD space and then uses HD operators such as bundling and binding to aggregate information from the local neighborhood of each node. Results of experiments with widely used benchmark data sets show that HDGL achieves predictive performance that is competitive with the state-of-the-art deep learning methods, without the need for computationally expensive training.
翻訳日:2024-02-28 18:22:09 公開日:2024-02-26
# ランゲヴィン拡散と未調整ランゲヴィンアルゴリズムに沿った独立サンプルについて

On Independent Samples Along the Langevin Diffusion and the Unadjusted Langevin Algorithm ( http://arxiv.org/abs/2402.17067v1 )

ライセンス: Link先を確認
Jiaming Liang, Siddharth Mitra, Andre Wibisono(参考訳) マルコフ連鎖に沿って初期および現在の確率変数が独立となる速度について検討し、連続時間におけるランゲヴィン拡散と離散時間における非調整ランゲヴィンアルゴリズム(ULA)に着目した。 確率変数間の依存度を相互情報を用いて測定する。 ランゲヴィン拡散については、ターゲットが強い対数対数ならば指数関数的に$0$に収束し、ターゲットが弱い対数対数では多項式速度で収束することを示す。 これらの速度は、同様の仮定の下でランゲヴィン拡散の混合時間に類似している。 ULAでは、ターゲットが強い対数凹凸で滑らかな場合、相互情報が指数関数的に0$に収束することを示す。 我々は,これらのマルコフ鎖の混合時間解析の相互バージョンを開発し,結果を証明する。 また、Langevin拡散とULAの強いデータ処理の不等式に基づく代替的証明も提供し、これらのプロセスの正則性結果を相互情報で示す。

We study the rate at which the initial and current random variables become independent along a Markov chain, focusing on the Langevin diffusion in continuous time and the Unadjusted Langevin Algorithm (ULA) in discrete time. We measure the dependence between random variables via their mutual information. For the Langevin diffusion, we show the mutual information converges to $0$ exponentially fast when the target is strongly log-concave, and at a polynomial rate when the target is weakly log-concave. These rates are analogous to the mixing time of the Langevin diffusion under similar assumptions. For the ULA, we show the mutual information converges to $0$ exponentially fast when the target is strongly log-concave and smooth. We prove our results by developing the mutual version of the mixing time analyses of these Markov chains. We also provide alternative proofs based on strong data processing inequalities for the Langevin diffusion and the ULA, and by showing regularity results for these processes in mutual information.
翻訳日:2024-02-28 18:21:55 公開日:2024-02-26
# 先天的な仮定から生まれてくるルール

Born's rule from epistemic assumptions ( http://arxiv.org/abs/2402.17066v1 )

ライセンス: Link先を確認
Per \"Ostborn(参考訳) ボルンの規則は量子力学的振幅から確率を計算するためのレシピである。 ボルンの法則は、第一原理から一般的に受け入れられるものではない。 本稿では、適切な物理モデルの存在論的内容と実験コンテキストの認識的条件を結びつける仮定から動機づけられた。 より正確には、すべての既知の区別は、適切なモデルにおける区別に対応するべきであると仮定される。 この「オントロジー完全性」の原理は、例えば、経路情報を持たない二重スリット実験の確率的処理が異なることを意味する。 さらに、モデルは既知の存在論的要素にのみ依存すべきであり、「オントロジー最小主義」というこの原理を満たさないことは、誤った予測をもたらすと仮定される。 したがって、確率は観測可能な実験結果にのみ割り当てられるべきである。 また、そのような確率を計算する方法は、この経路が知ることができない場合、観測対象の正確な経路の存在に依存するべきではない。 同様の原則がボルンによって推進されたが、彼はそれを確率に当てはめなかった。 もう一つの重要な仮定は、確率を計算するための適切な規則は一般に有効であるべきだというものである。 研究対象のどの属性が観測されるかを決定する設定や、関連する属性値のそれぞれを観測する確率に関わらず、すべての実験的な文脈で適用すべきである。 現在の処理では、量子力学のヒルベルト空間構造を参照する必要はない。 むしろ、この構造のいくつかの要素は分析から現れる。

Born's rule is the recipe for calculating probabilities from quantum mechanical amplitudes. There is no generally accepted derivation of Born's rule from first principles. In this paper, it is motivated from assumptions that link the ontological content of a proper physical model to the epistemic conditions of the experimental context. More precisely, it is assumed that all knowable distinctions should correspond to distinctions in a proper model. This principle of "ontological completeness" means, for example, that the probabilistic treatment of the double slit experiment with and without path information should differ. Further, it is assumed that the model should rely only on knowable ontological elements, and that failure to fulfill this principle of "ontological minimalism" gives rise to wrong predictions. Consequently, probabilities should be assigned only to observable experimental outcomes. Also, the method to calculate such probabilities should not rely on the existence of a precise path of the observed object if this path is not knowable. A similar principle was promoted by Born, even though he did not apply it to probability. Another crucial assumption is that the proper rule to calculate probabilities should be generally valid. It should be applicable in all experimental contexts, regardless the setup that determines which attributes of the studied object are observed, together with the probability to observe each of the associated attribute values. There is no need to refer to the Hilbert space structure of quantum mechanics in the present treatment. Rather, some elements of this structure emerge from the analysis.
翻訳日:2024-02-28 18:21:37 公開日:2024-02-26
# クラスコンディショナルganにおけるテールの改ざん:低分解能非コンディショナルトレーニングによる知識共有

Taming the Tail in Class-Conditional GANs: Knowledge Sharing via Unconditional Training at Lower Resolutions ( http://arxiv.org/abs/2402.17065v1 )

ライセンス: Link先を確認
Saeed Khorram, Mingqi Jiang, Mohamad Shahbazi, Mohamad H. Danesh, Li Fuxin(参考訳) トレーニングデータに制限のあるgans(generative adversarial network)のトレーニングに関する広範な研究にもかかわらず、ロングテールのトレーニング分布から画像を生成するための学習は、まだ未定である。 非バランスなマルチクラストレーニングデータが存在するため、ganはより多くのサンプルを持つクラスを好む傾向があり、テールクラスで低品質でより多様性の低いサンプルが生成される。 本研究では,長期データを用いたクラス条件付きGANの訓練を改善することを目的とする。 そこで我々は,より豊富な学習データを持つクラスから,テールクラスが豊富な情報から借用できる,知識共有の単純かつ効果的な方法を提案する。 具体的には,高分解能層に対するクラス条件生成を保ちながら,ジェネレータの低分解能層が完全に無条件で訓練されることを保証するため,既存のクラス条件GANアーキテクチャの変更を提案する。 いくつかのロングテールベンチマークとGANアーキテクチャの実験は、生成された画像の多様性と忠実さの両方において、既存の手法よりも大幅に改善されていることを示している。 コードはhttps://github.com/khorrams/utloで入手できる。

Despite the extensive research on training generative adversarial networks (GANs) with limited training data, learning to generate images from long-tailed training distributions remains fairly unexplored. In the presence of imbalanced multi-class training data, GANs tend to favor classes with more samples, leading to the generation of low-quality and less diverse samples in tail classes. In this study, we aim to improve the training of class-conditional GANs with long-tailed data. We propose a straightforward yet effective method for knowledge sharing, allowing tail classes to borrow from the rich information from classes with more abundant training data. More concretely, we propose modifications to existing class-conditional GAN architectures to ensure that the lower-resolution layers of the generator are trained entirely unconditionally while reserving class-conditional generation for the higher-resolution layers. Experiments on several long-tail benchmarks and GAN architectures demonstrate a significant improvement over existing methods in both the diversity and fidelity of the generated images. The code is available at https://github.com/khorrams/utlo.
翻訳日:2024-02-28 18:21:15 公開日:2024-02-26
# HOISDF:グローバルサイン付き距離場を用いた3次元手動姿勢推定の制御

HOISDF: Constraining 3D Hand-Object Pose Estimation with Global Signed Distance Fields ( http://arxiv.org/abs/2402.17062v1 )

ライセンス: Link先を確認
Haozhe Qi, Chen Zhao, Mathieu Salzmann, Alexander Mathis(参考訳) 人間の手は非常に明瞭で、物を扱うのに多用途である。 手の3dポーズとモノクロカメラから操作する物体を共同で推定することは、頻繁な閉塞のため困難である。 したがって、既存の手法は性能を高めるために中間的な3次元形状表現に依存することが多い。 これらの表現は典型的には3次元点雲やメッシュのような明示的であり、中間手の位置推定の直接的な環境の情報を提供する。 そこで本研究では,手動とオブジェクトのSDFを協調的に活用し,全再構成ボリュームに対するグローバルで暗黙的な表現を提供する,手動距離場(SDF)誘導手動ポーズ推定ネットワークであるHOISDFを紹介する。 具体的には、SDFの役割は3つある: 視覚エンコーダに暗黙の形状情報を与え、手と物体の相互作用を符号化し、手と物体のポーズの回帰をSDFベースのサンプリングを通して誘導し、特徴表現を増強する。 hoisdf は手指ポーズ推定ベンチマーク (dexycb と ho3dv2) において最先端の結果を得る。 コードはhttps://github.com/amathislab/HOISDFで入手できる。

Human hands are highly articulated and versatile at handling objects. Jointly estimating the 3D poses of a hand and the object it manipulates from a monocular camera is challenging due to frequent occlusions. Thus, existing methods often rely on intermediate 3D shape representations to increase performance. These representations are typically explicit, such as 3D point clouds or meshes, and thus provide information in the direct surroundings of the intermediate hand pose estimate. To address this, we introduce HOISDF, a Signed Distance Field (SDF) guided hand-object pose estimation network, which jointly exploits hand and object SDFs to provide a global, implicit representation over the complete reconstruction volume. Specifically, the role of the SDFs is threefold: equip the visual encoder with implicit shape information, help to encode hand-object interactions, and guide the hand and object pose regression via SDF-based sampling and by augmenting the feature representations. We show that HOISDF achieves state-of-the-art results on hand-object pose estimation benchmarks (DexYCB and HO3Dv2). Code is available at https://github.com/amathislab/HOISDF
翻訳日:2024-02-28 18:20:55 公開日:2024-02-26
# DAGnosis: 構造を用いたデータ不整合の局所的同定

DAGnosis: Localized Identification of Data Inconsistencies using Structures ( http://arxiv.org/abs/2402.17599v1 )

ライセンス: Link先を確認
Nicolas Huynh, Jeroen Berrevoets, Nabeel Seedat, Jonathan Crabb\'e, Zhaozhi Qian, Mihaela van der Schaar(参考訳) 機械学習モデルを確実に使用するためには,デプロイメント時のデータ不整合の識別と適切な処理が不可欠である。 最近のデータセントリックな手法は、トレーニングセットに関してこのような矛盾を識別できるが、(1)圧縮表現の使用による特徴が統計的に無依存である設定における非最適性、(2)サンプルが一貫性に欠ける可能性がある理由をピンポイントで特定できない、という2つの重要な制限に苦しめられている。 本研究では、有向非巡回グラフ(DAG)を用いて、トレーニングセットの特徴分布と非依存性を構造として符号化する。 dagnosisと呼ばれるこの手法は、これらの構造的相互作用を利用して、価値と洞察に富んだデータ中心の結論をもたらす。 DAGnosisは、従来のアプローチで見過ごされた側面であるDAG上の不整合の原因の局所化を解き放つ。 さらに,これらの相互作用を活用することにより,(1)不整合の検出におけるより正確な結論が得られ,(2)サンプルのフラグ付けについてより詳細な知見が得られた。

Identification and appropriate handling of inconsistencies in data at deployment time is crucial to reliably use machine learning models. While recent data-centric methods are able to identify such inconsistencies with respect to the training set, they suffer from two key limitations: (1) suboptimality in settings where features exhibit statistical independencies, due to their usage of compressive representations and (2) lack of localization to pin-point why a sample might be flagged as inconsistent, which is important to guide future data collection. We solve these two fundamental limitations using directed acyclic graphs (DAGs) to encode the training set's features probability distribution and independencies as a structure. Our method, called DAGnosis, leverages these structural interactions to bring valuable and insightful data-centric conclusions. DAGnosis unlocks the localization of the causes of inconsistencies on a DAG, an aspect overlooked by previous approaches. Moreover, we show empirically that leveraging these interactions (1) leads to more accurate conclusions in detecting inconsistencies, as well as (2) provides more detailed insights into why some samples are flagged.
翻訳日:2024-02-28 15:45:19 公開日:2024-02-26
# De)Randomized Smoothingによる深層学習型マルウェア検出装置の敵攻撃に対するロバスト防御

A Robust Defense against Adversarial Attacks on Deep Learning-based Malware Detectors via (De)Randomized Smoothing ( http://arxiv.org/abs/2402.15267v2 )

ライセンス: Link先を確認
Daniel Gibert, Giulio Zizzo, Quan Le, Jordi Planes(参考訳) ディープラーニングベースのマルウェア検出装置は、敵のマルウェアの例、すなわち検出を避けるために意図的に操作されたマルウェアの例に影響を受けやすいことが示されている。 深層学習検出装置による微妙な入力ファイル修正の脆弱性を考慮して, ランダム化平滑化に触発された敵のマルウェアに対する実用的な防御法を提案する。 本研究では,コンピュータビジョン(cv)領域などの入力をランダム化するためにガウス雑音を用いるのではなく,バイトの相関部分集合を選択することにより,マルウェア作者が挿入した敵コンテンツのサンプリングを減少させる。 トレーニング中、アブレーションベースの平滑化スキームはベース分類器を訓練し、連続したバイトまたはバイトのチャンクのサブセットに分類を行う。 テスト時には、多数のチャンクがベース分類器によって分類され、これらの分類のコンセンサスが最終予測として報告される。 本研究では,(1)チャンクの位置をランダムに選択すること,(2)隣接チャンクを連続的に選択すること,の2つの分類方法を提案する。 このアプローチの有効性を示すために,我々はbodmasデータセット上でチャンクベースアブレーションスキームを用いた2つの分類器を訓練した。 その結果,チャンク型スムースティング分類器は,非スムースな分類器とランダム化されたスムースな分類器を大きなマージンで上回り,回避攻撃によって発生した敵のマルウェアに対して高いレジリエンスを示した。

Deep learning-based malware detectors have been shown to be susceptible to adversarial malware examples, i.e. malware examples that have been deliberately manipulated in order to avoid detection. In light of the vulnerability of deep learning detectors to subtle input file modifications, we propose a practical defense against adversarial malware examples inspired by (de)randomized smoothing. In this work, we reduce the chances of sampling adversarial content injected by malware authors by selecting correlated subsets of bytes, rather than using Gaussian noise to randomize inputs like in the Computer Vision (CV) domain. During training, our ablation-based smoothing scheme trains a base classifier to make classifications on a subset of contiguous bytes or chunk of bytes. At test time, a large number of chunks are then classified by a base classifier and the consensus among these classifications is then reported as the final prediction. We propose two strategies to determine the location of the chunks used for classification: (1) randomly selecting the locations of the chunks and (2) selecting contiguous adjacent chunks. To showcase the effectiveness of our approach, we have trained two classifiers with our chunk-based ablation schemes on the BODMAS dataset. Our findings reveal that the chunk-based smoothing classifiers exhibit greater resilience against adversarial malware examples generated with state-of-the-are evasion attacks, outperforming a non-smoothed classifier and a randomized smoothing-based classifier by a great margin.
翻訳日:2024-02-28 11:16:15 公開日:2024-02-26
# ビジュアルオブジェクト追跡のためのグローバル表現メモリから関連機能を読み取る

Reading Relevant Feature from Global Representation Memory for Visual Object Tracking ( http://arxiv.org/abs/2402.14392v3 )

ライセンス: Link先を確認
Xinyu Zhou, Pinxue Guo, Lingyi Hong, Jinglun Li, Wei Zhang, Weifeng Ge, Wenqiang Zhang(参考訳) テンプレートや過去のフレームからの参照機能は、ビジュアルオブジェクト追跡に不可欠である。 以前の作業では、固定テンプレートやメモリのすべての機能を視覚オブジェクト追跡に利用していた。 しかし,動画のダイナミックな性質から,異なる時間ステップにおける検索領域の参照履歴情報も一致しない。 したがって、テンプレートとメモリのすべての機能を使用することで冗長性とトラッキング性能が損なわれる可能性がある。 この問題を軽減するために,参照特徴から最も関連性の高い歴史的情報を選択する際に,検索領域を適応的に支援する,関連注意機構とグローバル表現メモリからなる新しい追跡パラダイムを提案する。 具体的には,従来の手法と異なり,クロスフレーム情報をグローバルにアクセスすることで,現在のフレームに対して最適なグローバル表現メモリを動的に選択・構築することができる。 さらに、構築されたメモリから関連する履歴情報を柔軟に読み取ることができ、冗長性を低減し、有害な情報のネガティブな影響に対処することができる。 拡張実験により提案手法の有効性が検証され,71 FPSの5つの挑戦データセット上での競合性能が得られた。

Reference features from a template or historical frames are crucial for visual object tracking. Prior works utilize all features from a fixed template or memory for visual object tracking. However, due to the dynamic nature of videos, the required reference historical information for different search regions at different time steps is also inconsistent. Therefore, using all features in the template and memory can lead to redundancy and impair tracking performance. To alleviate this issue, we propose a novel tracking paradigm, consisting of a relevance attention mechanism and a global representation memory, which can adaptively assist the search region in selecting the most relevant historical information from reference features. Specifically, the proposed relevance attention mechanism in this work differs from previous approaches in that it can dynamically choose and build the optimal global representation memory for the current frame by accessing cross-frame information globally. Moreover, it can flexibly read the relevant historical information from the constructed memory to reduce redundancy and counteract the negative effects of harmful information. Extensive experiments validate the effectiveness of the proposed method, achieving competitive performance on five challenging datasets with 71 FPS.
翻訳日:2024-02-28 11:14:54 公開日:2024-02-26
# 生体力学モデルと合成トレーニングデータを用いた映像からの3次元運動量推定

3D Kinematics Estimation from Video with a Biomechanical Model and Synthetic Training Data ( http://arxiv.org/abs/2402.13172v2 )

ライセンス: Link先を確認
Zhi-Yi Lin, Bofan Lyu, Judith Cueto Fernandez, Eline van der Kruk, Ajay Seth, Xucong Zhang(参考訳) 身体の正確な3次元運動学的推定は、リハビリテーション、傷害予防、診断など、人体の健康とモビリティの様々な応用において不可欠であり、運動中に経験される生体力学的負荷を理解するのに役立つ。 従来のマーカーに基づくモーションキャプチャーは、財務投資、時間、専門知識の点で高価である。 さらに、正確なアノテーションを持つデータセットの不足のため、既存のマーカーレスモーションキャプチャメソッドは、信頼性の低い2dキーポイント検出、限られた解剖学的精度、低い一般化能力といった課題を抱えている。 本研究では,生体力学的事前情報と時空間情報を考慮した2つの入力ビューから3Dキネマティクスを直接出力するバイオメカニクス対応ネットワークを提案する。 モデルをトレーニングするために,SMPL-XモデルとフルボディOpenSim骨格モデルから体メッシュを整列させて生成した,正確なキネマティクスアノテーションを用いた合成データセットOdaHを作成する。 提案手法は, 合成データのみを用いて学習し, 複数のデータセットにまたがって評価を行った場合, 従来の最先端手法よりも優れており, 映像に基づく人間のモーションキャプチャー向上に有望な方向を示す。

Accurate 3D kinematics estimation of human body is crucial in various applications for human health and mobility, such as rehabilitation, injury prevention, and diagnosis, as it helps to understand the biomechanical loading experienced during movement. Conventional marker-based motion capture is expensive in terms of financial investment, time, and the expertise required. Moreover, due to the scarcity of datasets with accurate annotations, existing markerless motion capture methods suffer from challenges including unreliable 2D keypoint detection, limited anatomic accuracy, and low generalization capability. In this work, we propose a novel biomechanics-aware network that directly outputs 3D kinematics from two input views with consideration of biomechanical prior and spatio-temporal information. To train the model, we create synthetic dataset ODAH with accurate kinematics annotations generated by aligning the body mesh from the SMPL-X model and a full-body OpenSim skeletal model. Our extensive experiments demonstrate that the proposed approach, only trained on synthetic data, outperforms previous state-of-the-art methods when evaluated across multiple datasets, revealing a promising direction for enhancing video-based human motion capture.
翻訳日:2024-02-28 04:30:11 公開日:2024-02-26
# SDGE:360$^\circ$カメラセットのステレオガイド深度推定

SDGE: Stereo Guided Depth Estimation for 360$^\circ$ Camera Sets ( http://arxiv.org/abs/2402.11791v2 )

ライセンス: Link先を確認
Jialei Xu, Wei Yin, Dong Gong, Xianming Liu, Junjun Jiang, Xiangyang Ji(参考訳) 深度推定は自動運転において重要な技術であり、マルチカメラシステムは360$^\circ$の知覚を達成するためにしばしば使用される。 これらの360$^\circ$カメラセットは、しばしば制限または低品質のオーバーラップ領域を持ち、画像全体に対してマルチビューステレオメソッドを実現する。 あるいは、単分子的手法は一貫したクロスビュー予測を生成できない。 そこで本研究では,多視点ステレオ結果の重なりを明示的に活用し,全画像の奥行き推定を高速化するステレオガイド深度推定(sgde)法を提案する。 魚眼カメラの歪み問題を解決するために仮想ピンホールカメラを構築し,この2種類の360$^\circ$カメラの処理を統一することを提案する。 不安定な動きによって生じるカメラポーズのノイズの処理には, 近接するカメラの高精度な相対的なポーズを得るために, 自己校正法を用いる。 これにより、重なり領域に先立って高品質な深度を得るためのロバストなステレオ手法が利用可能となる。 この先行は、追加入力だけでなく、深度推定法の精度を高め、クロスビュー予測整合性を改善する擬似ラベルとしても機能する。 SGDEの有効性を,1つの魚眼カメラデータセット,Synthetic Urbanと2つのピンホールカメラデータセット,DDADとnuSceneで評価した。 実験により,SGDEは教師付き深度推定と自己監督型深度推定の両方に有効であることが示され,3次元物体検出や占有予測などの下流自動走行技術の進歩の可能性を強調した。

Depth estimation is a critical technology in autonomous driving, and multi-camera systems are often used to achieve a 360$^\circ$ perception. These 360$^\circ$ camera sets often have limited or low-quality overlap regions, making multi-view stereo methods infeasible for the entire image. Alternatively, monocular methods may not produce consistent cross-view predictions. To address these issues, we propose the Stereo Guided Depth Estimation (SGDE) method, which enhances depth estimation of the full image by explicitly utilizing multi-view stereo results on the overlap. We suggest building virtual pinhole cameras to resolve the distortion problem of fisheye cameras and unify the processing for the two types of 360$^\circ$ cameras. For handling the varying noise on camera poses caused by unstable movement, the approach employs a self-calibration method to obtain highly accurate relative poses of the adjacent cameras with minor overlap. These enable the use of robust stereo methods to obtain high-quality depth prior in the overlap region. This prior serves not only as an additional input but also as pseudo-labels that enhance the accuracy of depth estimation methods and improve cross-view prediction consistency. The effectiveness of SGDE is evaluated on one fisheye camera dataset, Synthetic Urban, and two pinhole camera datasets, DDAD and nuScenes. Our experiments demonstrate that SGDE is effective for both supervised and self-supervised depth estimation, and highlight the potential of our method for advancing downstream autonomous driving technologies, such as 3D object detection and occupancy prediction.
翻訳日:2024-02-28 04:29:47 公開日:2024-02-26
# 大規模言語モデルを用いた製造における知識共有:ユーザ評価とモデルベンチマーク

Knowledge Sharing in Manufacturing using Large Language Models: User Evaluation and Model Benchmarking ( http://arxiv.org/abs/2401.05200v2 )

ライセンス: Link先を確認
Samuel Kernan Freire, Chaofan Wang, Mina Foosherian, Stefan Wellsandt, Santiago Ruiz-Arenas and Evangelos Niforatos(参考訳) 自然言語処理の最近の進歩により、工場における知識共有を支援するよりインテリジェントな方法が実現されている。 製造業では、生産ラインは知識集約化が進み、新しい事業者を訓練し支援する工場の能力に負担がかかっている。 本稿では,工場文書に含まれる豊富な知識と専門家が共有する知識から情報を取得するためのLarge Language Model (LLM) システムを提案する。 本システムは,オペレータからの問い合わせに効率的に答え,新たな知識の共有を容易にすることを目的としている。 我々は,その影響と採用可能性を評価するため,工場でユーザ調査を行い,情報検索の迅速化と課題解決の効率化という,いくつかの認識上のメリットを示唆した。 しかし、この研究は、そのような選択肢が利用できるとき、人間の専門家から学ぶことを好むことも強調した。 さらに,本システムのための商用およびオープンソース LLM のベンチマークを行った。 現在の最先端モデルであるgpt-4は、常にそれよりも優れており、オープンソースモデルは、データのプライバシとカスタマイズのメリットを考えると魅力的な選択肢を示している。 要約して,本研究は,LLMツールを知識管理に活用することを検討する工場において,予備的な洞察とシステム設計を提供する。

Recent advances in natural language processing enable more intelligent ways to support knowledge sharing in factories. In manufacturing, operating production lines has become increasingly knowledge-intensive, putting strain on a factory's capacity to train and support new operators. This paper introduces a Large Language Model (LLM)-based system designed to retrieve information from the extensive knowledge contained in factory documentation and knowledge shared by expert operators. The system aims to efficiently answer queries from operators and facilitate the sharing of new knowledge. We conducted a user study at a factory to assess its potential impact and adoption, eliciting several perceived benefits, namely, enabling quicker information retrieval and more efficient resolution of issues. However, the study also highlighted a preference for learning from a human expert when such an option is available. Furthermore, we benchmarked several commercial and open-sourced LLMs for this system. The current state-of-the-art model, GPT-4, consistently outperformed its counterparts, with open-source models trailing closely, presenting an attractive option given their data privacy and customization benefits. In summary, this work offers preliminary insights and a system design for factories considering using LLM tools for knowledge management.
翻訳日:2024-02-28 04:29:18 公開日:2024-02-26
# マッチングによる量子最大カット近似の改良

An improved Quantum Max Cut approximation via matching ( http://arxiv.org/abs/2401.03616v2 )

ライセンス: Link先を確認
Eunou Lee, Ojas Parekh(参考訳) 与えられた量子ハミルトニアンの高(または低)エネルギー状態を見つけることは、証明可能かつ実用的な量子優位を得る可能性領域である。 最近の一連の研究は量子マックス切断に焦点を当てており、そこでは与えられた反強磁性ハイゼンベルクハミルトニアンの高エネルギー状態を求める。 本研究では,一般的な入力に対して0.584の近似比と0.595の三角形のない入力を与える量子マックスカットの古典近似アルゴリズムを提案し,Lie \cite{Lee22} (0.562,ジェネリック入力)とKing \cite{King22} (0.582,三角形なし入力)のアルゴリズムよりも優れた精度で性能を向上した。 このアルゴリズムは、入力グラフの最大重み付きマッチングを見つけ、以前の最良のアルゴリズムの完全な絡み合った出力状態よりも単純な、最大2量子ビット状態の積を出力する。 --v2 update: ojas parekh氏は著者として、三角形自由条件を取り除いた。

Finding a high (or low) energy state of a given quantum Hamiltonian is a potential area to gain a provable and practical quantum advantage. A line of recent studies focuses on Quantum Max Cut, where one is asked to find a high energy state of a given antiferromagnetic Heisenberg Hamiltonian. In this work, we present a classical approximation algorithm for Quantum Max Cut that achieves an approximation ratio of 0.584 given a generic input, and a ratio of 0.595 given a triangle-free input, outperforming the previous best algorithms of Lee \cite{Lee22} (0.562, generic input) and King \cite{King22} (0.582, triangle-free input). The algorithm is based on finding the maximum weighted matching of an input graph and outputs a product of at most 2-qubit states, which is simpler than the fully entangled output states of the previous best algorithms. --v2 update: Ojas Parekh added as an author, triangle free condition removed.
翻訳日:2024-02-28 04:28:59 公開日:2024-02-26
# 局在電子照射による広帯域材料における量子エミッタ作製の比較研究

Comparative study of quantum emitter fabrication in wide bandgap materials using localized electron irradiation ( http://arxiv.org/abs/2312.02856v4 )

ライセンス: Link先を確認
Anand Kumar, Chanaprom Cholsuk, Mohammad N. Mishuk, Mouli Hazra, Clotilde Pillot, Tjorben Matthes, Tanveer A. Shaik, Asli Cakan, Volker Deckert, Sujin Suwanna, Tobias Vogl(参考訳) 量子光源は、様々な量子技術応用のための重要な基礎コンポーネントである。 量子技術の急速な発展により、量子エミッターをホストする能力を持つ材料に対する需要が高まっている。 そのような物質プラットフォームの一つは、六方晶窒化ホウ素(hBN)の蛍光欠陥を使用し、バンドギャップ内の深いサブレベルをホストすることができる。 局所電子照射は、hBNの単一エミッタを誘導する深いサブレベルを生成する効果を示した。 問題は、局在(電子ビーム)照射が、他の広帯域材料にエミッタを作成するための信頼できるツールであるかどうかであり、hbnに特有のものである。 そこで本研究では,hbnにおける量子エミッタの生成と,量子エミッタのホストとして知られている炭化ケイ素や窒化ガリウムなどの他の3d結晶との比較を行った。 標準走査型電子顕微鏡を用いた局所電子照射の一次製造法を応用した。 実験を補完するために,mica中の欠陥の原子構造を研究するために密度汎関数理論シミュレーションを用いた。 我々の製造技術は、高収率かつ高光子純度でhBN量子エミッタを生成できるが、研究中の他の固体結晶の単一エミッタを作製することはできない。 これにより、hBNのエミッタ生成機構に結論を導くことができ、これは電荷状態操作による既存の欠陥の活性化に依存する可能性がある。 したがって,hBNエミッタの同定とその生成過程の重要なステップを提供する。

Quantum light sources are crucial foundational components for various quantum technology applications. With the rapid development of quantum technology, there has been a growing demand for materials with the capability of hosting quantum emitters. One such material platform uses fluorescent defects in hexagonal boron nitride (hBN) that can host deep sublevels within the bandgap. The localized electron irradiation has shown its effectiveness in generating deep sublevels to induce single emitters in hBN. The question is whether localized (electron beam) irradiation is a reliable tool for creating emitters in other wide bandgap materials and its uniqueness to hBN. Here, we investigate and compare the fabrication of quantum emitters in hBN and exfoliated muscovite mica flakes along with other 3D crystals, such as silicon carbide and gallium nitride, which are known to host quantum emitters. We used our primary fabrication technique of localized electron irradiation using a standard scanning electron microscope. To complement our experimental work, we employed density functional theory simulations to study the atomic structures of defects in mica. While our fabrication technique allows one to create hBN quantum emitters with a high yield and high single photon purity, it is unable to fabricate single emitters in the other solid-state crystals under investigation. This allows us to draw conclusions on the emitter fabrication mechanism in hBN, which could rely on activating pre-existing defects by charge state manipulation. Therefore, we provide an essential step toward the identification of hBN emitters and their formation process.
翻訳日:2024-02-28 04:28:41 公開日:2024-02-26
# 対称多ビット状態に対する絶対分離性証人

Absolute separability witnesses for symmetric multiqubit states ( http://arxiv.org/abs/2312.00497v2 )

ライセンス: Link先を確認
Eduardo Serrano-Ens\'astiga, J\'er\^ome Denis and John Martin(参考訳) 対称性保存された大域的ユニタリ変換の下でのある種の量子状態の永続的な分離性は、ボゾン系の量子資源の文脈において重要な意味を持つ。 本研究では,任意の量子ビット数のSAS状態を検出するための基準を開発する。 我々のアプローチは、有限次元量子系に対するグラウバー・スダルシャン$P$表現に基づいている。 SAS証人の3つの族を導入し、1つの線形および2つの非線形状態の固有値について、それぞれ代数的不等式または二次最適化問題として定式化する。 これらの証人は、以前に知られていたものよりも多くのSAS状態を特定することができる。 我々はまた、証人によって検出されたSAS状態の部分集合の幾何学的性質を探求し、それらの区別に光を当てる。

The persistent separability of certain quantum states, known as symmetric absolutely separable (SAS), under symmetry-preserving global unitary transformations is of key significance in the context of quantum resources for bosonic systems. In this work, we develop criteria for detecting SAS states of any number of qubits. Our approach is based on the Glauber-Sudarshan $P$ representation for finite-dimensional quantum systems. We introduce three families of SAS witnesses, one linear and two nonlinear in the eigenvalues of the state, formulated respectively as an algebraic inequality or a quadratic optimization problem. These witnesses are capable of identifying more SAS states than previously known counterparts. We also explore the geometric properties of the subsets of SAS states detected by our witnesses, shedding light on their distinctions.
翻訳日:2024-02-28 04:28:15 公開日:2024-02-26
# SADMoE: Dynamic-k Gating によるアクティベーションスパシティの爆発

SADMoE: Exploiting Activation Sparsity with Dynamic-k Gating ( http://arxiv.org/abs/2310.04361v2 )

ライセンス: Link先を確認
Filip Szatkowski, Bartosz W\'ojcik, Miko{\l}aj Pi\'orczy\'nski, Kamil Adamczewski(参考訳) トランスフォーマーモデルは、優れた性能にもかかわらず、しばしば高い計算要求のために実用的な制限に直面している。 同時に、これらのモデルは、ネットワークの一部をMixture-of-Experts (MoE)層に変換することで、推論コストを削減するために利用することができる。 しかしながら、活性化空間が重要な役割を担っているにもかかわらず、このプロセスに対する影響は未解明のままである。 本稿では,活性化空間化によるMoE変換の効率化について述べる。 さらに,活性化ニューロン数に高いばらつきがあることに動機づけられ,より効果的な動的k専門家選択ルールを提案する。 最後に、このアプローチをマルチヘッドアテンションプロジェクションに拡張することで、さらに節約することが可能になります。 提案手法であるSparsified Activation Dynamic-k Mixture-of-Experts (SADMoE) は、一般的なNLPおよび視覚タスクにおける既存のアプローチよりも優れており、モデル性能に大きな影響を与えずに最大60%の推論コストを節約できる。

Transformer models, despite their impressive performance, often face practical limitations due to their high computational requirements. At the same time, such models exhibit significant activation sparsity, which can be leveraged to reduce the inference cost by transforming parts of the network into Mixture-of-Experts (MoE) layers. However, despite the crucial role of activation sparsity, its impact on this process remains unexplored. In this paper, we enhance the efficiency of MoE conversion through activation sparsity enforcement. Moreover, motivated by the high variance in the number of activated neurons, we propose a more effective dynamic-k expert selection rule that adjusts the number of executed experts on a per-token basis. Finally, we extend this approach to multi-head attention projections, which results in even further savings. The proposed method, Sparsified Activation Dynamic-k Mixture-of-Experts (SADMoE), outperforms existing approaches on common NLP and vision tasks, allowing us to save up to 60% of inference cost without significantly affecting model performance.
翻訳日:2024-02-28 04:28:02 公開日:2024-02-26
# 球状畳み込みニューラルネットワークは拡散MRIデータから脳の微細構造推定を改善する

Spherical convolutional neural networks can improve brain microstructure estimation from diffusion MRI data ( http://arxiv.org/abs/2211.09887v3 )

ライセンス: Link先を確認
Leevi Kerkel\"a, Kiran Seunarine, Filip Szczepankiewicz, and Chris A. Clark(参考訳) 拡散磁気共鳴イメージングは脳組織の微細構造に敏感である。 しかし、測定された信号から臨床および科学的に関係する微細構造特性を推定することは、機械学習が解決する上で非常に困難な逆問題である。 本研究では,最近開発した回転不変球形畳み込みニューラルネットワークが,構造パラメータ推定を改善するかどうかについて検討した。 本研究では, 球形畳み込みニューラルネットワークを訓練し, 効果的にシミュレーションされた雑音データから地盤パラメータ値を予測し, 臨床で得られた画像データに適用し, ミクロ構造パラメータマップを生成する。 ネットワークは球面平均法や多層パーセプトロンよりも優れており,多層パーセプトロンよりも回転ばらつきの少ない球面平均法よりも高い予測精度を実現している。 神経組織の拘束的2成分モデルに着目したが,ネットワークとトレーニングパイプラインは一般化可能であり,任意のガウスコンパートメントモデルのパラメータを推定することができる。 これを強調するために,テンソル値拡散符号化を用いた視神経ソマ密度の推定を可能にする3成分モデルのパラメータを予測できるようにネットワークを訓練した。

Diffusion magnetic resonance imaging is sensitive to the microstructural properties of brain tissue. However, estimating clinically and scientifically relevant microstructural properties from the measured signals remains a highly challenging inverse problem that machine learning may help solve. This study investigated if recently developed rotationally invariant spherical convolutional neural networks can improve microstructural parameter estimation. We trained a spherical convolutional neural network to predict the ground-truth parameter values from efficiently simulated noisy data and applied the trained network to imaging data acquired in a clinical setting to generate microstructural parameter maps. Our network performed better than the spherical mean technique and multi-layer perceptron, achieving higher prediction accuracy than the spherical mean technique with less rotational variance than the multi-layer perceptron. Although we focused on a constrained two-compartment model of neuronal tissue, the network and training pipeline are generalizable and can be used to estimate the parameters of any Gaussian compartment model. To highlight this, we also trained the network to predict the parameters of a three-compartment model that enables the estimation of apparent neural soma density using tensor-valued diffusion encoding.
翻訳日:2024-02-28 04:27:42 公開日:2024-02-26
# リスクセグメンテーションにおける組織に対する不確実性駆動型ボトルネック注意U-net

Uncertainty Driven Bottleneck Attention U-net for Organ at Risk Segmentation ( http://arxiv.org/abs/2303.10796v2 )

ライセンス: Link先を確認
Abdullah Nazib, Riad Hassan, Zahidul Islam, Clinton Fookes(参考訳) CT画像におけるオルガン・アット・リスク・セグメンテーション(OAR)は,自動セグメンテーション法では難しい課題であり,下流放射線治療計画において重要である。 u-netは医用画像セグメンテーションのデファクトスタンダードとなり、医用画像セグメンテーションタスクの共通ベースラインとして頻繁に使用される。 本稿では,マルチデコーダu-netアーキテクチャを提案し,セグメンテーション改善のためのネットワークのボトルネックに着目し,デコーダ間のセグメンテーションの不一致を利用した。 特徴相関はたいていの場合注目されるが、本事例では注意として使用されるネットワークからの不確実性である。 正確なセグメンテーションのために,CT強度統合正規化損失も提案した。 提案された規則化は、低コントラスト組織の強度分布のモデル化に役立つ。 当社のモデルを2つの公開OARチャレンジデータセットでテストしました。 また,提案するアテンションモジュールと正規化損失を用いて各データセットのアブレーションを行った。 実験の結果,両データセットの精度が向上した。

Organ at risk (OAR) segmentation in computed tomography (CT) imagery is a difficult task for automated segmentation methods and can be crucial for downstream radiation treatment planning. U-net has become a de-facto standard for medical image segmentation and is frequently used as a common baseline in medical image segmentation tasks. In this paper, we propose a multiple decoder U-net architecture and use the segmentation disagreement between the decoders as attention to the bottleneck of the network for segmentation refinement. While feature correlation is considered as attention in most cases, in our case it is the uncertainty from the network used as attention. For accurate segmentation, we also proposed a CT intensity integrated regularization loss. Proposed regularisation helps model understand the intensity distribution of low contrast tissues. We tested our model on two publicly available OAR challenge datasets. We also conducted the ablation on each datasets with the proposed attention module and regularization loss. Experimental results demonstrate a clear accuracy improvement on both datasets.
翻訳日:2024-02-28 01:01:47 公開日:2024-02-26
# ラベル効率のよい時系列表現学習

Label-efficient Time Series Representation Learning: A Review ( http://arxiv.org/abs/2302.06433v3 )

ライセンス: Link先を確認
Emadeldeen Eldele, Mohamed Ragab, Zhenghua Chen, Min Wu, Chee-Keong Kwoh, Xiaoli Li(参考訳) ラベル付きデータの不足は,実世界の時系列データにディープラーニングモデルを適用する上で,大きな課題のひとつだ。 そのため,近年,移動学習,自己指導学習,半教師付き学習といったいくつかの手法が開発され,限られた時系列ラベルから深層学習モデルの学習能力の向上が図られている。 本研究では,外部データソースへの依存度に基づいて,時系列データにおけるラベル付きデータ問題の希少性に対処する既存のアプローチを分類する新しい分類法を提案する。 さらに、各アプローチの最近の進歩を概観し、現在の作業の限界を結論付け、この分野の進歩をもたらすであろう今後の方向性について述べる。

The scarcity of labeled data is one of the main challenges of applying deep learning models on time series data in the real world. Therefore, several approaches, e.g., transfer learning, self-supervised learning, and semi-supervised learning, have been recently developed to promote the learning capability of deep learning models from the limited time series labels. In this survey, for the first time, we provide a novel taxonomy to categorize existing approaches that address the scarcity of labeled data problem in time series data based on their dependency on external data sources. Moreover, we present a review of the recent advances in each approach and conclude the limitations of the current works and provide future directions that could yield better progress in the field.
翻訳日:2024-02-28 01:00:44 公開日:2024-02-26
# a $\mathbb{z}_3$ kitaevモデルにおけるキラルスピン液体

Chiral spin liquid in a $\mathbb{Z}_3$ Kitaev model ( http://arxiv.org/abs/2302.05060v2 )

ライセンス: Link先を確認
Li-Mei Chen, Tyler D. Ellison, Meng Cheng, Peng Ye, Ji-Yao Chen(参考訳) 近傍相互作用を持つハニカム格子上での$\mathbb{Z}_3$ Kitaevモデルについて検討する。 行列積状態のシミュレーションと対称性の考察に基づいて、強磁性等方性カップリングを用いて、このモデルがキラルなスピン液体を実現し、可能な$\mathrm{U}(1)_{12}$キラルなトポロジカル秩序を特徴付けることを示す。 これはシリンダーとストリップのジオメトリーのシミュレーションによって支えられている。 幅の異なる無限長円筒では、絡み合いエントロピーと最大相関長のスケーリング解析により、モデルが2次元バルクの隙間を持つことを示す。 位相的絡み合いエントロピーは抽出され、{\mathrm{u}(1)_{12}$トポロジカルオーダーと一致することが分かる。 適度な幅を持つ無限長のストリップでは、モデルが中心電荷で臨界であることは、$\mathrm{u}(1)_{12}$位相位相のカイラルエッジ理論と一致することが分かる。 我々はいくつかの質問で締めくくった。

We study a $\mathbb{Z}_3$ Kitaev model on the honeycomb lattice with nearest neighbor interactions. Based on matrix product state simulations and symmetry considerations, we find evidence that, with ferromagnetic isotropic couplings, the model realizes a chiral spin liquid, characterized by a possible $\mathrm{U}(1)_{12}$ chiral topological order. This is supported by simulations on both cylinder and strip geometries. On infinitely long cylinders with various widths, scaling analysis of entanglement entropy and maximal correlation length suggests that the model has a gapped 2D bulk. The topological entanglement entropy is extracted and found to be in agreement with the $\mathrm{U}(1)_{12}$ topological order. On infinitely long strips with moderate widths, we find the model is critical with a central charge consistent with the chiral edge theory of the $\mathrm{U}(1)_{12}$ topological phase. We conclude by discussing several open questions.
翻訳日:2024-02-28 01:00:31 公開日:2024-02-26
# et tu認定: ロバスト性証明書は、より良い敵の例をもたらす

Et Tu Certifications: Robustness Certificates Yield Better Adversarial Examples ( http://arxiv.org/abs/2302.04379v3 )

ライセンス: Link先を確認
Andrew C. Cullen, Shijie Liu, Paul Montague, Sarah M. Erfani, Benjamin I.P. Rubinstein(参考訳) インスタンスの近傍に敵の例がないことを保証するため、認証機構はニューラルネットワークの堅牢性を示す上で重要な役割を果たす。 この論文では、これらの認定が保護に役立つモデルに悪影響を及ぼすかどうかを問う。 我々の新しい 'emph{Certification Aware Attack} は、計算効率のよいノルム最小化の正反対例を、同等の攻撃よりも74 %$多く生成すると同時に、中央摂動規範を10 %以上削減する。 これらの攻撃は認定範囲の厳密さを評価するのに使用できるが、認証がセキュリティを低下させるという明らかなパラドックスも強調する。

In guaranteeing the absence of adversarial examples in an instance's neighbourhood, certification mechanisms play an important role in demonstrating neural net robustness. In this paper, we ask if these certifications can compromise the very models they help to protect? Our new \emph{Certification Aware Attack} exploits certifications to produce computationally efficient norm-minimising adversarial examples $74 \%$ more often than comparable attacks, while reducing the median perturbation norm by more than $10\%$. While these attacks can be used to assess the tightness of certification bounds, they also highlight an apparent paradox -- that certifications can reduce security.
翻訳日:2024-02-28 01:00:14 公開日:2024-02-26
# CEDAS: 収束性を改善した圧縮分散確率勾配法

CEDAS: A Compressed Decentralized Stochastic Gradient Method with Improved Convergence ( http://arxiv.org/abs/2301.05872v2 )

ライセンス: Link先を確認
Kun Huang and Shi Pu(参考訳) 本稿では,通信制限条件下でのマルチエージェントネットワーク上での分散最適化問題を考察する。 本研究では,非バイアス圧縮演算子の下での滑らかな強凸対象関数と滑らかな非凸対象関数の両方に対して,非圧縮的収束率を集中的 {確率勾配勾配勾配 (SGD) として漸近的に達成する圧縮分散確率勾配法について検討する。 特に、cedasは、滑らかな強凸対象関数の下で$\mathcal{o}(n{c^3}/(1-\lambda_2)^{2})$、滑らかな非凸目的関数の下で$\mathcal{o}(n^3{c^6}/(1-\lambda_2)^4)$として振る舞う、集中型sgdの収束率を達成するための最も短い時間(1-\lambda_2)を楽しみ、ここで$(1-\lambda_2)$は混合行列のスペクトルギャップを表し、$c>0$は圧縮関連パラメータである。 数値実験により,提案アルゴリズムの有効性がさらに示された。

In this paper, we consider solving the distributed optimization problem over a multi-agent network under the communication restricted setting. We study a compressed decentralized stochastic gradient method, termed ``compressed exact diffusion with adaptive stepsizes (CEDAS)", and show the method asymptotically achieves comparable convergence rate as centralized { stochastic gradient descent (SGD)} for both smooth strongly convex objective functions and smooth nonconvex objective functions under unbiased compression operators. In particular, to our knowledge, CEDAS enjoys so far the shortest transient time (with respect to the graph specifics) for achieving the convergence rate of centralized SGD, which behaves as $\mathcal{O}(n{C^3}/(1-\lambda_2)^{2})$ under smooth strongly convex objective functions, and $\mathcal{O}(n^3{C^6}/(1-\lambda_2)^4)$ under smooth nonconvex objective functions, where $(1-\lambda_2)$ denotes the spectral gap of the mixing matrix, and $C>0$ is the compression-related parameter. Numerical experiments further demonstrate the effectiveness of the proposed algorithm.
翻訳日:2024-02-28 00:59:08 公開日:2024-02-26
# 表面電極イオントラップの空間電位特性

Characterizing the spatial potential of a surface electrode ion trap ( http://arxiv.org/abs/2301.00559v2 )

ライセンス: Link先を確認
Qingqing Qin (1, 2), Ting Chen (1, 2), Xinfang Zhang (3), Baoquan Ou (1, 2), Jie Zhang (1, 2), Chunwang Wu,(1, 2), Yi Xie (1, 2), Wei Wu (1, 2) and Pingxing Chen (1, 2) ((1) College of Science, National University of Defense Technology, Changsha, P. R. China, (2) Hunan Key Laboratory of Mechanism and Technology of Quantum Information, Changsha, Hunan, P. R. China, (3) Institute for Quantum Information & State Key Laboratory of High Performance Computing, College of Computer Science, National University of Defense Technology, Changsha, China)(参考訳) 表面型ポールトラップにおける平面電極によって生じる空間電位の正確なキャラクタリゼーションは、非常に興味深い。 これを実現するために、矩形電極の空間場を記述するために、単純かつ高精度なパラメトリック表現を用いる。 これにより、動力電極が生成する軸方向電界強度と迷路電界を精密に特徴付ける最適化手法が導入された。 既存の方法とは対照的に, 線形弦におけるイオンの平衡位置, 単一捕捉イオンの平衡位置, トラップ周波数など, 様々な実験データを用いて, 系統的誤差の軽減を図る。 このアプローチは、データ収集のための電圧設定において大きな柔軟性を提供し、特にイオンプローブトラップ高さがカジュアル電圧設定と異なる表面電極トラップに適している。 実験結果では,実験結果とモデル予測との相違を小さく抑えることができた。 世俗周波数の相対誤差は$\pm$ 0.5$\%$で抑えられ、イオンの位置誤差は1.2$\mu$m未満に制限され、いずれも既存の方法によって達成された誤差を上回った。

The accurate characterization of the spatial potential generated by a planar electrode in a surface-type Paul trap is of great interest. To achieve this, we employ a simple yet highly precise parametric expression to describe the spatial field of a rectangular-shaped electrode. Based on this, an optimization method is introduced to precisely characterize the axial electric field intensity created by the powered electrode and the stray field. In contrast to existing methods, various types of experimental data, such as the equilibrium position of ions in a linear string, equilibrium positions of single trapped ions and trap frequencies, are utilized for potential estimation in order to mitigate systematic errors. This approach offers significant flexibility in voltage settings for data collection, making it particularly well-suited for surface electrode traps where ion probe trapping height may vary with casual voltage settings. In our demonstration, we successfully minimized the discrepancy between experimental observations and model predictions to an impressive extent. The relative errors of secular frequencies were suppressed within $\pm$ 0.5$\%$, and the positional error of ions was limited to less than 1.2 $\mu$m, all surpassing those achieved by existing methodologies.
翻訳日:2024-02-28 00:58:38 公開日:2024-02-26
# 凝縮体問題における量子古典クロスオーバーの探索

Hunting for quantum-classical crossover in condensed matter problems ( http://arxiv.org/abs/2210.14109v3 )

ライセンス: Link先を確認
Nobuyuki Yoshioka, Tsuyoshi Okubo, Yasunari Suzuki, Yuki Koizumi, Wataru Mizukami(参考訳) 計算複雑性の観点からの量子優位性の追求は、さらに近代化された決定的な問題へと繋がった: 量子コンピュータは、いつ、どのように古典的コンピュータより優れているのか? 次のマイルストーンは、実際的な問題における量子加速の実現であることは間違いない。 ここで、第一のターゲットが凝縮物質物理学である可能性が高いという明確な証拠と議論を与える。 主な貢献は以下の通りである。 1)テンソルネットワークに基づく最先端古典アルゴリズムの系統的誤り/実行時間解析の提案 2) 実行可能な論理命令のレベルで実行される量子資源の専用かつ高分解能な解析 3) 基底状態シミュレーションのための量子古典的クロスポイントの明確化は、2dハイゼンベルクモデルと2dフェルミ・ハバードモデルに対して数十万の物理キュービットしか使用せず、論理キュービットは物理エラー率$p=10^{-3}$で表面コードを介してエンコードされると仮定して数時間以内である。 我々の知識では、凝縮した物質問題は、量子ビット数と総実行時間の両方の観点から、既知の候補よりも高次である実効的な量子優位性の実証のための最も早いプラットフォームを提供すると論じている。

The intensive pursuit for quantum advantage in terms of computational complexity has further led to a modernized crucial question: {\it When and how will quantum computers outperform classical computers?} The next milestone is undoubtedly the realization of quantum acceleration in practical problems. Here we provide a clear evidence and arguments that the primary target is likely to be condensed matter physics. Our primary contributions are summarized as follows: 1) Proposal of systematic error/runtime analysis on state-of-the-art classical algorithm based on tensor networks; 2) Dedicated and high-resolution analysis on quantum resource performed at the level of executable logical instructions; 3) Clarification of quantum-classical crosspoint for ground-state simulation to be within runtime of hours using only a few hundreds of thousand physical qubits for 2d Heisenberg and 2d Fermi-Hubbard models, assuming that logical qubits are encoded via the surface code with the physical error rate of $p=10^{-3}$. To our knowledge, we argue that condensed matter problems offer the earliest platform for demonstration of practical quantum advantage that is order-of-magnitude more feasible than ever known candidates, in terms of both qubit counts and total runtime.
翻訳日:2024-02-28 00:58:18 公開日:2024-02-26
# GUPはER=EPRのモデルとして機能するか?

Could GUP Act as a Model for the ER=EPR Conjecture? ( http://arxiv.org/abs/2210.13974v6 )

ライセンス: Link先を確認
Ahmed Farag Ali(参考訳) アインシュタイン、ポドルスキー、ローゼン(epr)は思考実験を通じて、不確実性原理は現実の完全な説明を提供しないかもしれないと提案した。 線形一般化不確実性原理(GUP)は,最小測定可能な長さで消失不確実性を示すことによって,EPRパラドックスを解くことができる。 これは量子力学の完全性に光を当てることで、線形 GUP とベケンシュタイン境界の間の等価性、すなわち物理系を量子レベルまで完全に記述するのに必要となる情報の最大量を規定する境界を提案することができる。 この等価性は、水素原子/核半径と宇宙定数の値を説明することによって検証される。 最近の研究では、アインシュタイン・ローゼン橋(ER)が最小長(GUP)に由来することが確認された。 これらの結果を踏まえ、線形 GUP が ER=EPR 予想のモデルとして機能することを提案する。

Einstein, Podolsky, and Rosen (EPR) proposed, via a thought experiment, that the uncertainty principle might not provide a complete description of reality. We propose that the linear generalized uncertainty principle (GUP) may resolve the EPR paradox by demonstrating vanishing uncertainty at the minimal measurable length. This may shed light on the completeness of quantum mechanics which leads us to propose an equivalency between the linear GUP and the Bekenstein bound, a bound that prescribes the maximum amount of information needed to completely describe a physical system up to quantum level. This equivalency is verified through explaining the Hydrogen's atom/nuclei radii as well as the value of the cosmological constant. In a recent published study, we verified that the Einstein-Rosen (ER) bridge originates from the minimal length or GUP. Considering these findings together, we propose that linear GUP could function as a model for the ER=EPR conjecture.
翻訳日:2024-02-28 00:57:57 公開日:2024-02-26
# 新規性に見逃すな: 深部異常検出のための新しい特徴の重要性

Don't Miss Out on Novelty: Importance of Novel Features for Deep Anomaly Detection ( http://arxiv.org/abs/2310.00797v4 )

ライセンス: Link先を確認
Sarath Sivaprasad and Mario Fritz(参考訳) 異常検出(AD)は、正規性の学習モデルに適合しない観察を識別する重要なタスクである。 ディープADにおける以前の研究は主に親しみやすい仮説に基づいており、親しみやすい特徴が事前訓練された埋め込み空間の参照として機能する。 この戦略は非常に成功したが、事前訓練された符号化によってうまく捉えられていない真に新しい特徴からなる異常が一貫した偽陰性を引き起こすことが判明した。 本稿では, 入力空間における説明不能な観測として, 説明可能性を用いた新しいAD手法を提案する。 ハイブリッドアプローチで親しみと新しさを組み合わせることで,幅広い異常ベンチマークにおいて強力なパフォーマンスを実現する。 提案手法は,複数のベンチマークにまたがる新たな最先端性を確立し,多様な異常な型を扱うとともに,高価なバックグラウンドモデルや密マッチングを必要としない。 特に,新しい特徴を考慮すれば,最先端のベンチマークと比較して,挑戦的なベンチマークで偽陰性異常を最大40%削減できることを示す。 本手法は,画素レベルの異常に対する視覚検査可能な説明を与える。

Anomaly Detection (AD) is a critical task that involves identifying observations that do not conform to a learned model of normality. Prior work in deep AD is predominantly based on a familiarity hypothesis, where familiar features serve as the reference in a pre-trained embedding space. While this strategy has proven highly successful, it turns out that it causes consistent false negatives when anomalies consist of truly novel features that are not well captured by the pre-trained encoding. We propose a novel approach to AD using explainability to capture such novel features as unexplained observations in the input space. We achieve strong performance across a wide range of anomaly benchmarks by combining familiarity and novelty in a hybrid approach. Our approach establishes a new state-of-the-art across multiple benchmarks, handling diverse anomaly types while eliminating the need for expensive background models and dense matching. In particular, we show that by taking account of novel features, we reduce false negative anomalies by up to 40% on challenging benchmarks compared to the state-of-the-art. Our method gives visually inspectable explanations for pixel-level anomalies.
翻訳日:2024-02-28 00:42:18 公開日:2024-02-26
# 強化学習のためのコントラスト初期状態バッファ

Contrastive Initial State Buffer for Reinforcement Learning ( http://arxiv.org/abs/2309.09752v3 )

ライセンス: Link先を確認
Nico Messikommer, Yunlong Song, Davide Scaramuzza(参考訳) 強化学習では、探索と搾取の間のトレードオフは、限られたサンプルから効率的な学習を達成するための複雑な課題となる。 最近の研究は、ポリシー更新に過去の経験を活用するのに効果的だが、データ収集に過去の経験を再利用する可能性をしばしば見落としている。 基礎となるRLアルゴリズムとは独立したコントラスト初期状態バッファ(Contrastive Initial State Buffer)の概念を導入し、過去の経験から状態を戦略的に選択し、エージェントを環境内で初期化し、より情報のある状態へ誘導する。 環境に関する事前情報に頼ることなく、2つの複雑なロボットタスクに対するアプローチを検証する。 (i)挑戦的な地形を横断する四足ロボットの移動 (ii)トラックを走るクワッドコプタードローン。 実験の結果,初期状態バッファは通常のベースラインよりも高いタスク性能を実現し,トレーニング収束も高速化した。

In Reinforcement Learning, the trade-off between exploration and exploitation poses a complex challenge for achieving efficient learning from limited samples. While recent works have been effective in leveraging past experiences for policy updates, they often overlook the potential of reusing past experiences for data collection. Independent of the underlying RL algorithm, we introduce the concept of a Contrastive Initial State Buffer, which strategically selects states from past experiences and uses them to initialize the agent in the environment in order to guide it toward more informative states. We validate our approach on two complex robotic tasks without relying on any prior information about the environment: (i) locomotion of a quadruped robot traversing challenging terrains and (ii) a quadcopter drone racing through a track. The experimental results show that our initial state buffer achieves higher task performance than the nominal baseline while also speeding up training convergence.
翻訳日:2024-02-28 00:41:59 公開日:2024-02-26
# 量子系を電荷化するために必要な最小時間

Minimal time required to charge a quantum system ( http://arxiv.org/abs/2308.16086v2 )

ライセンス: Link先を確認
Ju-Yeon Gyhm, Dario Rosa, and Dominik \v{S}afr\'anek(参考訳) 量子電荷距離を、駆動ハミルトニアンに投じられた資源の限界を仮定して、ある状態(チャージ状態)から別の状態(枯渇状態)に到達するのに要する最小の時間として導入する。 純粋な状態の場合、これはバーズ角と等しいが、混合状態の場合、その計算は最適化問題につながる。 したがって、この量に対する計算可能な境界も容易に導出できる。 充電距離は、既知の量子電池の平均充電パワーの束縛を厳しくし、量子充電の優位性を定量化し、常に達成可能な量子速度限界につながる。 他の類似した量とは対照的に、電荷距離は密度行列の固有値に依存しず、対応する固有空間のみに依存する。 本研究は、量子充電を幾何学的に形式化し、解釈し、将来の量子電池の充電速度を最大化するために最適化できる測定可能な量を提供する。

We introduce a quantum charging distance as the minimal time that it takes to reach one state (charged state) from another state (depleted state) via a unitary evolution, assuming limits on the resources invested into the driving Hamiltonian. For pure states it is equal to the Bures angle, while for mixed states, its computation leads to an optimization problem. Thus, we also derive easily computable bounds on this quantity. The charging distance tightens the known bound on the mean charging power of a quantum battery, it quantifies the quantum charging advantage, and it leads to an always achievable quantum speed limit. In contrast with other similar quantities, the charging distance does not depend on the eigenvalues of the density matrix, it depends only on the corresponding eigenspaces. This research formalizes and interprets quantum charging in a geometric way, and provides a measurable quantity that one can optimize for to maximize the speed of charging of future quantum batteries.
翻訳日:2024-02-28 00:41:45 公開日:2024-02-26
# ツイスト二層グラフェンにおける電子力学のモデリング

Modeling of electronic dynamics in twisted bilayer graphene ( http://arxiv.org/abs/2308.10430v2 )

ライセンス: Link先を確認
Tianyu Kong, Diyi Liu, Mitchell Luskin, Alexander B. Watson(参考訳) 二層グラフェンのねじれにおける電子の量子力学を数値計算する問題を考える。 問題なのは、ダイナミクスの原子スケールモデルが、層の非可換性のため、一般的なねじれ角に対して非周期的であることである。 Bistritzer-MacDonald PDEモデル(英語版)は、2層のmoir\'eパターンに対して周期的であるが、最近パラメータ構造においてこれらのダイナミクスを厳密に記述することが示されている。 本研究では, 有限領域上の計算により非共役ツイスト二層グラフェンの密結合モデルのダイナミクスを近似できることを最初に証明する。 この証明の主な要素は、Combes-Thomas推定を用いて証明された伝播推定速度である。 次に,Bistritzer-MacDonaldモデルの有効性の範囲を明らかにする。

We consider the problem of numerically computing the quantum dynamics of an electron in twisted bilayer graphene. The challenge is that atomic-scale models of the dynamics are aperiodic for generic twist angles because of the incommensurability of the layers. The Bistritzer-MacDonald PDE model, which is periodic with respect to the bilayer's moir\'e pattern, has recently been shown to rigorously describe these dynamics in a parameter regime. In this work, we first prove that the dynamics of the tight-binding model of incommensurate twisted bilayer graphene can be approximated by computations on finite domains. The main ingredient of this proof is a speed of propagation estimate proved using Combes-Thomas estimates. We then provide extensive numerical computations which clarify the range of validity of the Bistritzer-MacDonald model.
翻訳日:2024-02-28 00:40:47 公開日:2024-02-26
# 弱教師付き学習を用いた2次元画像からの歯の処理とセグメンテーション

Processing and Segmentation of Human Teeth from 2D Images using Weakly Supervised Learning ( http://arxiv.org/abs/2311.07398v2 )

ライセンス: Link先を確認
Tom\'a\v{s} Kunzo, Viktor Kocur, Luk\'a\v{s} Gajdo\v{s}ech, Martin Madaras(参考訳) 歯のセグメンテーションは、正確な診断と治療計画のための歯科画像解析に欠かせない課題である。 教師付き深層学習法は歯のセグメンテーションに利用することができるが、時間と費用のかかるセグメンテーションマスクの広範な手動アノテーションを必要とすることが多い。 本研究では,手動アノテーションの必要性を減らすために,歯のセグメンテーションに対する弱い教師付きアプローチを提案する。 本手法は,キーポイント検出ネットワークからの出力ヒートマップと中間特徴マップを用いて,セグメント化プロセスの導出を行う。 そこで本研究では,歯牙キーポイントを付与した3000個の口腔画像から,歯牙キーポイント検出ネットワークのトレーニングを行う。 キーポイント検出ネットワークの異なる層からの特徴マップを組み合わせ、明示的なセグメンテーションアノテーションなしで正確な歯のセグメンテーションを可能にする。 検出されたキーポイントは、セグメンテーションマスクのさらなる洗練にも使用される。 TriDentalデータセットの実験結果は,最先端セグメンテーション法と比較して精度と堅牢性の観点から,我々のアプローチの優位性を示している。 本手法は, 実世界の歯科用アプリケーションにおいて, 歯のセグメンテーションに費用対効果と効率的なソリューションを提供する。

Teeth segmentation is an essential task in dental image analysis for accurate diagnosis and treatment planning. While supervised deep learning methods can be utilized for teeth segmentation, they often require extensive manual annotation of segmentation masks, which is time-consuming and costly. In this research, we propose a weakly supervised approach for teeth segmentation that reduces the need for manual annotation. Our method utilizes the output heatmaps and intermediate feature maps from a keypoint detection network to guide the segmentation process. We introduce the TriDental dataset, consisting of 3000 oral cavity images annotated with teeth keypoints, to train a teeth keypoint detection network. We combine feature maps from different layers of the keypoint detection network, enabling accurate teeth segmentation without explicit segmentation annotations. The detected keypoints are also used for further refinement of the segmentation masks. Experimental results on the TriDental dataset demonstrate the superiority of our approach in terms of accuracy and robustness compared to state-of-the-art segmentation methods. Our method offers a cost-effective and efficient solution for teeth segmentation in real-world dental applications, eliminating the need for extensive manual annotation efforts.
翻訳日:2024-02-28 00:32:40 公開日:2024-02-26
# コンピュータビジョンを用いた運転者の視点からの屋外広告の意義評価

Evaluating the Significance of Outdoor Advertising from Driver's Perspective Using Computer Vision ( http://arxiv.org/abs/2311.07390v2 )

ライセンス: Link先を確認
Zuzana \v{C}ernekov\'a, Zuzana Berger Haladov\'a, J\'an \v{S}pirka, Viktor Kocur(参考訳) 路傍の看板のような屋外広告は、マーケティングキャンペーンで重要な役割を果たすが、ドライバーの気晴らしにもなり、事故に繋がる可能性がある。 本研究では,運転者の視点から撮影した映像における道路広告の意義を評価するパイプラインを提案する。 我々は、視線追跡デバイスを装着して、事前に定義された経路を運転するドライバーが撮影した8つのビデオを含む、新しいBillboardLamacデータセットを収集し、注釈付けした。 データセットには154のユニークなidと155万のバウンディングボックスを含むビルボードのアノテーションとアイフィケーションデータが含まれている。 YOLOv8検出器と組み合わせて様々な物体追跡手法を評価し,BillboardLamac上で38.5HOTAを達成できる最善のアプローチで広告広告を識別する。 さらに、ランダムな森林分類器を訓練し、75.8%の精度で運転者の固定時間に基づいて3つのクラスに分類する。 訓練された分類器の分析により, 看板の可視性, 満足度, サイズが, 看板の意義を評価する上で最も重要な特徴であることが判明した。

Outdoor advertising, such as roadside billboards, plays a significant role in marketing campaigns but can also be a distraction for drivers, potentially leading to accidents. In this study, we propose a pipeline for evaluating the significance of roadside billboards in videos captured from a driver's perspective. We have collected and annotated a new BillboardLamac dataset, comprising eight videos captured by drivers driving through a predefined path wearing eye-tracking devices. The dataset includes annotations of billboards, including 154 unique IDs and 155 thousand bounding boxes, as well as eye fixation data. We evaluate various object tracking methods in combination with a YOLOv8 detector to identify billboard advertisements with the best approach achieving 38.5 HOTA on BillboardLamac. Additionally, we train a random forest classifier to classify billboards into three classes based on the length of driver fixations achieving 75.8% test accuracy. An analysis of the trained classifier reveals that the duration of billboard visibility, its saliency, and size are the most influential features when assessing billboard significance.
翻訳日:2024-02-28 00:32:21 公開日:2024-02-26
# 制約付き階層型モンテカルロ信念状態計画

Constrained Hierarchical Monte Carlo Belief-State Planning ( http://arxiv.org/abs/2310.20054v2 )

ライセンス: Link先を確認
Arec Jamgochian, Hugo Buurmeijer, Kyle H. Wray, Anthony Corso, Mykel J. Kochenderfer(参考訳) 制約付き部分観測可能なマルコフ決定プロセス(CPOMDPs)の最適計画は、コスト制約を満たしつつ報酬目標を最大化し、状態と遷移の不確実性の下で安全な計画を一般化する。 残念ながら、大規模または連続的な問題領域ではオンラインCPOMDP計画は非常に難しい。 多くの大きなロボットドメインでは、階層的な分解は、高レベルのアクションプリミティブ(オプション)を与えられた低レベル制御のためのツールを使用することで、計画を簡単にすることができる。 我々は、この階層を活用し、オンライン検索ベースのCPOMDPプランニングを大規模ロボット問題に拡張するために、制約付きオプション選択木探索(COBeTS)を導入する。 プリミティブオプションコントローラが割り当てられた制約予算を満たすように定義された場合、COBeTSはいつでも制約を満たす。 さもなくば、cobetsはオプションプリミティブの安全なシーケンスへの検索をガイドし、階層的監視はランタイムの安全性を達成するために使用できる。 我々はCOBeTSをいくつかの安全クリティカルで制約のある部分的に観測可能なロボットドメインで実証し、非階層的ベースラインでは不可能な連続CPOMDPで計画できることを示した。

Optimal plans in Constrained Partially Observable Markov Decision Processes (CPOMDPs) maximize reward objectives while satisfying hard cost constraints, generalizing safe planning under state and transition uncertainty. Unfortunately, online CPOMDP planning is extremely difficult in large or continuous problem domains. In many large robotic domains, hierarchical decomposition can simplify planning by using tools for low-level control given high-level action primitives (options). We introduce Constrained Options Belief Tree Search (COBeTS) to leverage this hierarchy and scale online search-based CPOMDP planning to large robotic problems. We show that if primitive option controllers are defined to satisfy assigned constraint budgets, then COBeTS will satisfy constraints anytime. Otherwise, COBeTS will guide the search towards a safe sequence of option primitives, and hierarchical monitoring can be used to achieve runtime safety. We demonstrate COBeTS in several safety-critical, constrained partially observable robotic domains, showing that it can plan successfully in continuous CPOMDPs while non-hierarchical baselines cannot.
翻訳日:2024-02-28 00:30:52 公開日:2024-02-26
# 風力発電予測のための説明可能なモデリング:高精度ガラス箱アプローチ

Explainable Modeling for Wind Power Forecasting: A Glass-Box Approach with High Accuracy ( http://arxiv.org/abs/2310.18629v2 )

ライセンス: Link先を確認
Wenlong Liao, Fernando Porte-Agel, Jiannong Fang, Birgitte Bak-Jensen, Guangchun Ruan, Zhe Yang(参考訳) 機械学習モデル(例えばニューラルネットワーク)は風力発電予測において高い精度を達成するが、通常は解釈不可能なブラックボックスと見なされる。 この問題に対処するため,風力予測のための高精度と透明性を組み合わせたガラスボックス手法を提案する。 具体的には、風力出力と入力特徴の複雑な非線形関係を効果的にマッピングする形状関数を構築することで、特徴効果を総括する。 さらに、入力特徴間の相互依存や相乗関係を適切にキャプチャする相互作用項を組み込むことにより、予測モデルが強化される。 ガラスボックスアプローチの添加性は、その解釈可能性を保証する。 シミュレーションの結果,提案手法は風力予測の結果を大域的および実例的に効果的に解釈できることがわかった。 さらに、ほとんどのベンチマークモデルを上回っ、最高のパフォーマンスのニューラルネットワークに匹敵するパフォーマンスを示す。 この透明性と高精度の二重強度は、信頼できる風力予測のための魅力的な選択として提案されたガラスボックスアプローチを位置づけている。

Machine learning models (e.g., neural networks) achieve high accuracy in wind power forecasting, but they are usually regarded as black boxes that lack interpretability. To address this issue, the paper proposes a glass-box approach that combines high accuracy with transparency for wind power forecasting. Specifically, the core is to sum up the feature effects by constructing shape functions, which effectively map the intricate non-linear relationships between wind power output and input features. Furthermore, the forecasting model is enriched by incorporating interaction terms that adeptly capture interdependencies and synergies among the input features. The additive nature of the proposed glass-box approach ensures its interpretability. Simulation results show that the proposed glass-box approach effectively interprets the results of wind power forecasting from both global and instance perspectives. Besides, it outperforms most benchmark models and exhibits comparable performance to the best-performing neural networks. This dual strength of transparency and high accuracy positions the proposed glass-box approach as a compelling choice for reliable wind power forecasting.
翻訳日:2024-02-28 00:30:33 公開日:2024-02-26
# オーバーエアフェデレーション政策のグラディエント

Over-the-air Federated Policy Gradient ( http://arxiv.org/abs/2310.16592v3 )

ライセンス: Link先を確認
Huiwen Yang, Lingying Huang, Subhrakanti Dey, Ling Shi(参考訳) 近年,大規模分散学習,最適化,センシングにおいて,空中アグリゲーションが広く検討されている。 本稿では,ローカル情報を含むアナログ信号を共通無線チャネルに同時に送信するオーバー・ザ・エア・フェデレーション・ポリシー勾配アルゴリズムを提案し,中央制御器は受信した集約波形を用いてポリシーパラメータを更新する。 本研究では,提案アルゴリズムの収束に及ぼす雑音とチャネル歪みの影響について検討し,$\epsilon$-approximate stationary pointを求めるための通信とサンプリングの複雑さを確立する。 最後に,本アルゴリズムの有効性を示すシミュレーション結果を示す。

In recent years, over-the-air aggregation has been widely considered in large-scale distributed learning, optimization, and sensing. In this paper, we propose the over-the-air federated policy gradient algorithm, where all agents simultaneously broadcast an analog signal carrying local information to a common wireless channel, and a central controller uses the received aggregated waveform to update the policy parameters. We investigate the effect of noise and channel distortion on the convergence of the proposed algorithm, and establish the complexities of communication and sampling for finding an $\epsilon$-approximate stationary point. Finally, we present some simulation results to show the effectiveness of the algorithm.
翻訳日:2024-02-28 00:30:18 公開日:2024-02-26
# 大規模階層予測

Hierarchical Forecasting at Scale ( http://arxiv.org/abs/2310.12809v2 )

ライセンス: Link先を確認
Olivier Sprangers, Wander Wadman, Sebastian Schelter, Maarten de Rijke(参考訳) 既存の階層予測技術は、時系列の数が増加するとスケールが低下する。 階層的製品および/または時間的構造を直接最適化するスパース損失関数を用いて,単一のボトムレベル予測モデルを用いて,数百万の時系列のコヒーレント予測を学習する。 スパース階層的損失関数の利点は、実践者が選択した横断的階層や時間的階層に一貫性のあるボトムレベル予測を生成する方法を提供することである。 さらに,従来の階層予測技術で必要とされる処理後ステップの不要化により,予測パイプラインの予測フェーズの計算コストが低減される。 一般のM5データセットでは,我々のスパース階層的損失関数は,ベースライン損失関数よりも10%(RMSE)高い性能を示した。 欧州の大規模なeコマースプラットフォームであるbolでは,既存の予測モデルに疎い階層的損失関数を実装することで,製品レベルでの予測性能が2%向上しました。 最後に, 断面階層間の予測性能を評価する際に, 予測性能が約5~10%向上することを発見した。 これらの結果は,大手電子商取引プラットフォームにおける生産予測システムに適用したスパース階層的損失の有用性を示すものである。

Existing hierarchical forecasting techniques scale poorly when the number of time series increases. We propose to learn a coherent forecast for millions of time series with a single bottom-level forecast model by using a sparse loss function that directly optimizes the hierarchical product and/or temporal structure. The benefit of our sparse hierarchical loss function is that it provides practitioners a method of producing bottom-level forecasts that are coherent to any chosen cross-sectional or temporal hierarchy. In addition, removing the need for a post-processing step as required in traditional hierarchical forecasting techniques reduces the computational cost of the prediction phase in the forecasting pipeline. On the public M5 dataset, our sparse hierarchical loss function performs up to 10% (RMSE) better compared to the baseline loss function. We implement our sparse hierarchical loss function within an existing forecasting model at bol, a large European e-commerce platform, resulting in an improved forecasting performance of 2% at the product level. Finally, we found an increase in forecasting performance of about 5-10% when evaluating the forecasting performance across the cross-sectional hierarchies that we defined. These results demonstrate the usefulness of our sparse hierarchical loss applied to a production forecasting system at a major e-commerce platform.
翻訳日:2024-02-28 00:29:33 公開日:2024-02-26
# 2バンドハバードモデルにおける空洞媒介相互作用の励起性増強

Excitonic enhancement of cavity-mediated interactions in a two-band Hubbard model ( http://arxiv.org/abs/2310.12626v3 )

ライセンス: Link先を確認
Xiao Wang, Dieter Jaksch, Frank Schlawin(参考訳) 本研究は, 2次元2バンドハバードモデルにおいて, 強いレーザーにより駆動されるとき, 光共振器に結合したキャビティを媒介とする相互作用について研究する。 Floquetによる駆動システムの記述から、高エネルギー自由度を投影し、平均場レベルでの内在的相互作用を処理することにより、有効な低エネルギーハミルトニアンを導出する。 次に, 電子バンド近傍で形成される電子バンドカップリングによる高エネルギーフレンケル励起子の出現が, 電子バンド構造のレーザ誘起フロッケ再正規化と相互作用に与える影響について検討した。 キャビティを介する相互作用は、光が励起遷移に結合するときに強く強化される。 さらに、相互作用とフロケ再正規化は相互空間において強く拡張され、これにより空洞媒介相互作用が駆動散逸定常状態に与える影響をさらに高めることができる。

We study cavity-mediated interactions that are generated in a two-dimensional two-band Hubbard model coupled to an optical cavity, when it is driven in-gap by a strong laser. Starting from a Floquet description of the driven system, we derive effective low-energy Hamiltonians by projecting out the high-energy degrees of freedom and treating intrinsic interactions on a mean field level. We then investigate how the emergence of high-energy Frenkel excitons from the electronic interband coupling, which form near the upper electronic band, affects the interactions as well as the laser-induced Floquet renormalization of the electronic band structure. Cavity-mediated interactions are enhanced strongly when the light couples to an excitonic transition. Additionally, the interaction as well as the Floquet renormalization are strongly broadened in reciprocal space, which could further boost the impact of cavity-mediated interactions on the driven-dissipative steady state.
翻訳日:2024-02-28 00:29:15 公開日:2024-02-26
# マルチスケール情報抽出技術による医用視覚基礎モデルの表現強化

Enhancing Representation in Medical Vision-Language Foundation Models via Multi-Scale Information Extraction Techniques ( http://arxiv.org/abs/2401.01583v2 )

ライセンス: Link先を確認
Weijian Huang, Cheng Li, Hong-Yu Zhou, Jiarun Liu, Hao Yang, Yong Liang, Guangming Shi, Hairong Zheng, Shanshan Wang(参考訳) 医療視覚言語基礎モデルの開発は、様々な臨床応用に有望な展望があるため、医療と医療の分野で大きな注目を集めている。 従来の研究では、単一学習規模での機能学習に重点を置いていたが、マルチスケール情報の統合に関する調査は欠如しており、これらの特徴間の相互強化の可能性を妨げている可能性がある。 本稿では,医療基盤モデルの性能向上のために,マルチスケール情報を効果的に活用する手法を提案する。 提案手法は,局所的な特徴,例えばモダリティ,グローバルな側面を同時に利用し,モデル内の包括的表現学習を容易にする。 そこで本研究では,様々な臨床課題にまたがる6つのオープンソースデータセットに対する提案手法の有効性を評価し,医療基礎モデルの性能向上効果を実証する。

The development of medical vision-language foundation models has attracted significant attention in the field of medicine and healthcare due to their promising prospect in various clinical applications. While previous studies have commonly focused on feature learning at a single learning scale, investigation on integrating multi-scale information is lacking, which may hinder the potential for mutual reinforcement among these features. This paper aims to bridge this gap by proposing a method that effectively exploits multi-scale information to enhance the performance of medical foundation models. The proposed method simultaneously exploits features at the local, instance, modality and global aspects, facilitating comprehensive representation learning within the models. We evaluate the effectiveness of the proposed method on six open-source datasets across different clinical tasks, demonstrating its ability to enhance the performance of medical foundation models.
翻訳日:2024-02-28 00:22:00 公開日:2024-02-26
# LaneSegNet: 自動運転のためのレーンセグメント認識によるマップ学習

LaneSegNet: Map Learning with Lane Segment Perception for Autonomous Driving ( http://arxiv.org/abs/2312.16108v2 )

ライセンス: Link先を確認
Tianyu Li, Peijin Jia, Bangjun Wang, Li Chen, Kun Jiang, Junchi Yan, Hongyang Li(参考訳) 地図は、自律運転システムの下流アプリケーションにとって重要な情報であり、通常車線や中央線で表現される。 しかし、地図学習に関する既存の文献は主に幾何学に基づく線線の検出や中心線のトポロジー関係の知覚に焦点を当てている。 これらの手法はどちらも、直線と中心線が中心線に結合する内在的な関係を無視している。 1つのモデルで両方のレーンを単純に予測することは学習目的において互いに除外されるが、我々はレーンセグメントを幾何学情報とトポロジ情報の両方をシームレスに組み込む新しい表現として推奨する。 そこで,道路構造の完全な表現を得るために,レーンセグメントを生成する最初のエンドツーエンドマッピングネットワークであるLaneSegNetを紹介した。 我々のアルゴリズムには2つの重要な修正がある。 ひとつはレーンアテンションモジュールで、長距離機能空間内の重要な領域の詳細をキャプチャする。 もう1つは、基準点に対する同一の初期化戦略であり、車線注意のための位置前の学習を強化する。 OpenLane-V2データセットでは、LaneSegNetは以前の3つのタスクで大幅に向上し、マップ要素検出(+4.8 mAP)、中心線知覚(+6.9 DET$_l$)、新たに定義されたレーンセグメント認識(+5.6 mAP)である。 さらに、リアルタイムの推論速度14.7 FPSを得る。 コードはhttps://github.com/OpenDriveLab/LaneSegNetでアクセスできる。

A map, as crucial information for downstream applications of an autonomous driving system, is usually represented in lanelines or centerlines. However, existing literature on map learning primarily focuses on either detecting geometry-based lanelines or perceiving topology relationships of centerlines. Both of these methods ignore the intrinsic relationship of lanelines and centerlines, that lanelines bind centerlines. While simply predicting both types of lane in one model is mutually excluded in learning objective, we advocate lane segment as a new representation that seamlessly incorporates both geometry and topology information. Thus, we introduce LaneSegNet, the first end-to-end mapping network generating lane segments to obtain a complete representation of the road structure. Our algorithm features two key modifications. One is a lane attention module to capture pivotal region details within the long-range feature space. Another is an identical initialization strategy for reference points, which enhances the learning of positional priors for lane attention. On the OpenLane-V2 dataset, LaneSegNet outperforms previous counterparts by a substantial gain across three tasks, \textit{i.e.}, map element detection (+4.8 mAP), centerline perception (+6.9 DET$_l$), and the newly defined one, lane segment perception (+5.6 mAP). Furthermore, it obtains a real-time inference speed of 14.7 FPS. Code is accessible at https://github.com/OpenDriveLab/LaneSegNet.
翻訳日:2024-02-28 00:21:30 公開日:2024-02-26
# ユニバーサルフラックスによる$\pi$-squidの制御

Universal flux-based control of a $\pi$-SQUID ( http://arxiv.org/abs/2312.04321v2 )

ライセンス: Link先を確認
J. Wilson Staples, Thomas B. Smith, Andrew C. Doherty(参考訳) 非理想的$\pi$- periodic superconducting qubits の普遍制御のためのプロトコルについて述べる。 この提案は、外部磁束が回路をスレッディングする2つの$\pi$周期回路要素によって形成される超伝導ループである$\pi$-squidに依拠する。 このシステムはハーフフラックス周辺に広大なスイートスポットを示し、残余の2ドル周期クーパーペアトンネルは高度に抑制されている。 我々は,この広義のスイートスポットにおいて,フラックスを非分離的かつ対数的にチューニングすることにより,普遍的な単一量子ビット演算を実現することを実証する。 また,$\pi$-squidsの残差がホロノミック相ゲートに与える影響についても検討した。

We describe a protocol for the universal control of non-ideal $\pi$-periodic superconducting qubits. Our proposal relies on a $\pi$-SQUID: a superconducting loop formed by two $\pi$-periodic circuit elements, with an external magnetic flux threading the circuit. The system exhibits an extensive sweet spot around half-flux where residual $2\pi$-periodic Cooper pair tunneling is highly suppressed. We demonstrate that universal single-qubit operations can be realised by tuning the flux adiabatically and diabatically within this broad sweet spot. We also assess how residual $2\pi$-periodicity in $\pi$-SQUIDs impacts holonomic phase gates.
翻訳日:2024-02-28 00:19:56 公開日:2024-02-26
# 3端子量子ドット熱電対のグラフ理論的解析:オンザガー関係とスピン-熱電効果

Graph Theoretic Analysis of Three-Terminal Quantum Dot Thermocouples: Onsager Relations and Spin-Thermoelectric Effects ( http://arxiv.org/abs/2311.16548v2 )

ライセンス: Link先を確認
Nikhil Gupt, Shuvadip Ghosh and Arnab Ghosh(参考訳) 2つの強結合量子ドットからなる3端子量子熱電対の簡易モデルを提案する。 スピン依存ゼーベック効果とペルティエ効果を解明するために、顕微鏡的ハミルトン方程式を用い、リンドブラッドマスター方程式を量子遷移ネットワークにマッピングし、両相互効果の主要な作用原理を捉える。 本研究では,クーロン相互作用とスピンフリッピング過程を包含する量子熱力学ネットワークを明らかにした。 代数グラフ理論を用いて,循環束とサイクル力の観点から表されるエントロピー生成率の確率的バージョンから,可逆熱力学の現象論的法則を回復する。 驚くべきことに、輸送係数に対するオンザガー相反性とケルビン関係は、量子遷移ネットワーク内のサイクルフラックス軌道の性質においてその前提を見つける。 これは、局所平衡仮定に依存する可逆熱力学の古典法則とは根本的に異なる基礎にもかかわらず、古典的および量子的領域における熱力学原理の普遍的一般化を基礎としている。

We introduce a simplified model for a three-terminal quantum thermocouple consisting of two strongly-coupled quantum dots. To elucidate spin-dependent Seebeck and Peltier effects, we employ a microscopic Hamiltonian and map the Lindblad master equation onto a quantum transition network, capturing the key working principles for both reciprocal effects. Our analysis reveals quantum thermodynamic networks encompassing both Coulomb interaction and spin-flipping processes, lead to the emergence of spin-thermolectric effects. Using algebraic graph theory, we recover the phenomenological law of irreversible thermodynamics from the stochastic version of the entropy production rate expressed in terms of cycle flux and cycle forces. Remarkably, Onsager reciprocity and Kelvin relation for transport coefficients find their premises in the properties of cycle flux trajectories within the quantum transition network. This underscores the universal generality of thermodynamic principles across classical and quantum realms, despite their fundamentally different basis from classical laws of irreversible thermodynamics relying on local equilibrium assumptions.
翻訳日:2024-02-28 00:19:18 公開日:2024-02-26
# ソーシャルメディアプラットフォーム間のインターネットミームのコンテキスト化

Contextualizing Internet Memes Across Social Media Platforms ( http://arxiv.org/abs/2311.11157v2 )

ライセンス: Link先を確認
Saurav Joshi, Filip Ilievski, Luca Luceri(参考訳) インターネットミームは、ウェブ上でのコミュニケーションとアイデア表現のための新しいフォーマットとして登場した。 その流動性と創造性は、しばしばプラットフォームをまたいで、時には非倫理的または有害な目的のために広く使われることに反映されている。 計算作業は、そのハイレベルなバイラル性を時間とともに分析し、ヘイトスピーチ検出のための特殊な分類器を開発したが、これまで、ソーシャルメディアに投稿されたインターネットミームを全体追跡、識別、マップ化するための努力は行われていない。 このギャップを埋めるために,ソーシャルメディアプラットフォーム全体のインターネットミームが,知識のセマンティックリポジトリ,すなわちナレッジグラフを用いてコンテキスト化可能であるかどうかを検討する。 RedditとDiscordという2つのソーシャルメディアプラットフォームから何千もの潜在的なインターネットミーム投稿を収集し、抽出-変換-ロード手順を開発し、候補ミーム投稿とデータレイクを作成します。 視覚変換器をベースとした類似性を利用して、これらの候補をIMKGでカタログ化されたミーム(インターネットミームの知識グラフ)と比較する。 この基盤を利用して,提案フレームワークの可能性を強調し,異なるプラットフォーム上でのミームの出現状況を調査し,IMKGにマップし,ソーシャルメディア上でミームの文脈を提供する。

Internet memes have emerged as a novel format for communication and expressing ideas on the web. Their fluidity and creative nature are reflected in their widespread use, often across platforms and occasionally for unethical or harmful purposes. While computational work has already analyzed their high-level virality over time and developed specialized classifiers for hate speech detection, there have been no efforts to date that aim to holistically track, identify, and map internet memes posted on social media. To bridge this gap, we investigate whether internet memes across social media platforms can be contextualized by using a semantic repository of knowledge, namely, a knowledge graph. We collect thousands of potential internet meme posts from two social media platforms, namely Reddit and Discord, and develop an extract-transform-load procedure to create a data lake with candidate meme posts. By using vision transformer-based similarity, we match these candidates against the memes cataloged in IMKG -- a recently released knowledge graph of internet memes. We leverage this grounding to highlight the potential of our proposed framework to study the prevalence of memes on different platforms, map them to IMKG, and provide context about memes on social media.
翻訳日:2024-02-28 00:18:08 公開日:2024-02-26
# 深層学習を用いた構造化光スキャナからのデータのスーパーサンプリング

Supersampling of Data from Structured-light Scanner with Deep Learning ( http://arxiv.org/abs/2311.07432v2 )

ライセンス: Link先を確認
Martin Melicher\v{c}\'ik, Luk\'a\v{s} Gajdo\v{s}ech, Viktor Kocur, Martin Madaras(参考訳) 本稿では,構造光技術を用いた3次元カメラから得られる深度マップの解像度向上に焦点をあてる。 2つのディープラーニングモデルFDSRとDKNは高解像度のデータを扱うように修正され、安定したトレーニングのためにデータ前処理技術が実装される。 モデルは、1200の3Dスキャンのカスタムデータセットでトレーニングされています。 得られた高分解能深度マップは定性的,定量的に評価される。 ディープマップアップサンプリングのアプローチは、まず高解像度のディープマップをダウンサンプリングすることでパイプラインの処理時間を短縮し、低解像度で様々な処理ステップを実行し、その結果のディープマップをアップサンプリングしたり、より安価なデバイスで低解像度でキャプチャされたポイントクラウドの解像度を増大させることによる利点を提供する。 実験により、FDSRモデルはより高速な処理時間で優れており、速度が重要となるアプリケーションに適していることが示された。 一方、dknモデルは、より精度の高い結果を提供し、精度を優先するアプリケーションに適している。

This paper focuses on increasing the resolution of depth maps obtained from 3D cameras using structured light technology. Two deep learning models FDSR and DKN are modified to work with high-resolution data, and data pre-processing techniques are implemented for stable training. The models are trained on our custom dataset of 1200 3D scans. The resulting high-resolution depth maps are evaluated using qualitative and quantitative metrics. The approach for depth map upsampling offers benefits such as reducing the processing time of a pipeline by first downsampling a high-resolution depth map, performing various processing steps at the lower resolution and upsampling the resulting depth map or increasing the resolution of a point cloud captured in lower resolution by a cheaper device. The experiments demonstrate that the FDSR model excels in terms of faster processing time, making it a suitable choice for applications where speed is crucial. On the other hand, the DKN model provides results with higher precision, making it more suitable for applications that prioritize accuracy.
翻訳日:2024-02-28 00:17:46 公開日:2024-02-26
# 正の半定義超マーチンガールとランダム行列濃度不等式

Positive Semidefinite Supermartingales and Randomized Matrix Concentration Inequalities ( http://arxiv.org/abs/2401.15567v3 )

ライセンス: Link先を確認
Hongjian Wang, Aaditya Ramdas(参考訳) 種々の尾条件下でのマルティンゲール依存あるいは交換可能なランダム対称行列に対する新しい濃度不等式を示し、現在の標準チャーノフ境界を自己正規化重テール設定に包含する。 これらの不等式はしばしば文学における既存の決定論的な結果よりも厳密な方法でランダム化され、通常ローナー順序で表現され、任意のデータ依存の停止時間において有効である。 その過程で、負の半定義超マーチンガールと極大不等式(英語版)の理論を探求し、これは独立した興味を持つ可能性があるスカラー非負超マーチンガールの自然な行列類似物である。

We present new concentration inequalities for either martingale dependent or exchangeable random symmetric matrices under a variety of tail conditions, encompassing now-standard Chernoff bounds to self-normalized heavy-tailed settings. These inequalities are often randomized in a way that renders them strictly tighter than existing deterministic results in the literature, are typically expressed in the Loewner order, and are sometimes valid at arbitrary data-dependent stopping times. Along the way, we explore the theory of positive semidefinite supermartingales and maximal inequalities, a natural matrix analog of scalar nonnegative supermartingales that is potentially of independent interest.
翻訳日:2024-02-28 00:12:56 公開日:2024-02-26
# ロボットビジョン計測における完全付加物体と高密度物体の統一インスタンスセグメンテーションフレームワーク

A Unified Instance Segmentation Framework for Completely Occluded Objects and Dense Objects in Robot Vision Measurement ( http://arxiv.org/abs/2401.08174v2 )

ライセンス: Link先を確認
Zhen Zhou, Junfeng Fan, Yunkai Ma, Sihan Zhao, Fengshui Jing, Min Tan(参考訳) ロボットの視覚計測における完全に閉ざされた物体と密集した物体のインスタンスセグメンテーションは2つの課題である。 そこで本稿では,これらを統一的に扱うために,box prompt-based segmentation foundation model (bsms) を用いた粒度から粒度までのインスタンスセグメンテーションフレームワーク cfnet を提案する。 具体的には、cfnetは最初に向き付けられた境界ボックス(obbs)を検出してインスタンスを識別し、粗いローカライゼーション情報を提供する。 次に,OBBプロンプト関連マスクの微細セグメンテーションを予測する。 CFNet は OBB でインスタンスセグメンテーションを行うが、OBB では OBB は OOCCuder 上の部分的なオブジェクト境界のみを含んでおり、OOCCud オブジェクトの直接予測における既存の Amodal インスタンスセグメンテーションメソッドの難しさを克服している。 さらに、OBBはプロンプトとしてのみ機能するため、CFNetは高密度オブジェクトに対するOBBを用いた現在のインスタンスセグメンテーションメソッドのバウンディングボックス検出性能の過依存性を軽減する。 さらに,BSM が OBB プロンプトを扱えるようにするために,新しい OBB プロンプトエンコーダを提案する。 CFNetをより軽量にするため,知識蒸留を行い,教師モデル出力に対するガウスラベル平滑化手法を導入する。 実験によりcfnetは、産業用と公共のデータセットの両方で現在のインスタンスセグメンテーションメソッドよりも優れていることが示されている。 コードはhttps://github.com/zhen6618/OBBInstanceSegmentationで入手できる。

Instance segmentation for completely occluded objects and dense objects in robot vision measurement are two challenging tasks. To uniformly deal with them, this paper proposes a unified coarse-to-fine instance segmentation framework, CFNet, which uses box prompt-based segmentation foundation models (BSMs), e.g., Segment Anything Model. Specifically, CFNet first detects oriented bounding boxes (OBBs) to distinguish instances and provide coarse localization information. Then, it predicts OBB prompt-related masks for fine segmentation. CFNet performs instance segmentation with OBBs that only contain partial object boundaries on occluders to predict occluded object instances, which overcomes the difficulty of existing amodal instance segmentation methods in directly predicting occluded objects. In addition, since OBBs only serve as prompts, CFNet alleviates the over-dependence on bounding box detection performance of current instance segmentation methods using OBBs for dense objects. Moreover, to enable BSMs to handle OBB prompts, we propose a novel OBB prompt encoder. To make CFNet more lightweight, we perform knowledge distillation on it and introduce a Gaussian label smoothing method for teacher model outputs. Experiments demonstrate that CFNet outperforms current instance segmentation methods on both industrial and public datasets. The code is available at https://github.com/zhen6618/OBBInstanceSegmentation.
翻訳日:2024-02-28 00:09:32 公開日:2024-02-26
# クラス不均衡下におけるAUROCとAUPRCの概観

A Closer Look at AUROC and AUPRC under Class Imbalance ( http://arxiv.org/abs/2401.06091v2 )

ライセンス: Link先を確認
Matthew B. A. McDermott (1), Lasse Hyldig Hansen (2), Haoran Zhang (3), Giovanni Angelotti (4), Jack Gallifant (3) ((1) Harvard Medical School, (2) Aarhus University, (3) Massachusetts Institute of Technology, (4) IRCCS Humanitas Research Hospital)(参考訳) 機械学習(ML)において、精度-リコール曲線(AUPRC)の下の領域は、クラス不均衡のバイナリ分類タスクにおいて、受信操作特性(AUROC)の下の領域とモデルの比較において優れた指標である。 本稿では, AUROC と AUPRC が確率論的用語で簡潔に関連できることを示す, 新たな数学的解析を通じて, この概念に挑戦する。 AUPRCは、一般的な信念に反して、クラス不均衡の場合には優れておらず、より頻繁に陽性なラベルを持つサブポピュレーションのモデル改善を不当に支持する傾向にあるため、有害な指標である可能性もある。 このバイアスはアルゴリズムの格差を必然的に高めることができる。 これらの知見から,大規模言語モデルを用いてarXivから150万以上の論文を分析し,既存のML文献の徹底的なレビューを行った。 本研究は, AUPRC の優越性に関する有病率と実証に焦点をあてた。 その結果、経験的支援の重大な欠陥と、AUPRCの持つ利点が広く受け入れられるきっかけとなった誤解の傾向が明らかになった。 我々の発見は、計量行動の理解における重要な技術的進歩と、MLコミュニティにおける未確認仮定に対する厳しい警告という2つの貢献を表している。 すべての実験はhttps://github.com/mmcdermott/auc_is_all_you_needから利用できる。

In machine learning (ML), a widespread adage is that the area under the precision-recall curve (AUPRC) is a superior metric for model comparison to the area under the receiver operating characteristic (AUROC) for binary classification tasks with class imbalance. This paper challenges this notion through novel mathematical analysis, illustrating that AUROC and AUPRC can be concisely related in probabilistic terms. We demonstrate that AUPRC, contrary to popular belief, is not superior in cases of class imbalance and might even be a harmful metric, given its inclination to unduly favor model improvements in subpopulations with more frequent positive labels. This bias can inadvertently heighten algorithmic disparities. Prompted by these insights, a thorough review of existing ML literature was conducted, utilizing large language models to analyze over 1.5 million papers from arXiv. Our investigation focused on the prevalence and substantiation of the purported AUPRC superiority. The results expose a significant deficit in empirical backing and a trend of misattributions that have fuelled the widespread acceptance of AUPRC's supposed advantages. Our findings represent a dual contribution: a significant technical advancement in understanding metric behaviors and a stark warning about unchecked assumptions in the ML community. All experiments are accessible at https://github.com/mmcdermott/AUC_is_all_you_need.
翻訳日:2024-02-28 00:09:06 公開日:2024-02-26
# マルチモーダル癌生存予測のための原型的情報ボトルネックと解剖

Prototypical Information Bottlenecking and Disentangling for Multimodal Cancer Survival Prediction ( http://arxiv.org/abs/2401.01646v2 )

ライセンス: Link先を確認
Yilan Zhang, Yingxue Xu, Jianqi Chen, Fengying Xie, Hao Chen(参考訳) マルチモーダル学習は癌生存率予測、特に病理画像とゲノムデータの統合に有益である。 Despite advantages of multimodal learning for cancer survival prediction, massive redundancy in multimodal data prevents it from extracting discriminative and compact information: (1) An extensive amount of intra-modal task-unrelated information blurs discriminability, especially for gigapixel whole slide images (WSIs) with many patches in pathology and thousands of pathways in genomic data, leading to an ``intra-modal redundancy" issue. (2) Duplicated information among modalities dominates the representation of multimodal data, which makes modality-specific information prone to being ignored, resulting in an ``inter-modal redundancy" issue. これらの問題に対処するために,我々は,モード内冗長性のためのprototypepical information bottlenecking and disentangling(pibd)モジュールとモード間冗長性のためのprototypepical information disentanglement(pid)モジュールからなる新しい枠組みを提案する。 具体的には、様々なリスクレベルに対して多数のインスタンスを近似するプロトタイプをモデル化するために、情報ボトルネックの変種であるpibが提案されている。 pidモジュールは、結合したマルチモーダルデータをコンパクトなコンポーネントに分解する:モダリティ共通およびモダリティ固有知識(modality-common and modality-specific knowledge)は、ジョイント・プロト・典型的分布(joint prototypical distribution)の指導のもとに。 5つのがんベンチマークデータセットに関する広範な実験により、他の方法よりも優れた結果が得られた。

Multimodal learning significantly benefits cancer survival prediction, especially the integration of pathological images and genomic data. Despite advantages of multimodal learning for cancer survival prediction, massive redundancy in multimodal data prevents it from extracting discriminative and compact information: (1) An extensive amount of intra-modal task-unrelated information blurs discriminability, especially for gigapixel whole slide images (WSIs) with many patches in pathology and thousands of pathways in genomic data, leading to an ``intra-modal redundancy" issue. (2) Duplicated information among modalities dominates the representation of multimodal data, which makes modality-specific information prone to being ignored, resulting in an ``inter-modal redundancy" issue. To address these, we propose a new framework, Prototypical Information Bottlenecking and Disentangling (PIBD), consisting of Prototypical Information Bottleneck (PIB) module for intra-modal redundancy and Prototypical Information Disentanglement (PID) module for inter-modal redundancy. Specifically, a variant of information bottleneck, PIB, is proposed to model prototypes approximating a bunch of instances for different risk levels, which can be used for selection of discriminative instances within modality. PID module decouples entangled multimodal data into compact distinct components: modality-common and modality-specific knowledge, under the guidance of the joint prototypical distribution. Extensive experiments on five cancer benchmark datasets demonstrated our superiority over other methods.
翻訳日:2024-02-28 00:08:08 公開日:2024-02-26
# 木に基づくアプローチは異常検出におけるディープラーニングを克服できるか? ベンチマーク研究

Can Tree Based Approaches Surpass Deep Learning in Anomaly Detection? A Benchmarking Study ( http://arxiv.org/abs/2402.07281v2 )

ライセンス: Link先を確認
Santonu Sarkar, Shanay Mehta, Nicole Fernandes, Jyotirmoy Sarkar and Snehanshu Saha(参考訳) 複雑なミッションクリティカルシステムに対する異常な状況の検出は、サービス継続性を確保する必要がある場合に最重要となる。 運用データから異常を検出する大きな課題は、異常が稀なイベントであると考えられるため、不均衡なクラス分散の問題によって発生する。 本稿では,機械学習に基づく異常検出アルゴリズムを総合的なベンチマークにより評価する。 本論文は,様々な異常検出アルゴリズムの偏りのない比較を行い,ディープラーニングおよび異常検出手法に対する木ベースアプローチを含む古典的機械学習にまたがる。 104のパブリックデータセットといくつかのプロプライエタリな産業システムデータセットは研究の多様性を高め、アルゴリズムのパフォーマンスをより現実的に評価し、現実のシナリオへの適応性の重要性を強調する。 この論文はディープラーニングの神話を解き放ち、強力ではあるが、このケースではディープラーニングは普遍的な解決策ではないことを証明している。 最近提案された木に基づく進化的アルゴリズムは,多くのシナリオにおいて優れていた。 私たちは、ディープラーニングメソッドが失敗するデータセットで、ツリーベースのアプローチがシングルトン異常をキャッチしていることに気付きました。 一方、古典的なSVMは10%以上の異常を持つデータセット上で最善を尽くしており、このようなシナリオは異常検出よりも分類問題としてモデル化できることを示している。 我々の知る限りでは、研究者や実践者が情報的アルゴリズムの選択を指導する目的で、多様なデータセットを用いた多数の最先端アルゴリズムの研究は、これまで試みられていない。

Detection of anomalous situations for complex mission-critical systems holds paramount importance when their service continuity needs to be ensured. A major challenge in detecting anomalies from the operational data arises due to the imbalanced class distribution problem since the anomalies are supposed to be rare events. This paper evaluates a diverse array of machine learning-based anomaly detection algorithms through a comprehensive benchmark study. The paper contributes significantly by conducting an unbiased comparison of various anomaly detection algorithms, spanning classical machine learning including various tree-based approaches to deep learning and outlier detection methods. The inclusion of 104 publicly available and a few proprietary industrial systems datasets enhances the diversity of the study, allowing for a more realistic evaluation of algorithm performance and emphasizing the importance of adaptability to real-world scenarios. The paper dispels the deep learning myth, demonstrating that though powerful, deep learning is not a universal solution in this case. We observed that recently proposed tree-based evolutionary algorithms outperform in many scenarios. We noticed that tree-based approaches catch a singleton anomaly in a dataset where deep learning methods fail. On the other hand, classical SVM performs the best on datasets with more than 10% anomalies, implying that such scenarios can be best modeled as a classification problem rather than anomaly detection. To our knowledge, such a study on a large number of state-of-the-art algorithms using diverse data sets, with the objective of guiding researchers and practitioners in making informed algorithmic choices, has not been attempted earlier.
翻訳日:2024-02-28 00:01:26 公開日:2024-02-26
# 微分プログラミングによるSGP4と高精度伝播のギャップの解消

Closing the Gap Between SGP4 and High-Precision Propagation via Differentiable Programming ( http://arxiv.org/abs/2402.04830v2 )

ライセンス: Link先を確認
Giacomo Acciarini, At{\i}l{\i}m G\"une\c{s} Baydin, Dario Izzo(参考訳) SGP4(Simplified General Perturbations 4)軌道伝搬法は、地球周回物体の位置と速度を迅速かつ確実に予測するために広く用いられている。 連続的な改良にもかかわらず、SGPモデルは数値プロパゲータの精度に欠けており、誤差は大幅に小さい。 本研究では、PyTorchを用いて実装されたSGP4の新しい微分可能バージョンであるdSGP4を提案する。 SGP4を微分可能にすることで、dSGP4は、宇宙船の軌道決定、状態変換、共分散変換、状態遷移行列計算、共分散伝播など、様々な宇宙関連の応用を促進する。 さらに、dsgp4のpytorch実装は、2ライン要素セット(tles)のバッチをまたいだ恥ずかしいほど並列な軌道伝播を可能にし、将来の衛星位置の分散予測にcpu、gpu、高度なハードウェアの計算能力を活用する。 さらに、dSGP4の微分性は、現代の機械学習技術との統合を可能にする。 そこで我々は,ニューラルネットを軌道伝搬器に統合した新しい軌道伝搬パラダイムML-dSGP4を提案する。 確率勾配降下により、この合成モデルの入力、出力、パラメータは反復的に洗練され、SGP4の精度を超える。 ニューラルネットワークはデフォルトでアイデンティティ演算子として機能し、SGP4の振舞いに固執する。 しかし、dSGP4の微分性は、エフェメリスデータによる微調整を可能にし、計算速度を維持しながら精度を向上させる。 これにより、衛星オペレーターや研究者は、特定のエフェミリや高精度数値伝播データを用いてモデルを訓練し、軌道予測能力を大幅に向上させることができる。

The Simplified General Perturbations 4 (SGP4) orbital propagation method is widely used for predicting the positions and velocities of Earth-orbiting objects rapidly and reliably. Despite continuous refinement, SGP models still lack the precision of numerical propagators, which offer significantly smaller errors. This study presents dSGP4, a novel differentiable version of SGP4 implemented using PyTorch. By making SGP4 differentiable, dSGP4 facilitates various space-related applications, including spacecraft orbit determination, state conversion, covariance transformation, state transition matrix computation, and covariance propagation. Additionally, dSGP4's PyTorch implementation allows for embarrassingly parallel orbital propagation across batches of Two-Line Element Sets (TLEs), leveraging the computational power of CPUs, GPUs, and advanced hardware for distributed prediction of satellite positions at future times. Furthermore, dSGP4's differentiability enables integration with modern machine learning techniques. Thus, we propose a novel orbital propagation paradigm, ML-dSGP4, where neural networks are integrated into the orbital propagator. Through stochastic gradient descent, this combined model's inputs, outputs, and parameters can be iteratively refined, surpassing SGP4's precision. Neural networks act as identity operators by default, adhering to SGP4's behavior. However, dSGP4's differentiability allows fine-tuning with ephemeris data, enhancing precision while maintaining computational speed. This empowers satellite operators and researchers to train the model using specific ephemeris or high-precision numerical propagation data, significantly advancing orbital prediction capabilities.
翻訳日:2024-02-27 23:59:44 公開日:2024-02-26
# PreS: スケーラブルメモリベースの動的グラフニューラルネットワークを目指して

PRES: Toward Scalable Memory-Based Dynamic Graph Neural Networks ( http://arxiv.org/abs/2402.04284v2 )

ライセンス: Link先を確認
Junwei Su, Difan Zou, Chuan Wu(参考訳) メモリベースの動的グラフニューラルネットワーク(MDGNN)は、メモリモジュールを利用して長期の時間的依存関係を抽出、抽出、記憶する動的グラフニューラルネットワークのファミリーであり、メモリレスニューラルネットワークよりも優れたパフォーマンスをもたらす。 しかし、MDGNNのトレーニングは、絡み合った時間的および構造的依存関係を扱うという課題に直面し、正確な時間的パターンを捉えるために、データシーケンスの逐次的および時間的処理を必要とする。 バッチトレーニングの間、同じバッチ内の時間的データポイントは並列に処理され、その時間的依存関係は無視される。 この問題は時間的不連続(temporal discontinuity)と呼ばれ、効率的な時間的バッチサイズを制限し、データの並列性を制限し、産業アプリケーションにおけるMDGNNの柔軟性を低下させる。 本稿では,時間的バッチサイズが大きいMDGNNの訓練における時間的不連続性に着目し,大規模MDGNNの効率的な訓練について検討する。 まず,時間的バッチサイズがMDGNNトレーニングの収束に及ぼす影響について理論的研究を行った。 そこで本研究では, 時間的不連続性の影響を軽減するため, メモリコヒーレンス学習目標と組み合わせた反復予測補正手法preSを提案し, 一般化性能を犠牲にすることなく, MDGNNを時間的バッチで訓練することができることを示した。 実験の結果,MDGNNトレーニングでは,最大4倍の時間的バッチ(3.4倍高速化)が可能であった。

Memory-based Dynamic Graph Neural Networks (MDGNNs) are a family of dynamic graph neural networks that leverage a memory module to extract, distill, and memorize long-term temporal dependencies, leading to superior performance compared to memory-less counterparts. However, training MDGNNs faces the challenge of handling entangled temporal and structural dependencies, requiring sequential and chronological processing of data sequences to capture accurate temporal patterns. During the batch training, the temporal data points within the same batch will be processed in parallel, while their temporal dependencies are neglected. This issue is referred to as temporal discontinuity and restricts the effective temporal batch size, limiting data parallelism and reducing MDGNNs' flexibility in industrial applications. This paper studies the efficient training of MDGNNs at scale, focusing on the temporal discontinuity in training MDGNNs with large temporal batch sizes. We first conduct a theoretical study on the impact of temporal batch size on the convergence of MDGNN training. Based on the analysis, we propose PRES, an iterative prediction-correction scheme combined with a memory coherence learning objective to mitigate the effect of temporal discontinuity, enabling MDGNNs to be trained with significantly larger temporal batches without sacrificing generalization performance. Experimental results demonstrate that our approach enables up to a 4x larger temporal batch (3.4x speed-up) during MDGNN training.
翻訳日:2024-02-27 23:59:19 公開日:2024-02-26
# 交通予測における遅延効果の顕在化--時空間遅延微分方程式から

Unveiling Delay Effects in Traffic Forecasting: A Perspective from Spatial-Temporal Delay Differential Equations ( http://arxiv.org/abs/2402.01231v2 )

ライセンス: Link先を確認
Qingqing Long, Zheng Fang, Chen Fang, Chong Chen, Pengfei Wang, Yuanchun Zhou(参考訳) 交通流予測は交通計画と管理の基本的な研究課題であり、空間-時間予測の標準的かつ典型的な例である。 近年,グラフニューラルネットワーク (GNN) とリカレントニューラルネットワーク (RNN) は交通流予測のための空間的時間的相関を捉えることに成功している。 しかし、無視できない2つの問題は未解決です。 1) GNNにおけるメッセージパッシングは即時であり, 実際には隣接ノード間の空間的メッセージインタラクションを遅延させることができる。 1つのノードでのトラフィックの流れの変化、すなわち時間遅延は、接続された隣人に影響を与えるのに数分かかる。 2) 交通状況は連続的に変化する。 交通流予測の予測周波数は、特定のシナリオ要求に基づいて異なる場合がある。 既存の多くの離散化モデルは、各予測水平線に対する再訓練を必要とし、適用性を制限する。 上記の問題に取り組むために,神経空間-時間遅延微分方程式モデル,すなわちstddeを提案する。 これは空間情報伝達の時間遅延を明示的にモデル化する統一遅延微分方程式フレームワークへの遅延効果と連続性の両方を含んでいる。 さらに、その安定性を示す理論的証明が提供される。 そして、隠れ状態の連続性を利用して勾配の後退過程を実現する学習可能な交通グラフ時間遅延推定器を設計する。 最後に、連続出力モジュールを提案し、様々な周波数でのトラフィックフローを正確に予測し、異なるシナリオに対する柔軟性と適応性を提供する。 広範な実験により、競合計算効率とともにstddeの優位性が示された。

Traffic flow forecasting is a fundamental research issue for transportation planning and management, which serves as a canonical and typical example of spatial-temporal predictions. In recent years, Graph Neural Networks (GNNs) and Recurrent Neural Networks (RNNs) have achieved great success in capturing spatial-temporal correlations for traffic flow forecasting. Yet, two non-ignorable issues haven't been well solved: 1) The message passing in GNNs is immediate, while in reality the spatial message interactions among neighboring nodes can be delayed. The change of traffic flow at one node will take several minutes, i.e., time delay, to influence its connected neighbors. 2) Traffic conditions undergo continuous changes. The prediction frequency for traffic flow forecasting may vary based on specific scenario requirements. Most existing discretized models require retraining for each prediction horizon, restricting their applicability. To tackle the above issues, we propose a neural Spatial-Temporal Delay Differential Equation model, namely STDDE. It includes both delay effects and continuity into a unified delay differential equation framework, which explicitly models the time delay in spatial information propagation. Furthermore, theoretical proofs are provided to show its stability. Then we design a learnable traffic-graph time-delay estimator, which utilizes the continuity of the hidden states to achieve the gradient backward process. Finally, we propose a continuous output module, allowing us to accurately predict traffic flow at various frequencies, which provides more flexibility and adaptability to different scenarios. Extensive experiments show the superiority of the proposed STDDE along with competitive computational efficiency.
翻訳日:2024-02-27 23:58:21 公開日:2024-02-26
# VOOM:階層的ランドマークを用いたロバストなビジュアルオブジェクトオードメトリーとマッピング

VOOM: Robust Visual Object Odometry and Mapping using Hierarchical Landmarks ( http://arxiv.org/abs/2402.13609v2 )

ライセンス: Link先を確認
Yutong Wang, Chaoyang Jiang, Xieyuanli Chen(参考訳) 近年、オブジェクト指向同時ローカライゼーション・マッピング(slam: object-oriented concurrent localization and mapping)が、計算効率を維持しつつ高レベルの意味情報を提供する能力によって注目を集めている。 一部の研究者は、モデル化されたオブジェクト残基をバンドル調整に統合することにより、局所化の精度を高めようと試みている。 しかし,cuboids や ellipsoids といった汎用的な粗オブジェクトモデルは特徴点よりも精度が低いため,機能ベースのビジュアルスラムシステムよりも優れた結果が得られていない。 本稿では,高レベルオブジェクトと低レベルポイントを階層的なランドマークとして,バンドル調整でオブジェクトの残差を直接使用するのではなく,粒度から細かな方法で使用するビジュアルオブジェクトオドメトリおよびマッピングフレームワークvoomを提案する。 まず,物理オブジェクトを表現するために用いられる,改良された観測モデルと2次二次の新たなデータアソシエーション手法を提案する。 現実をよく反映した3Dマップの作成を容易にする。 次に、オブジェクト情報を用いて特徴点のデータ関連性を高め、その結果、マップを更新する。 ビジュアルオブジェクト計測バックエンドでは、更新されたマップを使用して、カメラのポーズとオブジェクトをさらに最適化する。 一方,視覚オブジェクトマッピングプロセスでは,オブジェクトと点ベースの可視性グラフを用いて局所バンドル調整を行う。 実験により、VOOMはオブジェクト指向SLAMとORB-SLAM2のような特徴点SLAMシステムの両方をローカライゼーションで上回ることがわかった。 このメソッドの実装はhttps://github.com/yutongwangbit/voom.gitで利用可能です。

In recent years, object-oriented simultaneous localization and mapping (SLAM) has attracted increasing attention due to its ability to provide high-level semantic information while maintaining computational efficiency. Some researchers have attempted to enhance localization accuracy by integrating the modeled object residuals into bundle adjustment. However, few have demonstrated better results than feature-based visual SLAM systems, as the generic coarse object models, such as cuboids or ellipsoids, are less accurate than feature points. In this paper, we propose a Visual Object Odometry and Mapping framework VOOM using high-level objects and low-level points as the hierarchical landmarks in a coarse-to-fine manner instead of directly using object residuals in bundle adjustment. Firstly, we introduce an improved observation model and a novel data association method for dual quadrics, employed to represent physical objects. It facilitates the creation of a 3D map that closely reflects reality. Next, we use object information to enhance the data association of feature points and consequently update the map. In the visual object odometry backend, the updated map is employed to further optimize the camera pose and the objects. Meanwhile, local bundle adjustment is performed utilizing the objects and points-based covisibility graphs in our visual object mapping process. Experiments show that VOOM outperforms both object-oriented SLAM and feature points SLAM systems such as ORB-SLAM2 in terms of localization. The implementation of our method is available at https://github.com/yutongwangBIT/VOOM.git.
翻訳日:2024-02-27 23:52:18 公開日:2024-02-26
# unlearncanvas:拡散モデルのためのベンチマークマシンアンラーニングのためのスタイリッシュな画像データセット

UnlearnCanvas: A Stylized Image Dataset to Benchmark Machine Unlearning for Diffusion Models ( http://arxiv.org/abs/2402.11846v2 )

ライセンス: Link先を確認
Yihua Zhang, Yimeng Zhang, Yuguang Yao, Jinghan Jia, Jiancheng Liu, Xiaoming Liu, Sijia Liu(参考訳) 拡散モデル(DM)の急速な進歩は、様々な現実世界の産業に変化をもたらしただけでなく、有害なコンテンツの生成、著作権紛争、ステレオタイプや偏見の台頭など、社会的なネガティブな懸念をもたらした。 これらの問題を解決するために、機械学習(mu)は潜在的な解決策として登場し、様々なアプリケーションでdmsの望ましくない生成能力を取り除く能力を示している。 しかし,既存のMU評価手法を検討することにより,DMにおけるMUの不完全,不正確な,あるいは偏りのある評価をもたらす可能性のあるいくつかの重要な課題を明らかにする。 それらに対処するために,dms後アンラーニングにおいてしばしば見過ごされがちな保持性測定の導入を含む,muの評価基準を強化する。 さらに,unlearncanvasという総合的な高分解能スタイリゼーション画像データセットを導入し,関連する画像オブジェクトと連動して芸術的絵画スタイルを未学習で評価する。 このデータセットは、DM上でのMUテクニックの標準化および自動化評価フレームワークを確立する上で重要な役割を担い、未学習の有効性の様々な側面に対処する7つの定量的指標を特徴とする。 幅広い実験を通じて、5つの最先端MU手法をベンチマークし、その長所と短所、基礎となる未学習メカニズムに関する新たな洞察を明らかにする。 さらに,UnlearnCanvasがスタイル伝達などの他の生成的モデリングタスクをベンチマークする可能性を示す。 この作業の結果を再現するためのUnlearnCanvasデータセット、ベンチマーク、コードは、https://github.com/OPTML-Group/UnlearnCanvasにある。

The rapid advancement of diffusion models (DMs) has not only transformed various real-world industries but has also introduced negative societal concerns, including the generation of harmful content, copyright disputes, and the rise of stereotypes and biases. To mitigate these issues, machine unlearning (MU) has emerged as a potential solution, demonstrating its ability to remove undesired generative capabilities of DMs in various applications. However, by examining existing MU evaluation methods, we uncover several key challenges that can result in incomplete, inaccurate, or biased evaluations for MU in DMs. To address them, we enhance the evaluation metrics for MU, including the introduction of an often-overlooked retainability measurement for DMs post-unlearning. Additionally, we introduce UnlearnCanvas, a comprehensive high-resolution stylized image dataset that facilitates us to evaluate the unlearning of artistic painting styles in conjunction with associated image objects. We show that this dataset plays a pivotal role in establishing a standardized and automated evaluation framework for MU techniques on DMs, featuring 7 quantitative metrics to address various aspects of unlearning effectiveness. Through extensive experiments, we benchmark 5 state-of-the-art MU methods, revealing novel insights into their pros and cons, and the underlying unlearning mechanisms. Furthermore, we demonstrate the potential of UnlearnCanvas to benchmark other generative modeling tasks, such as style transfer. The UnlearnCanvas dataset, benchmark, and the codes to reproduce all the results in this work can be found at https://github.com/OPTML-Group/UnlearnCanvas.
翻訳日:2024-02-27 23:50:16 公開日:2024-02-26
# Anderson Acceleration を用いた学習半量子分割ネットワークによる電気インピーダンストモグラフィの再構築

Enhancing Electrical Impedance Tomography reconstruction using Learned Half-Quadratic Splitting Networks with Anderson Acceleration ( http://arxiv.org/abs/2304.14491v2 )

ライセンス: Link先を確認
Guixian Xu and Huihui Wang and Qingping Zhou(参考訳) 電気インピーダンストモグラフィ(EIT)は医療診断、産業検査、環境モニタリングに広く応用されている。 画像システムの物理原理とデータ駆動型ディープラーニングネットワークの利点を組み合わせることで、物理埋め込み型ディープアンローリングネットワークは近年、計算画像の有望なソリューションとして浮上している。 しかし, eit画像再構成の固有非線形特性と不適切特性は, 精度と安定性の観点から既存の手法に課題を呈している。 そこで本研究では,学習に基づくeitイメージングに物理を組み込むためのhqsnet(learning half-quadratic split)アルゴリズムを提案する。 次に、AA-HQSNetと表記されるHQSNetアルゴリズムにアンダーソン加速度(AA)を適用する。 AAは固定点反復アルゴリズムの収束を加速するための広く使われている手法であり、数値最適化と機械学習に大きな関心を寄せている。 しかし,この手法はこれまで,逆問題コミュニティではほとんど注目されていない。 AAを採用することで、標準的なHQSNetと比較してコンバージェンスレートが向上すると同時に、再構築時のアーティファクトも回避される。 最後に、AAモジュールがHQSNetを強化し、最先端の手法に比べて堅牢で正確で、はるかに優れた再構築を実現することを示すために、厳密な数値および視覚実験を行う。 HQSNetを強化するアンダーソン加速方式は汎用的であり,様々な物理埋め込み深層学習法の性能向上に応用できる。

Electrical Impedance Tomography (EIT) is widely applied in medical diagnosis, industrial inspection, and environmental monitoring. Combining the physical principles of the imaging system with the advantages of data-driven deep learning networks, physics-embedded deep unrolling networks have recently emerged as a promising solution in computational imaging. However, the inherent nonlinear and ill-posed properties of EIT image reconstruction still present challenges to existing methods in terms of accuracy and stability. To tackle this challenge, we propose the learned half-quadratic splitting (HQSNet) algorithm for incorporating physics into learning-based EIT imaging. We then apply Anderson acceleration (AA) to the HQSNet algorithm, denoted as AA-HQSNet, which can be interpreted as AA applied to the Gauss-Newton step and the learned proximal gradient descent step of the HQSNet, respectively. AA is a widely-used technique for accelerating the convergence of fixed-point iterative algorithms and has gained significant interest in numerical optimization and machine learning. However, the technique has received little attention in the inverse problems community thus far. Employing AA enhances the convergence rate compared to the standard HQSNet while simultaneously avoiding artifacts in the reconstructions. Lastly, we conduct rigorous numerical and visual experiments to show that the AA module strengthens the HQSNet, leading to robust, accurate, and considerably superior reconstructions compared to state-of-the-art methods. Our Anderson acceleration scheme to enhance HQSNet is generic and can be applied to improve the performance of various physics-embedded deep learning methods.
翻訳日:2024-02-27 22:01:16 公開日:2024-02-26
# 動的スパースなしトレーニング:スパースllmのトレーニングフリー微調整

Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs ( http://arxiv.org/abs/2310.08915v3 )

ライセンス: Link先を確認
Yuxin Zhang, Lirui Zhao, Mingbao Lin, Yunyun Sun, Yiwu Yao, Xingjia Han, Jared Tanner, Shiwei Liu, Rongrong Ji(参考訳) 今後も増え続ける大型言語モデル(LLM)は、今後の人工知能(AI)への潜在的な道を開く一方で、デバイス上での展開に向けて途方もない障害を乗り越えている。 モデル複雑性の低減において、LLMが確立したアプローチの1つとして、ネットワークプルーニングは、大量のモデルパラメータとトレーニングデータの下で、コストのかかる微調整(または再訓練)の必要性のため、LLMの時代に遅れているように見える。 この業界と学界のギャップを埋めるために、私たちは、高価なバックプロパゲーションやウェイトアップデートなしに、わずかにスパースLSMを更新するトレーニング不要の微調整アプローチであるDynamic Sparse No Training (DSnoT)を導入しました。 Dynamic Sparse TrainingにインスパイアされたDSnoTは、Sparse LLM上で反復的に重量を刈り上げ、成長させる方法で、高密度LLMとスパースLLMの再構成誤差を最小限に抑える。 この目的を達成するため、DSnoTは特に、各重みを成長させるための差分w.r.t.異なる入力データと同様に、刈り込みおよび成長のための復元誤差の期待値の低減を考慮に入れている。 このプラクティスは、微調整LDMのバックプロパゲーションの必要性を排除し、線形時間で効率的に実行できる。 各種ベンチマークを用いたLLaMA-V1/V2, Vicuna, OPTの大規模実験により, スパースLDMの性能向上におけるDSnoTの有効性が示された。 例えば、DSnoTは、LLaMA-7Bと70%の間隔で26.79パープレキシティで最先端のワンダより優れている。 本稿は, LLMのスパースを, 効率的なトレーニングのない方法で微調整し, 新しい会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。 コードはhttps://github.com/zyxxmu/dsnotで入手できる。

The ever-increasing large language models (LLMs), though opening a potential path for the upcoming artificial general intelligence, sadly drops a daunting obstacle on the way towards their on-device deployment. As one of the most well-established pre-LLMs approaches in reducing model complexity, network pruning appears to lag behind in the era of LLMs, due mostly to its costly fine-tuning (or re-training) necessity under the massive volumes of model parameter and training data. To close this industry-academia gap, we introduce Dynamic Sparse No Training (DSnoT), a training-free fine-tuning approach that slightly updates sparse LLMs without the expensive backpropagation and any weight updates. Inspired by the Dynamic Sparse Training, DSnoT minimizes the reconstruction error between the dense and sparse LLMs, in the fashion of performing iterative weight pruning-and-growing on top of sparse LLMs. To accomplish this purpose, DSnoT particularly takes into account the anticipated reduction in reconstruction error for pruning and growing, as well as the variance w.r.t. different input data for growing each weight. This practice can be executed efficiently in linear time since its obviates the need of backpropagation for fine-tuning LLMs. Extensive experiments on LLaMA-V1/V2, Vicuna, and OPT across various benchmarks demonstrate the effectiveness of DSnoT in enhancing the performance of sparse LLMs, especially at high sparsity levels. For instance, DSnoT is able to outperform the state-of-the-art Wanda by 26.79 perplexity at 70% sparsity with LLaMA-7B. Our paper offers fresh insights into how to fine-tune sparse LLMs in an efficient training-free manner and open new venues to scale the great potential of sparsity to LLMs. Codes are available at https://github.com/zyxxmu/DSnoT.
翻訳日:2024-02-27 21:55:13 公開日:2024-02-26
# 質問生成のための自動応答性評価

Automatic Answerability Evaluation for Question Generation ( http://arxiv.org/abs/2309.12546v2 )

ライセンス: Link先を確認
Zifan Wang, Kotaro Funakoshi, Manabu Okumura(参考訳) 自然言語生成(nlg)タスク用に開発されたbleuやrougeなどの従来の自動評価指標は、生成されたテキストと参照テキストのn-gram重なりの測定に基づいている。 これらの単純なメトリクスは、質問生成(QG)のようなより複雑なタスクには不十分であり、参照された回答によって答えられる質問を生成する必要がある。 より高度な自動評価指標を開発することは、QG研究において緊急の問題である。 本研究は,QGタスクの基準回答によって生成した質問が答えられるかどうかを評価するための,新しい自動評価指標であるPMAN(Prompting-based Metric on ANswerability)を提案する。 大規模な実験により、評価結果は信頼性が高く、人間の評価と一致していることが示された。 さらに,QGモデルの性能評価に指標を適用し,従来の指標を補完することを示す。 GPTに基づくQGモデルの実装は,回答可能な質問を生成する上で,最先端のパフォーマンスを実現する。

Conventional automatic evaluation metrics, such as BLEU and ROUGE, developed for natural language generation (NLG) tasks, are based on measuring the n-gram overlap between the generated and reference text. These simple metrics may be insufficient for more complex tasks, such as question generation (QG), which requires generating questions that are answerable by the reference answers. Developing a more sophisticated automatic evaluation metric, thus, remains an urgent problem in QG research. This work proposes PMAN (Prompting-based Metric on ANswerability), a novel automatic evaluation metric to assess whether the generated questions are answerable by the reference answers for the QG tasks. Extensive experiments demonstrate that its evaluation results are reliable and align with human evaluations. We further apply our metric to evaluate the performance of QG models, which shows that our metric complements conventional metrics. Our implementation of a GPT-based QG model achieves state-of-the-art performance in generating answerable questions.
翻訳日:2024-02-27 21:54:13 公開日:2024-02-26
# SplatFlow: Splattingによる多フレーム光フローの学習

SplatFlow: Learning Multi-frame Optical Flow via Splatting ( http://arxiv.org/abs/2306.08887v2 )

ライセンス: Link先を確認
Bo Wang, Yifan Zhang, Jian Li, Yang Yu, Zhenping Sun, Li Liu, Dewen Hu(参考訳) オクルージョン問題は光学フロー推定(OFE)において依然として重要な課題である。 深層学習によってもたらされた近年の大きな進歩にもかかわらず、既存の深層学習法のほとんどは、まだ咬合の処理に苦慮しており、特に2つのフレームに基づくものは、咬合領域に視覚対応がないため、正しく咬合を処理できない。 しかし、マルチフレーム設定にはまだ希望があり、ofeの閉塞問題を軽減する可能性がある。 不幸なことに、マルチフレームofe (mofe) は未調査のままであり、その限られた研究は主にピラミッドバックボーンのために特別に設計されたか、あるいは時間を要する後方流計算や非微分可能な前方摂動変換を通じて相関体積や光流といった以前のフレームの特徴を揃えたものである。 本研究では,これらの欠点に対処する効率的なMOFEフレームワークであるSplatFlowを提案する。 SplatFlowは、以前のフレームの動作特徴を整列する微分可能なスプラッティング変換を導入し、アライメントされた動作特徴を現在のフレームの推定に入力し、既存の2フレームのバックボーンをリモデリングするファイナル・ツー・オールの埋め込み法を設計する。 提案されているSplatFlowは、オクルージョンを適切に処理できるため、効率的だが正確である。 大規模な実験的評価の結果、SplatFlowはKITTI2015とSintelのベンチマークで公表されたすべての手法を大幅に上回っている。 特にsintelベンチマークでは、splatflowは1.12(クリーンパス)と2.07(ファイナルパス)のエラーを達成し、それぞれ19.4%と16.2%のエラー削減を達成している。 splatflowのコードはhttps://github.com/wwsource/splatflowで入手できる。

The occlusion problem remains a crucial challenge in optical flow estimation (OFE). Despite the recent significant progress brought about by deep learning, most existing deep learning OFE methods still struggle to handle occlusions; in particular, those based on two frames cannot correctly handle occlusions because occluded regions have no visual correspondences. However, there is still hope in multi-frame settings, which can potentially mitigate the occlusion issue in OFE. Unfortunately, multi-frame OFE (MOFE) remains underexplored, and the limited studies on it are mainly specially designed for pyramid backbones or else obtain the aligned previous frame's features, such as correlation volume and optical flow, through time-consuming backward flow calculation or non-differentiable forward warping transformation. This study proposes an efficient MOFE framework named SplatFlow to address these shortcomings. SplatFlow introduces the differentiable splatting transformation to align the previous frame's motion feature and designs a Final-to-All embedding method to input the aligned motion feature into the current frame's estimation, thus remodeling the existing two-frame backbones. The proposed SplatFlow is efficient yet more accurate, as it can handle occlusions properly. Extensive experimental evaluations show that SplatFlow substantially outperforms all published methods on the KITTI2015 and Sintel benchmarks. Especially on the Sintel benchmark, SplatFlow achieves errors of 1.12 (clean pass) and 2.07 (final pass), with surprisingly significant 19.4% and 16.2% error reductions, respectively, from the previous best results submitted. The code for SplatFlow is available at https://github.com/wwsource/SplatFlow.
翻訳日:2024-02-27 21:52:05 公開日:2024-02-26
# LLMを不服従させる: ジェイルブレイクの形式化、分析、検出

Tricking LLMs into Disobedience: Formalizing, Analyzing, and Detecting Jailbreaks ( http://arxiv.org/abs/2305.14965v2 )

ライセンス: Link先を確認
Abhinav Rao, Sachin Vashistha, Atharva Naik, Somak Aditya, Monojit Choudhury(参考訳) 商用のLarge Language Models (LLMs) による最近の調査では、非専門家のユーザは単にプロンプトを操作するだけで LLM をジェイルブレイクでき、結果として出力の退行、プライバシとセキュリティの侵害、攻撃的なアウトプット、コンテンツ規制ポリシー違反などが発生する。 これらの攻撃とその緩和を形式化し分析するための限定的な研究がなされている。 このギャップを埋めるには、形式主義と既知の(そして可能な)脱獄の分類を提案します。 本稿では,既存のjailbreak手法とオープンソースおよび商用LCM(GPTベースモデル,OPT,BLOOM,FLAN-T5-XXLなど)の有効性について検討する。 さらに、既知の攻撃に対する効果の観点から、脱獄検知の課題についても論じる。 分析では、4つのタスクにわたる3700のjailbreakプロンプトのデータセットを収集します。 モデル出力とともにデータセットを公開します。

Recent explorations with commercial Large Language Models (LLMs) have shown that non-expert users can jailbreak LLMs by simply manipulating their prompts; resulting in degenerate output behavior, privacy and security breaches, offensive outputs, and violations of content regulator policies. Limited studies have been conducted to formalize and analyze these attacks and their mitigations. We bridge this gap by proposing a formalism and a taxonomy of known (and possible) jailbreaks. We survey existing jailbreak methods and their effectiveness on open-source and commercial LLMs (such as GPT-based models, OPT, BLOOM, and FLAN-T5-XXL). We further discuss the challenges of jailbreak detection in terms of their effectiveness against known attacks. For our analysis, we collect a dataset of 3700 jailbreak prompts across 4 tasks. We will make the dataset public along with the model outputs.
翻訳日:2024-02-27 21:51:35 公開日:2024-02-26
# DisenBooth: 主観駆動型テキスト・画像生成のためのアイデンティティ保護型ディスタングル・チューニング

DisenBooth: Identity-Preserving Disentangled Tuning for Subject-Driven Text-to-Image Generation ( http://arxiv.org/abs/2305.03374v3 )

ライセンス: Link先を確認
Hong Chen, Yipeng Zhang, Simin Wu, Xin Wang, Xuguang Duan, Yuwei Zhou, Wenwu Zhu(参考訳) 主題駆動型テキスト画像生成は,テキスト記述に基づいて対象者のカスタマイズ画像を生成することを目的としており,注目されている。 既存の方法は、主に、身元関係情報(例えば、少年)と身元関係情報(例えば、少年の背景またはポーズ)が潜在埋め込み空間に絡み合っている事前訓練された生成モデルを調整することに依存する。 しかし、非常に絡み合った潜在埋め込みは、主題駆動のテキスト対画像生成の失敗に繋がる可能性がある。 i) 絡み合った埋め込みに隠されたアイデンティティ非関連情報が生成過程を支配し、それによって生成された画像は、所定のテキスト記述を無視しながら、無関係情報に大きく依存する。 (ii)エンタングル埋め込みに担う同一性関連情報は適切に保存できず、生成された画像内の被写体の同一性が変化する。 そこで本研究では,テキスト対画像生成のためのアイデンティティ保存型不等角調整フレームワークである disenbooth を提案する。 具体的には、DisenBoothはデノナイジング過程における事前訓練された拡散モデルを微調整する。 エンタングル埋め込みを使った従来の作品とは異なり、DisenBoothは代わりに、アンタングル埋め込みを使用して、対象のアイデンティティをそれぞれ保存し、アイデンティティ非関連情報をキャプチャする。 さらに,新たに開発した弱雑音化・対比埋め込み補助調律目標を設計,異角化を実現する。 大規模な実験により,本提案フレームワークは,ID保存埋め込みを用いた主観駆動型テキスト画像生成のベースラインモデルよりも優れていた。 さらに、ID保存の埋め込みとID関連の埋め込みを組み合わせることで、DisenBoothはより世代的柔軟性と制御性を示す。

Subject-driven text-to-image generation aims to generate customized images of the given subject based on the text descriptions, which has drawn increasing attention. Existing methods mainly resort to finetuning a pretrained generative model, where the identity-relevant information (e.g., the boy) and the identity-irrelevant information (e.g., the background or the pose of the boy) are entangled in the latent embedding space. However, the highly entangled latent embedding may lead to the failure of subject-driven text-to-image generation as follows: (i) the identity-irrelevant information hidden in the entangled embedding may dominate the generation process, resulting in the generated images heavily dependent on the irrelevant information while ignoring the given text descriptions; (ii) the identity-relevant information carried in the entangled embedding can not be appropriately preserved, resulting in identity change of the subject in the generated images. To tackle the problems, we propose DisenBooth, an identity-preserving disentangled tuning framework for subject-driven text-to-image generation. Specifically, DisenBooth finetunes the pretrained diffusion model in the denoising process. Different from previous works that utilize an entangled embedding to denoise each image, DisenBooth instead utilizes disentangled embeddings to respectively preserve the subject identity and capture the identity-irrelevant information. We further design the novel weak denoising and contrastive embedding auxiliary tuning objectives to achieve the disentanglement. Extensive experiments show that our proposed DisenBooth framework outperforms baseline models for subject-driven text-to-image generation with the identity-preserved embedding. Additionally, by combining the identity-preserved embedding and identity-irrelevant embedding, DisenBooth demonstrates more generation flexibility and controllability.
翻訳日:2024-02-27 21:50:36 公開日:2024-02-26
# 医療用多言語言語モデルの構築に向けて

Towards Building Multilingual Language Model for Medicine ( http://arxiv.org/abs/2402.13963v2 )

ライセンス: Link先を確認
Pengcheng Qiu, Chaoyi Wu, Xiaoman Zhang, Weixiong Lin, Haicheng Wang, Ya Zhang, Yanfeng Wang, Weidi Xie(参考訳) 本稿では,様々な地域から広く,言語的に多様なオーディエンスが利用できる,オープンソースの医学用多言語言語モデルの開発を目指している。 まず,マルチリンガルな医学的適応のために,MMedCと呼ばれる6つの主要言語を含む約25.5Bトークンを含む新しい多言語医療コーパスを構築し,既存のLLMの自己回帰訓練を可能にする。 second, to monitor the development of multilingual LLMs in medicine, we propose a new multilingual medical multi-choice question-answering benchmark with rationale, termed as MMedBench; third, we have assessed a number of popular, opensource large language models (LLMs) on our benchmark, along with those further auto-regressive trained on MMedC, as a result, our final model, termed as MMedLM 2, with only 7B parameters, achieves superior performance compared to all other open-source models, even rivaling GPT-4 on MMedBench. コード、モデルウェイト、データセットを含むリソースを一般公開する予定です。

In this paper, we aim to develop an open-source, multilingual language model for medicine, that the benefits a wider, linguistically diverse audience from different regions. In general, we present the contribution from the following aspects: first, for multilingual medical-specific adaptation, we construct a new multilingual medical corpus, that contains approximately 25.5B tokens encompassing 6 main languages, termed as MMedC, that enables auto-regressive training for existing general LLMs. second, to monitor the development of multilingual LLMs in medicine, we propose a new multilingual medical multi-choice question-answering benchmark with rationale, termed as MMedBench; third, we have assessed a number of popular, opensource large language models (LLMs) on our benchmark, along with those further auto-regressive trained on MMedC, as a result, our final model, termed as MMedLM 2, with only 7B parameters, achieves superior performance compared to all other open-source models, even rivaling GPT-4 on MMedBench. We will make the resources publicly available, including code, model weights, and datasets.
翻訳日:2024-02-27 21:44:52 公開日:2024-02-26
# マルチモーダル大言語モデルにおけるグラフ推論のためのレンダリンググラフ

Rendering Graphs for Graph Reasoning in Multimodal Large Language Models ( http://arxiv.org/abs/2402.02130v3 )

ライセンス: Link先を確認
Yanbin Wei, Shuai Fu, Weisen Jiang, James T. Kwok, Yu Zhang(参考訳) 大規模言語モデル(LLM)は、ロボット計画、知識グラフ補完、常識推論など、グラフ構造を扱う様々なタスクにますます使われている。 LLMは、グラフ情報をテキスト形式で理解することができるが、そのリッチな視覚的モダリティは、人間が構造情報を理解し、グラフ推論を行うための直感的な方法である。 グラフ構造を視覚的イメージ(すなわちビジュアルグラフ)として表現する潜在的な利点と能力はまだ探索されていない。 本稿では,視覚情報をグラフ推論タスクに組み込む第一歩として,各サンプルをタプル(グラフ,画像,テキスト記述)とする新しいベンチマークGITQAを提案する。 我々は、最先端のマルチモーダルLLMを用いて、GITQAベンチマークで広範な実験を行う。 グラフ推論タスクの結果から,テキスト情報と視覚情報の組み合わせは,1つのモダリティのみを使用するよりも優れていた。 さらに、トレーニングセットに微調整されたLLaVA-7B/13Bモデル(GITA)は、クローズドソースモデルGPT-4(V)よりも精度が高い。 また,グラフ推論における拡張の効果についても検討した。

Large Language Models (LLMs) are increasingly used for various tasks with graph structures, such as robotic planning, knowledge graph completion, and common-sense reasoning. Though LLMs can comprehend graph information in a textual format, they overlook the rich visual modality, which is an intuitive way for humans to comprehend structural information and conduct graph reasoning. The potential benefits and capabilities of representing graph structures as visual images (i.e., visual graph) is still unexplored. In this paper, we take the first step in incorporating visual information into graph reasoning tasks and propose a new benchmark GITQA, where each sample is a tuple (graph, image, textual description). We conduct extensive experiments on the GITQA benchmark using state-of-the-art multimodal LLMs. Results on graph reasoning tasks show that combining textual and visual information together performs better than using one modality alone. Moreover, the LLaVA-7B/13B models finetuned on the training set (referred to as GITA), achieve higher accuracy than the closed-source model GPT-4(V). We also study the effects of augmentations in graph reasoning.
翻訳日:2024-02-27 21:42:37 公開日:2024-02-26
# LLMs-Healthcare : 各種医療分野における大規模言語モデルの現状と課題

LLMs-Healthcare : Current Applications and Challenges of Large Language Models in various Medical Specialties ( http://arxiv.org/abs/2311.12882v3 )

ライセンス: Link先を確認
Ummara Mumtaz, Awais Ahmed, Summaya Mumtaz(参考訳) 我々は、医療分野における大規模言語モデル(llm)活用の最近の進歩を総合的に概観し、様々な医療領域にまたがる変革的影響を強調する。 LLMは、医師、医療提供者、患者を含む医療支援において重要な役割を担っている。 本稿では,医療におけるLarge Language Models(LLMs)の適用について,特に診断機能と治療関連機能について考察する。 LLMががん、皮膚科、歯科医療、神経変性疾患、精神保健にどのように応用されているかを明らかにするとともに、医療診断や患者医療に対する彼らの革新的な貢献を強調した。 分析を通じて、既存の制限にもかかわらず、様々な医療専門分野にまたがって、LSMを医療分野に統合する上での課題と機会について検討する。 さらに,医療分野における多様なデータ型への対応について概説する。

We aim to present a comprehensive overview of the latest advancements in utilizing Large Language Models (LLMs) within the healthcare sector, emphasizing their transformative impact across various medical domains. LLMs have become pivotal in supporting healthcare, including physicians, healthcare providers, and patients. Our review provides insight into the applications of Large Language Models (LLMs) in healthcare, specifically focusing on diagnostic and treatment-related functionalities. We shed light on how LLMs are applied in cancer care, dermatology, dental care, neurodegenerative disorders, and mental health, highlighting their innovative contributions to medical diagnostics and patient care. Throughout our analysis, we explore the challenges and opportunities associated with integrating LLMs in healthcare, recognizing their potential across various medical specialties despite existing limitations. Additionally, we offer an overview of handling diverse data types within the medical field.
翻訳日:2024-02-27 21:40:32 公開日:2024-02-26
# 『正義を要求!』:政治文の社会的基盤を目指して

"We Demand Justice!": Towards Social Context Grounding of Political Texts ( http://arxiv.org/abs/2311.09106v2 )

ライセンス: Link先を確認
Rajkumar Pujari and Chengfei Wu and Dan Goldwasser(参考訳) ソーシャルメディアの談話はしばしば「政治的スペクトルの反対側によって使われる見事に類似した言語」で構成されており、しばしば極端に対照的な視点に翻訳される。 例えば「考えと祈り」は、大量射撃被害者に対する同情を表現したり、問題に対する立法行動の欠如を批判したりすることができる。 本稿では,そのような曖昧な文を計算環境において完全に理解し,実世界の実体,行動,態度に基盤を置くために必要な文脈を定義する。 本論文では,テキストの現実的コンテキストを理解する必要がある2つの挑戦的データセットを提案する。 我々はこれらのデータセットをRoBERTaやGPT-3のような大規模な事前学習モデル上に構築されたモデルと比較した。 さらに、既存の言論文脈化フレームワークと政治アクター表現モデルに基づいて、より構造化されたモデルを開発し、ベンチマークする。 提案するソーシャルグラウンドタスクによって生じる実用的言語理解課題に対するさらなる洞察を得るために,データセットと予測を分析した。

Social media discourse frequently consists of 'seemingly similar language used by opposing sides of the political spectrum', often translating to starkly contrasting perspectives. E.g., 'thoughts and prayers', could express sympathy for mass-shooting victims, or criticize the lack of legislative action on the issue. This paper defines the context required to fully understand such ambiguous statements in a computational setting and ground them in real-world entities, actions, and attitudes. We propose two challenging datasets that require an understanding of the real-world context of the text. We benchmark these datasets against models built upon large pre-trained models, such as RoBERTa and GPT-3. Additionally, we develop and benchmark more structured models building upon existing Discourse Contextualization Framework and Political Actor Representation models. We analyze the datasets and the predictions to obtain further insights into the pragmatic language understanding challenges posed by the proposed social grounding tasks.
翻訳日:2024-02-27 21:40:17 公開日:2024-02-26
# マルチアームバンドと量子チャネルオラクル

Multi-Armed Bandits and Quantum Channel Oracles ( http://arxiv.org/abs/2301.08544v3 )

ライセンス: Link先を確認
Simon Buchholz, Jonas M. K\"ubler, Bernhard Sch\"olkopf(参考訳) 多腕バンディットは強化学習の理論的柱の1つである。 近年,マルチアームバンディット問題に対する量子アルゴリズムの研究が開始され,腕と腕の報酬のランダム性が重ね合わせで問合せ可能な場合,二次的なスピードアップ(クエリ複雑性)が可能であることが判明した。 ここでは,報酬のランダム性への限定的なアクセスしかできないが,重ね合わせで腕を照会できる,さらなるバンディットモデルを紹介する。 クエリの複雑さは古典的なアルゴリズムと同じであることを示す。 これにより、オラクルが正の故障確率を持つ場合、非構造化探索ではスピードアップができないという事前結果が一般化される。

Multi-armed bandits are one of the theoretical pillars of reinforcement learning. Recently, the investigation of quantum algorithms for multi-armed bandit problems was started, and it was found that a quadratic speed-up (in query complexity) is possible when the arms and the randomness of the rewards of the arms can be queried in superposition. Here we introduce further bandit models where we only have limited access to the randomness of the rewards, but we can still query the arms in superposition. We show that then the query complexity is the same as for classical algorithms. This generalizes the prior result that no speed-up is possible for unstructured search when the oracle has positive failure probability.
翻訳日:2024-02-27 19:47:26 公開日:2024-02-26
# 非線形ICAの識別可能性について:スパーシリティと超越性

On the Identifiability of Nonlinear ICA: Sparsity and Beyond ( http://arxiv.org/abs/2206.07751v5 )

ライセンス: Link先を確認
Yujia Zheng, Ignavier Ng, Kun Zhang(参考訳) 非線形独立成分分析(ICA)は、観測可能な非線形混合物から基礎となる独立潜伏源を回収することを目的としている。 非線形icaモデルを特定の自明な不確定性まで識別する方法は、教師なし学習における長年の問題である。 最近のブレークスルーは、補助変数(例えばクラスラベルやドメイン/時間インデックス)が弱い監督や帰納バイアスとして与えられる条件付き独立性としてソースの標準的な独立性仮定を再構成している。 しかし、非条件事前を持つ非線形ICAはそのような発展の恩恵を受けることができない。 我々は、代替経路を探究し、構造空間のような混合過程の仮定のみを考える。 このような制約の特定のインスタンス化の下では、独立潜水源は置換や成分変換まで非線形混合から同定でき、補助変数のない非線形ICAの非自明な識別性を実現することができる。 評価法と理論結果の検証を実験的に行う。 画像データの結果から,我々の条件は多くの実用的データ生成プロセスに保持される可能性が示唆された。

Nonlinear independent component analysis (ICA) aims to recover the underlying independent latent sources from their observable nonlinear mixtures. How to make the nonlinear ICA model identifiable up to certain trivial indeterminacies is a long-standing problem in unsupervised learning. Recent breakthroughs reformulate the standard independence assumption of sources as conditional independence given some auxiliary variables (e.g., class labels and/or domain/time indexes) as weak supervision or inductive bias. However, nonlinear ICA with unconditional priors cannot benefit from such developments. We explore an alternative path and consider only assumptions on the mixing process, such as Structural Sparsity. We show that under specific instantiations of such constraints, the independent latent sources can be identified from their nonlinear mixtures up to a permutation and a component-wise transformation, thus achieving nontrivial identifiability of nonlinear ICA without auxiliary variables. We provide estimation methods and validate the theoretical results experimentally. The results on image data suggest that our conditions may hold in a number of practical data generating processes.
翻訳日:2024-02-27 19:45:54 公開日:2024-02-26
# 分布ロバスト最適化による確率的再重み付け勾配降下

Stochastic Re-weighted Gradient Descent via Distributionally Robust Optimization ( http://arxiv.org/abs/2306.09222v4 )

ライセンス: Link先を確認
Ramnath Kumar and Kushal Majmundar and Dheeraj Nagaraj and Arun Sai Suggala(参考訳) 本稿では,動的サンプル重み付けによりディープニューラルネットワークの性能を向上させる新しい最適化手法である再重み付け勾配降下法(rgd)を提案する。 提案手法は,Kulback-Leibler分散を用いた分散ロバスト最適化(DRO)の原理に基づく。 RGDは実装が簡単で、計算効率が良く、SGDやAdamのような広く使われているオプティマイザと互換性がある。 本稿では,+0.7% (DomainBed), +1.44% (タブラル分類),+1.94% (GLUE with BERT), +1.01% (ImageNet-1K with ViT) など,さまざまなベンチマークにおいて,RGDの適用性と影響を実証する。

We present Re-weighted Gradient Descent (RGD), a novel optimization technique that improves the performance of deep neural networks through dynamic sample importance weighting. Our method is grounded in the principles of distributionally robust optimization (DRO) with Kullback-Leibler divergence. RGD is simple to implement, computationally efficient, and compatible with widely used optimizers such as SGD and Adam. We demonstrate the broad applicability and impact of RGD by achieving state-of-the-art results on diverse benchmarks, including improvements of +0.7% (DomainBed), +1.44% (tabular classification), +1.94% (GLUE with BERT), and +1.01% (ImageNet-1K with ViT).
翻訳日:2024-02-27 19:39:51 公開日:2024-02-26
# コントラストRLの安定化:オフラインデータからのロボットゴールリーチ技術

Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from Offline Data ( http://arxiv.org/abs/2306.03346v2 )

ライセンス: Link先を確認
Chongyi Zheng, Benjamin Eysenbach, Homer Walke, Patrick Yin, Kuan Fang, Ruslan Salakhutdinov, Sergey Levine(参考訳) 主に自己指導型学習に依存するロボットシステムは、制御戦略を学ぶのに必要な人的アノテーションや工学的労力を削減できる可能性がある。 従来のロボットシステムがコンピュータビジョン(cv)と自然言語処理(nlp)の自己教師あり技術を活用するのと同じように、強化学習(rl)自体が自己教師ありの問題として、人間に特定された報酬やラベルなしで任意の目標に到達するための学習としてキャストできることを示す、先行研究に基づいています。 魅力的に見えるものの、自己監督されたrlメソッドが実際にロボットシステムにデプロイされる様子を(もしあるとしても)実証した例はほとんどない。 まず、このタスクの難しいシミュレートバージョンを調べることで、アーキテクチャとハイパーパラメータに関する設計決定が成功率を2 \times$で高めることを発見します。 コントラスト学習に基づく自己教師型RLアルゴリズムが、実世界の画像に基づくロボット操作タスクを解決し、トレーニング後に提供された1つのゴールイメージによってタスクが特定できることを実証した。

Robotic systems that rely primarily on self-supervised learning have the potential to decrease the amount of human annotation and engineering effort required to learn control strategies. In the same way that prior robotic systems have leveraged self-supervised techniques from computer vision (CV) and natural language processing (NLP), our work builds on prior work showing that the reinforcement learning (RL) itself can be cast as a self-supervised problem: learning to reach any goal without human-specified rewards or labels. Despite the seeming appeal, little (if any) prior work has demonstrated how self-supervised RL methods can be practically deployed on robotic systems. By first studying a challenging simulated version of this task, we discover design decisions about architectures and hyperparameters that increase the success rate by $2 \times$. These findings lay the groundwork for our main result: we demonstrate that a self-supervised RL algorithm based on contrastive learning can solve real-world, image-based robotic manipulation tasks, with tasks being specified by a single goal image provided after training.
翻訳日:2024-02-27 19:38:37 公開日:2024-02-26
# Galerkin法はスペクトルアルゴリズムのグラフベースアプローチに勝る

The Galerkin method beats Graph-Based Approaches for Spectral Algorithms ( http://arxiv.org/abs/2306.00742v3 )

ライセンス: Link先を確認
Vivien Cabannes, Francis Bach(参考訳) 歴史的に、機械学習コミュニティはグラフベースのアプローチからスペクトル分解を導出した。 このアプローチを破り、ガレルキン法の統計的および計算的優越性を証明し、研究を少数のテスト関数に限定する。 特に,大きな次元の微分演算子を構造化カーネルで扱うための実装手法を導入する。 最後に、損失ベースの最適化手順を通じて、ディープニューラルネットワークによってパラメータ化される関数など、関数の非線形空間に適用するためのアプローチ以外のコア原則を拡張します。

Historically, the machine learning community has derived spectral decompositions from graph-based approaches. We break with this approach and prove the statistical and computational superiority of the Galerkin method, which consists in restricting the study to a small set of test functions. In particular, we introduce implementation tricks to deal with differential operators in large dimensions with structured kernels. Finally, we extend on the core principles beyond our approach to apply them to non-linear spaces of functions, such as the ones parameterized by deep neural networks, through loss-based optimization procedures.
翻訳日:2024-02-27 19:38:01 公開日:2024-02-26
# 薬物発見のためのタンパク質-リガンド結合親和性予測を改善するハイブリッド量子古典核融合ニューラルネットワーク

A hybrid quantum-classical fusion neural network to improve protein-ligand binding affinity predictions for drug discovery ( http://arxiv.org/abs/2309.03919v2 )

ライセンス: Link先を確認
L. Domingo, M. Chehimi, S. Banerjee, S. He Yuxun, S. Konakanchi, L. Ogunfowora, S. Roy, S. Selvaras, M. Djukic and C. Johnson(参考訳) 薬物発見の分野は、予測される薬物分子と標的タンパク質との結合親和性の正確な予測、特にそのようなタンパク質が疾患の進行に直接影響を及ぼす場合である。 しかし、結合親和性の推定には重要な金融資源と計算資源が必要である。 最先端の方法論は古典的機械学習(ML)技術を採用しているが、新しいハイブリッド量子機械学習(QML)モデルは、その固有の並列性とデータ次元の指数的な増加を管理する能力のために、パフォーマンスの向上を約束している。 これらの進歩にもかかわらず、既存のモデルは収束安定性と予測精度に関する問題に遭遇する。 本稿では,薬物発見における親和性予測に適したハイブリッド量子古典深層学習モデルを提案する。 具体的には、3次元および空間的グラフ畳み込みニューラルネットワークを最適化量子アーキテクチャに統合する。 シミュレーションの結果、既存の古典的モデルと比較して予測精度が6%向上し、従来の古典的手法に比べてはるかに安定した収束性能を示した。

The field of drug discovery hinges on the accurate prediction of binding affinity between prospective drug molecules and target proteins, especially when such proteins directly influence disease progression. However, estimating binding affinity demands significant financial and computational resources. While state-of-the-art methodologies employ classical machine learning (ML) techniques, emerging hybrid quantum machine learning (QML) models have shown promise for enhanced performance, owing to their inherent parallelism and capacity to manage exponential increases in data dimensionality. Despite these advances, existing models encounter issues related to convergence stability and prediction accuracy. This paper introduces a novel hybrid quantum-classical deep learning model tailored for binding affinity prediction in drug discovery. Specifically, the proposed model synergistically integrates 3D and spatial graph convolutional neural networks within an optimized quantum architecture. Simulation results demonstrate a 6% improvement in prediction accuracy relative to existing classical models, as well as a significantly more stable convergence performance compared to previous classical approaches.
翻訳日:2024-02-27 19:30:31 公開日:2024-02-26
# 校正に関するベンチマーク研究

A Benchmark Study on Calibration ( http://arxiv.org/abs/2308.11838v4 )

ライセンス: Link先を確認
Linwei Tao, Younan Zhu, Haolan Guo, Minjing Dong, Chang Xu(参考訳) ディープニューラルネットワークは、さまざまな機械学習タスクでますます活用されている。 しかし、これらのモデルが複雑化するにつれて、予測精度が向上したにもかかわらず、しばしばキャリブレーションの問題に直面する。 多くの研究が、特定の損失関数、データ前処理、トレーニングフレームワークの使用によるキャリブレーション性能の向上に尽力している。 しかし、キャリブレーション特性に関する調査は見過ごされている。 本研究では,ニューラルアーキテクチャ探索(NAS)探索空間を活用し,徹底的なキャリブレーション特性探索のための網羅的なモデルアーキテクチャ空間を提供する。 具体的には、モデルキャリブレーションデータセットを作成します。 このデータセットは、広く使われているNATS-Bench検索空間内の117,702のユニークなニューラルネットワークに対して、90のビンベースと12のキャリブレーション測定値を評価する。 我々の分析は,提案したデータセットを用いて,この分野における長年の疑問に答えることを目的としている。 i) モデルキャリブレーションは、異なるデータセット間で一般化できるか? (ii)ロバスト性は校正測定に使用できるか? 三)キャリブレーション指標はどの程度信頼できるか。 (iv)ポストホック校正法は全てのモデルに一様に影響するか? (v)校正は精度とどのように相互作用するか。 (vi)キャリブレーション測定におけるビンサイズの影響について (vii)どの建築設計が校正に有用か。 さらに,NAS内のキャリブレーションを探索することで,既存のギャップを埋める。 このデータセットを提供することで、NAS校正のさらなる研究が可能になる。 私たちが知る限り、我々の研究は校正特性に関する最初の大規模調査であり、NASにおける校正問題に関する主要な研究である。

Deep neural networks are increasingly utilized in various machine learning tasks. However, as these models grow in complexity, they often face calibration issues, despite enhanced prediction accuracy. Many studies have endeavored to improve calibration performance through the use of specific loss functions, data preprocessing and training frameworks. Yet, investigations into calibration properties have been somewhat overlooked. Our study leverages the Neural Architecture Search (NAS) search space, offering an exhaustive model architecture space for thorough calibration properties exploration. We specifically create a model calibration dataset. This dataset evaluates 90 bin-based and 12 additional calibration measurements across 117,702 unique neural networks within the widely employed NATS-Bench search space. Our analysis aims to answer several longstanding questions in the field, using our proposed dataset: (i) Can model calibration be generalized across different datasets? (ii) Can robustness be used as a calibration measurement? (iii) How reliable are calibration metrics? (iv) Does a post-hoc calibration method affect all models uniformly? (v) How does calibration interact with accuracy? (vi) What is the impact of bin size on calibration measurement? (vii) Which architectural designs are beneficial for calibration? Additionally, our study bridges an existing gap by exploring calibration within NAS. By providing this dataset, we enable further research into NAS calibration. As far as we are aware, our research represents the first large-scale investigation into calibration properties and the premier study of calibration issues within NAS.
翻訳日:2024-02-27 19:30:16 公開日:2024-02-26
# フェデレート学習における均質性から不均質性への拡張のための内部層間勾配

Internal Cross-layer Gradients for Extending Homogeneity to Heterogeneity in Federated Learning ( http://arxiv.org/abs/2308.11464v2 )

ライセンス: Link先を確認
Yun-Hin Chan, Rui Zhou, Running Zhao, Zhihan Jiang, Edith C.-H. Ngai(参考訳) フェデレートラーニング(FL)は必然的に,実践シナリオにおけるシステム不均一性の課題に直面する。 システム不均一性を扱う場合のモデル同次FL手法の能力を高めるために,本課題に対処する能力を拡張するためのトレーニングスキームを提案する。 本稿では,均質かつ不均質なfl設定を詳細に検討し,(1)クライアントの性能と層間類似度との正の相関,(2)深層とは対照的に浅層間の類似度,(3)より滑らかな勾配分布は層間類似度を示す,という3つの重要な観測結果を得た。 これらの観察に基づいて,サーバモデル内の浅層層と深層層からの勾配を混合したincoアグリゲーションを提案し,クライアント間の追加的な通信を必要とせず,深層間の類似性を高める。 さらに,本手法は,FedAvg,FedProx,FedNova,Scaffold,MOONといったモデル均一なFL法に対応して,システム不均一性を扱う能力を拡張できる。 InCoアグリゲーションの有効性を実証し、不均質FLの性能を高めるための有望な経路として内部層勾配をスポットライティングした。

Federated learning (FL) inevitably confronts the challenge of system heterogeneity in practical scenarios. To enhance the capabilities of most model-homogeneous FL methods in handling system heterogeneity, we propose a training scheme that can extend their capabilities to cope with this challenge. In this paper, we commence our study with a detailed exploration of homogeneous and heterogeneous FL settings and discover three key observations: (1) a positive correlation between client performance and layer similarities, (2) higher similarities in the shallow layers in contrast to the deep layers, and (3) the smoother gradients distributions indicate the higher layer similarities. Building upon these observations, we propose InCo Aggregation that leverages internal cross-layer gradients, a mixture of gradients from shallow and deep layers within a server model, to augment the similarity in the deep layers without requiring additional communication between clients. Furthermore, our methods can be tailored to accommodate model-homogeneous FL methods such as FedAvg, FedProx, FedNova, Scaffold, and MOON, to expand their capabilities to handle the system heterogeneity. Copious experimental results validate the effectiveness of InCo Aggregation, spotlighting internal cross-layer gradients as a promising avenue to enhance the performance in heterogeneous FL.
翻訳日:2024-02-27 19:29:56 公開日:2024-02-26
# ムッセルファーム自動化のためのディープトランスファー学習によるブイ検出の改善

Improving Buoy Detection with Deep Transfer Learning for Mussel Farm Automation ( http://arxiv.org/abs/2308.09238v2 )

ライセンス: Link先を確認
Carl McMillan, Junhong Zhao, Bing Xue, Ross Vennell, Mengjie Zhang(参考訳) ニュージーランドの養殖業は急速に拡大しており、特に貝類の輸出に重点を置いている。 ムッセル農作業の需要が拡大するにつれて、人工知能とインテリジェントオブジェクト検出などのコンピュータビジョン技術の統合が、運用効率を高める効果的なアプローチとして現れつつある。 本研究では,知的なムッセル農場のモニタリングと管理に深層学習手法を活用し,ブイ検出の高度化に資する。 主な目的は、実世界の様々なシナリオにおけるブイの検出における精度と堅牢性の向上である。 mussel farmsから派生したさまざまなデータセットをキャプチャし、トレーニング用にラベル付けし、フローティングプラットフォームと船を横断するカメラから撮影した画像を包み込み、さまざまな照明や気象条件をキャプチャする。 ラベル付きデータに制限のあるブイ検出のための効果的な深層学習モデルを確立するために,転送学習技術を用いる。 これには、事前訓練されたオブジェクト検出モデルを適用して、特殊なディープラーニングブイ検出モデルを作成する。 我々は、YOLOとその変種を含む様々な事前学習モデルとデータ多様性について検討し、モデル性能への影響について検討する。 本研究は, 深層学習によるブイ検出性能の顕著な向上を実証し, 各種気象条件の一般化を図り, 本手法の実用性を強調した。

The aquaculture sector in New Zealand is experiencing rapid expansion, with a particular emphasis on mussel exports. As the demands of mussel farming operations continue to evolve, the integration of artificial intelligence and computer vision techniques, such as intelligent object detection, is emerging as an effective approach to enhance operational efficiency. This study delves into advancing buoy detection by leveraging deep learning methodologies for intelligent mussel farm monitoring and management. The primary objective centers on improving accuracy and robustness in detecting buoys across a spectrum of real-world scenarios. A diverse dataset sourced from mussel farms is captured and labeled for training, encompassing imagery taken from cameras mounted on both floating platforms and traversing vessels, capturing various lighting and weather conditions. To establish an effective deep learning model for buoy detection with a limited number of labeled data, we employ transfer learning techniques. This involves adapting a pre-trained object detection model to create a specialized deep learning buoy detection model. We explore different pre-trained models, including YOLO and its variants, alongside data diversity to investigate their effects on model performance. Our investigation demonstrates a significant enhancement in buoy detection performance through deep learning, accompanied by improved generalization across diverse weather conditions, highlighting the practical effectiveness of our approach.
翻訳日:2024-02-27 19:29:34 公開日:2024-02-26
# ドメイン対応ファインチューニング:ニューラルネットワーク適応性の向上

Domain-Aware Fine-Tuning: Enhancing Neural Network Adaptability ( http://arxiv.org/abs/2308.07728v4 )

ライセンス: Link先を確認
Seokhyeon Ha, Sunbeom Jung, Jungwoo Lee(参考訳) 訓練済みの微調整ニューラルネットワークモデルは、さまざまな領域で広く採用されている。 しかし、既に強力な一般化能力を持つ事前訓練された特徴抽出器の歪みにつながる可能性がある。 新しいターゲット領域への適応における特徴歪みの緩和が重要である。 近年の研究では、微調整を行う前に、分布内データセット上にヘッド層をアライメントすることで、特徴歪みに対処する有望な結果が示されている。 それにもかかわらず、細調整中にバッチ正規化層の処理によって大きな制限が生じ、最適化性能が低下する。 本稿では、バッチ正規化変換と線形探索と微調整の統合を組み合わせた新しいアプローチであるDomain-Aware Fine-Tuning(DAFT)を提案する。 このバッチ正規化変換手法は、微調整時のニューラルネットワークの変更を低減し、特徴歪みを効果的に軽減する。 さらに,線形探索と微調整を統合して,特徴抽出器の段階的適応を伴うヘッド層を最適化する。 バッチ正規化レイヤを活用し、線形探索と微調整を統合することにより、DAFTは特徴歪みを著しく軽減し、分布内および分布外データセットのモデル性能を向上させる。 大規模な実験により,本手法は他のベースライン法よりも優れており,性能の向上だけでなく特徴歪みの軽減にも有効であることが示された。

Fine-tuning pre-trained neural network models has become a widely adopted approach across various domains. However, it can lead to the distortion of pre-trained feature extractors that already possess strong generalization capabilities. Mitigating feature distortion during adaptation to new target domains is crucial. Recent studies have shown promising results in handling feature distortion by aligning the head layer on in-distribution datasets before performing fine-tuning. Nonetheless, a significant limitation arises from the treatment of batch normalization layers during fine-tuning, leading to suboptimal performance. In this paper, we propose Domain-Aware Fine-Tuning (DAFT), a novel approach that incorporates batch normalization conversion and the integration of linear probing and fine-tuning. Our batch normalization conversion method effectively mitigates feature distortion by reducing modifications to the neural network during fine-tuning. Additionally, we introduce the integration of linear probing and fine-tuning to optimize the head layer with gradual adaptation of the feature extractor. By leveraging batch normalization layers and integrating linear probing and fine-tuning, our DAFT significantly mitigates feature distortion and achieves improved model performance on both in-distribution and out-of-distribution datasets. Extensive experiments demonstrate that our method outperforms other baseline methods, demonstrating its effectiveness in not only improving performance but also mitigating feature distortion.
翻訳日:2024-02-27 19:28:53 公開日:2024-02-26
# セマンティクスマッチングによる特徴帰属法における確認バイアスの修正

Fixing confirmation bias in feature attribution methods via semantic match ( http://arxiv.org/abs/2307.00897v3 )

ライセンス: Link先を確認
Giovanni Cin\`a, Daniel Fernandez-Llaneza, Ludovico Deponte, Nishant Mishra, Tabea E. R\"ober, Sandro Pezzelle, Iacer Calixto, Rob Goedhart, \c{S}. \.Ilker Birbil(参考訳) 特徴帰属法は,ブラックボックスモデルの複雑な挙動を解消するための重要な手法となっている。 その成功にもかかわらず、一部の学者はそのような方法が深刻な欠陥に悩まされていると論じている。 簡単に言えば、一連の機能のコントリビューションを視覚化することは、人間がモデルの内部表現について何かを結論付けるのに十分ではない。 モデル上の仮説が特徴属性によって確認されるかどうかを検証するためには,構造的アプローチが必要である。 これは、人間の概念と(サブシンボリックな)説明の「セマンティックマッチ」と呼ばれるものです。 cin\`a et al で示された概念的枠組みに基づく構築。 2023] 意味マッチングを実際に評価するための構造化手法を提案する。 提案手法は表や画像データにまたがる一連の実験で紹介され、意味マッチングの評価が望ましい(例えば、予測に関連のあるオブジェクトにフォーカスする)ことと望ましくないモデル行動(例えば、刺激的な相関にフォーカスする)の両方にどのように洞察を与えるかを示す。 本研究は, セマンティックマッチングを測る指標の分析結果と組み合わせ, 提案手法がXAIにおける確証バイアスの解消に向けた第一歩であると主張している。

Feature attribution methods have become a staple method to disentangle the complex behavior of black box models. Despite their success, some scholars have argued that such methods suffer from a serious flaw: they do not allow a reliable interpretation in terms of human concepts. Simply put, visualizing an array of feature contributions is not enough for humans to conclude something about a model's internal representations, and confirmation bias can trick users into false beliefs about model behavior. We argue that a structured approach is required to test whether our hypotheses on the model are confirmed by the feature attributions. This is what we call the "semantic match" between human concepts and (sub-symbolic) explanations. Building on the conceptual framework put forward in Cin\`a et al. [2023], we propose a structured approach to evaluate semantic match in practice. We showcase the procedure in a suite of experiments spanning tabular and image data, and show how the assessment of semantic match can give insight into both desirable (e.g., focusing on an object relevant for prediction) and undesirable model behaviors (e.g., focusing on a spurious correlation). We couple our experimental results with an analysis on the metrics to measure semantic match, and argue that this approach constitutes the first step towards resolving the issue of confirmation bias in XAI.
翻訳日:2024-02-27 19:26:23 公開日:2024-02-26
# 勾配最適化法によるカーネルリッジ回帰の解法

Solving Kernel Ridge Regression with Gradient-Based Optimization Methods ( http://arxiv.org/abs/2306.16838v5 )

ライセンス: Link先を確認
Oskar Allerbo(参考訳) カーネルリッジ回帰 (kernel ridge regression, krr) は、データでは非線形であるがパラメータでは線形である線形リッジ回帰の一般化である。 本稿では,krrの目的関数の等価な定式化について紹介し,リッジペナルティ以外のペナルティの使用と,勾配降下の観点からカーネルリッジ回帰の研究を両立させる。 連続時間の観点からは、勾配降下による核回帰(カーネル勾配流、kgf)を解くための閉形式解を導出し、krrとkgfの差を理論的に拘束し、後者については早期停止によって正規化が得られる。 リッジペナルティをそれぞれ$\ell_1$と$\ell_\infty$のペナルティに置き換えることでKRRを一般化し、KGFとKRRの類似性、$\ell_1$の正則化と前段階回帰(座標降下)、$\ell_\infty$の正則化と符号勾配勾配が同様の解経路に従うという事実を用いる。 したがって、近位勾配降下に基づく計算量の多いアルゴリズムの必要性を緩和することができる。 理論的および経験的に、$\ell_1$ と $\ell_\infty$ のペナルティと対応する勾配に基づく最適化アルゴリズムがそれぞれスパースおよびロバストなカーネル回帰解を生成する方法を示す。

Kernel ridge regression, KRR, is a generalization of linear ridge regression that is non-linear in the data, but linear in the parameters. Here, we introduce an equivalent formulation of the objective function of KRR, opening up both for using penalties other than the ridge penalty and for studying kernel ridge regression from the perspective of gradient descent. Using a continuous-time perspective, we derive a closed-form solution for solving kernel regression with gradient descent, something we refer to as kernel gradient flow, KGF, and theoretically bound the differences between KRR and KGF, where, for the latter, regularization is obtained through early stopping. We also generalize KRR by replacing the ridge penalty with the $\ell_1$ and $\ell_\infty$ penalties, respectively, and use the fact that analogous to the similarities between KGF and KRR, $\ell_1$ regularization and forward stagewise regression (also known as coordinate descent), and $\ell_\infty$ regularization and sign gradient descent, follow similar solution paths. We can thus alleviate the need for computationally heavy algorithms based on proximal gradient descent. We show theoretically and empirically how the $\ell_1$ and $\ell_\infty$ penalties, and the corresponding gradient-based optimization algorithms, produce sparse and robust kernel regression solutions, respectively.
翻訳日:2024-02-27 19:25:48 公開日:2024-02-26
# もう一度聞くと失敗する: 大きな言語モデルによる判断の空白

Ask Again, Then Fail: Large Language Models' Vacillations in Judgement ( http://arxiv.org/abs/2310.02174v2 )

ライセンス: Link先を確認
Qiming Xie, Zengzhi Wang, Yi Feng, and Rui Xia(参考訳) 現在の会話言語モデルは、たとえ元の判断が正しいとしても、後続の疑問に直面して判断を揺らぐことが多い。 このウェーブリングは、信頼性の高い応答を生成し、ユーザ信頼を構築する上で大きな課題となる。 この問題を包括的に評価するために、2つの指標と共にフォローアップ質問機構を導入し、この不整合を定量化し、現在の言語モデルにおけるその広がりを確認した。 この問題を軽減するため,我々はクローズドソースモデルのための様々なプロンプト戦略を探求する。さらに,高品質な選好データを合成することで,言語モデルに元々正しい判断を維持するためのトレーニングベースのフレームワークunwavering-fqを開発した。 実験の結果、我々のフレームワークの有効性とモデルの汎用能力を高める能力を確認した(https://github.com/NUSTM/LLMs-Waver-In-Judgements)。

We observe that current conversational language models often waver in their judgements when faced with follow-up questions, even if the original judgement was correct. This wavering presents a significant challenge for generating reliable responses and building user trust. To comprehensively assess this issue, we introduce a Follow-up Questioning Mechanism along with two metrics to quantify this inconsistency, confirming its widespread presence in current language models. To mitigate this issue, we explore various prompting strategies for closed-source models; moreover, we develop a training-based framework Unwavering-FQ that teaches language models to maintain their originally correct judgements through synthesized high-quality preference data. Our experimental results confirm the effectiveness of our framework and its ability to enhance the general capabilities of models (https://github.com/NUSTM/LLMs-Waver-In-Judgements).
翻訳日:2024-02-27 19:21:47 公開日:2024-02-26
# 進化型ディープカーネルマシン

Convolutional Deep Kernel Machines ( http://arxiv.org/abs/2309.09814v3 )

ライセンス: Link先を確認
Edward Milsom, Ben Anson, Laurence Aitchison(参考訳) ニューラルネットワークの標準無限幅制限は、中間層がデータから表現を学ぶ能力を犠牲にする。 最近の研究(表現学習の理論は、表現学習が維持されるようにニューラルネットワークガウス過程(NNGP)の限界を変更したカーネル手法の深い一般化を与える。 さらに、この修正された制限を深いガウス過程に適用すると、ディープカーネルマシン(DKM)と呼ばれる実用的な学習アルゴリズムが得られることがわかった。 しかし、最も単純な設定は、例えば10の入力機能を持つ、小さく完全に接続されたネットワークでの回帰である。 ここでは畳み込み型ディープカーネルマシンを紹介する。 これにより、新しいドメイン間誘導点近似を開発し、バッチ正規化の類似、異なる可能性、異なるトップレイヤーの異なるタイプを含む、これまでDKMで見られなかった多くのテクニックを導入、実験的に評価する必要があった。 その結果、約77gpu時間でトレーニングを行い、mnistでは約99%、cifar-100では72%、cifar-10では92.7%、カーネルメソッドではsotaとなった。

Standard infinite-width limits of neural networks sacrifice the ability for intermediate layers to learn representations from data. Recent work (A theory of representation learning gives a deep generalisation of kernel methods, Yang et al. 2023) modified the Neural Network Gaussian Process (NNGP) limit of Bayesian neural networks so that representation learning is retained. Furthermore, they found that applying this modified limit to a deep Gaussian process gives a practical learning algorithm which they dubbed the deep kernel machine (DKM). However, they only considered the simplest possible setting: regression in small, fully connected networks with e.g. 10 input features. Here, we introduce convolutional deep kernel machines. This required us to develop a novel inter-domain inducing point approximation, as well as introducing and experimentally assessing a number of techniques not previously seen in DKMs, including analogues to batch normalisation, different likelihoods, and different types of top-layer. The resulting model trains in roughly 77 GPU hours, achieving around 99% test accuracy on MNIST, 72% on CIFAR-100, and 92.7% on CIFAR-10, which is SOTA for kernel methods.
翻訳日:2024-02-27 19:17:42 公開日:2024-02-26
# 機械学習のための勾配最適化と変分不等式入門

A Gentle Introduction to Gradient-Based Optimization and Variational Inequalities for Machine Learning ( http://arxiv.org/abs/2309.04877v2 )

ライセンス: Link先を確認
Neha S. Wadia, Yatin Dandi, and Michael I. Jordan(参考訳) 近年の機械学習の急速な進歩は、勾配に基づく最適化への高度に生産的な接続に基づいている。 さらなる進歩は、パターン認識から意思決定やマルチエージェント問題へと焦点を移すことにある。 これらの広い環境では、オプティマの代わりに平衡とゲーム理論を含む新しい数学的課題が現れる。 勾配に基づく手法は、高次元と大規模な機械学習問題を考えると、依然として不可欠だが、単純な勾配降下はアルゴリズム設計の出発点ではない。 機械学習における勾配に基づくアルゴリズムのより広範なフレームワークについて,サドルポイントとモノトーンゲームから始まり,一般的な変分不等式へと進む。 提示するアルゴリズムのいくつかの収束証明を提供する一方で、私たちの焦点はモチベーションと直感を提供することです。

The rapid progress in machine learning in recent years has been based on a highly productive connection to gradient-based optimization. Further progress hinges in part on a shift in focus from pattern recognition to decision-making and multi-agent problems. In these broader settings, new mathematical challenges emerge that involve equilibria and game theory instead of optima. Gradient-based methods remain essential -- given the high dimensionality and large scale of machine-learning problems -- but simple gradient descent is no longer the point of departure for algorithm design. We provide a gentle introduction to a broader framework for gradient-based algorithms in machine learning, beginning with saddle points and monotone games, and proceeding to general variational inequalities. While we provide convergence proofs for several of the algorithms that we present, our main focus is that of providing motivation and intuition.
翻訳日:2024-02-27 19:16:38 公開日:2024-02-26
# コントラスト差予測符号化

Contrastive Difference Predictive Coding ( http://arxiv.org/abs/2310.20141v2 )

ライセンス: Link先を確認
Chongyi Zheng, Ruslan Salakhutdinov, Benjamin Eysenbach(参考訳) 未来の予測と推論は多くの時系列質問の中心にある。 例えば、目標条件付き強化学習は、将来どの状態が訪問されるかを予測するための学習表現と見なすことができる。 従来の手法では、時系列データをモデル化するために対照的な予測符号を用いたが、長期的な依存関係をエンコードする学習表現は通常、大量のデータを必要とする。 本稿では,異なる時系列データの断片を縫い合わせて,将来の事象の予測を学ぶのに必要なデータ量を削減する,コントラスト予測符号化の時間差バージョンを提案する。 この表現学習手法を用いて,目標条件rlのオフポリシーアルゴリズムを導出する。 実験の結果,従来のRL法と比較して,成功率の中央値改善が2ドル(約2400円)で達成でき,確率的環境に対処できることがわかった。 表形式では,提案手法は後続表現よりも約20 \times$サンプリング効率がよいこと,およびコントラッシブ予測符号化の標準 (Monte Carlo) バージョンよりも1500 \times$サンプル効率がよいことを示す。

Predicting and reasoning about the future lie at the heart of many time-series questions. For example, goal-conditioned reinforcement learning can be viewed as learning representations to predict which states are likely to be visited in the future. While prior methods have used contrastive predictive coding to model time series data, learning representations that encode long-term dependencies usually requires large amounts of data. In this paper, we introduce a temporal difference version of contrastive predictive coding that stitches together pieces of different time series data to decrease the amount of data required to learn predictions of future events. We apply this representation learning method to derive an off-policy algorithm for goal-conditioned RL. Experiments demonstrate that, compared with prior RL methods, ours achieves $2 \times$ median improvement in success rates and can better cope with stochastic environments. In tabular settings, we show that our method is about $20 \times$ more sample efficient than the successor representation and $1500 \times$ more sample efficient than the standard (Monte Carlo) version of contrastive predictive coding.
翻訳日:2024-02-27 19:11:34 公開日:2024-02-26
# 神経拡散モデル

Neural Diffusion Models ( http://arxiv.org/abs/2310.08337v2 )

ライセンス: Link先を確認
Grigory Bartosh, Dmitry Vetrov, Christian A. Naesseth(参考訳) 拡散モデルは多くの生成的タスクで顕著な性能を示している。 近年の成功にもかかわらず、ほとんどの拡散モデルはデータ分布の線形変換しか許さないという点で制限されている。 対照的に、より広範な変換の族は、生成分布の訓練をより効率的にし、逆過程を単純化し、真の負の対数類似度と変動近似の間のギャップを閉じる可能性がある。 本稿では,時間に依存しないデータの非線形変換の定義と学習を可能にする従来の拡散モデルの一般化であるニューラル拡散モデル(NDM)を提案する。 シミュレーション不要な環境で変動境界を用いてNDMを最適化する方法を示す。 さらに,NDMの時間連続的な定式化を導出し,既製の数値ODEとSDEソルバを用いた高速かつ信頼性の高い推論を可能にする。 最後に,CIFAR-10 などの標準画像生成ベンチマーク,ImageNet と CelebA-HQ のダウンサンプル版など,学習可能な変換による NDM の有用性を示す。 NDMは、可能性の観点から従来の拡散モデルより優れ、高品質なサンプルを生成する。

Diffusion models have shown remarkable performance on many generative tasks. Despite recent success, most diffusion models are restricted in that they only allow linear transformation of the data distribution. In contrast, broader family of transformations can potentially help train generative distributions more efficiently, simplifying the reverse process and closing the gap between the true negative log-likelihood and the variational approximation. In this paper, we present Neural Diffusion Models (NDMs), a generalization of conventional diffusion models that enables defining and learning time-dependent non-linear transformations of data. We show how to optimise NDMs using a variational bound in a simulation-free setting. Moreover, we derive a time-continuous formulation of NDMs, which allows fast and reliable inference using off-the-shelf numerical ODE and SDE solvers. Finally, we demonstrate the utility of NDMs with learnable transformations through experiments on standard image generation benchmarks, including CIFAR-10, downsampled versions of ImageNet and CelebA-HQ. NDMs outperform conventional diffusion models in terms of likelihood and produce high-quality samples.
翻訳日:2024-02-27 19:08:53 公開日:2024-02-26
# 品質認識翻訳モデル:単一モデルにおける効率的な生成と品質推定

Quality-Aware Translation Models: Efficient Generation and Quality Estimation in a Single Model ( http://arxiv.org/abs/2310.06707v2 )

ライセンス: Link先を確認
Christian Tomani, David Vilar, Markus Freitag, Colin Cherry, Subhajit Naskar, Mara Finkelstein, Xavier Garcia and Daniel Cremers(参考訳) MAPデコーディングは、ニューラルネットワーク翻訳(NMT)モデルにおいて最も広く使われているデコーディング戦略である。 基礎となる前提は、モデル確率は人間の判断とよく相関し、より良い翻訳がモデルによってより高いスコアを与えられるというものである。 しかし、この仮定が常に成り立つわけではなく、最小ベイズリスク(MBR)や品質認識復号(Quality-Aware decoding)によって行われるように、計量や品質推定信号に裏打ちされたユーティリティ関数をデコードすることで、生成品質を改善することができる。 これらの手法の主な欠点は、復号化時に実用関数を計算するための追加モデルが必要であり、計算コストが大幅に増加することである。 本稿では,NMTモデル自体の品質を学習し,その品質を推定することで,NMTモデル自体を品質に適応させることを提案する。 MBRデコーディングのこのアプローチを用いることで、候補リストのサイズを大幅に削減でき、結果として2桁の速度が向上する。 MAPデコーディングに本手法を適用する際には,単一パスの復号化の効率が向上するのに対し,品質向上は品質向上と同等かそれ以上に優れている。

Maximum-a-posteriori (MAP) decoding is the most widely used decoding strategy for neural machine translation (NMT) models. The underlying assumption is that model probability correlates well with human judgment, with better translations getting assigned a higher score by the model. However, research has shown that this assumption does not always hold, and generation quality can be improved by decoding to optimize a utility function backed by a metric or quality-estimation signal, as is done by Minimum Bayes Risk (MBR) or Quality-Aware decoding. The main disadvantage of these approaches is that they require an additional model to calculate the utility function during decoding, significantly increasing the computational cost. In this paper, we propose to make the NMT models themselves quality-aware by training them to estimate the quality of their own output. Using this approach for MBR decoding we can drastically reduce the size of the candidate list, resulting in a speed-up of two-orders of magnitude. When applying our method to MAP decoding we obtain quality gains similar or even superior to quality reranking approaches, but with the efficiency of single pass decoding.
翻訳日:2024-02-27 19:08:14 公開日:2024-02-26
# 対向行動によるQ-Learningにおける過大評価の抑制

Suppressing Overestimation in Q-Learning through Adversarial Behaviors ( http://arxiv.org/abs/2310.06286v2 )

ライセンス: Link先を確認
HyeAnn Lee, Donghwan Lee(参考訳) 本研究の目的は,Dummy adversarial Q-learning(DAQ)と呼ばれる,Dummy adversarial Q-learning(DAQ)を用いた新しいQ-learningアルゴリズムを提案することである。 ダミープレイヤーでは、学習は2プレイヤーゼロサムゲームとして定式化することができる。 提案するDAQは,最大Qラーニングや最小Qラーニング(本論文で提案する)などの過大評価バイアスを制御するために,複数のQラーニングバリエーションを統合する。 提案したDAQは,過大評価バイアスのダミー対向行動を抑制するための簡易かつ効果的な手法であり,市販の強化学習アルゴリズムに容易に適用して性能を向上させることができる。 daqの有限時間収束は、逆q学習に適応して統合的な視点から解析される。 提案するDAQの性能は,様々なベンチマーク環境で実証的に実証される。

The goal of this paper is to propose a new Q-learning algorithm with a dummy adversarial player, which is called dummy adversarial Q-learning (DAQ), that can effectively regulate the overestimation bias in standard Q-learning. With the dummy player, the learning can be formulated as a two-player zero-sum game. The proposed DAQ unifies several Q-learning variations to control overestimation biases, such as maxmin Q-learning and minmax Q-learning (proposed in this paper) in a single framework. The proposed DAQ is a simple but effective way to suppress the overestimation bias thourgh dummy adversarial behaviors and can be easily applied to off-the-shelf reinforcement learning algorithms to improve the performances. A finite-time convergence of DAQ is analyzed from an integrated perspective by adapting an adversarial Q-learning. The performance of the suggested DAQ is empirically demonstrated under various benchmark environments.
翻訳日:2024-02-27 19:07:51 公開日:2024-02-26
# パラメータ効率適応による不規則なモーダリティをもつロバストマルチモーダル学習

Robust Multimodal Learning with Missing Modalities via Parameter-Efficient Adaptation ( http://arxiv.org/abs/2310.03986v3 )

ライセンス: Link先を確認
Md Kaykobad Reza, Ashley Prater-Bennette, M. Salman Asif(参考訳) マルチモーダル学習は、下流タスクの全体的なパフォーマンスを改善するために、複数のソースからのデータを活用する。 データの冗長性は、いくつかの相関したモードでの欠落や破損した観察に対してマルチモーダルシステムを堅牢にすることが望ましい。 しかし,複数の既存マルチモーダルネットワークの性能は,テスト時に1つまたは複数のモーダルが欠落した場合に著しく低下する。 欠落モードに対するロバスト性を実現するために,事前学習されたマルチモーダルネットワークに対する簡易かつパラメータ効率の良い適応手順を提案する。 特に中間的特徴の変調を利用して欠落したモダリティを補償する。 このような適応によって、モダリティの欠如と、利用可能なモダリティの組み合わせのために訓練された独立した専用ネットワークを上回るパフォーマンス低下が部分的に橋渡しできることを実証する。 提案された適応は、非常に少ないパラメータ(例えば、総パラメータの0.7%未満)を必要とし、幅広いモダリティの組み合わせとタスクに適用できる。 本研究では,提案手法の欠落したモダリティを,マルチモーダル意味セグメンテーション,マルチモーダル材料セグメンテーション,マルチモーダル感情分析タスクのための5つの異なるデータセット上で強調する実験を行った。 提案手法は,様々なタスクやデータセットにまたがる汎用性を示し,モダリティの欠如した頑健なマルチモーダル学習手法よりも優れている。

Multimodal learning seeks to utilize data from multiple sources to improve the overall performance of downstream tasks. It is desirable for redundancies in the data to make multimodal systems robust to missing or corrupted observations in some correlated modalities. However, we observe that the performance of several existing multimodal networks significantly deteriorates if one or multiple modalities are absent at test time. To enable robustness to missing modalities, we propose a simple and parameter-efficient adaptation procedure for pretrained multimodal networks. In particular, we exploit modulation of intermediate features to compensate for the missing modalities. We demonstrate that such adaptation can partially bridge performance drop due to missing modalities and outperform independent, dedicated networks trained for the available modality combinations in some cases. The proposed adaptation requires extremely small number of parameters (e.g., fewer than 0.7% of the total parameters) and applicable to a wide range of modality combinations and tasks. We conduct a series of experiments to highlight the missing modality robustness of our proposed method on 5 different datasets for multimodal semantic segmentation, multimodal material segmentation, and multimodal sentiment analysis tasks. Our proposed method demonstrates versatility across various tasks and datasets, and outperforms existing methods for robust multimodal learning with missing modalities.
翻訳日:2024-02-27 19:06:43 公開日:2024-02-26
# 時間知識グラフ推論のためのマルチグラフ構造学習

Learning Multi-graph Structure for Temporal Knowledge Graph Reasoning ( http://arxiv.org/abs/2312.03004v2 )

ライセンス: Link先を確認
Jinchuan Zhang, Bei Hui, Chong Mu, Ling Tian(参考訳) 時系列知識グラフ(TKG)は、タイムスタンプ上に分散した過去のスナップショットに基づいて将来の出来事を予測することを外挿と表現し、注目されている。 空間的および時間的相関の極端に多様性と変動のため、TKG推論は困難な課題を示し、同時構造と事実間の進化的相互作用の効率的な捕捉を要求する。 既存の手法はこの方向に進んでいるが、tkgの様々な形態の固有表現論的意味論を利用するには至らず、複数のタイムスタンプと時間情報の周期性にまたがるエンティティ相関を包含している。 この制限は、過去の依存関係と将来のトレンドを徹底的に反映する能力を制限する。 このような欠点に対して,本稿では,LMS(Learning Multi-graph Structure)に着目した革新的な推論手法を提案する。 具体的には、TKG内のグラフ構造知識の複数の側面に焦点を当てた3つのモジュールで構成され、タイムスタンプに沿った並行パターンと進化パターン、タイムスタンプ間のクエリ固有の相関、TKGの特徴を様々な視点から捉えたタイムスタンプの意味的依存関係を含む。 加えて、LMSはタイムスタンプを効果的に横断するエンティティ表現をマージするための適応ゲートを組み込んでいる。 さらに、タイムスタンプセマンティクスをグラフ注意計算や時間認識デコーダに統合することで、イベントに時間的制約を課し、予測範囲を歴史的な統計で狭める。 5つのイベントベースベンチマークデータセットの大規模な実験結果から、LMSは最先端の補間モデルよりも優れており、TKG推論のためのマルチグラフ視点のモデリングの優位性を示している。

Temporal Knowledge Graph (TKG) reasoning that forecasts future events based on historical snapshots distributed over timestamps is denoted as extrapolation and has gained significant attention. Owing to its extreme versatility and variation in spatial and temporal correlations, TKG reasoning presents a challenging task, demanding efficient capture of concurrent structures and evolutional interactions among facts. While existing methods have made strides in this direction, they still fall short of harnessing the diverse forms of intrinsic expressive semantics of TKGs, which encompass entity correlations across multiple timestamps and periodicity of temporal information. This limitation constrains their ability to thoroughly reflect historical dependencies and future trends. In response to these drawbacks, this paper proposes an innovative reasoning approach that focuses on Learning Multi-graph Structure (LMS). Concretely, it comprises three distinct modules concentrating on multiple aspects of graph structure knowledge within TKGs, including concurrent and evolutional patterns along timestamps, query-specific correlations across timestamps, and semantic dependencies of timestamps, which capture TKG features from various perspectives. Besides, LMS incorporates an adaptive gate for merging entity representations both along and across timestamps effectively. Moreover, it integrates timestamp semantics into graph attention calculations and time-aware decoders, in order to impose temporal constraints on events and narrow down prediction scopes with historical statistics. Extensive experimental results on five event-based benchmark datasets demonstrate that LMS outperforms state-of-the-art extrapolation models, indicating the superiority of modeling a multi-graph perspective for TKG reasoning.
翻訳日:2024-02-27 19:01:45 公開日:2024-02-26
# ULMA:人間の実証とポイントワイズを考慮した統一言語モデルアライメント

ULMA: Unified Language Model Alignment with Human Demonstration and Point-wise Preference ( http://arxiv.org/abs/2312.02554v2 )

ライセンス: Link先を確認
Tianchi Cai, Xierui Song, Jiyan Jiang, Fei Teng, Jinjie Gu, Guannan Zhang(参考訳) 言語モデルを人間の期待に合わせること、例えば、便利で無害であることは、大きな言語モデルにとって大きな課題となっている。 典型的なアライメント手順は教師付き微調整と選好学習からなる。 RLHFやDPOのようなほとんどの選好学習手法は、人間のフィードバックがポイントワイズであるシナリオに不適切な対処を行うペアワイズ選好データに依存しており、潜在的な情報損失と準最適性能をもたらす。 このギャップに対処し,ポイントワイズフィードバックを効果的に活用する新しい選好学習手法であるポイントワイズ直接選好最適化を提案する。 我々の研究は、教師付き微調整とポイントワイド選好学習の新たな結びつきを明らかにし、統一言語モデルアライメント(Unified Language Model Alignment)に到達した。 2進ラベルまたは連続ラベル付きポイントワイド選好データセットの大規模な実験により,本手法の有効性が検証された。 私たちのコードと、ハイクオリティなデモサンプルを備えた新しいデータセットがリリースされています。

Aligning language models to human expectations, e.g., being helpful and harmless, has become a pressing challenge for large language models. A typical alignment procedure consists of supervised fine-tuning and preference learning. Most preference learning methods, such as RLHF and DPO, depend on pairwise preference data, which inadequately address scenarios where human feedback is point-wise, leading to potential information loss and suboptimal performance. Addressing this gap, we introduce Point-wise Direct Preference Optimization, a novel preference learning method designed to harness point-wise feedback effectively. Our work also uncovers a novel connection between supervised fine-tuning and point-wise preference learning, culminating in Unified Language Model Alignment, a single-step method that unifies the alignment with human demonstrations and point-wise preferences. Extensive experiments on point-wise preference datasets with binary or continuous labels validate the effectiveness of our methods. Our code and a new dataset with high-quality demonstration samples on harmlessness are released.
翻訳日:2024-02-27 19:01:14 公開日:2024-02-26
# 無バイアス濃度の線形対数正規注意

Linear Log-Normal Attention with Unbiased Concentration ( http://arxiv.org/abs/2311.13541v4 )

ライセンス: Link先を確認
Yury Nahshan, Joseph Kampeas and Emir Haleva(参考訳) トランスフォーマーモデルは広範囲のアプリケーションで顕著な成果を上げている。 しかし、そのスケーラビリティは、シーケンス長に関する自己注意機構の二次時間とメモリの複雑さによって妨げられる。 この制限は、長い文書や高解像度画像を扱う際にかなりの障害となる。 本研究では,注意行列の分布と集中能力を分析し,自己注意機構について検討する。 さらに,これらの量を計測する手段を提案し,その分布・集中挙動をエミュレートする新しい自己付着機構である線形対数正規注意機構を提案する。 ポピュラーな自然言語ベンチマークによる実験結果から,提案する線形ログNormal Attentionは,他の線形化アテンションよりも優れており,トランスフォーマーモデルのスケーラビリティ向上に期待できる方法であることがわかった。

Transformer models have achieved remarkable results in a wide range of applications. However, their scalability is hampered by the quadratic time and memory complexity of the self-attention mechanism concerning the sequence length. This limitation poses a substantial obstacle when dealing with long documents or high-resolution images. In this work, we study the self-attention mechanism by analyzing the distribution of the attention matrix and its concentration ability. Furthermore, we propose instruments to measure these quantities and introduce a novel self-attention mechanism, Linear Log-Normal Attention, designed to emulate the distribution and concentration behavior of the original self-attention. Our experimental results on popular natural language benchmarks reveal that our proposed Linear Log-Normal Attention outperforms other linearized attention alternatives, offering a promising avenue for enhancing the scalability of transformer models.
翻訳日:2024-02-27 19:00:08 公開日:2024-02-26
# デプロイされた機械学習アルゴリズムのモニタリング戦略の設計: 因果レンズによるパフォーマンスのナビゲート

Designing monitoring strategies for deployed machine learning algorithms: navigating performativity through a causal lens ( http://arxiv.org/abs/2311.11463v2 )

ライセンス: Link先を確認
Jean Feng, Adarsh Subbaswamy, Alexej Gossmann, Harvineet Singh, Berkman Sahiner, Mi-Ok Kim, Gene Pennello, Nicholas Petrick, Romain Pirracchio, Fan Xia(参考訳) 機械学習(ML)ベースのシステムがデプロイされた後、アルゴリズムの安全性と有効性を保証するために、そのパフォーマンスを監視することが重要である。 mlアルゴリズムが環境と相互作用する場合、そのアルゴリズムはデータ生成機構に影響を与え、独立の性能評価において主要なバイアス源となる。 先行研究は、因果推論手法を用いて、パフォーマンス性の有無でモデルを検証する方法を示したが、パフォーマンス性の有無でモデルを監視する方法についてはほとんど研究されていない。 モデル検証の設定とは異なり、どのパフォーマンスメトリクスを監視するかという合意ははるかに少ない。 異なる監視基準は、テスト統計結果の解釈方法、識別可能性に必要な仮定、検出速度に影響を及ぼす。 この選択が観察データと介入データを使用する決定とさらに結びつくと、MLデプロイメントチームは、さまざまな監視オプションに直面します。 この研究の目的は、監視戦略を設計するという比較的過小評価された複雑さと、これらの選択肢の中から選択するための体系的なフレームワークをどのように提供できるかを強調することである。 モチベーションの例として、未計画の読み出しを予測するためのMLベースのリスク予測アルゴリズムを検討する。 因果推論と統計的プロセス制御のツールを組み合わせることで,6つの監視手順(3つの監視基準と2つのデータソース)を考察し,シミュレーション研究における運用特性について検討する。 このケーススタディの結果は、すべての監視システムが同等ではないという一見単純な(そして明白な)事実を強調し、ML監視システムの設計とドキュメントに現実的な影響を与えている。

After a machine learning (ML)-based system is deployed, monitoring its performance is important to ensure the safety and effectiveness of the algorithm over time. When an ML algorithm interacts with its environment, the algorithm can affect the data-generating mechanism and be a major source of bias when evaluating its standalone performance, an issue known as performativity. Although prior work has shown how to validate models in the presence of performativity using causal inference techniques, there has been little work on how to monitor models in the presence of performativity. Unlike the setting of model validation, there is much less agreement on which performance metrics to monitor. Different monitoring criteria impact how interpretable the resulting test statistic is, what assumptions are needed for identifiability, and the speed of detection. When this choice is further coupled with the decision to use observational versus interventional data, ML deployment teams are faced with a multitude of monitoring options. The aim of this work is to highlight the relatively under-appreciated complexity of designing a monitoring strategy and how causal reasoning can provide a systematic framework for choosing between these options. As a motivating example, we consider an ML-based risk prediction algorithm for predicting unplanned readmissions. Bringing together tools from causal inference and statistical process control, we consider six monitoring procedures (three candidate monitoring criteria and two data sources) and investigate their operating characteristics in simulation studies. Results from this case study emphasize the seemingly simple (and obvious) fact that not all monitoring systems are created equal, which has real-world impacts on the design and documentation of ML monitoring systems.
翻訳日:2024-02-27 18:59:25 公開日:2024-02-26
# トランスフォーマーを用いた記述論理に基づく文脈の推論

Reasoning over Description Logic-based Contexts with Transformers ( http://arxiv.org/abs/2311.08941v2 )

ライセンス: Link先を確認
Angelos Poulis, Eleni Tsalapati, Manolis Koubarakis(参考訳) 現在の技術がトランスフォーマーベースのモデルの推論能力を測定する方法の1つは、自然言語で表現された合成文脈よりも論理的質問応答や証明生成のような下流タスクの精度を評価することである。 しかし、ほとんどの文脈は実際には非常に単純であり、ほとんどの場合、論理演算子と量化子しか持たない短い一階述語論理文から生成される。 本研究では,トランスフォーマーに基づくモデルが,表現的文脈に対する推論をどの程度うまく行うかという疑問に答える。 そこで我々は,記述論理知識ベースから生成した合成自然言語質問応答データセットを構築した。 知識ベースの生成には、表現力のある言語$\mathcal{alcq}$を使用します。 結果として得られたデータセットには、384kのサンプルが含まれ、2次元で増加する。 一 推論の深さ、及び ii)文の長さ。 DELTA$_M$のDeBERTaモデルの性能は、推論深度が大きくなると影響を受けなくなり、文の長さが大きくなると全く影響しないことを示す。 また,モデルの一般化能力について,学習時に見つからない推論深度,増大と減少の両面から評価し,モデルの適応的一般化能力に関する興味深い洞察を明らかにした。

One way that the current state of the art measures the reasoning ability of transformer-based models is by evaluating accuracy in downstream tasks like logical question answering or proof generation over synthetic contexts expressed in natural language. However, most of the contexts used are in practice very simple; in most cases, they are generated from short first-order logic sentences with only a few logical operators and quantifiers. In this work, we seek to answer the question how well a transformer-based model will perform reasoning over expressive contexts. For this purpose, we construct a synthetic natural language question-answering dataset, generated by description logic knowledge bases. For the generation of the knowledge bases, we use the expressive language $\mathcal{ALCQ}$. The resulting dataset contains 384K examples, and increases in two dimensions: i) reasoning depth, and ii) length of sentences. We show that the performance of our DeBERTa-based model, DELTA$_M$, is marginally affected when the reasoning depth is increased and it is not affected at all when the length of the sentences is increasing. We also evaluate the generalization ability of the model on reasoning depths unseen at training, both increasing and decreasing, revealing interesting insights into the model's adaptive generalization abilities.
翻訳日:2024-02-27 18:58:22 公開日:2024-02-26
# 学習の形状:変圧器モデルにおける異方性と内在次元

The Shape of Learning: Anisotropy and Intrinsic Dimensions in Transformer-Based Models ( http://arxiv.org/abs/2311.05928v2 )

ライセンス: Link先を確認
Anton Razzhigaev, Matvey Mikhalchuk, Elizaveta Goncharova, Ivan Oseledets, Denis Dimitrov, Andrey Kuznetsov(参考訳) 本研究では,エンコーダとデコーダの分離に着目し,トランスフォーマアーキテクチャにおける組込みの異方性ダイナミクスと固有次元について検討する。 その結果,変圧器デコーダの異方性プロファイルはベル形状曲線を示し,中間層で最も異方性が高いことがわかった。 このパターンはエンコーダで観測されるより均一に分布する異方性から分岐する。 さらに, 組込みの固有次元はトレーニングの初期段階において増加し, 高次元空間への展開を示すことがわかった。 その後、次元が減少する訓練の終わりに圧縮フェーズが続き、よりコンパクトな表現への洗練が示唆される。 その結果,エンコーダとデコーダの埋め込み特性の理解に新たな知見が得られた。

In this study, we present an investigation into the anisotropy dynamics and intrinsic dimension of embeddings in transformer architectures, focusing on the dichotomy between encoders and decoders. Our findings reveal that the anisotropy profile in transformer decoders exhibits a distinct bell-shaped curve, with the highest anisotropy concentrations in the middle layers. This pattern diverges from the more uniformly distributed anisotropy observed in encoders. In addition, we found that the intrinsic dimension of embeddings increases in the initial phases of training, indicating an expansion into higher-dimensional space. Which is then followed by a compression phase towards the end of training with dimensionality decrease, suggesting a refinement into more compact representations. Our results provide fresh insights to the understanding of encoders and decoders embedding properties.
翻訳日:2024-02-27 18:57:36 公開日:2024-02-26
# 単発連続アクティブラーニングのための学習

Learning to Learn for Few-shot Continual Active Learning ( http://arxiv.org/abs/2311.03732v2 )

ライセンス: Link先を確認
Stella Ho, Ming Liu, Shang Gao, Longxiang Gao(参考訳) 継続的な学習は、新しいドメインで可塑性を示しながら、以前見たタスクを解く際の安定性を確保するために努力する。 CLの最近の進歩は、特にNLPドメインにおいて、主に教師付き学習環境に限られている。 本研究では,ラベル付きデータが不十分であり,ラベルなしデータが豊富だが,アノテーションの予算が限られている,数ショット連続型アクティブラーニング(CAL)について考察する。 メタContinual Active Learningと呼ばれる,シンプルだが効率的な手法を提案する。 具体的には,メタラーニングと経験リプレイを用いて,タスク間の混乱と破滅的な忘れ込みに対処する。 さらに、一般化を保証するためにテキスト拡張を取り入れます。 提案手法の有効性を検証するため,ベンチマークテキスト分類データセットの広範な実験を行い,数ショットCAL設定における様々なアクティブラーニング戦略の効果を分析する。 実験の結果,無作為サンプリングは能動的学習とメモリサンプル選択における最善のデフォルト戦略であることがわかった。

Continual learning strives to ensure stability in solving previously seen tasks while demonstrating plasticity in a novel domain. Recent advances in CL are mostly confined to a supervised learning setting, especially in NLP domain. In this work, we consider a few-shot continual active learning (CAL) setting where labeled data are inadequate, and unlabeled data are abundant but with a limited annotation budget. We propose a simple but efficient method, called Meta-Continual Active Learning. Specifically, we employ meta-learning and experience replay to address inter-task confusion and catastrophic forgetting. We further incorporate textual augmentations to ensure generalization. We conduct extensive experiments on benchmark text classification datasets to validate the effectiveness of the proposed method and analyze the effect of different active learning strategies in few-shot CAL setting. Our experimental results demonstrate that random sampling is the best default strategy for active learning and memory sample selection to solve few-shot CAL problems.
翻訳日:2024-02-27 18:57:24 公開日:2024-02-26
# 言語シフトによる継続的な学習

Continual Learning Under Language Shift ( http://arxiv.org/abs/2311.01200v3 )

ライセンス: Link先を確認
Evangelia Gogoulou, Timoth\'ee Lesort, Magnus Boman, Joakim Nivre(参考訳) 最近の言語モデルの事前トレーニングのデータとモデルスケールの増加は、大きなトレーニングコストを生み出した。 新しいデータが時間とともに利用可能になるシナリオでは、完全に再トレーニングするのではなく、モデルを更新することが大きな利益をもたらす。 我々は、新しいデータが新しい言語から来るとき、言語モデルを更新することの長所と短所について研究する。 単言語英語モデルから始めて,デンマーク語,アイスランド語,ノルウェー語からのデータを段階的に追加して,3つの異なるモデルサイズにおいて,事前学習順序と特性にどのような影響があるかを検討する。 以上の結果から,前方移動は言語の順序にほぼ依存するが,後方移動は新言語の順序や特性によっては肯定的あるいは否定的であることが示された。 言語汚染と構文的類似性の組み合わせが,我々の結果に最も適していることを見出した。

The recent increase in data and model scale for language model pre-training has led to huge training costs. In scenarios where new data become available over time, updating a model instead of fully retraining it would therefore provide significant gains. We study the pros and cons of updating a language model when new data comes from new languages -- the case of continual learning under language shift. Starting from a monolingual English language model, we incrementally add data from Danish, Icelandic, and Norwegian to investigate how forward and backward transfer effects depend on pre-training order and characteristics of languages, for three different model sizes. Our results show that, while forward transfer is largely positive and independent of language order, backward transfer can be positive or negative depending on the order and characteristics of new languages. We explore a number of potentially explanatory factors and find that a combination of language contamination and syntactic similarity best fits our results.
翻訳日:2024-02-27 18:56:46 公開日:2024-02-26
# MM-SAP:マルチモーダル大規模言語モデルの認識における自己認識評価のための総合ベンチマーク

MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of Multimodal Large Language Models in Perception ( http://arxiv.org/abs/2401.07529v2 )

ライセンス: Link先を確認
Yuhao Wang, Yusheng Liao, Heyang Liu, Hongcheng Liu, Yu Wang, Yanfeng Wang(参考訳) MLLM(Multimodal Large Language Models)の最近の進歩は、視覚知覚と理解において例外的な能力を示している。 しかし、これらのモデルは幻覚に悩まされ、AIシステムとしての信頼性が制限される。 これらの幻覚の一部は、モデルがイメージから理解でき、知覚できないことを理解するのに苦労しているためである、と我々は信じている。 その重要性にもかかわらず、MLLMのこの側面は以前の研究で見過ごされてきた。 本稿では,MLLMの認識における自己認識性を定義し,評価することを目的とする。 そこで我々はまず,MLLMが画像について知っていることや知らないことを定義する知識四分法を導入する。 本稿では,MLLM(MM-SAP)に対する自己認識の自己認識性(Self-Awareness in Perception for MLLMs)という新しいベンチマークを提案する。 MM-SAPを多種多様なMLLMに適用し、自己認識の包括的分析と詳細な洞察を提供する。 実験の結果,現在のMLLMは自己認識能力に限界があることが明らかとなり,信頼性の高いMLLMの開発に欠かせない領域であることが示唆された。 コードとデータはhttps://github.com/YHWmz/MM-SAPで公開されている。

Recent advancements in Multimodal Large Language Models (MLLMs) have demonstrated exceptional capabilities in visual perception and understanding. However, these models also suffer from hallucinations, which limit their reliability as AI systems. We believe that these hallucinations are partially due to the models' struggle with understanding what they can and cannot perceive from images, a capability we refer to as self-awareness in perception. Despite its importance, this aspect of MLLMs has been overlooked in prior studies. In this paper, we aim to define and evaluate the self-awareness of MLLMs in perception. To do this, we first introduce the knowledge quadrant in perception, which helps define what MLLMs know and do not know about images. Using this framework, we propose a novel benchmark, the Self-Awareness in Perception for MLLMs (MM-SAP), specifically designed to assess this capability. We apply MM-SAP to a variety of popular MLLMs, offering a comprehensive analysis of their self-awareness and providing detailed insights. The experiment results reveal that current MLLMs possess limited self-awareness capabilities, pointing to a crucial area for future advancement in the development of trustworthy MLLMs. Code and data are available at https://github.com/YHWmz/MM-SAP.
翻訳日:2024-02-27 18:51:29 公開日:2024-02-26
# QuasiNet: トレーニング可能な製品レイヤを備えたニューラルネットワーク

QuasiNet: a neural network with trainable product layers ( http://arxiv.org/abs/2401.06137v2 )

ライセンス: Link先を確認
Krist\'ina Malinovsk\'a, Slavom\'ir Holenda and \v{L}udov\'it Malinovsk\'y(参考訳) 古典的ニューラルネットワークは、隠れたニューロンの数が少ない場合、XORやパリティのような難しい問題において限られた収束しか達成しない。 これらの問題において、ニューラルネットワークの成功率を向上させるモチベーションとして、製品ニューロンと呼ばれる既存のニューラルネットワークモデルに触発された新しいニューラルネットワークモデルと、相互排他的状況の問題をエレガントに解決する古典的なエラーバックプロパゲーションに由来する学習規則を提案する。 既定で適応できない重みを持つ既存の製品ニューロンとは異なり、私たちの製品層のニューロンも学習します。 このモデルを用いて実験を行い、上記の問題や2つのスパイラルのような他の難しい問題において、その成功率を古典的多層パーセプトロンと比較した。 以上の結果から,我々のモデルは従来のMLPよりも明らかに成功しており,多くのタスクやアプリケーションに応用できる可能性が示唆された。

Classical neural networks achieve only limited convergence in hard problems such as XOR or parity when the number of hidden neurons is small. With the motivation to improve the success rate of neural networks in these problems, we propose a new neural network model inspired by existing neural network models with so called product neurons and a learning rule derived from classical error backpropagation, which elegantly solves the problem of mutually exclusive situations. Unlike existing product neurons, which have weights that are preset and not adaptable, our product layers of neurons also do learn. We tested the model and compared its success rate to a classical multilayer perceptron in the aforementioned problems as well as in other hard problems such as the two spirals. Our results indicate that our model is clearly more successful than the classical MLP and has the potential to be used in many tasks and applications.
翻訳日:2024-02-27 18:50:18 公開日:2024-02-26
# 知覚損失を伴う拡散モデル

Diffusion Model with Perceptual Loss ( http://arxiv.org/abs/2401.00110v4 )

ライセンス: Link先を確認
Shanchuan Lin, Xiao Yang(参考訳) 平均二乗誤差損失で訓練された拡散モデルは非現実的なサンプルを生成する傾向がある。 現在の最先端のモデルは、サンプル品質を改善するために分類器なしのガイダンスに依存しているが、驚くべき有効性は完全には理解されていない。 本稿では,分類者なし指導の有効性は,暗黙的な知覚誘導の一形態である点に起因していることを示す。 その結果, 拡散訓練における知覚損失を直接組み込むことにより, サンプル品質の向上が期待できる。 拡散訓練におけるスコアマッチング対象は、知覚ネットワークの教師なし訓練で使用される雑音化オートエンコーダ目標に強く似ているため、拡散モデル自体が知覚ネットワークであり、有意義な知覚損失を生成するために使用できる。 そこで本研究では,より現実的なサンプルを生成することができる拡散モデルを提案する。 条件付き生成では,条件付き入力と絡み合うことなくサンプル品質を向上できるため,サンプルの多様性を犠牲にしない。 また,非条件生成のためのサンプル品質の改善も可能であり,従来は分類器を使わない指導では不可能であった。

Diffusion models trained with mean squared error loss tend to generate unrealistic samples. Current state-of-the-art models rely on classifier-free guidance to improve sample quality, yet its surprising effectiveness is not fully understood. In this paper, we show that the effectiveness of classifier-free guidance partly originates from it being a form of implicit perceptual guidance. As a result, we can directly incorporate perceptual loss in diffusion training to improve sample quality. Since the score matching objective used in diffusion training strongly resembles the denoising autoencoder objective used in unsupervised training of perceptual networks, the diffusion model itself is a perceptual network and can be used to generate meaningful perceptual loss. We propose a novel self-perceptual objective that results in diffusion models capable of generating more realistic samples. For conditional generation, our method only improves sample quality without entanglement with the conditional input and therefore does not sacrifice sample diversity. Our method can also improve sample quality for unconditional generation, which was not possible with classifier-free guidance before.
翻訳日:2024-02-27 18:49:33 公開日:2024-02-26
# repairLLaMA: プログラム修復のための効率的な表現と微調整アダプタ

RepairLLaMA: Efficient Representations and Fine-Tuned Adapters for Program Repair ( http://arxiv.org/abs/2312.15698v2 )

ライセンス: Link先を確認
Andr\'e Silva, Sen Fang, Martin Monperrus(参考訳) APR(Automated Program repair)は、LLM(Large Language Models)の出現によって大きく進化した。 プログラム修復のための微調整LDMは最近の研究の道であり、多くの次元がまだ探索されていない。 既存の作業は、コード表現が単純で、大きなLLMを微調整する能力に基本的に制限がある。 この問題に対処するため,我々は,新しいプログラム修復手法である repairllama を提案する。 1) apr と apr のコード表現 2) LLMファインチューニング技術であるLoRAについて検討した。 この結果、LLaMAは言語モデルでバグを修正するのに非常に効果的な'プログラム修復アダプタ'を作成した。 両概念の妥当性を示す実験を行った。 まず、プログラムの補修固有のコード表現を備えた微調整アダプタにより、意味のある補修信号を使用することができる。 第二に、パラメータ効率の良い微調整は微調整の収束に役立ち、微調整データ分布外のデータポイントを修正するための補修アダプタの有効性に寄与する。 repairLLaMAは、125 Defects4J v2と82 HumanEval-Javaのバグを正しく修正し、すべてのベースラインを上回っている。

Automated Program Repair (APR) has evolved significantly with the advent of Large Language Models (LLMs). Fine-tuning LLMs for program repair is a recent avenue of research, with many dimensions which have not been explored. Existing work mostly fine-tunes LLMs with naive code representations and is fundamentally limited in its ability to fine-tune larger LLMs. To address this problem, we propose RepairLLaMA, a novel program repair approach that combines 1) code representations for APR and 2) the state-of-the-art parameter-efficient LLM fine-tuning technique called LoRA. This results in RepairLLaMA producing a highly effective `program repair adapter' for fixing bugs with language models. Our experiments demonstrate the validity of both concepts. First, fine-tuning adapters with program repair specific code representations enables the model to use meaningful repair signals. Second, parameter-efficient fine-tuning helps fine-tuning to converge and contributes to the effectiveness of the repair adapter to fix data-points outside the fine-tuning data distribution. Overall, RepairLLaMA correctly fixes 125 Defects4J v2 and 82 HumanEval-Java bugs, outperforming all baselines.
翻訳日:2024-02-27 18:48:50 公開日:2024-02-26
# グラフ上の分散バイレベル最適化:ループレスアルゴリズム更新と過渡反復複雑性

Decentralized Bilevel Optimization over Graphs: Loopless Algorithmic Update and Transient Iteration Complexity ( http://arxiv.org/abs/2402.03167v2 )

ライセンス: Link先を確認
Boao Kong, Shuchen Zhu, Songtao Lu, Xinmeng Huang, Kun Yuan(参考訳) SBO(Stochastic bilevel optimization)は、ネスト構造を扱う汎用性のため、機械学習においてますます重要になっている。 大規模SBOに対処するため,ノードが中央サーバを使わずに隣接ノードと通信する効果的なパラダイムとして分散化アプローチが登場し,通信効率が向上し,アルゴリズムの堅牢性が向上した。 しかし、現在の分散SBOアルゴリズムは、高価なインナーループ更新や、ネットワークトポロジ、データ不均一性、ネストされた双レベルアルゴリズム構造の影響の不明な理解など、課題に直面している。 本稿では、単一ループ分散SBO(D-SOBA)アルゴリズムを導入し、その過渡反復複雑性を確立し、ネットワークトポロジとデータヘテロジニティが分散二段階アルゴリズムに与える影響を初めて明らかにする。 D-SOBAは、既存の方法と比較してより緩和された仮定の下で、最先端の漸近速度、漸近勾配/ヘッセン複雑性、過渡反復複雑性を達成する。 数値実験は我々の理論的な結果を検証する。

Stochastic bilevel optimization (SBO) is becoming increasingly essential in machine learning due to its versatility in handling nested structures. To address large-scale SBO, decentralized approaches have emerged as effective paradigms in which nodes communicate with immediate neighbors without a central server, thereby improving communication efficiency and enhancing algorithmic robustness. However, current decentralized SBO algorithms face challenges, including expensive inner-loop updates and unclear understanding of the influence of network topology, data heterogeneity, and the nested bilevel algorithmic structures. In this paper, we introduce a single-loop decentralized SBO (D-SOBA) algorithm and establish its transient iteration complexity, which, for the first time, clarifies the joint influence of network topology and data heterogeneity on decentralized bilevel algorithms. D-SOBA achieves the state-of-the-art asymptotic rate, asymptotic gradient/Hessian complexity, and transient iteration complexity under more relaxed assumptions compared to existing methods. Numerical experiments validate our theoretical findings.
翻訳日:2024-02-27 18:40:09 公開日:2024-02-26
# 都市間交通予測のためのマルチスケール交通パターンバンク

Multi-scale Traffic Pattern Bank for Cross-city Few-shot Traffic Forecasting ( http://arxiv.org/abs/2402.00397v2 )

ライセンス: Link先を確認
Zhanyu Liu, Guanjie Zheng, Yanwei Yu(参考訳) 交通予測は知的交通システム(ITS)にとって重要であり、効率的な資源配分と効率的な交通制御を支援する。 しかし、その有効性はしばしば豊富なトラフィックデータに大きく依存するが、多くの都市ではデバイスサポートが限られているため十分なデータがないため、交通予測には大きな課題がある。 この課題を認識して、我々は注目に値する観察を行った。交通パターンは様々な都市で類似点を示す。 この重要な知見に基づいて,MTPB(Multi-scale Traffic Pattern Bank)と呼ばれる都市間交通予測問題に対する解決策を提案する。 主にMTPBは、データ豊富なソース都市を活用して学習プロセスを開始し、空間的時間的事前学習プロセスを通じて、包括的な交通知識を効果的に獲得する。 その後、このフレームワークは高度なクラスタリング技術を用いて、学習知識から派生したマルチスケールトラフィックパターンバンクを体系的に生成する。 次に、データ収集対象都市の交通データは、トラフィックパターンバンクに問い合わせることができ、メタ知識の集約が容易になる。 このメタ知識は、グラフの再構築と予測を含むその後のプロセスにおいて、ロバストなガイドとして重要な役割を果たす。 実世界の交通データセット上で実施された実証評価は,MTPBの優れた性能を裏付けるものであり,様々なカテゴリーにまたがる既存手法を超越し,都市間数ショット予測手法の進歩にともなう多くの属性を示す。 コードはhttps://github.com/zhyliu00/mtpbで入手できる。

Traffic forecasting is crucial for intelligent transportation systems (ITS), aiding in efficient resource allocation and effective traffic control. However, its effectiveness often relies heavily on abundant traffic data, while many cities lack sufficient data due to limited device support, posing a significant challenge for traffic forecasting. Recognizing this challenge, we have made a noteworthy observation: traffic patterns exhibit similarities across diverse cities. Building on this key insight, we propose a solution for the cross-city few-shot traffic forecasting problem called Multi-scale Traffic Pattern Bank (MTPB). Primarily, MTPB initiates its learning process by leveraging data-rich source cities, effectively acquiring comprehensive traffic knowledge through a spatial-temporal-aware pre-training process. Subsequently, the framework employs advanced clustering techniques to systematically generate a multi-scale traffic pattern bank derived from the learned knowledge. Next, the traffic data of the data-scarce target city could query the traffic pattern bank, facilitating the aggregation of meta-knowledge. This meta-knowledge, in turn, assumes a pivotal role as a robust guide in subsequent processes involving graph reconstruction and forecasting. Empirical assessments conducted on real-world traffic datasets affirm the superior performance of MTPB, surpassing existing methods across various categories and exhibiting numerous attributes conducive to the advancement of cross-city few-shot forecasting methodologies. The code is available in https://github.com/zhyliu00/MTPB.
翻訳日:2024-02-27 18:38:26 公開日:2024-02-26
# Airavata: ヒンディー語指導のLLMの導入

Airavata: Introducing Hindi Instruction-tuned LLM ( http://arxiv.org/abs/2401.15006v2 )

ライセンス: Link先を確認
Jay Gala, Thanmay Jayakumar, Jaavid Aktar Husain, Aswanth Kumar M, Mohammed Safi Ur Rahman Khan, Diptesh Kanojia, Ratish Puduppully, Mitesh M. Khapra, Raj Dabre, Rudra Murthy and Anoop Kunchukuttan(参考訳) ヒンディー語のための命令調整型LLMである"Airavata"の最初のリリースをアナウンスする。 airavataは、様々な命令をチューニングするヒンディー語データセットでopenhathiを微調整することで作成され、補助的なタスクに適している。 Indic Instructデータセットはまた、Indic LLMのさらなる研究を可能にする多様な命令チューニングデータセットのコレクションであるIndicInstructデータセットも共有しています。 さらに,Hindiにおけるタスク間のLLM性能を評価するための評価ベンチマークとフレームワークを提案する。 現在、AiravataはHindiをサポートしていますが、22の予定のIndic言語に拡張する予定です。 すべてのアーティファクトはhttps://ai4bharat.github.io/airavataでアクセスできる。

We announce the initial release of "Airavata," an instruction-tuned LLM for Hindi. Airavata was created by fine-tuning OpenHathi with diverse, instruction-tuning Hindi datasets to make it better suited for assistive tasks. Along with the model, we also share the IndicInstruct dataset, which is a collection of diverse instruction-tuning datasets to enable further research for Indic LLMs. Additionally, we present evaluation benchmarks and a framework for assessing LLM performance across tasks in Hindi. Currently, Airavata supports Hindi, but we plan to expand this to all 22 scheduled Indic languages. You can access all artifacts at https://ai4bharat.github.io/airavata.
翻訳日:2024-02-27 18:37:03 公開日:2024-02-26
# エネルギーに基づく概念ボトルネックモデル:統一予測、概念介入、確率的解釈

Energy-Based Concept Bottleneck Models: Unifying Prediction, Concept Intervention, and Probabilistic Interpretations ( http://arxiv.org/abs/2401.14142v2 )

ライセンス: Link先を確認
Xinyue Xu, Yi Qin, Lu Mi, Hao Wang, Xiaomeng Li(参考訳) 概念ボトルネックモデル(cbms)のような既存の手法は、ブラックボックスディープラーニングモデルの概念に基づく解釈を提供することに成功している。 通常、入力された概念を予測し、予測された概念から最終クラスラベルを予測する。 However, (1) they often fail to capture the high-order, nonlinear interaction between concepts, e.g., correcting a predicted concept (e.g., "yellow breast") does not help correct highly correlated concepts (e.g., "yellow belly"), leading to suboptimal final accuracy; (2) they cannot naturally quantify the complex conditional dependencies between different concepts and class labels (e.g., for an image with the class label "Kentucky Warbler" and a concept "black bill", what is the probability that the model correctly predicts another concept "black crown"), therefore failing to provide deeper insight into how a black-box model works. これらの制約に対応するために,我々はエネルギーに基づく概念ボトルネックモデル(ecbms)を提案する。 私たちのECBMはニューラルネットワークを使って、候補(インプット、概念、クラス)タプルの結合エネルギーを定義します。 このような統一インターフェースでは、予測、概念補正、条件依存量化は、異なるエネルギー関数を構成することによって生成される条件付き確率として表現される。 我々のECBMは既存のCBMの限界に対処し、より高い精度とよりリッチな概念解釈を提供する。 実験結果から,本手法は実世界のデータセットの最先端性よりも優れていることが示された。

Existing methods, such as concept bottleneck models (CBMs), have been successful in providing concept-based interpretations for black-box deep learning models. They typically work by predicting concepts given the input and then predicting the final class label given the predicted concepts. However, (1) they often fail to capture the high-order, nonlinear interaction between concepts, e.g., correcting a predicted concept (e.g., "yellow breast") does not help correct highly correlated concepts (e.g., "yellow belly"), leading to suboptimal final accuracy; (2) they cannot naturally quantify the complex conditional dependencies between different concepts and class labels (e.g., for an image with the class label "Kentucky Warbler" and a concept "black bill", what is the probability that the model correctly predicts another concept "black crown"), therefore failing to provide deeper insight into how a black-box model works. In response to these limitations, we propose Energy-based Concept Bottleneck Models (ECBMs). Our ECBMs use a set of neural networks to define the joint energy of candidate (input, concept, class) tuples. With such a unified interface, prediction, concept correction, and conditional dependency quantification are then represented as conditional probabilities, which are generated by composing different energy functions. Our ECBMs address both limitations of existing CBMs, providing higher accuracy and richer concept interpretations. Empirical results show that our approach outperforms the state-of-the-art on real-world datasets.
翻訳日:2024-02-27 18:36:52 公開日:2024-02-26
# メモリ効率の良いLLMファインチューニングのためのゼロ階最適化の再検討:ベンチマーク

Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark ( http://arxiv.org/abs/2402.11592v2 )

ライセンス: Link先を確認
Yihua Zhang, Pingzhi Li, Junyuan Hong, Jiaxiang Li, Yimeng Zhang, Wenqing Zheng, Pin-Yu Chen, Jason D. Lee, Wotao Yin, Mingyi Hong, Zhangyang Wang, Sijia Liu, Tianlong Chen(参考訳) 自然言語処理(NLP)の進化途上において、SGDやAdamのような一階最適化(FO)を備えた微調整済みの大規模言語モデル(LLM)が標準となっている。 しかし, LLMのサイズが大きくなるにつれて, FO勾配計算のバックプロパゲーション(BP)によるメモリオーバーヘッドが大幅に増大する。 メモリ効率が最重要となるオンデバイストレーニングのようなアプリケーションでは、この問題に対処することが特に重要です。 本稿では, BPフリーなゼロオーダー最適化(ZO)へのシフトを, MeZO による初期概念に基づく LLM 微調整時のメモリコスト削減ソリューションとして提案する。 従来のZO-SGD法とは異なり、我々の研究はより広範なZO最適化手法に拡張され、5つのLLMファミリー(Roberta, OPT, LLaMA, Vicuna, Mistral)、3つのタスク複雑度、5つの微調整スキームにまたがる総合的なベンチマーク研究が実施されている。 本研究は,これまで見過ごされていた最適化原理を明らかにし,タスクアライメントの重要性,前傾勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスを強調する。 さらに,ブロックワイド降下,ハイブリッドトレーニング,勾配間隔など,ZO最適化の新たな拡張も導入する。 本研究は、さらなるメモリ効率のllm微調整を実現するための有望な方向性を提供する。 すべての実験を再現するためのコードはhttps://github.com/ZO-Bench/ZO-LLM にある。

In the evolving landscape of natural language processing (NLP), fine-tuning pre-trained Large Language Models (LLMs) with first-order (FO) optimizers like SGD and Adam has become standard. Yet, as LLMs grow {in size}, the substantial memory overhead from back-propagation (BP) for FO gradient computation presents a significant challenge. Addressing this issue is crucial, especially for applications like on-device training where memory efficiency is paramount. This paper proposes a shift towards BP-free, zeroth-order (ZO) optimization as a solution for reducing memory costs during LLM fine-tuning, building on the initial concept introduced by MeZO. Unlike traditional ZO-SGD methods, our work expands the exploration to a wider array of ZO optimization techniques, through a comprehensive, first-of-its-kind benchmarking study across five LLM families (Roberta, OPT, LLaMA, Vicuna, Mistral), three task complexities, and five fine-tuning schemes. Our study unveils previously overlooked optimization principles, highlighting the importance of task alignment, the role of the forward gradient method, and the balance between algorithm complexity and fine-tuning performance. We further introduce novel enhancements to ZO optimization, including block-wise descent, hybrid training, and gradient sparsity. Our study offers a promising direction for achieving further memory-efficient LLM fine-tuning. Codes to reproduce all our experiments are at https://github.com/ZO-Bench/ZO-LLM .
翻訳日:2024-02-27 18:33:11 公開日:2024-02-26
# ロバストエージェントは因果世界モデルを学ぶ

Robust agents learn causal world models ( http://arxiv.org/abs/2402.10877v3 )

ライセンス: Link先を確認
Jonathan Richens, Tom Everitt(参考訳) 因果推論は強固で汎用的な知性において基本的な役割を担っていると長い間仮説されてきた。 しかし、エージェントが新しい領域に一般化するために因果モデルを学ぶ必要があるか、あるいは他の帰納バイアスが十分であるかどうかは不明である。 この問いに答え、分布シフトの大きな集合の下で束縛された後悔を満足できるエージェントは、最適なエージェントの真の因果モデルに収束するデータ生成プロセスの近似因果モデルを学ぶ必要があることを示した。 転校学習や因果推論など,いくつかの研究分野におけるこの結果の意義について考察する。

It has long been hypothesised that causal reasoning plays a fundamental role in robust and general intelligence. However, it is not known if agents must learn causal models in order to generalise to new domains, or if other inductive biases are sufficient. We answer this question, showing that any agent capable of satisfying a regret bound under a large set of distributional shifts must have learned an approximate causal model of the data generating process, which converges to the true causal model for optimal agents. We discuss the implications of this result for several research areas including transfer learning and causal inference.
翻訳日:2024-02-27 18:31:25 公開日:2024-02-26
# 根拠に基づく質問応答のための忠実でロバストなLLMスペシャリストを目指して

Towards Faithful and Robust LLM Specialists for Evidence-Based Question-Answering ( http://arxiv.org/abs/2402.08277v3 )

ライセンス: Link先を確認
Tobias Schimanski, Jingwei Ni, Mathias Kraus, Elliott Ash, Markus Leippold(参考訳) 大規模言語モデル(LLM)のより忠実で追跡可能な回答への進歩は、様々な研究や実践に不可欠である。 この目標を達成する1つの道は、信頼できる情報源の答えを基盤にすることです。 しかしながら、このエビデンスに基づくQAは、正しいソース(ソースの品質)を引用し、情報源(属性)内の情報を真に表現するという点で、LLMと不十分に機能することが証明されている。 本研究では,より優れたソース品質と応答帰属性を実現するために,LLMを頑健に微調整する方法を体系的に検討する。 具体的には,多様な高品質なトレーニングと大規模テストデータを合成可能な,自動データ品質フィルタを備えたデータ生成パイプラインを提案する。 さらに,精巧に調整されたスペシャリストモデルのロバスト性を評価するために,4つのテストセットを導入する。 総合評価の結果, 合成データの微調整により, 内分布と外分布の両方の性能が向上することがわかった。 さらに,提案した品質フィルタによって大幅に改善できるデータ品質が,証拠ベースQAの改善に重要であることを示す。

Advances towards more faithful and traceable answers of Large Language Models (LLMs) are crucial for various research and practical endeavors. One avenue in reaching this goal is basing the answers on reliable sources. However, this Evidence-Based QA has proven to work insufficiently with LLMs in terms of citing the correct sources (source quality) and truthfully representing the information within sources (answer attributability). In this work, we systematically investigate how to robustly fine-tune LLMs for better source quality and answer attributability. Specifically, we introduce a data generation pipeline with automated data quality filters, which can synthesize diversified high-quality training and testing data at scale. We further introduce four test sets to benchmark the robustness of fine-tuned specialist models. Extensive evaluation shows that fine-tuning on synthetic data improves performance on both in- and out-of-distribution. Furthermore, we show that data quality, which can be drastically improved by proposed quality filters, matters more than quantity in improving Evidence-Based QA.
翻訳日:2024-02-27 18:29:09 公開日:2024-02-26
# オンデバイスモデルのホワイトボックス攻撃の調査

Investigating White-Box Attacks for On-Device Models ( http://arxiv.org/abs/2402.05493v3 )

ライセンス: Link先を確認
Mingyi Zhou, Xiang Gao, Jing Wu, Kui Liu, Hailong Sun, Li Li(参考訳) 多くのモバイルアプリがディープラーニング機能を活用している。 しかし、オンデバイスモデルは、対応するモバイルアプリから簡単に抽出できるため、攻撃に対して脆弱である。 既存のデバイス上の攻撃アプローチではブラックボックス攻撃しか発生せず、ホワイトボックス戦略よりも効率的で効率的である。 これは、TFLiteのようなモバイルディープラーニングフレームワークが、ホワイトボックス攻撃アルゴリズムに必要な勾配コンピューティングをサポートしていないためである。 そこで本研究では,デバイス上での攻撃の危険性を過小評価している。 デバイス上のモデルは、ホワイトボックス戦略によって直接攻撃できるだろうか? まず,オンデバイスモデルからデバッグ可能なバージョンへの変換の難しさを体系的に解析し,コンパイルされたオンデバイスtfliteモデルをデバッグ可能なモデルに自動変換するオンデバイスモデル(reom)のためのリバースエンジニアリングフレームワークを提案する。 具体的には、reomはまずコンパイルされたオンデバイスモデルからopen neural network exchangeフォーマットに変換し、次に削除できない部分を削除してデバッグ可能なdlモデルフォーマットに変換し、攻撃者がホワイトボックス設定を悪用できるようにする。 実験の結果,提案手法は244TFLiteモデル間の自動変換を実現するのに有効であることがわかった。 代理モデルを使った以前の攻撃と比較すると、REOMは攻撃者の攻撃成功率を100倍に抑えることができる。 さらに,ONNXプラットフォームにはモデルフォーマット交換のためのツールが豊富にあるため,ONNXプラットフォームに基づく提案手法は他のモデルフォーマットにも適用可能である。 我々の研究は、開発者がモデルデプロイメント戦略を慎重に検討し、デバイス上のモデルの脆弱性を評価するためにホワイトボックスメソッドを使うことを強調した。

Numerous mobile apps have leveraged deep learning capabilities. However, on-device models are vulnerable to attacks as they can be easily extracted from their corresponding mobile apps. Existing on-device attacking approaches only generate black-box attacks, which are far less effective and efficient than white-box strategies. This is because mobile deep learning frameworks like TFLite do not support gradient computing, which is necessary for white-box attacking algorithms. Thus, we argue that existing findings may underestimate the harmfulness of on-device attacks. To this end, we conduct a study to answer this research question: Can on-device models be directly attacked via white-box strategies? We first systematically analyze the difficulties of transforming the on-device model to its debuggable version, and propose a Reverse Engineering framework for On-device Models (REOM), which automatically reverses the compiled on-device TFLite model to the debuggable model. Specifically, REOM first transforms compiled on-device models into Open Neural Network Exchange format, then removes the non-debuggable parts, and converts them to the debuggable DL models format that allows attackers to exploit in a white-box setting. Our experimental results show that our approach is effective in achieving automated transformation among 244 TFLite models. Compared with previous attacks using surrogate models, REOM enables attackers to achieve higher attack success rates with a hundred times smaller attack perturbations. In addition, because the ONNX platform has plenty of tools for model format exchanging, the proposed method based on the ONNX platform can be adapted to other model formats. Our findings emphasize the need for developers to carefully consider their model deployment strategies, and use white-box methods to evaluate the vulnerability of on-device models.
翻訳日:2024-02-27 18:28:06 公開日:2024-02-26
# マルチモーダル学習を満たしたナレッジグラフ:包括的調査

Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey ( http://arxiv.org/abs/2402.05391v4 )

ライセンス: Link先を確認
Zhuo Chen, Yichi Zhang, Yin Fang, Yuxia Geng, Lingbing Guo, Xiang Chen, Qian Li, Wen Zhang, Jiaoyan Chen, Yushan Zhu, Jiaqi Li, Xiaoze Liu, Jeff Z. Pan, Ningyu Zhang, Huajun Chen(参考訳) 知識グラフ(KG)は、セマンティックWebコミュニティがイノベーションのための新たな道を開くマルチモーダルな次元を探求する中で、さまざまなAIアプリケーションを進める上で重要な役割を果たす。 本稿では,KGがマルチモーダルタスクをサポートするKG駆動型マルチモーダル学習(KG4MM)と,KG研究をMMKG領域に拡張するMulti-Modal Knowledge Graph(MM4KG)の2つの主要な側面について,300以上の論文を慎重にレビューする。 まず、KGとMMKGを定義し、その構築の進捗を調査する。 我々のレビューでは、画像分類や視覚質問回答のようなKG対応のマルチモーダル学習タスクと、マルチモーダル知識グラフ補完やエンティティアライメントのような固有のMMKGタスクの2つの主要なタスクカテゴリが紹介されている。 これらのタスクのほとんどは、定義、評価ベンチマークを提供し、関連する研究を行うために必要な洞察を概説します。 最後に,現在の課題を議論し,大規模言語モデリングの進展やマルチモーダル事前学習戦略など,新たなトレンドを特定する。 この調査は、既にKGとマルチモーダルラーニング研究に関わっており、MMKG研究の進化の展望を提供し、今後の研究を支援するための総合的な参考となることを目的としている。

Knowledge Graphs (KGs) play a pivotal role in advancing various AI applications, with the semantic web community's exploration into multi-modal dimensions unlocking new avenues for innovation. In this survey, we carefully review over 300 articles, focusing on KG-aware research in two principal aspects: KG-driven Multi-Modal (KG4MM) learning, where KGs support multi-modal tasks, and Multi-Modal Knowledge Graph (MM4KG), which extends KG studies into the MMKG realm. We begin by defining KGs and MMKGs, then explore their construction progress. Our review includes two primary task categories: KG-aware multi-modal learning tasks, such as Image Classification and Visual Question Answering, and intrinsic MMKG tasks like Multi-modal Knowledge Graph Completion and Entity Alignment, highlighting specific research trajectories. For most of these tasks, we provide definitions, evaluation benchmarks, and additionally outline essential insights for conducting relevant research. Finally, we discuss current challenges and identify emerging trends, such as progress in Large Language Modeling and Multi-modal Pre-training strategies. This survey aims to serve as a comprehensive reference for researchers already involved in or considering delving into KG and multi-modal learning research, offering insights into the evolving landscape of MMKG research and supporting future work.
翻訳日:2024-02-27 18:27:39 公開日:2024-02-26
# Re-Examine Distantly Supervised NER:新しいベンチマークと簡単なアプローチ

Re-Examine Distantly Supervised NER: A New Benchmark and a Simple Approach ( http://arxiv.org/abs/2402.14948v2 )

ライセンス: Link先を確認
Yuepei Li, Kang Zhou, Qiao Qiao, Qing Wang and Qi Li(参考訳) 本稿では,偽陽性,偽陰性,陽性型エラーといった固有の誤りにより,ラベルの品質が損なわれることが主な課題である,遠方監視(ds-ner)の枠組みの下で,名前付きエンティティ認識(ner)を展開する。 QTLと呼ばれる実世界のベンチマークデータセットを用いて,現在のDS-NER手法の有効性を批判的に評価し,その性能が期待を満たさないことを明らかにする。 ラベルノイズの一般的な問題に取り組むために,学習過程において「簡単な」サンプルとよりクリーンなサンプルを戦略的に開始し,ノイズサンプルに対するモデルのレジリエンスを高めるための,カリキュラムベースのポジティブ・アンラベル学習キュープルという,単純かつ効果的なアプローチを導入する。 実験結果から,CuPULはノイズラベルの影響を著しく低減し,既存手法より優れていることを示す。 QTLデータセットとコードはGitHubで公開されている。

This paper delves into Named Entity Recognition (NER) under the framework of Distant Supervision (DS-NER), where the main challenge lies in the compromised quality of labels due to inherent errors such as false positives, false negatives, and positive type errors. We critically assess the efficacy of current DS-NER methodologies using a real-world benchmark dataset named QTL, revealing that their performance often does not meet expectations. To tackle the prevalent issue of label noise, we introduce a simple yet effective approach, Curriculum-based Positive-Unlabeled Learning CuPUL, which strategically starts on "easy" and cleaner samples during the training process to enhance model resilience to noisy samples. Our empirical results highlight the capability of CuPUL to significantly reduce the impact of noisy labels and outperform existing methods. QTL dataset and our code is available on GitHub.
翻訳日:2024-02-27 18:21:38 公開日:2024-02-26
# LLMBind: 統一されたModality-Task統合フレームワーク

LLMBind: A Unified Modality-Task Integration Framework ( http://arxiv.org/abs/2402.14891v2 )

ライセンス: Link先を確認
Bin Zhu, Peng Jin, Munan Ning, Bin Lin, Jinfa Huang, Qi Song, Junwu Zhang, Zhenyu Tang, Mingjun Pan, Xing Zhou, Li Yuan(参考訳) マルチモーダルな大規模言語モデルの最近の進歩は様々なモダリティタスクに取り組む一方で、複雑なマルチモーダリティタスクの統合能力が制限され、その結果、フィールドの開発が制限される。 本研究では,大規模言語モデルとそれに対応するタスクモデルとをタスク固有のトークンで結合する,モダリティタスク統合のための統一フレームワークllmbindの検討と提案を行う。 その結果、llmbindは入力を解釈し、画像、テキスト、ビデオ、オーディオの多彩な組み合わせで出力を生成することができる。 具体的には,多様な専門家のコラボレーションを通じて,多様なマルチモーダルタスクを効果的に学習するためのMixture-of-Experts手法を提案する。 さらに,400k命令データからなるマルチタスクデータセットを作成し,インタラクティブなビジュアル生成と編集の機能を開放する。 広範な実験により,画像,映像,音声生成,画像分割,画像編集など,さまざまなタスクにおけるフレームワークの有効性が示された。 より奨励的に、我々のフレームワークは他のモダリティタスクにも容易に拡張でき、普遍的なモダリティをモデル化するための統合AIエージェントを作成する可能性を示している。

While recent progress in multimodal large language models tackles various modality tasks, they posses limited integration capabilities for complex multi-modality tasks, consequently constraining the development of the field. In this work, we take the initiative to explore and propose the LLMBind, a unified framework for modality task integration, which binds Large Language Models and corresponding pre-trained task models with task-specific tokens. Consequently, LLMBind can interpret inputs and produce outputs in versatile combinations of image, text, video, and audio. Specifically, we introduce a Mixture-of-Experts technique to enable effective learning for different multimodal tasks through collaboration among diverse experts. Furthermore, we create a multi-task dataset comprising 400k instruction data, which unlocks the ability for interactive visual generation and editing tasks. Extensive experiments show the effectiveness of our framework across various tasks, including image, video, audio generation, image segmentation, and image editing. More encouragingly, our framework can be easily extended to other modality tasks, showcasing the promising potential of creating a unified AI agent for modeling universal modalities.
翻訳日:2024-02-27 18:21:20 公開日:2024-02-26
# Vygotsky距離:ベンチマークタスクの類似性の測定

Vygotsky Distance: Measure for Benchmark Task Similarity ( http://arxiv.org/abs/2402.14890v2 )

ライセンス: Link先を確認
Maxim K. Surkov and Ivan P. Yamshchikov(参考訳) 評価は現代自然言語処理において重要な役割を果たす。 現代のNLPベンチマークは、テストセット外に適用されたモデルに対する一般化ポテンシャルを保証せず、モデル評価に必要なリソース消費を最小化しようとする任意のタスクセットで構成されている。 本稿では,この類似度尺度をヴィゴツキー距離と呼ぶ,ベンチマークタスク間の類似度を計算するための理論的手法と実用的なアルゴリズムを提案する。 この類似性尺度の核となる考え方は、与えられたタスク上の「学生」の相対的なパフォーマンスに基づいており、タスク自体の性質に基づいていることである。 2つのタスクがビゴツキー距離の点で互いに近い場合、モデルに類似した相対的性能を持つ傾向にある。 したがって、タスク間のVygotsky距離を知ることで、高い検証品質を維持しながら、評価タスクの数を著しく削減することができる。 glue, superglue, clue, russian superglueなど,さまざまなベンチマーク実験では,nlpベンチマークの大部分が含まれているタスクに関して,少なくとも40%小さくなる可能性があることが示されている。 最も重要なことに、ヴィゴツキー距離は新たなタスクの検証にも利用でき、将来のNLPモデルの一般化可能性を高めることができる。

Evaluation plays a significant role in modern natural language processing. Most modern NLP benchmarks consist of arbitrary sets of tasks that neither guarantee any generalization potential for the model once applied outside the test set nor try to minimize the resource consumption needed for model evaluation. This paper presents a theoretical instrument and a practical algorithm to calculate similarity between benchmark tasks, we call this similarity measure "Vygotsky distance". The core idea of this similarity measure is that it is based on relative performance of the "students" on a given task, rather that on the properties of the task itself. If two tasks are close to each other in terms of Vygotsky distance the models tend to have similar relative performance on them. Thus knowing Vygotsky distance between tasks one can significantly reduce the number of evaluation tasks while maintaining a high validation quality. Experiments on various benchmarks, including GLUE, SuperGLUE, CLUE, and RussianSuperGLUE, demonstrate that a vast majority of NLP benchmarks could be at least 40% smaller in terms of the tasks included. Most importantly, Vygotsky distance could also be used for the validation of new tasks thus increasing the generalization potential of the future NLP models.
翻訳日:2024-02-27 18:20:59 公開日:2024-02-26
# Checkfor.ai AI生成テキスト分類器の技術報告

Technical Report on the Checkfor.ai AI-Generated Text Classifier ( http://arxiv.org/abs/2402.14873v2 )

ライセンス: Link先を確認
Bradley Emi and Max Spero(参考訳) 提案するCheckforAIテキスト分類器は,大きな言語モデルで書かれたテキストと人間の書いたテキストとを区別するために訓練されたトランスフォーマーベースのニューラルネットワークである。 checkforaiは、sudent writing, creative writing, scientific writing, books, encyclopedias, news, email, scientific papers, short-form q&a)と8つのオープンソースおよびクローズドな大規模言語モデルで構成された総合ベンチマークにおいて、detectgptのようなゼロショットメソッドと9倍以上のエラー率の商用ai検出ツールよりも優れている。 本稿では, 評価などの高データ領域において, 分類器の偽陽性率を桁違いに下げることのできるトレーニングアルゴリズムである, 合成ミラーを用いた強負のマイニングを提案する。 最後に、CheckforAIは、非ネイティブな英語話者には偏らないことを示し、トレーニング中に見えないドメインやモデルに一般化する。

We present the CheckforAI text classifier, a transformer-based neural network trained to distinguish text written by large language models from text written by humans. CheckforAI outperforms zero-shot methods such as DetectGPT as well as leading commercial AI detection tools with over 9 times lower error rates on a comprehensive benchmark comprised of ten text domains (student writing, creative writing, scientific writing, books, encyclopedias, news, email, scientific papers, short-form Q&A) and 8 open- and closed-source large language models. We propose a training algorithm, hard negative mining with synthetic mirrors, that enables our classifier to achieve orders of magnitude lower false positive rates on high-data domains such as reviews. Finally, we show that CheckforAI is not biased against nonnative English speakers and generalizes to domains and models unseen during training.
翻訳日:2024-02-27 18:20:38 公開日:2024-02-26
# Back to Basics: LLMにおける人間のフィードバックから学ぶためにReINFORCEスタイルの最適化を再考

Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs ( http://arxiv.org/abs/2402.14740v2 )

ライセンス: Link先を確認
Arash Ahmadian, Chris Cremer, Matthias Gall\'e, Marzieh Fadaee, Julia Kreutzer, Olivier Pietquin, Ahmet \"Ust\"un, Sara Hooker(参考訳) RLHF(Reinforcement Learning from Human Feedback)の形をしたAIアライメントは、ハイパフォーマンスな大規模言語モデルにとって重要な要素として扱われる。 近年,RLHF の RL 部分の正準法としてPPO ( Proximal Policy Optimization) が位置づけられている。 しかし、高い計算コストと敏感なハイパーパラメータチューニングの両方が伴う。 PPOの発展に繋がるモチベーションの原則のほとんどは、RLHFにおいて実践的な関心事ではなく、性能を保ち、さらに向上させる計算コストの低い手法を提唱している。 RLの文脈において、人間の嗜好からアライメントの定式化を再考する。 RLHF の文脈では PPO の多くのコンポーネントは不要であり、より単純なREINFORCE スタイルの最適化は PPO と DPO や RAFT のような新たに提案された "RL-free" 手法の両方より優れていることを示す。 llmsアライメント特性に対する注意深い適応は、低コストでオンラインrl最適化の利点を享受できることが示唆された。

AI alignment in the shape of Reinforcement Learning from Human Feedback (RLHF) is increasingly treated as a crucial ingredient for high performance large language models. Proximal Policy Optimization (PPO) has been positioned by recent literature as the canonical method for the RL part of RLHF. However, it involves both high computational cost and sensitive hyperparameter tuning. We posit that most of the motivational principles that led to the development of PPO are less of a practical concern in RLHF and advocate for a less computationally expensive method that preserves and even increases performance. We revisit the formulation of alignment from human preferences in the context of RL. Keeping simplicity as a guiding principle, we show that many components of PPO are unnecessary in an RLHF context and that far simpler REINFORCE-style optimization variants outperform both PPO and newly proposed "RL-free" methods such as DPO and RAFT. Our work suggests that careful adaptation to LLMs alignment characteristics enables benefiting from online RL optimization at low cost.
翻訳日:2024-02-27 18:20:18 公開日:2024-02-26
# FrameNeRF: 新規ビュー合成のためのシンプルで効率的なフレームワーク

FrameNeRF: A Simple and Efficient Framework for Few-shot Novel View Synthesis ( http://arxiv.org/abs/2402.14586v2 )

ライセンス: Link先を確認
Yan Xing, Pan Wang, Ligang Liu, Daolun Li and Li Zhang(参考訳) 本稿では,高速なトレーニング速度と高速なレンダリング品質を備えた市販の高速高忠実度NeRFモデルに適用するために,FrameNeRFと呼ばれる新しいフレームワークを提案する。 高速高忠実度モデルのトレーニング安定性は一般に密集ビューに制約されるため、数ショットの新規ビュー合成タスクには適さない。 この制限に対処するために,データジェネレータとして正規化モデルを利用し,スパース入力からの密接なビューを生成し,高速高忠実度モデルのその後のトレーニングを容易にする。 これらの濃密なビューは正規化モデルによって生成される疑似基底真理であるので、元のスパース画像を使用して高速高忠実度モデルを微調整する。 このプロセスは、モデルが現実的な詳細を学習し、初期の段階で導入されたアーティファクトを正すのに役立つ。 オフ・ザ・シェルフ正規化モデルと高速高忠実度モデルを活用することで,本手法は各種ベンチマークデータセットの最先端性能を実現する。

We present a novel framework, called FrameNeRF, designed to apply off-the-shelf fast high-fidelity NeRF models with fast training speed and high rendering quality for few-shot novel view synthesis tasks. The training stability of fast high-fidelity models is typically constrained to dense views, making them unsuitable for few-shot novel view synthesis tasks. To address this limitation, we utilize a regularization model as a data generator to produce dense views from sparse inputs, facilitating subsequent training of fast high-fidelity models. Since these dense views are pseudo ground truth generated by the regularization model, original sparse images are then used to fine-tune the fast high-fidelity model. This process helps the model learn realistic details and correct artifacts introduced in earlier stages. By leveraging an off-the-shelf regularization model and a fast high-fidelity model, our approach achieves state-of-the-art performance across various benchmark datasets.
翻訳日:2024-02-27 18:19:58 公開日:2024-02-26
# 舌先について : 逆ディクショナリープローブを用いた大言語モデルにおける概念表現の分析

On the Tip of the Tongue: Analyzing Conceptual Representation in Large Language Models with Reverse-Dictionary Probe ( http://arxiv.org/abs/2402.14404v2 )

ライセンス: Link先を確認
Ningyu Xu, Qi Zhang, Menghan Zhang, Peng Qian, Xuanjing Huang(参考訳) 大規模言語モデルの推論能力の探索と拡張は、いまだに決定的な疑問である。 ここでは,概念推論のためのllmsの能力を調査するためのケーススタディとして,逆辞書タスクを再利用する。 言語記述に含意する対象概念の用語を生成するために,文脈内学習を用いてモデルを導出する。 モデルはこのタスクにおいて高い精度を確実に達成し、その表現空間はオブジェクトカテゴリやきめ細かい特徴に関する情報を符号化する。 さらに実験により、モデル間の類似の構文的一般化挙動にもかかわらず、逆辞書タスクによって探索された概念推論能力は、複数のベンチマークでモデルの一般的な推論性能を予測することが示唆された。 探索的分析は、LLMを説明付きで促進することは、タスクの表層差を超えて一般化を誘導し、より広いコモンセンス推論問題のモデルを促進することを示唆している。

Probing and enhancing large language models' reasoning capacity remains a crucial open question. Here we re-purpose the reverse dictionary task as a case study to probe LLMs' capacity for conceptual inference. We use in-context learning to guide the models to generate the term for an object concept implied in a linguistic description. Models robustly achieve high accuracy in this task, and their representation space encodes information about object categories and fine-grained features. Further experiments suggest that the conceptual inference ability as probed by the reverse-dictionary task predicts model's general reasoning performance across multiple benchmarks, despite similar syntactic generalization behaviors across models. Explorative analyses suggest that prompting LLMs with description$\Rightarrow$word examples may induce generalization beyond surface-level differences in task construals and facilitate models on broader commonsense reasoning problems.
翻訳日:2024-02-27 18:19:42 公開日:2024-02-26
# 偏光基底射影測定による位相制御量子消光器の強度積を用いたコヒーレント励起超解像

Coherently excited superresolution using intensity product of phase-controlled quantum erasers via polarization-basis projection measurements ( http://arxiv.org/abs/2402.14338v2 )

ライセンス: Link先を確認
Byoung S. Ham(参考訳) 近年、遅延チョイス量子消去器は、古典物理学における回折限界を克服し、量子物理学におけるN00N状態の限られた光子数を解決するために、レーザー光の位相制御射影測定を用いたコヒーレント励起超解法に応用されている。 非干渉システムにおける他の位相制御型超解像法とは異なり、提案法は位相制御型量子消光器間の強度生成物であり、その結果、最も従来のセンシングされたメートル法と互換性がある。 ここでは位相制御量子消去器を用いた超解法を提案し、その一般解法を任意の n 次強度相関に対して導出し、超解法はフォトニック・ド・ブロイ波のような量子特徴を示す。 さらに,超解像の位相量子化について検討し,量子力学の理解を深めた。

Recently, the delayed-choice quantum eraser has been applied for coherently excited superresolution using phase-controlled projection measurements of laser light to overcome the diffraction limit in classical physics as well as to solve the limited photon number of the N00N state in quantum physics. Unlike other methods of phase-controlled superresolution in a noninterferometric system, the proposed method is for the intensity products between phase-controlled quantum erasers, resulting in superresolution compatible with the most conventional sensing metrologies. Here, a general scheme of the phase-controlled quantum eraser-based superresolution is proposed and its general solution is derived for an arbitrary Nth-order intensity correlation, where the superresolution shows the photonic de Broglie wave-like quantum feature. Furthermore, phase quantization of the superresolution is discussed to better understand quantum mechanics.
翻訳日:2024-02-27 18:19:24 公開日:2024-02-26
# sdxl-lightning:プログレッシブ・アドバーサリー拡散蒸留

SDXL-Lightning: Progressive Adversarial Diffusion Distillation ( http://arxiv.org/abs/2402.13929v2 )

ライセンス: Link先を確認
Shanchuan Lin, Anran Wang, Xiao Yang(参考訳) SDXLに基づく1ステップ/2ステップ1024pxのテキスト・トゥ・イメージ生成において新しい最先端を実現する拡散蒸留法を提案する。 本手法は, プログレッシブ蒸留と逆蒸留を組み合わせることで, 品質とモードカバレッジのバランスを図る。 本稿では, 理論的解析, 識別器設計, モデル定式化, 訓練技術について論じる。 蒸留したSDXL-LightningモデルをLoRAおよびフルUNet重みとしてオープンソース化した。

We propose a diffusion distillation method that achieves new state-of-the-art in one-step/few-step 1024px text-to-image generation based on SDXL. Our method combines progressive and adversarial distillation to achieve a balance between quality and mode coverage. In this paper, we discuss the theoretical analysis, discriminator design, model formulation, and training techniques. We open-source our distilled SDXL-Lightning models both as LoRA and full UNet weights.
翻訳日:2024-02-27 18:19:06 公開日:2024-02-26
# オフライン政策学習のための深層生成モデル--チュートリアル,調査,今後の方向性の展望

Deep Generative Models for Offline Policy Learning: Tutorial, Survey, and Perspectives on Future Directions ( http://arxiv.org/abs/2402.13777v4 )

ライセンス: Link先を確認
Jiayu Chen, Bhargav Ganguly, Yang Xu, Yongsheng Mei, Tian Lan, Vaneet Aggarwal(参考訳) deep generative models(dgms)は、オフラインデータからトレーニングされたモデルを使用してテキスト、画像、ビデオを生成することで、さまざまなドメインで大きな成功を収めています。 同様に、データ駆動意思決定とロボット制御は、オフラインデータからジェネレータ関数を学習し、戦略やポリシーとして機能する必要がある。 この場合、オフライン政策学習に深い生成モデルを適用することは大きな可能性を示し、この方向に多くの研究がなされている。 しかし、この分野には包括的なレビューがないため、異なるブランチの開発は比較的独立している。 そこで本研究では,オフラインポリシ学習における深層生成モデルの応用について,初めて体系的なレビューを行う。 特に, 変分自動エンコーダ, 生成適応ネットワーク, 正規化フロー, トランスフォーマー, 拡散モデル, オフライン強化学習(オフラインRL) と模倣学習(IL)の5つの主要な深層生成モデルについて述べる。 オフラインRLとILは、オフラインポリシー学習の2つの主要な分野であり、シーケンシャルな意思決定のための広く採用されている技術である。 具体的には、DGMをベースとしたオフライン政策学習において、基本スキームを精算し、DGMの使用状況に基づいて関連研究を分類し、その分野におけるアルゴリズムの開発プロセスを整理する。 そこで本研究では,本研究では,本研究の今後の方向性を概観した,深層生成モデルとオフライン政策学習に関する詳細な議論を要約として提示する。 この研究は、オフラインポリシー学習のための深い生成モデルの研究の進展をハンズオンで参照し、改良されたDGMベースのオフラインRLまたはILアルゴリズムを刺激することを目的としている。 便利のために、私たちはhttps://github.com/LucasCJYSDL/DGMs-for-Offline-Policy-Learningのペーパーリストを保持します。

Deep generative models (DGMs) have demonstrated great success across various domains, particularly in generating texts, images, and videos using models trained from offline data. Similarly, data-driven decision-making and robotic control also necessitate learning a generator function from the offline data to serve as the strategy or policy. In this case, applying deep generative models in offline policy learning exhibits great potential, and numerous studies have explored in this direction. However, this field still lacks a comprehensive review and so developments of different branches are relatively independent. Thus, we provide the first systematic review on the applications of deep generative models for offline policy learning. In particular, we cover five mainstream deep generative models, including Variational Auto-Encoders, Generative Adversarial Networks, Normalizing Flows, Transformers, and Diffusion Models, and their applications in both offline reinforcement learning (offline RL) and imitation learning (IL). Offline RL and IL are two main branches of offline policy learning and are widely-adopted techniques for sequential decision-making. Specifically, for each type of DGM-based offline policy learning, we distill its fundamental scheme, categorize related works based on the usage of the DGM, and sort out the development process of algorithms in that field. Subsequent to the main content, we provide in-depth discussions on deep generative models and offline policy learning as a summary, based on which we present our perspectives on future research directions. This work offers a hands-on reference for the research progress in deep generative models for offline policy learning, and aims to inspire improved DGM-based offline RL or IL algorithms. For convenience, we maintain a paper list on https://github.com/LucasCJYSDL/DGMs-for-Offline-Policy-Learning.
翻訳日:2024-02-27 18:18:46 公開日:2024-02-26
# クラウドからエッジへ - 低リソース設計のための生成AIの再考

From Cloud to Edge: Rethinking Generative AI for Low-Resource Design Challenges ( http://arxiv.org/abs/2402.12702v2 )

ライセンス: Link先を確認
Sai Krishna Revanth Vuruma, Ashley Margetts, Jianhai Su, Faez Ahmed, Biplav Srivastava(参考訳) ジェネレーティブ・人工知能(AI)は、デザインを含むテクノロジーのあらゆる面で大きな展望を示している。 しかしながら、リソースの需要が大きいため、通常は大規模なコンピューティングインフラストラクチャ上でトレーニングされ、クラウドベースのサービスとして利用可能になることが多い。 本稿では、メモリ、計算、エネルギー(電池)、ネットワーク接続が制限されるリソース制約のある環境で、エッジ上での設計のための生成AIの可能性、課題、および将来的なアプローチについて考察する。 このような設定に生成AIを適用することは、主に低リソース環境で効率的に機能するために複雑なモデルを合理化する方法において、重大なハードルを克服する。 これはモデル圧縮、効率的なアルゴリズム設計、エッジコンピューティングの活用といった革新的なアプローチを必要とする。 目的は、遠隔地のユニークな制約やニーズに合わせて、医療介入、農業機器のメンテナンス、教育資材設計などの設計問題に対する目覚ましいソリューションを作成する際に、生成AIの力を利用することである。 これらの取り組みは、先進技術へのアクセスを民主化し、持続可能な開発を促進し、AI駆動設計のメリットの普遍的なアクセシビリティと環境配慮を保証する。

Generative Artificial Intelligence (AI) has shown tremendous prospects in all aspects of technology, including design. However, due to its heavy demand on resources, it is usually trained on large computing infrastructure and often made available as a cloud-based service. In this position paper, we consider the potential, challenges, and promising approaches for generative AI for design on the edge, i.e., in resource-constrained settings where memory, compute, energy (battery) and network connectivity may be limited. Adapting generative AI for such settings involves overcoming significant hurdles, primarily in how to streamline complex models to function efficiently in low-resource environments. This necessitates innovative approaches in model compression, efficient algorithmic design, and perhaps even leveraging edge computing. The objective is to harness the power of generative AI in creating bespoke solutions for design problems, such as medical interventions, farm equipment maintenance, and educational material design, tailored to the unique constraints and needs of remote areas. These efforts could democratize access to advanced technology and foster sustainable development, ensuring universal accessibility and environmental consideration of AI-driven design benefits.
翻訳日:2024-02-27 18:18:13 公開日:2024-02-26
# mafin:model augmented fine-tuningによるブラックボックス埋め込みの拡張

Mafin: Enhancing Black-Box Embeddings with Model Augmented Fine-Tuning ( http://arxiv.org/abs/2402.12177v2 )

ライセンス: Link先を確認
Mingtian Zhang, Shawn Lan, Peter Hayes, David Barber(参考訳) Retrieval Augmented Generation (RAG) は、Large Language Models (LLMs) における幻覚を緩和する有効なソリューションとして登場した。 RAGの検索段階は通常、クエリとパスをベクトルに変換してセマンティクスをキャプチャする事前訓練された埋め込みモデルを含む。 しかし、標準的な事前学習型埋め込みモデルは、特定のドメイン知識に適用した場合に準最適性能を示し、微調整を必要とする。 本稿では,組込みがブラックボックスモデルからのみ利用できるシナリオについて述べる。 mafin (model augmented fine-tuning) - 学習可能な埋め込みモデルで拡張することでブラックボックス埋め込みモデルを微調整するための新しいアプローチである。 その結果,mafinは小さな拡張モデルのトレーニングだけで,ブラックボックス埋め込みの性能を大幅に向上できることがわかった。 ラベル付きデータセットとラベル付きデータセットの両方において,提案手法の有効性を検証する。

Retrieval Augmented Generation (RAG) has emerged as an effective solution for mitigating hallucinations in Large Language Models (LLMs). The retrieval stage in RAG typically involves a pre-trained embedding model, which converts queries and passages into vectors to capture their semantics. However, a standard pre-trained embedding model may exhibit sub-optimal performance when applied to specific domain knowledge, necessitating fine-tuning. This paper addresses scenarios where the embeddings are only available from a black-box model. We introduce Model augmented fine-tuning (Mafin) -- a novel approach for fine-tuning a black-box embedding model by augmenting it with a trainable embedding model. Our results demonstrate that Mafin significantly enhances the performance of the black-box embeddings by only requiring the training of a small augmented model. We validate the effectiveness of our method on both labeled and unlabeled datasets, illustrating its broad applicability and efficiency.
翻訳日:2024-02-27 18:17:36 公開日:2024-02-26
# AgentOhana: 効果的なエージェント学習のための統一データとトレーニングパイプライン

AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning ( http://arxiv.org/abs/2402.15506v2 )

ライセンス: Link先を確認
Jianguo Zhang, Tian Lan, Rithesh Murthy, Zhiwei Liu, Weiran Yao, Juntao Tan, Thai Hoang, Liangwei Yang, Yihao Feng, Zuxin Liu, Tulika Awalgaonkar, Juan Carlos Niebles, Silvio Savarese, Shelby Heinecke, Huan Wang, Caiming Xiong(参考訳) 大規模言語モデル(LLM)を利用した自律エージェントは、重要な研究の注目を集めている。 しかし、エージェントベースのタスクにLLMの可能性を十分に活用することは、マルチターン軌道を特徴とする多様なデータソースの異種性に起因する固有の課題をもたらす。 本稿では,これらの課題に対処するための包括的ソリューションとして,textbf{AgentOhana}を紹介する。 \textit{AgentOhana}は、さまざまなシナリオにまたがって、異なる環境からエージェントのトラジェクトリを集約する。 エージェントトレーニングに最適化されたジェネリックデータローダの作成を合理化して、これらのトラジェクトリを一貫したフォーマットに慎重に標準化し、統一する。 データ統合を活用することで、トレーニングパイプラインは、さまざまなデータソース間の均衡を維持し、データセット分割とモデルトレーニングの間、デバイス間で独立したランダム性を保持します。 さらに,AIエージェントに適した大規模アクションモデルである‘textbf{xLAM-v0.1} を,様々なベンチマークで異常な性能を示す。

Autonomous agents powered by large language models (LLMs) have garnered significant research attention. However, fully harnessing the potential of LLMs for agent-based tasks presents inherent challenges due to the heterogeneous nature of diverse data sources featuring multi-turn trajectories. In this paper, we introduce \textbf{AgentOhana} as a comprehensive solution to address these challenges. \textit{AgentOhana} aggregates agent trajectories from distinct environments, spanning a wide array of scenarios. It meticulously standardizes and unifies these trajectories into a consistent format, streamlining the creation of a generic data loader optimized for agent training. Leveraging the data unification, our training pipeline maintains equilibrium across different data sources and preserves independent randomness across devices during dataset partitioning and model training. Additionally, we present \textbf{xLAM-v0.1}, a large action model tailored for AI agents, which demonstrates exceptional performance across various benchmarks.
翻訳日:2024-02-27 18:09:01 公開日:2024-02-26
# prejudiceとcaprice:大規模言語モデルにおける社会的差別を測定するための統計的枠組み

Prejudice and Caprice: A Statistical Framework for Measuring Social Discrimination in Large Language Models ( http://arxiv.org/abs/2402.15481v2 )

ライセンス: Link先を確認
Yiran Liu (1 and 2), Ke Yang (1 and 3), Zehan Qi (2), Xiao Liu (2), Yang Yu (2), Chengxiang Zhai (3) ((1) Equal contributions, (2) Tsinghua University, (3) University of Illinois Urbana-Champaign)(参考訳) 大規模言語モデル(LLM)の社会活動への統合は、経済、法律、教育、医療といった重要な分野における決定に対する影響を増幅し、これらのモデルの差別に関する安全性と信頼性に対する公衆の懸念を高めている。 しかしながら、事前の差別測定フレームワークは LLM の平均的な差別行動のみを評価するものであり、様々な文脈における LLM の予測変動が、追加の差別誘導因子の見落としにより、しばしば不適切であることが証明される。 本研究では,LLMにおける差別を包括的に評価するPrejudice-Caprice Framework(PCF)を提案する。 具体的には、LLMの集合的文脈的識別リスクを、LLMの持続的偏見から生じる偏見リスクと、それらの世代的矛盾から生じるキャプライスリスクに数学的に分解する。 さらに,データマイニング手法を用いて,属性表示のない文骨格から好み検出プローブを収集し,LLMの適用文脈を近似する。 当初 LLM における差別評価を目的としていたが,提案した PCF は,偏見を伴う知識を含むあらゆる帰納バイアスの包括的かつ柔軟な測定を容易にする。 差別計測の枠組みを12の共通LLMに適用し、興味深い結果を得た。 一 現代LPMは、有意な前雄性ステレオタイプを示す。 二 LLMの表示された差別は、いくつかの社会的・経済的要因と相関する。 三 偏見リスクが全体の差別リスクを支配し、正常な分布に従うこと、及び 四 キャプライスリスクは、全体的なリスクに最小限に寄与するが、脂肪分分布に従わなければならず、監視の強化を必要とする危険なリスクである。

The growing integration of large language models (LLMs) into social operations amplifies their impact on decisions in crucial areas such as economics, law, education, and healthcare, raising public concerns about these models' discrimination-related safety and reliability. However, prior discrimination measuring frameworks solely assess the average discriminatory behavior of LLMs, often proving inadequate due to the overlook of an additional discrimination-leading factor, i.e., the LLMs' prediction variation across diverse contexts. In this work, we present the Prejudice-Caprice Framework (PCF) that comprehensively measures discrimination in LLMs by considering both their consistently biased preference and preference variation across diverse contexts. Specifically, we mathematically dissect the aggregated contextualized discrimination risk of LLMs into prejudice risk, originating from LLMs' persistent prejudice, and caprice risk, stemming from their generation inconsistency. In addition, we utilize a data-mining approach to gather preference-detecting probes from sentence skeletons, devoid of attribute indications, to approximate LLMs' applied contexts. While initially intended for assessing discrimination in LLMs, our proposed PCF facilitates the comprehensive and flexible measurement of any inductive biases, including knowledge alongside prejudice, across various modality models. We apply our discrimination-measuring framework to 12 common LLMs, yielding intriguing findings: i) modern LLMs demonstrate significant pro-male stereotypes, ii) LLMs' exhibited discrimination correlates with several social and economic factors, iii) prejudice risk dominates the overall discrimination risk and follows a normal distribution, and iv) caprice risk contributes minimally to the overall risk but follows a fat-tailed distribution, suggesting that it is wild risk requiring enhanced surveillance.
翻訳日:2024-02-27 18:08:46 公開日:2024-02-26
# アラビア語 GPT: アラビア語 GPT-based Large Language Model

ArabianGPT: Native Arabic GPT-based Large Language Model ( http://arxiv.org/abs/2402.15313v2 )

ライセンス: Link先を確認
Anis Koubaa, Adel Ammar, Lahouari Ghouti, Omar Najar, Serry Sibaee(参考訳) 英語とラテン系大規模言語モデル(LLM)の優位性は、アラビア語のLLMに顕著な欠陥をもたらしている。 この違いは、既存のアラビア語のモデルに英語のトークンが広く含まれていることで強調され、ネイティブアラビア語の複雑な形態と構文を処理する際に効果が減っている。 したがって、アラビア語の言語要素に主に焦点をあてたLLMの開発には理論的かつ実践的な衝動がある。 このギャップに対処するため,本稿では,アラビアンルムスイート内でアラビア語用に明示的に設計されたトランスフォーマーベースのモデルであるアラビアンプットを提案する。 アラビアンGPT-0.1BやアラビアンGPT-0.3Bを含むこれらのモデルのサイズと複雑さは、アラビア語のニュアンスな言語特性と一致している。 これらのモデルに不可欠なAraNizerトークンはアラビア文字のユニークな形態的側面に対処し、より正確なテキスト処理を保証する。 感情分析や要約といったタスクでモデルを微調整した経験的結果は、大幅な改善を示している。 感情分析では、微調整されたアラビアのGPT-0.1Bモデルは95%の顕著な精度を達成し、ベースモデルの56%から大幅に増加した。 同様に、要約タスクでは、微調整されたモデルではF1スコアが向上し、簡潔な要約を生成する際の精度とリコールが改善された。 様々なベンチマークでベースバージョンに対する微調整アラビアンGPTモデルの比較分析により、微調整は質問応答や要約のような特定のタスクに肯定的な影響を与えながら、パフォーマンスの微調整の違いが明らかになった。 これらの知見は、アラビアンGPTモデルと特定のNLPタスクをより緊密に連携させるための微調整の有効性を強調し、アラビアNLPの進行において、カスタマイズされたトランスフォーマーアーキテクチャの可能性を強調した。

The predominance of English and Latin-based large language models (LLMs) has led to a notable deficit in native Arabic LLMs. This discrepancy is accentuated by the prevalent inclusion of English tokens in existing Arabic models, detracting from their efficacy in processing native Arabic's intricate morphology and syntax. Consequently, there is a theoretical and practical imperative for developing LLMs predominantly focused on Arabic linguistic elements. To address this gap, this paper proposes ArabianGPT, a series of transformer-based models within the ArabianLLM suite designed explicitly for Arabic. These models, including ArabianGPT-0.1B and ArabianGPT-0.3B, vary in size and complexity, aligning with the nuanced linguistic characteristics of Arabic. The AraNizer tokenizer, integral to these models, addresses the unique morphological aspects of Arabic script, ensuring more accurate text processing. Empirical results from fine-tuning the models on tasks like sentiment analysis and summarization demonstrate significant improvements. For sentiment analysis, the fine-tuned ArabianGPT-0.1B model achieved a remarkable accuracy of 95%, a substantial increase from the base model's 56%. Similarly, in summarization tasks, fine-tuned models showed enhanced F1 scores, indicating improved precision and recall in generating concise summaries. Comparative analysis of fine-tuned ArabianGPT models against their base versions across various benchmarks reveals nuanced differences in performance, with fine-tuning positively impacting specific tasks like question answering and summarization. These findings underscore the efficacy of fine-tuning in aligning ArabianGPT models more closely with specific NLP tasks, highlighting the potential of tailored transformer architectures in advancing Arabic NLP.
翻訳日:2024-02-27 18:08:17 公開日:2024-02-26
# 高速衝突検出のためのニューラルネットワーク暗黙的sweeptボリュームモデル

Neural Implicit Swept Volume Models for Fast Collision Detection ( http://arxiv.org/abs/2402.15281v2 )

ライセンス: Link先を確認
Dominik Joho, Jonas Schwinn, Kirill Safronov(参考訳) 衝突検出は、移動計画において最も時間を要する操作の1つである。 このように、衝突検出とサンプリングベースのモーションプランニングをスピードアップするための機械学習技術の探求への関心が高まっている。 最近の研究は、ロボットの形状またはロボットの動きの渦巻量のいずれかの神経符号付き距離関数を活用することに焦点を当てている。 そこで我々は,その開始とゴール設定によってパラメータ化される任意の動きを連続的に表現するニューラル暗黙ボリュームモデルを提案する。 これにより、ロボットの動きに対するタスク空間の任意の点の符号付き距離を素早く計算することができる。 さらに,深層学習に基づく符号付き距離計算の高速化と,幾何学的衝突チェッカーの高精度保証を組み合わせたアルゴリズムを提案する。 シミュレーションおよび実世界のロボット実験において、我々のアプローチを検証するとともに、商用ビンピッキングアプリケーションを高速化できることを実証する。

Collision detection is one of the most time-consuming operations during motion planning. Thus, there is an increasing interest in exploring machine learning techniques to speed up collision detection and sampling-based motion planning. A recent line of research focuses on utilizing neural signed distance functions of either the robot geometry or the swept volume of the robot motion. Building on this, we present a novel neural implicit swept volume model to continuously represent arbitrary motions parameterized by their start and goal configurations. This allows to quickly compute signed distances for any point in the task space to the robot motion. Further, we present an algorithm combining the speed of the deep learning-based signed distance computations with the strong accuracy guarantees of geometric collision checkers. We validate our approach in simulated and real-world robotic experiments, and demonstrate that it is able to speed up a commercial bin picking application.
翻訳日:2024-02-27 18:07:45 公開日:2024-02-26
# 双対的対立論におけるボットの多能性解消のための多分野の枠組み

A multidisciplinary framework for deconstructing bots' pluripotency in dualistic antagonism ( http://arxiv.org/abs/2402.15119v2 )

ライセンス: Link先を確認
Wentao Xu, Kazutoshi Sasahara, Jianxun Chu, Bin Wang, Wenlu Fan, Zhiwen Hu(参考訳) 人為的社会ボットは、人間の言語コミュニケーションをエミュレートし、ソーシャルネットワークサービス(SNS)全体で有毒または炎症性コンテンツを生成するために設計されている。 ボットの拡散した誤報は、繰り返しの偽情報の暴露、政治的分極の増幅、民主的健康の妥協された指標、民族的アイデンティティの認識の変化、虚偽の社会的規範の伝播、時間の経過とともに集団記憶の操作といった複雑な要素を織り交ぜることで、社会的過程を微妙に再形成する可能性がある。 しかし、孤立したsns分析から、ハイブリダイゼーション、多言語、異種メディアにまたがるボットの多能性は、ほとんど不明であり、ボットの市民の会話に対する緊急のリスクを特徴付ける包括的な枠組みの必要性を裏付けている。 本稿では,影響の定量化,ネットワークダイナミクスのモニタリング,言語間特徴分析など,ボットの多能性を特徴付ける学際的枠組みを提案する。 ロシア・ウクライナ紛争に関する地政学的談話に適用すると、言語間毒性のプロファイリングとネットワーク分析の結果、ハイブリッドSNSにおける親ロシア人および親ウクライナ人およびボットの時空間軌跡が解明された。 兵器化されたボットは主にXに住み、人間は主にソーシャルメディア戦争でRedditに住んでいた。 この厳密な枠組みは、ボットの多能性行動における言語間同質性と異質性を解明し、情報操作、エコーチャンバーの形成、およびアルゴリズム的に構造化された社会における集合記憶の現示の基礎となる相乗的人間ボット機構を明らかにする。

Anthropomorphic social bots are engineered to emulate human verbal communication and generate toxic or inflammatory content across social networking services (SNSs). Bot-disseminated misinformation could subtly yet profoundly reshape societal processes by complexly interweaving factors like repeated disinformation exposure, amplified political polarization, compromised indicators of democratic health, shifted perceptions of national identity, propagation of false social norms, and manipulation of collective memory over time. However, extrapolating bots' pluripotency across hybridized, multilingual, and heterogeneous media ecologies from isolated SNS analyses remains largely unknown, underscoring the need for a comprehensive framework to characterise bots' emergent risks to civic discourse. Here we propose an interdisciplinary framework to characterise bots' pluripotency, incorporating quantification of influence, network dynamics monitoring, and interlingual feature analysis. When applied to the geopolitical discourse around the Russo-Ukrainian conflict, results from interlanguage toxicity profiling and network analysis elucidated spatiotemporal trajectories of pro-Russian and pro-Ukrainian human and bots across hybrid SNSs. Weaponized bots predominantly inhabited X, while human primarily populated Reddit in the social media warfare. This rigorous framework promises to elucidate interlingual homogeneity and heterogeneity in bots' pluripotent behaviours, revealing synergistic human-bot mechanisms underlying regimes of information manipulation, echo chamber formation, and collective memory manifestation in algorithmically structured societies.
翻訳日:2024-02-27 18:07:30 公開日:2024-02-26
# 学習翻訳:協調言語習得のための創発的コミュニケーション

Learning Translations: Emergent Communication Pretraining for Cooperative Language Acquisition ( http://arxiv.org/abs/2402.16247v1 )

ライセンス: Link先を確認
Dylan Cope and Peter McBurney(参考訳) Emergent Communication (EC) エージェントは互いに通信することを学ぶが、彼らが開発するプロトコルはトレーニングコミュニティに特化している。 この観察は、訓練中に遭遇しないエージェントに対して堅牢なコミュニケーション戦略を学ぶためのゼロショットコーディネーション(ZSC)の研究につながった。 しかし、ZSCは通常、ゼロショット設定で遭遇するエージェントに関する事前データがないと仮定する。 多くの場合、これは不必要に難しい問題を示し、既定の規約によって通信を禁止する。 本稿では,協調言語獲得問題(CLAP,Cooperative Language Acquisition Problem)と呼ばれる新たなAI課題を提案する。 我々は、エージェントがECとのセルフプレイで訓練され、データから学習し、創発的プロトコルと対象コミュニティのプロトコル間の翻訳を行う、Imitation Learning(IL)とEmergent Communication Pretraining and Translation Learning(ECTL)の2つの方法を提案する。

In Emergent Communication (EC) agents learn to communicate with one another, but the protocols that they develop are specialised to their training community. This observation led to research into Zero-Shot Coordination (ZSC) for learning communication strategies that are robust to agents not encountered during training. However, ZSC typically assumes that no prior data is available about the agents that will be encountered in the zero-shot setting. In many cases, this presents an unnecessarily hard problem and rules out communication via preestablished conventions. We propose a novel AI challenge called a Cooperative Language Acquisition Problem (CLAP) in which the ZSC assumptions are relaxed by allowing a 'joiner' agent to learn from a dataset of interactions between agents in a target community. We propose and compare two methods for solving CLAPs: Imitation Learning (IL), and Emergent Communication pretraining and Translation Learning (ECTL), in which an agent is trained in self-play with EC and then learns from the data to translate between the emergent protocol and the target community's protocol.
翻訳日:2024-02-27 14:56:51 公開日:2024-02-26
# モバイル端末におけるUAVトラフィック映像に基づくリアルタイム車両検出と都市交通行動解析

Real-Time Vehicle Detection and Urban Traffic Behavior Analysis Based on UAV Traffic Videos on Mobile Devices ( http://arxiv.org/abs/2402.16246v1 )

ライセンス: Link先を確認
Yuan Zhu, Yanqiang Wang, Yadong An, Hong Yang, Yiming Pan(参考訳) 本稿では,無人航空機(UAV)の交通映像に基づくリアルタイム車両検出と都市交通行動分析システムについて述べる。 UAVを用いてトラフィックデータを収集し、YOLOv8モデルとSORT追跡アルゴリズムを組み合わせることにより、iOSモバイルプラットフォーム上でオブジェクトの検出と追跡機能を実装する。 交通データ取得・分析の問題に対して,車両のマイクロトラフィックパラメータおよびマクロトラフィックパラメータをリアルタイムに処理し,リアルタイムトラフィック挙動解析を行い,可視化する。 実験の結果,車両の物体検出精度は98.27%,リコール率87.93%,リアルタイム処理能力は30フレーム/秒で安定であることが判明した。 この研究は、ドローン技術、ios開発、ディープラーニング技術を統合し、モバイルデバイス上でのトラヒックビデオ取得、オブジェクト検出、オブジェクト追跡、トラヒック行動分析機能を統合する。 軽量な交通情報収集とデータ分析の新たな可能性を提供し、道路交通状況の分析と交通機関の交通問題に対処するための革新的なソリューションを提供する。

This paper focuses on a real-time vehicle detection and urban traffic behavior analysis system based on Unmanned Aerial Vehicle (UAV) traffic video. By using UAV to collect traffic data and combining the YOLOv8 model and SORT tracking algorithm, the object detection and tracking functions are implemented on the iOS mobile platform. For the problem of traffic data acquisition and analysis, the dynamic computing method is used to process the performance in real time and calculate the micro and macro traffic parameters of the vehicles, and real-time traffic behavior analysis is conducted and visualized. The experiment results reveals that the vehicle object detection can reach 98.27% precision rate and 87.93% recall rate, and the real-time processing capacity is stable at 30 frames per seconds. This work integrates drone technology, iOS development, and deep learning techniques to integrate traffic video acquisition, object detection, object tracking, and traffic behavior analysis functions on mobile devices. It provides new possibilities for lightweight traffic information collection and data analysis, and offers innovative solutions to improve the efficiency of analyzing road traffic conditions and addressing transportation issues for transportation authorities.
翻訳日:2024-02-27 14:56:18 公開日:2024-02-26
# ハードウォールトラップにおける2つの質量不均衡原子:多体系の深層学習積分性

Two mass-imbalanced atoms in a hard-wall trap: Deep learning integrability of many-body systems ( http://arxiv.org/abs/2402.16244v1 )

ライセンス: Link先を確認
Liheng Lang and Qichen Lu and C. M. Dai and Xingbo Wei and Yanxia Liu and Yunbo Zhang(参考訳) 可積分系の研究は、多体物理学の理解に大きな進展をもたらした。 我々は、エネルギーレベル統計と波動関数の深層学習を通して、質量不均衡な2体系の積分性を分析するための一連の数値実験を設計する。 レベル間隔分布はブロディ分布により適合し、適合パラメータ$\omega$は臨界線$\omega=0$で可積分質量比と非可積分質量比を分離する。 確率密度画像から構築された畳み込みニューラルネットワークは、積分可能系と非可積分系の遷移点を高い精度で特定できるが、計算時間ははるかに短い。 ネットワークの能力の素晴らしい例は、等しい質量の既知の可積分性ケースから学習することで、新しい可積分質量比を1/3$で識別することであり、ネットワークの信頼性は980.78.%である。 ニューラルネットワークのロバスト性は、それぞれ確率密度画像と波動関数で混合された標準摂動と量子摂動によってサンプルを生成する逆学習によってさらに強化される。

The study of integrable systems has led to significant advancements in our understanding of many-body physics. We design a series of numerical experiments to analyze the integrability of a mass-imbalanced two-body system through energy level statistics and deep learning of wavefunctions. The level spacing distributions are fitted by a Brody distribution and the fitting parameter $\omega$ is found to separate the integrable and non-integrable mass ratios by a critical line $\omega=0$. The convolutional neural network built from the probability density images could identify the transition points between integrable and non-integrable systems with high accuracy, yet in a much shorter computation time. A brilliant example of the network's ability is to identify a new integrable mass ratio $1/3$ by learning from the known integrable case of equal mass, with a remarkable network confidence of $98.78\%$. The robustness of our neural networks is further enhanced by adversarial learning, where samples are generated by standard and quantum perturbations mixed in the probability density images and the wavefunctions, respectively.
翻訳日:2024-02-27 14:55:42 公開日:2024-02-26
# hsonet:高分解能リモートセンシング画像変化検出のためのsiamese foreground association-driven hard case sample optimization network

HSONet:A Siamese foreground association-driven hard case sample optimization network for high-resolution remote sensing image change detection ( http://arxiv.org/abs/2402.16242v1 )

ライセンス: Link先を確認
Chao Tao, Dongsheng Kuang, Zhenyang Huang, Chengli Peng, Haifeng Li(参考訳) In the later training stages, further improvement of the models ability to determine changes relies on how well the change detection (CD) model learns hard cases; however, there are two additional challenges to learning hard case samples: (1) change labels are limited and tend to pointer only to foreground targets, yet hard case samples are prevalent in the background, which leads to optimizing the loss function focusing on the foreground targets and ignoring the background hard cases, which we call imbalance. 2)光陰影,対象隠蔽,季節変化などの複雑な状況は,ハードケースサンプルを誘導し,監督情報とシーン情報の両方が欠如している場合には,ハードケースサンプルを直接学習して,変化情報の特徴表現を正確に取得することが困難であり,その欠如を「欠落」と呼ぶ。 本稿では,siamese foreground association-driven hard case sample optimization network (hsonet)を提案する。 この不均衡に対処するために,前景と背景の最適化焦点を規制し,損失値の分布を通じてハードケースサンプルを決定する平衡最適化損失関数を提案し,トレーニングが進むにつれて、損失の最適化焦点を前景から背景ハードケースに徐々にシフトさせるように損失項に動的重みを導入する。 この不足に対処するために,シーンコンテキストの助けを借りてハードケースサンプルを理解し,シーンフォアグラウンドアソシエーションモジュールを提案し,潜在的なリモートセンシング空間シーン情報を用いて,フォアグラウンドの関心対象と関連するコンテキストとの関連をモデル化し,シーン埋め込みを得るとともに,この情報をハードケースの特徴強化に適用する。 4つの公開データセットの実験では、HSONetは現在の最先端のCDメソッド、特にハードケースサンプルの検出において、より優れています。

In the later training stages, further improvement of the models ability to determine changes relies on how well the change detection (CD) model learns hard cases; however, there are two additional challenges to learning hard case samples: (1) change labels are limited and tend to pointer only to foreground targets, yet hard case samples are prevalent in the background, which leads to optimizing the loss function focusing on the foreground targets and ignoring the background hard cases, which we call imbalance. (2) Complex situations, such as light shadows, target occlusion, and seasonal changes, induce hard case samples, and in the absence of both supervisory and scene information, it is difficult for the model to learn hard case samples directly to accurately obtain the feature representations of the change information, which we call missingness. We propose a Siamese foreground association-driven hard case sample optimization network (HSONet). To deal with this imbalance, we propose an equilibrium optimization loss function to regulate the optimization focus of the foreground and background, determine the hard case samples through the distribution of the loss values, and introduce dynamic weights in the loss term to gradually shift the optimization focus of the loss from the foreground to the background hard cases as the training progresses. To address this missingness, we understand hard case samples with the help of the scene context, propose the scene-foreground association module, use potential remote sensing spatial scene information to model the association between the target of interest in the foreground and the related context to obtain scene embedding, and apply this information to the feature reinforcement of hard cases. Experiments on four public datasets show that HSONet outperforms current state-of-the-art CD methods, particularly in detecting hard case samples.
翻訳日:2024-02-27 14:55:09 公開日:2024-02-26
# 理論的保証を用いた連続探索空間のアクティブレベル推定

Active Level Set Estimation for Continuous Search Space with Theoretical Guarantee ( http://arxiv.org/abs/2402.16237v1 )

ライセンス: Link先を確認
Giang Ngo, Dang Nguyen, Dat Phan-Trong, Sunil Gupta(参考訳) 多くの実世界のアプリケーションでよくある問題は、その関数が与えられたしきい値以上の関数領域内の領域を決定することを目標とするレベルセット推定である。 関数がブラックボックスで評価が高価である場合には、最小限の関数評価セットでレベルセットを見つける必要がある。 既存の手法では、機能評価のための有限個のデータ集合を持つ離散探索空間を仮定し、レベル集合を推定することが多い。 連続探索空間に適用する場合、これらの手法は、高い計算時間を必要とする一方で結果の悪い空間を最初に離散化する必要がある。 連続的な設定に適合するメソッドもあるが、理論収束に対する適切な保証がない。 そこで本研究では,離散化を必要とせず,連続的な探索空間で直接動作する新しいアルゴリズムを提案する。 本手法は,与えられたしきい値よりも高いか低い関数の信頼度尺度として定義される獲得関数を構成することにより,ポイントを提案する。 アルゴリズムの正確な解への収束に関する理論的解析を提供する。 複数の合成および実世界のデータセットにおいて、我々のアルゴリズムは最先端の手法より優れている。

A common problem encountered in many real-world applications is level set estimation where the goal is to determine the region in the function domain where the function is above or below a given threshold. When the function is black-box and expensive to evaluate, the level sets need to be found in a minimum set of function evaluations. Existing methods often assume a discrete search space with a finite set of data points for function evaluations and estimating the level sets. When applied to a continuous search space, these methods often need to first discretize the space which leads to poor results while needing high computational time. While some methods cater for the continuous setting, they still lack a proper guarantee for theoretical convergence. To address this problem, we propose a novel algorithm that does not need any discretization and can directly work in continuous search spaces. Our method suggests points by constructing an acquisition function that is defined as a measure of confidence of the function being higher or lower than the given threshold. A theoretical analysis for the convergence of the algorithm to an accurate solution is provided. On multiple synthetic and real-world datasets, our algorithm successfully outperforms state-of-the-art methods.
翻訳日:2024-02-27 14:54:20 公開日:2024-02-26
# プログラミング授業における実例の人間-AI共同作成

Human-AI Co-Creation of Worked Examples for Programming Classes ( http://arxiv.org/abs/2402.16235v1 )

ライセンス: Link先を確認
Mohammad Hassany, Peter Brusilovsky, Jiaze Ke, Kamil Akhuseyinoglu and Arun Balajiee Lekshmi Narayanan(参考訳) 作業例(ある言語でソースコードとして提示され、プログラミングクラスからトピックを説明するために使用される典型的なプログラミング問題の解)は、プログラミングクラスでもっとも人気のある学習コンテンツの1つです。 これらの例を学生に提示するためのアプローチやツールのほとんどは、サンプルコードの行ごとの説明に基づいている。 しかし、インストラクターは、プログラミングクラスでよく使われる多くの例に対して、ラインバイラインの説明を提供する時間はほとんどありません。 本稿では,Javaプログラミングにおける実例のオーサリングに対する人間とAIの協調アプローチについて検討し,評価する。 コード説明の開始版を生成するJava作業例を作成するオーサリングシステムを導入し、必要に応じてインストラクターに提示し、このアプローチで作成された説明の質を評価する。

Worked examples (solutions to typical programming problems presented as a source code in a certain language and are used to explain the topics from a programming class) are among the most popular types of learning content in programming classes. Most approaches and tools for presenting these examples to students are based on line-by-line explanations of the example code. However, instructors rarely have time to provide line-by-line explanations for a large number of examples typically used in a programming class. In this paper, we explore and assess a human-AI collaboration approach to authoring worked examples for Java programming. We introduce an authoring system for creating Java worked examples that generates a starting version of code explanations and presents it to the instructor to edit if necessary.We also present a study that assesses the quality of explanations created with this approach
翻訳日:2024-02-27 14:54:02 公開日:2024-02-26
# GARNN:多変量時系列による血糖値予測のための解釈可能なグラフ注意リカレントニューラルネットワーク

GARNN: An Interpretable Graph Attentive Recurrent Neural Network for Predicting Blood Glucose Levels via Multivariate Time Series ( http://arxiv.org/abs/2402.16230v1 )

ライセンス: Link先を確認
Chengzhe Piao, Taiyu Zhu, Stephanie E Baldeweg, Paul Taylor, Pantelis Georgiou, Jiahao Sun, Jun Wang, Kezhi Li(参考訳) 将来の血糖値(BG)の正確な予測は、糖尿病患者のBG管理を効果的に改善し、合併症を減らし、生活の質を向上させる。 bg予測の技術は,多変量時系列(multi-variate time series, mts)として組織されたセンサデータと自己報告イベントデータといったマルチモーダルデータをモデル化するために,高度なディープラーニング手法を活用することで実現されている。 しかし、これらの方法はほとんどが「ブラックボックス」と見なされており、臨床医や患者に完全に信頼されているわけではない。 本稿では,mtsをモデル化するための解釈可能なグラフ適応型リカレントニューラルネットワーク(garnn)を提案し,可変重要度を要約し,ポストホック解析ではなくグラフ注意機構による特徴マップを生成する。 GARNNを4つのデータセットで評価し,様々な臨床シナリオを示す。 確立された12種類のベースライン法と比較すると、GARNNは最高の予測精度を達成できるだけでなく、特に食事摂取とインスリン注射の結果として、経時的血糖値の高品質な解釈性も提供する。 これらの知見は、GARNNが糖尿病治療を改善するための堅牢なツールであり、ディープラーニング技術と現実世界の医療ソリューションのギャップを埋める可能性を示している。

Accurate prediction of future blood glucose (BG) levels can effectively improve BG management for people living with diabetes, thereby reducing complications and improving quality of life. The state of the art of BG prediction has been achieved by leveraging advanced deep learning methods to model multi-modal data, i.e., sensor data and self-reported event data, organised as multi-variate time series (MTS). However, these methods are mostly regarded as ``black boxes'' and not entirely trusted by clinicians and patients. In this paper, we propose interpretable graph attentive recurrent neural networks (GARNNs) to model MTS, explaining variable contributions via summarizing variable importance and generating feature maps by graph attention mechanisms instead of post-hoc analysis. We evaluate GARNNs on four datasets, representing diverse clinical scenarios. Upon comparison with twelve well-established baseline methods, GARNNs not only achieve the best prediction accuracy but also provide high-quality temporal interpretability, in particular for postprandial glucose levels as a result of corresponding meal intake and insulin injection. These findings underline the potential of GARNN as a robust tool for improving diabetes care, bridging the gap between deep learning technology and real-world healthcare solutions.
翻訳日:2024-02-27 14:53:47 公開日:2024-02-26
# PerLTQA: 質問応答における記憶分類・検索・合成のための個人用長期記憶データセット

PerLTQA: A Personal Long-Term Memory Dataset for Memory Classification, Retrieval, and Synthesis in Question Answering ( http://arxiv.org/abs/2402.16288v1 )

ライセンス: Link先を確認
Yiming Du, Hongru Wang, Zhengyi Zhao, Bin Liang, Baojun Wang, Wanjun Zhong, Zezhong Wang, Kam-Fai Wong(参考訳) 長期記憶は、対話における世界の知識、歴史的情報、選好をうまく活用できるため、個人の対話において重要な役割を担っている。 本研究は,世界知識,プロファイル,社会的関係,出来事,対話などを含む意味的記憶とエピソード的記憶を組み合わせた,革新的なQAデータセットであるPerLTQAを紹介する。 このデータセットは、QAタスクにおける社会的相互作用とイベントに焦点を当て、パーソナライズされた記憶の使用を調べるために収集される。 PerLTQAは2種類のメモリと8,593の質問を30文字で総合的にベンチマークし、LLM(Large Language Models)におけるパーソナライズされたメモリの探索と適用を容易にする。 PerLTQAに基づいて,メモリ分類,メモリ検索,メモリ合成という3つの主要コンポーネントからなる,メモリ統合と生成のための新しいフレームワークを提案する。 このフレームワークを5つのllmと3つのレトリバーを用いて評価する。 実験の結果,BERTに基づく分類モデルはメモリ分類タスクにおいて,ChatGLM3やChatGPTなどのLCMよりも有意に優れていた。 さらに,本研究は,QAタスクにおける効果的なメモリ統合の重要性を強調した。

Long-term memory plays a critical role in personal interaction, considering long-term memory can better leverage world knowledge, historical information, and preferences in dialogues. Our research introduces PerLTQA, an innovative QA dataset that combines semantic and episodic memories, including world knowledge, profiles, social relationships, events, and dialogues. This dataset is collected to investigate the use of personalized memories, focusing on social interactions and events in the QA task. PerLTQA features two types of memory and a comprehensive benchmark of 8,593 questions for 30 characters, facilitating the exploration and application of personalized memories in Large Language Models (LLMs). Based on PerLTQA, we propose a novel framework for memory integration and generation, consisting of three main components: Memory Classification, Memory Retrieval, and Memory Synthesis. We evaluate this framework using five LLMs and three retrievers. Experimental results demonstrate that BERT-based classification models significantly outperform LLMs such as ChatGLM3 and ChatGPT in the memory classification task. Furthermore, our study highlights the importance of effective memory integration in the QA task.
翻訳日:2024-02-27 14:46:51 公開日:2024-02-26
# ams電磁カロリメータを用いた陽子背景拒絶のための深層学習モデルの比較

A Comparison of Deep Learning Models for Proton Background Rejection with the AMS Electromagnetic Calorimeter ( http://arxiv.org/abs/2402.16285v1 )

ライセンス: Link先を確認
Raheem Karim Hashmani, Emre Akba\c{s}, Melahat Bilge Demirk\"oz(参考訳) アルファ磁気分光計(Alpha Magnetic Spectrometer、AMS)は6つのサブ検出器を含む国際宇宙ステーションに搭載されている高精度粒子検出器である。 遷移放射検出器と電磁カロリメータ(ECAL)は、豊富な宇宙線陽子背景から電子と陽電子を分離するために用いられる。 AMSによって宇宙空間で測定されたポジトロンフラックスは、予想外の25GeV以上の軟化と280GeV以上の硬化を伴っている。 いくつかの理論モデルがこれらの現象を説明しようとしており、より高エネルギーの陽電子の純粋な測定が必要である。 高いエネルギーで陽子背景を拒絶するために現在使われている手法は、ECALから外挿したシャワーの特徴を、決定木や可能性分類器の入力として使用するものである。 深層学習(DL)を用いたAMS ECALを用いた新しい粒子識別手法を提案する。 全てのECALセル内のエネルギ沈着を入力として、イメージライクなフォーマットでピクセルとして扱うことにより、MLP、CNN、複数のResNetおよび畳み込み視覚変換器(CvT)をシャワー分類器として訓練する。 プロトンリジェクション性能はモンテカルロ (mc) イベントと iss データによって別々に評価される。 MCの場合、0.2TeVから2TeVの間で再構成されたエネルギーを用いて、90%の精度でCvTモデルの陽子拒絶力は、他のDLモデルの5倍以上である。 同様に、50GeVから70GeVの間で再構成されたエネルギーを持つISSデータに対して、我々のCvTモデルの陽子拒絶力は他のDLモデルの2.5倍以上である。

The Alpha Magnetic Spectrometer (AMS) is a high-precision particle detector onboard the International Space Station containing six different subdetectors. The Transition Radiation Detector and Electromagnetic Calorimeter (ECAL) are used to separate electrons/positrons from the abundant cosmic-ray proton background. The positron flux measured in space by AMS falls with a power law which unexpectedly softens above 25 GeV and then hardens above 280 GeV. Several theoretical models try to explain these phenomena, and a purer measurement of positrons at higher energies is needed to help test them. The currently used methods to reject the proton background at high energies involve extrapolating shower features from the ECAL to use as inputs for boosted decision tree and likelihood classifiers. We present a new approach for particle identification with the AMS ECAL using deep learning (DL). By taking the energy deposition within all the ECAL cells as an input and treating them as pixels in an image-like format, we train an MLP, a CNN, and multiple ResNets and Convolutional vision Transformers (CvTs) as shower classifiers. Proton rejection performance is evaluated using Monte Carlo (MC) events and ISS data separately. For MC, using events with a reconstructed energy between 0.2 - 2 TeV, at 90% electron accuracy, the proton rejection power of our CvT model is more than 5 times that of the other DL models. Similarly, for ISS data with a reconstructed energy between 50 - 70 GeV, the proton rejection power of our CvT model is more than 2.5 times that of the other DL models.
翻訳日:2024-02-27 14:46:29 公開日:2024-02-26
# シリコンナノワイヤ表面近傍の大規模ナノスケール動的核偏光

Large-Enhancement Nanoscale Dynamic Nuclear Polarization Near a Silicon Nanowire Surface ( http://arxiv.org/abs/2402.16283v1 )

ライセンス: Link先を確認
Sahand Tabatabaei, Pritam Priyadarsi, Namanish Singh, Pardis Sahafi, Daniel Tay, Andrew Jordan, Raffi Budakian(参考訳) 動的核分極 (DNP) はNMR分光の分野に革命をもたらし、多様な物質、生体分子、複雑な動的過程を研究できる範囲と能力を広げた。 高効率のdnpをナノメートルスケールに持ち込むことで、単分子、ウイルス粒子、凝縮物質システムなどのナノスケールの核スピンアンサンブルを研究する新しい道を開くことができる。 パルスDNPとナノスケールの力検出磁気共鳴測定を組み合わせることで、ナノスケールの糖滴中のプロトンスピンの6Kおよび0.33Tでのボルツマン偏極が100倍に向上することが実証された。 これらの結果は、ナノスケールイメージングの実用的なツールとして、力検出磁気共鳴検出の能力を著しく向上させた。

Dynamic nuclear polarization (DNP) has revolutionized the field of NMR spectroscopy, expanding its reach and capabilities to investigate diverse materials, biomolecules, and complex dynamic processes. Bringing high-efficiency DNP to the nanometer scale would open new avenues for studying nanoscale nuclear spin ensembles, such as single biomolecules, virus particles, and condensed matter systems. Combining pulsed DNP with nanoscale force-detected magnetic resonance measurements, we demonstrated a 100-fold enhancement in the Boltzmann polarization of proton spins in nanoscale sugar droplets at 6 K and 0.33 T. Crucially, this enhancement corresponds to a factor of 200 reduction in the averaging time compared to measurements that rely on the detection of statistical fluctuations in nanoscale nuclear spin ensembles. These results significantly advance the capabilities of force-detected magnetic resonance detection as a practical tool for nanoscale imaging.
翻訳日:2024-02-27 14:45:58 公開日:2024-02-26
# アジャイルロボットに向けて: 直感的なロボットの位置推定とニューラルネットワーク

Towards Agile Robots: Intuitive Robot Position Speculation with Neural Networks ( http://arxiv.org/abs/2402.16281v1 )

ライセンス: Link先を確認
Yanlong Peng, Zhigang Wang, Yisheng Zhang, Shengmin Zhang, Ming Chen(参考訳) シャシーの位置を決定するロボットの位置推定は、移動マニピュレータを制御するための重要なステップのひとつだ。 目標位置はシャーシ運動とマニピュラビリティの実現性を確保し、従来の手法ではランダムなサンプリングとキネマティックチェックによって保証される。 そこで本研究では,移動マニピュレータの俊敏性向上を目的とした学習に基づくロボット位置推定ネットワーク(RPSN)を提案する。 RPSNは、微分可能な逆キネマティックアルゴリズムとニューラルネットワークを組み込んでいる。 エンドツーエンドのトレーニングを通じて、RPSNは高い成功率で位置を推測することができる。 本研究では, 終末期電気自動車電池(EOL-EVB)を分解する移動マニピュレータにRPSNを適用した。 様々なシミュレーション環境と物理移動マニピュレータに関する大規模な実験は、RPSNが理想的な位置として提供する初期位置の確率が96.67%であることを示した。 運動論的制約の観点から、平均1.28回の試行で理想位置を100%生成する。 ランダムサンプリングよりもはるかに低い31.04。 さらに,提案手法は純粋なニューラルネットワーク手法よりも優れたデータ効率を示す。 提案するrpsnにより,ロボットは直感的に目標位置を素早く推定することができる。 この作業は、人間のように素早く行動できるアジャイルロボットの構築に向かっている。

The robot position speculation, which determines where the chassis should move, is one key step to control the mobile manipulators. The target position must ensure the feasibility of chassis movement and manipulability, which is guaranteed by randomized sampling and kinematic checking in traditional methods. Addressing the demands of agile robotics, this paper proposes a robot position speculation network(RPSN), a learning-based approach to enhance the agility of mobile manipulators. The RPSN incorporates a differentiable inverse kinematic algorithm and a neural network. Through end-to-end training, the RPSN can speculate positions with a high success rate. We apply the RPSN to mobile manipulators disassembling end-of-life electric vehicle batteries (EOL-EVBs). Extensive experiments on various simulated environments and physical mobile manipulators demonstrate that the probability of the initial position provided by RPSN being the ideal position is 96.67%. From the kinematic constraint perspective, it achieves 100% generation of the ideal position on average within 1.28 attempts. Much lower than that of random sampling, 31.04. Moreover, the proposed method demonstrates superior data efficiency over pure neural network approaches. The proposed RPSN enables the robot to quickly infer feasible target positions by intuition. This work moves towards building agile robots that can act swiftly like humans.
翻訳日:2024-02-27 14:45:41 公開日:2024-02-26
# アノテーション効率の良いNucleus InstanceセグメンテーションのためのFew-Shot Learning

Few-Shot Learning for Annotation-Efficient Nucleus Instance Segmentation ( http://arxiv.org/abs/2402.16280v1 )

ライセンス: Link先を確認
Yu Ming, Zihao Wu, Jie Yang, Danyi Li, Yuan Gao, Changxin Gao, Gui-Song Xia, Yuanqing Li, Li Liang and Jin-Gang Yu(参考訳) 病理組織像からの核インスタンスセグメンテーションは、非常に退屈で専門家に依存した核インスタンスのアノテーションに悩まされている。 この課題に対する有望な解決策として、アノテーション効率のよいディープラーニングパラダイムは、弱い/半教師付き学習、生成的敵対的学習など、近年多くの研究関心を集めている。 本稿では,マイズショット学習(fsl)の観点から,アノテーション効率の高い核インスタンスセグメンテーションを提案する。 私たちの研究は、計算病理学の隆盛とともに、注釈付きデータセットの数が増加しており、これらの外部データセットを利用して、非常に限定的なアノテーションしか持たないターゲットデータセットのnucleusインスタンスセグメンテーションを支援したいと考えています。 この目標を達成するためには、メタラーニングに基づくFSLパラダイムを採用していますが、タスクに適応する前には、2つの実質的な側面で調整する必要があります。 まず、新規クラスは外部データセットと矛盾する可能性があるため、FSIS( few-shot instance segmentation)の基本定義を一般化したGFSIS( few-shot instance segmentation)に拡張する。 第2に, 隣接細胞間の接触, 細胞不均一性など, 核セグメンテーションの本質的な課題に対処するため, さらに構造誘導機構をGFSISネットワークに導入し, 最終的に構造誘導型汎用Few-Shot Instance Segmentation (SGFSIS) フレームワークを実現する。 公開データセットの大規模な実験により、SGFSISは、半教師付き学習、単純な転送学習など、アノテーションを5%未満で完全に教師付き学習に匹敵するパフォーマンスで、他のアノテーション効率のよい学習ベースラインを上回ります。

Nucleus instance segmentation from histopathology images suffers from the extremely laborious and expert-dependent annotation of nucleus instances. As a promising solution to this task, annotation-efficient deep learning paradigms have recently attracted much research interest, such as weakly-/semi-supervised learning, generative adversarial learning, etc. In this paper, we propose to formulate annotation-efficient nucleus instance segmentation from the perspective of few-shot learning (FSL). Our work was motivated by that, with the prosperity of computational pathology, an increasing number of fully-annotated datasets are publicly accessible, and we hope to leverage these external datasets to assist nucleus instance segmentation on the target dataset which only has very limited annotation. To achieve this goal, we adopt the meta-learning based FSL paradigm, which however has to be tailored in two substantial aspects before adapting to our task. First, since the novel classes may be inconsistent with those of the external dataset, we extend the basic definition of few-shot instance segmentation (FSIS) to generalized few-shot instance segmentation (GFSIS). Second, to cope with the intrinsic challenges of nucleus segmentation, including touching between adjacent cells, cellular heterogeneity, etc., we further introduce a structural guidance mechanism into the GFSIS network, finally leading to a unified Structurally-Guided Generalized Few-Shot Instance Segmentation (SGFSIS) framework. Extensive experiments on a couple of publicly accessible datasets demonstrate that, SGFSIS can outperform other annotation-efficient learning baselines, including semi-supervised learning, simple transfer learning, etc., with comparable performance to fully supervised learning with less than 5% annotations.
翻訳日:2024-02-27 14:45:24 公開日:2024-02-26
# オントロジー推定のためのアノテーション埋め込みモデルを用いた自己整合学習法

A Self-matching Training Method with Annotation Embedding Models for Ontology Subsumption Prediction ( http://arxiv.org/abs/2402.16278v1 )

ライセンス: Link先を確認
Yukihiro Shiraishi, Ken Kaneiwa(参考訳) 近年、低次元空間における実体を表すオントロジー埋め込みがオントロジー完備化のために提案されている。 しかし、概念仮定予測のためのオントロジー埋め込みは類似し孤立した実体の難しさに対処せず、注釈公理の全体的情報をオントロジーから取り出すことに失敗している。 本稿では,InME(Inverted-index Matrix Embedding)とCoME(Co-occurrence Matrix Embedding)の2つのオントロジー埋め込みモデルの自己マッチング学習手法を提案する。 この2つの埋め込みは、各単語の公理における発生した位置と各公理における単語の共起によって、グローバルおよびローカル情報をアノテーション公理でキャプチャする。 自己マッチング訓練法は、予測されたスーパークラスがサブクラスに類似し、オントロジーにおいて他のエンティティに分離された場合に、概念推定のロバスト性を高める。 評価実験により,InMEを用いた自己マッチング学習法は,GOおよびFoodOnオントロジーの既存のオントロジー埋め込みよりも優れており,CoMEとOWL2Vec*の結合による手法の方がHeLiSオントロジーよりも優れていることが示された。

Recently, ontology embeddings representing entities in a low-dimensional space have been proposed for ontology completion. However, the ontology embeddings for concept subsumption prediction do not address the difficulties of similar and isolated entities and fail to extract the global information of annotation axioms from an ontology. In this paper, we propose a self-matching training method for the two ontology embedding models: Inverted-index Matrix Embedding (InME) and Co-occurrence Matrix Embedding (CoME). The two embeddings capture the global and local information in annotation axioms by means of the occurring locations of each word in a set of axioms and the co-occurrences of words in each axiom. The self-matching training method increases the robustness of the concept subsumption prediction when predicted superclasses are similar to subclasses and are isolated to other entities in an ontology. Our evaluation experiments show that the self-matching training method with InME outperforms the existing ontology embeddings for the GO and FoodOn ontologies and that the method with the concatenation of CoME and OWL2Vec* outperforms them for the HeLiS ontology.
翻訳日:2024-02-27 14:44:49 公開日:2024-02-26
# 大規模言語モデルと最適化から意思決定最適化へのコピロット:研究マニフェスト

From Large Language Models and Optimization to Decision Optimization CoPilot: A Research Manifesto ( http://arxiv.org/abs/2402.16269v1 )

ライセンス: Link先を確認
Segev Wasserkrug, Leonard Boussioux, Dick den Hertog, Farzaneh Mirzazadeh, Ilker Birbil, Jannis Kurtz, Donato Maragno(参考訳) 実世界のビジネス問題に対する最適化モデルの作成を著しく単純化することは、重要なビジネスや社会的な決定に数学の最適化をより広く適用する大きな目標だった。 最近のLLM(Large Language Models)の機能は、この目標を達成するためのタイムリーな機会を提供する。 そこで我々は,意思決定者を支援するaiツールである決定最適化コピロット (docp) を作成するために,llm と最適化の交点における研究を提案する。 本稿では、DOCPのビジョンを概説し、実装の基本的な要件をいくつか挙げる。 本稿では,ChatGPTを用いた文献調査および実験を通して,その現状について述べる。 私たちはそれを示します a) LLMは、既にDOCPに関連する実質的な新規機能を提供しており、 b) 主要な研究課題に対処する必要がある。 また,これらのギャップを克服するための研究の方向性を提案する。 また、この作業はLCMをまとめ、私たちのビジョンを追求するためにコミュニティを最適化する活動であり、それによってより広範な意思決定を可能にします。

Significantly simplifying the creation of optimization models for real-world business problems has long been a major goal in applying mathematical optimization more widely to important business and societal decisions. The recent capabilities of Large Language Models (LLMs) present a timely opportunity to achieve this goal. Therefore, we propose research at the intersection of LLMs and optimization to create a Decision Optimization CoPilot (DOCP) - an AI tool designed to assist any decision maker, interacting in natural language to grasp the business problem, subsequently formulating and solving the corresponding optimization model. This paper outlines our DOCP vision and identifies several fundamental requirements for its implementation. We describe the state of the art through a literature survey and experiments using ChatGPT. We show that a) LLMs already provide substantial novel capabilities relevant to a DOCP, and b) major research challenges remain to be addressed. We also propose possible research directions to overcome these gaps. We also see this work as a call to action to bring together the LLM and optimization communities to pursue our vision, thereby enabling much more widespread improved decision-making.
翻訳日:2024-02-27 14:44:26 公開日:2024-02-26
# 基礎モデル透明性レポート

Foundation Model Transparency Reports ( http://arxiv.org/abs/2402.16268v1 )

ライセンス: Link先を確認
Rishi Bommasani, Kevin Klyman, Shayne Longpre, Betty Xiong, Sayash Kapoor, Nestor Maslej, Arvind Narayanan, Percy Liang(参考訳) 基礎モデルは、透明性を必要とする社会的な影響を持つ重要なデジタル技術である。 ファウンデーションモデル開発者がモデルの開発と展開について透明性を提供する方法の定式化を目的として,ソーシャルメディアにおける透明性レポートの実践を参考に,ファンデーションモデル透明性レポートを提案する。 社会的被害に関する外部文書は、ソーシャルメディアの透明性レポートを引き起こしましたが、私たちの目標は、業界がまだ初期段階にある間に、基礎モデルの透明性レポートを制度化することにあります。 報告を設計するために,ソーシャルメディアの透明性レポートの成功と欠点を考慮し,設計原則を6つ同定した。 レポートのスキーマ化をさらに進めるために、Foundation Model Transparency Indexから100の透明性指標を取り上げます。 これらの指標から、我々は6つの主要な政府の政策(例えば、EU AI Act、US Executive Order on Safe、Secure、Trustworthy AI)に含まれる透明性要件と重複する程度を測定する。 十分に設計された透明性レポートはコンプライアンスコストを低減させる可能性がある。 我々は、G7とホワイトハウスの勧告に基づいて、ファンデーションモデル開発者が定期的に透明性レポートを公開することを奨励します。

Foundation models are critical digital technologies with sweeping societal impact that necessitates transparency. To codify how foundation model developers should provide transparency about the development and deployment of their models, we propose Foundation Model Transparency Reports, drawing upon the transparency reporting practices in social media. While external documentation of societal harms prompted social media transparency reports, our objective is to institutionalize transparency reporting for foundation models while the industry is still nascent. To design our reports, we identify 6 design principles given the successes and shortcomings of social media transparency reporting. To further schematize our reports, we draw upon the 100 transparency indicators from the Foundation Model Transparency Index. Given these indicators, we measure the extent to which they overlap with the transparency requirements included in six prominent government policies (e.g., the EU AI Act, the US Executive Order on Safe, Secure, and Trustworthy AI). Well-designed transparency reports could reduce compliance costs, in part due to overlapping regulatory requirements across different jurisdictions. We encourage foundation model developers to regularly publish transparency reports, building upon recommendations from the G7 and the White House.
翻訳日:2024-02-27 14:44:10 公開日:2024-02-26
# CLIP埋め込み空間における言語駆動損失を用いた赤外・可視画像融合

Infrared and visible Image Fusion with Language-driven Loss in CLIP Embedding Space ( http://arxiv.org/abs/2402.16267v1 )

ライセンス: Link先を確認
Yuhao Wang, Lingjuan Miao, Zhiqiang Zhou, Lei Zhang and Yajun Qiao(参考訳) Infrared-visible Image fusion (IVIF) は2つの画像の高相性により注目されている。 地中融合画像の欠如により、現在のディープラーニングに基づく手法の融合出力は、数学的に定義された損失関数に大きく依存する。 基底真理を伴わずに融合像を数学的に適切に定義することは困難であるため、既存の融合法の性能は限られている。 本稿では,まず自然言語を用いてivifの目的を表現し,現在の損失における融合出力の明示的な数学的モデリングを回避し,言語表現の利点を最大限活用して融合性能を向上させることを提案する。 この目的のために,包括的言語表現融合目標を提案し,関連するテキストをCLIPを用いてマルチモーダル埋め込み空間にエンコードする。 次に、融合目標と入力画像のモダリティを表すために、埋め込みベクトル間の関係を確立することにより、言語駆動の融合モデルを構築する。 最後に、言語駆動の損失を導出し、実際のIVIFを、教師付きトレーニングを通じて組み込み言語駆動の融合モデルに整合させる。 実験により,本手法は既存の手法よりもはるかに優れた融合結果が得られることが示された。

Infrared-visible image fusion (IVIF) has attracted much attention owing to the highly-complementary properties of the two image modalities. Due to the lack of ground-truth fused images, the fusion output of current deep-learning based methods heavily depends on the loss functions defined mathematically. As it is hard to well mathematically define the fused image without ground truth, the performance of existing fusion methods is limited. In this paper, we first propose to use natural language to express the objective of IVIF, which can avoid the explicit mathematical modeling of fusion output in current losses, and make full use of the advantage of language expression to improve the fusion performance. For this purpose, we present a comprehensive language-expressed fusion objective, and encode relevant texts into the multi-modal embedding space using CLIP. A language-driven fusion model is then constructed in the embedding space, by establishing the relationship among the embedded vectors to represent the fusion objective and input image modalities. Finally, a language-driven loss is derived to make the actual IVIF aligned with the embedded language-driven fusion model via supervised training. Experiments show that our method can obtain much better fusion results than existing techniques.
翻訳日:2024-02-27 14:43:51 公開日:2024-02-26
# 量子光源、光子対、単一光子源、平面光学、メタサーフェス

Quantum light source, photon pairs, single photon source, flat optics, metasurface ( http://arxiv.org/abs/2402.16265v1 )

ライセンス: Link先を確認
Jinyong Ma, Jihua Zhang, Jake Horder, Andrey A. Sukhorukov, Milos Toth, Dragomir N. Neshev, Igor Aharonovich(参考訳) 量子光源は多くの量子技術にとって必須の構成要素であり、セキュアな通信、強力なコンピューティング、精密なセンシングとイメージングを可能にする。 近年の進歩は、量子光源開発のためのサブ波長スケールでの厚さの「フラット」光学の利用への大きなシフトを目の当たりにしている。 このアプローチは、コンパクト性、スケーラビリティ、改善された効率性、追加機能など、従来のバルク性よりも顕著なアドバンテージを提供する。 本稿では、フラット光学を量子光源に活用する最近の進歩に焦点を当てる。 具体的には、非線形メタサーフェスにおける自発的パラメトリックダウンコンバージョンと、量子ドットや色中心を含む量子エミッタからの単一光子放出による3dおよび2d材料の絡み合った光子対の生成を探求する。 このレビューでは、これらの光源の理論原理、製造技術、特性を取り上げ、特にナノ構造で支えられた光共鳴を用いた量子光源の生成と工学に重点を置いている。 これらのソースの多様な適用範囲について論じ、この分野における現在の課題と展望を強調する。

Quantum light sources are essential building blocks for many quantum technologies, enabling secure communication, powerful computing, precise sensing and imaging. Recent advancements have witnessed a significant shift towards the utilization of ``flat" optics with thickness at subwavelength scales for the development of quantum light sources. This approach offers notable advantages over conventional bulky counterparts, including compactness, scalability, and improved efficiency, along with added functionalities. This review focuses on the recent advances in leveraging flat optics to generate quantum light sources. Specifically, we explore the generation of entangled photon pairs through spontaneous parametric down-conversion in nonlinear metasurfaces, as well as single photon emission from quantum emitters including quantum dots and color centers in 3D and 2D materials. The review covers theoretical principles, fabrication techniques, and properties of these sources, with particular emphasis on the enhanced generation and engineering of quantum light sources using optical resonances supported by nanostructures. We discuss the diverse application range of these sources and highlight the current challenges and perspectives in the field.
翻訳日:2024-02-27 14:43:30 公開日:2024-02-26
# UniRetriever: コンテキスト適応型会話検索のためのマルチタスク候補選択

UniRetriever: Multi-task Candidates Selection for Various Context-Adaptive Conversational Retrieval ( http://arxiv.org/abs/2402.16261v1 )

ライセンス: Link先を確認
Hongru Wang, Boyang Xue, Baohang Zhou, Rui Wang, Fei Mi, Weichao Wang, Yasheng Wang, Kam-Fai Wong(参考訳) 会話検索とは、ユーザと効果的に関わり、対話を成功させるために、ペルソナ、知識、さらには応答といった様々な外部リソースの検索を必要とする反復的かつ対話的な方法で動作する情報検索システムである。 しかし、これまでのほとんどの作業では、個々のリソースに対して独立したレトリバーを訓練し、結果として準最適性能と低効率を実現した。 そこで本研究では,対話中の3つの支配的検索タスク(ペルソナ選択,知識選択,応答選択)の共通検索機能としてマルチタスクフレームワーク機能を提案する。 そこで本研究では,コンテキスト適応型対話エンコーダと候補エンコーダからなるデュアルエンコーダアーキテクチャを設計し,長文対話から関連するコンテキストに注意を向け,ドット積だけで適切な候補を検索する。 さらに, 歴史的に選択された候補をハードネガとして扱うことにより, 対話コンテキストと候補間の微妙な関係を捉えるために, 二つの損失制約を導入する。 広範な実験と分析により,学習領域内外において最先端の検索品質が確立され,異なる候補選択タスクの普遍的検索として機能するモデルの有望な可能性と一般化能力が明らかにされた。

Conversational retrieval refers to an information retrieval system that operates in an iterative and interactive manner, requiring the retrieval of various external resources, such as persona, knowledge, and even response, to effectively engage with the user and successfully complete the dialogue. However, most previous work trained independent retrievers for each specific resource, resulting in sub-optimal performance and low efficiency. Thus, we propose a multi-task framework function as a universal retriever for three dominant retrieval tasks during the conversation: persona selection, knowledge selection, and response selection. To this end, we design a dual-encoder architecture consisting of a context-adaptive dialogue encoder and a candidate encoder, aiming to attention to the relevant context from the long dialogue and retrieve suitable candidates by simply a dot product. Furthermore, we introduce two loss constraints to capture the subtle relationship between dialogue context and different candidates by regarding historically selected candidates as hard negatives. Extensive experiments and analysis establish state-of-the-art retrieval quality both within and outside its training domain, revealing the promising potential and generalization capability of our model to serve as a universal retriever for different candidate selection tasks simultaneously.
翻訳日:2024-02-27 14:43:12 公開日:2024-02-26
# プロジェクションヘッドを組み立てて、フェデレーションモデルの信頼性を確保する

Watch Your Head: Assembling Projection Heads to Save the Reliability of Federated Models ( http://arxiv.org/abs/2402.16255v1 )

ライセンス: Link先を確認
Jinqian Chen, Jihua Zhu, Qinghai Zheng, Zhongyu Li, Zhiqiang Tian(参考訳) フェデレーション学習は異種データによる重大な課題に遭遇し、パフォーマンス劣化と収束の問題を引き起こす。 このような影響を緩和するためにかなりの進歩があったが、フェデレーションモデルの信頼性はほとんど無視されている。 本研究では,汎用モデルとパーソナライズドフェデレーションモデルの両方の信頼性について,広範な実験を行った。 異種データに直面すると信頼性が低下し、分布内テストデータや分布外データに対する不確実性レベルが低いことが判明した。 この信頼性の欠如は、主にバイアスドプロジェクションヘッドの存在によるものであり、フェデレートされたモデルに誤校正をもたらす。 そこで本研究では,連合モデルの信頼性向上を目的としたアセンブルプロジェクションヘッド(APH)手法を提案する。 既存のプロジェクションヘッドパラメータを先行パラメータとして扱うことにより、APHは予め複数の初期化パラメータをランダムにサンプリングし、さらに学習率の異なるローカルデータに対してターゲット微調整を行う。 このようなヘッドアンサンブルはパラメータの多様性を決定論的モデルに導入し、バイアスを排除し、ヘッド平均化によって信頼できる予測を生成する。 提案手法の有効性を3つの有意なフェデレートベンチマークで評価した。 モデル校正および不確実性推定におけるAPHの有効性を実験的に検証した。 特に、APHは様々なフェデレーションアプローチにシームレスに統合できるが、大きなモデルで100$\times$推論を行う場合、30\%以上の計算コストしか必要としない。

Federated learning encounters substantial challenges with heterogeneous data, leading to performance degradation and convergence issues. While considerable progress has been achieved in mitigating such an impact, the reliability aspect of federated models has been largely disregarded. In this study, we conduct extensive experiments to investigate the reliability of both generic and personalized federated models. Our exploration uncovers a significant finding: \textbf{federated models exhibit unreliability when faced with heterogeneous data}, demonstrating poor calibration on in-distribution test data and low uncertainty levels on out-of-distribution data. This unreliability is primarily attributed to the presence of biased projection heads, which introduce miscalibration into the federated models. Inspired by this observation, we propose the "Assembled Projection Heads" (APH) method for enhancing the reliability of federated models. By treating the existing projection head parameters as priors, APH randomly samples multiple initialized parameters of projection heads from the prior and further performs targeted fine-tuning on locally available data under varying learning rates. Such a head ensemble introduces parameter diversity into the deterministic model, eliminating the bias and producing reliable predictions via head averaging. We evaluate the effectiveness of the proposed APH method across three prominent federated benchmarks. Experimental results validate the efficacy of APH in model calibration and uncertainty estimation. Notably, APH can be seamlessly integrated into various federated approaches but only requires less than 30\% additional computation cost for 100$\times$ inferences within large models.
翻訳日:2024-02-27 14:42:51 公開日:2024-02-26
# 相互作用可変トラップ型冷間原子系における4体力の証拠

Evidence of a Four-Body Force in an Interaction-Tunable Trapped Cold-Atom System ( http://arxiv.org/abs/2402.16254v1 )

ライセンス: Link先を確認
Kantaro Honda, Yosuke Takasu, Yuki Haruna, Yusuke Nishida, Yoshiro Takahashi(参考訳) 量子粒子間の2体相互作用や力は自然界において普遍的であり、素の2体相互作用という観点からの微視的な記述は、相互作用する少数および多体系を定量的に記述するための基礎である。 あるいは、効果的な2体相互作用の観点からの効果的な記述は、システムの本質をうまく捉えることができる。 しかし、いくつかの重要な観察では、効果的な2体相互作用に関する説明は不十分であり、効果的な3体相互作用はシステムを理解する上で重要な役割を担ってきた。 本研究では, 深部光学格子に密閉された超低温ボソンからなる多面体システムについて検討し, ゼロ次元ボソンとして効果的に記述する。 高分解能レーザー分光と軌道間フェッシュバッハ共鳴を組み合わせることで、広い範囲にわたって素の2体相互作用を制御することにより、これまで観測されたことのない有効な4体力の明らかな証拠が得られる。 これにより、様々な少数体系における多体力の研究の扉が開くことになる。

A two-body interaction or force between quantum particles is ubiquitous in nature, and the microscopic description in terms of the bare two-body interaction is the basis for quantitatively describing interacting few- and many-body systems. Alternatively, the effective description in terms of an effective two-body interaction successfully captures the essence of the systems. However, for several important observations, the explanation in terms of an effective two-body interaction is not satisfactory, and the effective three-body interaction has played an essential role in understanding the systems. In this study, we investigate a few-body system comprising of ultracold bosons tightly confined in a deep optical lattice site, which is effectively described as zero-dimensional bosons. By combining an occupancy-resolving high-resolution laser spectroscopy with an inter-orbital Feshbach resonance controlling the bare two-body interaction over a wide range, we obtain a clear evidence of an effective four-body force, which has never been observed in any few-body quantum system so far. This will open the door for the study of multi-body forces in various few-body systems.
翻訳日:2024-02-27 14:42:19 公開日:2024-02-26
# SeqTrack3D:ロバストな3Dポイントクラウド追跡のためのシーケンス情報探索

SeqTrack3D: Exploring Sequence Information for Robust 3D Point Cloud Tracking ( http://arxiv.org/abs/2402.16249v1 )

ライセンス: Link先を確認
Yu Lin, Zhiheng Li, Yubo Cui, Zheng Fang(参考訳) 3Dシングルオブジェクトトラッキング(SOT)は、自律走行と移動ロボットにとって重要かつ困難なタスクである。 既存の手法の多くは、2つの連続するフレーム間のトラッキングを行い、一連のフレーム上でターゲットの動きパターンを無視している。 この制限を打破するために,SeqTrack3DというトラッカーとSequence-to-Sequenceトラッキングパラダイムを導入し,連続フレーム間の目標運動をキャプチャする。 2つの連続したポイントクラウドのマッチング、相対的な動きの予測、特徴の劣化に対処するシーケンシャルなポイントクラウドの利用の3つの戦略を主に採用した従来の方法とは異なり、seqtrack3dは歴史的なポイントクラウドとバウンディングボックスシーケンスの両方を組み合わせる。 この新手法は, 狭点のシーンであっても, 履歴ボックスからの位置先行情報を活用することにより, 堅牢なトラッキングを実現する。 大規模データセットでの広範な実験により、seqtrack3dは新しい最先端のパフォーマンスを達成し、nuscenesでは6.00%、waymoデータセットでは14.13%改善した。 コードはhttps://github.com/aron-lin/seqtrack3d.comで公開される。

3D single object tracking (SOT) is an important and challenging task for the autonomous driving and mobile robotics. Most existing methods perform tracking between two consecutive frames while ignoring the motion patterns of the target over a series of frames, which would cause performance degradation in the scenes with sparse points. To break through this limitation, we introduce Sequence-to-Sequence tracking paradigm and a tracker named SeqTrack3D to capture target motion across continuous frames. Unlike previous methods that primarily adopted three strategies: matching two consecutive point clouds, predicting relative motion, or utilizing sequential point clouds to address feature degradation, our SeqTrack3D combines both historical point clouds and bounding box sequences. This novel method ensures robust tracking by leveraging location priors from historical boxes, even in scenes with sparse points. Extensive experiments conducted on large-scale datasets show that SeqTrack3D achieves new state-of-the-art performances, improving by 6.00% on NuScenes and 14.13% on Waymo dataset. The code will be made public at https://github.com/aron-lin/seqtrack3d.
翻訳日:2024-02-27 14:42:01 公開日:2024-02-26
# 知識に基づくコンテンツ選択によるトピック・ツー・エッセイ生成

Topic-to-essay generation with knowledge-based content selection ( http://arxiv.org/abs/2402.16248v1 )

ライセンス: Link先を確認
Jieyong Wang, Chunyao Song, Yihao Wu(参考訳) topic-to-essay生成タスクは、与えられたトピックワードのセットに基づいて、高い意味的一貫性を持つ段落レベルのテキストを生成することを目的とした、挑戦的な自然言語生成タスクである。 以前の研究は外部知識の導入に重点を置いており、不十分なテキストの多様性を無視している。 生成の多様性を改善するために,言語モデルからの豊富な意味知識をデコーダに統合したコンテンツ選択モジュールを用いた新しいコピー機構モデルを提案する。 さらに,モデルの学習に改良されたプレフィックスチューニング手法を導入することで,入力の複雑さに適応できる。 さらに,TEGタスクのための中国語データセットを新たに提供しました。 実験結果から,提案手法は高レベルのトピック一貫性を維持しつつ,テキストの多様性を35 %から59 %向上させることができることがわかった。

The topic-to-essay generation task is a challenging natural language generation task that aims to generate paragraph-level text with high semantic coherence based on a given set of topic words. Previous work has focused on the introduction of external knowledge, ignoring the insufficient generated text diversity. In order to improve the generation diversity, we propose a novel copy mechanism model with a content selection module that integrates rich semantic knowledge from the language model into the decoder. Furthermore, we introduce the improved prefix tuning method to train the model, enabling it to adapt to varying input complexities. In addition, we have contributed a new Chinese dataset for TEG tasks. Experimental results demonstrate that the proposed model can improve the generated text diversity by 35\% to 59\% compared to the state-of-the-art method, while maintaining a high level of topic consistency.
翻訳日:2024-02-27 14:41:38 公開日:2024-02-26
# 欠如モダリティのロバスト性に対する勾配誘導モダリティデカップリング

Gradient-Guided Modality Decoupling for Missing-Modality Robustness ( http://arxiv.org/abs/2402.16318v1 )

ライセンス: Link先を確認
Hao Wang, Shengda Luo, Guosheng Hu and Jianguo Zhang(参考訳) 不完全な入力データ(モダリティを欠く)によるマルチモーダル学習は実践的で難しい。 本研究では,この課題を深く分析し,モダリティ優位がモデルトレーニングに重大な悪影響を及ぼすこと,モダリティ性能の欠如が著しく低下していることを見出す。 Grad-CAMによってモチベーションされた新しい指標である勾配を導入し、欠落したモダリティシナリオに広く存在するモダリティ優位性を監視し、低減する。 この指標を補助として, 支配的モダリティへの依存性を分離する新しい勾配誘導モダリティデカップリング(gmd)法を提案する。 具体的には、GMDはこの分離を実現するために異なるモードから競合する勾配成分を除去し、性能を著しく改善する。 さらに,モーダル不完全データを柔軟に扱えるように,パラメータ効率のよい動的共有(DS)フレームワークを設計し,一つのモダリティが利用できるかどうかに基づいて,ネットワークパラメータのオン/オフを適応的に切り替える。 医療セグメント化のためのBraTS 2018、感情分析のためのCMU-MOSI、CMU-MOSEIを含む3つの人気のあるマルチモーダルベンチマークについて広範な実験を行った。 その結果,提案手法は,提案手法の有効性を実証し,競争相手を著しく上回る結果が得られた。 私たちのコードはここでリリースされます。 https://github.com/haowang420/gradient-guided-modality-decoupling。

Multimodal learning with incomplete input data (missing modality) is practical and challenging. In this work, we conduct an in-depth analysis of this challenge and find that modality dominance has a significant negative impact on the model training, greatly degrading the missing modality performance. Motivated by Grad-CAM, we introduce a novel indicator, gradients, to monitor and reduce modality dominance which widely exists in the missing-modality scenario. In aid of this indicator, we present a novel Gradient-guided Modality Decoupling (GMD) method to decouple the dependency on dominating modalities. Specifically, GMD removes the conflicted gradient components from different modalities to achieve this decoupling, significantly improving the performance. In addition, to flexibly handle modal-incomplete data, we design a parameter-efficient Dynamic Sharing (DS) framework which can adaptively switch on/off the network parameters based on whether one modality is available. We conduct extensive experiments on three popular multimodal benchmarks, including BraTS 2018 for medical segmentation, CMU-MOSI, and CMU-MOSEI for sentiment analysis. The results show that our method can significantly outperform the competitors, showing the effectiveness of the proposed solutions. Our code is released here: https://github.com/HaoWang420/Gradient-guided-Modality-Decoupling.
翻訳日:2024-02-27 14:36:43 公開日:2024-02-26
# Finer:大規模視覚言語モデルにおける細粒度視覚概念認識の探索と強化

Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models ( http://arxiv.org/abs/2402.16315v1 )

ライセンス: Link先を確認
Jeonghwan Kim and Heng Ji(参考訳) 命令調整型大型視覚言語モデル(lvlms)の最近の進歩は、高レベルで画像に基づく説明を容易に生成できるモデルに影響を与えている。 このような機能は、Large Language Models (LLMs)に含まれる豊富な世界の知識に大きく影響されているが、我々の研究は、6つの異なるベンチマーク設定において、きめ細かい視覚分類(FGVC)の欠点を明らかにしている。 近年のLLaVa-1.5、InstructBLIP、GPT-4Vのような最先端のLVLMは、分類性能の点で深刻な劣化を経験しているだけでなく、LLaVA-1.5用のStanford Dogsでは平均65.58 in EMが低下している。 In-depth Analysisによると、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示し、画像モダリティがLLM内の豊富なパラメトリック知識を活用するのを防ぐ。 この方向へのコミュニティの取り組みをさらに進めるため,LVLMの細粒度視覚理解能力を評価するための基盤を確立することを目的として,多粒度属性中心評価ベンチマークであるFinerを提案する。

Recent advances in instruction-tuned Large Vision-Language Models (LVLMs) have imbued the models with the ability to generate high-level, image-grounded explanations with ease. While such capability is largely attributed to the rich world knowledge contained within the Large Language Models (LLMs), our work reveals their shortcomings in fine-grained visual categorization (FGVC) across six different benchmark settings. Most recent state-of-the-art LVLMs like LLaVa-1.5, InstructBLIP and GPT-4V not only severely deteriorate in terms of classification performance, e.g., average drop of 65.58 in EM for Stanford Dogs for LLaVA-1.5, but also struggle to generate an accurate explanation with detailed attributes based on the concept that appears within an input image despite their capability to generate holistic image-level descriptions. In-depth analyses show that instruction-tuned LVLMs exhibit modality gap, showing discrepancy when given textual and visual inputs that correspond to the same concept, preventing the image modality from leveraging the rich parametric knowledge within the LLMs. In an effort to further the community's endeavor in this direction, we propose a multiple granularity attribute-centric evaluation benchmark, Finer, which aims to establish a ground to evaluate LVLMs' fine-grained visual comprehension ability and provide significantly improved explainability.
翻訳日:2024-02-27 14:36:20 公開日:2024-02-26
# chain-of-discussion: 複雑な証拠に基づく質問応答のためのマルチモデルフレームワーク

Chain-of-Discussion: A Multi-Model Framework for Complex Evidence-Based Question Answering ( http://arxiv.org/abs/2402.16313v1 )

ライセンス: Link先を確認
Mingxu Tao and Dongyan Zhao and Yansong Feng(参考訳) オープンエンドの質問に答えるには、適切な証拠を見つける必要がある。 現実的な応用においては、モデルは問題に密接に関連する潜在的なシナリオについて拡張的な議論を行う必要がある。 検索モジュールの強化により、オープンソースの大言語モデル(llm)は、しばしば異なる焦点を持つコヒーレントな回答を生成できるが、信頼できる証拠選択と深い質問分析の観点では依然として最適ではない。 本稿では,オープンエンドQAに対する \textbf{more correct} と \textbf{more comprehensive} の回答の提供を目的とした,複数のオープンソース LLM 間の相乗効果を活用するための新しいChain-of-Discussion フレームワークを提案する。 実験の結果,複数のLSM間の議論は回答の質を高める上で重要な役割を担っていることがわかった。 データとコードは \url{https://github.com/kobayashikanna01/chain-of-discussion} でリリースします。

Open-ended question answering requires models to find appropriate evidence to form well-reasoned, comprehensive and helpful answers. In practical applications, models also need to engage in extended discussions on potential scenarios closely relevant to the question. With augmentation of retrieval module, open-source Large Language Models (LLMs) can produce coherent answers often with different focuses, but are still sub-optimal in terms of reliable evidence selection and in-depth question analysis. In this paper, we propose a novel Chain-of-Discussion framework to leverage the synergy among multiple open-source LLMs aiming to provide \textbf{more correct} and \textbf{more comprehensive} answers for open-ended QA, although they are not strong enough individually. Our experiments show that discussions among multiple LLMs play a vital role in enhancing the quality of answers. We release our data and code at \url{https://github.com/kobayashikanna01/Chain-of-Discussion}.
翻訳日:2024-02-27 14:35:50 公開日:2024-02-26
# 非同期通信と異種ユーザによるフェデレーションコンテキストカスケードバンド

Federated Contextual Cascading Bandits with Asynchronous Communication and Heterogeneous Users ( http://arxiv.org/abs/2402.16312v1 )

ライセンス: Link先を確認
Hantao Yang, Xutong Liu, Zhiyong Wang, Hong Xie, John C. S. Lui, Defu Lian, Enhong Chen(参考訳) そこで、$|\mathcal{u}|$エージェントが中央サーバの調整の下で協調し、$|\mathcal{u}|$に対応するユーザに対してカスタマイズされたレコメンデーションを提供する。 既存の作業では、同期フレームワーク、完全なエージェント参加とグローバル同期を必要とするか、あるいは同一の振る舞いでユーザ均一性を仮定するかのいずれかを考慮する。 1) 非同期通信パラダイムで動作し, 強制的な同期が不要で, すべてのエージェントがサーバと独立して通信するフェデレートエージェント, (2) 異種ユーザ動作, ユーザを$j \le |\mathcal{u}|$ latentユーザクラスタに階層化し, それぞれが異なる好みを示す, という制限を克服した。 そこで本研究では,繊細な通信プロトコルを用いたUPB型アルゴリズムを提案する。 理論的解析により、対数通信コストのみを発生させながら、同期フレームワークで達成したものと同等の線形後悔境界を与える。 合成および実世界のデータセットに関する実証評価は、後悔と通信コストの観点からアルゴリズムの優れた性能を検証する。

We study the problem of federated contextual combinatorial cascading bandits, where $|\mathcal{U}|$ agents collaborate under the coordination of a central server to provide tailored recommendations to the $|\mathcal{U}|$ corresponding users. Existing works consider either a synchronous framework, necessitating full agent participation and global synchronization, or assume user homogeneity with identical behaviors. We overcome these limitations by considering (1) federated agents operating in an asynchronous communication paradigm, where no mandatory synchronization is required and all agents communicate independently with the server, (2) heterogeneous user behaviors, where users can be stratified into $J \le |\mathcal{U}|$ latent user clusters, each exhibiting distinct preferences. For this setting, we propose a UCB-type algorithm with delicate communication protocols. Through theoretical analysis, we give sub-linear regret bounds on par with those achieved in the synchronous framework, while incurring only logarithmic communication costs. Empirical evaluation on synthetic and real-world datasets validates our algorithm's superior performance in terms of regrets and communication costs.
翻訳日:2024-02-27 14:35:28 公開日:2024-02-26
# クロスドメイン中国語文パターン解析

Cross-domain Chinese Sentence Pattern Parsing ( http://arxiv.org/abs/2402.16311v1 )

ライセンス: Link先を確認
Yingsi Yu, Cunliang Kong, Liner Yang, Meishan Zhang, Lin Zhu, Yujie Wang, Haozhe Lin, Maosong Sun, Erhong Yang(参考訳) SPS構文解析(Sentence Pattern Structure, SPS)は、主に言語教育に使用される構文解析手法であり、既存のSPS構文解析は、学習のための教科書コーパスに大きく依存し、クロスドメイン能力の欠如を克服するため、自己学習フレームワークにおける大規模言語モデル(LLM)を活用する革新的なアプローチを提案する。 ソースドメインからの部分構文ルールを対象ドメイン文と組み合わせ、動的にトレーニングデータを生成し、多様なドメインへのパーサの適応性を高め、教科書やニュースドメインで実施した実験により、F1メトリクスのルールベースラインを1.68ポイント上回る、提案手法の有効性を実証した。

Sentence Pattern Structure (SPS) parsing is a syntactic analysis method primarily employed in language teaching.Existing SPS parsers rely heavily on textbook corpora for training, lacking cross-domain capability.To overcome this constraint, this paper proposes an innovative approach leveraging large language models (LLMs) within a self-training framework. Partial syntactic rules from a source domain are combined with target domain sentences to dynamically generate training data, enhancing the adaptability of the parser to diverse domains.Experiments conducted on textbook and news domains demonstrate the effectiveness of the proposed method, outperforming rule-based baselines by 1.68 points on F1 metrics.
翻訳日:2024-02-27 14:35:02 公開日:2024-02-26
# RePLAY:スパース軌道上の位置予測のための人体移動の時間変化時間規則性モデリング

REPLAY: Modeling Time-Varying Temporal Regularities of Human Mobility for Location Prediction over Sparse Trajectories ( http://arxiv.org/abs/2402.16310v1 )

ライセンス: Link先を確認
Bangchao Deng, Bingqing Qu, Pengyang Wang and Dingqi Yang(参考訳) 位置予測は、過去のユーザモビリティトレースに基づいてユーザの位置を予測する。 実世界のユーザモビリティトレースに内在するスパーシティ問題に取り組むため、時空間的コンテキストは著しく有用であることが示されている。 既存のソリューションでは、リカレントニューラルネットワーク(Recurrent Neural Networks, RNN)に追加入力として入力するか、あるいは予測のために情報を隠した状態を探すことで、モビリティトレース内の位置間の時空間距離を多く含んでいる。 しかし、このような距離に基づく手法は、例えば、時間的距離以外の実際のタイムスタンプの有用性が示唆されるような、朝の移動がより規則的であるような、人間の移動の時間的規則性を捉えることができない。 そこで本稿では,位置予測のための時間変化時間規則を抽出する一般RNNアーキテクチャであるREPLAYを提案する。 特に、RePLAYはスパース軌跡における時空間距離を利用して情報的過去の隠蔽状態を探索するだけでなく、異なるタイムスタンプ間の異なる強度の時間規則性に柔軟に適応できる、ガウス重み付き平均学習帯域を用いたスムーズなタイムスタンプ埋め込みを組み込むことにより、時空間の規則性に対応する。 我々の広範囲な評価は、REPLAYと2つの実世界のデータセット上の最先端技術の膨大なコレクションを比較している。 その結果、REPLAYは、位置予測タスクにおいて、7.7\%-10.9\%の最先端手法を一貫して大幅に上回り、帯域幅は時間変化の時間的規則性の興味深いパターンを示すことがわかった。

Location prediction forecasts a user's location based on historical user mobility traces. To tackle the intrinsic sparsity issue of real-world user mobility traces, spatiotemporal contexts have been shown as significantly useful. Existing solutions mostly incorporate spatiotemporal distances between locations in mobility traces, either by feeding them as additional inputs to Recurrent Neural Networks (RNNs) or by using them to search for informative past hidden states for prediction. However, such distance-based methods fail to capture the time-varying temporal regularities of human mobility, where human mobility is often more regular in the morning than in other periods, for example; this suggests the usefulness of the actual timestamps besides the temporal distances. Against this background, we propose REPLAY, a general RNN architecture learning to capture the time-varying temporal regularities for location prediction. Specifically, REPLAY not only resorts to the spatiotemporal distances in sparse trajectories to search for the informative past hidden states, but also accommodates the time-varying temporal regularities by incorporating smoothed timestamp embeddings using Gaussian weighted averaging with timestamp-specific learnable bandwidths, which can flexibly adapt to the temporal regularities of different strengths across different timestamps. Our extensive evaluation compares REPLAY against a sizable collection of state-of-the-art techniques on two real-world datasets. Results show that REPLAY consistently and significantly outperforms state-of-the-art methods by 7.7\%-10.9\% in the location prediction task, and the bandwidths reveal interesting patterns of the time-varying temporal regularities.
翻訳日:2024-02-27 14:34:49 公開日:2024-02-26
# Referee Can Play: モデル反転による条件生成への代替的アプローチ

Referee Can Play: An Alternative Approach to Conditional Generation via Model Inversion ( http://arxiv.org/abs/2402.16305v1 )

ライセンス: Link先を確認
Xuantong Liu, Tianyang Hu, Wenjia Wang, Kenji Kawaguchi, Yuan Yao(参考訳) テキスト対画像生成タスクにおける支配的な力として、拡散確率モデル(dpm)は制御可能性の重大な課題に直面し、複雑で多面的な命令に厳密に固執するのに苦労している。 本研究では,条件生成タスクのアライメント問題に対処することを目的とする。 まず,先進的視覚言語モデル(vlms)を反転する方法として,最先端dpmの代替視点を提案する。 この定式化により,dpmsに関連する従来のサンプリングプロセスをバイパスするトレーニングフリーな手法を自然に提案する。 差別的VLMを監督した画像を直接最適化することにより,より優れたテキスト画像アライメントを実現することができる。 概念実証として,事前学習したblip-2モデルを用いてパイプラインを実証し,画像生成のためのいくつかの重要な設計を明らかにした。 画像忠実度をさらに高めるため、安定した拡散のスコア蒸留サンプリングモジュールが組み込まれている。 T2I-Compbenchでは,最適化中に2つのコンポーネントを慎重にバランスさせることで,ほぼ最先端の性能を持つ高品質な画像を生成することができる。

As a dominant force in text-to-image generation tasks, Diffusion Probabilistic Models (DPMs) face a critical challenge in controllability, struggling to adhere strictly to complex, multi-faceted instructions. In this work, we aim to address this alignment challenge for conditional generation tasks. First, we provide an alternative view of state-of-the-art DPMs as a way of inverting advanced Vision-Language Models (VLMs). With this formulation, we naturally propose a training-free approach that bypasses the conventional sampling process associated with DPMs. By directly optimizing images with the supervision of discriminative VLMs, the proposed method can potentially achieve a better text-image alignment. As proof of concept, we demonstrate the pipeline with the pre-trained BLIP-2 model and identify several key designs for improved image generation. To further enhance the image fidelity, a Score Distillation Sampling module of Stable Diffusion is incorporated. By carefully balancing the two components during optimization, our method can produce high-quality images with near state-of-the-art performance on T2I-Compbench.
翻訳日:2024-02-27 14:34:16 公開日:2024-02-26
# グラフ拡散政策最適化

Graph Diffusion Policy Optimization ( http://arxiv.org/abs/2402.16302v1 )

ライセンス: Link先を確認
Yijing Liu, Chao Du, Tianyu Pang, Chongxuan Li, Wei Chen, Min Lin(参考訳) 近年, 薬物設計のためのグラフ生成などの分野において, 特定の下流目標に対する拡散モデルの最適化が大きな進歩を遂げている。 しかし、これらのモデルをグラフ拡散に直接適用することは課題を呈し、結果として準最適性能をもたらす。 本稿では,グラフ拡散ポリシー最適化(GDPO)を導入し,グラフ拡散モデルを任意の目的(例えば,非微分可能)に対して強化学習を用いて最適化する手法を提案する。 GDPOはグラフ拡散モデルに適した熱心なポリシー勾配に基づいており、厳密な分析と性能向上を約束する。 実験結果から, GDPOは複雑かつ多様な目的を持ったグラフ生成タスクにおいて, 最先端の性能を達成することが示された。 コードはhttps://github.com/sail-sg/GDPO.comで入手できる。

Recent research has made significant progress in optimizing diffusion models for specific downstream objectives, which is an important pursuit in fields such as graph generation for drug design. However, directly applying these models to graph diffusion presents challenges, resulting in suboptimal performance. This paper introduces graph diffusion policy optimization (GDPO), a novel approach to optimize graph diffusion models for arbitrary (e.g., non-differentiable) objectives using reinforcement learning. GDPO is based on an eager policy gradient tailored for graph diffusion models, developed through meticulous analysis and promising improved performance. Experimental results show that GDPO achieves state-of-the-art performance in various graph generation tasks with complex and diverse objectives. Code is available at https://github.com/sail-sg/GDPO.
翻訳日:2024-02-27 14:33:58 公開日:2024-02-26
# コンフォーマル化選択回帰

Conformalized Selective Regression ( http://arxiv.org/abs/2402.16300v1 )

ライセンス: Link先を確認
Anna Sokol, Nuno Moniz, Nitesh Chawla(参考訳) 予測モデルは、常に予測をもたらすべきか? 最大予測性能の追求において、信頼性と公平性に関する批判的考察は、特に不確実性の役割に関して、しばしば誇張される。 選択回帰(selective regression)は、"reject option"としても知られ、モデルがかなりの不確実性のある場合の予測を回避できる。 当初、70年前に提案された選択的回帰へのアプローチは、主に不確実性、特に条件分散を測定するための分布ベースのプロキシに焦点を当てている。 しかし、この焦点はモデル固有のバイアスがモデルの性能に与える影響を無視する。 本稿では,モデル固有のバイアスに基づく個別予測に対する根拠付き信頼度尺度を提供する共形予測を活用し,選択的回帰に対する新しいアプローチを提案する。 さらに,選択回帰アプローチを適切に比較するための標準評価フレームワークを提案する。 より広範な実験的なアプローチにより,提案手法が複数の最先端ベースラインに対して有利であることを示す。

Should prediction models always deliver a prediction? In the pursuit of maximum predictive performance, critical considerations of reliability and fairness are often overshadowed, particularly when it comes to the role of uncertainty. Selective regression, also known as the "reject option," allows models to abstain from predictions in cases of considerable uncertainty. Initially proposed seven decades ago, approaches to selective regression have mostly focused on distribution-based proxies for measuring uncertainty, particularly conditional variance. However, this focus neglects the significant influence of model-specific biases on a model's performance. In this paper, we propose a novel approach to selective regression by leveraging conformal prediction, which provides grounded confidence measures for individual predictions based on model-specific biases. In addition, we propose a standardized evaluation framework to allow proper comparison of selective regression approaches. Via an extensive experimental approach, we demonstrate how our proposed approach, conformalized selective regression, demonstrates an advantage over multiple state-of-the-art baselines.
翻訳日:2024-02-27 14:33:47 公開日:2024-02-26
# anti filter bubbles: 重み付きハイパーグラフ埋め込み学習による多様な音楽推薦

Against Filter Bubbles: Diversified Music Recommendation via Weighted Hypergraph Embedding Learning ( http://arxiv.org/abs/2402.16299v1 )

ライセンス: Link先を確認
Chaoguang Luo, Liuying Wen, Yong Qin, Liangwei Yang, Zhineng Hu, Philip S. Yu(参考訳) リコメンダシステムは、不適切な情報やミスマッチした情報を排除し、好みに沿ったアイテムを正確に識別する、という2つの目的をユーザに提供する。 多くのレコメンデーションアルゴリズムは、ユーザが好みに合わせてパーソナライズされた情報の配列を提供するように設計されている。 にもかかわらず、過剰なパーソナライゼーションはユーザーを「フィルターバブル」の中に閉じ込めることができる。 その結果、レコメンデーションにおける正確性と多様性の適切なバランスを達成することが、差し迫った懸念である。 そこで本研究では,DWHRec(Diversified Weighted Hypergraph Music Recommendation Algorithm)を提案する。 DWHRecアルゴリズムでは、ユーザとリスニングトラックの間の初期接続は重み付きハイパーグラフで表現される。 同時に、アーティスト、アルバム、タグとトラックの関連もハイパーグラフに追加される。 ユーザの潜在嗜好を調べるために,構築したハイパーグラフにハイパーグラフに基づくランダムウォーク埋め込み手法を適用する。 調査では,ユーザとトラックのアライメントによって精度が測定されるのに対して,推奨トラックタイプの配列は多様性を計測する。 2つの実世界の音楽データセットを用いて,DWHRecを7つの最先端レコメンデーションアルゴリズムと比較した。 実験結果はDWHRecを精度と多様性を十分に調和させ、より豊かな音楽体験を提供するソリューションとして評価した。 音楽レコメンデーション以外にも、DWHRecは同様のデータ構造を持つ他のシナリオにも拡張できる。

Recommender systems serve a dual purpose for users: sifting out inappropriate or mismatched information while accurately identifying items that align with their preferences. Numerous recommendation algorithms are designed to provide users with a personalized array of information tailored to their preferences. Nevertheless, excessive personalization can confine users within a "filter bubble". Consequently, achieving the right balance between accuracy and diversity in recommendations is a pressing concern. To address this challenge, exemplified by music recommendation, we introduce the Diversified Weighted Hypergraph music Recommendation algorithm (DWHRec). In the DWHRec algorithm, the initial connections between users and listened tracks are represented by a weighted hypergraph. Simultaneously, associations between artists, albums and tags with tracks are also appended to the hypergraph. To explore users' latent preferences, a hypergraph-based random walk embedding method is applied to the constructed hypergraph. In our investigation, accuracy is gauged by the alignment between the user and the track, whereas the array of recommended track types measures diversity. We rigorously compared DWHRec against seven state-of-the-art recommendation algorithms using two real-world music datasets. The experimental results validate DWHRec as a solution that adeptly harmonizes accuracy and diversity, delivering a more enriched musical experience. Beyond music recommendation, DWHRec can be extended to cater to other scenarios with similar data structures.
翻訳日:2024-02-27 14:33:31 公開日:2024-02-26
# MV-Swin-T:マルチビュースウィントランスを用いたマンモグラム分類

MV-Swin-T: Mammogram Classification with Multi-view Swin Transformer ( http://arxiv.org/abs/2402.16298v1 )

ライセンス: Link先を確認
Sushmita Sarker, Prithul Sarker, George Bebis, and Alireza Tavakkoli(参考訳) 乳がん分類における従来のディープラーニングアプローチは、主に単一視点分析に集中している。 しかし, 放射線科医は, マンモグラフィー検査におけるすべての所見を同時に検査し, 腫瘍を効果的に検出する。 マルチビュー分析の重要性を認識したいくつかの研究は、異なる畳み込み分岐または単純な融合戦略を通じて、独立してマンモグラムビューを処理し、不注意に重要なビュー間相関を失う方法を導入した。 本稿では,マンモグラフィ画像分類における課題に対処するために,トランスフォーマーのみに基づく革新的なマルチビューネットワークを提案する。 本研究では,マルチビュー情報の効果的な統合を促進し,空間的特徴マップレベルでの視点間の情報伝達を促進する新しいシフトウインドウ型動的注意ブロックを提案する。 さらに, CBIS-DDSMおよびVin-Dr Mammoデータセットを用いて, トランスフォーマーモデルの性能と有効性に関する総合的な比較分析を行った。 私たちのコードはhttps://github.com/prithuls/MV-Swin-Tで公開されています。

Traditional deep learning approaches for breast cancer classification has predominantly concentrated on single-view analysis. In clinical practice, however, radiologists concurrently examine all views within a mammography exam, leveraging the inherent correlations in these views to effectively detect tumors. Acknowledging the significance of multi-view analysis, some studies have introduced methods that independently process mammogram views, either through distinct convolutional branches or simple fusion strategies, inadvertently leading to a loss of crucial inter-view correlations. In this paper, we propose an innovative multi-view network exclusively based on transformers to address challenges in mammographic image classification. Our approach introduces a novel shifted window-based dynamic attention block, facilitating the effective integration of multi-view information and promoting the coherent transfer of this information between views at the spatial feature map level. Furthermore, we conduct a comprehensive comparative analysis of the performance and effectiveness of transformer-based models under diverse settings, employing the CBIS-DDSM and Vin-Dr Mammo datasets. Our code is publicly available at https://github.com/prithuls/MV-Swin-T
翻訳日:2024-02-27 14:33:07 公開日:2024-02-26
# 非定常遷移ダイナミクスを持つポアソン-ガンマ力学系

Poisson-Gamma Dynamical Systems with Non-Stationary Transition Dynamics ( http://arxiv.org/abs/2402.16297v1 )

ライセンス: Link先を確認
Jiahao Wang, Sikun Yang, Heinz Koeppl, Xiuzhen Cheng, Pengfei Hu, Guoming Zhang(参考訳) 数値時系列を扱うベイズ手法は、解釈可能な潜在構造を推測し、不確かさを推定する能力があるため、特にノイズや不完全なカウントデータを扱うのに適している。 これらのベイズモデルのうち、Poisson-Gamma Dynamical Systems (PGDSs) は観測数列に基づく進化力学を捉えるのに有効であることが証明されている。 しかし、現在最先端のPGDSは、実世界のカウントタイムシリーズでよく見られる時間変化の遷移ダイナミクスを捉えていない。 この制限を緩和するために、基礎となる遷移行列が時間とともに進化できるように非定常pgdsを提案し、進化する遷移行列は洗練された設計のディリクレマルコフ鎖によってモデル化される。 Dirichlet-Multinomial-Betaデータ拡張技術を活用し, 完全共役かつ効率的なギブスサンプリング装置を開発し, 後部シミュレーションを行った。 実験により, 提案する非定常pgdsは, 時間発展する遷移行列によって捕捉される非定常依存構造を学習できるため, 予測性能が向上することを示した。

Bayesian methodologies for handling count-valued time series have gained prominence due to their ability to infer interpretable latent structures and to estimate uncertainties, and thus are especially suitable for dealing with noisy and incomplete count data. Among these Bayesian models, Poisson-Gamma Dynamical Systems (PGDSs) are proven to be effective in capturing the evolving dynamics underlying observed count sequences. However, the state-of-the-art PGDS still falls short in capturing the time-varying transition dynamics that are commonly observed in real-world count time series. To mitigate this limitation, a non-stationary PGDS is proposed to allow the underlying transition matrices to evolve over time, and the evolving transition matrices are modeled by sophisticatedly-designed Dirichlet Markov chains. Leveraging Dirichlet-Multinomial-Beta data augmentation techniques, a fully-conjugate and efficient Gibbs sampler is developed to perform posterior simulation. Experiments show that, in comparison with related models, the proposed non-stationary PGDS achieves improved predictive performance due to its capacity to learn non-stationary dependency structure captured by the time-evolving transition matrices.
翻訳日:2024-02-27 14:32:47 公開日:2024-02-26
# ブロックチェーン上の分散フェデレーションアンラーニング

Decentralized Federated Unlearning on Blockchain ( http://arxiv.org/abs/2402.16294v1 )

ライセンス: Link先を確認
Xiao Liu, Mingyuan Li, Xu Wang, Guangsheng Yu, Wei Ni, Lixiang Li, Haipeng Peng, Renping Liu(参考訳) Blockchained Federated Learning (FL)は、FLプロセスの完全性とトレーサビリティを保証するために、注目を集めている。 Blockchained FLでは、参加者がデータをローカルにトレーニングし、その後、モデルをブロックチェーン上に公開することで、モデル関係を表すDAG(Directed Acyclic Graph)のような継承構造を形成する。 しかしながら、このDAGベースの構造は、複雑さとオーバーヘッドが伴うため、センシティブなデータでモデルを更新する際の課題となる。 そこで我々は,chameleon hash(ch)技術を用いてブロックチェーン構造を再設計し,モデル更新の複雑さを軽減し,アンラーニングタスクの計算コストとコンセンサスコストを削減する汎用フレームワークであるblockfulを提案する。さらにblockfulは,並列実行とシリアル実行に関わらず,さまざまなフェデレーションアンラーニング手法をサポートし,モデル更新の完全性とトレーサビリティを保証する。 我々は、勾配上昇と再学習という2つの典型的なアンラーニング手法を包括的に研究し、これら2つのカテゴリにおける効率的なアンラーニングワークフローを最小限のCHとブロック更新操作で示す。 さらに,これらの手法の計算と通信コストを比較する。

Blockchained Federated Learning (FL) has been gaining traction for ensuring the integrity and traceability of FL processes. Blockchained FL involves participants training models locally with their data and subsequently publishing the models on the blockchain, forming a Directed Acyclic Graph (DAG)-like inheritance structure that represents the model relationship. However, this particular DAG-based structure presents challenges in updating models with sensitive data, due to the complexity and overhead involved. To address this, we propose Blockchained Federated Unlearning (BlockFUL), a generic framework that redesigns the blockchain structure using Chameleon Hash (CH) technology to mitigate the complexity of model updating, thereby reducing the computational and consensus costs of unlearning tasks.Furthermore, BlockFUL supports various federated unlearning methods, ensuring the integrity and traceability of model updates, whether conducted in parallel or serial. We conduct a comprehensive study of two typical unlearning methods, gradient ascent and re-training, demonstrating the efficient unlearning workflow in these two categories with minimal CH and block update operations. Additionally, we compare the computation and communication costs of these methods.
翻訳日:2024-02-27 14:32:26 公開日:2024-02-26
# mapm: rld検出におけるスケール変数拡張のためのマルチスケールアテンションピラミッドモジュール

mAPm: multi-scale Attention Pyramid module for Enhanced scale-variation in RLD detection ( http://arxiv.org/abs/2402.16291v1 )

ライセンス: Link先を確認
Yunusa Haruna, Shiyin Qin, Abdulrahman Hamman Adama Chukkol, Isah Bello, Adamu Lawan(参考訳) 様々なスケールで物体を検出することは、コンピュータビジョンにおいて重要な課題であり、特にイネ葉病(rld)検出などのタスクでは、物体がかなりの規模の変動を示す。 従来の物体検出法はこれらの変化に対処するのに苦労することが多く、検出が遅れたり精度が低下する。 本研究では,拡張された畳み込みを特徴ピラミッドネットワーク (fpn) に統合し,マルチスケール情報抽出を促進する,新しい手法であるマルチスケールアテンションピラミッドモジュール (mapm) を提案する。 さらに,グローバル・マルチヘッド・セルフアテンション(mhsa)機構とデコンボリューション層を組み込んで,アップサンプリングプロセスを洗練する。 MRLDおよびCOCOデータセットを用いて, YOLOv7上のmAPmを評価する。 バニラFPN、BiFPN、NAS-FPN、PANET、ACFPNと比較して、mAPmは平均精度(AP)を大幅に向上し、YOLOv7のベースラインFPNに比べてMRLDデータセットは2.61%増加した。 これはスケールのバリエーションを扱う上での有効性を示す。 さらに、mAPmの汎用性により、様々なFPNベースのオブジェクト検出モデルに統合することができ、オブジェクト検出技術の進歩の可能性を示している。

Detecting objects across various scales remains a significant challenge in computer vision, particularly in tasks such as Rice Leaf Disease (RLD) detection, where objects exhibit considerable scale variations. Traditional object detection methods often struggle to address these variations, resulting in missed detections or reduced accuracy. In this study, we propose the multi-scale Attention Pyramid module (mAPm), a novel approach that integrates dilated convolutions into the Feature Pyramid Network (FPN) to enhance multi-scale information ex-traction. Additionally, we incorporate a global Multi-Head Self-Attention (MHSA) mechanism and a deconvolutional layer to refine the up-sampling process. We evaluate mAPm on YOLOv7 using the MRLD and COCO datasets. Compared to vanilla FPN, BiFPN, NAS-FPN, PANET, and ACFPN, mAPm achieved a significant improvement in Average Precision (AP), with a +2.61% increase on the MRLD dataset compared to the baseline FPN method in YOLOv7. This demonstrates its effectiveness in handling scale variations. Furthermore, the versatility of mAPm allows its integration into various FPN-based object detection models, showcasing its potential to advance object detection techniques.
翻訳日:2024-02-27 14:32:00 公開日:2024-02-26
# 光時計におけるマルチキュービットゲートと"Schr\"オーディンガー猫"状態

Multi-qubit gates and 'Schr\"odinger cat' states in an optical clock ( http://arxiv.org/abs/2402.16289v1 )

ライセンス: Link先を確認
Alec Cao, William J. Eckner, Theodor Lukin Yelin, Aaron W. Young, Sven Jandura, Lingfeng Yan, Kyungtae Kim, Guido Pupillo, Jun Ye, Nelson Darkwah Oppong, Adam M. Kaufman(参考訳) 多粒子絡み合いは量子センサーの基本精度限界を達成するための重要な資源である。 周波数精度における現在の最先端の原子時計である光原子時計は、絡み合うエンハンスドメトロジーの領域として急速に発展しつつある。 原子アレイ情報処理のために開発された高忠実度エンタングリングゲートによる微視的制御と検出を特徴とするトワイザーベースのクロックの強化は、高エンタングル量子状態を改良した光時計に活用するための有望な経路を提供する。 ここでは,グリーンベルガー・ホルン・ザイリンガー型(GHZ)の「シュリンガー・キャット」状態を生成するために,プログラム可能な原子配列に最大9個の光クロックキュービットを持つマルチキュービットのRydbergゲート群を開発した。 十分に短い暗黒時間での原子-レーザー比較において、最大4キュービットのGHZ状態を用いて標準量子限界以下の周波数不安定性を示す。 GHZ状態による最適クロック精度向上の鍵となる課題は、そのダイナミックレンジの削減である。 このハードルを克服するために、異なる大きさのGHZ状態のカスケードを同時に作成し、延長間隔で不明瞭な位相推定を行う。 これらの結果は、光原子時計精度のハイゼンベルク制限スケーリングに近づくための鍵となるビルディングブロックを示す。

Many-particle entanglement is a key resource for achieving the fundamental precision limits of a quantum sensor. Optical atomic clocks, the current state-of-the-art in frequency precision, are a rapidly emerging area of focus for entanglement-enhanced metrology. Augmenting tweezer-based clocks featuring microscopic control and detection with the high-fidelity entangling gates developed for atom-array information processing offers a promising route towards leveraging highly entangled quantum states for improved optical clocks. Here we develop and employ a family of multi-qubit Rydberg gates to generate 'Schr\"odinger cat' states of the Greenberger-Horne-Zeilinger (GHZ) type with up to 9 optical clock qubits in a programmable atom array. In an atom-laser comparison at sufficiently short dark times, we demonstrate a fractional frequency instability below the standard quantum limit using GHZ states of up to 4 qubits. A key challenge to improving the optimal achievable clock precision with GHZ states is their reduced dynamic range. Towards overcoming this hurdle, we simultaneously prepare a cascade of varying-size GHZ states to perform unambiguous phase estimation over an extended interval. These results demonstrate key building blocks for approaching Heisenberg-limited scaling of optical atomic clock precision.
翻訳日:2024-02-27 14:31:33 公開日:2024-02-26
# 状態トモグラフィにおける絡み合いとコピー複雑さの最適トレードオフ

An optimal tradeoff between entanglement and copy complexity for state tomography ( http://arxiv.org/abs/2402.16353v1 )

ライセンス: Link先を確認
Sitan Chen, Jerry Li, Allen Liu(参考訳) 現代の量子デバイスに対する実践的な制約が量子学習の複雑さにどのように影響するかを理解することに、大きな関心が寄せられている。 トモグラフィーの古典的な問題に対して、最近の研究は、未知の状態のコピーを一度に1つだけ測定できるプロトコルのコピー複雑さを強く特徴付け、完全に絡み合った測定を行うことができる場合よりも多項式的に悪いことを示す。 短期的かつフォールトトレラントな体制では,このようなタスクの比率が十分に把握されていますが,その間の状況はいまだによく分かっていません。 本研究では,1回に$t$のコピーを計測できる自然環境下でのトモグラフィーについて検討する。 十分小さな$\epsilon$に対して、任意の$t \le d^2$, $\widetilde{\Theta}(\frac{d^3}{\sqrt{t}\epsilon^2})$コピーは、未知の$d$次元状態$\rho$から距離$\epsilon$を学習するのに必要で十分であることを示す。 これにより、既知のシングルコピーと完全絡み合った測定値の間の滑らかで最適な補間が得られる。 我々の知る限り、これは任意の量子学習タスクで知られている初めてのスムーズなエンタングルメント・コピートレードオフであり、トモグラフィーではこの曲線の中間点が知られていなかった。 重要な障害は、最適な単一コピープロトコルとは異なり、最適な完全絡み合ったプロトコルは本質的にバイアスを受けており、単純なバッチ処理アプローチを妨げていることである。 代わりに、キールのアルゴリズムを用いて、単一コピー測定に基づいて$$\rho$の粗見積を精算する新しい2段階の手順を考案する。 主要な洞察は、シュル=ワイルサンプリングを用いて$\rho$のスペクトルを推定するのではなく、最大混合状態から$\rho$の偏差を推定することである。 $\rho$ が最大混合状態から遠く離れている場合、$\rho$ が最大混合状態に近い場合まで減少する新しい量子分割手順を考案する。

There has been significant interest in understanding how practical constraints on contemporary quantum devices impact the complexity of quantum learning. For the classic question of tomography, recent work tightly characterized the copy complexity for any protocol that can only measure one copy of the unknown state at a time, showing it is polynomially worse than if one can make fully-entangled measurements. While we now have a fairly complete picture of the rates for such tasks in the near-term and fault-tolerant regimes, it remains poorly understood what the landscape in between looks like. In this work, we study tomography in the natural setting where one can make measurements of $t$ copies at a time. For sufficiently small $\epsilon$, we show that for any $t \le d^2$, $\widetilde{\Theta}(\frac{d^3}{\sqrt{t}\epsilon^2})$ copies are necessary and sufficient to learn an unknown $d$-dimensional state $\rho$ to trace distance $\epsilon$. This gives a smooth and optimal interpolation between the known rates for single-copy and fully-entangled measurements. To our knowledge, this is the first smooth entanglement-copy tradeoff known for any quantum learning task, and for tomography, no intermediate point on this curve was known, even at $t = 2$. An important obstacle is that unlike the optimal single-copy protocol, the optimal fully-entangled protocol is inherently biased and thus precludes naive batching approaches. Instead, we devise a novel two-stage procedure that uses Keyl's algorithm to refine a crude estimate for $\rho$ based on single-copy measurements. A key insight is to use Schur-Weyl sampling not to estimate the spectrum of $\rho$, but to estimate the deviation of $\rho$ from the maximally mixed state. When $\rho$ is far from the maximally mixed state, we devise a novel quantum splitting procedure that reduces to the case where $\rho$ is close to maximally mixed.
翻訳日:2024-02-27 14:26:39 公開日:2024-02-26
# MathGenie: LLMの数学的推論を促進するための質問バック翻訳による合成データの生成

MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs ( http://arxiv.org/abs/2402.16352v1 )

ライセンス: Link先を確認
Zimu Lu, Aojun Zhou, Houxing Ren, Ke Wang, Weikang Shi, Junting Pan, Mingjie Zhan, Hongsheng Li(参考訳) 大規模言語モデル(LLM)は、数学的推論に大きな可能性を示した。 しかし、既存のオープンソースモデルとGPT-4のようなクローズドソースモデルの間には、この分野のパフォーマンスギャップが残っている。 本稿では,小規模問題解決データセット(シードデータとして記述)から多種多様な数学問題を生成する新しい手法であるMathGenieを紹介する。 シードデータの地味なソリューションを強化し、バックトランスレーションモデルをトレーニングして、拡張されたソリューションを新たな質問に翻訳します。 その後、新しい質問に対するコード統合ソリューションを生成する。 コード統合型ソリューションの正確性を確保するために,ソリューション検証に合理的な戦略を採用する。 7Bから70Bまで、様々な事前訓練されたモデルは、新しいキュレートされたデータに基づいてトレーニングされ、提案手法の有効性を検証し、MathGenieLMとして知られるモデルのファミリーとなる。 これらのモデルは、5つの代表的な数学的推論データセットで以前のオープンソースモデルより一貫して優れており、最先端のパフォーマンスを実現している。 特にMathGenieLM-InternLM2はGSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルの中で最高のスコアを確保している。

Large language models (LLMs) have exhibited great potential in mathematical reasoning. However, there remains a performance gap in this area between existing open-source models and closed-source models such as GPT-4. In this paper, we introduce MathGenie, a novel method for generating diverse and reliable math problems from a small-scale problem-solution dataset (denoted as seed data). We augment the ground-truth solutions of our seed data and train a back-translation model to translate the augmented solutions back into new questions. Subsequently, we generate code-integrated solutions for the new questions. To ensure the correctness of the code-integrated solutions, we employ rationale-based strategy for solution verification. Various pretrained models, ranging from 7B to 70B, are trained on the newly curated data to test the effectiveness of the proposed augmentation technique, resulting in a family of models known as MathGenieLM. These models consistently outperform previous open-source models across five representative mathematical reasoning datasets, achieving state-of-the-art performance. In particular, MathGenieLM-InternLM2 achieves an accuracy of 87.7% on GSM8K and 55.7% on MATH, securing the best overall score among open-source language models.
翻訳日:2024-02-27 14:25:56 公開日:2024-02-26
# impression-clip:フォントのコントラスト型インプレッション

Impression-CLIP: Contrastive Shape-Impression Embedding for Fonts ( http://arxiv.org/abs/2402.16350v1 )

ライセンス: Link先を確認
Yugo Kubota, Daichi Haraguchi, Seiichi Uchida(参考訳) フォントは異なる印象を読者に伝える。 これらの印象はしばしばフォントの形に由来する。 しかし、印象が主観的であるため、フォントと印象の相関は弱く不安定である。 このようなフォント形状と印象との弱い、不安定なクロスモーダル相関を捉えるために、クリップに基づく新しい機械学習モデルであるインプレッション・クリップを提案する。 CLIPベースのモデルを使用することで、フォント画像特徴とその印象特徴がより深く引き出され、フォント画像特徴と無関係な印象特徴が分離される。 この手順はフォント画像とその印象の共埋め込みを実現する。 実験では,共埋め込みによるフォントとインプレッションのクロスモーダル検索を行う。 その結果,Impression-CLIPは最先端手法よりも精度が高いことがわかった。 さらに、我々のモデルはノイズやタグの欠如に対する堅牢性を示している。

Fonts convey different impressions to readers. These impressions often come from the font shapes. However, the correlation between fonts and their impression is weak and unstable because impressions are subjective. To capture such weak and unstable cross-modal correlation between font shapes and their impressions, we propose Impression-CLIP, which is a novel machine-learning model based on CLIP (Contrastive Language-Image Pre-training). By using the CLIP-based model, font image features and their impression features are pulled closer, and font image features and unrelated impression features are pushed apart. This procedure realizes co-embedding between font image and their impressions. In our experiment, we perform cross-modal retrieval between fonts and impressions through co-embedding. The results indicate that Impression-CLIP achieves better retrieval accuracy than the state-of-the-art method. Additionally, our model shows the robustness to noise and missing tags.
翻訳日:2024-02-27 14:25:36 公開日:2024-02-26
# C-GAIL:制御理論による生成的対向模倣学習の安定化

C-GAIL: Stabilizing Generative Adversarial Imitation Learning with Control Theory ( http://arxiv.org/abs/2402.16349v1 )

ライセンス: Link先を確認
Tianjiao Luo, Tim Pearce, Huayu Chen, Jianfei Chen, Jun Zhu(参考訳) GAIL(Generative Adversarial Imitation Learning)は、デモを模倣する生成ポリシーを訓練する。 オンライン強化学習(RL)を用いて、GANのような識別器から得られる報酬信号を最適化する。 gailの大きな欠点はトレーニング不安定であり、ganの複雑なトレーニングダイナミクスとrlによって導入された分散シフトを継承している。 これはトレーニング中に振動を引き起こし、サンプル効率と最終的なポリシー性能を損なう可能性がある。 近年の研究では、制御理論がガンの訓練の収束に役立つことが示されている。 本稿では,gailの制御理論解析を行い,gailを所望の平衡まで押し上げるだけでなく,"ワンステップ"の設定で漸近安定性を実現する新しい制御器を導出する。 そこで本研究では,C-GAIL(Controlled-GAIL)を提案する。 MuJoCoタスクでは、制御された変数が収束速度を高速化し、振動範囲を小さくし、バニラGAILとGAIL-DACの両方に対して専門家の分布をより密に一致させることができる。

Generative Adversarial Imitation Learning (GAIL) trains a generative policy to mimic a demonstrator. It uses on-policy Reinforcement Learning (RL) to optimize a reward signal derived from a GAN-like discriminator. A major drawback of GAIL is its training instability - it inherits the complex training dynamics of GANs, and the distribution shift introduced by RL. This can cause oscillations during training, harming its sample efficiency and final policy performance. Recent work has shown that control theory can help with the convergence of a GAN's training. This paper extends this line of work, conducting a control-theoretic analysis of GAIL and deriving a novel controller that not only pushes GAIL to the desired equilibrium but also achieves asymptotic stability in a 'one-step' setting. Based on this, we propose a practical algorithm 'Controlled-GAIL' (C-GAIL). On MuJoCo tasks, our controlled variant is able to speed up the rate of convergence, reduce the range of oscillation and match the expert's distribution more closely both for vanilla GAIL and GAIL-DAC.
翻訳日:2024-02-27 14:25:25 公開日:2024-02-26
# CodeS: テキストからSQLへのオープンソース言語モデルの構築を目指す

CodeS: Towards Building Open-source Language Models for Text-to-SQL ( http://arxiv.org/abs/2402.16347v1 )

ライセンス: Link先を確認
Haoyang Li, Jing Zhang, Hanbing Liu, Ju Fan, Xiaokang Zhang, Jun Zhu, Renjie Wei, Hongyan Pan, Cuiping Li, Hong Chen(参考訳) 言語モデルは、自然言語質問をsqlクエリ(text-to-sql)に変換するタスクで有望なパフォーマンスを示している。 しかし、最先端(SOTA)アプローチのほとんどは、ChatGPTやGPT-4のような強力なクローズドソースの大規模言語モデル(LLM)に依存しており、不明瞭なモデルアーキテクチャ、データプライバシのリスク、高価な推論オーバーヘッドの制限がある可能性がある。 この制限に対処するため、CodeSは1Bから15Bまでのパラメータを持つ事前訓練された言語モデルであり、特にテキストからSQLタスク用に設計されている。 CodeSは完全なオープンソース言語モデルであり、パラメータサイズがはるかに小さく、精度が優れている。 本稿では,CodeS構築における研究課題について考察する。 CodeSのSQL生成能力を高めるために、特別にキュレートされたSQL中心のコーパスを使用して、インクリメンタルな事前学習アプローチを採用する。 これに基づいて、戦略的プロンプト構築と双方向データ拡張技術によるスキーマリンクと迅速なドメイン適応の課題に対処する。 我々は、広く使われているSpiderベンチマーク、新しくリリースされたBIRDベンチマーク、Spider-DK、Spider-Syn、Spider-Realistic、Dr.Spiderといったロバストネス非依存ベンチマーク、および金融および学術アプリケーション用に作成された2つの現実世界データセットを含む、複数のデータセットに関する包括的な評価を行う。 実験の結果,ほぼすべてのテキスト・sqlベンチマークにおいて,新たなsota精度とロバスト性が得られた。

Language models have shown promising performance on the task of translating natural language questions into SQL queries (Text-to-SQL). However, most of the state-of-the-art (SOTA) approaches rely on powerful yet closed-source large language models (LLMs), such as ChatGPT and GPT-4, which may have the limitations of unclear model architectures, data privacy risks, and expensive inference overheads. To address the limitations, we introduce CodeS, a series of pre-trained language models with parameters ranging from 1B to 15B, specifically designed for the text-to-SQL task. CodeS is a fully open-source language model, which achieves superior accuracy with much smaller parameter sizes. This paper studies the research challenges in building CodeS. To enhance the SQL generation abilities of CodeS, we adopt an incremental pre-training approach using a specifically curated SQL-centric corpus. Based on this, we address the challenges of schema linking and rapid domain adaptation through strategic prompt construction and a bi-directional data augmentation technique. We conduct comprehensive evaluations on multiple datasets, including the widely used Spider benchmark, the newly released BIRD benchmark, robustness-diagnostic benchmarks such as Spider-DK, Spider-Syn, Spider-Realistic, and Dr.Spider, as well as two real-world datasets created for financial and academic applications. The experimental results show that our CodeS achieves new SOTA accuracy and robustness on nearly all challenging text-to-SQL benchmarks.
翻訳日:2024-02-27 14:25:03 公開日:2024-02-26
# 永続的ホモロジーによるグラフポーリングの強化

Boosting Graph Pooling with Persistent Homology ( http://arxiv.org/abs/2402.16346v1 )

ライセンス: Link先を確認
Chaolong Ying, Xinjian Zhao, Tianshu Yu(参考訳) 近年,グラフニューラルネットワーク(GNN)に永続的ホモロジー(PH)を統合することで,表現力の強化が進んでいる。 しかし、GNN層にPH機能を鼻で接続すると、解釈可能性の低い限界改善が得られる。 本稿では,phの濾過操作が自然にグラフプーリングに整列する観察により,phを用いて大域的な位相不変性をプール層に注入する新しいメカニズムについて検討する。 この方法では、粗いグラフ内のメッセージパッシングが永続的なプールトポロジに沿って動作し、パフォーマンスが向上する。 実験では,この機構をグラフプーリング手法のコレクションに適用し,いくつかの一般的なデータセットに対する一貫性と実質的なパフォーマンス向上を観測し,その適用性と柔軟性を実証した。

Recently, there has been an emerging trend to integrate persistent homology (PH) into graph neural networks (GNNs) to enrich expressive power. However, naively plugging PH features into GNN layers always results in marginal improvement with low interpretability. In this paper, we investigate a novel mechanism for injecting global topological invariance into pooling layers using PH, motivated by the observation that filtration operation in PH naturally aligns graph pooling in a cut-off manner. In this fashion, message passing in the coarsened graph acts along persistent pooled topology, leading to improved performance. Experimentally, we apply our mechanism to a collection of graph pooling methods and observe consistent and substantial performance gain over several popular datasets, demonstrating its wide applicability and flexibility.
翻訳日:2024-02-27 14:24:33 公開日:2024-02-26
# バイレベルマルコフ決定プロセスを用いた宇宙ミッションの緊急計画

Contingency Planning Using Bi-level Markov Decision Processes for Space Missions ( http://arxiv.org/abs/2402.16342v1 )

ライセンス: Link先を確認
Somrita Banerjee and Edward Balaban and Mark Shirley and Kevin Bradner and Marco Pavone(参考訳) この研究は、名目上のミッション計画からの遅延や逸脱が発生した場合に、国家空間の任意の非公理点からの迅速な政策計算を可能にすることによって、科学ミッションのための自律的緊急計画に焦点を当てる。 コンティンジェンシー計画の成功には、確率的シナリオにおいて、しばしば行動と確率的に関連づけられるリスクと報酬の管理が伴う。 マルコフ決定プロセス(MDP)は、そのようなシナリオにおける意思決定を数学的にモデル化するために用いられる。 しかし、惑星ローバーの横断計画の特定の場合、広大な活動空間と長い計画時間地平線は計算上の問題を引き起こす。 計算トラクタビリティの向上に加えて、既存のミッション計画プラクティスと整合し、AI駆動型ソリューションの説明可能性と信頼性を高めるため、双方向のMDPフレームワークが提案されている。 ミッションプランニング MDP を二段階 MDP に転換することについて議論し、ローバーミッションプランニングのための改良された GridWorld 環境である RoverGridWorld 上でフレームワークをテストする。 両レベルのMDPアプローチで実現可能な計算トラクタビリティと準最適ポリシを実証し,問題の複雑性が増大するにつれて,計算時間と政策最適性のトレードオフを明らかにする。 この研究は、科学的ミッションの文脈におけるより効率的で柔軟な緊急計画を促進する。

This work focuses on autonomous contingency planning for scientific missions by enabling rapid policy computation from any off-nominal point in the state space in the event of a delay or deviation from the nominal mission plan. Successful contingency planning involves managing risks and rewards, often probabilistically associated with actions, in stochastic scenarios. Markov Decision Processes (MDPs) are used to mathematically model decision-making in such scenarios. However, in the specific case of planetary rover traverse planning, the vast action space and long planning time horizon pose computational challenges. A bi-level MDP framework is proposed to improve computational tractability, while also aligning with existing mission planning practices and enhancing explainability and trustworthiness of AI-driven solutions. We discuss the conversion of a mission planning MDP into a bi-level MDP, and test the framework on RoverGridWorld, a modified GridWorld environment for rover mission planning. We demonstrate the computational tractability and near-optimal policies achievable with the bi-level MDP approach, highlighting the trade-offs between compute time and policy optimality as the problem's complexity grows. This work facilitates more efficient and flexible contingency planning in the context of scientific missions.
翻訳日:2024-02-27 14:24:17 公開日:2024-02-26
# 量子コンピュータにおけるサンプリング問題

Sampling Problems on a Quantum Computer ( http://arxiv.org/abs/2402.16341v1 )

ライセンス: Link先を確認
Maximilian Balthasar Mansky, Jonas N\"u{\ss}lein, David Bucher, Dani\"elle Schuman, Sebastian Zielinski, Claudia Linnhoff-Popien(参考訳) 近年の量子ハードウェア製造の進歩により、様々な分野の課題に量子法を応用するための重要な研究が進められている。 このように、近年、多くの新しい量子法が開発されている。 本稿では,この領域における研究の出発点として,これらのサンプリング手法の必要な理論や応用とともに,量子サンプリング手法の調査を行う。 この研究は特にガウスボソンサンプリング、量子モンテカルロ法、量子変分モンテカルロ法、量子ボルツマンマシン、量子ベイズネットワークに焦点を当てている。 我々は、数学的背景、技術的実現可能性、他の問題への適用可能性について、自己完結した概要を提供し、今後の研究の潜在分野を指摘する。

Due to the advances in the manufacturing of quantum hardware in the recent years, significant research efforts have been directed towards employing quantum methods to solving problems in various areas of interest. Thus a plethora of novel quantum methods have been developed in recent years. In this paper, we provide a survey of quantum sampling methods alongside needed theory and applications of those sampling methods as a starting point for research in this area. This work focuses in particular on Gaussian Boson sampling, quantum Monte Carlo methods, quantum variational Monte Carlo, quantum Boltzmann Machines and quantum Bayesian networks. We strive to provide a self-contained overview over the mathematical background, technical feasibility, applicability for other problems and point out potential areas of future research.
翻訳日:2024-02-27 14:23:55 公開日:2024-02-26
# BLO-SAM: SAMのオーバーフィッティングによる最適化

BLO-SAM: Bi-level Optimization Based Overfitting-Preventing Finetuning of SAM ( http://arxiv.org/abs/2402.16338v1 )

ライセンス: Link先を確認
Li Zhang, Youwei Liang, Pengtao Xie(参考訳) 数百万の画像とセグメンテーションマスクに事前訓練された基礎モデルであるSegment Anything Model (SAM)は、コンピュータビジョンの基本的なタスクであるセグメンテーションを著しく進歩させた。 その強みにもかかわらず、SAMは2つの大きな課題に直面している。 まず、特定のオブジェクトを自律的にセグメント化するのに苦労する。それは、ユーザーが手動でポイントやバウンディングボックスなどのプロンプトを入力して対象オブジェクトを識別するからだ。 第二に、samは、一般的にドメインイメージで構成されるプリトレーニングデータの分布と、ダウンストリームタスクで使用されるデータとの差があるため、医療画像などの特定の下流タスクに優れているという課題に直面している。 SAMを微調整するこれらの問題に対する現在の解決策は、しばしば過度に適合し、医療画像のような非常に限られたデータを持つシナリオにおいて顕著な問題となる。 これらの制限を克服するため,二段階最適化(BLO)に基づいてSAMを微調整するBLO-SAMを導入する。 提案手法では,手動のプロンプトを必要とせず,学習可能なプロンプト埋め込みを最適化することにより,自動画像セグメンテーションを可能にする。 さらに、モデルの重みパラメータをトレーニングし、トレーニングデータセットの2つの別々のサブセットにプロンプトを埋め込むことで、オーバーフィッティングのリスクを大幅に低減する。 BLO-SAMを一般分野および医療分野における多様なセマンティックセグメンテーションタスクに適用する。 その結果、BLO-SAMは様々な最先端画像セマンティックセグメンテーション法よりも優れた性能を示した。

The Segment Anything Model (SAM), a foundation model pretrained on millions of images and segmentation masks, has significantly advanced semantic segmentation, a fundamental task in computer vision. Despite its strengths, SAM encounters two major challenges. Firstly, it struggles with segmenting specific objects autonomously, as it relies on users to manually input prompts like points or bounding boxes to identify targeted objects. Secondly, SAM faces challenges in excelling at specific downstream tasks, like medical imaging, due to a disparity between the distribution of its pretraining data, which predominantly consists of general-domain images, and the data used in downstream tasks. Current solutions to these problems, which involve finetuning SAM, often lead to overfitting, a notable issue in scenarios with very limited data, like in medical imaging. To overcome these limitations, we introduce BLO-SAM, which finetunes SAM based on bi-level optimization (BLO). Our approach allows for automatic image segmentation without the need for manual prompts, by optimizing a learnable prompt embedding. Furthermore, it significantly reduces the risk of overfitting by training the model's weight parameters and the prompt embedding on two separate subsets of the training dataset, each at a different level of optimization. We apply BLO-SAM to diverse semantic segmentation tasks in general and medical domains. The results demonstrate BLO-SAM's superior performance over various state-of-the-art image semantic segmentation methods.
翻訳日:2024-02-27 14:23:44 公開日:2024-02-26
# 真理とファシリテート変化の展開:エージェントによる大規模社会運動シミュレーションを目指して

Unveiling the Truth and Facilitating Change: Towards Agent-based Large-scale Social Movement Simulation ( http://arxiv.org/abs/2402.16333v1 )

ライセンス: Link先を確認
Xinyi Mou, Zhongyu Wei, Xuanjing Huang(参考訳) ソーシャルメディアは社会運動の基盤として現れ、社会変革の推進に大きな影響を与えている。 大衆の反応をシミュレートし、潜在的な影響を予測することがますます重要になっている。 しかし,このような現象をシミュレートする既存の手法は,社会運動参加者の行動を把握する上での有効性と効率性に関する課題に直面している。 本稿では,ソーシャルメディアユーザシミュレーションのためのハイブリッドフレームワークを紹介し,ユーザを2つのタイプに分類する。 コアユーザはLarge Language Modelsによって駆動されるが、多くの一般ユーザはdeductive agent-based modelによってモデル化される。 さらに,トリガーイベントに追従した応答ダイナミクスを再現するtwitterライクな環境を構築した。 次に,実世界のデータセットを対象とした総合的な実験を行うための多面ベンチマーク somosimu-bench を開発した。 実験の結果,本手法の有効性と柔軟性が示された。

Social media has emerged as a cornerstone of social movements, wielding significant influence in driving societal change. Simulating the response of the public and forecasting the potential impact has become increasingly important. However, existing methods for simulating such phenomena encounter challenges concerning their efficacy and efficiency in capturing the behaviors of social movement participants. In this paper, we introduce a hybrid framework for social media user simulation, wherein users are categorized into two types. Core users are driven by Large Language Models, while numerous ordinary users are modeled by deductive agent-based models. We further construct a Twitter-like environment to replicate their response dynamics following trigger events. Subsequently, we develop a multi-faceted benchmark SoMoSiMu-Bench for evaluation and conduct comprehensive experiments across real-world datasets. Experimental results demonstrate the effectiveness and flexibility of our method.
翻訳日:2024-02-27 14:23:14 公開日:2024-02-26
# 対称性に制限された量子回路はまだうまく機能している

Symmetry-restricted quantum circuits are still well-behaved ( http://arxiv.org/abs/2402.16329v1 )

ライセンス: Link先を確認
Maximilian Balthasar Mansky, Santiago Londo\~no Castillo, Miguel Armayor-Mart\'inez, Alejandro Bravo de la Serna, Gautham Sathish, Zhihao Wang, Sebastian W\"olckerlt, Claudia Linnhoff-Popien(参考訳) 対称性で制限された量子回路は、特殊ユニタリ群 $SU(2^n)$, 特に代数的および位相的閉性および連結性の性質を継承することを示した。 これは対称状態に関する先行研究を作用素に拡張し、作用素空間が状態空間と同じ構造に従うことを示す。 well-behavedness は部分群に課される対称性の要求とは独立である。 すべてのキュービットにまたがる置換不変性の例を示す。

We show that quantum circuits restricted by a symmetry inherit the properties of the whole special unitary group $SU(2^n)$, in particular composition, algebraic and topological closedness and connectedness. It extends prior work on symmetric states to the operators and shows that the operator space follows the same structure as the state space. The well-behavedness is independent of the symmetry requirement imposed on the subgroup. We provide an example of a permutation invariance across all qubits.
翻訳日:2024-02-27 14:23:00 公開日:2024-02-26
# ロジスティック回帰のための高精度ランダムサンプリングアルゴリズム

A Provably Accurate Randomized Sampling Algorithm for Logistic Regression ( http://arxiv.org/abs/2402.16326v1 )

ライセンス: Link先を確認
Agniva Chowdhury, Pradeep Ramuhalli(参考訳) 統計学と機械学習において、ロジスティック回帰(英: logistic regression)は、主に二項分類タスクに使用される広く使われている教師付き学習技術である。 観測数が予測変数数を大幅に超える場合,予測確率とモデル全体の不一致の両方に対して高品質な近似を保証するロジスティック回帰問題に対する,単純でランダムなサンプリングに基づくアルゴリズムを提案する。 我々の解析は、ランダム化された数値線型代数の基本的およびよく理解された原始的行列乗法に沸騰する2つの単純な構造条件に基づいている。 レバレッジスコアがサンプル観測に使用される場合、ロジスティック回帰の推定確率の特性を解析し、観測総数よりはるかに小さいサンプルで正確な近似を実現できることを証明した。 理論的知見をさらに検証するため,包括的経験的評価を行った。 全体として,ロジスティック回帰における推定確率を効率的に近似するためにランダムサンプリング手法を用いる可能性に着目し,大規模データセットに対して実用的かつ計算効率の良い解を提供する。

In statistics and machine learning, logistic regression is a widely-used supervised learning technique primarily employed for binary classification tasks. When the number of observations greatly exceeds the number of predictor variables, we present a simple, randomized sampling-based algorithm for logistic regression problem that guarantees high-quality approximations to both the estimated probabilities and the overall discrepancy of the model. Our analysis builds upon two simple structural conditions that boil down to randomized matrix multiplication, a fundamental and well-understood primitive of randomized numerical linear algebra. We analyze the properties of estimated probabilities of logistic regression when leverage scores are used to sample observations, and prove that accurate approximations can be achieved with a sample whose size is much smaller than the total number of observations. To further validate our theoretical findings, we conduct comprehensive empirical evaluations. Overall, our work sheds light on the potential of using randomized sampling approaches to efficiently approximate the estimated probabilities in logistic regression, offering a practical and computationally efficient solution for large-scale datasets.
翻訳日:2024-02-27 14:22:52 公開日:2024-02-26
# 制約マルコフ決定過程における$\tilde{O}(1/\epsilon)$サンプル複素性

Achieving $\tilde{O}(1/\epsilon)$ Sample Complexity for Constrained Markov Decision Process ( http://arxiv.org/abs/2402.16324v1 )

ライセンス: Link先を確認
Jiashuo Jiang and Yinyu Ye(参考訳) 逐次学習や意思決定において安全性や資源制約を満たす上で中心的な役割を果たす制約付きマルコフ決定プロセス(cmdp)に対する強化学習問題を考える。 この問題では、有限資源と未知の遷移確率を持つMDPが与えられる。 それぞれの段階で、私たちは行動をとり、報酬を集め、いくつかのリソースを消費します。 本研究は,CMDP問題に対する最適問題依存保証の導出に向けた第一歩である。 o(\frac{\kappa}{\epsilon}\cdot\log^2(1/\epsilon))$ サンプル複雑性境界に変換され、$\kappa$ は問題依存パラメータであるが$\epsilon$とは独立である。 我々のサンプル複雑性境界は、以前の文献で確立されたCMDP問題に対して、$O(1/\epsilon^2)$サンプル複雑性を$\epsilon$への依存性の観点から改善する。 そこで我々は,CMDP問題を解析するための新しいフレームワークを開発した。 具体的には,本アルゴリズムはプライマリ空間で動作し,各期間におけるCMDP問題に対するプライマリLPを,<textit{adaptive} の残量でオンライン的に解決する。 我々のアルゴリズムの重要な要素は次のとおりである。 私)。 一次lpの1つの最適な基底を特徴づける除去手順,及び 二 残余の資源に適応し、特徴的最適基準に固執する解決手続

We consider the reinforcement learning problem for the constrained Markov decision process (CMDP), which plays a central role in satisfying safety or resource constraints in sequential learning and decision-making. In this problem, we are given finite resources and a MDP with unknown transition probabilities. At each stage, we take an action, collecting a reward and consuming some resources, all assumed to be unknown and need to be learned over time. In this work, we take the first step towards deriving optimal problem-dependent guarantees for the CMDP problems. We derive a logarithmic regret bound, which translates into a $O(\frac{\kappa}{\epsilon}\cdot\log^2(1/\epsilon))$ sample complexity bound, with $\kappa$ being a problem-dependent parameter, yet independent of $\epsilon$. Our sample complexity bound improves upon the state-of-art $O(1/\epsilon^2)$ sample complexity for CMDP problems established in the previous literature, in terms of the dependency on $\epsilon$. To achieve this advance, we develop a new framework for analyzing CMDP problems. To be specific, our algorithm operates in the primal space and we resolve the primal LP for the CMDP problem at each period in an online manner, with \textit{adaptive} remaining resource capacities. The key elements of our algorithm are: i). an eliminating procedure that characterizes one optimal basis of the primal LP, and; ii) a resolving procedure that is adaptive to the remaining resources and sticks to the characterized optimal basis.
翻訳日:2024-02-27 14:22:34 公開日:2024-02-26
# クリーン音声のみを用いた自己監督音声品質評価と改善

Self-Supervised Speech Quality Estimation and Enhancement Using Only Clean Speech ( http://arxiv.org/abs/2402.16321v1 )

ライセンス: Link先を確認
Szu-Wei Fu, Kuo-Hsuan Hung, Yu Tsao, Yu-Chiang Frank Wang(参考訳) 音声品質推定は、最近、人間聴きのエキスパートデザインから機械学習モデルへのパラダイムシフトを経験している。 しかし、現在のモデルは主に教師あり学習に依存しており、ラベル収集には時間と費用がかかる。 この問題を解決するために,ベクトル量子化変分オートエンコーダ(VQ-VAE)の量子化誤差に基づく音声評価のための自己教師付きメトリックであるVQScoreを提案する。 VQ-VAEのトレーニングはクリーン音声に依存するため、音声が歪んだときに大きな量子化誤差が期待できる。 実際の品質スコアとの相関性をさらに向上するため、モデル設計に音声処理のドメイン知識が組み込まれている。 ベクトル量子化機構は、自己教師付き音声強調(SE)モデルトレーニングにも利用できることがわかった。 SE用エンコーダの堅牢性を向上させるために, 対向訓練と組み合わせた新しい自己蒸留機構を導入する。 要約すると,提案する音声品質推定法と拡張モデルは,ラベルの必要のない学習のために,クリーンな音声のみを必要とする。 実験の結果,提案するvqscoreと拡張モデルは教師付きベースラインと競合することがわかった。 コードは公開後にリリースされる。

Speech quality estimation has recently undergone a paradigm shift from human-hearing expert designs to machine-learning models. However, current models rely mainly on supervised learning, which is time-consuming and expensive for label collection. To solve this problem, we propose VQScore, a self-supervised metric for evaluating speech based on the quantization error of a vector-quantized-variational autoencoder (VQ-VAE). The training of VQ-VAE relies on clean speech; hence, large quantization errors can be expected when the speech is distorted. To further improve correlation with real quality scores, domain knowledge of speech processing is incorporated into the model design. We found that the vector quantization mechanism could also be used for self-supervised speech enhancement (SE) model training. To improve the robustness of the encoder for SE, a novel self-distillation mechanism combined with adversarial training is introduced. In summary, the proposed speech quality estimation method and enhancement models require only clean speech for training without any label requirements. Experimental results show that the proposed VQScore and enhancement model are competitive with supervised baselines. The code will be released after publication.
翻訳日:2024-02-27 14:22:06 公開日:2024-02-26
# 大規模言語モデルに対するデータフリーウェイト圧縮とデノイズ

Data-freeWeight Compress and Denoise for Large Language Models ( http://arxiv.org/abs/2402.16319v1 )

ライセンス: Link先を確認
Runyu Peng, Yunhua Zhou, Qipeng Guo, Yang Gao, Hang Yan, Xipeng Qiu, Dahua Lin(参考訳) 大規模言語モデル(llm)は、特にモデルパラメータが大幅に拡大し、さまざまな領域で注目すべき機能を解き放ちながら、人工知能の研究環境を再構築している。 それでも、GPUメモリと計算速度の制限により、モデルパラメータのスケーラビリティは制約に直面している。 これらの制約に対処するため、プルーニングや量子化など、様々な重み圧縮法が登場した。 言語モデルにおける重み行列の低ランク性を考えると、行列分解による重みの減少は間違いなく有意なポテンシャルと約束をもたらす。 本稿では, LLMの本質的な構造をベースとして, パラメータ行列を圧縮するデータフリー結合ランクk近似法を提案する。 本手法は, コーパスの付加的関与を必要とせず, プルーニング法と量子化法を併用して直交性を同時に保ちながら特徴付けられる。 キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。 さらに, llms の重み行列の基本特性を rank-k 近似で検討し, 仮説を解明するための包括的実験を行った。

Large Language Models (LLMs) are reshaping the research landscape in artificial intelligence, particularly as model parameters scale up significantly, unlocking remarkable capabilities across various domains. Nevertheless, the scalability of model parameters faces constraints due to limitations in GPU memory and computational speed. To address these constraints, various weight compression methods have emerged, such as Pruning and Quantization. Given the low-rank nature of weight matrices in language models, the reduction of weights through matrix decomposition undoubtedly holds significant potential and promise. In this paper, drawing upon the intrinsic structure of LLMs, we propose a novel approach termed Data-free Joint Rank-k Approximation for compressing the parameter matrices. Significantly, our method is characterized by without necessitating additional involvement of any corpus, while simultaneously preserving orthogonality in conjunction with pruning and quantization methods. We achieve a model pruning of 80% parameters while retaining 93.43% of the original performance without any calibration data. Additionally, we explore the fundamental properties of the weight matrix of LLMs undergone Rank-k Approximation and conduct comprehensive experiments to elucidate our hypothesis.
翻訳日:2024-02-27 14:21:45 公開日:2024-02-26
# 高品質テキスト音声データセット生成のためのエンドツーエンドオープンソースソフトウェア

An Automated End-to-End Open-Source Software for High-Quality Text-to-Speech Dataset Generation ( http://arxiv.org/abs/2402.16380v1 )

ライセンス: Link先を確認
Ahmet Gunduz, Kamer Ali Yuksel, Kareem Darwish, Golara Javadi, Fabio Minazzi, Nicola Sobieski and Sebastien Bratieres(参考訳) データ可用性は、音声ベースの技術を含む人工知能アプリケーションの発展に不可欠である。 コンテンツ制作、特にソーシャルメディアでは、需要の増加、翻訳、テキスト音声(TTS)技術が重要なツールとなっている。 特に、これらのTS技術の性能はトレーニングデータの質に大きく依存しており、データの可用性と技術進歩の相互依存を強調している。 本稿では,テキスト音声(TTS)モデルの高品質なデータセットを生成するためのエンドツーエンドツールを提案する。 この研究の貢献は、言語固有の音素分布をサンプル選択に統合すること、記録プロセスの自動化、記録の自動化とループ内品質保証、特定のフォーマットを満たすための記録の処理である。 提案するアプリケーションは,ttsモデルのデータセット生成プロセスの合理化を目的とし,音声ベースの技術の進歩を促進する。

Data availability is crucial for advancing artificial intelligence applications, including voice-based technologies. As content creation, particularly in social media, experiences increasing demand, translation and text-to-speech (TTS) technologies have become essential tools. Notably, the performance of these TTS technologies is highly dependent on the quality of the training data, emphasizing the mutual dependence of data availability and technological progress. This paper introduces an end-to-end tool to generate high-quality datasets for text-to-speech (TTS) models to address this critical need for high-quality data. The contributions of this work are manifold and include: the integration of language-specific phoneme distribution into sample selection, automation of the recording process, automated and human-in-the-loop quality assurance of recordings, and processing of recordings to meet specified formats. The proposed application aims to streamline the dataset creation process for TTS models through these features, thereby facilitating advancements in voice-based technologies.
翻訳日:2024-02-27 14:17:52 公開日:2024-02-26
# 系統的自己補正によるLLM機械翻訳の改良

Improving LLM-based Machine Translation with Systematic Self-Correction ( http://arxiv.org/abs/2402.16379v1 )

ライセンス: Link先を確認
Zhaopeng Feng, Yan Zhang, Hao Li, Wenqiang Liu, Jun Lang, Yang Feng, Jian Wu, Zuozhu Liu(参考訳) 大規模言語モデル (LLM) は機械翻訳 (MT) において驚くべき結果を得た。 しかし、人間による慎重な評価は、LLMが生成した翻訳には、まだ複数の誤りが含まれていることを明らかにしている。 重要なことは、そのようなエラー情報をLSMにフィードバックすることで、自己補正が生じ、翻訳性能が向上する可能性がある。 これらの知見に触発されて, 翻訳, 見積, Refine の略語である TER という, LLM に基づく自己訂正翻訳フレームワークを導入し, この方向への大きな一歩を踏み出した。 私たちの発見は 1)当社の自己修正フレームワークは,高リソース言語から低リソース言語まで,あるいは英語中心か,あるいは他言語中心かに関わらず,幅広い言語を対象とした翻訳品質の向上において,llmをうまく支援しています。 2) TERは,従来の方法と比較して,系統性及び解釈性に優れる。 3) 異なる推定戦略は、aiフィードバックに様々な影響をもたらし、最終補正の有効性に直接影響する。 さらに,LLMの翻訳能力と評価能力との関係について検討し,自己補正とクロスモデル補正を含む様々な実験を行った。

Large Language Models (LLMs) have achieved impressive results in Machine Translation (MT). However, careful evaluations by human reveal that the translations produced by LLMs still contain multiple errors. Importantly, feeding back such error information into the LLMs can lead to self-correction and result in improved translation performance. Motivated by these insights, we introduce a systematic LLM-based self-correcting translation framework, named TER, which stands for Translate, Estimate, and Refine, marking a significant step forward in this direction. Our findings demonstrate that 1) our self-correction framework successfully assists LLMs in improving their translation quality across a wide range of languages, whether it's from high-resource languages to low-resource ones or whether it's English-centric or centered around other languages; 2) TER exhibits superior systematicity and interpretability compared to previous methods; 3) different estimation strategies yield varied impacts on AI feedback, directly affecting the effectiveness of the final corrections. We further compare different LLMs and conduct various experiments involving self-correction and cross-model correction to investigate the potential relationship between the translation and evaluation capabilities of LLMs.
翻訳日:2024-02-27 14:17:35 公開日:2024-02-26
# 分散シフト下のグラフ学習:ドメイン適応、アウト・オブ・ディストリビューション、継続的な学習に関する包括的調査

Graph Learning under Distribution Shifts: A Comprehensive Survey on Domain Adaptation, Out-of-distribution, and Continual Learning ( http://arxiv.org/abs/2402.16374v1 )

ライセンス: Link先を確認
Man Wu, Xin Zheng, Qin Zhang, Xiao Shen, Xiong Luo, Xingquan Zhu, Shirui Pan(参考訳) グラフ学習は重要な役割を担っており、ソーシャルネットワーク分析からレコメンデーションシステムまで、グラフ構造データで表現される複雑なデータ関係のモデリングに効果があることから、さまざまなアプリケーションシナリオにおいて大きな注目を集めています。 実際、実世界のグラフデータは通常、ノード属性やエッジ構造を変更することで、時間とともにダイナミクスを示し、深刻なグラフデータの分散シフト問題に繋がる。 この問題は分散シフトの多様かつ複雑な性質によって複雑化され、グラフ学習法の性能が劣化した一般化と適応能力に大きく影響し、その効果に重大な課題が生じる。 本調査では,グラフ学習の文脈における分布変化に対処する最新のアプローチ,戦略,洞察の総合的なレビューと概要について述べる。 具体的には, 推定段階における分布の可観測性, 訓練段階における十分な監督情報の提供状況に応じて, 既存のグラフ学習方法を, グラフ領域適応学習, 分散学習, グラフ連続学習など, いくつかの重要なシナリオに分類する。 各シナリオに対して、分散シフトグラフ学習における既存の進歩に関する具体的な記述と議論を含む詳細な分類法を提案する。 さらに, 分散シフト下でのグラフ学習の可能性と今後の展開について, この分野の現状を体系的に分析して考察する。 本調査は, グラフ分布シフト処理における効率的なグラフ学習アルゴリズム開発のための一般的なガイダンスを提供するとともに, 今後の研究・発展の促進を目的としている。

Graph learning plays a pivotal role and has gained significant attention in various application scenarios, from social network analysis to recommendation systems, for its effectiveness in modeling complex data relations represented by graph structural data. In reality, the real-world graph data typically show dynamics over time, with changing node attributes and edge structure, leading to the severe graph data distribution shift issue. This issue is compounded by the diverse and complex nature of distribution shifts, which can significantly impact the performance of graph learning methods in degraded generalization and adaptation capabilities, posing a substantial challenge to their effectiveness. In this survey, we provide a comprehensive review and summary of the latest approaches, strategies, and insights that address distribution shifts within the context of graph learning. Concretely, according to the observability of distributions in the inference stage and the availability of sufficient supervision information in the training stage, we categorize existing graph learning methods into several essential scenarios, including graph domain adaptation learning, graph out-of-distribution learning, and graph continual learning. For each scenario, a detailed taxonomy is proposed, with specific descriptions and discussions of existing progress made in distribution-shifted graph learning. Additionally, we discuss the potential applications and future directions for graph learning under distribution shifts with a systematic analysis of the current state in this field. The survey is positioned to provide general guidance for the development of effective graph learning algorithms in handling graph distribution shifts, and to stimulate future research and advancements in this area.
翻訳日:2024-02-27 14:17:17 公開日:2024-02-26
# deyo: エンドツーエンドオブジェクト検出にyoloを併用したdetr

DEYO: DETR with YOLO for End-to-End Object Detection ( http://arxiv.org/abs/2402.16370v1 )

ライセンス: Link先を確認
Haodong Ouyang(参考訳) DETRのトレーニングパラダイムは、ImageNetデータセットでバックボーンの事前トレーニングに大きく関わっている。 しかし、画像分類タスクと1対1のマッチング戦略によって提供される限られた監視信号は、DETRに対して不十分に事前訓練されたネックとなる。 さらに、トレーニングの初期におけるマッチングの不安定さは、DETRの最適化目標における矛盾を生じさせる。 これらの課題に対処するため、我々はステップバイステップトレーニングと呼ばれる革新的なトレーニング方法論を考案した。 具体的には、トレーニングの第一段階では、エンドツーエンド検出器の背骨と首を初期化するために、1対1のマッチング戦略で事前訓練された古典的な検出器を用いる。 トレーニングの第2段階では、エンドツーエンド検出器のバックボーンとネックを凍らせ、デコーダのトレーニングをスクラッチから必要とします。 ステップバイステップトレーニングの適用により,純粋に畳み込み構造エンコーダであるdetrとyolo(deyo)を用いた,最初のリアルタイムエンドツーエンドオブジェクト検出モデルを導入した。 補助訓練データに頼らずに、DEYOは既存のリアルタイム物体検出装置をスピードと精度の両方で上回っている。 さらに、包括的なDEYOシリーズは、単一の8GB RTX 4060 GPUを使用してCOCOデータセットの第2フェーズのトレーニングを完了し、トレーニング費を大幅に削減することができる。 ソースコードと事前訓練されたモデルはhttps://github.com/ouyanghaodong/DEYO.comで入手できる。

The training paradigm of DETRs is heavily contingent upon pre-training their backbone on the ImageNet dataset. However, the limited supervisory signals provided by the image classification task and one-to-one matching strategy result in an inadequately pre-trained neck for DETRs. Additionally, the instability of matching in the early stages of training engenders inconsistencies in the optimization objectives of DETRs. To address these issues, we have devised an innovative training methodology termed step-by-step training. Specifically, in the first stage of training, we employ a classic detector, pre-trained with a one-to-many matching strategy, to initialize the backbone and neck of the end-to-end detector. In the second stage of training, we froze the backbone and neck of the end-to-end detector, necessitating the training of the decoder from scratch. Through the application of step-by-step training, we have introduced the first real-time end-to-end object detection model that utilizes a purely convolutional structure encoder, DETR with YOLO (DEYO). Without reliance on any supplementary training data, DEYO surpasses all existing real-time object detectors in both speed and accuracy. Moreover, the comprehensive DEYO series can complete its second-phase training on the COCO dataset using a single 8GB RTX 4060 GPU, significantly reducing the training expenditure. Source code and pre-trained models are available at https://github.com/ouyanghaodong/DEYO.
翻訳日:2024-02-27 14:16:50 公開日:2024-02-26
# ビジョンにおけるジェネレーティブAI:モデル、メトリクス、アプリケーションに関する調査

Generative AI in Vision: A Survey on Models, Metrics and Applications ( http://arxiv.org/abs/2402.16369v1 )

ライセンス: Link先を確認
Gaurav Raut and Apoorv Singh(参考訳) 生成AIモデルは、現実的で多様なデータサンプルの作成を可能にすることで、さまざまな分野に革命をもたらした。 これらのモデルの中で、拡散モデルは高品質な画像、テキスト、オーディオを生成するための強力なアプローチとして現れている。 本稿では,AI拡散モデルとレガシモデルについて概観し,その基礎となる技術,異なる領域にわたる応用,課題について概説する。 我々は拡散確率モデル(ddpm)やスコアベース生成モデルといった拡散モデルの理論的基礎を考察する。 さらに,テキスト・ツー・イメージ,イメージ・インペインティング,イメージ・スーパーレゾリューションなどにおけるこれらのモデルの多様な応用について検討し,創造的タスクやデータ拡張におけるそれらの可能性を示す。 この調査は、既存の研究を合成し、この分野における重要な進歩を強調することによって、生成的AI拡散とレガシーモデルに関する包括的理解を研究者や実践者に提供し、このエキサイティングな人工知能領域における未来のイノベーションを刺激することを目的としている。

Generative AI models have revolutionized various fields by enabling the creation of realistic and diverse data samples. Among these models, diffusion models have emerged as a powerful approach for generating high-quality images, text, and audio. This survey paper provides a comprehensive overview of generative AI diffusion and legacy models, focusing on their underlying techniques, applications across different domains, and their challenges. We delve into the theoretical foundations of diffusion models, including concepts such as denoising diffusion probabilistic models (DDPM) and score-based generative modeling. Furthermore, we explore the diverse applications of these models in text-to-image, image inpainting, and image super-resolution, along with others, showcasing their potential in creative tasks and data augmentation. By synthesizing existing research and highlighting critical advancements in this field, this survey aims to provide researchers and practitioners with a comprehensive understanding of generative AI diffusion and legacy models and inspire future innovations in this exciting area of artificial intelligence.
翻訳日:2024-02-27 14:16:25 公開日:2024-02-26
# SPINEPS -- マルチクラスセマンティック・インスタンスセマンティック・セマンティック・セマンティック・セマンティック・セマンティクスへの2相アプローチによるT2強調MR画像の自動全スピンセマンティクス

SPINEPS -- Automatic Whole Spine Segmentation of T2-weighted MR images using a Two-Phase Approach to Multi-class Semantic and Instance Segmentation ( http://arxiv.org/abs/2402.16368v1 )

ライセンス: Link先を確認
Hendrik M\"oller, Robert Graf, Joachim Schmitt, Benjamin Keinert, Matan Atad, Anjany Sekuboyina, Felix Streckenbach, Hanna Sch\"on, Florian Kofler, Thomas Kroencke, Stefanie Bette, Stefan Willich, Thomas Keil, Thoralf Niendorf, Tobias Pischon, Beate Endemann, Bjoern Menze, Daniel Rueckert, and Jan S. Kirschke(参考訳) 目的 SPINEPSは、T2w MRI全体における14の脊髄構造(椎体サブ構造、椎間板、脊髄、脊柱、仙骨)の意味とインスタンスのセグメンテーションのためのオープンソースのディープラーニングアプローチである。 メソッド。 このHIPPA準拠の振り返り調査では,SPIDERデータセット(被験者218名,女性63%)とドイツ国民コホート(被験者1423名,平均53名,女性49%)のサブセットをトレーニングと評価に利用した。 我々はCTとT2wセグメンテーションを組み合わせて、T2wサジタルスキャンにおいて14個の脊髄構造をセグメンテーションするモデルを訓練した。 性能評価指標は,Dice類似係数,平均対称表面距離,汎視的品質,セグメンテーション品質,認識品質であった。 統計学的意義はウィルコクソン署名ランクテストを用いて評価した。 社内データセットを用いて配布外サンプルを質的に評価した。 結果だ 公開データセットでは,本手法がベースライン(instance-wise vertebra dice score 0.929 vs. 0.907, p-value<0.001。 自動生成アノテーションのトレーニングとGNCによる手動修正試験データによる評価は、脊椎では0.900点、椎間板では0.960点、脊椎では0.947点であった。 トレーニング中にSPIDERデータセットを組み込んだ場合,これらのスコアはそれぞれ0.920,0.967,0.958となった。 結論だ 提案手法は, 脊髄, 脊柱管, 椎間板, エンドプレート, 仙骨, 椎骨など, t2w矢状画像中の14個の脊髄構造をロバストに分割する手法である。 このアプローチはセマンティックマスクとインスタンスマスクの両方を出力とし、簡単に利用できる。 これは、矢状T2w MR画像における全脊椎分割のための最初の公開アルゴリズムである。

Purpose. To present SPINEPS, an open-source deep learning approach for semantic and instance segmentation of 14 spinal structures (ten vertebra substructures, intervertebral discs, spinal cord, spinal canal, and sacrum) in whole body T2w MRI. Methods. During this HIPPA-compliant, retrospective study, we utilized the public SPIDER dataset (218 subjects, 63% female) and a subset of the German National Cohort (1423 subjects, mean age 53, 49% female) for training and evaluation. We combined CT and T2w segmentations to train models that segment 14 spinal structures in T2w sagittal scans both semantically and instance-wise. Performance evaluation metrics included Dice similarity coefficient, average symmetrical surface distance, panoptic quality, segmentation quality, and recognition quality. Statistical significance was assessed using the Wilcoxon signed-rank test. An in-house dataset was used to qualitatively evaluate out-of-distribution samples. Results. On the public dataset, our approach outperformed the baseline (instance-wise vertebra dice score 0.929 vs. 0.907, p-value<0.001). Training on auto-generated annotations and evaluating on manually corrected test data from the GNC yielded global dice scores of 0.900 for vertebrae, 0.960 for intervertebral discs, and 0.947 for the spinal canal. Incorporating the SPIDER dataset during training increased these scores to 0.920, 0.967, 0.958, respectively. Conclusions. The proposed segmentation approach offers robust segmentation of 14 spinal structures in T2w sagittal images, including the spinal cord, spinal canal, intervertebral discs, endplate, sacrum, and vertebrae. The approach yields both a semantic and instance mask as output, thus being easy to utilize. This marks the first publicly available algorithm for whole spine segmentation in sagittal T2w MR imaging.
翻訳日:2024-02-27 14:16:06 公開日:2024-02-26
# Unraveling Babel: 大規模言語モデルにおける多言語アクティベーションパターンの探索

Unraveling Babel: Exploring Multilingual Activation Patterns within Large Language Models ( http://arxiv.org/abs/2402.16367v1 )

ライセンス: Link先を確認
Weize Liu, Yinlong Xu, Hongxia Xu, Jintai Chen, Xuming Hu, Jian Wu(参考訳) 近年、大規模言語モデル(llm)は、言語処理の分野で飛躍的なブレークスルーを達成しているが、複数の言語を処理する上でのメカニズムは、いまだに無依存である。 そこで本研究では,LLMの多言語活性化パターンについて検討する。 オリジナルの大言語モデル(llms)を専門家(moe)アーキテクチャの混合に変換することで、様々な言語を処理する際に専門家のアクティベーションパターンを分析し、これらのアクティベーションパターンの言語ファミリのレベルでの接続を実証する。 我々は,非言語特異的ニューロンと言語特異的活性化ニューロンの存在を発見した。 さらに、高頻度の活性化ニューロンを利用するだけで、同等の性能を維持しながら推論を加速できることを示した。 これらの知見はLLMの多言語処理機構に光を当て、LLMの多言語学習とモデルプルーニングを導く上で非常に重要である。

Recently, large language models (LLMs) have achieved tremendous breakthroughs in the field of language processing, yet their mechanisms in processing multiple languages remain agnostic. Therefore, in this work we study the multilingual activation patterns of LLMs. By transforming the original Large Language Models (LLMs) into a Mixture of Experts (MoE) architecture, we analyze the expert activation patterns when processing various languages and demonstrate the connections of these activation patterns at the level of language families. We discover the existence of non-language-specific neurons as well as language-specific activation neurons. Further exploration even showcases that merely leveraging high-frequency activation neurons can accelerate inference while maintaining comparable performance. These findings shed light on the LLMs' multilingual processing mechanism, and are of significant importance in guiding the multilingual training and model pruning of LLMs.
翻訳日:2024-02-27 14:15:21 公開日:2024-02-26
# SPC-NeRF:Voxel-based Radiance Fieldのための空間予測圧縮

SPC-NeRF: Spatial Predictive Compression for Voxel Based Radiance Field ( http://arxiv.org/abs/2402.16366v1 )

ライセンス: Link先を確認
Zetian Song, Wenhong Duan, Yuhuai Zhang, Shiqi Wang, Siwei Ma, Wen Gao(参考訳) ニューラルネットワーク(NeRF)を明示的なボクセルグリッド(EVG)で表現することは、NeRFを改善する上で有望な方向である。 しかし、EVG表現は、メモリコストが非常に高いため、ストレージや伝送に効率的ではない。 現在のevg圧縮法は、ボクセルの空間相関を十分に活用しないプルーニングや量子化などのニューラルネットワーク圧縮のために設計された手法を継承している。 本稿では,EVG圧縮に空間予測符号化を適用した新しいフレームワークであるSPC-NeRFを提案する。 提案手法は,圧縮性能を向上させるために空間冗長性を効率的に除去し,さらにビットレートをモデル化し,圧縮比と歪みを共同で最適化して高い符号化効率を実現する新しいロス関数を設計できる。 大規模な実験により,本手法は複数の代表的なテストデータセット上で,最先端のVQRFに比べて32%の削減が可能であり,訓練時間は同等であることがわかった。

Representing the Neural Radiance Field (NeRF) with the explicit voxel grid (EVG) is a promising direction for improving NeRFs. However, the EVG representation is not efficient for storage and transmission because of the terrific memory cost. Current methods for compressing EVG mainly inherit the methods designed for neural network compression, such as pruning and quantization, which do not take full advantage of the spatial correlation of voxels. Inspired by prosperous digital image compression techniques, this paper proposes SPC-NeRF, a novel framework applying spatial predictive coding in EVG compression. The proposed framework can remove spatial redundancy efficiently for better compression performance.Moreover, we model the bitrate and design a novel form of the loss function, where we can jointly optimize compression ratio and distortion to achieve higher coding efficiency. Extensive experiments demonstrate that our method can achieve 32% bit saving compared to the state-of-the-art method VQRF on multiple representative test datasets, with comparable training time.
翻訳日:2024-02-27 14:15:03 公開日:2024-02-26
# ここからどこへ行くのか? 自然空間記述からの多スケール同心関係推論

Where Do We Go from Here? Multi-scale Allocentric Relational Inference from Natural Spatial Descriptions ( http://arxiv.org/abs/2402.16364v1 )

ライセンス: Link先を確認
Tzuf Paz-Argaman, Sayali Kulkarni, John Palowitch, Jason Baldridge, and Reut Tsarfaty(参考訳) 自然言語で経路を伝える場合、"em acquired spatial knowledge"という概念は、地理情報検索(gir)や空間認知研究において重要である。 しかし、NLPナビゲーション研究は、そのような知識がテキスト記述に与える影響をしばしば見落としている。 現在のナビゲーション研究は、エージェントの局所的知覚に関する推論を必要とするエゴセントリックな局所的記述(例えば、'It will be on your right')に集中している。 これらの命令は通常、ステップのシーケンスとして与えられ、それぞれのアクションステップが明示的に言及され、エージェントが正しいパスにあることを確認するために使用できるランドマークが続く(例えば、'turn right and then you will see...')。 対照的に、地図を通じて得られた知識に基づく記述は、環境の完全なビューを提供し、その全体構造を捉える。 これらの指示(例えば、セントラルパークの南にあり、警察署の北にあるブロック)は典型的には非順序的であり、複数の空間的関係と暗黙的な行動を持つ同心関係を含む。 本稿では,ランデブー(rvs)タスクとデータセットについて紹介する。これには,map-knowledgeを用いた目標位置に到達するための英語空間命令の10,404例が含まれている。 分析の結果, rvsは空間的アロセントリックな関係を豊かに利用しており, 従来のテキストベースのナビゲーションベンチマークと比較して, より多くの空間的関係を同時に解決する必要があることが明らかとなった。

When communicating routes in natural language, the concept of {\em acquired spatial knowledge} is crucial for geographic information retrieval (GIR) and in spatial cognitive research. However, NLP navigation studies often overlook the impact of such acquired knowledge on textual descriptions. Current navigation studies concentrate on egocentric local descriptions (e.g., `it will be on your right') that require reasoning over the agent's local perception. These instructions are typically given as a sequence of steps, with each action-step explicitly mentioning and being followed by a landmark that the agent can use to verify they are on the right path (e.g., `turn right and then you will see...'). In contrast, descriptions based on knowledge acquired through a map provide a complete view of the environment and capture its overall structure. These instructions (e.g., `it is south of Central Park and a block north of a police station') are typically non-sequential, contain allocentric relations, with multiple spatial relations and implicit actions, without any explicit verification. This paper introduces the Rendezvous (RVS) task and dataset, which includes 10,404 examples of English geospatial instructions for reaching a target location using map-knowledge. Our analysis reveals that RVS exhibits a richer use of spatial allocentric relations, and requires resolving more spatial relations simultaneously compared to previous text-based navigation benchmarks.
翻訳日:2024-02-27 14:14:36 公開日:2024-02-26
# LLM推論が明らかに:サーベイとルーフラインモデル

LLM Inference Unveiled: Survey and Roofline Model Insights ( http://arxiv.org/abs/2402.16363v1 )

ライセンス: Link先を確認
Zhihang Yuan, Yuzhang Shang, Yang Zhou, Zhen Dong, Chenhao Xue, Bingzhe Wu, Zhikai Li, Qingyi Gu, Yong Jae Lee, Yan Yan, Beidi Chen, Guangyu Sun, Kurt Keutzer(参考訳) 効率的な大規模言語モデル(llm)推論の分野は急速に進化しており、機会と課題のユニークなブレンドを示している。 フィールドは拡張され、活気があるが、このドメインを明確に理解するために、LLM推論の様々なメソッドを分析する簡潔なフレームワークは存在していない。 本調査は,研究の現状を要約するだけでなく,LLM推論手法の系統解析のための屋上モデルに基づく枠組みを導入することで,従来の文献レビューから際立っている。 このフレームワークは、LLMデプロイメントのボトルネックを特定し、実際のデバイスにおける実践的な側面をより深く理解することで、LLMをデプロイするためのより効果的な戦略を実現する。 さらに,効率の高いllm推論における最新の進歩を体系的に照合し,重み付け最適化(知識蒸留や量子化など),デコードアルゴリズムの改善(早期終了や実験の混合など),ハードウェアとシステムレベルの拡張など,重要な領域をカバーした。 屋上モデル解析の統合により,本調査は,効率的なLLM推論課題と解の包括的かつ曖昧な探索を提供する。 この独特なアプローチは、現在の研究状況を示すだけでなく、我々の研究をこの分野に新たに参入した研究者や、効率的なLLMデプロイメントの理解を深めようとする研究者にとって欠かせない資源として位置づける、実践的な実践のための貴重な洞察を提供する。 LLM-Viewerはオープンソースである。

The field of efficient Large Language Model (LLM) inference is rapidly evolving, presenting a unique blend of opportunities and challenges. Although the field has expanded and is vibrant, there hasn't been a concise framework that analyzes the various methods of LLM Inference to provide a clear understanding of this domain. Our survey stands out from traditional literature reviews by not only summarizing the current state of research but also by introducing a framework based on roofline model for systematic analysis of LLM inference techniques. This framework enables identifying the bottlenecks in LLM deployments and provides a deeper understanding of the practical aspects on real devices, thereby informing more effective strategies for deploying LLM. Furthermore, we systematically collate the latest advancements in efficient LLM inference, covering crucial areas such as weight optimization (e.g., Knowledge Distillation and Quantization), decoding algorithm improvements (e.g., Early Exit and Mixture-of-Expert), and both hardware and system-level enhancements. Distinguished by the integration of roofline model analysis, our survey provides a comprehensive and nuanced exploration of efficient LLM inference challenges and solutions. This distinctive approach not only showcases the current research landscape but also delivers valuable insights for practical implementation, positioning our work as an indispensable resource for researchers new to the field as well as for those seeking to deepen their understanding of efficient LLM deployment. The tool LLM-Viewer is open-sourced.
翻訳日:2024-02-27 14:14:11 公開日:2024-02-26
# ニューラルネットワークモデルのための階層型正規化ドロップアウト

Layer-wise Regularized Dropout for Neural Language Models ( http://arxiv.org/abs/2402.16361v1 )

ライセンス: Link先を確認
Shiwen Ni, Min Yang, Ruifeng Xu, Chengming Li and Xiping Hu(参考訳) 今日普及している様々なトレーニング済みのニューラルネットワークモデルの中で、ドロップアウトはすでに必須の正規化技術である。 ドロップアウトのランダム性に起因するトレーニングと推論の不整合を解決するために,一貫性トレーニングを用いて出力層でのドロップアウトを規則化する研究もある。 本稿では,トランスフォーマティブ言語モデル用に特別に設計された階層型正規化ドロップアウト (lr-drop) を提案する。 具体的には、LR-Drop層は整合性トレーニング戦略を用いて各トランスフォーマー層を適宜調整する。 各トレーニングサンプルは、ドロップアウトによってサンプリングされた2つのシアムサブモデルを通過した後、LR-Dropは隠れた状態、多頭部注意行列、および2つのシアムサブモデルの出力分布を一貫性のあるものに強制する。 提案したLR-Dropは「自己蒸留」フレームワークとみなすことができ、ドロップアウトによって生成された各サブモデルは他方の「教師」モデルと「学生」モデルである。 8つの自然言語理解データセット、6つのニューラルマシン翻訳データセット、1つの抽象的な要約データセット(合計15のデータセット)に関する広範な実験を通して、LR-Dropが最先端の結果を含む優れたパフォーマンスを達成することを示す。

Among the various pre-trained neural language models that are popular today, dropout is already an indispensable regularization technique. To solve the inconsistency between training and inference caused by the randomness of dropout, some studies use consistency training to regularize dropout at the output layer. In this paper, we propose a novel Layer-wise Regularized Dropout (LR-Drop), which is specially designed for Transformer-based Language models. Specifically, LR-Drop layer-wise regularizes each Transformer layer using the consistency training strategy. Each training sample passes through the two siamese sub-models sampled by dropout, and then LR-Drop forces the hidden states, multi-head attention matrices, and output distribution of the two siamese sub-models to be consistent. The proposed LR-Drop can be regarded as a "self-distillation" framework, in which each sub-model generated by dropout is the other's "teacher" model and "student" model. Through extensive experiments on 8 natural language understanding datasets, 6 neural machine translation datasets, and 1 abstractive summarization dataset (a total of 15 datasets), we show that LR-Drop achieves superior performances, including state-of-the-art results.
翻訳日:2024-02-27 14:13:42 公開日:2024-02-26
# 拡散モデルの効率的なオンライン微調整

Feedback Efficient Online Fine-Tuning of Diffusion Models ( http://arxiv.org/abs/2402.16359v1 )

ライセンス: Link先を確認
Masatoshi Uehara, Yulai Zhao, Kevin Black, Ehsan Hajiramezanali, Gabriele Scalia, Nathaniel Lee Diamant, Alex M Tseng, Sergey Levine, Tommaso Biancalani(参考訳) 拡散モデルは、画像、タンパク質、小さな分子を含む複雑なデータ分布のモデル化に優れている。 しかし、多くの場合、我々の目標は特定の特性を最大化する分布の一部をモデル化することである。例えば、高い美的品質のイメージや、高い生体活性を持つ分子を生成したいかもしれない。 これを強化学習(RL)問題とみなすことは自然であり、ある性質に対応する報酬関数を最大化するために拡散モデルを微調整することが目的である。 地道的な報酬関数のオンラインクエリにアクセスしても、効率的な高次サンプルの発見は困難であり、それらは初期分布の確率が低く、十分に定義されていない報酬(例えば、不自然な画像や物理的に不可能な分子)さえ持たない多くの実用不可能なサンプルが存在する可能性がある。 本研究では,実行可能なサンプルの多様体上で効率的に探索する新しい強化学習手法を提案する。 我々は,後悔の保証と,画像,生物配列,分子の3領域にわたる実証的検証を提供する理論的解析を行う。

Diffusion models excel at modeling complex data distributions, including those of images, proteins, and small molecules. However, in many cases, our goal is to model parts of the distribution that maximize certain properties: for example, we may want to generate images with high aesthetic quality, or molecules with high bioactivity. It is natural to frame this as a reinforcement learning (RL) problem, in which the objective is to fine-tune a diffusion model to maximize a reward function that corresponds to some property. Even with access to online queries of the ground-truth reward function, efficiently discovering high-reward samples can be challenging: they might have a low probability in the initial distribution, and there might be many infeasible samples that do not even have a well-defined reward (e.g., unnatural images or physically impossible molecules). In this work, we propose a novel reinforcement learning procedure that efficiently explores on the manifold of feasible samples. We present a theoretical analysis providing a regret guarantee, as well as empirical validation across three domains: images, biological sequences, and molecules.
翻訳日:2024-02-27 14:13:20 公開日:2024-02-26
# 基礎モデルの事前学習のための統合データ処理フレームワーク

An Integrated Data Processing Framework for Pretraining Foundation Models ( http://arxiv.org/abs/2402.16358v1 )

ライセンス: Link先を確認
Yiding Sun, Feng Wang, Yutao Zhu, Wayne Xin Zhao, Jiaxin Mao(参考訳) 基礎モデルの能力は、大規模で多様で高品質な事前学習データに大きく依存している。 データ品質を改善するために、研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートし、データリポジトリごとに専用のデータクリーニングパイプラインを開発する必要がある。 統一されたデータ処理フレームワークを欠いたこのプロセスは反復的で面倒です。 この問題を軽減するために,異なる粒度レベルで一連の演算子で構成される処理モジュールと,改良されたデータの探索と評価をサポートする解析モジュールを統合したデータ処理フレームワークを提案する。 提案されたフレームワークは使いやすく、柔軟性が高い。 本稿では、まず、このフレームワークをいくつかのユースケースで利用する方法を紹介し、次に、ChatGPTによる自動評価とGPT-2モデルの事前訓練におけるエンドツーエンド評価によるデータ品質向上の有効性を示す。 コードとデモビデオはGitHubからアクセスできる。

The ability of the foundation models heavily relies on large-scale, diverse, and high-quality pretraining data. In order to improve data quality, researchers and practitioners often have to manually curate datasets from difference sources and develop dedicated data cleansing pipeline for each data repository. Lacking a unified data processing framework, this process is repetitive and cumbersome. To mitigate this issue, we propose a data processing framework that integrates a Processing Module which consists of a series of operators at different granularity levels, and an Analyzing Module which supports probing and evaluation of the refined data. The proposed framework is easy to use and highly flexible. In this demo paper, we first introduce how to use this framework with some example use cases and then demonstrate its effectiveness in improving the data quality with an automated evaluation with ChatGPT and an end-to-end evaluation in pretraining the GPT-2 model. The code and demonstration videos are accessible on GitHub.
翻訳日:2024-02-27 14:13:01 公開日:2024-02-26
# 本のジャンルを特徴付けるテキストデザインとは?

What Text Design Characterizes Book Genres? ( http://arxiv.org/abs/2402.16356v1 )

ライセンス: Link先を確認
Daichi Haraguchi, Brian Kenji Iwana, Seiichi Uchida(参考訳) 本研究は,書誌表紙のテキストデザインを用いた書誌ジャンルの分類を通じて,非言語情報(ジャンルなど)とテキストデザイン(フォントスタイル,文字色など)の関係を分析する。 テキスト画像は、単語自体に関する意味情報とフォントスタイル、文字色など他の情報(意味のない情報や視覚的デザイン)の両方を持っている。 いくつかの素材に印刷された単語を読むと、その単語自体と視覚的デザインの両方から印象またはその他の情報を受け取る。 基本的には意味情報、すなわち単語自身からのみ言語情報を理解することができるが、テキストデザインは印象やジャンルなど他の追加情報(つまり非言語情報)を理解するのに役立つと考えることができる。 テキストデザインの効果を調べるために,本表紙に印刷された単語とそのジャンルを2つのシナリオで分析する。 まず,本書のジャンル(非言語情報)を決定する上での視覚的デザインの重要性について,意味的情報・視覚的デザインとジャンルの関係の差異を分析して検討した。 実験では,意味的情報はジャンルを決定するのに十分であることがわかったが,テキストデザインは書籍ジャンルにより識別的な機能を追加するのに有用である。 第2に,書籍ジャンルに対する各テキストデザインの影響について検討した。 その結果、各テキストデザインがいくつかのジャンルを特徴付けることがわかった。 例えば、フォントスタイルは ``Mystery, Thriller \& Suspense'' や ``Christian book \& Bibles' といったジャンルにより差別的な機能を追加するのに有用である。 ''

This study analyzes the relationship between non-verbal information (e.g., genres) and text design (e.g., font style, character color, etc.) through the classification of book genres using text design on book covers. Text images have both semantic information about the word itself and other information (non-semantic information or visual design), such as font style, character color, etc. When we read a word printed on some materials, we receive impressions or other information from both the word itself and the visual design. Basically, we can understand verbal information only from semantic information, i.e., the words themselves; however, we can consider that text design is helpful for understanding other additional information (i.e., non-verbal information), such as impressions, genre, etc. To investigate the effect of text design, we analyze text design using words printed on book covers and their genres in two scenarios. First, we attempted to understand the importance of visual design for determining the genre (i.e., non-verbal information) of books by analyzing the differences in the relationship between semantic information/visual design and genres. In the experiment, we found that semantic information is sufficient to determine the genre; however, text design is helpful in adding more discriminative features for book genres. Second, we investigated the effect of each text design on book genres. As a result, we found that each text design characterizes some book genres. For example, font style is useful to add more discriminative features for genres of ``Mystery, Thriller \& Suspense'' and ``Christian books \& Bibles.''
翻訳日:2024-02-27 14:12:47 公開日:2024-02-26
# 時変推論を用いた言語誘導スキル学習

Language-guided Skill Learning with Temporal Variational Inference ( http://arxiv.org/abs/2402.16354v1 )

ライセンス: Link先を確認
Haotian Fu, Pratyusha Sharma, Elias Stengel-Eskin, George Konidaris, Nicolas Le Roux, Marc-Alexandre C\^ot\'e, Xingdi Yuan(参考訳) 専門家による実演からスキル発見を行うアルゴリズムを提案する。 このアルゴリズムは、まずLarge Language Models (LLM) を用いて、軌道の初期セグメンテーションを提案する。 その後、階層的変動推論フレームワークはLLM生成セグメンテーション情報を組み込んで、軌道セグメントをマージして再利用可能なスキルを発見する。 圧縮と再利用のトレードオフをさらにコントロールするために,このスキル発見プロセスを導くのに役立つ最小記述長原理に基づく新しい補助目的を提案する。 本研究では,本手法を応用したエージェントが,グリッドワールドナビゲーション環境であるBabyAIと家庭用シミュレーション環境であるALFREDにおいて,学習を加速し,ベースラインスキル学習アプローチを向上する技術を見出すことができた。

We present an algorithm for skill discovery from expert demonstrations. The algorithm first utilizes Large Language Models (LLMs) to propose an initial segmentation of the trajectories. Following that, a hierarchical variational inference framework incorporates the LLM-generated segmentation information to discover reusable skills by merging trajectory segments. To further control the trade-off between compression and reusability, we introduce a novel auxiliary objective based on the Minimum Description Length principle that helps guide this skill discovery process. Our results demonstrate that agents equipped with our method are able to discover skills that help accelerate learning and outperform baseline skill learning approaches on new long-horizon tasks in BabyAI, a grid world navigation environment, as well as ALFRED, a household simulation environment.
翻訳日:2024-02-27 14:12:18 公開日:2024-02-26
# 対称性インフォームド量子メトロジーの第一原理構築

First-principles construction of symmetry-informed quantum metrologies ( http://arxiv.org/abs/2402.16410v1 )

ライセンス: Link先を確認
Jes\'us Rubio(参考訳) 量子とベイズ原理を組み合わせることは、メトロロジーの最適性をもたらすが、正確な解を見つけることは困難である。 この研究は、この問題を、正確に解ける最適化方程式の新しいクラスで緩和する。 位置パラメータに同型な任意の量に対して、最適な測定を考案する規則は閉形式で与えられる。 これらは任意のパラメータ範囲、事前情報、状態において有効であり、関連する推定子は有限サンプルに適用される。 このフレームワークは、位置、スケール、および双曲的エラーを必要とする相対重みなどの他のパラメータ型のメトロジーを統一する。 良い戦略を探すことは、どの対称性が最大の無知な不変状態を残しているかを特定することであり、誤差境界によらずである。 これにより、実際に必要となる計算数を減らし、対称性が重要な役割を果たす基礎物理学への量子メトロロジーの厳密な応用を可能にする。

Combining quantum and Bayesian principles leads to optimality in metrology, but exact solutions can be hard to find. This work mitigates this problem with a novel class of exactly solvable optimisation equations. For any quantity isomorphic to a location parameter, rules to devise optimal measurements are given in closed form. These are valid for any parameter range, prior information, or state, and the associated estimators apply to finite samples. This framework unifies the metrology of locations, scales, and other parameter types such as relative weights, for which hyperbolic errors are required. But the central advantage lies on its simplifying power: searching for good strategies amounts to identifying which symmetry leaves a state of maximum ignorance invariant, irrespective of error bounds. This reduces the number of calculations needed in practice and enables the rigorous application of quantum metrology to fundamental physics, where symmetries play a key role.
翻訳日:2024-02-27 14:07:32 公開日:2024-02-26
# 高次元変分推論のための正規化流れの安定トレーニング

Stable Training of Normalizing Flows for High-dimensional Variational Inference ( http://arxiv.org/abs/2402.16408v1 )

ライセンス: Link先を確認
Daniel Andrade(参考訳) 正規化フロー(NFs)による変分推論は、MCMC法の代替としてますます人気が高まっている。 特に、結合層(Real NVP)に基づくNFは、その優れた経験的性能のために頻繁に使用される。 理論上、正規化フローの深さの増大は、より正確な後部近似をもたらす。 しかし、実際には、高次元後方分布を近似する深部正規化流の訓練は、確率勾配の高ばらつきのため、しばしば実現不可能である。 本研究では, 確率勾配勾配の分散を安定化させる従来の手法は, 実NVPの安定トレーニングを実現するには不十分であることを示す。 問題の原因として、トレーニング中、サンプルが異常な高い値を示すことが多いことが分かりました。 そこで本研究では,(1)実NVPにおけるスケールのソフトスレッディング,(2)サンプルの客観的なソフトログ変換の2つの方法の組み合わせを提案する。 本研究は,高次元ロジスティック回帰モデルを含む,いくつかの挑戦的対象分布に対するこれらおよびそれ以前に提案された修正について評価する。 実験により,数千次元の後肢に対する実NVPの安定トレーニングが可能であり,重要サンプリングによるより正確な限界推定が可能であることが確認された。 さらに,いくつかの一般的なトレーニング手法とアーキテクチャの選択を評価し,高次元変動推論のためのNFのトレーニングに実用的なアドバイスを提供する。

Variational inference with normalizing flows (NFs) is an increasingly popular alternative to MCMC methods. In particular, NFs based on coupling layers (Real NVPs) are frequently used due to their good empirical performance. In theory, increasing the depth of normalizing flows should lead to more accurate posterior approximations. However, in practice, training deep normalizing flows for approximating high-dimensional posterior distributions is often infeasible due to the high variance of the stochastic gradients. In this work, we show that previous methods for stabilizing the variance of stochastic gradient descent can be insufficient to achieve stable training of Real NVPs. As the source of the problem, we identify that, during training, samples often exhibit unusual high values. As a remedy, we propose a combination of two methods: (1) soft-thresholding of the scale in Real NVPs, and (2) a bijective soft log transformation of the samples. We evaluate these and other previously proposed modification on several challenging target distributions, including a high-dimensional horseshoe logistic regression model. Our experiments show that with our modifications, stable training of Real NVPs for posteriors with several thousand dimensions is possible, allowing for more accurate marginal likelihood estimation via importance sampling. Moreover, we evaluate several common training techniques and architecture choices and provide practical advise for training NFs for high-dimensional variational inference.
翻訳日:2024-02-27 14:07:19 公開日:2024-02-26
# CMC:クロスビュー多面体一貫性による新規ビュー合成

CMC: Few-shot Novel View Synthesis via Cross-view Multiplane Consistency ( http://arxiv.org/abs/2402.16407v1 )

ライセンス: Link先を確認
Hanxin Zhu, Tianyu He, Zhibo Chen(参考訳) NeRF(Neural Radiance Field)は、特にVR(Virtual Reality)とAR(Augmented Reality)において、シーンを連続的に表現する能力によって、新しいビュー合成において印象的な結果を示している。 しかし、少数の入力ビューイメージが利用可能である場合、NeRFは与えられたビューに過度に適合し、推定されたピクセルの深さがほぼ同じ値を共有する傾向にある。 複雑な事前処理や追加の監督を導入して正規化を行う従来の手法とは異なり,この課題に対処するために,入力ビュー間の奥行き認識の整合性を明確に構築するシンプルな手法を提案する。 我々の重要な洞察は、同じ空間的点を異なる入力ビューで繰り返しサンプリングすることで、ビュー間の相互作用を強化し、過度に適合する問題を軽減できるということである。 これを実現するために、階層表現(多面画像)の上にニューラルネットワークを構築し、サンプリングポイントを複数の離散平面上で再サンプリングすることができる。 さらに、未確認のターゲットビューを正規化するために、異なる入力ビューからレンダリングされた色や深さを同じに制限する。 単純かつ広範な実験により,提案手法は最先端の手法よりも優れた合成品質が得られることを示した。

Neural Radiance Field (NeRF) has shown impressive results in novel view synthesis, particularly in Virtual Reality (VR) and Augmented Reality (AR), thanks to its ability to represent scenes continuously. However, when just a few input view images are available, NeRF tends to overfit the given views and thus make the estimated depths of pixels share almost the same value. Unlike previous methods that conduct regularization by introducing complex priors or additional supervisions, we propose a simple yet effective method that explicitly builds depth-aware consistency across input views to tackle this challenge. Our key insight is that by forcing the same spatial points to be sampled repeatedly in different input views, we are able to strengthen the interactions between views and therefore alleviate the overfitting problem. To achieve this, we build the neural networks on layered representations (\textit{i.e.}, multiplane images), and the sampling point can thus be resampled on multiple discrete planes. Furthermore, to regularize the unseen target views, we constrain the rendered colors and depths from different input views to be the same. Although simple, extensive experiments demonstrate that our proposed method can achieve better synthesis quality over state-of-the-art methods.
翻訳日:2024-02-27 14:06:57 公開日:2024-02-26
# RAGから富へ:大規模言語モデルを用いて臨床試験のための文書作成

From RAGs to riches: Using large language models to write documents for clinical trials ( http://arxiv.org/abs/2402.16406v1 )

ライセンス: Link先を確認
Nigel Markey, Ilyass El-Mansouri, Gaetan Rensonnet, Casper van Langen, Christoph Meier(参考訳) 臨床試験には、プロトコル、同意書、臨床研究報告など、多くの文書を書く必要がある。 大規模言語モデル(LLM)は,これらの文書の最初のバージョンを迅速に生成する可能性を秘めているが,出力の品質に懸念がある。 特にコンテンツ関連性の評価や用語の正しい使用において,既成のLCMが妥当な結果をもたらすことがわかった。 しかし、特に臨床的思考と論理、適切な参照の使用の欠陥が残っている。 性能向上のため,検索型生成(rag)を用いて正確な最新情報をllmに提示した。 RAG の使用により LLM の書字品質が大幅に向上し,臨床治験関連書字における LLM の実用性に影響を及ぼす。

Clinical trials require numerous documents to be written -- protocols, consent forms, clinical study reports and others. Large language models (LLMs) offer the potential to rapidly generate first versions of these documents, however there are concerns about the quality of their output Here we report an evaluation of LLMs in generating parts of one such document, clinical trial protocols. We find that an offthe-shelf LLM delivers reasonable results, especially when assessing content relevance and the correct use of terminology. However, deficiencies remain: specifically clinical thinking and logic, and appropriate use of references. To improve performance, we used retrieval-augmented generation (RAG) to prompt an LLM with accurate up-to-date information. As a result of using RAG, the writing quality of the LLM improves substantially, which has implications for the practical useability of LLMs in clinical trial-related writing.
翻訳日:2024-02-27 14:06:33 公開日:2024-02-26
# 分散エッジレイアウトを用いたグラフ学習

Graph Learning with Distributional Edge Layouts ( http://arxiv.org/abs/2402.16402v1 )

ライセンス: Link先を確認
Xinjian Zhao, Chaolong Ying, Tianshu Yu(参考訳) グラフニューラルネットワーク(gnns)は、特定のトポロジカルレイアウト上のエッジに沿って隣接ノード間でローカルメッセージを渡すことによって、グラフ構造データから学習する。 一般に、現代のGNNにおけるこれらのトポロジ的レイアウトは決定論的に計算される(注意ベースのGNNなど)か、あるいはヒューリスティックな仮定の下で局所的にサンプリングされる(グラフセージなど)。 本稿では,これらのレイアウトをボルツマン分布に付随するランジュバンダイナミクスを用いて,物理エネルギーを明示的に満たし,物理世界において高い実現可能性をもたらすことを初めて提示する。 このようなサンプル/最適化レイアウトの集合は、広いエネルギー分布を捕捉し、WLテストの上に余分な表現性をもたらし、従って下流タスクを緩和することができると論じる。 そこで我々は,様々なGNNの補完として,分散エッジレイアウト(DEL)を提案する。 DELは、その後のGNNの派生とは独立して事前処理戦略であり、非常に柔軟である。 実験の結果、DELは一連のGNNベースラインを一貫して、実質的に改善し、複数のデータセット上で最先端のパフォーマンスを達成することが示された。

Graph Neural Networks (GNNs) learn from graph-structured data by passing local messages between neighboring nodes along edges on certain topological layouts. Typically, these topological layouts in modern GNNs are deterministically computed (e.g., attention-based GNNs) or locally sampled (e.g., GraphSage) under heuristic assumptions. In this paper, we for the first time pose that these layouts can be globally sampled via Langevin dynamics following Boltzmann distribution equipped with explicit physical energy, leading to higher feasibility in the physical world. We argue that such a collection of sampled/optimized layouts can capture the wide energy distribution and bring extra expressivity on top of WL-test, therefore easing downstream tasks. As such, we propose Distributional Edge Layouts (DELs) to serve as a complement to a variety of GNNs. DEL is a pre-processing strategy independent of subsequent GNN variants, thus being highly flexible. Experimental results demonstrate that DELs consistently and substantially improve a series of GNN baselines, achieving state-of-the-art performance on multiple datasets.
翻訳日:2024-02-27 14:06:18 公開日:2024-02-26
# エンド・ツー・エンド機械学習眼球運動駆動バイオメトリックスパイプラインで学習した埋め込みの分析

Analysis of Embeddings Learned by End-to-End Machine Learning Eye Movement-driven Biometrics Pipeline ( http://arxiv.org/abs/2402.16399v1 )

ライセンス: Link先を確認
Mehedi Hasan Raju, Lee Friedman, Dillon J Lohr, Oleg V Komogortsev(参考訳) 本稿では,バイオメトリックシステムにおける時間持続性の基礎概念,特に機械学習によって促進される眼球運動バイオメトリックスの領域に着目した。 バイオメトリック認証システムの開発を主眼とするこれまでの研究と異なり,本研究は,これらのシステムによって学習された組込み,特に入力データの変化に対する時間的持続性,信頼性,生体認証の有効性について検討する。 公開された2つのアイモーメントデータセットを利用して、分析に最先端のEye Know You Too機械学習パイプラインを使用しました。 眼球運動バイオメトリックスにおける機械学習由来の埋め込みが、従来のバイオメトリックスで観察された時間的持続性を反映しているかどうかを検証することを目的としている。 提案手法では,入力データの長さや品質が眼球運動バイオメトリックスの性能に与える影響,特に学習した埋め込みにどう影響するかを評価するための広範囲な実験を行った。 また,各種データ条件下での埋め込みの信頼性と整合性についても検討した。 結果の定量的評価には,3つの重要な指標(一致係数,相関係数,等値誤差率)を用いた。 その結果、データの長さは学習した埋め込みの安定性に大きく影響するが、埋め込み間の相関は最小の効果を示す。

This paper expands on the foundational concept of temporal persistence in biometric systems, specifically focusing on the domain of eye movement biometrics facilitated by machine learning. Unlike previous studies that primarily focused on developing biometric authentication systems, our research delves into the embeddings learned by these systems, particularly examining their temporal persistence, reliability, and biometric efficacy in response to varying input data. Utilizing two publicly available eye-movement datasets, we employed the state-of-the-art Eye Know You Too machine learning pipeline for our analysis. We aim to validate whether the machine learning-derived embeddings in eye movement biometrics mirror the temporal persistence observed in traditional biometrics. Our methodology involved conducting extensive experiments to assess how different lengths and qualities of input data influence the performance of eye movement biometrics more specifically how it impacts the learned embeddings. We also explored the reliability and consistency of the embeddings under varying data conditions. Three key metrics (kendall's coefficient of concordance, intercorrelations, and equal error rate) were employed to quantitatively evaluate our findings. The results reveal while data length significantly impacts the stability of the learned embeddings, however, the intercorrelations among embeddings show minimal effect.
翻訳日:2024-02-27 14:05:58 公開日:2024-02-26
# 深層透かしのセキュリティ調査--逆境移動可能性の観点から

Investigating Deep Watermark Security: An Adversarial Transferability Perspective ( http://arxiv.org/abs/2402.16397v1 )

ライセンス: Link先を確認
Biqing Qi, Junqi Gao, Yiang Luo, Jianxing Liu, Ligang Wu and Bowen Zhou(参考訳) 生成ニューラルネットワークの台頭により、生成したコンテンツに対する知的財産保護(ip)の需要が高まっている。 ip保護の柔軟性が認められている深層透かし技術が注目されている。 しかし、敵の移動可能な攻撃の急増は、ディープウォーターマーキング技術の安全性に前例のない課題をもたらしている。 本研究はこのギャップを埋めるために、2つの効果的な移動可能な攻撃者を導入し、根絶や改ざんリスクに対する深い透かしの脆弱性を評価している。 具体的には,まず局所標本密度の概念を定義し,モデル出力の一貫性に関する定理を導出する。 対象クラスの高サンプル密度領域(HSDR)に対する摂動サンプルの摂動がターゲットの対向移動性を高めることを発見すると、簡単なサンプル選択(ESS)機構と簡単なサンプルマッチング攻撃(ESMA)手法を提案する。 さらに,情報ボトルネック理論を統合し,無関係ノイズに対する発電機の依存性を低減させるボトルネック強化ミックスアップ(bem)を提案する。 ESMA法とBEM-ESMA法の両方において,標的移動攻撃の成功率を著しく向上させる実験を行った。 さらに,esmaとbem-esmaを計測として,モデルアーキテクチャと透かし符号化長を考慮した総合評価を行い,印象的な結果を得た。

The rise of generative neural networks has triggered an increased demand for intellectual property (IP) protection in generated content. Deep watermarking techniques, recognized for their flexibility in IP protection, have garnered significant attention. However, the surge in adversarial transferable attacks poses unprecedented challenges to the security of deep watermarking techniques-an area currently lacking systematic investigation. This study fills this gap by introducing two effective transferable attackers to assess the vulnerability of deep watermarks against erasure and tampering risks. Specifically, we initially define the concept of local sample density, utilizing it to deduce theorems on the consistency of model outputs. Upon discovering that perturbing samples towards high sample density regions (HSDR) of the target class enhances targeted adversarial transferability, we propose the Easy Sample Selection (ESS) mechanism and the Easy Sample Matching Attack (ESMA) method. Additionally, we propose the Bottleneck Enhanced Mixup (BEM) that integrates information bottleneck theory to reduce the generator's dependence on irrelevant noise. Experiments show a significant enhancement in the success rate of targeted transfer attacks for both ESMA and BEM-ESMA methods. We further conduct a comprehensive evaluation using ESMA and BEM-ESMA as measurements, considering model architecture and watermark encoding length, and achieve some impressive findings.
翻訳日:2024-02-27 14:05:35 公開日:2024-02-26
# 分散セグメンテーションのためのインペインティングによるコンテキスト内オブジェクトの配置

Placing Objects in Context via Inpainting for Out-of-distribution Segmentation ( http://arxiv.org/abs/2402.16392v1 )

ライセンス: Link先を確認
Pau de Jorge, Riccardo Volpi, Puneet K. Dokania, Philip H. S. Torr, Gregory Rogez(参考訳) 現実世界にセマンティクスセグメンテーションモデルをデプロイする場合、トレーニング中に認識されないセマンティクスクラスと必然的に直面することになります。 したがって、このようなシステムを安全にデプロイするには、その異常セグメンテーション能力を正確に評価し、改善することが重要である。 しかし、セマンティックセグメンテーションデータの取得とラベル付けは高価であり、予測外の条件は長く、潜在的に危険である。 実際、既存の異常セグメンテーションデータセットは限られた数の異常をキャプチャし、リアリズムや強いドメインシフトを欠いている。 本稿では,任意の画像に任意のオブジェクトを拡散モデルで現実的に付加する,コンテキスト(poc)パイプラインにおけるオブジェクト配置を提案する。 POCは任意の数のオブジェクトで任意のデータセットを簡単に拡張するために使用することができる。 実験では,POC生成データに基づく様々な異常セグメンテーションデータセットを提示し,いくつかの標準化されたベンチマークにおいて,最近の最先端の異常調整手法の性能向上を実証した。 POCは新しいクラスを学ぶのにも有効です。 例えば、CityscapesのサンプルをPascalクラスの一部を追加することで編集し、そのようなデータでトレーニングされたモデルがPascalでトレーニングされたベースラインに匹敵するパフォーマンスを実現することを示す。 これは、poc生成画像で訓練されたモデルの低sim対実ギャップを裏付ける。

When deploying a semantic segmentation model into the real world, it will inevitably be confronted with semantic classes unseen during training. Thus, to safely deploy such systems, it is crucial to accurately evaluate and improve their anomaly segmentation capabilities. However, acquiring and labelling semantic segmentation data is expensive and unanticipated conditions are long-tail and potentially hazardous. Indeed, existing anomaly segmentation datasets capture a limited number of anomalies, lack realism or have strong domain shifts. In this paper, we propose the Placing Objects in Context (POC) pipeline to realistically add any object into any image via diffusion models. POC can be used to easily extend any dataset with an arbitrary number of objects. In our experiments, we present different anomaly segmentation datasets based on POC-generated data and show that POC can improve the performance of recent state-of-the-art anomaly fine-tuning methods in several standardized benchmarks. POC is also effective to learn new classes. For example, we use it to edit Cityscapes samples by adding a subset of Pascal classes and show that models trained on such data achieve comparable performance to the Pascal-trained baseline. This corroborates the low sim-to-real gap of models trained on POC-generated images.
翻訳日:2024-02-27 14:05:13 公開日:2024-02-26
# 人工知能の品質保証:産業問題,課題,ベストプラクティスに関する研究

Quality Assurance for Artificial Intelligence: A Study of Industrial Concerns, Challenges and Best Practices ( http://arxiv.org/abs/2402.16391v1 )

ライセンス: Link先を確認
Chenyu Wang, Zhou Yang, Ze Shi Li, Daniela Damian, David Lo(参考訳) 品質保証(QA)は、製造された製品の誤りや欠陥を防止し、製品やサービスを顧客に届ける際の問題を回避することを目的としている。 しかし、aiシステムのqaは、データ駆動と非決定論的性質とより複雑なアーキテクチャとアルゴリズムを考えると、特定の課題を提起する。 産業における機械学習の実践に関する実証的な証拠が増えているが、AIシステム(QA4AI)の品質保証の課題とベストプラクティスについてはほとんど知られていない。 本稿では,各国および企業における産業実践におけるQA4AIの混合研究について報告する。 15人の業界実践者へのインタビューと50人の実践者による検証調査を通じて,正確性,公平性,解釈性などの文献に報告されているqa4aiの特性を保証する上での課題とベストプラクティスについて検討した。 以上より,モデルの妥当性,効率性,デプロイ性などが示唆された。 対照的に、トランスファービリティ(あるタスクで学んだ知識を別のタスクに適用する)、セキュリティ、公平さは、他のプロパティと比べて実践者からはあまり注目されない。 各QA4AIプロパティに対してチャレンジとソリューションが識別される。 例えば、インタビュアーは、レイテンシ、コスト、効率性の正確さ(レイテンシとコストは効率の懸念の一部)の間のトレードオフの課題を強調した。 モデル圧縮のようなソリューションが提案されている。 私たちは、ai開発の各段階で21のqa4aiプラクティスを特定し、10のプラクティスが十分に認識され、さらに8のプラクティスが調査実践者によってわずかに合意されています。

Quality Assurance (QA) aims to prevent mistakes and defects in manufactured products and avoid problems when delivering products or services to customers. QA for AI systems, however, poses particular challenges, given their data-driven and non-deterministic nature as well as more complex architectures and algorithms. While there is growing empirical evidence about practices of machine learning in industrial contexts, little is known about the challenges and best practices of quality assurance for AI systems (QA4AI). In this paper, we report on a mixed-method study of QA4AI in industry practice from various countries and companies. Through interviews with fifteen industry practitioners and a validation survey with 50 practitioner responses, we studied the concerns as well as challenges and best practices in ensuring the QA4AI properties reported in the literature, such as correctness, fairness, interpretability and others. Our findings suggest correctness as the most important property, followed by model relevance, efficiency and deployability. In contrast, transferability (applying knowledge learned in one task to another task), security and fairness are not paid much attention by practitioners compared to other properties. Challenges and solutions are identified for each QA4AI property. For example, interviewees highlighted the trade-off challenge among latency, cost and accuracy for efficiency (latency and cost are parts of efficiency concern). Solutions like model compression are proposed. We identified 21 QA4AI practices across each stage of AI development, with 10 practices being well recognized and another 8 practices being marginally agreed by the survey practitioners.
翻訳日:2024-02-27 14:04:49 公開日:2024-02-26
# MoZIP:知的財産における大規模言語モデル評価のための多言語ベンチマーク

MoZIP: A Multilingual Benchmark to Evaluate Large Language Models in Intellectual Property ( http://arxiv.org/abs/2402.16389v1 )

ライセンス: Link先を確認
Shiwen Ni, Minghuan Tan, Yuelin Bai, Fuqiang Niu, Min Yang, Bowen Zhang, Ruifeng Xu, Xiaojun Chen, Chengming Li, Xiping Hu, Ye Li, Jianping Fan(参考訳) 大規模言語モデル(LLM)は様々な自然言語処理(NLP)タスクにおいて顕著な性能を示した。 しかし、llmが特定のドメイン(例えば知的財産(ip)ドメイン)でどのように機能するかの理解は限られている。 本稿では,知的財産に関する初のマルチ言語指向クイズ (Multilingual-oriented quiZ on Intellectual Property, MoZIP) をIP領域におけるLLMの評価のために提案する。 MoZIPベンチマークには、IP多重選択クイズ(IPQuiz)、IPQA(IPQA)、特許マッチング(PatentMatch)の3つの課題が含まれている。 さらに我々は,多言語IP関連テキストデータで微調整されたBLOOMZベースモデルである,新しいIP指向多言語大言語モデル(MoZi)も開発している。 提案したMoZiモデルと4つの有名なLCM(BLOOMZ, BELLE, ChatGLM, ChatGPT)をMoZIPベンチマークで評価した。 実験の結果, MoZi は BLOOMZ, BELLE, ChatGLM を顕著な差で上回り, ChatGPT に比べてスコアが低かった。 特に、MoZIPベンチマークにおける現在のLLMの性能は改善の余地が多く、最も強力なChatGPTでさえパスレベルに達しない。 ソースコード、データ、モデルは、 \url{https://github.com/AI-for-Science/MoZi}で利用可能です。

Large language models (LLMs) have demonstrated impressive performance in various natural language processing (NLP) tasks. However, there is limited understanding of how well LLMs perform in specific domains (e.g, the intellectual property (IP) domain). In this paper, we contribute a new benchmark, the first Multilingual-oriented quiZ on Intellectual Property (MoZIP), for the evaluation of LLMs in the IP domain. The MoZIP benchmark includes three challenging tasks: IP multiple-choice quiz (IPQuiz), IP question answering (IPQA), and patent matching (PatentMatch). In addition, we also develop a new IP-oriented multilingual large language model (called MoZi), which is a BLOOMZ-based model that has been supervised fine-tuned with multilingual IP-related text data. We evaluate our proposed MoZi model and four well-known LLMs (i.e., BLOOMZ, BELLE, ChatGLM and ChatGPT) on the MoZIP benchmark. Experimental results demonstrate that MoZi outperforms BLOOMZ, BELLE and ChatGLM by a noticeable margin, while it had lower scores compared with ChatGPT. Notably, the performance of current LLMs on the MoZIP benchmark has much room for improvement, and even the most powerful ChatGPT does not reach the passing level. Our source code, data, and models are available at \url{https://github.com/AI-for-Science/MoZi}.
翻訳日:2024-02-27 14:04:24 公開日:2024-02-26
# クロスコンフォーマルな$p$値を用いた異常検出の不確かさの定量化

Uncertainty Quantification in Anomaly Detection with Cross-Conformal $p$-Values ( http://arxiv.org/abs/2402.16388v1 )

ライセンス: Link先を確認
Oliver Hennh\"ofer and Christine Preisach(参考訳) 信頼性,信頼性,説明可能な機械学習の重要性が高まり,異常検出システムに対する不確実性定量化の必要性が高まっている。 この文脈では、これらのシステムの統計力(1-\beta$)を損なうことなく、効果的にタイプIエラー率(1-\beta$)を制御することができ、特にフォローアップ手順が高価である場合に、誤った発見に関連するコストを削減できる。 共形予測の原理を活用することは、モデルの不確かさを校正することで各統計的保証を提供するための有望なアプローチとして現れる。 本研究は、予測タスク用に設計されたよく知られたクロスコンフォーマルな手法に基づいて、クロスコンフォーマルな異常検出と呼ばれる新しい異常検出フレームワークを導入する。 これにより、モデルキャリブレーションのための分割共形アプローチに依拠して、帰納的共形異常検出の文脈で以前の作品を拡張することによって、自然研究のギャップに対処できる。 コンフォーメーション予測から得られた知見に基づき,クロスコンフォーマルな$p$-valuesの計算手法が,ベンチマークデータセットにおける不確実性定量化異常検出のための統計効率(フルコンフォーマル)と計算効率(スプライトコンフォーマル)の実用的妥協をもたらすことを実証した。

Given the growing significance of reliable, trustworthy, and explainable machine learning, the requirement of uncertainty quantification for anomaly detection systems has become increasingly important. In this context, effectively controlling Type I error rates ($\alpha$) without compromising the statistical power ($1-\beta$) of these systems can build trust and reduce costs related to false discoveries, particularly when follow-up procedures are expensive. Leveraging the principles of conformal prediction emerges as a promising approach for providing respective statistical guarantees by calibrating a model's uncertainty. This work introduces a novel framework for anomaly detection, termed cross-conformal anomaly detection, building upon well-known cross-conformal methods designed for prediction tasks. With that, it addresses a natural research gap by extending previous works in the context of inductive conformal anomaly detection, relying on the split-conformal approach for model calibration. Drawing on insights from conformal prediction, we demonstrate that the derived methods for calculating cross-conformal $p$-values strike a practical compromise between statistical efficiency (full-conformal) and computational efficiency (split-conformal) for uncertainty-quantified anomaly detection on benchmark datasets.
翻訳日:2024-02-27 14:03:56 公開日:2024-02-26
# 時間グラフ学習アルゴリズムの一般化能力について : 理論的洞察と簡易化法

On the Generalization Capability of Temporal Graph Learning Algorithms: Theoretical Insights and a Simpler Method ( http://arxiv.org/abs/2402.16387v1 )

ライセンス: Link先を確認
Weilin Cong, Jian Kang, Hanghang Tong, Mehrdad Mahdavi(参考訳) テンポラルグラフ学習(TGL)は、特にデータをグラフとして表現し、時間とともに進化する領域において、様々な現実世界のアプリケーションにまたがる一般的なテクニックとなっている。 TGLは最近、アルゴリズム解の顕著な進歩をみせたが、その理論的基礎はほとんど未解明のままである。 本稿では,TGLアルゴリズムの一般化能力(GNNベース,RNNベース,メモリベースなど)を有限範囲のオーバーパラメータ化体制下で検証することにより,このギャップを埋めることを目的とする。 我々は,TGLアルゴリズムの一般化誤差と,GNN-/RNNベースのTGL手法の"レイヤ/ステップ数"と,FLAを表現力のプロキシとして使用可能な特徴ラベルアライメント(FLA)スコアとの接続を確立し,メモリベースの手法の性能を説明する。 そこで本論文では,理論解析により一般化誤差が小さく,全体的な性能が向上し,モデルの複雑さが低下する,簡易化グラフネットワークを提案する。 実世界のデータセットに対する大規模な実験により,本手法の有効性が示された。 我々の理論的な知見と提案アルゴリズムは、理論的な観点からTGLに不可欠な洞察を与え、将来の研究における実用的なTGLアルゴリズムの設計の基礎を築いた。

Temporal Graph Learning (TGL) has become a prevalent technique across diverse real-world applications, especially in domains where data can be represented as a graph and evolves over time. Although TGL has recently seen notable progress in algorithmic solutions, its theoretical foundations remain largely unexplored. This paper aims at bridging this gap by investigating the generalization ability of different TGL algorithms (e.g., GNN-based, RNN-based, and memory-based methods) under the finite-wide over-parameterized regime. We establish the connection between the generalization error of TGL algorithms and "the number of layers/steps" in the GNN-/RNN-based TGL methods and "the feature-label alignment (FLA) score", where FLA can be used as a proxy for the expressive power and explains the performance of memory-based methods. Guided by our theoretical analysis, we propose Simplified-Temporal-Graph-Network, which enjoys a small generalization error, improved overall performance, and lower model complexity. Extensive experiments on real-world datasets demonstrate the effectiveness of our method. Our theoretical findings and proposed algorithm offer essential insights into TGL from a theoretical standpoint, laying the groundwork for the designing practical TGL algorithms in future studies.
翻訳日:2024-02-27 14:03:29 公開日:2024-02-26
# 超高速snハードウェアのための三相シナプス接続型スケーラブル超伝導ニューロン

Scalable Superconductor Neuron with Ternary Synaptic Connections for Ultra-Fast SNN Hardware ( http://arxiv.org/abs/2402.16384v1 )

ライセンス: Link先を確認
Mustafa Altay Karamuftuoglu, Beyza Zeynep Ucpinar, Arash Fayyazi, Sasan Razmkhah, Mehdi Kamal, Massoud Pedram(参考訳) 超高性能スパイキングニューラルネットワーク(SNN)加速器用に設計された新しい高ファンイン微分超伝導体ニューロン構造を示す。 高ファンインニューロン構造を利用することで、よりシナプス的な接続を持つSNNアクセラレータを設計し、全体的なネットワーク機能を向上させることができる。 提案したニューロン設計は、複数の超伝導ループと2つのジョセフソン接合を組み込んだ超伝導エレクトロニクスファブリックに基づいている。 これにより、各入力データ分岐が正および負の誘導結合を持ち、興奮および抑制シナプスデータをサポートすることができる。 シナプスデバイスとの互換性としきい値操作は単一のフラックス量子(sfq)パルスベースの論理スタイルを用いて達成される。 ニューロン設計は3次シナプス接続と共に超伝導体に基づくSNN推論の基礎を形成する。 設計の能力を示すため、snnTorchを使用してSNNをトレーニングし、PyTorchフレームワークを拡張します。 プルーニング後、実証されたSNN推論は、MNIST画像上で96.1%の精度を達成する。 特に、ネットワークのスループットは8.92GHzで、1回の推論で1.5nJしか消費せず、冷却に伴うエネルギー消費量は4Kである。 これらの結果は、高性能・超エネルギー効率のニューラルネットワーク加速器アーキテクチャ開発における超伝導エレクトロニクスの可能性の核となる。

A novel high-fan-in differential superconductor neuron structure designed for ultra-high-performance Spiking Neural Network (SNN) accelerators is presented. Utilizing a high-fan-in neuron structure allows us to design SNN accelerators with more synaptic connections, enhancing the overall network capabilities. The proposed neuron design is based on superconductor electronics fabric, incorporating multiple superconducting loops, each with two Josephson Junctions. This arrangement enables each input data branch to have positive and negative inductive coupling, supporting excitatory and inhibitory synaptic data. Compatibility with synaptic devices and thresholding operation is achieved using a single flux quantum (SFQ) pulse-based logic style. The neuron design, along with ternary synaptic connections, forms the foundation for a superconductor-based SNN inference. To demonstrate the capabilities of our design, we train the SNN using snnTorch, augmenting the PyTorch framework. After pruning, the demonstrated SNN inference achieves an impressive 96.1% accuracy on MNIST images. Notably, the network exhibits a remarkable throughput of 8.92 GHz while consuming only 1.5 nJ per inference, including the energy consumption associated with cooling to 4K. These results underscore the potential of superconductor electronics in developing high-performance and ultra-energy-efficient neural network accelerator architectures.
翻訳日:2024-02-27 14:03:01 公開日:2024-02-26
# 自己教師付き相関に基づくマルチビュークラスタリング

Self Supervised Correlation-based Permutations for Multi-View Clustering ( http://arxiv.org/abs/2402.16383v1 )

ライセンス: Link先を確認
Ran Eisenberg, Jonathan Svirsky, Ofir Lindenbaum(参考訳) 異なるモダリティから情報を融合することで、クラスタリングを含むデータ分析タスクが強化される。 しかし、既存のマルチビュークラスタリング(MVC)ソリューションは特定のドメインに限られているか、あるいは、表現とクラスタリングの2段階の手順を最適化し計算的に要求する。 汎用データ(画像、表など)のためのエンドツーエンドのディープラーニングベースのMVCフレームワークを提案する。 我々のアプローチは、新しい順列に基づく正準相関目的を用いて有意義な融合データ表現を学習する。 同時に、複数のビューで一貫した擬似ラベルを識別することでクラスタ割り当てを学習する。 10つのMVCベンチマークデータセットを用いて、モデルの有効性を実証する。 理論的には,本モデルが教師付き線形識別解析 (lda) 表現に近似することを示す。 さらに、偽擬似ラベルアノテーションによって誘導されるエラーを提供する。

Fusing information from different modalities can enhance data analysis tasks, including clustering. However, existing multi-view clustering (MVC) solutions are limited to specific domains or rely on a suboptimal and computationally demanding two-stage procedure of representation and clustering. We propose an end-to-end deep learning-based MVC framework for general data (image, tabular, etc.). Our approach involves learning meaningful fused data representations with a novel permutation-based canonical correlation objective. Concurrently, we learn cluster assignments by identifying consistent pseudo-labels across multiple views. We demonstrate the effectiveness of our model using ten MVC benchmark datasets. Theoretically, we show that our model approximates the supervised linear discrimination analysis (LDA) representation. Additionally, we provide an error bound induced by false-pseudo label annotations.
翻訳日:2024-02-27 14:02:26 公開日:2024-02-26
# 有害な微調整攻撃に対する免疫

Immunization against harmful fine-tuning attacks ( http://arxiv.org/abs/2402.16382v1 )

ライセンス: Link先を確認
Domenic Rosati, Jan Wehner, Kai Williams, {\L}ukasz Bartoszcze, Jan Batzner, Hassan Sajjad, Frank Rudzicz(参考訳) 大規模言語モデル(LLM)と人的価値の整合化へのアプローチは、事前学習から生じるミスアライメントの修正に重点を置いている。 しかし、この焦点は、悪役が有害な目標を達成するために故意に微調整のLSMを作らせるという、別の不一致の原因を見落としている。 本稿では,アライメント回避と微調整攻撃から生じる新たな脅威モデルを提案する。 しかし、過去の作品に欠けていることは、効果的な防御の条件を明確に示している。 我々は,LLMにおける有害な微調整に対する効果的な防御のための一連の条件を「免疫条件」と呼び,今後の防衛をいかに構築し,測定するかを理解するのに役立てる。 防衛のためのこの形式的枠組みを用いて,有害な微調整攻撃を防止するために想定される異なる研究方向の合成と,llama2-7b-chatの免疫化に敵意損失を用いた初期結果を実験的に示す方法の実証を提供する。

Approaches to aligning large language models (LLMs) with human values has focused on correcting misalignment that emerges from pretraining. However, this focus overlooks another source of misalignment: bad actors might purposely fine-tune LLMs to achieve harmful goals. In this paper, we present an emerging threat model that has arisen from alignment circumvention and fine-tuning attacks. However, lacking in previous works is a clear presentation of the conditions for effective defence. We propose a set of conditions for effective defence against harmful fine-tuning in LLMs called "Immunization conditions," which help us understand how we would construct and measure future defences. Using this formal framework for defence, we offer a synthesis of different research directions that might be persued to prevent harmful fine-tuning attacks and provide a demonstration of how to use these conditions experimentally showing early results of using an adversarial loss to immunize LLama2-7b-chat.
翻訳日:2024-02-27 14:02:12 公開日:2024-02-26
# 帯域フィードバックによるオンラインタスクのスケジュール学習

Learning to Schedule Online Tasks with Bandit Feedback ( http://arxiv.org/abs/2402.16463v1 )

ライセンス: Link先を確認
Yongxin Xu, Shangshang Wang, Hengquan Guo, Xin Liu, Ziyu Shao(参考訳) オンラインタスクスケジューリングは、クラウドコンピューティングやクラウドソーシングにおけるタスク集約アプリケーションにおいて重要な役割を果たす。 最適スケジューリングは、通常、あるタスク到着分布の下で、報酬対コスト比によって測定されるシステム性能を向上させることができる。 一方、報酬とコストはタスクコンテキスト(例えば評価基準)に依存しており、実際にはブラックボックスのままである。 これらの報酬とコストは、意思決定前に未知のモデルを作るのが難しい。 一方、タスク到着行動は予測不能なシステム変動などの要因に敏感であり、事前推定や従来の到着分布の仮定(例えばPoisson)が失敗する可能性がある。 これは別の実用的かつしばしば無視される課題、すなわち不確実なタスク到着分布を意味する。 様々な不確実性を有する定常環境下での効果的なスケジューリングに向けて, 二元最適化学習に基づくrobbins-monro (dol-rm) アルゴリズムを提案する。 具体的には,報酬対コスト比を楽観的に推定する学習モジュールと,Robins-Monro法を用いてスケジューリング決定を行いながら,暗黙的にタスク到着分布を学習する決定モジュールを統合する。 理論的には、DOL-RMは収束ギャップを達成し、不確実なタスク到着分布と未知の報酬とコストの下でオンラインタスクスケジューリングを行う最初の結果である$O(T^{3/4})$のサブ線形後悔を伴う後悔の学習を行わない。 合成実験と実世界の応用による数値計算の結果,DOL-RMが他の最先端のベースラインと比較して,最高の累積報酬対コスト比を達成できることを示す。

Online task scheduling serves an integral role for task-intensive applications in cloud computing and crowdsourcing. Optimal scheduling can enhance system performance, typically measured by the reward-to-cost ratio, under some task arrival distribution. On one hand, both reward and cost are dependent on task context (e.g., evaluation metric) and remain black-box in practice. These render reward and cost hard to model thus unknown before decision making. On the other hand, task arrival behaviors remain sensitive to factors like unpredictable system fluctuation whereby a prior estimation or the conventional assumption of arrival distribution (e.g., Poisson) may fail. This implies another practical yet often neglected challenge, i.e., uncertain task arrival distribution. Towards effective scheduling under a stationary environment with various uncertainties, we propose a double-optimistic learning based Robbins-Monro (DOL-RM) algorithm. Specifically, DOL-RM integrates a learning module that incorporates optimistic estimation for reward-to-cost ratio and a decision module that utilizes the Robbins-Monro method to implicitly learn task arrival distribution while making scheduling decisions. Theoretically, DOL-RM achieves convergence gap and no regret learning with a sub-linear regret of $O(T^{3/4})$, which is the first result for online task scheduling under uncertain task arrival distribution and unknown reward and cost. Our numerical results in a synthetic experiment and a real-world application demonstrate the effectiveness of DOL-RM in achieving the best cumulative reward-to-cost ratio compared with other state-of-the-art baselines.
翻訳日:2024-02-27 13:58:12 公開日:2024-02-26
# 逆翻訳による脱獄攻撃に対するLLMの防衛

Defending LLMs against Jailbreaking Attacks via Backtranslation ( http://arxiv.org/abs/2402.16459v1 )

ライセンス: Link先を確認
Yihan Wang, Zhouxing Shi, Andrew Bai, Cho-Jui Hsieh(参考訳) 多くの大きな言語モデル(LLM)は、有害な要求を拒否するように訓練されているが、それでも、その有害な意図を隠すためのオリジナルのプロンプトを書き換えるジェイルブレイク攻撃に対して脆弱である。 本稿では, 'backtranslation' による脱獄攻撃に対して LLM を防御する新しい手法を提案する。 具体的には、ターゲットLSMが入力プロンプトから生成した初期応答を考慮し、その応答につながる可能性のある入力プロンプトを推論するよう言語モデルに促す。 推論されたプロンプトは、LSMの応答に基づいて生成され、攻撃者が直接操作しないため、元のプロンプトの実際の意図を明らかにする傾向にある、バックトランスレートプロンプトと呼ばれる。 次に、再送信プロンプトでターゲットLSMを再度実行し、モデルが再送信プロンプトを拒否した場合、元のプロンプトを拒否する。 提案する防御は,その有効性と効率性にいくつかの利点がある。 我々は,我々の防衛がベースラインを著しく上回っていることを実証的に証明し,また,我々の防衛が良性入力プロンプトの生成品質にほとんど影響を与えていないことを実証した。

Although many large language models (LLMs) have been trained to refuse harmful requests, they are still vulnerable to jailbreaking attacks, which rewrite the original prompt to conceal its harmful intent. In this paper, we propose a new method for defending LLMs against jailbreaking attacks by ``backtranslation''. Specifically, given an initial response generated by the target LLM from an input prompt, our backtranslation prompts a language model to infer an input prompt that can lead to the response. The inferred prompt is called the backtranslated prompt which tends to reveal the actual intent of the original prompt, since it is generated based on the LLM's response and is not directly manipulated by the attacker. We then run the target LLM again on the backtranslated prompt, and we refuse the original prompt if the model refuses the backtranslated prompt. We explain that the proposed defense provides several benefits on its effectiveness and efficiency. We empirically demonstrate that our defense significantly outperforms the baselines, in the cases that are hard for the baselines, and our defense also has little impact on the generation quality for benign input prompts.
翻訳日:2024-02-27 13:57:46 公開日:2024-02-26
# d-xcb:公平かつ正確なトランスフォーマーに基づくサイバーいじめ検出のためのデータ非依存デバイアス

D-XCB: Data-independent Debiasing for Fair and Accurate Transformer-based Cyberbullying Detection ( http://arxiv.org/abs/2402.16458v1 )

ライセンス: Link先を確認
Peiling Yi and Arkaitz Zubiaga(参考訳) ウェアワードは、サイバーいじめインシデントを伴うデータセットを収集する一般的なプロキシである。 我々の焦点は、こうしたデータ収集戦略の結果として発生した誓約語とインシデントの間の素早い関連から導かれるバイアスの測定と緩和である。 これらのバイアスを実証し、定量化した後、モデル性能に影響を与えることなく、モデル注意をバイアス誘発語に緩和することを目的とした、敵対的トレーニング、バイアス制約、デバイアス微調整のアプローチを組み合わせた、最初のデータ非依存型デバイアス処理手法であるID-XCBを導入する。 セッションベースサイバーいじめデータセットのID-XCBと包括的アブレーションと一般化研究について検討する。 我々は,ID-XCBがバイアスを緩和しながらロバストなサイバーいじめ検出能力を学習し,性能とバイアス軽減の両面で最先端のデバイアス法より優れていることを示す。 定量的・定性的な分析により,データの一般性が証明された。

Swear words are a common proxy to collect datasets with cyberbullying incidents. Our focus is on measuring and mitigating biases derived from spurious associations between swear words and incidents occurring as a result of such data collection strategies. After demonstrating and quantifying these biases, we introduce ID-XCB, the first data-independent debiasing technique that combines adversarial training, bias constraints and debias fine-tuning approach aimed at alleviating model attention to bias-inducing words without impacting overall model performance. We explore ID-XCB on two popular session-based cyberbullying datasets along with comprehensive ablation and generalisation studies. We show that ID-XCB learns robust cyberbullying detection capabilities while mitigating biases, outperforming state-of-the-art debiasing methods in both performance and bias mitigation. Our quantitative and qualitative analyses demonstrate its generalisability to unseen data.
翻訳日:2024-02-27 13:57:24 公開日:2024-02-26
# RetrievalQA: 短期オープンドメイン質問応答に対する適応型検索拡張生成の評価

RetrievalQA: Assessing Adaptive Retrieval-Augmented Generation for Short-form Open-Domain Question Answering ( http://arxiv.org/abs/2402.16457v1 )

ライセンス: Link先を確認
Zihan Zhang, Meng Fang, Ling Chen(参考訳) Adaptive Search-augmented Generation (ARAG) は、ソース情報の効率性と関連性を高めるために、無差別に検索する代わりに、クエリに対する検索の必要性を動的に決定することを目的としている。 しかし、従来の研究はARAGアプローチの評価を概ね見落としており、その効果が検討されている。 この研究は、新しい世界とロングテール知識をカバーする1,271の短い形式の質問を含む、RetrievalQAというベンチマークを提示する。 質問に答えるために必要な知識は LLM から欠落しているため、外部情報は正しく答えるために取り出さなければならない。 これにより、RetrievalQAは既存のARAGメソッドを評価するのに適したテストベッドとなる。 キャリブレーションに基づく手法はしきい値調整に大きく依存しているのに対し,バニラプロンプトはLLMを誘導して信頼性の高い検索決定を行うには不十分である。 本研究は,LLMが校正や追加訓練を伴わずに検索の必要性を評価するのに役立つ,シンプルかつ効果的な方法であるTA-ARE(Time-Aware Adaptive Retrieval)を提案する。 データセットとコードは \url{https://github.com/hyintell/retrievalqa} で入手できる。

Adaptive retrieval-augmented generation (ARAG) aims to dynamically determine the necessity of retrieval for queries instead of retrieving indiscriminately to enhance the efficiency and relevance of the sourced information. However, previous works largely overlook the evaluation of ARAG approaches, leading to their effectiveness being understudied. This work presents a benchmark, RetrievalQA, comprising 1,271 short-form questions covering new world and long-tail knowledge. The knowledge necessary to answer the questions is absent from LLMs; therefore, external information must be retrieved to answer correctly. This makes RetrievalQA a suitable testbed to evaluate existing ARAG methods. We observe that calibration-based methods heavily rely on threshold tuning, while vanilla prompting is inadequate for guiding LLMs to make reliable retrieval decisions. Based on our findings, we propose Time-Aware Adaptive Retrieval (TA-ARE), a simple yet effective method that helps LLMs assess the necessity of retrieval without calibration or additional training. The dataset and code will be available at \url{https://github.com/hyintell/RetrievalQA}
翻訳日:2024-02-27 13:57:06 公開日:2024-02-26
# 計算流体力学問題に対するサーロゲート支援進化アルゴリズムの性能比較

Performance Comparison of Surrogate-Assisted Evolutionary Algorithms on Computational Fluid Dynamics Problems ( http://arxiv.org/abs/2402.16455v1 )

ライセンス: Link先を確認
Jakub Kudela and Ladislav Dobrovsky(参考訳) surrogate-assisted evolutionary algorithms (saeas) は近年、高価な実世界の最適化問題を解決する手法として最も広く研究されている。 しかし、新しい手法や他の手法によるベンチマークの開発は、まだほとんど人工的な問題のみに依存している。 本稿では,実世界の数値流体力学問題を用いて,11の最先端単目的SAEAの性能を比較する。 本研究では, 得られた溶液の品質とロバスト性および選択した方法の収束特性を調べた。 以上の結果から,最近発表された手法と,微分進化を最適化手法の1つとして活用する手法が,他の検討手法よりも優れていることが示唆された。

Surrogate-assisted evolutionary algorithms (SAEAs) are recently among the most widely studied methods for their capability to solve expensive real-world optimization problems. However, the development of new methods and benchmarking with other techniques still relies almost exclusively on artificially created problems. In this paper, we use two real-world computational fluid dynamics problems to compare the performance of eleven state-of-the-art single-objective SAEAs. We analyze the performance by investigating the quality and robustness of the obtained solutions and the convergence properties of the selected methods. Our findings suggest that the more recently published methods, as well as the techniques that utilize differential evolution as one of their optimization mechanisms, perform significantly better than the other considered methods.
翻訳日:2024-02-27 13:56:38 公開日:2024-02-26
# 未知の動的マルチ障害物環境における移動ロボットのオンライン安全臨界制御

Online Efficient Safety-Critical Control for Mobile Robots in Unknown Dynamic Multi-Obstacle Environments ( http://arxiv.org/abs/2402.16449v1 )

ライセンス: Link先を確認
Yu Zhang, Guangyao Tian, Long Wen, Xiangtong Yao, Liding Zhang, Zhenshan Bing, Wei He and Alois Knoll(参考訳) 本稿では, 静的かつ移動的な障害物が混在する非構造環境におけるオンライン障害物回避の効率性に対処するLiDARに基づく目標探索・探索フレームワークを提案する。 このフレームワークは、従来の動的制御障壁関数(D-CBF)に関連する2つの重要な課題に対処する。 最初の課題に取り組むために、フレームワークの知覚コンポーネントはDBSCANアルゴリズムを介してクラスタリングポイントクラウドから始まり、次いで最小境界楕円(MBE)アルゴリズムでこれらのクラスタをカプセル化して楕円表現を生成する。 MBEの現在の状態と過去の瞬間から保存した状態を比較することにより、静的障害と動的障害の区別を実現し、カルマンフィルタを用いて後者の動きを予測する。 このような分析は、各MBEに対するD-CBFのオンライン構築を促進する。 第2の課題に取り組むために,バッファゾーンを導入し,特定障害毎に2種類のd-cbfをオンラインで生成する。 これらのバッファゾーンを活性化領域として利用すると、活性化が必要なD-CBFの数が大幅に減少する。 これらのバッファゾーンに入ると、システムは安全を優先し、安全経路を自律的にナビゲートし、探索モードと呼ばれる。 これらのバッファゾーンを出力すると、システムのゴール探索モードへの移行がトリガーされる。 この枠組みに基づくシステムの状態が安全性と漸近安定化を達成することを実証する。 シミュレーション環境と実環境における実験結果から,lidarを搭載した移動ロボットが複数の障害物を含む動的環境内の所望の場所を効率的に安全に到達することを可能にした。

This paper proposes a LiDAR-based goal-seeking and exploration framework, addressing the efficiency of online obstacle avoidance in unstructured environments populated with static and moving obstacles. This framework addresses two significant challenges associated with traditional dynamic control barrier functions (D-CBFs): their online construction and the diminished real-time performance caused by utilizing multiple D-CBFs. To tackle the first challenge, the framework's perception component begins with clustering point clouds via the DBSCAN algorithm, followed by encapsulating these clusters with the minimum bounding ellipses (MBEs) algorithm to create elliptical representations. By comparing the current state of MBEs with those stored from previous moments, the differentiation between static and dynamic obstacles is realized, and the Kalman filter is utilized to predict the movements of the latter. Such analysis facilitates the D-CBF's online construction for each MBE. To tackle the second challenge, we introduce buffer zones, generating Type-II D-CBFs online for each identified obstacle. Utilizing these buffer zones as activation areas substantially reduces the number of D-CBFs that need to be activated. Upon entering these buffer zones, the system prioritizes safety, autonomously navigating safe paths, and hence referred to as the exploration mode. Exiting these buffer zones triggers the system's transition to goal-seeking mode. We demonstrate that the system's states under this framework achieve safety and asymptotic stabilization. Experimental results in simulated and real-world environments have validated our framework's capability, allowing a LiDAR-equipped mobile robot to efficiently and safely reach the desired location within dynamic environments containing multiple obstacles.
翻訳日:2024-02-27 13:56:26 公開日:2024-02-26
# ShieldLM: LLMをカスタマイズ可能な、説明可能な安全検知器として活用する

ShieldLM: Empowering LLMs as Aligned, Customizable and Explainable Safety Detectors ( http://arxiv.org/abs/2402.16444v1 )

ライセンス: Link先を確認
Zhexin Zhang, Yida Lu, Jingyuan Ma, Di Zhang, Rui Li, Pei Ke, Hao Sun, Lei Sha, Zhifang Sui, Hongning Wang, Minlie Huang(参考訳) 近年,大規模言語モデル(llms)の安全性が注目されているが,調整可能で説明可能な方法でllmsの応答に含まれる安全性問題を検出するための包括的アプローチが不足している。 本論文では, LLMに基づく安全検知器であるShieldLMを提案し, 一般の安全基準に適合し, カスタマイズ可能な検出ルールをサポートし, その決定について解説する。 shieldlmをトレーニングするために,14,387個の問合せ応答ペアからなる大規模バイリンガルデータセットをコンパイルし,各種安全基準に基づく応答の安全性を付与する。 広範な実験を通じて、ShieldLMは4つのテストセットにまたがる強いベースラインを超え、優れたカスタマイズ性と説明可能性を示す。 標準検出データセットの性能向上に加えて、SilmLMは高度なLCMの安全性評価器として現実の状況でも有効であることが示されている。 各種安全基準の下での高精度かつ説明可能な安全性検出を支援するため,ShieldLM を \url{https://github.com/thu-coai/ShieldLM} でリリースする。

The safety of Large Language Models (LLMs) has gained increasing attention in recent years, but there still lacks a comprehensive approach for detecting safety issues within LLMs' responses in an aligned, customizable and explainable manner. In this paper, we propose ShieldLM, an LLM-based safety detector, which aligns with general human safety standards, supports customizable detection rules, and provides explanations for its decisions. To train ShieldLM, we compile a large bilingual dataset comprising 14,387 query-response pairs, annotating the safety of responses based on various safety standards. Through extensive experiments, we demonstrate that ShieldLM surpasses strong baselines across four test sets, showcasing remarkable customizability and explainability. Besides performing well on standard detection datasets, ShieldLM has also been shown to be effective in real-world situations as a safety evaluator for advanced LLMs. We release ShieldLM at \url{https://github.com/thu-coai/ShieldLM} to support accurate and explainable safety detection under various safety standards, contributing to the ongoing efforts to enhance the safety of LLMs.
翻訳日:2024-02-27 13:55:58 公開日:2024-02-26
# ペアワイズ部分モジュラ関数を用いた分散大規模タンメモリサブセット選択について

On Distributed Larger-Than-Memory Subset Selection With Pairwise Submodular Functions ( http://arxiv.org/abs/2402.16442v1 )

ライセンス: Link先を確認
Maximilian B\"other, Abraham Sebastian, Pranjal Awasthi, Ana Klimovic, Srikumar Ramalingam(参考訳) 多くの学習問題は、部分集合選択の基本的な問題、すなわち重要点と代表点のサブセットを特定することにひっかかる。 例えば、mlトレーニングで最も重要なサンプルを選択することで、トレーニングコストを削減できるだけでなく、モデルの品質も向上できる。 部分モジュラリティ(submodularity)は凸性の離散類推であり、集合選択問題を解くためによく用いられる。 しかしながら、サブモジュール関数を最適化するための既存のアルゴリズムは逐次的であり、以前の分散手法ではターゲットサブセットに適合するために少なくとも1つの中央マシンが必要である。 本稿では,証明可能な近似保証付き分散バウンディングアルゴリズムを提案することにより,対象サブセットの中央マシンを持つ必要を緩和する。 アルゴリズムは最小と最大のユーティリティ値を反復的にバインドして高品質のポイントを選択し、重要でないものを捨てる。 バウンディングが完全なサブセットを見つけられない場合、マルチラウンドのパーティションベースの分散グリーディアルゴリズムを使用して、残りのサブセットを識別します。 これらのアルゴリズムは,CIFAR-100とImageNetの高品質なサブセットを中央集権的手法と比較すると,品質が損なわれ,13億点のデータセットにスケールすることを示した。

Many learning problems hinge on the fundamental problem of subset selection, i.e., identifying a subset of important and representative points. For example, selecting the most significant samples in ML training cannot only reduce training costs but also enhance model quality. Submodularity, a discrete analogue of convexity, is commonly used for solving subset selection problems. However, existing algorithms for optimizing submodular functions are sequential, and the prior distributed methods require at least one central machine to fit the target subset. In this paper, we relax the requirement of having a central machine for the target subset by proposing a novel distributed bounding algorithm with provable approximation guarantees. The algorithm iteratively bounds the minimum and maximum utility values to select high quality points and discard the unimportant ones. When bounding does not find the complete subset, we use a multi-round, partition-based distributed greedy algorithm to identify the remaining subset. We show that these algorithms find high quality subsets on CIFAR-100 and ImageNet with marginal or no loss in quality compared to centralized methods, and scale to a dataset with 13 billion points.
翻訳日:2024-02-27 13:55:34 公開日:2024-02-26
# 言語特異的ニューロン:大規模言語モデルにおける多言語能力の鍵

Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models ( http://arxiv.org/abs/2402.16438v1 )

ライセンス: Link先を確認
Tianyi Tang, Wenyang Luo, Haoyang Huang, Dongdong Zhang, Xiaolei Wang, Xin Zhao, Furu Wei, Ji-Rong Wen(参考訳) 大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。 LLMが多言語テキストを処理するメカニズムを説明するのは難しい問題である。 本稿では,llmにおけるトランスフォーマーアーキテクチャの構成を調べ,言語固有の領域をピンポイントする。 具体的には,LLM内の言語特異的ニューロンを識別する言語アクティベーション確率エントロピー(LAPE)を提案する。 LAPEに基づいて,LLaMA-2とBLOOMの2つの代表的なLLMについて包括的な実験を行った。 以上の結果から,LLMの特定の言語処理能力は,主にモデル上層と下層に位置する少数のニューロンが原因であることが示唆された。 さらに、言語特異的ニューロンを選択的に活性化または非活性化することにより、LLMの出力言語を「ステア」する可能性を示す。 本研究は,LLMの多言語能力の理解と探索に重要な証拠を提供する。

Large language models (LLMs) demonstrate remarkable multilingual capabilities without being pre-trained on specially curated multilingual parallel corpora. It remains a challenging problem to explain the underlying mechanisms by which LLMs process multilingual texts. In this paper, we delve into the composition of Transformer architectures in LLMs to pinpoint language-specific regions. Specially, we propose a novel detection method, language activation probability entropy (LAPE), to identify language-specific neurons within LLMs. Based on LAPE, we conduct comprehensive experiments on two representative LLMs, namely LLaMA-2 and BLOOM. Our findings indicate that LLMs' proficiency in processing a particular language is predominantly due to a small subset of neurons, primarily situated in the models' top and bottom layers. Furthermore, we showcase the feasibility to "steer" the output language of LLMs by selectively activating or deactivating language-specific neurons. Our research provides important evidence to the understanding and exploration of the multilingual capabilities of LLMs.
翻訳日:2024-02-27 13:55:12 公開日:2024-02-26
# 不変統計損失による暗黙的生成モデルの訓練

Training Implicit Generative Models via an Invariant Statistical Loss ( http://arxiv.org/abs/2402.16435v1 )

ライセンス: Link先を確認
Jos\'e Manuel de Frutos and Pablo M. Olmos and Manuel A. V\'azquez and Joaqu\'in M\'iguez(参考訳) 暗黙的生成モデルには任意の複雑なデータ分布を学習する能力がある。 マイナス面として、トレーニングでは、敵の識別器を使用して人工的に生成されたデータから実際のデータを分離する必要がある。 Zahee et al. (2017) が報告したように、一次元(1D)の場合においても、GAN (generative adversarial network) の訓練は困難であり、しばしば準最適である。 本研究では,一次元(1次元)生成的暗黙モデルを訓練し,多変量の場合に対応するためにこの方法を拡張するための判別子フリーな手法を開発した。 我々の損失関数は、モデルサンプルの適切な選択された変換と一様分布との間の不一致測度であり、従ってデータの真の分布に関して不変である。 まず, 任意の複素分布の近似再パラメータ化に有効な解として, 1次元確率変数を定式化する。 次に,プロセスの履歴から各サンプルの条件分布をモデル化する時間的設定(単変量と多変量の両方)について考察する。 我々は,本手法が有望な結果をもたらし,様々なシナリオで真の分布を学習し,最先端の暗黙的手法が持つよく知られた問題のいくつかを緩和することを示した。

Implicit generative models have the capability to learn arbitrary complex data distributions. On the downside, training requires telling apart real data from artificially-generated ones using adversarial discriminators, leading to unstable training and mode-dropping issues. As reported by Zahee et al. (2017), even in the one-dimensional (1D) case, training a generative adversarial network (GAN) is challenging and often suboptimal. In this work, we develop a discriminator-free method for training one-dimensional (1D) generative implicit models and subsequently expand this method to accommodate multivariate cases. Our loss function is a discrepancy measure between a suitably chosen transformation of the model samples and a uniform distribution; hence, it is invariant with respect to the true distribution of the data. We first formulate our method for 1D random variables, providing an effective solution for approximate reparameterization of arbitrary complex distributions. Then, we consider the temporal setting (both univariate and multivariate), in which we model the conditional distribution of each sample given the history of the process. We demonstrate through numerical simulations that this new method yields promising results, successfully learning true distributions in a variety of scenarios and mitigating some of the well-known problems that state-of-the-art implicit methods present.
翻訳日:2024-02-27 13:54:51 公開日:2024-02-26
# RoCoIns: コードスタイル命令による大規模言語モデルのロバスト性向上

RoCoIns: Enhancing Robustness of Large Language Models through Code-Style Instructions ( http://arxiv.org/abs/2402.16431v1 )

ライセンス: Link先を確認
Yuansen Zhang, Xiao Wang, Zhiheng Xi, Han Xia, Tao Gui, Qi Zhang, Xuanjing Huang(参考訳) 大きな言語モデル(LLM)は、人間の指示に従う際、顕著な能力を示した。 しかし、近年の研究では、テキスト逆数サンプルを併用した指示によるLDMの堅牢性への懸念が高まっている。 本稿では、LLMが命令の設計に敏感である最近の研究からインスピレーションを得て、より構造的で曖昧なコードスタイルの命令を用いて、典型的には自然言語命令を置き換える。 この変換により、より正確な命令をLLMに提供し、LLMの堅牢性を強化する。 さらに, 少数のシナリオにおいて, クリーンなサンプルと敵のサンプル(\textit{adversarial context method})の両方を用いて, llmのロバスト性をさらに高めるために, コンテキスト内デモを構成する新しい手法を提案する。 8つのロバスト性データセットの実験により、我々の手法は自然言語命令によるLLMよりも一貫して優れていた。 例えば、gpt-3.5-turboでは、テストセットの精度が5.68\%向上し、攻撃成功率(asr)が5.66ポイント向上した。

Large Language Models (LLMs) have showcased remarkable capabilities in following human instructions. However, recent studies have raised concerns about the robustness of LLMs when prompted with instructions combining textual adversarial samples. In this paper, drawing inspiration from recent works that LLMs are sensitive to the design of the instructions, we utilize instructions in code style, which are more structural and less ambiguous, to replace typically natural language instructions. Through this conversion, we provide LLMs with more precise instructions and strengthen the robustness of LLMs. Moreover, under few-shot scenarios, we propose a novel method to compose in-context demonstrations using both clean and adversarial samples (\textit{adversarial context method}) to further boost the robustness of the LLMs. Experiments on eight robustness datasets show that our method consistently outperforms prompting LLMs with natural language instructions. For example, with gpt-3.5-turbo, our method achieves an improvement of 5.68\% in test set accuracy and a reduction of 5.66 points in Attack Success Rate (ASR).
翻訳日:2024-02-27 13:54:28 公開日:2024-02-26
# COMAE: ゼロショットハッシュのための総合的な属性探索

COMAE: COMprehensive Attribute Exploration for Zero-shot Hashing ( http://arxiv.org/abs/2402.16424v1 )

ライセンス: Link先を確認
Yihang Zhou, Qingqing Long, Yuchen Yan, Xiao Luo, Zeyu Dong, Xuezhi Wang, Zhen Meng, Pengfei Wang, Yuanchun Zhou(参考訳) ゼロショットハッシュ (ZSH) は, 大規模検索シナリオにおける効率性と一般化により, 優れた成功を収めている。 かなりの成功を収めたが、まだ緊急の制限がある。 既存の作業では、表現と属性の局所性関係は無視されている。 また、連続値属性は完全には活用されない。 そこで我々は,zshの包括的属性探索(comae)を行い,出現したクラスから見えないもの,すなわち,ポイントワイズ・ペアワイズ・クラスワイズ・一貫性制約の3つの注意深い設計を行った。 提案する属性プロトタイプネットワークから属性を回帰することにより,COMAEは視覚属性に関連する局所的特徴を学習する。 COMAEはコントラスト学習を利用して、インスタンスに依存しない最適化ではなく、属性のコンテキストを包括的に表現する。 最後に、クラスワイド制約はハッシュコード、画像表現、視覚属性をより効果的に学習するように設計されている。 一般的なZSHデータセットの実験結果から、COMAEは最先端のハッシュ技術よりも優れており、特に多くの未確認ラベルクラスを持つシナリオでは特に優れています。

Zero-shot hashing (ZSH) has shown excellent success owing to its efficiency and generalization in large-scale retrieval scenarios. While considerable success has been achieved, there still exist urgent limitations. Existing works ignore the locality relationships of representations and attributes, which have effective transferability between seeable classes and unseeable classes. Also, the continuous-value attributes are not fully harnessed. In response, we conduct a COMprehensive Attribute Exploration for ZSH, named COMAE, which depicts the relationships from seen classes to unseen ones through three meticulously designed explorations, i.e., point-wise, pair-wise and class-wise consistency constraints. By regressing attributes from the proposed attribute prototype network, COMAE learns the local features that are relevant to the visual attributes. Then COMAE utilizes contrastive learning to comprehensively depict the context of attributes, rather than instance-independent optimization. Finally, the class-wise constraint is designed to cohesively learn the hash code, image representation, and visual attributes more effectively. Experimental results on the popular ZSH datasets demonstrate that COMAE outperforms state-of-the-art hashing techniques, especially in scenarios with a larger number of unseen label classes.
翻訳日:2024-02-27 13:54:06 公開日:2024-02-26
# 拡散モデルによるアウトラインガイド物体の塗装

Outline-Guided Object Inpainting with Diffusion Models ( http://arxiv.org/abs/2402.16421v1 )

ライセンス: Link先を確認
Markus Pobitzer, Filip Janicki, Mattia Rigotti, Cristiano Malossi(参考訳) インスタンスセグメンテーションデータセットは、正確で堅牢なコンピュータビジョンモデルのトレーニングにおいて重要な役割を果たす。 しかし、高品質なセグメンテーションデータセットを作成するための正確なマスクアノテーションを得ることはコストと労力のかかるプロセスである。 そこで本研究では,小規模のアノテートインスタンスセグメンテーションデータセットを起動し,それらを拡張することにより,この課題を軽減し,大規模にアノテートされたデータセットを効果的に得る方法を示す。 得られたマスクアノテーションを保存する方法で利用可能なアノテーション付きオブジェクトインスタンスのバリエーションを作成することで、アノテーション付きイメージのセットに新しいイメージマスクペアを追加することができる。 具体的には,拡散モデルを用いて新しい画像を生成し,対象の輪郭に拡散を誘導することにより,目的のオブジェクトクラスでマスク領域を埋める。 提案手法は,テキストによる指導を必要とせず,適切なクラスのオブジェクトでマスクを記入するのに十分であり,生成した画像とマスクアノテーションとの対応を高精度に保ちながら,簡易かつ信頼性の高いトレーニングフリーな誘導信号を提供する。 実験結果から,本手法は,拡張領域内での多様性を導入しながら,形状特性を保ちながら,現実的なオブジェクトインスタンスの変動を生成することに成功した。 また,提案手法は自然にテキスト指導や他の画像拡張技術と組み合わせることができることを示した。

Instance segmentation datasets play a crucial role in training accurate and robust computer vision models. However, obtaining accurate mask annotations to produce high-quality segmentation datasets is a costly and labor-intensive process. In this work, we show how this issue can be mitigated by starting with small annotated instance segmentation datasets and augmenting them to effectively obtain a sizeable annotated dataset. We achieve that by creating variations of the available annotated object instances in a way that preserves the provided mask annotations, thereby resulting in new image-mask pairs to be added to the set of annotated images. Specifically, we generate new images using a diffusion-based inpainting model to fill out the masked area with a desired object class by guiding the diffusion through the object outline. We show that the object outline provides a simple, but also reliable and convenient training-free guidance signal for the underlying inpainting model that is often sufficient to fill out the mask with an object of the correct class without further text guidance and preserve the correspondence between generated images and the mask annotations with high precision. Our experimental results reveal that our method successfully generates realistic variations of object instances, preserving their shape characteristics while introducing diversity within the augmented area. We also show that the proposed method can naturally be combined with text guidance and other image augmentation techniques.
翻訳日:2024-02-27 13:53:43 公開日:2024-02-26
# コース記述を用いた持続可能な開発目標の予測 -LCMから従来の基礎モデルへ-

Predicting Sustainable Development Goals Using Course Descriptions -- from LLMs to Conventional Foundation Models ( http://arxiv.org/abs/2402.16420v1 )

ライセンス: Link先を確認
Lev Kharlashkin, Melany Macias, Leo Huovinen, Mika H\"am\"al\"ainen(参考訳) 我々は,大学における国連持続可能な開発目標(sdg)の予測に関する取り組みについて紹介する。 ノイズの多いコース記述が入力として入力された場合,PALM 2 という LLM を用いてトレーニングデータを生成する。 このデータを使って、いくつかの異なる小さな言語モデルをトレーニングし、大学のコースでsdgを予測する。 この研究はSDGの大学レベルの適応に寄与する。 私たちの実験で最高のパフォーマンスモデルは、F1スコア0.786のBARTでした。

We present our work on predicting United Nations sustainable development goals (SDG) for university courses. We use an LLM named PaLM 2 to generate training data given a noisy human-authored course description input as input. We use this data to train several different smaller language models to predict SDGs for university courses. This work contributes to better university level adaptation of SDGs. The best performing model in our experiments was BART with an F1-score of 0.786.
翻訳日:2024-02-27 13:53:17 公開日:2024-02-26
# TOTEM:一般時系列解析のためのTokenized Time Series EMbeddings

TOTEM: TOkenized Time Series EMbeddings for General Time Series Analysis ( http://arxiv.org/abs/2402.16412v1 )

ライセンス: Link先を確認
Sabera Talukder and Yisong Yue and Georgia Gkioxari(参考訳) 一般的な時系列解析の分野は、最近、特定のデータセットの特定のタスクで共通のアーキテクチャのバックボーンを再トレーニングできる統一モデリングを探求し始めている。 本研究では,タスクとドメイン間の統一という,相補的優位点から統一にアプローチする。 この目的のために、汎用的なクロスドメイントレーニングを可能にする離散的、学習的、時系列データ表現の影響について検討する。 本手法,TOTEM,Tokenized Time Series EMbeddings は,自己教師型で学習した離散ベクトル化表現を用いて,様々な領域からの時系列データを埋め込んだ単純なトークン化アーキテクチャを提案する。 TOTEMは、最小限から無チューニングで、複数のタスクやドメインで動作します。 3つのタスクにわたる17のリアルタイム時系列データセットに対して,TOTEMの有効性を広範囲に評価して検討した。 我々は、専門家(各ドメイン上でモデルをトレーニングする)とジェネラリスト(複数のドメイン上で単一モデルをトレーニングする)の両方の設定を評価し、TOTEMがいくつかの人気のあるベンチマークにおいて、以前のベストメソッドにマッチするか、より優れていることを示す。 コードは、https://github.com/SaberaTalukder/TOTEM.comで参照できる。

The field of general time series analysis has recently begun to explore unified modeling, where a common architectural backbone can be retrained on a specific task for a specific dataset. In this work, we approach unification from a complementary vantage point: unification across tasks and domains. To this end, we explore the impact of discrete, learnt, time series data representations that enable generalist, cross-domain training. Our method, TOTEM, or TOkenized Time Series EMbeddings, proposes a simple tokenizer architecture that embeds time series data from varying domains using a discrete vectorized representation learned in a self-supervised manner. TOTEM works across multiple tasks and domains with minimal to no tuning. We study the efficacy of TOTEM with an extensive evaluation on 17 real world time series datasets across 3 tasks. We evaluate both the specialist (i.e., training a model on each domain) and generalist (i.e., training a single model on many domains) settings, and show that TOTEM matches or outperforms previous best methods on several popular benchmarks. The code can be found at: https://github.com/SaberaTalukder/TOTEM.
翻訳日:2024-02-27 13:53:09 公開日:2024-02-26
# LLMArena:動的マルチエージェント環境における大規模言語モデルの能力評価

LLMArena: Assessing Capabilities of Large Language Models in Dynamic Multi-Agent Environments ( http://arxiv.org/abs/2402.16499v1 )

ライセンス: Link先を確認
Junzhe Chen, Xuming Hu, Shuodi Liu, Shiyu Huang, Wei-Wei Tu, Zhaofeng He and Lijie Wen(参考訳) 大規模言語モデル(LLM)の最近の進歩は、人間レベルの知能を持つ自律エージェントの実現の可能性を明らかにしている。 しかしながら、llmエージェントを評価するための既存のベンチマークは、静的データセットを使用するか、マルチエージェントインタラクションの複雑さを見下ろすシングルエージェントシナリオのみに注目する可能性がある。 マルチエージェント動的環境におけるllmエージェントの多様な能力を評価するベンチマークが欠如している。 LLMArenaは,マルチエージェント動的環境におけるLLMの多様な機能を評価するための,新規かつ容易に拡張可能なフレームワークである。 LLMArenaには7つの異なるゲーム環境があり、空間推論、戦略計画、数値推論、リスク評価、コミュニケーション、相手モデリング、チームコラボレーションなど、LLMエージェントの重要な能力を評価するTrueskillスコアを採用している。 我々は、LLMの規模や種類によって、広範囲にわたる実験と人的評価を行い、LLMは、特に対向モデリングやチームコラボレーションにおいて、完全に自律的なエージェントになるための開発において、依然として大きな進歩を遂げていることを示す。 LLMArenaは将来、LLMにおけるこれらの機能拡張に向けた研究をガイドし、最終的には動的でマルチエージェントな設定におけるより洗練された実践的な応用に繋がることを期待しています。 コードとデータは利用可能になる。

Recent advancements in large language models (LLMs) have revealed their potential for achieving autonomous agents possessing human-level intelligence. However, existing benchmarks for evaluating LLM Agents either use static datasets, potentially leading to data leakage or focus only on single-agent scenarios, overlooking the complexities of multi-agent interactions. There is a lack of a benchmark that evaluates the diverse capabilities of LLM agents in multi-agent, dynamic environments. To this end, we introduce LLMArena, a novel and easily extensible framework for evaluating the diverse capabilities of LLM in multi-agent dynamic environments. LLMArena encompasses seven distinct gaming environments, employing Trueskill scoring to assess crucial abilities in LLM agents, including spatial reasoning, strategic planning, numerical reasoning, risk assessment, communication, opponent modeling, and team collaboration. We conduct an extensive experiment and human evaluation among different sizes and types of LLMs, showing that LLMs still have a significant journey ahead in their development towards becoming fully autonomous agents, especially in opponent modeling and team collaboration. We hope LLMArena could guide future research towards enhancing these capabilities in LLMs, ultimately leading to more sophisticated and practical applications in dynamic, multi-agent settings. The code and data will be available.
翻訳日:2024-02-27 13:47:19 公開日:2024-02-26
# SAND: 低いオーバーヘッドでファジングから衛生を分離する

SAND: Decoupling Sanitization from Fuzzing for Low Overhead ( http://arxiv.org/abs/2402.16497v1 )

ライセンス: Link先を確認
Ziqiao Kong, Shaohua Li, Heqing Huang, Zhendong Su(参考訳) Sanitizersは、さまざまなソフトウェア脆弱性に対して堅牢なテストオラクルを提供する。 サニタイザ対応プログラムのファジィングは、ソフトウェアバグを見つけるためのベストプラクティスです。 サニタイザは実行時のチェックを挿入するためにターゲットプログラムを十分に実装する必要があるため、サニタイザ対応プログラムは通常のプログラムに比べてオーバーヘッドが大きい。 本稿では, ファジィリングループから衛生化を分離する新しいファジィリングフレームワークであるSANDを提案する。 SANDは通常構築されたプログラムでファジィングを行い、入力が興味深いことを示すときにのみサニタイザ対応プログラムを起動する。 生成されたインプットのほとんどは興味深いものではなく、つまりバグトリガではないため、SANDは通常のプログラムにファジィング時間の大半を費やすことができる。 興味のあるインプットを特定するために,通常構築されたプログラム上で実行分析を行うための実行パターンを提案する。 AFL++上でSANDを実現し,実世界の12のプログラムで評価する。 ASan/UBSan対応プログラムとMSan対応プログラムのファジングと比較して、SANDはそれぞれ2.6倍と15倍のスループットを達成し、51%と242%のバグを検出する。

Sanitizers provide robust test oracles for various software vulnerabilities. Fuzzing on sanitizer-enabled programs has been the best practice to find software bugs. Since sanitizers need to heavily instrument a target program to insert run-time checks, sanitizer-enabled programs have much higher overhead compared to normally built programs. In this paper, we present SAND, a new fuzzing framework that decouples sanitization from the fuzzing loop. SAND performs fuzzing on a normally built program and only invokes sanitizer-enabled programs when input is shown to be interesting. Since most of the generated inputs are not interesting, i.e., not bug-triggering, SAND allows most of the fuzzing time to be spent on the normally built program. To identify interesting inputs, we introduce execution pattern for a practical execution analysis on the normally built program. We realize SAND on top of AFL++ and evaluate it on 12 real-world programs. Our extensive evaluation highlights its effectiveness: on a period of 24 hours, compared to fuzzing on ASan/UBSan-enabled and MSan-enabled programs, SAND respectively achieves 2.6x and 15x throughput and detects 51% and 242% more bugs.
翻訳日:2024-02-27 13:46:55 公開日:2024-02-26
# 効率的な量子格子ガスオートマタ

Efficient Quantum Lattice Gas Automata ( http://arxiv.org/abs/2402.16488v1 )

ライセンス: Link先を確認
Antonio David Bastida Zamora, Ljubomir Budinski, Ossi Niemim\"aki, Valtteri Lahtinen(参考訳) 本研究では, 1次元および2次元格子ガスオートマトンシミュレーションのための新しい量子アルゴリズムを提案し, 対数複雑性を$CX$ゲートで証明した。 アルゴリズムは衝突、マッピング、伝播という3つの主要なステップで構成されている。 計算複雑性解析と、異なる誤差率とショット数による比較を提供する。 ノイズの影響にも拘わらず,現在のノイズデバイスでは正確なシミュレーションが実現可能であることを示唆する。 このことは、量子格子ガスオートマトンを用いた古典流体力学の効率的なシミュレーション、時間ステップの連結と状態準備の進行の条件付けの可能性を示唆している。

This study presents a novel quantum algorithm for 1D and 2D lattice gas automata simulation, demonstrating logarithmic complexity in terms of $CX$ gates. The algorithm is composed by three main steps: collision, mapping and propagation. A computational complexity analysis and a comparison using different error rates and number of shots are provided. Despite the impact of noise, our findings indicate that accurate simulations could be achieved already on current noisy devices. This suggests potential for efficient simulation of classical fluid dynamics using quantum lattice gas automata, conditional on advancements in time step concatenation and state preparation.
翻訳日:2024-02-27 13:46:37 公開日:2024-02-26
# 知的な既知の新しい航空機認識 -- 戦闘識別のための分類から類似性学習へのシフト-

Intelligent Known and Novel Aircraft Recognition -- A Shift from Classification to Similarity Learning for Combat Identification ( http://arxiv.org/abs/2402.16486v1 )

ライセンス: Link先を確認
Ahmad Saeed, Haasha Bin Atif, Usman Habib and Mohsin Bilal(参考訳) 低解像度リモートセンシング画像における高精度な航空機認識は、航空、特に戦闘識別において難しいが重要な課題である。 この研究は、新しい、スケーラブルで、AI駆動のソリューションでこの問題に対処する。 リモートセンシング画像における戦闘識別の最大の障害は、既知のタイプに加えて、新規/未知の航空機の正確な認識である。 ヒトの専門家による戦闘識別と画像分類の伝統的な手法は、新しいクラスを特定するのに不足している。 本手法は類似性学習を用いて,多種多様な軍用機と民間機の特徴を識別する。 既知の航空機タイプと新しい航空機タイプの両方を識別し、識別にメートル法学習を活用し、航空機タイプ分類のための少数ショット学習を監督する。 低解像度リモートセンシングデータの制限に対処するため,汎用組込み機を完全教師付きで訓練することにより,多種多様な軍用航空機認識プロセスに適応するエンドツーエンドフレームワークを提案する。 従来の航空機画像分類法と比較して,本手法は航空機画像分類(F1-score Aircraft Type of 0.861)と新規型識別(F1-score Bipartitioning of 0.936)の定量化に有効であることが示された。 提案手法は,リモートセンシングデータの固有の課題を効果的に解決し,データセット品質の新たな基準を設定する。 この研究は、ドメインの専門家のための新しい道を開き、様々な航空機を区別するユニークな能力を示し、より堅牢でドメインに適応した、リアルタイムの航空機認識に寄与する。

Precise aircraft recognition in low-resolution remote sensing imagery is a challenging yet crucial task in aviation, especially combat identification. This research addresses this problem with a novel, scalable, and AI-driven solution. The primary hurdle in combat identification in remote sensing imagery is the accurate recognition of Novel/Unknown types of aircraft in addition to Known types. Traditional methods, human expert-driven combat identification and image classification, fall short in identifying Novel classes. Our methodology employs similarity learning to discern features of a broad spectrum of military and civilian aircraft. It discerns both Known and Novel aircraft types, leveraging metric learning for the identification and supervised few-shot learning for aircraft type classification. To counter the challenge of limited low-resolution remote sensing data, we propose an end-to-end framework that adapts to the diverse and versatile process of military aircraft recognition by training a generalized embedder in fully supervised manner. Comparative analysis with earlier aircraft image classification methods shows that our approach is effective for aircraft image classification (F1-score Aircraft Type of 0.861) and pioneering for quantifying the identification of Novel types (F1-score Bipartitioning of 0.936). The proposed methodology effectively addresses inherent challenges in remote sensing data, thereby setting new standards in dataset quality. The research opens new avenues for domain experts and demonstrates unique capabilities in distinguishing various aircraft types, contributing to a more robust, domain-adapted potential for real-time aircraft recognition.
翻訳日:2024-02-27 13:46:27 公開日:2024-02-26
# シミュレーションエンジンのラングングについて

On Languaging a Simulation Engine ( http://arxiv.org/abs/2402.16482v1 )

ライセンス: Link先を確認
Han Liu, Liantang Li(参考訳) 言語モデルインテリジェンスは、材料シミュレーションのプログラミング方法に革命をもたらしています。 しかし、シミュレーションシナリオの多様性は、人間の言語をカスタマイズされたシミュレータに正確に変換することを困難にしている。 本稿では,多孔質行列における水吸収のシナリオを用いて,シミュレーションエンジンを動作させる際の対話型ナビゲーションを実現する言語間シミュレーション(lang2sim)フレームワークを提案する。 対象シミュレータのラインバイライン符号化とは異なり、言語モデルは各シミュレータを不変ツール関数とその変種入出力対のアセンブリとして解釈する。 Lang2Simは、言語モデルの機能化とシーケンシャル化、ツール分類の合理化、入力と出力の組み合わせのカスタマイズ、シミュレータ入力を実行可能なフォーマットに蒸留することで、テキスト記述の正確な変換を可能にする。 重要なことは、その機能化されたタイプによって、各言語モデルは、そのメモリ限界と情報の完全性とを最大限にバランスさせるために、チャット履歴の異なる処理を特徴としている。 全体として、この研究はシミュレーションエンジンのランゲージの時代を解き放つインテリジェントなプラットフォームとして言語モデルを確立します。

Language model intelligence is revolutionizing the way we program materials simulations. However, the diversity of simulation scenarios renders it challenging to precisely transform human language into a tailored simulator. Here, using three functionalized types of language model, we propose a language-to-simulation (Lang2Sim) framework that enables interactive navigation on languaging a simulation engine, by taking a scenario instance of water sorption in porous matrices. Unlike line-by-line coding of a target simulator, the language models interpret each simulator as an assembly of invariant tool function and its variant input-output pair. Lang2Sim enables the precise transform of textual description by functionalizing and sequentializing the language models of, respectively, rationalizing the tool categorization, customizing its input-output combinations, and distilling the simulator input into executable format. Importantly, depending on its functionalized type, each language model features a distinct processing of chat history to best balance its memory limit and information completeness, thus leveraging the model intelligence to unstructured nature of human request. Overall, this work establishes language model as an intelligent platform to unlock the era of languaging a simulation engine.
翻訳日:2024-02-27 13:45:58 公開日:2024-02-26
# ラプラシアン固有写像のカーネル解析

A kernel-based analysis of Laplacian Eigenmaps ( http://arxiv.org/abs/2402.16481v1 )

ライセンス: Link先を確認
Martin Wahl(参考訳) 閉多様体 $\mathcal{M}\subseteq \mathbb{R}^p$ 上で均一に分布する i.d. 観測を考えると、ガウス核に基づく関連する経験グラフ Laplacian のスペクトル特性を研究する。 我々の主な結果は非漸近誤差境界であり、経験グラフラプラシアンの固有値と固有空間が$\mathcal{M}$のラプラス・ベルトラミ作用素の固有値と固有空間に近いことを示す。 解析では、経験的グラフラプラシアンとカーネル主成分分析を結合し、$\mathcal{m}$の熱核をカーネル機能マップとして考える。 これは新しい視点につながり、無限次元における経験的共分散作用素の結果を利用することができる。

Given i.i.d. observations uniformly distributed on a closed manifold $\mathcal{M}\subseteq \mathbb{R}^p$, we study the spectral properties of the associated empirical graph Laplacian based on a Gaussian kernel. Our main results are non-asymptotic error bounds, showing that the eigenvalues and eigenspaces of the empirical graph Laplacian are close to the eigenvalues and eigenspaces of the Laplace-Beltrami operator of $\mathcal{M}$. In our analysis, we connect the empirical graph Laplacian to kernel principal component analysis, and consider the heat kernel of $\mathcal{M}$ as reproducing kernel feature map. This leads to novel points of view and allows to leverage results for empirical covariance operators in infinite dimensions.
翻訳日:2024-02-27 13:45:35 公開日:2024-02-26
# オープンソースプロジェクトにおけるchatgptの利用状況 - マイニングに基づく研究

Unveiling ChatGPT's Usage in Open Source Projects: A Mining-based Study ( http://arxiv.org/abs/2402.16480v1 )

ライセンス: Link先を確認
Rosalia Tufano, Antonio Mastropaolo, Federica Pepe, Ozren Dabi\'c, Massimiliano Di Penta, Gabriele Bavota(参考訳) 大規模言語モデル(llm)はソフトウェア工学のコミュニティで大きな注目を集めている。 今日では、OpenAIのChatGPTなど、LLMに対する便利なインターフェースを提供する産業レベルのツールを通じて、これらのモデルを活用することができる。 様々なタスクにまたがって開発者を支援するLLMの可能性は文献に記録されているが、ソフトウェアプロジェクトにおけるLLMの実際の使用をマッピングする実証的な証拠は乏しい。 この作業では、このようなギャップを埋めることを目指しています。 まず、1,501のコミット、プルリクエスト(PR)、そしてタスクを達成するためのChatGPTの使用を示す正規表現を一致させることによって、オープンソースプロジェクトから問題を取り除きます。 そして、これらのインスタンスを手作業で分析し、偽の陽性(165コミット、159pr、143イシュー)を破棄し、自動化されたタスクを467の真陽性インスタンス(165コミット、159pr、143イシュー)に分類します。 その結果、開発者がchatgpt経由で自動化する45のタスクの分類が可能になった。 代表的な例を添えた分類学は (i)LLMをワークフローで活用する方法に関する貴重な洞察を持つ開発者と (ii)開発者によれば、自動化ソリューションの恩恵を受けるタスクの概要を明らかにした研究者。

Large Language Models (LLMs) have gained significant attention in the software engineering community. Nowadays developers have the possibility to exploit these models through industrial-grade tools providing a handy interface toward LLMs, such as OpenAI's ChatGPT. While the potential of LLMs in assisting developers across several tasks has been documented in the literature, there is a lack of empirical evidence mapping the actual usage of LLMs in software projects. In this work, we aim at filling such a gap. First, we mine 1,501 commits, pull requests (PRs), and issues from open-source projects by matching regular expressions likely to indicate the usage of ChatGPT to accomplish the task. Then, we manually analyze these instances, discarding false positives (i.e., instances in which ChatGPT was mentioned but not actually used) and categorizing the task automated in the 467 true positive instances (165 commits, 159 PRs, 143 issues). This resulted in a taxonomy of 45 tasks which developers automate via ChatGPT. The taxonomy, accompanied with representative examples, provides (i) developers with valuable insights on how to exploit LLMs in their workflow and (ii) researchers with a clear overview of tasks that, according to developers, could benefit from automated solutions.
翻訳日:2024-02-27 13:45:20 公開日:2024-02-26
# エッジ検出器は、深い畳み込みニューラルネットワークをより堅牢にする

Edge Detectors Can Make Deep Convolutional Neural Networks More Robust ( http://arxiv.org/abs/2402.16479v1 )

ライセンス: Link先を確認
Jin Ding, Jie-Chao Zhao, Yong-Zhi Sun, Ping Tan, Jia-Wei Wang, Ji-En Ma, You-Tong Fang(参考訳) 深層畳み込みニューラルネットワーク(DCNN: Deep Convolutional Neural Network)は、小さな摂動の例に弱い。 DCNNの堅牢性を改善することは、自律運転や産業自動化といった安全クリティカルなアプリケーションにとって非常に重要である。 人間の目が物体を認識する主な方法、すなわち形状の特徴に大きく依存することから着想を得た本論文では、まずエッジ検出器を層核として使用し、バイナリエッジ特徴分岐(BEFB)を設計して、一般的なバックボーンに容易に組み込めるようにした。 4つのエッジ検出器はそれぞれ水平、垂直、正の対角、負の対角のエッジの特徴を学習でき、分岐は複数のソベル層(エッジ検出器をカーネルとして使用)と1つのしきい値層で積み重ねられる。 分岐によって学習されたバイナリエッジ特徴は、バックボーンによって学習されたテクスチャ特徴と結合し、完全に接続された層に入力され、分類される。 提案するブランチをvgg16とresnet34にそれぞれ統合し,複数のデータセットで実験を行う。 実験の結果、BEFBは軽量であり、トレーニングに副作用がないことが示された。 そして、BEFB統合モデルの精度は、FGSM、PGD、C\&W攻撃に直面しているすべてのデータセットのオリジナルのモデルよりも優れている。 さらに、ロバスト性向上技術を備えたBEFB統合モデルにより、元のモデルよりも優れた分類精度が得られる。 本論文は, 形状的特徴とテクスチャ的特徴を組み合わせることで, DCNNの強靭性を高めることができることを示す。

Deep convolutional neural networks (DCNN for short) are vulnerable to examples with small perturbations. Improving DCNN's robustness is of great significance to the safety-critical applications, such as autonomous driving and industry automation. Inspired by the principal way that human eyes recognize objects, i.e., largely relying on the shape features, this paper first employs the edge detectors as layer kernels and designs a binary edge feature branch (BEFB for short) to learn the binary edge features, which can be easily integrated into any popular backbone. The four edge detectors can learn the horizontal, vertical, positive diagonal, and negative diagonal edge features, respectively, and the branch is stacked by multiple Sobel layers (using edge detectors as kernels) and one threshold layer. The binary edge features learned by the branch, concatenated with the texture features learned by the backbone, are fed into the fully connected layers for classification. We integrate the proposed branch into VGG16 and ResNet34, respectively, and conduct experiments on multiple datasets. Experimental results demonstrate the BEFB is lightweight and has no side effects on training. And the accuracy of the BEFB integrated models is better than the original ones on all datasets when facing FGSM, PGD, and C\&W attacks. Besides, BEFB integrated models equipped with the robustness enhancing techniques can achieve better classification accuracy compared to the original models. The work in this paper for the first time shows it is feasible to enhance the robustness of DCNNs through combining both shape-like features and texture features.
翻訳日:2024-02-27 13:45:00 公開日:2024-02-26
# カップリングからの量子ワッサースタイン距離のオーダー$p$

Order $p$ quantum Wasserstein distances from couplings ( http://arxiv.org/abs/2402.16477v1 )

ライセンス: Link先を確認
Emily Beatty and Daniel Stilck Fran\c{c}a(参考訳) 最適輸送は、多くの分野にまたがる応用で強力な数学的枠組みを提供する。 この領域の礎石は$p$-wasserstein距離であり、ある確率測度を別の確率測度に輸送するコストを定量化するのに役立つ。 最近の試みでは、この測度を量子状態の領域に拡張しようと試みているが、既存の定義はしばしば忠実でないなど、一定の限界を示している。 本研究では,量子ワッサースタイン距離の新しい定義を提案する。 この定義は、結合法と純粋な状態に適用可能な計量を利用して、古典的なワッサースタイン距離を特徴付ける性質から着想を得ている。 ある連続性の性質に基づき、この定義は、ワッサースタイン距離の最適な量子結合を期待する多くの特性を示す。 特に、我々のアプローチは、トレース距離のような量子情報理論に精通したメトリクスをシームレスに統合する。 さらに、nielsenの複雑性メトリックのようなメトリクスの有機的な拡張を提供し、自然な操作解釈による混合状態への応用を可能にする。 さらに、この計量の属性をランダム量子状態の文脈で解析し、乱数状態のサブシステムの複雑さに関する相転移を明らかにする。

Optimal transport provides a powerful mathematical framework with applications spanning numerous fields. A cornerstone within this domain is the $p$-Wasserstein distance, which serves to quantify the cost of transporting one probability measure to another. While recent attempts have sought to extend this measure to the realm of quantum states, existing definitions often present certain limitations, such as not being faithful. In this work, we present a new definition of quantum Wasserstein distances. This definition, leveraging the coupling method and a metric applicable to pure states, draws inspiration from a property characterising the classical Wasserstein distance - its determination based on its value on point masses. Subject to certain continuity properties, our definition exhibits numerous attributes expected of an optimal quantum rendition of the Wasserstein distance. Notably, our approach seamlessly integrates metrics familiar to quantum information theory, such as the trace distance. Moreover, it provides an organic extension for metrics, like Nielsen's complexity metric, allowing their application to mixed states with a natural operational interpretation. Furthermore, we analyze this metric's attributes in the context of random quantum states and unveil phase transitions concerning the complexity of subsystems of random states.
翻訳日:2024-02-27 13:44:31 公開日:2024-02-26
# パイ生産におけるスピラルと非対称性のスピン効果

Spin Effect induced Momentum Spiral and Asymmetry Degree in Pair Production ( http://arxiv.org/abs/2402.16476v1 )

ライセンス: Link先を確認
Li-Na Hu, Hong-Hao Fan, Orkash Amat, Suo Tang and Bai-Song Xie(参考訳) 円偏光場における対生成に対するスピン効果について検討した。 2つの対向回転場によって生じる運動量スパイラルと時間遅延とは大きく異なることから,単一磁場においても粒子スピン効果によりスパイラルが誘導される可能性が初めて見いだされた。 さらに、不均質なスパイラル構造が運動量スペクトルで観測できる二色結合場、特にスピンの2つの場合に存在するだけでなく、1つのフィールドよりも約2等級の増幅器を持つスパイラルについて検討する。 一方, 運動量分布に対するスピン非対称性について検討し, スピンフリップが2つの場間の時間遅延を増加させる効果があることを見出した。 数密度上のスピン非対称性の度合いは、ある条件下では9,8\%$に達する。 これらの結果から,生成粒子,特にスパイラル構造は,真空対生成の理解を深めるため,生成粒子スピンとレーザー場の情報と強く関連していることが示唆された。

Spin effect on the pair production under circularly polarized fields are investigated. Significantly different from what momentum spirals caused by two counter-rotating fields with a time delay, we find for the first time that the spirals can also be induced due to the particles spin effect even if in a single field. We further examine the bichromatic combinational fields, the inhomogeneous spiral structures can be observed in the momentum spectrum, in particular, the spiral not only does exist in two cases of spin but also is about two orders of magnitude amplifier than that in the single field. Meanwhile, the spin asymmetry degree on the momentum distributions is investigated and found that there exist the effect of spin flip with increasing time delay between two fields. The spin asymmetry degree on the number density can reach to $98\%$ in a certain of condition. These results indicate that the signatures of created particles, especially the spiral structures are strongly associated with the information of laser field as well as the created particle spin, which can deepen the understanding of vacuum pair production.
翻訳日:2024-02-27 13:44:12 公開日:2024-02-26
# dcvsmnet:二重コストボリュームステレオマッチングネットワーク

DCVSMNet: Double Cost Volume Stereo Matching Network ( http://arxiv.org/abs/2402.16473v1 )

ライセンス: Link先を確認
Mahmoud Tahmasebi, Saif Huq, Kevin Meehan and Marion McAfee(参考訳) DCVSMNet(Double Cost Volume Stereo Matching Network)は,2つの小(グループワイド)と低(ノーム相関)のコストボリュームを特徴とする新しいアーキテクチャである。 各コストボリュームを別々に処理し、上部および下部のコストボリュームから抽出された幾何情報を融合する結合モジュールを提案する。 DCVSMNetは67msの推論時間と強力な一般化能力を備えた高速ステレオマッチングネットワークであり、最先端の手法と比較して競合する結果が得られる。 いくつかのベンチマークデータセットの結果から、DCVSMNetは、CGI-StereoやBGNetのような手法よりも、推論時間が高いコストで精度が高いことが示されている。

We introduce Double Cost Volume Stereo Matching Network(DCVSMNet) which is a novel architecture characterised by by two small upper (group-wise) and lower (norm correlation) cost volumes. Each cost volume is processed separately, and a coupling module is proposed to fuse the geometry information extracted from the upper and lower cost volumes. DCVSMNet is a fast stereo matching network with a 67 ms inference time and strong generalization ability which can produce competitive results compared to state-of-the-art methods. The results on several bench mark datasets show that DCVSMNet achieves better accuracy than methods such as CGI-Stereo and BGNet at the cost of greater inference time.
翻訳日:2024-02-27 13:43:54 公開日:2024-02-26
# mEdIT:インストラクションチューニングによる多言語テキスト編集

mEdIT: Multilingual Text Editing via Instruction Tuning ( http://arxiv.org/abs/2402.16472v1 )

ライセンス: Link先を確認
Vipul Raheja and Dimitris Alikaniotis and Vivek Kulkarni and Bashar Alhafni and Dhruv Kumar(参考訳) 我々はCoEdITの多言語拡張であるmEdITを紹介した。 meditモデルは、命令チューニングによって、多言語大言語事前学習言語モデル(llms)を微調整することで訓練される。 これらは、grammatik korrigieren (ドイツ語)やparafrasee la oraci\'on (スペイン語)のような自然言語命令の形で、ユーザーが所望のテキストの属性を指定するように設計されている。 我々は,3つのテキスト編集タスク(文法エラー補正(GEC),テキスト単純化,パラフレージング)を6つの言語ファミリーに属する多種多様な言語で表すために,公開されている複数の人手によるテキスト編集データセットからデータをキュレートしてmEdITを構築する。 我々は,mEdITモデルの設計と訓練について詳述し,多くの多言語テキスト編集ベンチマークにおいて,他の多言語LLMに対して強い性能を示す。 また、mEdITは多言語ベースライン上の新しい言語に効果的に一般化する。 データ、コード、トレーニングされたモデルをhttps://github.com/vipulraheja/medit.comで公開しています。

We introduce mEdIT, a multi-lingual extension to CoEdIT -- the recent state-of-the-art text editing models for writing assistance. mEdIT models are trained by fine-tuning multi-lingual large, pre-trained language models (LLMs) via instruction tuning. They are designed to take instructions from the user specifying the attributes of the desired text in the form of natural language instructions, such as Grammatik korrigieren (German) or Parafrasee la oraci\'on (Spanish). We build mEdIT by curating data from multiple publicly available human-annotated text editing datasets for three text editing tasks (Grammatical Error Correction (GEC), Text Simplification, and Paraphrasing) across diverse languages belonging to six different language families. We detail the design and training of mEdIT models and demonstrate their strong performance on many multi-lingual text editing benchmarks against other multilingual LLMs. We also find that mEdIT generalizes effectively to new languages over multilingual baselines. We publicly release our data, code, and trained models at https://github.com/vipulraheja/medit.
翻訳日:2024-02-27 13:43:41 公開日:2024-02-26
# 自己注意の脆弱性の解消

Unveiling Vulnerability of Self-Attention ( http://arxiv.org/abs/2402.16470v1 )

ライセンス: Link先を確認
Khai Jiet Liong, Hongqiu Wu, Hai Zhao(参考訳) 事前学習された言語モデル(plm)は、小さな単語の変更に対して脆弱であることが示され、現実世界のシステムに大きな脅威となる。 従来の研究は単語入力を直接操作することに重点を置いていたが、それらは敵のサンプルを生成する方法によって制限されており、汎用的な現実世界攻撃への一般化が欠如している。 本稿では,変圧器を用いたPSMの基本構造,自己注意機構について検討する。 1) 注意深いアテンションマスクを用いて,sa行列内のアテンションスコアを乱す強力な摂動手法である \textit{hackattend} を提案する。 我々は、最先端plmが重大な脆弱性に陥り、わずかな注意喚起値(1\%)$が非常に高い攻撃成功率$(98\%)$が得られることを示した。 本稿では,従来の単語摂動のテキスト攻撃を,より一般的な構造摂動に拡張する。 2) 構造的摂動によりSAを効果的に堅牢にする新しい平滑化技術である「textit{S-Attend}」を導入する。 我々は,この単純で効果的な手法が,種々のテキスト攻撃者に対して対人訓練と同等の堅牢な性能を実現することを実証的に実証した。 コードは \url{github.com/liongkj/HackAttend} で公開されている。

Pre-trained language models (PLMs) are shown to be vulnerable to minor word changes, which poses a big threat to real-world systems. While previous studies directly focus on manipulating word inputs, they are limited by their means of generating adversarial samples, lacking generalization to versatile real-world attack. This paper studies the basic structure of transformer-based PLMs, the self-attention (SA) mechanism. (1) We propose a powerful perturbation technique \textit{HackAttend}, which perturbs the attention scores within the SA matrices via meticulously crafted attention masks. We show that state-of-the-art PLMs fall into heavy vulnerability that minor attention perturbations $(1\%)$ can produce a very high attack success rate $(98\%)$. Our paper expands the conventional text attack of word perturbations to more general structural perturbations. (2) We introduce \textit{S-Attend}, a novel smoothing technique that effectively makes SA robust via structural perturbations. We empirically demonstrate that this simple yet effective technique achieves robust performance on par with adversarial training when facing various text attackers. Code is publicly available at \url{github.com/liongkj/HackAttend}.
翻訳日:2024-02-27 13:43:20 公開日:2024-02-26
# 混合変数問題に対する探索的景観解析

Exploratory Landscape Analysis for Mixed-Variable Problems ( http://arxiv.org/abs/2402.16467v1 )

ライセンス: Link先を確認
Raphael Patrick Prager and Heike Trautmann(参考訳) 探索的なランドスケープ解析とフィットネスランドスケープ解析は、問題理解、アルゴリズム設計、自動アルゴリズムの選択や構成といった取り組みの促進に重要である。 これらの手法は1つの領域の探索空間に限られている。 本研究では,決定空間が連続変数,バイナリ変数,整数変数,カテゴリ変数の混合である混合変数問題に対して探索的景観特徴を計算する手段を提供する。 これは、機械学習から派生した既存のエンコーディング技術を利用することによって実現される。 これらの異なる手法に基づき,結果を包括的に評価する。 実用化へのメリットをさらに強調するため,ハイパーパラメータ最適化ベンチマークスイートに基づいたアルゴリズム自動選択研究を設計・実施する。 使用済みのランドスケープ特徴に基づくクラスタリングにより,これらのベンチマーク問題の有意義な区画化を導出する。 識別されたクラスタは、使用するアルゴリズムが示す動作を模倣する。 つまり、異なるクラスタは、パフォーマンスのよいアルゴリズムが異なる。 最後に、トレーニングされたアルゴリズムセレクタは、すべてのベンチマーク問題に対して、単一のベストと仮想ベストのギャップを57.5%縮めることができる。

Exploratory landscape analysis and fitness landscape analysis in general have been pivotal in facilitating problem understanding, algorithm design and endeavors such as automated algorithm selection and configuration. These techniques have largely been limited to search spaces of a single domain. In this work, we provide the means to compute exploratory landscape features for mixed-variable problems where the decision space is a mixture of continuous, binary, integer, and categorical variables. This is achieved by utilizing existing encoding techniques originating from machine learning. We provide a comprehensive juxtaposition of the results based on these different techniques. To further highlight their merit for practical applications, we design and conduct an automated algorithm selection study based on a hyperparameter optimization benchmark suite. We derive a meaningful compartmentalization of these benchmark problems by clustering based on the used landscape features. The identified clusters mimic the behavior the used algorithms exhibit. Meaning, the different clusters have different best performing algorithms. Finally, our trained algorithm selector is able to close the gap between the single best and the virtual best solver by 57.5% over all benchmark problems.
翻訳日:2024-02-27 13:43:00 公開日:2024-02-26
# 量子機械学習による古典的ニューラルネットワークの学習

Training Classical Neural Networks by Quantum Machine Learning ( http://arxiv.org/abs/2402.16465v1 )

ライセンス: Link先を確認
Chen-Yu Liu, En-Jui Kuo, Chu-Hsuan Abraham Lin, Sean Chen, Jason Gemsun Young, Yeong-Jar Chang, Min-Hsiu Hsieh(参考訳) 近年、高度なディープニューラルネットワークは、トレーニングに多数のパラメータを必要としている。 そのため,効率的な訓練を行う上で,パラメータ数を削減する手法が重要である。 本研究では、量子系の指数的に大きなヒルベルト空間を利用する古典的ニューラルネットワーク(NN)のトレーニングスキームを提案する。 古典的NNを$M$パラメータで、$O(\text{polylog} (M))$回転ゲート角で量子ニューラルネットワーク(QNN)にマッピングすることにより、パラメータの数を大幅に削減できる。 これらのゲート角は、古典的なNNを訓練するために更新することができる。 既存の量子機械学習(qml)手法とは異なり、量子コンピュータから得られた結果は古典的コンピュータで直接使用できる。 提案手法の有効性を示すため, MNIST と Iris データセットの数値計算結果を示した。 さらに,より深いqnnの効果と,qnnの測定ショット数について検討し,提案手法の理論的展望について検討した。 この作業は、QMLの新しいブランチを開き、トレーニングされたQML結果が、私たちの日常生活における古典的なコンピューティングの恩恵を受けることができるため、QMLの影響を大幅に強化する実用的なツールを提供する。

In recent years, advanced deep neural networks have required a large number of parameters for training. Therefore, finding a method to reduce the number of parameters has become crucial for achieving efficient training. This work proposes a training scheme for classical neural networks (NNs) that utilizes the exponentially large Hilbert space of a quantum system. By mapping a classical NN with $M$ parameters to a quantum neural network (QNN) with $O(\text{polylog} (M))$ rotational gate angles, we can significantly reduce the number of parameters. These gate angles can be updated to train the classical NN. Unlike existing quantum machine learning (QML) methods, the results obtained from quantum computers using our approach can be directly used on classical computers. Numerical results on the MNIST and Iris datasets are presented to demonstrate the effectiveness of our approach. Additionally, we investigate the effects of deeper QNNs and the number of measurement shots for the QNN, followed by the theoretical perspective of the proposed method. This work opens a new branch of QML and offers a practical tool that can greatly enhance the influence of QML, as the trained QML results can benefit classical computing in our daily lives.
翻訳日:2024-02-27 13:42:45 公開日:2024-02-26
# Q-FOX学習:強化学習の伝統を破る

Q-FOX Learning: Breaking Tradition in Reinforcement Learning ( http://arxiv.org/abs/2402.16562v1 )

ライセンス: Link先を確認
Mahmood Alqaseer, Yossra H. Ali and Tarik A. Rashid(参考訳) 強化学習(英: reinforcement learning, rl)は、人工知能(ai)のサブセットであり、エージェントが環境と対話することで最善の行動を学習し、ラベル付きデータや直接監督を必要としないタスクに適している。 ハイパーパラメータ(HP)チューニングは、RLアルゴリズムの最適解につながる最適なパラメータを選択することを指す。 hpの手動またはランダムなチューニングは、このパラメータの変化が学習の全体的な側面と報酬の異なる変化につながるため、重要なプロセスである。 本稿では,Q-FOXと呼ばれる新しい自動HPチューニング手法を提案する。 これは、自然にインスパイアされた新しい最適化手法であるFOXオプティマイザと、HPチューニングの問題を解決するためによく使われるRL Q-learningアルゴリズムを使用する。 さらに、平均二乗誤差(MSE)と学習時間(ステップ)よりも報酬を優先する新たな目的関数を提案する。 Q-FOXは2つのOpenAI Gym環境制御タスク、カートポールと凍結湖で評価されている。 PSO, GA, Bee, ランダムに選択されたHPなど、他のオプティマイザとのチューニングよりも累積的な報酬が大きい。 カートポール作業に対する累積報酬は32.08で、凍結湖作業は0.95であった。 Q-FOXの堅牢性にもかかわらず、制限がある。 プロセスが反復的に動作し、時間を要するため、シミュレーション環境でhpを選択する前に、実語問題で直接使用することはできない。 その結果,Q-FOXはRLアルゴリズムのHPチューニングにおいて重要な役割を担い,異なる制御タスクを効果的に解くことができた。

Reinforcement learning (RL) is a subset of artificial intelligence (AI) where agents learn the best action by interacting with the environment, making it suitable for tasks that do not require labeled data or direct supervision. Hyperparameters (HP) tuning refers to choosing the best parameter that leads to optimal solutions in RL algorithms. Manual or random tuning of the HP may be a crucial process because variations in this parameter lead to changes in the overall learning aspects and different rewards. In this paper, a novel and automatic HP-tuning method called Q-FOX is proposed. This uses both the FOX optimizer, a new optimization method inspired by nature that mimics red foxes' hunting behavior, and the commonly used, easy-to-implement RL Q-learning algorithm to solve the problem of HP tuning. Moreover, a new objective function is proposed which prioritizes the reward over the mean squared error (MSE) and learning time (steps). Q-FOX has been evaluated on two OpenAI Gym environment control tasks: Cart Pole and Frozen Lake. It exposed greater cumulative rewards than HP tuning with other optimizers, such as PSO, GA, Bee, or randomly selected HP. The cumulative reward for the Cart Pole task was 32.08, and for the Frozen Lake task was 0.95. Despite the robustness of Q-FOX, it has limitations. It cannot be used directly in real-word problems before choosing the HP in a simulation environment because its processes work iteratively, making it time-consuming. The results indicate that Q-FOX has played an essential role in HP tuning for RL algorithms to effectively solve different control tasks.
翻訳日:2024-02-27 13:37:53 公開日:2024-02-26
# beyond accuracy: オープンソースのディープラーニングプロジェクトにおけるユニットテストに関する実証的研究

Beyond Accuracy: An Empirical Study on Unit Testing in Open-source Deep Learning Projects ( http://arxiv.org/abs/2402.16546v1 )

ライセンス: Link先を確認
Han Wang, Sijia Yu, Chunyang Chen, Burak Turhan, Xiaodong Zhu(参考訳) ディープラーニング(DL)モデルは急速に進歩し、モデルの精度と堅牢性をテストすることによって高いパフォーマンスを達成することに重点を置いている。 しかし、DLプロジェクトがソフトウェアシステムとして、他のソフトウェアシステムのように扱い、テストする必要がある場合、徹底的に、あるいは機能的に正しいかどうかは不明である。 そこで我々は,オープンソースdlプロジェクトのユニットテストを実証的に研究し,githubの9,129プロジェクトを分析した。 私たちはそれを見つけました 1) ユニットテストDLプロジェクトはオープンソースプロジェクトのメトリクスと正の相関を持ち,プルリクエストの受け入れ率が高い。 2)サンプルDLプロジェクトの68%は単体テストを受けていない。 3)DLモデルのレイヤとユーティリティ(ユーティリティ)は、最もユニットテストを受けています。 これらの知見と過去の研究成果に基づいて,DLプロジェクトにおけるユニットテストと障害のマッピング分類を構築した。 我々は、この発見が開発者や研究者に与える影響を議論し、その信頼性と安定性を確保するためにオープンソースdlプロジェクトでの単体テストの必要性を強調する。 この研究は、DLプロジェクトにおける単体テストの重要性の認識を高め、この分野のさらなる研究を奨励することで、このコミュニティに貢献する。

Deep Learning (DL) models have rapidly advanced, focusing on achieving high performance through testing model accuracy and robustness. However, it is unclear whether DL projects, as software systems, are tested thoroughly or functionally correct when there is a need to treat and test them like other software systems. Therefore, we empirically study the unit tests in open-source DL projects, analyzing 9,129 projects from GitHub. We find that: 1) unit tested DL projects have positive correlation with the open-source project metrics and have a higher acceptance rate of pull requests, 2) 68% of the sampled DL projects are not unit tested at all, 3) the layer and utilities (utils) of DL models have the most unit tests. Based on these findings and previous research outcomes, we built a mapping taxonomy between unit tests and faults in DL projects. We discuss the implications of our findings for developers and researchers and highlight the need for unit testing in open-source DL projects to ensure their reliability and stability. The study contributes to this community by raising awareness of the importance of unit testing in DL projects and encouraging further research in this area.
翻訳日:2024-02-27 13:37:24 公開日:2024-02-26
# テンソル投影に基づくラベル学習手法

Label Learning Method Based on Tensor Projection ( http://arxiv.org/abs/2402.16544v1 )

ライセンス: Link先を確認
Jing Li and Quanxue Gao and Qianqian Wang and Cheng Deng and Deyan Xie(参考訳) アンカーグラフに基づくマルチビュークラスタリング手法は,高い効率性と有効性から,広く関心を集めている。 後処理を避けるため、既存のアンカーグラフベースの手法のほとんどは、接続されたコンポーネントで二部グラフを学習する。 しかし、そのような手法はパラメータに高い要件を持ち、場合によっては明確な連結成分を持つ二部グラフを得ることはできないかもしれない。 そこで本研究では,テンソルプロジェクション(LLMTP)に基づくラベル学習手法を提案する。 具体的には、直交射影行列を通してラベル空間にアンカーグラフを投影し、クラスタラベルを直接取得する。 異なる視点で別々に投影する場合、多視点データの空間構造情報がある程度無視される可能性があることを考慮し、ビュー間の空間構造情報を十分に活用できるように、行列射影変換をテンソル射影に拡張する。 さらに、異なるビューのクラスタリングラベル行列を可能な限り一貫性を持たせるために、tensor schatten $p$-norm正規化を導入する。 広範な実験により,提案手法の有効性が実証された。

Multi-view clustering method based on anchor graph has been widely concerned due to its high efficiency and effectiveness. In order to avoid post-processing, most of the existing anchor graph-based methods learn bipartite graphs with connected components. However, such methods have high requirements on parameters, and in some cases it may not be possible to obtain bipartite graphs with clear connected components. To end this, we propose a label learning method based on tensor projection (LLMTP). Specifically, we project anchor graph into the label space through an orthogonal projection matrix to obtain cluster labels directly. Considering that the spatial structure information of multi-view data may be ignored to a certain extent when projected in different views separately, we extend the matrix projection transformation to tensor projection, so that the spatial structure information between views can be fully utilized. In addition, we introduce the tensor Schatten $p$-norm regularization to make the clustering label matrices of different views as consistent as possible. Extensive experiments have proved the effectiveness of the proposed method.
翻訳日:2024-02-27 13:37:06 公開日:2024-02-26
# モデルに基づく深部強化学習による流れシミュレーションからの学習の高速化

Model-based deep reinforcement learning for accelerated learning from flow simulations ( http://arxiv.org/abs/2402.16543v1 )

ライセンス: Link先を確認
Andre Weiner, Janis Geise(参考訳) 近年,閉ループフロー制御問題の解法として深層強化学習が登場している。 強化学習にシミュレーションベースの環境を利用すると、制御システムのエンドツーエンドの最適化が可能になり、安全クリティカルな制御アプリケーションのための仮想テストベッドを提供し、制御機構の深い理解を得ることができる。 多くの比較的単純なフロー制御ベンチマークで強化学習がうまく適用されているが、現実のアプリケーションに対する大きなボトルネックは、フローシミュレーションの計算コストとターンアラウンド時間である。 本稿では,フロー制御アプリケーションにおけるモデルベース強化学習の利点を実証する。 具体的には, 流れシミュレーションから採取した軌道と, 環境モデルのアンサンブルから採取した軌道とを交互に組み合わせることで, 政策を最適化する。 モデルベースの学習は、流体ピンボールテストケース全体のトレーニング時間を最大$85\%削減する。 さらに大きな貯蓄が要求されるフローシミュレーションに期待されている。

In recent years, deep reinforcement learning has emerged as a technique to solve closed-loop flow control problems. Employing simulation-based environments in reinforcement learning enables a priori end-to-end optimization of the control system, provides a virtual testbed for safety-critical control applications, and allows to gain a deep understanding of the control mechanisms. While reinforcement learning has been applied successfully in a number of rather simple flow control benchmarks, a major bottleneck toward real-world applications is the high computational cost and turnaround time of flow simulations. In this contribution, we demonstrate the benefits of model-based reinforcement learning for flow control applications. Specifically, we optimize the policy by alternating between trajectories sampled from flow simulations and trajectories sampled from an ensemble of environment models. The model-based learning reduces the overall training time by up to $85\%$ for the fluidic pinball test case. Even larger savings are expected for more demanding flow simulations.
翻訳日:2024-02-27 13:36:50 公開日:2024-02-26
# RoboGrind:産業用ロボットによる直感的でインタラクティブな表面処理

RoboGrind: Intuitive and Interactive Surface Treatment with Industrial Robots ( http://arxiv.org/abs/2402.16542v1 )

ライセンス: Link先を確認
Benjamin Alt, Florian St\"ockl, Silvan M\"uller, Christopher Braun, Julian Raible, Saad Alhasan, Oliver Rettig, Lukas Ringle, Darko Katic, Rainer J\"akel, Michael Beetz, Marcus Strand and Marco F. Huber(参考訳) 研削、サンディング、研磨などの表面処理は、多くの業界で価値連鎖の重要なステップであるが、自動化が難しいことで悪名高い。 本稿では,産業用ロボットによる表面処理タスクの直感的でインタラクティブな自動化のためのシステムであるRoboGrindを紹介する。 表面スキャンと自動欠陥同定のための洗練された3d知覚パイプラインと、ai支援のロボットプログラムのブートストラップとパラメータ化のための対話型音声制御ウィザードシステムと、フォース制御ロボット表面処理のための自動計画実行パイプラインを組み合わせる。 RoboGrindは、実験室および実世界の条件下で、繊維グラス風力タービンブレードの再加工の文脈で評価される。

Surface treatment tasks such as grinding, sanding or polishing are a vital step of the value chain in many industries, but are notoriously challenging to automate. We present RoboGrind, an integrated system for the intuitive, interactive automation of surface treatment tasks with industrial robots. It combines a sophisticated 3D perception pipeline for surface scanning and automatic defect identification, an interactive voice-controlled wizard system for the AI-assisted bootstrapping and parameterization of robot programs, and an automatic planning and execution pipeline for force-controlled robotic surface treatment. RoboGrind is evaluated both under laboratory and real-world conditions in the context of refabricating fiberglass wind turbine blades.
翻訳日:2024-02-27 13:36:25 公開日:2024-02-26
# 単一原子を用いた整数プログラミング

Integer Programming Using A Single Atom ( http://arxiv.org/abs/2402.16541v1 )

ライセンス: Link先を確認
Kapil Goswami, Peter Schmelcher, Rick Mukherjee(参考訳) 整数型プログラミング(英: Integer Programming、IP)は、実世界の最適化問題を制約で定式化するために一般的に用いられる整数変数ベースの手法である。 現在、量子アルゴリズムは、間接的かつリソース消費の方法であるバイナリ変数を用いることで、IPを制約のない形式に再構成している。 我々は、IP問題を元の形式で、十分な精度で制御できる多数のアクセス可能な内部自由度を持つ任意の量子システムにマッピングし、解決するアルゴリズムを開発する。 1つのRydberg原子を例として、整数値を異なる多様体に属する電子状態に関連付け、これらの異なる状態の選択的重ね合わせを実装して完全なIP問題を解く。 最適解は、線形IP問題と比較して古典的なアルゴリズムで解くのが難しい非線形IP問題を含む最大4つの制約を含む、最大8変数のプロトタイプIP問題に対して、2-40{\mu}sで見つかる。 提案アルゴリズムは, 分岐境界法を用いてベンチマークを行い, 収束に必要なステップ数で古典的アルゴリズムを上回り, より大規模な問題に対して古典的アルゴリズムが提供するバウンドを改善する可能性を秘めている。

Integer programming (IP), as the name suggests is an integer-variable-based approach commonly used to formulate real-world optimization problems with constraints. Currently, quantum algorithms reformulate the IP into an unconstrained form through the use of binary variables, which is an indirect and resource-consuming way of solving it. We develop an algorithm that maps and solves an IP problem in its original form to any quantum system that possesses a large number of accessible internal degrees of freedom which can be controlled with sufficient accuracy. Using a single Rydberg atom as an example, we associate the integer values to electronic states belonging to different manifolds and implement a selective superposition of these different states to solve the full IP problem. The optimal solution is found within 2-40{\mu}s for a few prototypical IP problems with up to eight variables and up to four constraints including a non-linear IP problem, which is usually harder to solve with classical algorithms when compared with linear IP problems. Our algorithm for solving IP is benchmarked using the Branch & Bound approach and it outperforms the classical algorithm in terms of the number of steps needed to converge and carries the potential to improve the bounds provided by the classical algorithm for larger problems.
翻訳日:2024-02-27 13:36:05 公開日:2024-02-26
# グラフィカルセッションベースレコメンデーションによる大規模言語モデルの統合

Integrating Large Language Models with Graphical Session-Based Recommendation ( http://arxiv.org/abs/2402.16539v1 )

ライセンス: Link先を確認
Naicheng Guo, Hongwei Cheng, Qianqiao Liang, Linxun Chen, Bing Han(参考訳) LLM(Large Language Models)の急速な発展に伴い、レコメンデーションシステム上での文脈理解のLLMs機能を活用するために様々な探索が行われた。 先駆的な戦略は、主に従来のレコメンデーションタスクを自然言語生成の課題に転換してきたが、セッションベースのレコメンデーション(SBR)の領域では、その特異性から比較的少ない探索が行われた。 sbrは主にグラフニューラルネットワークが支配しており、隣接する行動間の暗黙的および明示的な関係を捉える能力によって、多くの成果を上げている。 グラフの構造的性質は自然言語の本質とは対照的であり、LLMに顕著な適応ギャップが生じる。 本稿では,SBRタスクのためのグラフニューラルネットワーク(GNN)とLLMを調和して統合することにより,上記のギャップを埋める有効なフレームワークであるLLMGRという,グラフィカルセッションベースレコメンデーションを備えた大規模言語モデルを提案する。 この統合は、自然言語理解におけるllmとリレーショナルデータ処理におけるgnnの補完的な強みを活用し、セッション内の項目を理解し推奨できるより強力なセッションベースのリコメンダシステムへと導かれる。 さらに,LLMにSBRタスクの強化機能を持たせるために,補助的および主要な命令チューニングタスクのための一連のプロンプトを設計する。 これらのプロンプトは、LLMがグラフ構造化データの理解を支援し、テキスト情報をノードと整合させ、ナンスされたユーザインタラクションをLLMアーキテクチャで理解および活用できるフォーマットに効果的に翻訳する。 3つの実世界のデータセットに対する大規模な実験により、LLMGRはいくつかの競争基準よりも優れており、SBRタスクの強化の有効性と将来の探査のための研究方向としての可能性を示している。

With the rapid development of Large Language Models (LLMs), various explorations have arisen to utilize LLMs capability of context understanding on recommender systems. While pioneering strategies have primarily transformed traditional recommendation tasks into challenges of natural language generation, there has been a relative scarcity of exploration in the domain of session-based recommendation (SBR) due to its specificity. SBR has been primarily dominated by Graph Neural Networks, which have achieved many successful outcomes due to their ability to capture both the implicit and explicit relationships between adjacent behaviors. The structural nature of graphs contrasts with the essence of natural language, posing a significant adaptation gap for LLMs. In this paper, we introduce large language models with graphical Session-Based recommendation, named LLMGR, an effective framework that bridges the aforementioned gap by harmoniously integrating LLMs with Graph Neural Networks (GNNs) for SBR tasks. This integration seeks to leverage the complementary strengths of LLMs in natural language understanding and GNNs in relational data processing, leading to a more powerful session-based recommender system that can understand and recommend items within a session. Moreover, to endow the LLM with the capability to empower SBR tasks, we design a series of prompts for both auxiliary and major instruction tuning tasks. These prompts are crafted to assist the LLM in understanding graph-structured data and align textual information with nodes, effectively translating nuanced user interactions into a format that can be understood and utilized by LLM architectures. Extensive experiments on three real-world datasets demonstrate that LLMGR outperforms several competitive baselines, indicating its effectiveness in enhancing SBR tasks and its potential as a research direction for future exploration.
翻訳日:2024-02-27 13:35:36 公開日:2024-02-26
# 離散・連続変数系におけるマクロリアリズムのテスト

Tests of Macrorealism in Discrete and Continuous Variable Systems ( http://arxiv.org/abs/2402.16537v1 )

ライセンス: Link先を確認
Clement Mawby(参考訳) マクロリアリズム(MR)テストのいくつかの側面について研究し、与えられたデータセットに対して、非古典的な振る舞いという特定の概念の存在の定量的なシグナルを与える。 古典的理解の不十分さは、量子力学のパラドックスと将来の技術的約束の両方を支えているため、これらのテストは基礎的にも実用的にも興味がある。 私はLeggett-Garg(LG)の不等式とファインの定理の一般化を導いており、この定理はマクロリアリズムに必要な十分かつ十分な条件を確立する。 まず、任意の測定時間を含むテストにこれらの条件を拡張します。 第二に、それらを標準ディコトミック変数を超えて、多値変数によって記述されるシステムへと一般化する。 また、MRの異なる条件の相互作用を調べる量子力学的解析を行い、連続変数系におけるマクロリアリズムのテストを支援する理論的枠組みを開発し、そこで、位置の粗い粒度に基づいて変数を定義する。 一般境界系に対する時間相関器を計算し、そのエネルギー固有状態とコヒーレント状態において量子調和振動子(QHO)内のLG違反を分析する。 私は、確率電流、ボーム軌道の観点から、違反の根底にある正確な物理的メカニズムを分析する。 連続変数システム内に留まり、LGテストの侵入性要件を満たすための異なるアプローチを概説する。 粒子が軸を横切るかどうかをほぼ非侵襲的に測定できるので、標準の相関子に関連する物体を計測し、これらの修正された相関子に対するマクロ現実的不等式を導出する。 我々は,これらの修正lg不等式をqho内のいくつかの状態に対して違反することを示す。

I study several aspects of tests of macrorealism (MR), which for a given data set serves to give a quantitative signal of the presence of a specific notion of non-classical behaviour. The insufficiency of classical understanding underpins both the paradoxes of quantum mechanics, its future technological promise, and so these tests are of interest both foundationally and pragmatically. I derive generalisations of the Leggett-Garg (LG) inequalities and Fine's theorem, which together establish the necessary and sufficient conditions for macrorealism. First, I extend these conditions to tests involving an arbitrary number of measurement times. Secondly, I generalise them beyond the standard dichotomic variable, to systems described by many-valued variables. I also perform a quantum mechanical analysis examining the interplay of different conditions of MR. I then develop the theoretical framework to support tests of macrorealism in continuous variable systems, where I define variables based on coarse-grainings of position. I calculate temporal correlators for general bound systems, and analyse LG violations within the quantum harmonic oscillator (QHO), in its energy eigenstates and coherent states. I analyse the precise physical mechanisms underpinning the violations in terms of probability currents, Bohm trajectories. Staying within continuous variable systems, we outline a different approach to meeting the invasiveness requirement of LG tests. Reasoning that we may approximately non-invasively measure whether a particle crosses the axis, we measure an object which is related to the standard correlators, and derive a set of macrorealistic inequalities for these modified correlators. We demonstrate violations of these modified LG inequalities for several states within the QHO.
翻訳日:2024-02-27 13:35:02 公開日:2024-02-26
# 物理インフォームド機械学習を用いた保存則の不連続ガレルキン近似のための人工粘性モデルの発見

Discovering Artificial Viscosity Models for Discontinuous Galerkin Approximation of Conservation Laws using Physics-Informed Machine Learning ( http://arxiv.org/abs/2402.16517v1 )

ライセンス: Link先を確認
Matteo Caldana, Paola F. Antonietti, Luca Dede'(参考訳) 有限要素に基づく保存則の高次解法は非常に精度が高いが、ギブス現象による不連続に近い問題に直面している。 人工粘性は、物理的洞察に基づくこの問題に対するポピュラーで効果的な解決策である。 本研究では,非教師付きパラダイムにおける人工粘性モデルの発見を自動化する物理インフォームド機械学習アルゴリズムを提案する。 このアルゴリズムは強化学習にインスパイアされ、自動微分による参照解に対する差として定義される損失を最小限に抑え、セルバイセル(粘性モデル)を作用するニューラルネットワークを訓練する。 これにより、データセットフリーのトレーニング手順が可能になる。 このアルゴリズムは最先端のルンゲ・クッタ不連続ガレルキン解法に組み込むことで有効であることを示す。 1次元および2次元のバーガーズ方程式やオイラー方程式など、スカラー問題やベクトル問題に関するいくつかの数値実験を行った。 その結果,本手法は古典的粘性モデルよりも優れるモデルであることがわかった。 さらに,学習した人工粘性モデルによって,様々な問題やパラメータを一般化できることを示した。

Finite element-based high-order solvers of conservation laws offer large accuracy but face challenges near discontinuities due to the Gibbs phenomenon. Artificial viscosity is a popular and effective solution to this problem based on physical insight. In this work, we present a physics-informed machine learning algorithm to automate the discovery of artificial viscosity models in a non-supervised paradigm. The algorithm is inspired by reinforcement learning and trains a neural network acting cell-by-cell (the viscosity model) by minimizing a loss defined as the difference with respect to a reference solution thanks to automatic differentiation. This enables a dataset-free training procedure. We prove that the algorithm is effective by integrating it into a state-of-the-art Runge-Kutta discontinuous Galerkin solver. We showcase several numerical tests on scalar and vectorial problems, such as Burgers' and Euler's equations in one and two dimensions. Results demonstrate that the proposed approach trains a model that is able to outperform classical viscosity models. Moreover, we show that the learnt artificial viscosity model is able to generalize across different problems and parameters.
翻訳日:2024-02-27 13:34:32 公開日:2024-02-26
# 時系列予測のための事前学習型階層変換器

Generative Pretrained Hierarchical Transformer for Time Series Forecasting ( http://arxiv.org/abs/2402.16516v1 )

ライセンス: Link先を確認
Zhiding Liu, Jiqian Yang, Mingyue Cheng, Yucong Luo, Zhi Li(参考訳) 近年,先進的なネットワークアーキテクチャと自己教師型事前学習戦略を導入し,時系列予測の精度向上に努めている。 それでも、既存のアプローチには2つの重大な欠点がある。 まず、これらの方法はトレーニングのための単一のデータセットに依存し、トレーニングデータの制限されたスケールのためにモデルの一般化性を制限する。 第2に、ワンステップ生成スキーマが広く適用され、カスタマイズされた予測ヘッドが必要となり、出力シリーズの時間依存性を見過ごせるとともに、地平線長設定の異なるトレーニングコストが増大する。 これらの課題に対処するために,GPHT と呼ばれる予測のための新しい生成事前学習型階層型トランスフォーマアーキテクチャを提案する。 GPHTのキーデザインには2つの側面がある。 一方、我々は、様々なデータシナリオから様々なデータセットを構成する、モデルを事前訓練するための混合データセットの構築を提唱する。 このアプローチはトレーニングデータのスケールを大幅に拡大し、時系列データの共通性を明らかにし、特定のデータセットへの転送を改善することができます。 一方、GPHTはチャネルに依存しない仮定の下で自己回帰予測手法を採用し、出力系列の時間依存性を効果的にモデル化する。 重要なことは、カスタマイズされた予測ヘッドは不要であり、任意の地平線設定で単一のモデルを予測できる。 主流の自己教師付き事前学習モデルと教師付きモデルを用いて,8つのデータセット上で十分な実験を行う。 その結果、GPHTは、従来の長期予測タスクにおいて、様々な微調整およびゼロ/フェーショット学習設定のベースラインモデルを超え、事前訓練された時系列大モデルの実現可能性を検証する。

Recent efforts have been dedicated to enhancing time series forecasting accuracy by introducing advanced network architectures and self-supervised pretraining strategies. Nevertheless, existing approaches still exhibit two critical drawbacks. Firstly, these methods often rely on a single dataset for training, limiting the model's generalizability due to the restricted scale of the training data. Secondly, the one-step generation schema is widely followed, which necessitates a customized forecasting head and overlooks the temporal dependencies in the output series, and also leads to increased training costs under different horizon length settings. To address these issues, we propose a novel generative pretrained hierarchical transformer architecture for forecasting, named GPHT. There are two aspects of key designs in GPHT. On the one hand, we advocate for constructing a mixed dataset for pretraining our model, comprising various datasets from diverse data scenarios. This approach significantly expands the scale of training data, allowing our model to uncover commonalities in time series data and facilitating improved transfer to specific datasets. On the other hand, GPHT employs an auto-regressive forecasting approach under the channel-independent assumption, effectively modeling temporal dependencies in the output series. Importantly, no customized forecasting head is required, enabling a single model to forecast at arbitrary horizon settings. We conduct sufficient experiments on eight datasets with mainstream self-supervised pretraining models and supervised models. The results demonstrated that GPHT surpasses the baseline models across various fine-tuning and zero/few-shot learning settings in the traditional long-term forecasting task, providing support for verifying the feasibility of pretrained time series large models.
翻訳日:2024-02-27 13:34:12 公開日:2024-02-26
# 医用テキスト分類のための分布チュータを用いた知識蒸留によるLCMベースのプライバシデータ拡張

LLM-based Privacy Data Augmentation Guided by Knowledge Distillation with a Distribution Tutor for Medical Text Classification ( http://arxiv.org/abs/2402.16515v1 )

ライセンス: Link先を確認
Yiping Song, Juhua Zhang, Zhiliang Tian, Yuxin Yang, Minlie Huang, Dongsheng Li(参考訳) モデルトレーニングに十分なデータが必ずしも公開されていないため、研究者は高度な学習アルゴリズムで限られたデータを利用するか、データ拡張(DA)を通じてデータセットを拡張する。 プライベートドメインでdaを実行するには、プライベート保護アプローチ(匿名化と摂動)が必要であるが、これらのメソッドは保護保証を提供しない。 差分プライバシー(DP)学習法は理論的には保護を拘束するが、大きなモデルで擬似テキストサンプルを生成するには熟練していない。 本稿では,DPベースの擬似サンプル生成タスクをDPベースのサンプル識別タスクに転送し,LLMを用いたDPベースのDA法とプライベートドメインのテキスト分類のためのDPベースの識別器を提案する。 本研究では,DPに基づく識別器として知識蒸留モデルを構築し,個人データにアクセスし,校正ノイズのある個人サンプルの選定方法を教える。 da生成の分布を制約するために,ノイズのあるプライベート分布をモデル化し,プライバシコストの低いサンプル生成を制御するdpベースのチュータを提案する。 理論上は,モデルのプライバシー保護を解析し,実証的に検証する。

As sufficient data are not always publically accessible for model training, researchers exploit limited data with advanced learning algorithms or expand the dataset via data augmentation (DA). Conducting DA in private domain requires private protection approaches (i.e. anonymization and perturbation), but those methods cannot provide protection guarantees. Differential privacy (DP) learning methods theoretically bound the protection but are not skilled at generating pseudo text samples with large models. In this paper, we transfer DP-based pseudo sample generation task to DP-based generated samples discrimination task, where we propose a DP-based DA method with a LLM and a DP-based discriminator for text classification on private domains. We construct a knowledge distillation model as the DP-based discriminator: teacher models, accessing private data, teaches students how to select private samples with calibrated noise to achieve DP. To constrain the distribution of DA's generation, we propose a DP-based tutor that models the noised private distribution and controls samples' generation with a low privacy cost. We theoretically analyze our model's privacy protection and empirically verify our model.
翻訳日:2024-02-27 13:33:46 公開日:2024-02-26
# ノイズモデルを用いた3次元カメラ合成トレーニングデータの強化

Enhancement of 3D Camera Synthetic Training Data with Noise Models ( http://arxiv.org/abs/2402.16514v1 )

ライセンス: Link先を確認
Katar\'ina Osvaldov\'a, Luk\'a\v{s} Gajdo\v{s}ech, Viktor Kocur, Martin Madaras(参考訳) 本研究の目的は,画像処理のノイズをモデル化し,合成訓練データに適用することにより,3次元カメラキャプチャーデータにおけるノイズの影響を評価することである。 ノイズモデルを得るために,特別に構築されたシーンのデータセットをコンパイルした。 具体的には、画像平面の撮影点の位置や軸方向のノイズなど、画像平面に垂直な軸に沿った位置に影響を与える横方向ノイズをモデル化する。 推定モデルは、合成トレーニングデータにノイズをエミュレートするために使用できる。 オブジェクトセグメンテーションのためのレンダリングデータを用いた実験において, 人工雑音付加の利点を評価する。 我々は、データのノイズレベルが異なる一連のニューラルネットワークをトレーニングし、実際のデータに基づいて一般化する能力を測定する。 その結果, ノイズが少ないか多すぎるかは, ネットワークの性能を損なう可能性があり, 実際のスキャナーからノイズのモデルを取得することは, 合成データ生成に有用であることが示唆された。

The goal of this paper is to assess the impact of noise in 3D camera-captured data by modeling the noise of the imaging process and applying it on synthetic training data. We compiled a dataset of specifically constructed scenes to obtain a noise model. We specifically model lateral noise, affecting the position of captured points in the image plane, and axial noise, affecting the position along the axis perpendicular to the image plane. The estimated models can be used to emulate noise in synthetic training data. The added benefit of adding artificial noise is evaluated in an experiment with rendered data for object segmentation. We train a series of neural networks with varying levels of noise in the data and measure their ability to generalize on real data. The results show that using too little or too much noise can hurt the networks' performance indicating that obtaining a model of noise from real scanners is beneficial for synthetic data generation.
翻訳日:2024-02-27 13:33:25 公開日:2024-02-26
# 大規模合成シュミレーションによる言語横断的オープンドメイン質問応答の事前学習

Pre-training Cross-lingual Open Domain Question Answering with Large-scale Synthetic Supervision ( http://arxiv.org/abs/2402.16508v1 )

ライセンス: Link先を確認
Fan Jiang, Tom Drummond, Trevor Cohn(参考訳) 言語間質問応答(CLQA)は、多言語知識ベースからの言語間検索を含む複雑な問題であり、その後、英語またはクエリ言語で回答を生成する。 どちらのステップも通常は別々のモデルによって取り組まれ、実質的なアノテートデータセットと、言語間の橋渡しを行う機械翻訳システムのような補助的なリソースが必要になる。 本稿では,単一エンコーダデコーダモデルを用いてCLQAに対処可能であることを示す。 このモデルを効果的に学習するために,ウィキペディア内の言語間リンク構造を利用した自己教師型手法を提案する。 リンクされたウィキペディアページは、クローズクエリの形式で言語間検索のための監視信号を合成し、より自然なクエリを生成して回答生成を監督する方法を実証する。 提案手法は,機械翻訳を含む教師付き言語とゼロショット言語の両方において,同等の手法より優れていることを示す。

Cross-lingual question answering (CLQA) is a complex problem, comprising cross-lingual retrieval from a multilingual knowledge base, followed by answer generation either in English or the query language. Both steps are usually tackled by separate models, requiring substantial annotated datasets, and typically auxiliary resources, like machine translation systems to bridge between languages. In this paper, we show that CLQA can be addressed using a single encoder-decoder model. To effectively train this model, we propose a self-supervised method based on exploiting the cross-lingual link structure within Wikipedia. We demonstrate how linked Wikipedia pages can be used to synthesise supervisory signals for cross-lingual retrieval, through a form of cloze query, and generate more natural queries to supervise answer generation. Together, we show our approach, \texttt{CLASS}, outperforms comparable methods on both supervised and zero-shot language adaptation settings, including those using machine translation.
翻訳日:2024-02-27 13:33:11 公開日:2024-02-26
# 意味画像合成のための確率的条件拡散モデル

Stochastic Conditional Diffusion Models for Semantic Image Synthesis ( http://arxiv.org/abs/2402.16506v1 )

ライセンス: Link先を確認
Juyeon Ko, Inho Kong, Hyunwoo J. Kim(参考訳) セマンティック画像合成(英: Semantic image synthesis、SIS)は、セマンティックマップ(ラベル)に対応する現実的な画像を生成するタスクである。 写真編集やコンテンツ作成など、さまざまな現実世界のプラクティスに適用することができる。 しかし、現実世界のアプリケーションでは、SISはしばしばノイズの多いユーザ入力に遭遇する。 そこで本研究では,雑音ラベル付きsisのための新しいフォワード・ジェネレーション過程を特徴とするロバストな条件拡散モデルである確率的条件拡散モデル(scdm)を提案する。 これは、離散拡散でラベルを拡散するラベル拡散を通じて意味ラベルマップを確率的に摂動させることでロバスト性を高める。 ラベルの拡散により、ノイズとクリーンなセマンティックマップは時間ステップが増加するにつれて類似し、最終的に$t=t$で同一になる。 これにより、クリーン画像に近い画像の生成が容易になり、堅牢な生成が可能になる。 さらに,クラスに応じてラベルを微分拡散するクラスワイドノイズスケジュールを提案する。 提案手法は, 実世界のアプリケーションにおけるヒューマンエラーをシミュレーションする新しい実験装置を含む, ベンチマークデータセットの広範な実験と解析により, 高品質なサンプルを生成する。

Semantic image synthesis (SIS) is a task to generate realistic images corresponding to semantic maps (labels). It can be applied to diverse real-world practices such as photo editing or content creation. However, in real-world applications, SIS often encounters noisy user inputs. To address this, we propose Stochastic Conditional Diffusion Model (SCDM), which is a robust conditional diffusion model that features novel forward and generation processes tailored for SIS with noisy labels. It enhances robustness by stochastically perturbing the semantic label maps through Label Diffusion, which diffuses the labels with discrete diffusion. Through the diffusion of labels, the noisy and clean semantic maps become similar as the timestep increases, eventually becoming identical at $t=T$. This facilitates the generation of an image close to a clean image, enabling robust generation. Furthermore, we propose a class-wise noise schedule to differentially diffuse the labels depending on the class. We demonstrate that the proposed method generates high-quality samples through extensive experiments and analyses on benchmark datasets, including a novel experimental setup simulating human errors during real-world applications.
翻訳日:2024-02-27 13:32:52 公開日:2024-02-26
# メモリGAPS: LLMはTulving Testをパスするのか?

Memory GAPS: Would LLM pass the Tulving Test? ( http://arxiv.org/abs/2402.16505v1 )

ライセンス: Link先を確認
Jean-Marie Chauvet(参考訳) Tulving Testは、認識およびリコールタスクにおけるメモリパフォーマンスを調査するために設計された。 この結果は、記憶の「シンナージスティック・エフォリー・モデル」と類似したrkパラダイムの人間のパフォーマンスとの関連性を評価するのに役立つ。 本稿は,44年以上のフレームワークがLLMの記憶行動に光を当てているかどうかを考察する。

The Tulving Test was designed to investigate memory performance in recognition and recall tasks. Its results help assess the relevance of the "Synergistic Ecphory Model" of memory and similar RK paradigms in human performance. This paper starts investigating whether the more than forty-year-old framework sheds some light on LLMs' acts of remembering.
翻訳日:2024-02-27 13:32:24 公開日:2024-02-26
# 大規模言語モデルに対するインスタンスレベルプレフィックスによる微粒化デトックス化

Fine-Grained Detoxification via Instance-Level Prefixes for Large Language Models ( http://arxiv.org/abs/2402.15202v2 )

ライセンス: Link先を確認
Xin Yi and Linlin Wang and Xiaoling Wang and Liang He(参考訳) 自然言語処理(NLP)タスクにおいて,大規模言語モデル(LLM)の学習を通じて印象的な結果が得られた。 しかし、これらのモデルは時々特定のプロンプトに反応して侮辱、脅し、暴言などの有害な内容を生成し、それによって実用性を制限する。 この問題に対処するために,様々な微調整ベースおよび復号化ベースのアプローチが,毒性の緩和に利用されている。 しかし、これらの手法は通常、高品質なトレーニングデータや補助モデルなどの追加コストを必要とする。 本稿では, 有害テキストを余分なコストで軽減するために, インスタンスレベルのプレフィックス(FGDILP)による微粒化デトキシ化を提案する。 具体的には、FGDILPは、インスタンスレベルでの複数の負のプレフィックス前プロンプトと、正のプレフィックス前プロンプトを用いて、注意空間における文脈的表現を対比する。 これにより、微粒な亜毒性ベクターの構築が可能となり、生のプロンプトが提供されると、それらを融合して通常の生成プロセスを修正できる。 fgdilpは発話レベルと文脈レベルでの毒性に関して、制御されたテキスト生成を可能にすることを検証した。 本手法は, 脱毒剤の急激なベースラインを超過するが, 拡散率や多様性はわずかである。

Impressive results have been achieved in natural language processing (NLP) tasks through the training of large language models (LLMs). However, these models occasionally produce toxic content such as insults, threats, and profanity in response to certain prompts, thereby constraining their practical utility. To tackle this issue, various finetuning-based and decoding-based approaches have been utilized to mitigate toxicity. However, these methods typically necessitate additional costs such as high-quality training data or auxiliary models. In this paper, we propose fine-grained detoxification via instance-level prefixes (FGDILP) to mitigate toxic text without additional cost. Specifically, FGDILP contrasts the contextualized representation in attention space using a positive prefix-prepended prompt against multiple negative prefix-prepended prompts at the instance level. This allows for constructing fine-grained subtoxicity vectors, which enables collaborative detoxification by fusing them to correct the normal generation process when provided with a raw prompt. We validate that FGDILP enables controlled text generation with regard to toxicity at both the utterance and context levels. Our method surpasses prompt-based baselines in detoxification, although at a slight cost to generation fluency and diversity.
翻訳日:2024-02-27 11:46:03 公開日:2024-02-26
# グローキング, ダブルディフレッシュ, 創発的能力の統一的視点:回路コンペティションの視点から

Unified View of Grokking, Double Descent and Emergent Abilities: A Perspective from Circuits Competition ( http://arxiv.org/abs/2402.15175v2 )

ライセンス: Link先を確認
Yufei Huang, Shengding Hu, Xu Han, Zhiyuan Liu, Maosong Sun(参考訳) 近年の研究では、人間の直観に挑戦し、神経モデルのより深い理解に不可欠である、大規模言語モデルにおけるグロッキング、ダブル降下、創発能力など、ディープラーニングにおける興味深い現象が発見されている。 本稿では,記憶回路と一般化回路の競合に着目し,これら3つの現象の統一的なビューを提供する包括的枠組みを提案する。 このアプローチは、当初グラッキングを説明するために使用されていたが、より広い範囲のモデルサイズとトレーニングデータボリュームを含むよう、我々の作業で拡張されている。 本フレームワークでは,モデルサイズとトレーニングデータ量の違いに応じて,4つの異なるトレーニングダイナミクスを記述している。 この枠組みを利用して, 二重降下現象の詳細な解析を行い, その発生に関する2つの検証可能な予測を提案する。 さらに、我々のフレームワークをマルチタスク学習パラダイムに拡張し、アルゴリズムタスクを創発的な能力にする方法を実証する。 これは、大規模言語モデルにおける創発的能力を理解するための新しい視点を提供する。

Recent studies have uncovered intriguing phenomena in deep learning, such as grokking, double descent, and emergent abilities in large language models, which challenge human intuition and are crucial for a deeper understanding of neural models. In this paper, we present a comprehensive framework that provides a unified view of these three phenomena, focusing on the competition between memorization and generalization circuits. This approach, initially employed to explain grokking, is extended in our work to encompass a wider range of model sizes and training data volumes. Our framework delineates four distinct training dynamics, each depending on varying combinations of model size and training data quantity. Utilizing this framework, we provide a detailed analysis of the double descent phenomenon and propose two verifiable predictions regarding its occurrence, both substantiated by our experimental results. Moreover, we expand our framework to the multi-task learning paradigm, demonstrating how algorithm tasks can be turned into emergent abilities. This offers a novel perspective to understand emergent abilities in Large Language Models.
翻訳日:2024-02-27 11:45:40 公開日:2024-02-26
# FedCQA:フェデレートラーニングによるマルチソース知識グラフの複雑なクエリの回答

FedCQA: Answering Complex Queries on Multi-Source Knowledge Graphs via Federated Learning ( http://arxiv.org/abs/2402.14609v2 )

ライセンス: Link先を確認
Qi Hu, Weifeng Jiang, Haoran Li, Zihao Wang, Jiaxin Bai, Qianren Mao, Yangqiu Song, Lixin Fan, Jianxin Li(参考訳) 複雑な論理的クエリ応答は知識グラフ(KG)の課題であり、広く研究されている。 複雑な論理推論を行う能力は不可欠であり、検索エンジンのような様々なグラフ推論ベースの下流タスクをサポートする。 近年、KGエンティティと論理クエリを埋め込みベクトルに表現し、KGから論理クエリの解を求める手法が提案されている。 しかし、既存の提案手法は主に1kgのクエリに焦点を合わせており、複数のグラフに適用することはできない。 さらに、センシティブな情報で直接KGを共有することは、プライバシーリスクを引き起こす可能性があるため、クエリの回答を検索するために集約されたKGを共有および構築することは現実的ではない。 したがって、マルチソースKGの問合せにどう答えるかは不明である。 エンティティは、複数のKGの知識グラフや推論に関わり、マルチソースKGの複雑なクエリに答えることは、知識クロスグラフを発見する上で重要である。 幸いにも、連合学習は知識グラフで利用され、プライバシーを保った表現を協調的に学習する。 連合知識グラフ埋め込みは、表現品質を改善するために知識グラフの関係性を強化する。 しかし、これらの手法は一対一の関係にのみ焦点をあて、複雑な推論タスクを実行できない。 本稿では,複雑な問合せ処理にフェデレーション学習を適用し,プライバシを保ちながらマルチソース知識グラフを推論する。 プライバシを保護するために,マルチソースkgs上で,センシティブな生データ送信を回避するために,fedcqa(federated complex query answering framework)を提案する。 実世界の3つのデータセットについて広範な実験を行い、様々な種類の複雑なクエリの検索性能を評価する。

Complex logical query answering is a challenging task in knowledge graphs (KGs) that has been widely studied. The ability to perform complex logical reasoning is essential and supports various graph reasoning-based downstream tasks, such as search engines. Recent approaches are proposed to represent KG entities and logical queries into embedding vectors and find answers to logical queries from the KGs. However, existing proposed methods mainly focus on querying a single KG and cannot be applied to multiple graphs. In addition, directly sharing KGs with sensitive information may incur privacy risks, making it impractical to share and construct an aggregated KG for reasoning to retrieve query answers. Thus, it remains unknown how to answer queries on multi-source KGs. An entity can be involved in various knowledge graphs and reasoning on multiple KGs and answering complex queries on multi-source KGs is important in discovering knowledge cross graphs. Fortunately, federated learning is utilized in knowledge graphs to collaboratively learn representations with privacy preserved. Federated knowledge graph embeddings enrich the relations in knowledge graphs to improve the representation quality. However, these methods only focus on one-hop relations and cannot perform complex reasoning tasks. In this paper, we apply federated learning to complex query-answering tasks to reason over multi-source knowledge graphs while preserving privacy. We propose a Federated Complex Query Answering framework (FedCQA), to reason over multi-source KGs avoiding sensitive raw data transmission to protect privacy. We conduct extensive experiments on three real-world datasets and evaluate retrieval performance on various types of complex queries.
翻訳日:2024-02-27 11:44:28 公開日:2024-02-26
# 大きなデータセットから小さなデータセットへ:クラスタリングアルゴリズム選択のためのサイズ一般化

From Large to Small Datasets: Size Generalization for Clustering Algorithm Selection ( http://arxiv.org/abs/2402.14332v2 )

ライセンス: Link先を確認
Vaggos Chatziafratis, Ishani Karmarkar, and Ellen Vitercik(参考訳) クラスタリングアルゴリズムの選択では、膨大なデータセットが与えられ、どのクラスタリングアルゴリズムを使うか効率的に選択する必要があります。 我々は,この問題を,高価なオラクルクエリを通じてのみアクセス可能な,未知の地下構造クラスタリングを用いて半教師付き環境で研究する。 理想的には、クラスタリングアルゴリズムの出力は構造的に基底真理に近い。 本稿では,クラスタリングアルゴリズムの精度に対するサイズ一般化の概念を導入することにより,この問題にアプローチする。 我々は,(1)大規模クラスタリングインスタンスのサブサンプル化,(2)小さなインスタンス上での候補アルゴリズムの集合の評価,(3)小さなインスタンス上で最高の精度のアルゴリズムが元の大インスタンス上で最高の精度を持つことを保証できる条件を特定した。 我々は、シングルリンク、k-means++、および(滑らかな変種)ゴンザレスのk-センターヒューリスティックの3つの古典的クラスタリングアルゴリズムに対して、理論的大きさの一般化を保証する。 実世界のクラスタリングインスタンスでは、データの5%未満のサブサンプルを使用して、どのアルゴリズムが全データセットで最適かを特定することで、理論的分析を経験的結果で検証する。

In clustering algorithm selection, we are given a massive dataset and must efficiently select which clustering algorithm to use. We study this problem in a semi-supervised setting, with an unknown ground-truth clustering that we can only access through expensive oracle queries. Ideally, the clustering algorithm's output will be structurally close to the ground truth. We approach this problem by introducing a notion of size generalization for clustering algorithm accuracy. We identify conditions under which we can (1) subsample the massive clustering instance, (2) evaluate a set of candidate algorithms on the smaller instance, and (3) guarantee that the algorithm with the best accuracy on the small instance will have the best accuracy on the original big instance. We provide theoretical size generalization guarantees for three classic clustering algorithms: single-linkage, k-means++, and (a smoothed variant of) Gonzalez's k-centers heuristic. We validate our theoretical analysis with empirical results, observing that on real-world clustering instances, we can use a subsample of as little as 5% of the data to identify which algorithm is best on the full dataset.
翻訳日:2024-02-27 11:42:57 公開日:2024-02-26
# プライバシー保護型ニューラルグラフデータベース

Privacy-Preserved Neural Graph Databases ( http://arxiv.org/abs/2312.15591v4 )

ライセンス: Link先を確認
Qi Hu, Haoran Li, Jiaxin Bai, Zihao Wang, Yangqiu Song(参考訳) 大規模言語モデル (LLM) の時代には, ドメイン固有データやプライベートデータを用いた検索拡張(RAG)において, 効率的かつ正確なデータ検索がますます重要になっている。 グラフデータベース(GDB)は、グラフデータベース(GDB)とニューラルネットワークの強みを組み合わせた強力なパラダイムとして登場し、LLMで適応的にトレーニング可能なグラフ構造化データの効率的な保存、検索、分析を可能にしている。 neural embedded storage と complex neural logical query answering (cqa) を使用することで、ngdb は一般化が可能となる。 グラフが不完全である場合、潜在パターンと表現を抽出することにより、ニューラルネットワークはグラフ構造のギャップを埋め、隠れた関係を明らかにし、正確なクエリ応答を可能にする。 それにもかかわらず、この機能はドメイン固有またはプライベートデータベースにさらなるプライバシーリスクをもたらすため、固有のトレードオフを伴う。 悪意のある攻撃者は、1950年以前のチューリング賞の受賞者が1940年以降に生まれ、チューリング賞の受賞者の居住地がおそらく露出する可能性があるが、プライバシー上の懸念から、居住地がトレーニング段階で削除された可能性があるという回答セットから、データベース内のより繊細な情報を推測することができる。 本研究では,NGDBにおけるプライバシリークのリスクを軽減するために,プライバシ保存型ニューラルグラフデータベース(P-NGDB)フレームワークを提案する。 学習段階では,複数の無意味な問合せを組み合わせることで,機密情報の推測の困難さを増大させるため,ngdbsに識別不能な回答を生成するよう強制する。

In the era of large language models (LLMs), efficient and accurate data retrieval has become increasingly crucial for the use of domain-specific or private data in the retrieval augmented generation (RAG). Neural graph databases (NGDBs) have emerged as a powerful paradigm that combines the strengths of graph databases (GDBs) and neural networks to enable efficient storage, retrieval, and analysis of graph-structured data which can be adaptively trained with LLMs. The usage of neural embedding storage and Complex neural logical Query Answering (CQA) provides NGDBs with generalization ability. When the graph is incomplete, by extracting latent patterns and representations, neural graph databases can fill gaps in the graph structure, revealing hidden relationships and enabling accurate query answering. Nevertheless, this capability comes with inherent trade-offs, as it introduces additional privacy risks to the domain-specific or private databases. Malicious attackers can infer more sensitive information in the database using well-designed queries such as from the answer sets of where Turing Award winners born before 1950 and after 1940 lived, the living places of Turing Award winner Hinton are probably exposed, although the living places may have been deleted in the training stage due to the privacy concerns. In this work, we propose a privacy-preserved neural graph database (P-NGDB) framework to alleviate the risks of privacy leakage in NGDBs. We introduce adversarial training techniques in the training stage to enforce the NGDBs to generate indistinguishable answers when queried with private information, enhancing the difficulty of inferring sensitive information through combinations of multiple innocuous queries.
翻訳日:2024-02-27 11:41:34 公開日:2024-02-26
# MaxK-GNN: グラフニューラルネットワークトレーニングの高速化のための超高速GPUカーネル設計

MaxK-GNN: Extremely Fast GPU Kernel Design for Accelerating Graph Neural Networks Training ( http://arxiv.org/abs/2312.08656v4 )

ライセンス: Link先を確認
Hongwu Peng, Xi Xie, Kaustubh Shivdikar, MD Amit Hasan, Jiahui Zhao, Shaoyi Huang, Omer Khan, David Kaeli, Caiwen Ding(参考訳) ディープニューラルネットワークトレーニングの加速において、GPUは主流のプラットフォームになった。 GPUは、ワークロードの不均衡やメモリアクセスの不規則など、GNNに重大な課題に直面し、未使用のハードウェアに繋がる。 PyG、cuSPARSEを使ったDGL、GNNAdvisorフレームワークといった既存のソリューションは、これらの課題に部分的に対処するが、メモリトラフィックは依然として重要である。 我々は、高速化最適化を「後考」として扱うのではなく、アルゴリズムとシステム革新の垂直最適化によってのみ、劇的な性能改善が達成できると主張している。 (i)GNNアルゴリズムを与えられたり、加速器を設計したり、 (ii)gnnアルゴリズムを最適化したハードウェアが与えられた。 本稿では,アルゴリズムとシステム革新を統合した高性能GPUトレーニングシステムMaxK-GNNを提案する。 (i)MaxK非線形性を導入し、MaxK非線形性を普遍近似として理論的解析し、非線形性後の特徴行列のデータとインデックスを保存するために設計されたCompressed Balanced Sparse Row(CBSR)フォーマットを示す。 (II)入力特徴量取得と共有メモリにおけるスパース出力蓄積バッファの戦略的配置にCBSRを用いた行ワイズ製品ベースSpGEMMカーネルを用いたコーデッシング強化フォワード計算を設計する。 (iii)外部製品ベースおよびsspmmカーネルを用いた最適化後向き計算を開発した。 我々はMaxK-GNNを広範囲に評価し、エンドツーエンドのシステム実行状況を報告する。 実験により、maxk-gnnシステムはamdahlの法則に従って理論的なスピードアップ限界に近づくことができた。 我々はSOTA GNNに匹敵する精度を達成したが、DGLやGNNAdvisorの実装と比較して、Redditの3.22/4.24倍のスピードアップ(理論上の制限は5.52/7.27倍)を実現した。

In the acceleration of deep neural network training, the GPU has become the mainstream platform. GPUs face substantial challenges on GNNs, such as workload imbalance and memory access irregularities, leading to underutilized hardware. Existing solutions such as PyG, DGL with cuSPARSE, and GNNAdvisor frameworks partially address these challenges but memory traffic is still significant. We argue that drastic performance improvements can only be achieved by the vertical optimization of algorithm and system innovations, rather than treating the speedup optimization as an "after-thought" (i.e., (i) given a GNN algorithm, designing an accelerator, or (ii) given hardware, mainly optimizing the GNN algorithm). In this paper, we present MaxK-GNN, an advanced high-performance GPU training system integrating algorithm and system innovation. (i) We introduce the MaxK nonlinearity and provide a theoretical analysis of MaxK nonlinearity as a universal approximator, and present the Compressed Balanced Sparse Row (CBSR) format, designed to store the data and index of the feature matrix after nonlinearity; (ii) We design a coalescing enhanced forward computation with row-wise product-based SpGEMM Kernel using CBSR for input feature matrix fetching and strategic placement of a sparse output accumulation buffer in shared memory; (iii) We develop an optimized backward computation with outer product-based and SSpMM Kernel. We conduct extensive evaluations of MaxK-GNN and report the end-to-end system run-time. Experiments show that MaxK-GNN system could approach the theoretical speedup limit according to Amdahl's law. We achieve comparable accuracy to SOTA GNNs, but at a significantly increased speed: 3.22/4.24 times speedup (vs. theoretical limits, 5.52/7.27 times) on Reddit compared to DGL and GNNAdvisor implementations.
翻訳日:2024-02-27 11:41:07 公開日:2024-02-26