論文の概要: Dissecting Multimodal In-Context Learning: Modality Asymmetries and Circuit Dynamics in modern Transformers
- arxiv url: http://arxiv.org/abs/2601.20796v1
- Date: Wed, 28 Jan 2026 17:37:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:07.082301
- Title: Dissecting Multimodal In-Context Learning: Modality Asymmetries and Circuit Dynamics in modern Transformers
- Title(参考訳): マルチモーダル・インコンテキスト・ラーニングの分別:現代変圧器におけるモダリティ・アシンメトリーと回路ダイナミクス
- Authors: Yiran Huang, Karsten Roth, Quentin Bouniot, Wenjia Xu, Zeynep Akata,
- Abstract要約: コンテクスト内の例から,トランスフォーマーがモダリティ間で情報を関連づけることを学ぶ方法について検討する。
現代変圧器におけるユニモーダルICLの原理を再考する。
メカニスティック分析では、両方の設定は、ラベルをマッチするインコンテキストの例からコピーするインダクションスタイルのメカニズムに依存している。
- 参考スコア(独自算出の注目度): 59.472505916020936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based multimodal large language models often exhibit in-context learning (ICL) abilities. Motivated by this phenomenon, we ask: how do transformers learn to associate information across modalities from in-context examples? We investigate this question through controlled experiments on small transformers trained on synthetic classification tasks, enabling precise manipulation of data statistics and model architecture. We begin by revisiting core principles of unimodal ICL in modern transformers. While several prior findings replicate, we find that Rotary Position Embeddings (RoPE) increases the data complexity threshold for ICL. Extending to the multimodal setting reveals a fundamental learning asymmetry: when pretrained on high-diversity data from a primary modality, surprisingly low data complexity in the secondary modality suffices for multimodal ICL to emerge. Mechanistic analysis shows that both settings rely on an induction-style mechanism that copies labels from matching in-context exemplars; multimodal training refines and extends these circuits across modalities. Our findings provide a mechanistic foundation for understanding multimodal ICL in modern transformers and introduce a controlled testbed for future investigation.
- Abstract(参考訳): トランスフォーマーベースのマルチモーダル言語モデルは、しばしばインコンテキスト学習(ICL)能力を示す。
この現象に動機づけられた私たちは、コンテクスト内の例から、トランスフォーマーはどのように、モダリティを越えて情報を関連づけることを学ぶのか?
本研究では,データ統計とモデルアーキテクチャの精密な操作を可能にするため,合成分類タスクを訓練した小型変圧器の制御実験を通じてこの問題を考察する。
我々は、現代の変圧器におけるユニモーダルICLの中核原理を再考することから始める。
いくつかの先行的な発見が再現されているが、ロタリー位置埋め込み(Rotary Position Embeddings, RoPE)はICLのデータ複雑性閾値を増大させる。
多モード設定の拡張は、基本的な学習非対称性を示す: 一次モダリティから高多様性データに事前訓練された場合、多モードICLが出現する2次モダリティの複雑さは驚くほど低い。
メカニスティック解析は、両方の設定が、一致したコンテキスト内見本からラベルをコピーする帰納的機構に依存していることを示している。
本研究は, 現代の変圧器における多モードICLを理解するための機構基盤を提供するとともに, 将来の調査のための制御テストベッドを導入する。
関連論文リスト
- Can Transformers Learn Full Bayesian Inference in Context? [13.479322264788367]
本稿では,コンテクストでよく使用される統計モデルに対して,変圧器が完全なベイズ推定を行うことができることを示す。
本稿では,従来のネットワークと連続正規化フローのアイデアを基盤とした汎用フレームワークを提案する。
実世界のデータセットに対する実験により、我々のICLアプローチは、最先端MCMCや変分推論手法と品質が類似した後部サンプルを生成することを示した。
論文 参考訳(メタデータ) (2025-01-28T10:04:53Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。