論文の概要: Multi-layer Cross-Attention is Provably Optimal for Multi-modal In-context Learning
- arxiv url: http://arxiv.org/abs/2602.04872v1
- Date: Wed, 04 Feb 2026 18:57:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.698792
- Title: Multi-layer Cross-Attention is Provably Optimal for Multi-modal In-context Learning
- Title(参考訳): マルチモーダル・インコンテクスト学習における多層クロスアテンションの最適性
- Authors: Nicholas Barnfield, Subhabrata Sen, Pragya Sur,
- Abstract要約: 本稿では,マルチモーダル学習を数学的に学習可能なフレームワークを導入し,変換器のようなアーキテクチャがベイズ最適性能をコンテキスト内で回復する方法について検討する。
本研究は,マルチモーダル分布において,文脈内学習における奥行きの利点を強調し,クロスアテンションの有効性を確立することを目的とする。
- 参考スコア(独自算出の注目度): 7.67220299822976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress has rapidly advanced our understanding of the mechanisms underlying in-context learning in modern attention-based neural networks. However, existing results focus exclusively on unimodal data; in contrast, the theoretical underpinnings of in-context learning for multi-modal data remain poorly understood. We introduce a mathematically tractable framework for studying multi-modal learning and explore when transformer-like architectures can recover Bayes-optimal performance in-context. To model multi-modal problems, we assume the observed data arises from a latent factor model. Our first result comprises a negative take on expressibility: we prove that single-layer, linear self-attention fails to recover the Bayes-optimal predictor uniformly over the task distribution. To address this limitation, we introduce a novel, linearized cross-attention mechanism, which we study in the regime where both the number of cross-attention layers and the context length are large. We show that this cross-attention mechanism is provably Bayes optimal when optimized using gradient flow. Our results underscore the benefits of depth for in-context learning and establish the provable utility of cross-attention for multi-modal distributions.
- Abstract(参考訳): 最近の進歩は、現代の注目に基づくニューラルネットワークにおけるコンテキスト内学習の基礎となるメカニズムの理解を急速に進めている。
対照的に、マルチモーダルデータに対する文脈内学習の理論的基盤はいまだに理解されていない。
本稿では,マルチモーダル学習を数学的に学習可能なフレームワークを導入し,変換器のようなアーキテクチャがベイズ最適性能をコンテキスト内で回復する方法について検討する。
マルチモーダルな問題をモデル化するために、観測されたデータは潜在因子モデルから生じると仮定する。
最初の結果は,一層の線形自己注意が,タスク分布に対するベイズ最適予測器の一様回復に失敗することを証明した。
この制限に対処するために、我々は、クロスアテンション層の数とコンテキスト長の両方が大きい状況下で研究する、新しい線形化されたクロスアテンション機構を導入する。
勾配流を用いて最適化した場合,このクロスアテンション機構がベイズ最適であることを示す。
本研究は,マルチモーダル分布において,文脈内学習における奥行きの利点を強調し,クロスアテンションの有効性を確立することを目的とする。
関連論文リスト
- Continual Multimodal Contrastive Learning [99.53621521696051]
MCL(Multimodal Contrastive Learning)は、異なるモダリティを整列し、関節空間におけるマルチモーダル表現を生成する。
マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。
本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。
理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文 参考訳(メタデータ) (2025-03-19T07:57:08Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。
実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - Revisiting Modality Imbalance In Multimodal Pedestrian Detection [6.7841188753203046]
本稿では,マルチモーダルアーキテクチャにおける正規化器を用いた新しいトレーニング構成を導入し,モーダル間の相違を解消する。
具体的には,2つの特徴抽出器を訓練中に同等に重要視することにより,特徴融合法をより堅牢にすることを支援する。
論文 参考訳(メタデータ) (2023-02-24T11:56:57Z) - Hybrid Contrastive Learning of Tri-Modal Representation for Multimodal
Sentiment Analysis [18.4364234071951]
我々は,三モーダル表現のハイブリッドコントラスト学習のための新しいフレームワークHyConを提案する。
具体的には,モーダル内・モーダル内コントラスト学習と半コントラスト学習を同時に行う。
提案手法は既存の作業より優れている。
論文 参考訳(メタデータ) (2021-09-04T06:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。