論文の概要: Feature Alignment Determines Fusion Strategy: A Comparative Study of Cross-Attention and Concatenation in Multimodal Learning
- arxiv url: http://arxiv.org/abs/2606.01207v1
- Date: Sun, 31 May 2026 12:55:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.381246
- Title: Feature Alignment Determines Fusion Strategy: A Comparative Study of Cross-Attention and Concatenation in Multimodal Learning
- Title(参考訳): 特徴アライメント決定による融合戦略:マルチモーダル学習におけるクロスアテンションと連結の比較研究
- Authors: Zhiqiang Zhou, Xuezhen Xie,
- Abstract要約: データスケールのみでなく、機能アライメントの品質が、融合戦略が優れている主要な決定要因であることを実証する。
視覚言語による事前学習目標によって特徴が事前整列された場合、連結は4.1~5.1ポイントの相互注意よりも優れることを示す。
- 参考スコア(独自算出の注目度): 3.8380090640598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The choice between cross-attention and concatenation for multimodal fusion remains governed by practitioner intuition rather than principled understanding. In this paper, we demonstrate that feature alignment quality, not data scale alone, is the primary determinant of which fusion strategy excels. Through controlled experiments on Flickr8k using two feature extraction backbones (ResNet18 and CLIP ViT-B/32), we show that concatenation outperforms cross-attention by 4.1-5.1 percentage points across all tested scales (2048-16384 samples) when features are pre-aligned by a vision-language pretraining objective. We provide a theoretical explanation grounded in sample complexity analysis: concatenation requires O(d_v + d_t) samples to learn its fusion projection, while cross-attention requires O(d_v * d_t) samples to learn bilinear attention weights, over 256 times as many for 512-dimensional CLIP features. When features are already aligned, the approximation error gap between the two methods vanishes, and concatenation's sample efficiency dominates at all practical dataset sizes. An alignment degradation study confirms a monotonic trend: as feature alignment degrades, concatenation's advantage grows from 1.3% to 2.8%. These findings provide a principled decision framework for fusion method selection in multimodal systems, with direct implications for the design of Multimodal Large Language Models.
- Abstract(参考訳): マルチモーダル融合における相互注意と連結の選択は、原則的理解よりも実践的直観によって支配されている。
本稿では,データスケールのみでなく,機能アライメントの品質が,融合戦略が優れている主要な決定要因であることを実証する。
Flickr8k上の2つの特徴抽出バックボーン(ResNet18とCLIP ViT-B/32)を用いた制御実験により、視覚言語による事前学習目的によって特徴が予め整列されている場合、結合は全テストスケール(2048-16384サンプル)で4.1-5.1ポイントの相互アテンションよりも優れることを示した。
連成は融合射影を学習するためにO(d_v + d_t)サンプルを必要とするのに対し、交差注意はO(d_v * d_t)サンプルが512次元CLIP特徴の256倍の重みを学習するためにO(d_v * d_t)サンプルを必要とする。
特徴がすでに整列されている場合、2つのメソッド間の近似誤差ギャップは消滅し、結合のサンプル効率は、すべての実用的なデータセットサイズで支配される。
アライメント劣化の研究により単調な傾向が確認され、特徴アライメントが劣化するにつれて、結合の優位性は1.3%から2.8%へと増大する。
これらの知見は,マルチモーダル大規模言語モデルの設計に直接的な意味を持つ,マルチモーダルシステムにおける融合法選択の原則的決定枠組みを提供する。
関連論文リスト
- COVTrack++: Learning Open-Vocabulary Multi-Object Tracking from Continuous Videos via a Synergistic Paradigm [59.26203051651017]
C-TAOはOpen-Vocabulary Multi-Object Tracking (OVMOT)のための最初の連続アノテーション付きトレーニングセットである
フレームワークボトルネックに対するCOVTrack++は,3つのモジュールによる検出とアソシエーションの双方向相互機構を実現するための相乗的フレームワークである。
TAOの実験では、新しいTAAは検証とテストセットで35.4%、30.5%に達し、新しいAssocAは4.8%、新しいLocAは5.8%向上した。
論文 参考訳(メタデータ) (2026-03-25T07:20:27Z) - UniT: Unified Multimodal Chain-of-Thought Test-time Scaling [85.590774707406]
統一モデルは単一のアーキテクチャ内でマルチモーダル理解と生成の両方を扱うことができるが、通常は出力を反復的に書き換えることなく単一のパスで操作する。
マルチモーダルなテストタイムスケーリングのためのフレームワークであるUniTを導入し、単一の統一モデルで複数のラウンドをまたいだ推論、検証、精査を可能にします。
論文 参考訳(メタデータ) (2026-02-12T18:59:49Z) - Kernel Alignment-based Multi-view Unsupervised Feature Selection with Sample-level Adaptive Graph Learning [23.32756750343138]
我々は,これらの問題に対処するために,サンプルレベル適応グラフ lEarning 法 (KAFUSE) を用いたカーネルアライメントに基づくマルチビュー非教師付きFeatUre選択を提案する。
実際のマルチビューデータセットの実験は、最先端の手法よりもKAFUSEの方が優れていることを示している。
論文 参考訳(メタデータ) (2026-01-12T07:50:51Z) - MsaMIL-Net: An End-to-End Multi-Scale Aware Multiple Instance Learning Network for Efficient Whole Slide Image Classification [0.7510165488300369]
バグベースのMIL(Multiple Instance Learning)アプローチが、WSI(Whole Slide Image)分類の主流方法論として登場した。
本稿では,マルチスケール特徴抽出と複数インスタンス学習を統合したエンドツーエンドのWSI分類フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-11T16:16:44Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Pairwise Learning via Stagewise Training in Proximal Setting [0.0]
非平滑凸対損失関数の収束保証と、適応的なサンプルサイズとペアワイズ学習のための重要サンプリング手法を組み合わせる。
それぞれに逆のインスタンスをサンプリングすると勾配の分散が減少し、収束が加速することを示した。
論文 参考訳(メタデータ) (2022-08-08T11:51:01Z) - BIMS-PU: Bi-Directional and Multi-Scale Point Cloud Upsampling [60.257912103351394]
我々はBIMS-PUと呼ばれる新しいポイント・クラウド・アップサンプリング・パイプラインを開発した。
対象のサンプリング因子を小さな因子に分解することにより,アップ/ダウンサンプリング手順をいくつかのアップ/ダウンサンプリングサブステップに分解する。
提案手法は最先端手法よりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-25T13:13:37Z) - Universal Weighting Metric Learning for Cross-Modal Matching [79.32133554506122]
クロスモーダルマッチングは、視覚領域と言語領域の両方において、注目すべき研究トピックである。
クロスモーダルマッチングのためのシンプルで解釈可能な普遍重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-07T13:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。