論文の概要: RollingQ: Reviving the Cooperation Dynamics in Multimodal Transformer
- arxiv url: http://arxiv.org/abs/2506.11465v1
- Date: Fri, 13 Jun 2025 04:39:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.657868
- Title: RollingQ: Reviving the Cooperation Dynamics in Multimodal Transformer
- Title(参考訳): RollingQ: マルチモーダルトランスにおける協調ダイナミクスの復活
- Authors: Haotian Ni, Yake Wei, Hang Liu, Gong Chen, Chong Peng, Hao Lin, Di Hu,
- Abstract要約: 本稿では,クエリを回転させてアテンションアロケーションのバランスをとることで,自己強化サイクルを破り,キー配布ギャップを緩和する手法を提案する。
様々なマルチモーダルシナリオの実験は、広くデプロイされたマルチモーダル変圧器の広範な機能向上のために、RollingQの有効性と協調力学の回復を検証している。
- 参考スコア(独自算出の注目度): 17.963091917533422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning faces challenges in effectively fusing information from diverse modalities, especially when modality quality varies across samples. Dynamic fusion strategies, such as attention mechanism in Transformers, aim to address such challenge by adaptively emphasizing modalities based on the characteristics of input data. However, through amounts of carefully designed experiments, we surprisingly observed that the dynamic adaptability of widely-used self-attention models diminishes. Model tends to prefer one modality regardless of data characteristics. This bias triggers a self-reinforcing cycle that progressively overemphasizes the favored modality, widening the distribution gap in attention keys across modalities and deactivating attention mechanism's dynamic properties. To revive adaptability, we propose a simple yet effective method Rolling Query (RollingQ), which balances attention allocation by rotating the query to break the self-reinforcing cycle and mitigate the key distribution gap. Extensive experiments on various multimodal scenarios validate the effectiveness of RollingQ and the restoration of cooperation dynamics is pivotal for enhancing the broader capabilities of widely deployed multimodal Transformers. The source code is available at https://github.com/GeWu-Lab/RollingQ_ICML2025.
- Abstract(参考訳): マルチモーダル学習は、特にモダリティの品質がサンプルによって異なる場合、様々なモダリティからの情報を効果的に融合する際の課題に直面している。
トランスフォーマーにおけるアテンション機構などの動的融合戦略は、入力データの特徴に基づいてモダリティを適応的に強調することにより、このような課題に対処することを目指している。
しかし, 慎重に設計した実験によって, 広く用いられている自己注意モデルの動的適応性が低下することが明らかとなった。
モデルはデータ特性に関係なく1つのモダリティを好む傾向にある。
このバイアスは、好まれるモダリティを徐々に強調する自己強化サイクルを引き起こし、アテンションキーの分布ギャップをモダリティ全体に広げ、アテンションメカニズムの動的特性を非活性化させる。
適応性を回復するために、クエリを回転させることでアテンションアロケーションのバランスを保ち、自己強化サイクルを破り、キー配布ギャップを緩和する、シンプルで効果的なRolling Query(RollingQ)を提案する。
様々なマルチモーダルシナリオに対する大規模な実験は、広く展開されたマルチモーダル変圧器の広範な機能向上に、RollingQの有効性と協調力学の回復が不可欠である。
ソースコードはhttps://github.com/GeWu-Lab/RollingQ_ICML2025で公開されている。
関連論文リスト
- Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Online Boosting Adaptive Learning under Concept Drift for Multistream
Classification [34.64751041290346]
マルチストリーム分類は,コンセプトドリフトを伴う動的ストリーミングプロセスにおいて,迅速な適応の必要性から,重要な課題となっている。
本稿では,異なるストリーム間の動的相関を適応的に学習する新しいオンラインブースティング適応学習法を提案する。
論文 参考訳(メタデータ) (2023-12-17T23:10:39Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Revisiting Modality Imbalance In Multimodal Pedestrian Detection [6.7841188753203046]
本稿では,マルチモーダルアーキテクチャにおける正規化器を用いた新しいトレーニング構成を導入し,モーダル間の相違を解消する。
具体的には,2つの特徴抽出器を訓練中に同等に重要視することにより,特徴融合法をより堅牢にすることを支援する。
論文 参考訳(メタデータ) (2023-02-24T11:56:57Z) - Learning Sequential Latent Variable Models from Multimodal Time Series
Data [6.107812768939553]
マルチモーダルデータの確率的潜在状態表現を協調的に学習するための自己教師付き生成モデリングフレームワークを提案する。
提案手法が予測品質と表現品質を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2022-04-21T21:59:24Z) - Adaptive Multi-Resolution Attention with Linear Complexity [18.64163036371161]
本稿では,AdaMRA(Adaptive Multi-Resolution Attention)という新しい構造を提案する。
我々はマルチレゾリューション・マルチヘッド・アテンション・メカニズムを活用し、アテンションヘッドが粗い方法で長距離コンテキスト情報をキャプチャすることを可能にする。
科学コミュニティによるAdaMRAの利用を促進するため、コード実装を一般公開する予定である。
論文 参考訳(メタデータ) (2021-08-10T23:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。