論文の概要: Gated Recursive Fusion: A Stateful Approach to Scalable Multimodal Transformers
- arxiv url: http://arxiv.org/abs/2507.02985v1
- Date: Tue, 01 Jul 2025 09:33:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.500358
- Title: Gated Recursive Fusion: A Stateful Approach to Scalable Multimodal Transformers
- Title(参考訳): Gated Recursive Fusion: スケーラブルマルチモーダルトランスへのステートフルアプローチ
- Authors: Yusuf Shihata,
- Abstract要約: Gated Recurrent Fusion(GRF)は、線形にスケーラブルで再帰的なパイプライン内で、モーダル間注目のパワーをキャプチャする新しいアーキテクチャである。
我々の研究は、強力でスケーラブルなマルチモーダル表現学習のための堅牢で効率的なパラダイムを提示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal learning faces a fundamental tension between deep, fine-grained fusion and computational scalability. While cross-attention models achieve strong performance through exhaustive pairwise fusion, their quadratic complexity is prohibitive for settings with many modalities. We address this challenge with Gated Recurrent Fusion (GRF), a novel architecture that captures the power of cross-modal attention within a linearly scalable, recurrent pipeline. Our method processes modalities sequentially, updating an evolving multimodal context vector at each step. The core of our approach is a fusion block built on Transformer Decoder layers that performs symmetric cross-attention, mutually enriching the shared context and the incoming modality. This enriched information is then integrated via a Gated Fusion Unit (GFU) a GRU-inspired mechanism that dynamically arbitrates information flow, enabling the model to selectively retain or discard features. This stateful, recurrent design scales linearly with the number of modalities, O(n), making it ideal for high-modality environments. Experiments on the CMU-MOSI benchmark demonstrate that GRF achieves competitive performance compared to more complex baselines. Visualizations of the embedding space further illustrate that GRF creates structured, class-separable representations through its progressive fusion mechanism. Our work presents a robust and efficient paradigm for powerful, scalable multimodal representation learning.
- Abstract(参考訳): マルチモーダル学習は、深い、きめ細かい融合と計算スケーラビリティの根本的な緊張に直面している。
クロスアテンションモデルは、徹底的なペアワイズ融合によって強い性能を達成するが、多くのモダリティを持つ設定では、その二次的な複雑さは禁じられている。
この課題に対処するGated Recurrent Fusion(GRF)は、線形にスケーラブルで再帰的なパイプライン内で、モーダル間注目のパワーをキャプチャする新しいアーキテクチャである。
提案手法は,各ステップで進化するマルチモーダルコンテキストベクトルを更新し,モーダル性を逐次処理する。
提案手法のコアとなるのはTransformer Decoder層上に構築された融合ブロックで,共有コンテキストと入ってくるモダリティを相互に強化する。
この強化された情報は Gated Fusion Unit (GFU) を介して統合され、GRUにインスパイアされたメカニズムは情報の流れを動的に調停し、モデルが特徴を選択的に保持または破棄することを可能にする。
このステートフルで反復的な設計は、モダリティの個数 O(n) と線形にスケールし、高モダリティ環境に最適である。
CMU-MOSIベンチマークの実験では、より複雑なベースラインと比較して、GRFが競争性能を達成することを示した。
埋め込み空間の可視化はさらに、GRFがプログレッシブ融合機構を通じて構造化されたクラス分離表現を生成することを示している。
我々の研究は、強力でスケーラブルなマルチモーダル表現学習のための堅牢で効率的なパラダイムを提示している。
関連論文リスト
- FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [50.438552588818]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - Gated Multimodal Graph Learning for Personalized Recommendation [9.466822984141086]
マルチモーダルレコメンデーションは、協調フィルタリングにおけるコールドスタートとスパーシリティの問題を軽減するための有望なソリューションとして登場した。
グラフベースユーザモデリングと適応型マルチモーダルアイテムエンコーディングを組み合わせた軽量かつモジュール化されたレコメンデーションフレームワーク RLMultimodalRec を提案する。
論文 参考訳(メタデータ) (2025-05-30T16:57:17Z) - Co-AttenDWG: Co-Attentive Dimension-Wise Gating and Expert Fusion for Multi-Modal Offensive Content Detection [0.0]
本稿では,マルチモーダルなCo-AttenDWGアーキテクチャを提案する。
我々はMIMICとSemEval Memotion 1.0に対するアプローチを検証した。
論文 参考訳(メタデータ) (2025-05-25T07:26:00Z) - Can We Achieve Efficient Diffusion without Self-Attention? Distilling Self-Attention into Convolutions [94.21989689001848]
従来の自己アテンションモジュールをピラミッド畳み込みブロック((Delta)ConvBlocks)に置き換えるための(Delta)ConvFusionを提案する。
ローカライズされた畳み込み操作に注意パターンを蒸留し、他のコンポーネントを凍結させながら、(Delta)ConvFusionは、トランスフォーマーベースの処理に匹敵する性能を達成し、計算コストを6929$times$、LinFusionを5.42$times$の効率で上回る。
論文 参考訳(メタデータ) (2025-04-30T03:57:28Z) - M$^3$amba: CLIP-driven Mamba Model for Multi-modal Remote Sensing Classification [23.322598623627222]
M$3$ambaは、マルチモーダル融合のための新しいエンドツーエンドのCLIP駆動のMambaモデルである。
異なるモダリティの包括的セマンティック理解を実現するために,CLIP駆動型モダリティ固有アダプタを提案する。
実験の結果、M$3$ambaは最先端の手法と比較して平均5.98%の性能向上が見られた。
論文 参考訳(メタデータ) (2025-03-09T05:06:47Z) - Coupled Mamba: Enhanced Multi-modal Fusion with Coupled State Space Model [18.19558762805031]
本稿では,複数モードの状態チェーンを結合し,モード内状態プロセスの独立性を維持した結合型SSMモデルを提案する。
CMU-EI,CH-SIMS,CH-SIMSV2のマルチドメイン入力による実験により,本モデルの有効性が検証された。
その結果, 結合マンバモデルではマルチモーダル核融合が可能であることがわかった。
論文 参考訳(メタデータ) (2024-05-28T09:57:03Z) - GraFT: Gradual Fusion Transformer for Multimodal Re-Identification [0.8999666725996975]
マルチモーダル ReID のための textbf Gradual Fusion Transformer (GraFT) を導入する。
GraFTは学習可能な融合トークンを使用し、エンコーダ間で自己注意を誘導し、モダリティ固有の特徴とオブジェクト固有の特徴の両方を順応的にキャプチャする。
これらの拡張を広範囲にわたるアブレーション研究を通じて実証し、GraFTが確立されたマルチモーダルReIDベンチマークを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-10-25T00:15:40Z) - Transformer Fusion with Optimal Transport [25.022849817421964]
Fusionは、独立に訓練された複数のニューラルネットワークをマージして、それらの能力を組み合わせる技術である。
本稿では, トランスポートを利用した2つ以上のトランスフォーマーネットワークを (ソフト) に融合させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-09T13:40:31Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - MEAformer: Multi-modal Entity Alignment Transformer for Meta Modality
Hybrid [40.745848169903105]
マルチモーダル・エンティティ・アライメント(MMEA)は、異なる知識グラフにまたがる同一のエンティティを発見することを目的としている。
MMEAアルゴリズムはマルチモーダル実体表現のためのKGレベルのモダリティ融合戦略に依存している。
本稿ではメタモダリティハイブリッドのためのマルチモーダルエンティティアライメントトランスであるMEAformerを紹介する。
論文 参考訳(メタデータ) (2022-12-29T20:49:58Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。