論文の概要: DeepMLF: Multimodal language model with learnable tokens for deep fusion in sentiment analysis
- arxiv url: http://arxiv.org/abs/2504.11082v1
- Date: Tue, 15 Apr 2025 11:28:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:11:54.859050
- Title: DeepMLF: Multimodal language model with learnable tokens for deep fusion in sentiment analysis
- Title(参考訳): DeepMLF:感情分析における深層融合のための学習可能なトークンを用いたマルチモーダル言語モデル
- Authors: Efthymios Georgiou, Vassilis Katsouros, Yannis Avrithis, Alexandros Potamianos,
- Abstract要約: DeepMLFは、深層融合に適した学習可能なトークンを持つ新しいマルチモーダル言語モデルである。
以上の結果から,より深層核融合により,既存のアプローチよりも優れた核融合深度 (5-7) が得られることが確認された。
- 参考スコア(独自算出の注目度): 62.31018417955254
- License:
- Abstract: While multimodal fusion has been extensively studied in Multimodal Sentiment Analysis (MSA), the role of fusion depth and multimodal capacity allocation remains underexplored. In this work, we position fusion depth, scalability, and dedicated multimodal capacity as primary factors for effective fusion. We introduce DeepMLF, a novel multimodal language model (LM) with learnable tokens tailored toward deep fusion. DeepMLF leverages an audiovisual encoder and a pretrained decoder LM augmented with multimodal information across its layers. We append learnable tokens to the LM that: 1) capture modality interactions in a controlled fashion and 2) preserve independent information flow for each modality. These fusion tokens gather linguistic information via causal self-attention in LM Blocks and integrate with audiovisual information through cross-attention MM Blocks. Serving as dedicated multimodal capacity, this design enables progressive fusion across multiple layers, providing depth in the fusion process. Our training recipe combines modality-specific losses and language modelling loss, with the decoder LM tasked to predict ground truth polarity. Across three MSA benchmarks with varying dataset characteristics, DeepMLF achieves state-of-the-art performance. Our results confirm that deeper fusion leads to better performance, with optimal fusion depths (5-7) exceeding those of existing approaches. Additionally, our analysis on the number of fusion tokens reveals that small token sets ($\sim$20) achieve optimal performance. We examine the importance of representation learning order (fusion curriculum) through audiovisual encoder initialization experiments. Our ablation studies demonstrate the superiority of the proposed fusion design and gating while providing a holistic examination of DeepMLF's scalability to LLMs, and the impact of each training objective and embedding regularization.
- Abstract(参考訳): マルチモーダル核融合はMSA(Multimodal Sentiment Analysis)において広く研究されているが、核融合深度とマルチモーダルキャパシティアロケーションの役割はいまだに未解明である。
本研究では, 核融合深度, スケーラビリティ, 専用マルチモーダルキャパシティを有効融合の主要因として位置づける。
深層融合に適した学習可能なトークンを持つ新しいマルチモーダル言語モデル(LM)であるDeepMLFを紹介する。
DeepMLFは、オーディオヴィジュアルエンコーダと、その層にまたがるマルチモーダル情報を付加した事前訓練されたデコーダLMを活用する。
LMに学習可能なトークンを追加します。
1)モダリティの相互作用を制御された方法で捕捉し、
2)各モダリティごとに独立した情報の流れを維持する。
これらの融合トークンは、LMブロック内の因果自己注意を介して言語情報を収集し、クロスアテンションMMブロックを介してオーディオ視覚情報と統合する。
専用のマルチモーダルキャパシティとして機能するこの設計は、複数の層をまたがるプログレッシブ融合を可能にし、融合プロセスの深みを提供する。
トレーニングレシピは、モダリティ特異的な損失と言語モデリングの損失を組み合わせ、デコーダLMは、真実の極性を予測する。
データセット特性の異なる3つのMSAベンチマークで、DeepMLFは最先端のパフォーマンスを達成する。
以上の結果から,より深層核融合により,既存のアプローチよりも優れた核融合深度 (5-7) が得られることが確認された。
さらに, 核融合トークン数の解析により, 小さなトークンセット($20)が最適性能を実現することを明らかにした。
本稿では,視覚的エンコーダの初期化実験による表現学習順序(融合カリキュラム)の重要性について検討する。
我々のアブレーション研究は,DeepMLFのLCMへのスケーラビリティの総合的な検証と,各トレーニング目標の影響,および正規化の組込みを図りながら,提案した融合設計とゲーティングの優位性を実証する。
関連論文リスト
- FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [56.08867996209236]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルな異種シナリオにおけるMLLMのファインチューニング性能を評価するためのベンチマークを提案する。
従来のFL手法を2つのモダリティに依存しない戦略と組み合わせた一般的なFedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。