論文の概要: MSE-Adapter: A Lightweight Plugin Endowing LLMs with the Capability to Perform Multimodal Sentiment Analysis and Emotion Recognition
- arxiv url: http://arxiv.org/abs/2502.12478v1
- Date: Tue, 18 Feb 2025 03:06:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:03:06.168975
- Title: MSE-Adapter: A Lightweight Plugin Endowing LLMs with the Capability to Perform Multimodal Sentiment Analysis and Emotion Recognition
- Title(参考訳): MSE-Adapter:マルチモーダル感度解析と感情認識機能を有する軽量プラグイン型LDM
- Authors: Yang Yang, Xunde Dong, Yupeng Qiang,
- Abstract要約: 事前学習言語モデルに基づくマルチモーダル知覚分析(MSA)と会話における感情認識(ERC)は2つの主要な限界を示す。
軽量で適応可能なプラグインとして textbfMultimodal textbfSentiment Analysis と textbfAdapter (MSE-Adapter) を提案する。
- 参考スコア(独自算出の注目度): 3.2899630403451985
- License:
- Abstract: Current Multimodal Sentiment Analysis (MSA) and Emotion Recognition in Conversations (ERC) methods based on pre-trained language models exhibit two primary limitations: 1) Once trained for MSA and ERC tasks, these pre-trained language models lose their original generalized capabilities. 2) They demand considerable computational resources. As the size of pre-trained language models continues to grow, training larger multimodal sentiment analysis models using previous approaches could result in unnecessary computational cost. In response to this challenge, we propose \textbf{M}ultimodal \textbf{S}entiment Analysis and \textbf{E}motion Recognition \textbf{Adapter} (MSE-Adapter), a lightweight and adaptable plugin. This plugin enables a large language model (LLM) to carry out MSA or ERC tasks with minimal computational overhead (only introduces approximately 2.6M to 2.8M trainable parameters upon the 6/7B models), while preserving the intrinsic capabilities of the LLM. In the MSE-Adapter, the Text-Guide-Mixer (TGM) module is introduced to establish explicit connections between non-textual and textual modalities through the Hadamard product. This allows non-textual modalities to better align with textual modalities at the feature level, promoting the generation of higher-quality pseudo tokens. Extensive experiments were conducted on four public English and Chinese datasets using consumer-grade GPUs and open-source LLMs (Qwen-1.8B, ChatGLM3-6B-base, and LLaMA2-7B) as the backbone. The results demonstrate the effectiveness of the proposed plugin. The code will be released on GitHub after a blind review.
- Abstract(参考訳): 現在のマルチモーダル感性分析(MSA)と、事前学習言語モデルに基づく感情認識(ERC)手法は、2つの主要な限界を示す。
2)かなりの計算資源を必要とする。
事前訓練された言語モデルのサイズが拡大するにつれて、以前のアプローチを用いたより大規模なマルチモーダル感情分析モデルのトレーニングは、不要な計算コストをもたらす可能性がある。
この課題に対して,軽量で適応可能なプラグインである \textbf{M}ultimodal \textbf{S}entiment Analysis と \textbf{E}motion Recognition \textbf{Adapter} (MSE-Adapter) を提案する。
このプラグインは、大きな言語モデル (LLM) を最小の計算オーバーヘッドで MSA や ERC タスクを実行することを可能にする(6/7B モデルで約 2.6M から 2.8M のトレーニング可能なパラメータを導入するのみ)。
MSE-Adapterでは、テキストガイド・ミクサー(TGM)モジュールを導入し、アダマール製品を通して非テキストとテキストのモダリティ間の明示的な接続を確立する。
これにより、非テキストモダリティは特徴レベルでのテキストモダリティとの整合性が向上し、高品質な擬似トークンの生成が促進される。
消費者グレードのGPUとオープンソースLLM(Qwen-1.8B、ChatGLM3-6Bベース、LLaMA2-7B)をバックボーンとして使用した4つの公開英語と中国語のデータセットに対して大規模な実験を行った。
その結果,提案したプラグインの有効性が示された。
コードは盲目なレビューの後、GitHubでリリースされる。
関連論文リスト
- Boosting Text-To-Image Generation via Multilingual Prompting in Large Multimodal Models [43.16111789538798]
大規模マルチモーダルモデル(LMM)の多言語機能を活用した並列多言語プロンプトを構築する。
3つのベンチマークにおける2つのLMM実験により,提案手法であるPMT2Iが,一般に優れた性能,構成,きめ細かな評価を達成できることが判明した。
論文 参考訳(メタデータ) (2025-01-13T06:41:23Z) - Liquid: Language Models are Scalable Multi-modal Generators [112.71734051183726]
Liquidは視覚的理解と生成をシームレスに統合する自動回帰生成パラダイムである。
従来のマルチモーダルな大言語モデル(MLLM)とは異なり、Liquidは単一の大言語モデルを用いてこの統合を実現する。
初めてLiquidは、ビジュアルタスクと言語タスクの統一トレーニングによって必然的にパフォーマンスが低下する、スケーリングの法則を明らかにした。
論文 参考訳(メタデータ) (2024-12-05T16:48:16Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Language Portability Strategies for Open-domain Dialogue with Pre-trained Language Models from High to Low Resource Languages [1.7436854281619139]
オープンドメイン対話システムに使用される大規模事前学習言語モデル(PLM)の言語ポータビリティ戦略について検討する。
特に、ターゲットの低リソース言語(L_T)は、タスク固有のリソースがないため、フランス語でシミュレートされる。
論文 参考訳(メタデータ) (2024-07-01T14:20:54Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z) - Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen
Large Language Models [69.59125732317972]
本稿では,ビデオQAのためのシンプルで効果的な検索・回答(R2A)フレームワークを提案する。
R2Aは、まず、事前訓練されたマルチモーダルモデルを用いて、ジェネリックテキストコーパスから意味論的に類似したテキストの集合を検索する。
質問と検索されたテキストの両方で、LSMを直接使用して、望ましい回答を得ることができる。
論文 参考訳(メタデータ) (2023-06-15T20:56:20Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z) - Towards Versatile and Efficient Visual Knowledge Integration into
Pre-trained Language Models with Cross-Modal Adapters [16.44174900423759]
我々は,事前学習された視覚言語モデルで学習した視覚的およびテキスト的知識を活用するために,新しいプラグイン・アンド・プレイ・モジュールであるX-adapterを提案する。
提案手法は,オブジェクト指向推論および自然言語理解タスクの性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-05-12T10:08:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。