論文の概要: Resource-Limited Joint Multimodal Sentiment Reasoning and Classification via Chain-of-Thought Enhancement and Distillation
- arxiv url: http://arxiv.org/abs/2508.05234v1
- Date: Thu, 07 Aug 2025 10:23:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.809963
- Title: Resource-Limited Joint Multimodal Sentiment Reasoning and Classification via Chain-of-Thought Enhancement and Distillation
- Title(参考訳): 資源制限型複合型マルチモーダル感性推論とチェーン・オブ・ソート・エンハンスメントと蒸留による分類
- Authors: Haonan Shangguan, Xiaocui Yang, Shi Feng, Daling Wang, Yifei Zhang, Ge Yu,
- Abstract要約: 最近のアプローチは、主にパラメータ重(マルチモーダル)大規模言語モデル(LLM)の知識と推論能力を活用する。
本稿では,資源制限環境における配置制約に対処するマルチモーダル・チェーン・オブ・スチューデント・推論蒸留モデル MulCoT-RD を提案する。
4つのデータセットの実験により、3Bパラメータのみを持つMulCoT-RDは、堅牢な一般化と拡張された解釈可能性を示しながら、JMSRC上での強い性能を実現することが示された。
- 参考スコア(独自算出の注目度): 22.722731231389393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The surge in rich multimodal content on social media platforms has greatly advanced Multimodal Sentiment Analysis (MSA), with Large Language Models (LLMs) further accelerating progress in this field. Current approaches primarily leverage the knowledge and reasoning capabilities of parameter-heavy (Multimodal) LLMs for sentiment classification, overlooking autonomous multimodal sentiment reasoning generation in resource-constrained environments. Therefore, we focus on the Resource-Limited Joint Multimodal Sentiment Reasoning and Classification task, JMSRC, which simultaneously performs multimodal sentiment reasoning chain generation and sentiment classification only with a lightweight model. We propose a Multimodal Chain-of-Thought Reasoning Distillation model, MulCoT-RD, designed for JMSRC that employs a "Teacher-Assistant-Student" distillation paradigm to address deployment constraints in resource-limited environments. We first leverage a high-performance Multimodal Large Language Model (MLLM) to generate the initial reasoning dataset and train a medium-sized assistant model with a multi-task learning mechanism. A lightweight student model is jointly trained to perform efficient multimodal sentiment reasoning generation and classification. Extensive experiments on four datasets demonstrate that MulCoT-RD with only 3B parameters achieves strong performance on JMSRC, while exhibiting robust generalization and enhanced interpretability.
- Abstract(参考訳): ソーシャルメディアプラットフォーム上でのリッチなマルチモーダルコンテンツの増加により、多モーダル感性分析(MSA)が大幅に進歩し、Large Language Models(LLM)がこの分野のさらなる進歩を加速した。
現在のアプローチでは,資源制約環境下での自律的マルチモーダル感情推論生成を見越して,パラメータ重(Multimodal) LLMの知識と推論能力を活用している。
そこで我々は,JMSRC(Resource-Limited Joint Multimodal Sentiment Reasoning and Classification Task)に注目する。
本稿では,資源制限環境における配置制約に対処する「教師・援助・学生」蒸留パラダイムを用いたJMSRC用マルチモーダル・チェーン・オブ・ソート・リソン蒸留モデルMulCoT-RDを提案する。
まず、高性能なマルチモーダル大言語モデル(MLLM)を用いて、最初の推論データセットを生成し、マルチタスク学習機構を用いて中規模アシスタントモデルを訓練する。
ライトウェイトな学生モデルは、効率的なマルチモーダルな感情推論生成と分類を行うために共同で訓練される。
4つのデータセットに対する大規模な実験により、3Bパラメータのみを持つMulCoT-RDは、堅牢な一般化と拡張された解釈可能性を示しながら、JMSRC上での強い性能を実現することが示された。
関連論文リスト
- PUMA: Layer-Pruned Language Model for Efficient Unified Multimodal Retrieval with Modality-Adaptive Learning [54.73049408950049]
モーダリティ適応型学習を伴う効率的な統一マルチモーダル検索のための階層型言語モデルを提案する。
本手法は,構造的,学習的両面からの統合的マルチモーダル検索を改善する。
論文 参考訳(メタデータ) (2025-07-10T16:47:25Z) - Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。
これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。
本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Distilling Transitional Pattern to Large Language Models for Multimodal Session-based Recommendation [67.84581846180458]
セッションベースのレコメンデーション(SBR)は、匿名セッションに基づいて次の項目を予測する。
近年のMultimodal SBR法は、モダリティ学習に単純化された事前学習モデルを用いるが、セマンティック・リッチネスに制限がある。
蒸留パラダイムを拡張し,MSBRの促進のための遷移パターンを分離・整合させる多モードLCM拡張フレームワークTPADを提案する。
論文 参考訳(メタデータ) (2025-04-13T07:49:08Z) - The Devil Is in the Details: Tackling Unimodal Spurious Correlations for Generalizable Multimodal Reward Models [31.81567038783558]
マルチモーダル・リワードモデル(MM-RM)は,大規模言語モデル(LLM)と人間の嗜好の整合に不可欠である。
MM-RMは、不動の突発的相関に依存するため、アウト・オブ・ディストリビューションデータへの一般化に苦慮することが多い。
本稿では,この問題を動的にトレーニングサンプルを再重み付けすることで軽減する,ショートカット対応MM-RM学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-05T02:37:41Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - What Makes Multimodal In-Context Learning Work? [58.48612721156335]
本稿では,M-ICL(Multimodal ICL)を大規模マルチモーダルモデルで検討するための枠組みを提案する。
M-ICLは主にテキスト駆動機構に依存しており、画像のモダリティからはほとんど影響を受けない。
我々は、M-ICLのいくつかのバイアスと限界を特定し、デプロイメント前に考慮することを保証している。
論文 参考訳(メタデータ) (2024-04-24T08:50:45Z) - Unlock the Power: Competitive Distillation for Multi-Modal Large
Language Models [17.25135606956287]
競合型マルチモーダル蒸留フレームワーク(CoMD)は,教師モデルと学生モデル間の双方向フィードバックをキャプチャする。
多様なデータセットを実験的に分析した結果,我々の知識伝達手法は学生モデルの性能を継続的に改善することがわかった。
論文 参考訳(メタデータ) (2023-11-14T14:49:46Z) - Chain-of-Thought Prompt Distillation for Multimodal Named Entity
Recognition and Multimodal Relation Extraction [8.169359626365619]
思考のテキストチェーン(CoT) -- 中間推論ステップのシーケンスを生成します。
本稿では,大規模言語モデルからのコモンセンス推論能力を同化するための新しい条件付きプロンプト蒸留法を提案する。
我々のアプローチは最先端の精度を達成し、解釈可能性、データ効率、ドメイン間の一般化に関する多くの利点を示す。
論文 参考訳(メタデータ) (2023-06-25T04:33:56Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。