論文の概要: Evaluating and Steering Modality Preferences in Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2505.20977v1
- Date: Tue, 27 May 2025 10:07:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.570985
- Title: Evaluating and Steering Modality Preferences in Multimodal Large Language Model
- Title(参考訳): マルチモーダル大言語モデルにおけるモダリティ評価とステアリング
- Authors: Yu Zhang, Jinlong Ma, Yongshuai Hou, Xuefeng Bai, Kehai Chen, Yang Xiang, Jun Yu, Min Zhang,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、マルチモーダルコンテキストを持つ複雑なタスクにおいて顕著なパフォーマンスを実現している。
実験対象のMLLMは, すべて明らかなモダリティバイアスを示し, 外部介入の影響を受けやすいことがわかった。
本稿では,モダリティの選好を明示的に制御するための表現工学に基づく探索・操舵手法を提案する。
- 参考スコア(独自算出の注目度): 32.94581875014947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have achieved remarkable performance on complex tasks with multimodal context. However, it is still understudied whether they exhibit modality preference when processing multimodal contexts. To study this question, we first build a \textbf{MC\textsuperscript{2}} benchmark under controlled evidence conflict scenarios to systematically evaluate modality preference, which is the tendency to favor one modality over another when making decisions based on multimodal conflicting evidence. Our extensive evaluation reveals that all 18 tested MLLMs generally demonstrate clear modality bias, and modality preference can be influenced by external interventions. An in-depth analysis reveals that the preference direction can be captured within the latent representations of MLLMs. Built on this, we propose a probing and steering method based on representation engineering to explicitly control modality preference without additional fine-tuning or carefully crafted prompts. Our method effectively amplifies modality preference toward a desired direction and applies to downstream tasks such as hallucination mitigation and multimodal machine translation, yielding promising improvements.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、マルチモーダルコンテキストを持つ複雑なタスクにおいて顕著なパフォーマンスを実現している。
しかし、マルチモーダルコンテキストを処理する際にモダリティの好みを示すかどうかはまだ検討されていない。
この問題を研究するために、まず制御されたエビデンス・コンフリクト・シナリオに基づいて \textbf{MC\textsuperscript{2}} ベンチマークを構築し、マルチモーダル・コンフリクト・エビデンスに基づく決定を行う際に、一方のモダリティを互いに優先する傾向にあるモダリティの選好を体系的に評価する。
以上の結果から,テスト対象のMLLM18種すべてに明らかなモダリティバイアスがみられ,外的介入の影響を受けやすいことが明らかとなった。
奥行き分析により、MLLMの潜在表現の中で好みの方向を捉えることができることが明らかになった。
そこで本研究では,表現工学に基づく探索・操舵手法を提案し,微調整や慎重に行うプロンプトを伴わずにモダリティの選好を明示的に制御する。
提案手法は,目的とする方向に対するモダリティ選好を効果的に増幅し,幻覚緩和やマルチモーダル機械翻訳などの下流タスクに適用することにより,有望な改善をもたらす。
関連論文リスト
- Rethinking Information Synthesis in Multimodal Question Answering A Multi-Agent Perspective [42.832839189236694]
テキスト,テーブル,画像にまたがるマルチモーダル入力のためのマルチエージェントQAフレームワークであるMAMMQAを提案する。
このシステムには2つのVisual Language Model (VLM)エージェントと1つのテキストベースLarge Language Model (LLM)エージェントが含まれる。
多様なマルチモーダルQAベンチマークの実験により、我々の協調型マルチエージェントフレームワークは、精度と堅牢性の両方で既存のベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-05-27T07:23:38Z) - Instruction-Oriented Preference Alignment for Enhancing Multi-Modal Comprehension Capability of MLLMs [29.07102440466282]
本稿では,命令実行の有効性を前提としたアライメント選択を自動的に構築するスケーラブルなフレームワークを提案する。
提案手法は,自動選好構築と専用の検証プロセスを含む。
Qwen2VL-7Bの実験では、複数のベンチマークでIPAの有効性が示されている。
論文 参考訳(メタデータ) (2025-03-26T08:19:02Z) - CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs [107.21334626890713]
MLLM(Multimodal Large Language Models)は、その優れた能力にもかかわらず、幻覚に苦しむ。
本稿では,これらの制約に対処するクロスモーダル階層型直接選好最適化(CHiP)を提案する。
定量的および定性的な分析によってCHiPを評価し,幻覚の低減効果を複数のベンチマークで実証した。
論文 参考訳(メタデータ) (2025-01-28T02:05:38Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
我々は、MLLMのマルチモーダル推論能力を高めるために、選好最適化(PO)プロセスを導入する。
具体的には、自動選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。
マルチモーダルCoT性能を向上するMPO(Mixed Preference Optimization)と呼ばれるシンプルな手法を開発した。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation [21.281471662696372]
本稿では,MLLM-MSRモデルを提案する。
動的ユーザの嗜好を捉えるために,2段階のユーザ選好要約法を設計する。
次に、ユーザ嗜好の動的変化を捉えるために、繰り返しユーザー嗜好要約生成パラダイムを用いる。
論文 参考訳(メタデータ) (2024-08-19T04:44:32Z) - Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning [77.72128397088409]
本研究は,MLLMの最も普及している手法が,その問題に先入観を導入することで,容易に騙せることを示す。
また,モデルが積極的に複合推論を行うように促す新しい強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-04-19T15:53:27Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Adaptive Contrastive Learning on Multimodal Transformer for Review
Helpfulness Predictions [40.70793282367128]
本稿では,MRHP(Multimodal Review Helpfulness Prediction)問題に対するマルチモーダルコントラスト学習を提案する。
さらに,コントラスト学習における適応重み付け方式を提案する。
最後に,マルチモーダルデータの不整合性に対処するマルチモーダルインタラクションモジュールを提案する。
論文 参考訳(メタデータ) (2022-11-07T13:05:56Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。