論文の概要: Empowering Reliable Visual-Centric Instruction Following in MLLMs
- arxiv url: http://arxiv.org/abs/2601.03198v1
- Date: Tue, 06 Jan 2026 17:23:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:13.041798
- Title: Empowering Reliable Visual-Centric Instruction Following in MLLMs
- Title(参考訳): MLLMにおける信頼度の高い視覚指導の強化
- Authors: Weilei He, Feng Ju, Zhiyuan Fan, Rui Min, Minhao Cheng, Yi R. Fung,
- Abstract要約: MLLMの命令追従能力を評価するための既存のベンチマークは、主に言語命令に焦点を当てている。
我々は、体系的に構築されたデータセットを伴う新しいベンチマークであるVC-IFEvalを紹介する。
本ベンチマークでは,視覚に依存した制約を命令設計に体系的に組み込んで,より厳密できめ細かな評価を可能にする。
- 参考スコア(独自算出の注目度): 30.078761482873745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the instruction-following (IF) capabilities of Multimodal Large Language Models (MLLMs) is essential for rigorously assessing how faithfully model outputs adhere to user-specified intentions. Nevertheless, existing benchmarks for evaluating MLLMs' instruction-following capability primarily focus on verbal instructions in the textual modality. These limitations hinder a thorough analysis of instruction-following capabilities, as they overlook the implicit constraints embedded in the semantically rich visual modality. To address this gap, we introduce VC-IFEval, a new benchmark accompanied by a systematically constructed dataset that evaluates MLLMs' instruction-following ability under multimodal settings. Our benchmark systematically incorporates vision-dependent constraints into instruction design, enabling a more rigorous and fine-grained assessment of how well MLLMs align their outputs with both visual input and textual instructions. Furthermore, by fine-tuning MLLMs on our dataset, we achieve substantial gains in visual instruction-following accuracy and adherence. Through extensive evaluation across representative MLLMs, we provide new insights into the strengths and limitations of current models.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の命令追従(IF)能力の評価は,ユーザ指定意図に忠実にモデル出力がどのように適合するかを厳格に評価するために重要である。
それにもかかわらず、MLLMの命令追従能力を評価するための既存のベンチマークは、主にテキストモダリティにおける動詞命令に焦点を当てている。
これらの制限は、意味的にリッチな視覚的モダリティに埋め込まれた暗黙の制約を見落としているため、命令追従能力の徹底的な分析を妨げる。
このギャップに対処するため、我々は、マルチモーダル設定下でMLLMの命令追従能力を評価する、体系的に構築されたデータセットを伴う新しいベンチマークであるVC-IFEvalを紹介する。
本ベンチマークでは,視覚に依存した制約を命令設計に体系的に組み込むことで,MLLMが視覚入力とテキスト命令の両方で出力の整合性をより厳密かつきめ細かな評価を可能にする。
さらに、データセット上でMLLMを微調整することにより、視覚的指示追従精度と定着度を大幅に向上させる。
代表的MLLMにまたがる広範囲な評価を通じて,現行モデルの強度と限界に対する新たな洞察を提供する。
関連論文リスト
- IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs [47.94710556156627]
MIA-Benchは、マルチモーダルな大規模言語モデル(MLLM)を、複雑な命令に厳密に準拠する能力に基づいて評価するために設計されたベンチマークである。
私たちのベンチマークでは、400のイメージプロンプトペアで構成されており、それぞれが階層化された命令に対するモデルのコンプライアンスに挑戦するために作られています。
論文 参考訳(メタデータ) (2024-07-01T17:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。