論文の概要: Empowering Reliable Visual-Centric Instruction Following in MLLMs
- arxiv url: http://arxiv.org/abs/2601.03198v1
- Date: Tue, 06 Jan 2026 17:23:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:13.041798
- Title: Empowering Reliable Visual-Centric Instruction Following in MLLMs
- Title(参考訳): MLLMにおける信頼度の高い視覚指導の強化
- Authors: Weilei He, Feng Ju, Zhiyuan Fan, Rui Min, Minhao Cheng, Yi R. Fung,
- Abstract要約: MLLMの命令追従能力を評価するための既存のベンチマークは、主に言語命令に焦点を当てている。
我々は、体系的に構築されたデータセットを伴う新しいベンチマークであるVC-IFEvalを紹介する。
本ベンチマークでは,視覚に依存した制約を命令設計に体系的に組み込んで,より厳密できめ細かな評価を可能にする。
- 参考スコア(独自算出の注目度): 30.078761482873745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the instruction-following (IF) capabilities of Multimodal Large Language Models (MLLMs) is essential for rigorously assessing how faithfully model outputs adhere to user-specified intentions. Nevertheless, existing benchmarks for evaluating MLLMs' instruction-following capability primarily focus on verbal instructions in the textual modality. These limitations hinder a thorough analysis of instruction-following capabilities, as they overlook the implicit constraints embedded in the semantically rich visual modality. To address this gap, we introduce VC-IFEval, a new benchmark accompanied by a systematically constructed dataset that evaluates MLLMs' instruction-following ability under multimodal settings. Our benchmark systematically incorporates vision-dependent constraints into instruction design, enabling a more rigorous and fine-grained assessment of how well MLLMs align their outputs with both visual input and textual instructions. Furthermore, by fine-tuning MLLMs on our dataset, we achieve substantial gains in visual instruction-following accuracy and adherence. Through extensive evaluation across representative MLLMs, we provide new insights into the strengths and limitations of current models.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の命令追従(IF)能力の評価は,ユーザ指定意図に忠実にモデル出力がどのように適合するかを厳格に評価するために重要である。
それにもかかわらず、MLLMの命令追従能力を評価するための既存のベンチマークは、主にテキストモダリティにおける動詞命令に焦点を当てている。
これらの制限は、意味的にリッチな視覚的モダリティに埋め込まれた暗黙の制約を見落としているため、命令追従能力の徹底的な分析を妨げる。
このギャップに対処するため、我々は、マルチモーダル設定下でMLLMの命令追従能力を評価する、体系的に構築されたデータセットを伴う新しいベンチマークであるVC-IFEvalを紹介する。
本ベンチマークでは,視覚に依存した制約を命令設計に体系的に組み込むことで,MLLMが視覚入力とテキスト命令の両方で出力の整合性をより厳密かつきめ細かな評価を可能にする。
さらに、データセット上でMLLMを微調整することにより、視覚的指示追従精度と定着度を大幅に向上させる。
代表的MLLMにまたがる広範囲な評価を通じて,現行モデルの強度と限界に対する新たな洞察を提供する。
関連論文リスト
- VLN-MME: Diagnosing MLLMs as Language-guided Visual Navigation agents [12.383467162169703]
ゼロショットエージェントとしてMLLMを探索するための統一的評価フレームワークを提案する。
高度にモジュール化されたアクセシブルな設計で評価を単純化する。
我々は,CoT推論と自己言語によるベースラインエージェントの強化が,予期せぬ性能低下につながることを観察した。
論文 参考訳(メタデータ) (2025-12-31T13:21:21Z) - Seeing Beyond Words: Self-Supervised Visual Learning for Multimodal Large Language Models [53.06230963851451]
JARVISは、MLLMの自己教師型視覚強調のためのJEPAにインスパイアされたフレームワークである。
JARVISは,MLLMの自己教師型視覚強調のためのJEPAに着想を得たフレームワークである。
論文 参考訳(メタデータ) (2025-12-17T19:01:34Z) - NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints [100.02131897927484]
本稿では,Multimodal Large Language Models(MLLM)のエンドツーエンドなネイティブトレーニングに焦点を当てる。
そこで我々は,NaViLと呼ばれるネイティブMLLMと,シンプルで費用対効果の高いレシピを組み合わせて提案する。
14のマルチモーダルベンチマークによる実験結果から,既存のMLLMに対するNaViLの競合性能が確認された。
論文 参考訳(メタデータ) (2025-10-09T17:59:37Z) - Abstractive Visual Understanding of Multi-modal Structured Knowledge: A New Perspective for MLLM Evaluation [48.462734327375536]
MLLM(Multi-modal large language model)は、多種多様なシナリオやオブジェクトの包括的理解を可能にする。
MLLMの評価ベンチマークやリーダーボードの普及にもかかわらず、彼らはMLLMが視覚的に現れる構造化された抽象化で世界的知識を理解する上で重要な能力を見落としている。
構造化理解のためのマルチモーダルマップを基盤とした,革新的なベンチマークであるM3STRを提案する。
その結果,抽象的視覚情報を構造化知識で処理し,MLLMの総合的推論能力を向上させるための重要な軌道を図った。
論文 参考訳(メタデータ) (2025-06-02T04:00:35Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs [47.94710556156627]
MIA-Benchは、マルチモーダルな大規模言語モデル(MLLM)を、複雑な命令に厳密に準拠する能力に基づいて評価するために設計されたベンチマークである。
私たちのベンチマークでは、400のイメージプロンプトペアで構成されており、それぞれが階層化された命令に対するモデルのコンプライアンスに挑戦するために作られています。
論文 参考訳(メタデータ) (2024-07-01T17:53:35Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [111.51612340032052]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。