論文の概要: Towards Annotation-Free Validation of MLLMs: A Vision-Language Logical Consistency Metric
- arxiv url: http://arxiv.org/abs/2605.06201v1
- Date: Thu, 07 May 2026 13:09:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.814383
- Title: Towards Annotation-Free Validation of MLLMs: A Vision-Language Logical Consistency Metric
- Title(参考訳): MLLMの注釈なし検証に向けて:視覚言語論理的一貫性メトリクス
- Authors: Ying Gu, Mei Chee Leong, Hui Li Tan, Shangbo Mao, Liyuan Li, Nancy Chen,
- Abstract要約: 基本論理原理に基づいて,MLLMの視覚言語論理的整合性を評価する新しい枠組みを提案する。
我々は、従来のMC-VQAテストと最近のNaturalBenchテストにおいて、gtアノテーションを必要とせずにVL-LCM(Vision-Language Logical Consistency Metric)を定義した。
以上の結果から,論理的整合性は精度と信頼性の両方に有効であることが示唆された。
- 参考スコア(独自算出の注目度): 8.458857917900785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dominant accuracy evaluation might reward unwarranted guessing of Large Language Models, and it might not be applicable to novel tasks for model validation without ground-truth (gt) annotation. Based on basic logic principle, we propose a novel framework to evaluate the vision-language logical consistency of MLLMs on both sufficient and necessary cause-effect relations. We define Vision-Language Logical Consistency Metric (VL-LCM) on traditional MC-VQA tests, and recent NaturalBench tests without the need for gt annotation. Through systematic experiments on representative VL benchmark MMMU and recent VL challenges like NaturalBench, we evaluated 11 recent open-source MLLMs from 4 frontier families. Our findings reveal that, despite significant progress of recent MLLMs on accuracy, logical consistency lags behind significantly. Extensive evaluations on the correlations of VL-LCM with metrics on gt, the reliability of LCM, and the relation of VL-LCM with response distribution justify the validity and applicability of VL-LCM even without gt annotation. Our findings suggest that, beyond accuracy, logical consistency could be employed for both accuracy and reliability. VL-LCM can also be employed for MLLM selection, validation, and reliable answer justification in novel tasks without gt annotation.
- Abstract(参考訳): 優位な精度評価は、大言語モデルの不確実な推測に報いる可能性があり、基礎構文(gt)アノテーションを使わずに、モデル検証のための新しいタスクには適用できないかもしれない。
基本論理原理に基づいて,MLLMの視覚-言語論理的一貫性を,十分な因果関係と必要な因果関係の両方で評価する新しい枠組みを提案する。
我々は、従来のMC-VQAテストと最近のNaturalBenchテストにおいて、gtアノテーションを必要とせずにVL-LCM(Vision-Language Logical Consistency Metric)を定義した。
代表的VLベンチマークMMMUと最近のNaturalBenchのようなVL課題の体系的な実験を通じて、4つのフロンティアファミリーから11のオープンソースMLLMを評価した。
その結果,近年のMLLMの精度向上にもかかわらず,論理的整合性が著しく遅れていることが判明した。
gtアノテーションがなくても, VL-LCMとgtの相関, LCMの信頼性, 応答分布とVL-LCMの関係は, VL-LCMの有効性と適用性を正当化する。
以上の結果から,論理的整合性は精度と信頼性の両方に有効であることが示唆された。
VL-LCMは、gtアノテーションを使わずに、新しいタスクにおけるMLLMの選択、検証、信頼性の高い回答正当化にも利用できる。
関連論文リスト
- RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models [58.83401587988675]
RoboAlignは視覚言語アクションモデル(VLA)を訓練し、マルチモーダル理解を低レベルのアクションに変換する。
我々のキーとなる考え方は、ゼロショット自然言語推論を用いてアクショントークンをサンプリングし、この推論を強化学習(RL)を用いて洗練し、アクション精度を向上させることである。
RoboAlignは、それぞれLIBERO、CALVIN、現実世界の環境におけるSFTベースラインよりも17.5%、18.9%、106.6%の性能向上を実現している。
論文 参考訳(メタデータ) (2026-03-22T17:57:55Z) - Explicit Logic Channel for Validation and Enhancement of MLLMs on Zero-Shot Tasks [6.788319595251597]
モデル検証,選択,拡張のための論理的明確な論理的推論を行うための明示論理チャネルを提案する。
潜在視覚言語知識をカプセル化したフロンティアMLLMは、Implicit Logic Channelとみなすことができる。
チャネル間の統合により、明示的な視覚的エビデンスを根拠として、MLLM上のゼロショットタスクのパフォーマンスがさらに向上する。
論文 参考訳(メタデータ) (2026-03-12T08:56:14Z) - FVEval: Understanding Language Model Capabilities in Formal Verification of Digital Hardware [4.480157114854711]
FVEvalは,形式的検証(FV)に関わるタスクにおいて,大規模言語モデル(LLM)のパフォーマンスを特徴付ける最初の総合ベンチマークである。
ベンチマークは3つのサブタスクで構成され、異なるレベルでLLM能力を測定する。
本稿では,FVに整合した合成例を生成するための,専門家による検証手法と手法のコレクションについて述べる。
論文 参考訳(メタデータ) (2024-10-15T21:48:57Z) - Aligning with Logic: Measuring, Evaluating and Improving Logical Preference Consistency in Large Language Models [31.558429029429863]
大規模言語モデル(LLM)は、信頼できる意思決定システムをサポートするために予測可能で信頼性が高いと期待されている。
本研究では、より信頼性の高いLLMシステムを構築するための基本的な要件として、論理的選好整合性を検討する。
一貫性の向上はLLM駆動論理ベースのアルゴリズムの性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-10-03T04:34:04Z) - LLMs May Perform MCQA by Selecting the Least Incorrect Option [29.202758753639078]
大規模言語モデル(LLM)は、様々なタスクにわたるパフォーマンスを著しく向上させた。
LLMを評価するためのベンチマークとして、MCQA(Multiple Choice Question Answering)が採用され、大きな注目を集めている。
しかし、この評価手法の堅牢性に関する懸念は続いている。
論文 参考訳(メタデータ) (2024-02-02T12:07:00Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。