論文の概要: Can Large Multimodal Models Actively Recognize Faulty Inputs? A Systematic Evaluation Framework of Their Input Scrutiny Ability
- arxiv url: http://arxiv.org/abs/2508.04017v1
- Date: Wed, 06 Aug 2025 02:13:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.503536
- Title: Can Large Multimodal Models Actively Recognize Faulty Inputs? A Systematic Evaluation Framework of Their Input Scrutiny Ability
- Title(参考訳): 大規模マルチモーダルモデルは故障入力をアクティブに認識できるか? : 入力精査能力の体系的評価枠組み
- Authors: Haiqi Yang, Jinzhe Li, Gengxu Li, Yi Chang, Yuan Wu,
- Abstract要約: ISEval(Input Scrutiny Ability Evaluation Framework)は,7つの欠陥のある前提と3つの評価指標を含む。
ほとんどのモデルは、ガイダンスなしで欠陥のあるテキストの前提を積極的に検出するのに苦労している。
これらの知見は、LMMの入力妥当性の積極的な検証を強化する緊急の必要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 10.607081850023286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Models (LMMs) have witnessed remarkable growth, showcasing formidable capabilities in handling intricate multimodal tasks with exceptional performance. Recent research has underscored the inclination of large language models to passively accept defective inputs, often resulting in futile reasoning on invalid prompts. However, the same critical question of whether LMMs can actively detect and scrutinize erroneous inputs still remains unexplored. To address this gap, we introduce the Input Scrutiny Ability Evaluation Framework (ISEval), which encompasses seven categories of flawed premises and three evaluation metrics. Our extensive evaluation of ten advanced LMMs has identified key findings. Most models struggle to actively detect flawed textual premises without guidance, which reflects a strong reliance on explicit prompts for premise error identification. Error type affects performance: models excel at identifying logical fallacies but struggle with surface-level linguistic errors and certain conditional flaws. Modality trust varies-Gemini 2.5 pro and Claude Sonnet 4 balance visual and textual info, while aya-vision-8b over-rely on text in conflicts. These insights underscore the urgent need to enhance LMMs' proactive verification of input validity and shed novel insights into mitigating the problem. The code is available at https://github.com/MLGroupJLU/LMM_ISEval.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は目覚ましい成長をみせており、複雑なマルチモーダルタスクを例外的なパフォーマンスで処理する能力を示す。
近年の研究では、欠陥入力を受動的に受け入れる大規模言語モデルの傾向が強調されており、多くの場合、無効なプロンプトに対する不確実な推論が生じる。
しかし、LMMが誤った入力を積極的に検出し、精査できるかどうかという同じ批判的な疑問はいまだに未解決のままである。
このギャップに対処するために、インプット精査能力評価フレームワーク(ISEval)を紹介します。
10種類の高度LMMの広範囲な評価により,重要な所見が確認された。
ほとんどのモデルは、ガイダンスなしで欠陥のあるテキストの前提を積極的に検出するのに苦労しており、前提の誤りを識別するための明示的なプロンプトに強く依存している。
モデルでは論理的な誤りを識別する能力は優れているが、表面レベルの言語エラーや特定の条件欠陥に悩まされている。
モダリティ・トラストは様々で、Gemini 2.5 Pro と Claude Sonnet 4 は視覚情報とテキスト情報のバランスをとり、aya-vision-8b はテキストの衝突で過度に信頼している。
これらの知見は、LMMの入力妥当性の積極的な検証を強化し、問題を緩和するための新しい洞察を隠蔽する緊急の必要性を浮き彫りにした。
コードはhttps://github.com/MLGroupJLU/LMM_ISEvalで公開されている。
関連論文リスト
- Hidden in Plain Sight: Probing Implicit Reasoning in Multimodal Language Models [21.698247799954654]
マルチモーダルな大規模言語モデル(MLLM)は、オープンエンドの現実世界の環境にますます多くデプロイされている。
本稿では,現在のMLLMが暗黙の推論シナリオをどのように扱うのかを体系的に分析する。
モデルは、必要な知覚と推論スキルを持っている場合でも、隠れた問題にしばしば遭遇しない。
論文 参考訳(メタデータ) (2025-05-30T21:47:28Z) - Don't Take the Premise for Granted: Evaluating the Premise Critique Ability of Large Language Models [11.379764847748378]
大規模言語モデル(LLM)は、しばしば欠陥や矛盾した前提を受け入れ、非効率な推論と信頼できない出力をもたらす。
このことは、入力前提におけるエラーを積極的に識別し、明示する能力として定義されたLSMのためのtextbfPremise Critique Aabilities を持つことの重要性を強調している。
我々は,3つの難易度に4つのエラータイプを組み込んで設計したtextbfPremise Critique Bench (PCBench) を,多面的評価指標と組み合わせて紹介する。
論文 参考訳(メタデータ) (2025-05-29T17:49:44Z) - Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models [26.17300490736624]
MLLM(Multimodal Large Language Models)は、一貫した視覚・テキスト入力で主に訓練され、テストされる。
本稿では,MLLMの意味的ミスマッチの検出と推論能力を評価するためのマルチモーダル不整合推論ベンチマークを提案する。
我々は6つの最先端MLLMを評価し、o1のような専用マルチモーダル推論能力を持つモデルは、その性能を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-22T01:52:37Z) - Calling a Spade a Heart: Gaslighting Multimodal Large Language Models via Negation [65.92001420372007]
本稿では,様々なベンチマークにおいて最先端MLLMを体系的に評価する。
本稿では,MLLMの脆弱性を否定的議論に対して評価するために設計された,最初のベンチマークであるGaslightingBenchを紹介する。
論文 参考訳(メタデータ) (2025-01-31T10:37:48Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - RUPBench: Benchmarking Reasoning Under Perturbations for Robustness Evaluation in Large Language Models [12.112914393948415]
RUPBenchは,多種多様な推論タスクにわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
我々のベンチマークには15の推論データセットが組み込まれており、コモンセンス、算術、論理、知識集約推論に分類されている。
GPT-4o, Llama3, Phi-3, Gemmaといった最先端のLCMの原文および摂動データセットの性能を調べることにより, その堅牢性およびエラーパターンを詳細に解析する。
論文 参考訳(メタデータ) (2024-06-16T17:26:44Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Unsolvable Problem Detection: Robust Understanding Evaluation for Large Multimodal Models [84.78457918843165]
Unsolvable Problem Detection (UPD) は,大規模マルチモーダルモデル(LMM)の頑健な理解能力を評価するための新しいタスクである。
UPDは、多票質問応答の解決不可能な問題に遭遇する際のLMMの回答を抑える能力を評価する。
本稿では,MM-UPD Benchについて紹介する。
論文 参考訳(メタデータ) (2024-03-29T17:59:53Z) - Multimodal Large Language Models to Support Real-World Fact-Checking [80.41047725487645]
MLLM(Multimodal large language model)は、膨大な情報処理において人間を支援する能力を持つ。
MLLMはすでにファクトチェックツールとして使用されていますが、その能力や制限については検討中です。
本稿では,現実のファクトチェックを容易にするために,現在のマルチモーダルモデルの能力を体系的に評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-06T11:32:41Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。