論文の概要: Measuring Epistemic Humility in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2509.09658v1
- Date: Thu, 11 Sep 2025 17:54:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.501079
- Title: Measuring Epistemic Humility in Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルにおける疫学的湿度の測定
- Authors: Bingkui Tong, Jiaer Xia, Sifeng Shang, Kaiyang Zhou,
- Abstract要約: HumbleBench は,MLLM が正解ではないが誤解を拒否する能力を評価するために設計された,新しい幻覚ベンチマークである。
我々は、微粒なシーングラフアノテーションを利用して、地中構造体と関係を抽出し、GPT-4-Turboに多重選択質問を生成する。
HumbleBenchは、現在の評価スイートにおける重要なギャップを埋め、安全クリティカルな設定におけるMLLMの信頼性をより現実的に測定する。
- 参考スコア(独自算出の注目度): 17.490955813494693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucinations in multimodal large language models (MLLMs) -- where the model generates content inconsistent with the input image -- pose significant risks in real-world applications, from misinformation in visual question answering to unsafe errors in decision-making. Existing benchmarks primarily test recognition accuracy, i.e., evaluating whether models can select the correct answer among distractors. This overlooks an equally critical capability for trustworthy AI: recognizing when none of the provided options are correct, a behavior reflecting epistemic humility. We present HumbleBench, a new hallucination benchmark designed to evaluate MLLMs' ability to reject plausible but incorrect answers across three hallucination types: object, relation, and attribute. Built from a panoptic scene graph dataset, we leverage fine-grained scene graph annotations to extract ground-truth entities and relations, and prompt GPT-4-Turbo to generate multiple-choice questions, followed by a rigorous manual filtering process. Each question includes a "None of the above" option, requiring models not only to recognize correct visual information but also to identify when no provided answer is valid. We evaluate a variety of state-of-the-art MLLMs -- including both general-purpose and specialized reasoning models -- on HumbleBench and share valuable findings and insights with the community. By incorporating explicit false-option rejection, HumbleBench fills a key gap in current evaluation suites, providing a more realistic measure of MLLM reliability in safety-critical settings. Our code and dataset are released publicly and can be accessed at https://github.com/maifoundations/HumbleBench.
- Abstract(参考訳): マルチモーダルな大言語モデル(MLLM)における幻覚 - モデルが入力画像と矛盾するコンテンツを生成する - は、視覚的質問の誤報から意思決定における安全でないエラーまで、現実世界のアプリケーションに重大なリスクをもたらす。
既存のベンチマークは、主にテスト認識の精度、すなわちモデルが障害者の中から正しい答えを選択できるかどうかを評価する。
このことは、信頼できるAIにとって同様に重要な能力を見落としている。
HumbleBenchは、MLLMが3つの幻覚タイプ(オブジェクト、関係、属性)にまたがる、もっともらしい答えを拒否する能力を評価するために設計された新しい幻覚ベンチマークである。
パノプティカル・シーングラフ・データセットから構築した,微粒なシーングラフ・アノテーションを用いて,地表面の実体と関係を抽出し,GPT-4-Turboに複数項目の質問を生成させ,さらに厳密な手作業によるフィルタリング処理を行う。
各質問には、正しい視覚情報を認識するだけでなく、提供された回答が有効でないかどうかを識別するモデルを必要とする「上記の1つ」オプションが含まれている。
我々は,HumbleBench上で,多種多様な最先端MLLM(汎用推論モデルと特殊推論モデルを含む)を評価し,コミュニティに貴重な発見と洞察を共有した。
HumbleBenchは明示的な偽オプション拒否を取り入れることで、現在の評価スイートにおける重要なギャップを埋め、安全クリティカルな設定におけるMLLMの信頼性をより現実的な尺度を提供する。
私たちのコードとデータセットは公開されており、https://github.com/maifoundations/HumbleBench.comからアクセスできます。
関連論文リスト
- Can Large Multimodal Models Actively Recognize Faulty Inputs? A Systematic Evaluation Framework of Their Input Scrutiny Ability [10.607081850023286]
ISEval(Input Scrutiny Ability Evaluation Framework)は,7つの欠陥のある前提と3つの評価指標を含む。
ほとんどのモデルは、ガイダンスなしで欠陥のあるテキストの前提を積極的に検出するのに苦労している。
これらの知見は、LMMの入力妥当性の積極的な検証を強化する緊急の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-08-06T02:13:46Z) - Token Level Hallucination Detection via Variance in Language Models [0.0]
大規模言語モデル(LLM)は、様々なタスクにまたがる印象的な生成能力を示したが、幻覚に弱いままである。
複数世代にわたるトークンログ確率のばらつきを利用した,参照不要なトークンレベルの幻覚検出フレームワークを提案する。
我々のアプローチは、モデルに依存しず、解釈可能であり、リアルタイムまたはポストホック分析に適している。
論文 参考訳(メタデータ) (2025-07-05T19:20:59Z) - Reasoning Multimodal Large Language Model: Data Contamination and Dynamic Evaluation [9.434966074326056]
MLLM(Multimodal Large Language Models)は、視覚ベースのベンチマーク性能を示すが、真の一般化を隠蔽するデータ汚染リスクへの懸念が増大している。
静的ベンチマークを超えてMLLMの一般化を厳格に評価する新しい動的評価フレームワークを提案する。
シミュレーションテストデータ(極端汚染)の微調整はタスク固有の性能を大幅に向上させるが、全体的な一般化には悪影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2025-06-08T15:52:38Z) - BYO-Eval: Build Your Own Dataset for Fine-Grained Visual Assessment of Multimodal Language Models [2.526146573337397]
眼科診断に触発された新しい評価手法を提案する。
合成画像のプロシージャ生成を用いて視覚特性の制御を行う。
この診断は、系統的なストレステストときめ細かい故障解析を可能にする。
論文 参考訳(メタデータ) (2025-06-05T12:43:10Z) - Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。