Fugu-MT 論文翻訳(概要): FINER: MLLMs Hallucinate under Fine-grained Negative Queries

論文の概要: FINER: MLLMs Hallucinate under Fine-grained Negative Queries

arxiv url: http://arxiv.org/abs/2603.17662v1
Date: Wed, 18 Mar 2026 12:28:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-19 18:32:57.694333
Title: FINER: MLLMs Hallucinate under Fine-grained Negative Queries
Title（参考訳）: FINER: MLLMs Hallucinate under Fine-fine Negative Queries (英語)
Authors: Rui Xiao, Sanghwan Kim, Yongqin Xian, Zeynep Akata, Stephan Alaniz,
Abstract要約: FINER-Tuningで4つのフロンティアMLLMを微調整すると、ベンチマークから幻覚が最大24.2%向上する。 FINER-Tuningで4つのフロンティアMLLMを微調整すると、ベンチマークから幻覚が最大24.2%向上する。
参考スコア（独自算出の注目度）: 61.64185573373394
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal large language models (MLLMs) struggle with hallucinations, particularly with fine-grained queries, a challenge underrepresented by existing benchmarks that focus on coarse image-related questions. We introduce FIne-grained NEgative queRies (FINER), alongside two benchmarks: FINER-CompreCap and FINER-DOCCI. Using FINER, we analyze hallucinations across four settings: multi-object, multi-attribute, multi-relation, and ``what'' questions. Our benchmarks reveal that MLLMs hallucinate when fine-grained mismatches co-occur with genuinely present elements in the image. To address this, we propose FINER-Tuning, leveraging Direct Preference Optimization (DPO) on FINER-inspired data. Finetuning four frontier MLLMs with FINER-Tuning yields up to 24.2\% gains (InternVL3.5-14B) on hallucinations from our benchmarks, while simultaneously improving performance on eight existing hallucination suites, and enhancing general multimodal capabilities across six benchmarks. Code, benchmark, and models are available at \href{https://explainableml.github.io/finer-project/}{https://explainableml.github.io/finer-project/}.
Abstract（参考訳）: マルチモーダル大言語モデル(MLLM)は幻覚、特にきめ細かいクエリに苦しむ。本稿では、FINER-CompreCapとFINER-DOCCIの2つのベンチマークとともに、FIne-fine NEgative queRies (FINER)を紹介する。 FINERを用いて,マルチオブジェクト,マルチ属性,マルチリレーション,"What''質問の4つの設定の幻覚を分析した。ベンチマークの結果,MLLMは微細なミスマッチと真に存在する要素が混在すると幻覚することがわかった。そこで本研究では、FINERにインスパイアされたデータに対して、DPO(Direct Preference Optimization)を活用するFINER-Tuningを提案する。 FINER-Tuningで4つのフロンティアMLLMを微調整すると、ベンチマークから幻覚に対する最大24.2倍の利得(InternVL3.5-14B)が得られる。コード、ベンチマーク、モデルは \href{https://explainableml.github.io/finer-project/}{https://explainableml.github.io/finer-project/} で入手できる。

関連論文リスト

Seeing is Believing: Rich-Context Hallucination Detection for MLLMs via Backward Visual Grounding [44.65557733731948]
VBackCheckerは参照なし幻覚検出フレームワークである。これは、推論と参照セグメンテーション機能を備えたピクセルレベルのグラウンディングLLMを活用することで機能する。また,MLLMの新しい幻覚ベンチマークR2-HalBenchを作成した。
論文参考訳（メタデータ） (2025-11-15T10:11:13Z)
Mitigating Hallucinations in Multimodal LLMs via Object-aware Preference Optimization [55.543583937522804]
MLLM(Multimodal Large Language Models)は、様々なタスクに対処するための統一インターフェースとして登場した。多くのベンチマークで最先端の結果が誇示されているにもかかわらず、長年の問題はMLLMが幻覚を起こす傾向にある。本稿では,幻覚の問題をアライメント問題として取り上げ,幻覚を伴わないコンテンツを生成するためのMLLMのステアリングを試みる。
論文参考訳（メタデータ） (2025-08-27T18:02:04Z)
CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs [107.21334626890713]
MLLM(Multimodal Large Language Models)は、その優れた能力にもかかわらず、幻覚に苦しむ。本稿では,これらの制約に対処するクロスモーダル階層型直接選好最適化(CHiP)を提案する。定量的および定性的な分析によってCHiPを評価し,幻覚の低減効果を複数のベンチマークで実証した。
論文参考訳（メタデータ） (2025-01-28T02:05:38Z)
LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。 LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文参考訳（メタデータ） (2024-10-13T18:59:58Z)
FG-PRM: Fine-grained Hallucination Detection and Mitigation in Language Model Mathematical Reasoning [18.927164579769066]
既存のアプローチは、主に幻覚の存在を検知するが、それらのタイプや表現の微妙な理解は欠如している。数学的推論タスクにおける一般的な幻覚を6つのタイプに分類する包括的分類法を導入する。次に,FG-PRM(FG-PRM)を提案する。
論文参考訳（メタデータ） (2024-10-08T19:25:26Z)
HaluEval-Wild: Evaluating Hallucinations of Language Models in the Wild [41.86776426516293]
幻覚は、臨界領域における大きな言語モデル(LLM)の信頼性に重大な課題をもたらす。野生におけるLSM幻覚を評価するために特別に設計された最初のベンチマークであるHaluEval-Wildを紹介する。
論文参考訳（メタデータ） (2024-03-07T08:25:46Z)
HypoTermQA: Hypothetical Terms Dataset for Benchmarking Hallucination Tendency of LLMs [0.0]
幻覚は、大規模言語モデル(LLM)の信頼性と整合性に重大な課題をもたらす本稿では,LLMの幻覚傾向のベンチマークと効率的な幻覚検出を組み合わせた,スケーラブルな自動フレームワークを提案する。フレームワークはドメインに依存しないため、任意のドメインでのベンチマーク作成や評価に任意の言語モデルを使用することができる。
論文参考訳（メタデータ） (2024-02-25T22:23:37Z)
SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。 SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文参考訳（メタデータ） (2023-11-28T05:53:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。