論文の概要: Ensembling Multiple Hallucination Detectors Trained on VLLM Internal Representations
- arxiv url: http://arxiv.org/abs/2510.14330v1
- Date: Thu, 16 Oct 2025 06:09:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.738748
- Title: Ensembling Multiple Hallucination Detectors Trained on VLLM Internal Representations
- Title(参考訳): VLLM内部表現を用いた複数の幻覚検出器の組み立て
- Authors: Yuto Nakamizo, Ryuhei Miyazato, Hikaru Tanabe, Ryuta Yamakura, Kiori Hatanaka,
- Abstract要約: 本稿では,KDDカップ2025におけるメタCRAG-MMチャレンジの5位であるy3h2について述べる。
CRAG-MMベンチマークは、画像に関する事実質問に焦点を当てた視覚的質問応答データセットである。
我々は,隠された_stateと特定の注意ヘッドの出力を用いて,ロジスティック回帰に基づく幻覚検出モデルを訓練した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents the 5th place solution by our team, y3h2, for the Meta CRAG-MM Challenge at KDD Cup 2025. The CRAG-MM benchmark is a visual question answering (VQA) dataset focused on factual questions about images, including egocentric images. The competition was contested based on VQA accuracy, as judged by an LLM-based automatic evaluator. Since incorrect answers result in negative scores, our strategy focused on reducing hallucinations from the internal representations of the VLM. Specifically, we trained logistic regression-based hallucination detection models using both the hidden_state and the outputs of specific attention heads. We then employed an ensemble of these models. As a result, while our method sacrificed some correct answers, it significantly reduced hallucinations and allowed us to place among the top entries on the final leaderboard. For implementation details and code, please refer to https://gitlab.aicrowd.com/htanabe/meta-comprehensive-rag-benchmark-starter-kit.
- Abstract(参考訳): 本稿では,KDDカップ2025におけるメタCRAG-MMチャレンジの5位であるy3h2について述べる。
CRAG-MMベンチマーク(英: CRAG-MM benchmark)は、エゴセントリック画像を含む画像に関する事実質問に焦点を当てた視覚的質問応答(VQA)データセットである。
LLMベースの自動評価器で判断されるように、VQAの精度に基づいて競争が行われた。
誤った回答は負のスコアをもたらすため,VLMの内部表現から幻覚を減らすことに注力した。
具体的には、隠れ_stateと特定の注意ヘッドの出力の両方を用いて、ロジスティック回帰に基づく幻覚検出モデルを訓練した。
次に、これらのモデルのアンサンブルを使用しました。
その結果,本手法は正しい回答を犠牲にしたが,幻覚を著しく減らし,最終リーダーボードの上位に配置することができた。
実装の詳細とコードについては、https://gitlab.aicrowd.com/htanabe/meta-comprehensive-rag-benchmark-starter-kitを参照してください。
関連論文リスト
- VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes [36.370533774426555]
2,720組の質問応答対からなる視覚的質問応答(VQA)ベンチマークであるVisualOverloadを提案する。
通常、地球近傍の画像理解に焦点を当てた以前のVQAデータセットとは異なり、VisualOverloadは、密集したシーンでシンプルで知識のない視覚タスクを実行するためにモデルに挑戦する。
37の試験モデルのうち最高のモデル(o3)でさえ、最も難しいテスト分割で19.6%、すべての質問で69.5%の精度しか達成できない。
論文 参考訳(メタデータ) (2025-09-29T18:00:25Z) - Mitigating Hallucinations in Multimodal LLMs via Object-aware Preference Optimization [55.543583937522804]
MLLM(Multimodal Large Language Models)は、様々なタスクに対処するための統一インターフェースとして登場した。
多くのベンチマークで最先端の結果が誇示されているにもかかわらず、長年の問題はMLLMが幻覚を起こす傾向にある。
本稿では,幻覚の問題をアライメント問題として取り上げ,幻覚を伴わないコンテンツを生成するためのMLLMのステアリングを試みる。
論文 参考訳(メタデータ) (2025-08-27T18:02:04Z) - Do You See Me : A Multidimensional Benchmark for Evaluating Visual Perception in Multimodal LLMs [9.951669153984708]
Do You See Me"は,1,758のイメージと2,612の質問を備えた,スケーラブルなベンチマークである。
人間は96.49%の精度を達成し、トップMLLMは50%以下である。
これは、真に堅牢な視覚知覚を持つMLLMに対して、緊急の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-28T13:31:32Z) - MINERVA: Evaluating Complex Video Reasoning [72.12644008002566]
我々は、最新のマルチモーダルモデルのためのMINERVAと呼ばれる新しいビデオ推論データセットを提供する。
我々のデータセットはマルチモーダルであり、ビデオ領域と長さの点で多様であり、複雑なマルチステップの質問で構成されている。
我々は,様々なモデルにまたがる共通障害モードを特定するために,きめ細かいエラー解析を行い,推論エラーの分類を作成する。
論文 参考訳(メタデータ) (2025-05-01T17:41:49Z) - Dysca: A Dynamic and Scalable Benchmark for Evaluating Perception Ability of LVLMs [61.01278660925202]
Dyscaは、合成画像を利用してLVLMを評価するための動的でスケーラブルなベンチマークである。
51種類のイメージスタイルを考慮し,20のサブタスクにおいて知覚能力を評価する。
Dyscaは、新しいサブタスクやシナリオを簡単に追加するためのスケーラブルなベンチマークとして機能する。
論文 参考訳(メタデータ) (2024-06-27T02:40:35Z) - AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。
ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。
最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文 参考訳(メタデータ) (2024-06-16T11:44:43Z) - MetaCheckGPT -- A Multi-task Hallucination Detector Using LLM Uncertainty and Meta-models [8.322071110929338]
本稿では,モデル非依存トラックとモデル認識トラックの2つのサブタスクにおいて,勝利解をそれぞれ1位と2位にランク付けした。
モデル評価と統合のためのLCMのメタレグレクタフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-10T11:56:01Z) - CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。