論文の概要: MESH -- Understanding Videos Like Human: Measuring Hallucinations in Large Video Models
- arxiv url: http://arxiv.org/abs/2509.08538v2
- Date: Thu, 11 Sep 2025 11:14:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 11:47:11.901782
- Title: MESH -- Understanding Videos Like Human: Measuring Hallucinations in Large Video Models
- Title(参考訳): MESH -- 動画を人間のように理解する - 大規模ビデオモデルにおける幻覚の測定
- Authors: Garry Yang, Zizhe Chen, Man Hon Wong, Haoyu Lei, Yongqiang Chen, Zhenguo Li, Kaiwen Zhou, James Cheng,
- Abstract要約: 本稿では,LVMの幻覚を系統的に評価するベンチマークであるMESHを紹介する。
MESHでは、ターゲットインスタンスとトラップインスタンスを組み込んだバイナリとマルチチョイスフォーマットを備えたQA-Answeringフレームワークを使用している。
我々は,MESHがビデオの幻覚を効果的かつ包括的に識別する手法であることを実証した。
- 参考スコア(独自算出の注目度): 56.49314029765706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Video Models (LVMs) build on the semantic capabilities of Large Language Models (LLMs) and vision modules by integrating temporal information to better understand dynamic video content. Despite their progress, LVMs are prone to hallucinations-producing inaccurate or irrelevant descriptions. Current benchmarks for video hallucination depend heavily on manual categorization of video content, neglecting the perception-based processes through which humans naturally interpret videos. We introduce MESH, a benchmark designed to evaluate hallucinations in LVMs systematically. MESH uses a Question-Answering framework with binary and multi-choice formats incorporating target and trap instances. It follows a bottom-up approach, evaluating basic objects, coarse-to-fine subject features, and subject-action pairs, aligning with human video understanding. We demonstrate that MESH offers an effective and comprehensive approach for identifying hallucinations in videos. Our evaluations show that while LVMs excel at recognizing basic objects and features, their susceptibility to hallucinations increases markedly when handling fine details or aligning multiple actions involving various subjects in longer videos.
- Abstract(参考訳): 大規模ビデオモデル(LVM)は、動的ビデオコンテンツを理解するために時間情報を統合することで、LLM(Large Language Models)とビジョンモジュールのセマンティック機能に基づいて構築される。
それらの進歩にもかかわらず、LVMは幻覚を誘発する不正確なまたは無関係な記述を生じさせる傾向にある。
ビデオ幻覚の現在のベンチマークは、人間が自然に動画を解釈する知覚に基づくプロセスを無視し、ビデオコンテンツの手作業による分類に大きく依存している。
本稿では,LVMの幻覚を系統的に評価するベンチマークであるMESHを紹介する。
MESHでは、ターゲットインスタンスとトラップインスタンスを組み込んだバイナリとマルチチョイスフォーマットを備えたQA-Answeringフレームワークを使用している。
ボトムアップアプローチに従って、基本的なオブジェクト、粗大な被写体特徴、主観的アクションペアを評価し、人間のビデオ理解と整合する。
我々は,MESHがビデオの幻覚を効果的かつ包括的に識別する手法であることを実証した。
評価の結果,LVMは基本的対象や特徴の認識に優れるが,細部を細かく処理したり,より長いビデオで様々な被験者を巻き込んだ複数のアクションを調整する場合,幻覚への感受性は著しく向上することがわかった。
関連論文リスト
- ARGUS: Hallucination and Omission Evaluation in Video-LLMs [86.73977434293973]
ARGUSは、無料のビデオキャプションのパフォーマンスを測定するビデオLLMベンチマークである。
ビデオLLM出力と人間の真実のキャプションを比較することで、ARGUSは2つのメトリクスを定量化する。
論文 参考訳(メタデータ) (2025-06-09T02:42:13Z) - Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。
本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - VidHalluc: Evaluating Temporal Hallucinations in Multimodal Large Language Models for Video Understanding [1.1834200163382398]
ビデオ理解のためにMLLMの幻覚を調べるために設計された最大のベンチマークであるVidHallucを紹介する。
VidHallucは、(1)行動、(2)時間的シーケンス、(3)シーン遷移の3つの重要な次元にわたる幻覚を評価する。
DINO-HEALは,DINOv2からの空間塩分を推論時の視覚的特徴に組み込むことで幻覚を軽減できる訓練不要な方法である。
論文 参考訳(メタデータ) (2024-12-04T22:03:19Z) - VidHal: Benchmarking Temporal Hallucinations in Vision LLMs [9.392258475822915]
大型幻覚言語モデル(VLLM)は幻覚の傾向が広く認められている。
時間力学における映像に基づく幻覚の評価に特化して設計されたベンチマークであるVidHalを紹介する。
ベンチマークの明確な特徴は、各ビデオに関連する様々なレベルの幻覚を表すキャプションを慎重に作成することにある。
論文 参考訳(メタデータ) (2024-11-25T06:17:23Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z) - Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。
その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-09-28T06:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。