論文の概要: ARGUS: Hallucination and Omission Evaluation in Video-LLMs
- arxiv url: http://arxiv.org/abs/2506.07371v1
- Date: Mon, 09 Jun 2025 02:42:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.784936
- Title: ARGUS: Hallucination and Omission Evaluation in Video-LLMs
- Title(参考訳): ARGUS:ビデオLLMにおける幻覚と排ガス評価
- Authors: Ruchit Rawal, Reza Shirkavand, Heng Huang, Gowthami Somepalli, Tom Goldstein,
- Abstract要約: ARGUSは、無料のビデオキャプションのパフォーマンスを測定するビデオLLMベンチマークである。
ビデオLLM出力と人間の真実のキャプションを比較することで、ARGUSは2つのメトリクスを定量化する。
- 参考スコア(独自算出の注目度): 86.73977434293973
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video large language models have not yet been widely deployed, largely due to their tendency to hallucinate. Typical benchmarks for Video-LLMs rely simply on multiple-choice questions. Unfortunately, VideoLLMs hallucinate far more aggressively on freeform text generation tasks like video captioning than they do on multiple choice verification tasks. To address this weakness, we propose ARGUS, a VideoLLM benchmark that measures freeform video captioning performance. By comparing VideoLLM outputs to human ground truth captions, ARGUS quantifies dual metrics. First, we measure the rate of hallucinations in the form of incorrect statements about video content or temporal relationships. Second, we measure the rate at which the model omits important descriptive details. Together, these dual metrics form a comprehensive view of video captioning performance.
- Abstract(参考訳): ビデオ大言語モデルは、幻覚の傾向のため、まだ広く展開されていない。
Video-LLMの典型的なベンチマークは、単に複数の質問に依存する。
残念ながら、ビデオLLMは、複数の選択検証タスクよりも、ビデオキャプションのようなフリーフォームのテキスト生成タスクに積極的に取り組みます。
この弱点に対処するため,動画キャプション性能を計測するビデオLLMベンチマークARGUSを提案する。
ビデオLLM出力と人間の真実のキャプションを比較することで、ARGUSは2つのメトリクスを定量化する。
まず,ビデオの内容や時間的関係に関する誤記の形で幻覚率を測定する。
第二に、モデルが重要な記述的詳細を省略する速度を測定する。
これら2つのメトリクスは、ビデオキャプションのパフォーマンスの総合的なビューを形成する。
関連論文リスト
- VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding [54.16233954353802]
VideoHalluは、Veo2、Sora、Klingといったモデルによって生成された合成ビデオから構築された3000以上のビデオQAペアのベンチマークである。
マルチモーダル大言語モデル(MLLM)の批判的思考能力は,人間に知覚的に明らかだが,言語先行により幻覚することが多い異常に対して評価する。
これらのモデルはMVBenchやMovieChatのような実世界の多くのベンチマークでよく機能するが、合成ビデオにおける物理に基づく基本的な推論と常識的推論に苦戦している。
論文 参考訳(メタデータ) (2025-05-02T15:58:38Z) - All-in-one: Understanding and Generation in Multimodal Reasoning with the MAIA Benchmark [74.4821011648997]
MAIAはビデオにおける視覚言語モデルの推論能力の詳細な調査のためのベンチマークである。
視覚入力の役割を強調することにより、言語と視覚関係を混乱させようとする12のカテゴリを考察する。
MAIAは、そのデザイン、推論カテゴリ、使用するメトリクス、およびビデオの言語と文化に関して、他の利用可能なビデオベンチマークとは異なる。
論文 参考訳(メタデータ) (2025-02-24T09:25:51Z) - ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models [13.04745908368858]
オープンソースT2Vモデルによる幻覚映像の大規模データセットであるViBeを紹介する。
10種類のT2Vモデルを用いて、837のMSキャプションから3,782本の動画を手動で作成した。
提案するベンチマークには、幻覚映像のデータセットと、ビデオ埋め込みを用いた分類フレームワークが含まれる。
論文 参考訳(メタデータ) (2024-11-16T19:23:12Z) - EventHallusion: Diagnosing Event Hallucinations in Video LLMs [42.66453293963568]
MLLM(Multimodal Large Language Models)はビデオ理解の分野で大きな進歩を遂げている。
本稿では,イベントに対するビデオLLMの幻覚を評価する新しいベンチマークであるEventHallusionを提案する。
また,ビデオLLMの幻覚化問題に対処するため,TCD(Temporal Contrastive Decoding)と呼ばれるシンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T03:49:46Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - Fine-grained Audible Video Description [61.81122862375985]
FAVDBench(きめのきめ細かな映像記述ベンチマーク)を構築した。
各ビデオクリップについて、まずビデオの1文要約を行い、次に、視覚的詳細を記述した4~6文と、最後に1~2つの音声関連記述を示す。
細かなビデオ記述を利用することで、キャプションよりも複雑なビデオが作成できることを実証する。
論文 参考訳(メタデータ) (2023-03-27T22:03:48Z) - Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。
その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-09-28T06:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。