論文の概要: VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models
- arxiv url: http://arxiv.org/abs/2406.16338v1
- Date: Mon, 24 Jun 2024 06:21:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 16:03:25.275330
- Title: VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models
- Title(参考訳): VideoHallucer:大規模ビデオ言語モデルにおける内因性および外因性幻覚の評価
- Authors: Yuxuan Wang, Yueqian Wang, Dongyan Zhao, Cihang Xie, Zilong Zheng,
- Abstract要約: 本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
- 参考スコア(独自算出の注目度): 59.05674402770661
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in Multimodal Large Language Models (MLLMs) have extended their capabilities to video understanding. Yet, these models are often plagued by "hallucinations", where irrelevant or nonsensical content is generated, deviating from the actual video context. This work introduces VideoHallucer, the first comprehensive benchmark for hallucination detection in large video-language models (LVLMs). VideoHallucer categorizes hallucinations into two main types: intrinsic and extrinsic, offering further subcategories for detailed analysis, including object-relation, temporal, semantic detail, extrinsic factual, and extrinsic non-factual hallucinations. We adopt an adversarial binary VideoQA method for comprehensive evaluation, where pairs of basic and hallucinated questions are crafted strategically. By evaluating eleven LVLMs on VideoHallucer, we reveal that i) the majority of current models exhibit significant issues with hallucinations; ii) while scaling datasets and parameters improves models' ability to detect basic visual cues and counterfactuals, it provides limited benefit for detecting extrinsic factual hallucinations; iii) existing models are more adept at detecting facts than identifying hallucinations. As a byproduct, these analyses further instruct the development of our self-PEP framework, achieving an average of 5.38% improvement in hallucination resistance across all model architectures.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、その能力をビデオ理解にまで拡張している。
しかし、これらのモデルはしばしば「幻覚」に悩まされ、無関係または非意味なコンテンツが生成され、実際のビデオコンテキストから逸脱する。
この研究は、大規模なビデオ言語モデル(LVLM)における幻覚検出のための最初の包括的なベンチマークであるVideoHallucerを紹介する。
VideoHallucerは、幻覚を2つの主なタイプに分類する: 内在的および外在的であり、オブジェクト関係、時間的、意味的詳細、外在的事実、外在的非内在的幻覚を含む詳細な分析のためのさらなるサブカテゴリを提供する。
我々は,基本的質問と幻覚的質問のペアを戦略的に作成する,包括的評価のための対角的バイナリTVQA手法を採用した。
VideoHallucerで11個のLVLMを評価することで、私たちはそれを明らかにした。
一 現在の模型の大多数は、幻覚に関する重大な問題を呈する。
二 データセット及びパラメータのスケーリングは、基本的な視覚的手がかり及び反事実を検出するモデルの能力を向上させる一方、外因的な事実の幻覚を検出するための限られた利益を提供する。
三 既存のモデルは、幻覚を識別するよりも事実を検出することに長けている。
副産物として、これらの分析は我々の自己PEPフレームワークの開発をさらに指導し、すべてのモデルアーキテクチャにおける幻覚耐性を平均5.38%向上させる。
関連論文リスト
- AUTOHALLUSION: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
大型視覚言語モデル (LVLM) は幻覚を与える: 画像内の特定のコンテキストキューは、言語モジュールの過信と不正確な推論を異常または仮説的対象に対して引き起こす可能性がある。
我々は、様々な例を作成するためにいくつかの主要な戦略を利用する最初の自動ベンチマーク生成手法であるAUTOHALLUSIONを開発した。
言語モジュールの先行性に矛盾する基礎的真実性を持つイメージベースの質問を生成する。
モデルは、正しい答えに到達するためには、文脈的偏見や気晴らしを克服しなければなりませんが、誤った、あるいは矛盾した回答は幻覚を示します。
論文 参考訳(メタデータ) (2024-06-16T11:44:43Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - Hal-Eval: A Universal and Fine-grained Hallucination Evaluation
Framework for Large Vision Language Models [36.98580310654515]
我々は,新しいカテゴリーであるイベント幻覚(Event Hallucination)を特徴とする,幻覚の洗練された分類を導入した。
次に,多種多様な幻覚からなる微粒な幻覚データの生成とフィルタリングに高度LLMを利用する。
提案するベンチマークでは,広帯域の幻覚に対処するLVLMの能力を顕著に評価している。
論文 参考訳(メタデータ) (2024-02-24T05:14:52Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z) - Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。
その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-09-28T06:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。