論文の概要: FIFA: Unified Faithfulness Evaluation Framework for Text-to-Video and Video-to-Text Generation
- arxiv url: http://arxiv.org/abs/2507.06523v1
- Date: Wed, 09 Jul 2025 03:51:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.45818
- Title: FIFA: Unified Faithfulness Evaluation Framework for Text-to-Video and Video-to-Text Generation
- Title(参考訳): FIFA: テキスト・ツー・ビデオ・トゥ・テキスト・ジェネレーションのための統一された忠実度評価フレームワーク
- Authors: Liqiang Jing, Viet Lai, Seunghyun Yoon, Trung Bui, Xinya Du,
- Abstract要約: VideoMLLMは、ビデオ・トゥ・テキスト・タスクとテキスト・トゥ・ビデオタスクの両方において顕著な進歩を遂げている。
彼らはしばしば幻覚に悩まされ、視覚的な入力と矛盾する内容を生み出す。
既存の評価方法は1つのタスクに限られており、オープンエンドのフリーフォーム応答における幻覚の評価にも失敗する。
包括的記述的事実を抽出する統合FaIthFulness evAluationフレームワークであるFIFAを提案する。
また,幻覚的コンテンツを修正したツールベースの修正フレームワークであるPost-Correctionを紹介する。
- 参考スコア(独自算出の注目度): 30.111545374280194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Multimodal Large Language Models (VideoMLLMs) have achieved remarkable progress in both Video-to-Text and Text-to-Video tasks. However, they often suffer fro hallucinations, generating content that contradicts the visual input. Existing evaluation methods are limited to one task (e.g., V2T) and also fail to assess hallucinations in open-ended, free-form responses. To address this gap, we propose FIFA, a unified FaIthFulness evAluation framework that extracts comprehensive descriptive facts, models their semantic dependencies via a Spatio-Temporal Semantic Dependency Graph, and verifies them using VideoQA models. We further introduce Post-Correction, a tool-based correction framework that revises hallucinated content. Extensive experiments demonstrate that FIFA aligns more closely with human judgment than existing evaluation methods, and that Post-Correction effectively improves factual consistency in both text and video generation.
- Abstract(参考訳): ビデオマルチモーダル大言語モデル (Video Multimodal Large Language Models, VideoMLLMs) は,ビデオ・トゥ・テキスト・タスクとテキスト・トゥ・ビデオタスクの両方において顕著な進歩を遂げている。
しかし、彼らはしばしば幻覚に悩まされ、視覚的な入力に反する内容を生み出す。
既存の評価手法は1つのタスク(例えば、V2T)に限られており、オープンエンドのフリーフォーム応答における幻覚の評価に失敗する。
このギャップに対処するため、FIFAは、包括的記述的事実を抽出し、時空間意味依存グラフを用いてそれらの意味的依存関係をモデル化し、ビデオQAモデルを用いてそれらを検証する統合されたFaIthFulness evAluationフレームワークを提案する。
さらに,幻覚コンテンツを修正するツールベースの修正フレームワークであるPost-Correctionを紹介する。
大規模な実験により、FIFAは既存の評価方法よりも人間の判断とより緊密に一致し、ポストコレクションはテキストとビデオの両方における事実整合性を効果的に改善することが示された。
関連論文リスト
- ARGUS: Hallucination and Omission Evaluation in Video-LLMs [86.73977434293973]
ARGUSは、無料のビデオキャプションのパフォーマンスを測定するビデオLLMベンチマークである。
ビデオLLM出力と人間の真実のキャプションを比較することで、ARGUSは2つのメトリクスを定量化する。
論文 参考訳(メタデータ) (2025-06-09T02:42:13Z) - VidText: Towards Comprehensive Evaluation for Video Text Understanding [54.15328647518558]
VidTextは、ビデオテキスト理解の総合的かつ詳細な評価のためのベンチマークである。
さまざまな現実世界のシナリオをカバーし、多言語コンテンツをサポートする。
ビデオレベル、クリップレベル、インスタンスレベルのタスクを備えた階層的評価フレームワークを導入している。
論文 参考訳(メタデータ) (2025-05-28T19:39:35Z) - VTD-CLIP: Video-to-Text Discretization via Prompting CLIP [44.51452778561945]
視覚言語モデルは視覚的および言語的理解を橋渡しし、ビデオ認識タスクに強力であることが証明されている。
既存のアプローチは、主にパラメータ効率の良い画像テキスト事前学習モデルの微調整に依存している。
本稿では,時間的モデリングの不十分さによる限定的な解釈可能性や一般化の低さに対処する,ビデオからテキストへの離散化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-24T07:27:19Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。
その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-09-28T06:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。