Fugu-MT 論文翻訳(概要): FIFA: Unified Faithfulness Evaluation Framework for Text-to-Video and Video-to-Text Generation

論文の概要: FIFA: Unified Faithfulness Evaluation Framework for Text-to-Video and Video-to-Text Generation

arxiv url: http://arxiv.org/abs/2507.06523v1
Date: Wed, 09 Jul 2025 03:51:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-10 17:37:43.45818
Title: FIFA: Unified Faithfulness Evaluation Framework for Text-to-Video and Video-to-Text Generation
Title（参考訳）: FIFA: テキスト・ツー・ビデオ・トゥ・テキスト・ジェネレーションのための統一された忠実度評価フレームワーク
Authors: Liqiang Jing, Viet Lai, Seunghyun Yoon, Trung Bui, Xinya Du,
Abstract要約: VideoMLLMは、ビデオ・トゥ・テキスト・タスクとテキスト・トゥ・ビデオタスクの両方において顕著な進歩を遂げている。彼らはしばしば幻覚に悩まされ、視覚的な入力と矛盾する内容を生み出す。既存の評価方法は1つのタスクに限られており、オープンエンドのフリーフォーム応答における幻覚の評価にも失敗する。包括的記述的事実を抽出する統合FaIthFulness evAluationフレームワークであるFIFAを提案する。また,幻覚的コンテンツを修正したツールベースの修正フレームワークであるPost-Correctionを紹介する。
参考スコア（独自算出の注目度）: 30.111545374280194
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video Multimodal Large Language Models (VideoMLLMs) have achieved remarkable progress in both Video-to-Text and Text-to-Video tasks. However, they often suffer fro hallucinations, generating content that contradicts the visual input. Existing evaluation methods are limited to one task (e.g., V2T) and also fail to assess hallucinations in open-ended, free-form responses. To address this gap, we propose FIFA, a unified FaIthFulness evAluation framework that extracts comprehensive descriptive facts, models their semantic dependencies via a Spatio-Temporal Semantic Dependency Graph, and verifies them using VideoQA models. We further introduce Post-Correction, a tool-based correction framework that revises hallucinated content. Extensive experiments demonstrate that FIFA aligns more closely with human judgment than existing evaluation methods, and that Post-Correction effectively improves factual consistency in both text and video generation.
Abstract（参考訳）: ビデオマルチモーダル大言語モデル (Video Multimodal Large Language Models, VideoMLLMs) は,ビデオ・トゥ・テキスト・タスクとテキスト・トゥ・ビデオタスクの両方において顕著な進歩を遂げている。しかし、彼らはしばしば幻覚に悩まされ、視覚的な入力に反する内容を生み出す。既存の評価手法は1つのタスク(例えば、V2T)に限られており、オープンエンドのフリーフォーム応答における幻覚の評価に失敗する。このギャップに対処するため、FIFAは、包括的記述的事実を抽出し、時空間意味依存グラフを用いてそれらの意味的依存関係をモデル化し、ビデオQAモデルを用いてそれらを検証する統合されたFaIthFulness evAluationフレームワークを提案する。さらに,幻覚コンテンツを修正するツールベースの修正フレームワークであるPost-Correctionを紹介する。大規模な実験により、FIFAは既存の評価方法よりも人間の判断とより緊密に一致し、ポストコレクションはテキストとビデオの両方における事実整合性を効果的に改善することが示された。

関連論文リスト

ARGUS: Hallucination and Omission Evaluation in Video-LLMs [86.73977434293973]
ARGUSは、無料のビデオキャプションのパフォーマンスを測定するビデオLLMベンチマークである。ビデオLLM出力と人間の真実のキャプションを比較することで、ARGUSは2つのメトリクスを定量化する。
論文参考訳（メタデータ） (2025-06-09T02:42:13Z)
VidText: Towards Comprehensive Evaluation for Video Text Understanding [54.15328647518558]
VidTextは、ビデオテキスト理解の総合的かつ詳細な評価のためのベンチマークである。さまざまな現実世界のシナリオをカバーし、多言語コンテンツをサポートする。ビデオレベル、クリップレベル、インスタンスレベルのタスクを備えた階層的評価フレームワークを導入している。
論文参考訳（メタデータ） (2025-05-28T19:39:35Z)
VTD-CLIP: Video-to-Text Discretization via Prompting CLIP [44.51452778561945]
視覚言語モデルは視覚的および言語的理解を橋渡しし、ビデオ認識タスクに強力であることが証明されている。既存のアプローチは、主にパラメータ効率の良い画像テキスト事前学習モデルの微調整に依存している。本稿では,時間的モデリングの不十分さによる限定的な解釈可能性や一般化の低さに対処する,ビデオからテキストへの離散化フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-24T07:27:19Z)
Expertized Caption Auto-Enhancement for Video-Text Retrieval [10.250004732070494]
本稿では,自動字幕強調手法を提案する。本手法は完全にデータ駆動型であり,データ収集や計算処理の負荷を軽減できるだけでなく,自己適応性も向上する。 MSR-VTTでは68.5%,MSVDでは68.1%,DiDeMoでは62.0%,Top-1リコール精度は68.5%であった。
論文参考訳（メタデータ） (2025-02-05T04:51:46Z)
Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文参考訳（メタデータ） (2024-02-26T15:01:16Z)
Video-Teller: Enhancing Cross-Modal Generation with Fusion and Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。 Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文参考訳（メタデータ） (2023-10-08T03:35:27Z)
Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文参考訳（メタデータ） (2023-03-06T08:32:50Z)
Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。 MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-09-28T06:15:42Z)
Video as Conditional Graph Hierarchy for Multi-Granular Question Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文参考訳（メタデータ） (2021-12-12T10:35:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。