論文の概要: ETVA: Evaluation of Text-to-Video Alignment via Fine-grained Question Generation and Answering
- arxiv url: http://arxiv.org/abs/2503.16867v1
- Date: Fri, 21 Mar 2025 05:52:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:56:53.810820
- Title: ETVA: Evaluation of Text-to-Video Alignment via Fine-grained Question Generation and Answering
- Title(参考訳): ETVA:きめ細かい質問生成と回答によるテキスト・ビデオアライメントの評価
- Authors: Kaisi Guan, Zhengfeng Lai, Yuchong Sun, Peng Zhang, Wei Liu, Kieran Liu, Meng Cao, Ruihua Song,
- Abstract要約: 細かな質問生成と回答によるテキスト・ビデオ・アライメントの新たな評価手法であるETVAを提案する。
ETVA はSpearman の相関係数 58.47 を達成し,既存の31.0 の指標よりも人間の判断との相関性が高いことを示した。
また,テキストとビデオのアライメント評価に特化して設計されたベンチマークを構築し,10のカテゴリにまたがる2kの多様なプロンプトと12kのアトミックな質問を特徴付ける。
- 参考スコア(独自算出の注目度): 35.57757342886499
- License:
- Abstract: Precisely evaluating semantic alignment between text prompts and generated videos remains a challenge in Text-to-Video (T2V) Generation. Existing text-to-video alignment metrics like CLIPScore only generate coarse-grained scores without fine-grained alignment details, failing to align with human preference. To address this limitation, we propose ETVA, a novel Evaluation method of Text-to-Video Alignment via fine-grained question generation and answering. First, a multi-agent system parses prompts into semantic scene graphs to generate atomic questions. Then we design a knowledge-augmented multi-stage reasoning framework for question answering, where an auxiliary LLM first retrieves relevant common-sense knowledge (e.g., physical laws), and then video LLM answers the generated questions through a multi-stage reasoning mechanism. Extensive experiments demonstrate that ETVA achieves a Spearman's correlation coefficient of 58.47, showing a much higher correlation with human judgment than existing metrics which attain only 31.0. We also construct a comprehensive benchmark specifically designed for text-to-video alignment evaluation, featuring 2k diverse prompts and 12k atomic questions spanning 10 categories. Through a systematic evaluation of 15 existing text-to-video models, we identify their key capabilities and limitations, paving the way for next-generation T2V generation.
- Abstract(参考訳): テキストプロンプトと生成されたビデオ間のセマンティックアライメントを正確に評価することは、Text-to-Video(T2V)ジェネレーションの課題である。
CLIPScoreのような既存のテキストとビデオのアライメントメトリクスは、細かいアライメントの詳細なしで粗いスコアしか生成せず、人間の好みと一致しない。
この制限に対処するために,細かな質問生成と回答によるテキスト・ビデオ・アライメントの新たな評価手法であるETVAを提案する。
まず、マルチエージェントシステムがプロンプトをセマンティックシーングラフに解析し、原子質問を生成する。
質問応答のための知識強化多段階推論フレームワークを設計し、補助的なLLMがまず関連する常識知識(例えば物理法則)を検索し、次にビデオLLMが生成した質問に多段階推論機構を用いて答える。
大規模な実験により、ETVAはスピアーマンの相関係数58.47を達成し、既存の31.0の指標よりも人間の判断との相関がはるかに高いことを示した。
また,テキストとビデオのアライメント評価に特化して設計された総合的なベンチマークを構築し,10のカテゴリにまたがる2kの多様なプロンプトと12kのアトミックな質問を特徴付ける。
既存の15のテキスト・ビデオ・モデルの体系的評価を通じて,その重要な機能と限界を特定し,次世代T2V生成への道を開く。
関連論文リスト
- QuOTE: Question-Oriented Text Embeddings [8.377715521597292]
QuOTE(Question-Oriented Text Embeddings)は、検索強化世代(RAG)システムへの新たな拡張である。
従来のRAGパイプラインとは異なり、QuOTEは、チャンクが潜在的に答えうる仮説的な質問でチャンクを拡張する。
マルチホップ質問応答タスクを含め,QuOTEは検索精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-02-16T03:37:13Z) - Content-Rich AIGC Video Quality Assessment via Intricate Text Alignment and Motion-Aware Consistency [4.922783970210658]
我々はSora-era AIGCビデオの評価のためにtextbfCRAVE (underlineContent-underlineRich underlineAIGC underlineAIGC underlineEvaluator) を提案する。
論文 参考訳(メタデータ) (2025-02-06T13:41:24Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation [55.57459883629706]
コンポジションテキスト・ビデオ生成に関する最初の体系的研究を行う。
合成テキスト・ビデオ生成に適した最初のベンチマークであるT2V-CompBenchを提案する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering [58.92057773071854]
MTVQAは、9つの異なる言語にまたがる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
MTVQAは9つの異なる言語にわたる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
論文 参考訳(メタデータ) (2024-05-20T12:35:01Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z) - Answering Diverse Questions via Text Attached with Key Audio-Visual
Clues [24.347420432207283]
本稿では,相互相関蒸留(MCD)を行うための枠組みを提案する。
提案手法は,複数の問合せ対を含む2つの公開データセットに対して評価する。
論文 参考訳(メタデータ) (2024-03-11T12:51:37Z) - FETV: A Benchmark for Fine-Grained Evaluation of Open-Domain
Text-to-Video Generation [27.620973815397296]
オープンドメインのテキスト・トゥ・ビデオ(T2V)生成モデルは目覚ましい進歩を遂げた。
既存の研究では、テキストプロンプトの異なるカテゴリにおけるT2Vモデルのきめ細かい評価が欠けている。
自動評価基準が人間の基準と一致しているかどうかは不明である。
論文 参考訳(メタデータ) (2023-11-03T09:46:05Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。