論文の概要: T2VTextBench: A Human Evaluation Benchmark for Textual Control in Video Generation Models
- arxiv url: http://arxiv.org/abs/2505.04946v1
- Date: Thu, 08 May 2025 04:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.74655
- Title: T2VTextBench: A Human Evaluation Benchmark for Textual Control in Video Generation Models
- Title(参考訳): T2VTextBench:ビデオ生成モデルにおけるテキスト制御のためのヒューマン評価ベンチマーク
- Authors: Xuyang Guo, Jiayan Huo, Zhenmei Shi, Zhao Song, Jiahao Zhang, Jiale Zhao,
- Abstract要約: T2VTextBenchは、画面上のテキストの忠実度と時間的一貫性を評価するための最初の人間評価ベンチマークである。
オープンソースソリューションから商用製品まで,10の最先端システムを評価しました。
- 参考スコア(独自算出の注目度): 12.120541052871486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Thanks to recent advancements in scalable deep architectures and large-scale pretraining, text-to-video generation has achieved unprecedented capabilities in producing high-fidelity, instruction-following content across a wide range of styles, enabling applications in advertising, entertainment, and education. However, these models' ability to render precise on-screen text, such as captions or mathematical formulas, remains largely untested, posing significant challenges for applications requiring exact textual accuracy. In this work, we introduce T2VTextBench, the first human-evaluation benchmark dedicated to evaluating on-screen text fidelity and temporal consistency in text-to-video models. Our suite of prompts integrates complex text strings with dynamic scene changes, testing each model's ability to maintain detailed instructions across frames. We evaluate ten state-of-the-art systems, ranging from open-source solutions to commercial offerings, and find that most struggle to generate legible, consistent text. These results highlight a critical gap in current video generators and provide a clear direction for future research aimed at enhancing textual manipulation in video synthesis.
- Abstract(参考訳): スケーラブルなディープ・アーキテクチャの最近の進歩と大規模事前学習のおかげで、テキスト・ビデオ生成は、広告、エンターテイメント、教育に応用可能な、幅広いスタイルで高忠実で命令追従的なコンテンツを作成するという、前例のない能力を達成した。
しかし、これらのモデルではキャプションや数式のような正確な画面上のテキストを描画する能力はほとんどテストされていないままであり、正確なテキストの精度を必要とするアプリケーションにとって大きな課題となっている。
本研究では,T2VTextBenchについて紹介する。T2VTextBenchは,画面上でのテキストの忠実度と時間的一貫性を評価することを目的とした,最初の人間評価ベンチマークである。
我々の一連のプロンプトは複雑なテキスト文字列と動的なシーン変更を統合し、各モデルのフレーム間の詳細な命令を維持する能力をテストする。
オープンソースソリューションから商用製品まで,10の最先端システムを評価しました。
これらの結果は、現在のビデオ生成装置における重要なギャップを浮き彫りにして、ビデオ合成におけるテキスト操作の強化を目的とした将来の研究の明確な方向性を提供する。
関連論文リスト
- Visual Text Processing: A Comprehensive Review and Unified Evaluation [99.57846940547171]
視覚テキスト処理における最近の進歩を包括的・多視点的に分析する。
本研究の目的は,視覚テキスト処理のダイナミックな分野における今後の探索と革新を促進する基礎資源として,本研究を確立することである。
論文 参考訳(メタデータ) (2025-04-30T14:19:29Z) - TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark [61.412934963260724]
既存の拡散ベースのテキスト・ツー・イメージモデルは、しばしば画像に正確にテキストを埋め込むのに苦労する。
本研究では,画像に視覚テキストを統合する拡散モデルの有効性を評価するために,大規模で,かつ,迅速な複雑性駆動型ベンチマークであるTextInVisionを紹介する。
論文 参考訳(メタデータ) (2025-03-17T21:36:31Z) - T2VEval: Benchmark Dataset and Objective Evaluation Method for T2V-generated Videos [9.742383920787413]
T2VEvalはテキスト・ビデオ品質評価のためのマルチブランチ融合方式である。
テキストとビデオの一貫性、現実性、技術的品質の3つの分野にまたがるビデオを評価する。
T2VEvalは、複数のメトリクスにわたる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-15T03:11:33Z) - T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation [55.57459883629706]
コンポジションテキスト・ビデオ生成に関する最初の体系的研究を行う。
合成テキスト・ビデオ生成に適した最初のベンチマークであるT2V-CompBenchを提案する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。
新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。
本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文 参考訳(メタデータ) (2024-01-15T15:42:39Z) - CelebV-Text: A Large-Scale Facial Text-Video Dataset [91.22496444328151]
CelebV-Textは、顔テキストとビデオのペアの大規模で多様で高品質なデータセットである。
CelebV-Textは、7万本の顔ビデオクリップと多様なビジュアルコンテンツで構成され、それぞれに半自動テキスト生成戦略を用いて生成された20のテキストをペアリングする。
他のデータセットよりもCelebV-Textの方が優れていることは、ビデオ、テキスト、およびテキスト-ビデオ関連性の包括的な統計分析によって示される。
論文 参考訳(メタデータ) (2023-03-26T13:06:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。