論文の概要: GeneVA: A Dataset of Human Annotations for Generative Text to Video Artifacts
- arxiv url: http://arxiv.org/abs/2509.08818v1
- Date: Wed, 10 Sep 2025 17:51:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.54067
- Title: GeneVA: A Dataset of Human Annotations for Generative Text to Video Artifacts
- Title(参考訳): GeneVA: ビデオアーティファクトへの生成テキストのための人間のアノテーションのデータセット
- Authors: Jenna Kang, Maria Silva, Patsorn Sangkloy, Kenneth Chen, Niall Williams, Qi Sun,
- Abstract要約: GeneVAは、リッチなヒューマンアノテーションを備えた大規模なデータセットで、自然なテキストプロンプトから生成された時間的アーティファクトに焦点を当てている。
GeneVAが、モデルパフォーマンスのベンチマークや生成ビデオの品質向上など、重要なアプリケーションを有効にし、支援できることを願っています。
- 参考スコア(独自算出の注目度): 7.080098051830916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in probabilistic generative models have extended capabilities from static image synthesis to text-driven video generation. However, the inherent randomness of their generation process can lead to unpredictable artifacts, such as impossible physics and temporal inconsistency. Progress in addressing these challenges requires systematic benchmarks, yet existing datasets primarily focus on generative images due to the unique spatio-temporal complexities of videos. To bridge this gap, we introduce GeneVA, a large-scale artifact dataset with rich human annotations that focuses on spatio-temporal artifacts in videos generated from natural text prompts. We hope GeneVA can enable and assist critical applications, such as benchmarking model performance and improving generative video quality.
- Abstract(参考訳): 確率的生成モデルの最近の進歩は、静的画像合成からテキスト駆動ビデオ生成まで拡張された。
しかし、生成過程の固有のランダム性は、不可能な物理学や時間的矛盾といった予測不可能な成果をもたらす可能性がある。
これらの課題に対処する進歩には、体系的なベンチマークが必要だが、既存のデータセットは主に、ビデオのユニークな時空間的複雑さのために生成画像に焦点を当てている。
このギャップを埋めるために、自然なテキストプロンプトから生成されたビデオの時空間的アーティファクトに焦点を当てたリッチなアノテーションを備えた大規模アーティファクトデータセットであるGeneVAを紹介した。
GeneVAが、モデルパフォーマンスのベンチマークや生成ビデオの品質向上など、重要なアプリケーションを有効にし、支援できることを願っています。
関連論文リスト
- BrokenVideos: A Benchmark Dataset for Fine-Grained Artifact Localization in AI-Generated Videos [63.03271511550633]
BrokenVideosは、3,254のAI生成ビデオのベンチマークデータセットで、微妙に注釈付けされたピクセルレベルのマスクが視覚的腐敗の領域を強調している。
実験の結果,BrokenVideosにおける人工物検出モデルの訓練状況とマルチモーダル大言語モデル(MLLM)が,破壊領域のローカライズ能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-06-25T03:30:04Z) - ASurvey: Spatiotemporal Consistency in Video Generation [72.82267240482874]
動的視覚生成手法を利用した映像生成手法は人工知能生成コンテンツ(AIGC)の境界を押し下げる
最近の研究は、映像生成における時間的一貫性の問題に対処することを目的としているが、この観点からの文献レビューはほとんど行われていない。
基礎モデル,情報表現,生成スキーム,後処理技術,評価指標の5つの重要な側面を網羅して,映像生成の最近の進歩を体系的に検討した。
論文 参考訳(メタデータ) (2025-02-25T05:20:51Z) - OpenHumanVid: A Large-Scale High-Quality Dataset for Enhancing Human-Centric Video Generation [27.516068877910254]
大規模で高品質な人中心ビデオデータセットOpenHumanVidを紹介する。
まず、大規模で高品質なデータセットを組み込むことによって、生成された人間のビデオの評価基準を大幅に強化する。
第二に、高品質のビデオ出力を生成するためには、人間の外見、人間の動き、顔の動きとテキストの効果的なアライメントが不可欠である。
論文 参考訳(メタデータ) (2024-11-28T07:01:06Z) - Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法
ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文 参考訳(メタデータ) (2023-12-07T17:59:07Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Video Generation from Text Employing Latent Path Construction for
Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。
本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。
自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文 参考訳(メタデータ) (2021-07-29T06:28:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。