論文の概要: Bridging Text and Video Generation: A Survey
- arxiv url: http://arxiv.org/abs/2510.04999v1
- Date: Mon, 06 Oct 2025 16:39:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.990087
- Title: Bridging Text and Video Generation: A Survey
- Title(参考訳): ブリッジングテキストとビデオ生成:サーベイ
- Authors: Nilay Kumar, Priyansh Bhandari, G. Maragatham,
- Abstract要約: テキスト・トゥ・ビデオ技術は、教育、マーケティング、エンターテイメント、視覚的または読書的困難を抱える個人のための補助技術などの領域を変革する可能性がある。
本稿では,テキストからビデオへの生成モデルに関する包括的調査を行い,初期のGANやVAEからハイブリッド拡散変換器(DiT)アーキテクチャへの展開を追究する。
調査したテキスト・ビデオ・モデルをトレーニングし,評価したデータセットのシステマティックな説明を行い,そのようなモデルのアクセシビリティを支援し,評価する。
- 参考スコア(独自算出の注目度): 0.41998444721319217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-video (T2V) generation technology holds potential to transform multiple domains such as education, marketing, entertainment, and assistive technologies for individuals with visual or reading comprehension challenges, by creating coherent visual content from natural language prompts. From its inception, the field has advanced from adversarial models to diffusion-based models, yielding higher-fidelity, temporally consistent outputs. Yet challenges persist, such as alignment, long-range coherence, and computational efficiency. Addressing this evolving landscape, we present a comprehensive survey of text-to-video generative models, tracing their development from early GANs and VAEs to hybrid Diffusion-Transformer (DiT) architectures, detailing how these models work, what limitations they addressed in their predecessors, and why shifts toward new architectural paradigms were necessary to overcome challenges in quality, coherence, and control. We provide a systematic account of the datasets, which the surveyed text-to-video models were trained and evaluated on, and, to support reproducibility and assess the accessibility of training such models, we detail their training configurations, including their hardware specifications, GPU counts, batch sizes, learning rates, optimizers, epochs, and other key hyperparameters. Further, we outline the evaluation metrics commonly used for evaluating such models and present their performance across standard benchmarks, while also discussing the limitations of these metrics and the emerging shift toward more holistic, perception-aligned evaluation strategies. Finally, drawing from our analysis, we outline the current open challenges and propose a few promising future directions, laying out a perspective for future researchers to explore and build upon in advancing T2V research and applications.
- Abstract(参考訳): テキスト・ツー・ビデオ(T2V)生成技術は、自然言語のプロンプトからコヒーレントなビジュアルコンテンツを作成することによって、視覚的または読みやすい課題を持つ個人のための教育、マーケティング、エンターテイメント、補助技術などの複数の領域を変革する可能性がある。
当初から、場は敵モデルから拡散ベースモデルへと進化し、高忠実で時間的に一貫した出力を生み出した。
しかし、アライメント、長距離コヒーレンス、計算効率などの課題が続いている。
この進化する状況に対処するため、テキストからビデオへの生成モデルに関する包括的な調査を行い、初期のGANやVAEからハイブリッドなDiffusion-Transformer(DiT)アーキテクチャへの開発をトレースし、これらのモデルがどのように機能するか、前者でどのような制限に対処したのか、そしてなぜ品質、一貫性、制御の課題を克服するために新しいアーキテクチャパラダイムへのシフトが必要かを説明します。
調査したテキストからビデオまでのモデルをトレーニングし、評価したデータセットのシステマティックな説明を提供し、再現性をサポートし、そのようなモデルのアクセシビリティを評価するために、ハードウェア仕様、GPU数、バッチサイズ、学習率、オプティマイザ、エポック、その他の重要なハイパーパラメータを含むトレーニング構成を詳述する。
さらに、これらのモデルの評価によく用いられる評価指標を概説するとともに、これらの指標の限界と、より包括的で知覚に整合した評価戦略へのシフトについても論じる。
最後に、我々の分析から、現在進行中のオープンな課題を概説し、将来有望な方向性をいくつか提案し、将来の研究者がT2V研究と応用の進展を探求し、構築するための視点を定めている。
関連論文リスト
- Motion Generation: A Survey of Generative Approaches and Benchmarks [1.4254358932994455]
我々は,その基盤となる生成戦略に基づいて,動作生成手法の詳細な分類を行う。
我々の主な焦点は、2023年以降のトップレベルの会場で発行された論文であり、この分野の最新の進歩を反映している。
アーキテクチャの原則、条件付け機構、生成設定を分析し、文献で使用される評価指標とデータセットの詳細な概要をコンパイルする。
論文 参考訳(メタデータ) (2025-07-07T19:04:56Z) - A Comprehensive Survey on Video Scene Parsing:Advances, Challenges, and Prospects [53.15503034595476]
Video Scene Parsing (VSP) はコンピュータビジョンの基盤として登場した。
VSPはコンピュータビジョンの基盤として現れ、ダイナミックシーンにおける多様な視覚的実体の同時セグメンテーション、認識、追跡を容易にする。
論文 参考訳(メタデータ) (2025-06-16T14:39:03Z) - Continual Learning for Generative AI: From LLMs to MLLMs and Beyond [56.29231194002407]
本稿では,主流生成型AIモデルに対する連続学習手法の総合的な調査を行う。
これらのアプローチをアーキテクチャベース、正規化ベース、リプレイベースという3つのパラダイムに分類する。
我々は、トレーニング目標、ベンチマーク、コアバックボーンを含む、異なる生成モデルに対する連続的な学習設定を分析する。
論文 参考訳(メタデータ) (2025-06-16T02:27:25Z) - Vision Transformers in Precision Agriculture: A Comprehensive Survey [3.156133122658662]
ビジョントランスフォーマー(ViT)は、長距離依存の処理の改善や視覚タスクのスケーラビリティ向上といった利点を提供する。
本研究は、CNNとViTの比較分析と、ハイブリッドモデルとパフォーマンス改善のレビューを含む。
論文 参考訳(メタデータ) (2025-04-30T14:50:02Z) - Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook [85.43403500874889]
Retrieval-augmented Generation (RAG) は人工知能(AI)において重要な技術である。
具体化されたAIのためのRAGの最近の進歩は、特に計画、タスク実行、マルチモーダル知覚、インタラクション、特殊ドメインの応用に焦点を当てている。
論文 参考訳(メタデータ) (2025-03-23T10:33:28Z) - A Survey of Model Architectures in Information Retrieval [59.61734783818073]
2019年から現在までの期間は、情報検索(IR)と自然言語処理(NLP)における最大のパラダイムシフトの1つとなっている。
従来の用語ベースの手法から現代のニューラルアプローチまで,特にトランスフォーマーベースのモデルとそれに続く大規模言語モデル(LLM)の影響が注目されている。
今後の課題と今後の方向性について、先見的な議論で締めくくります。
論文 参考訳(メタデータ) (2025-02-20T18:42:58Z) - Interactive Visual Assessment for Text-to-Image Generation Models [28.526897072724662]
生成モデルのための動的インタラクティブビジュアルアセスメントフレームワークDyEvalを提案する。
DyEvalは直感的なビジュアルインターフェースを備えており、ユーザーは対話的にモデルの振る舞いを探索し分析することができる。
我々のフレームワークは、生成モデルを改善するための貴重な洞察を提供し、視覚生成システムの信頼性と能力を向上するための幅広い意味を持つ。
論文 参考訳(メタデータ) (2024-11-23T10:06:18Z) - Vision Foundation Models in Remote Sensing: A Survey [6.036426846159163]
ファンデーションモデルは、前例のない精度と効率で幅広いタスクを実行することができる大規模で事前訓練されたAIモデルである。
本調査は, 遠隔センシングにおける基礎モデルの開発と応用を継続するために, 進展のパノラマと将来性のある経路を提供することによって, 研究者や実践者の資源として機能することを目的としている。
論文 参考訳(メタデータ) (2024-08-06T22:39:34Z) - Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。
また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文 参考訳(メタデータ) (2024-05-13T14:44:22Z) - Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation [30.245348014602577]
本稿では,テキストからの映像生成の進化について論じる。まずMNISTの数値をアニメーション化し,ソラで物理世界をシミュレートする。
Soraが生成するビデオの欠点に関するレビューでは、ビデオ生成の様々な実現可能な側面において、より深い研究を求める声が浮き彫りになっている。
テキスト・ビデオ・ジェネレーションの研究は、まだ初期段階であり、学際的な研究コミュニティからの貢献が必要であると結論付けている。
論文 参考訳(メタデータ) (2024-03-08T07:58:13Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。