論文の概要: Video-T1: Test-Time Scaling for Video Generation
- arxiv url: http://arxiv.org/abs/2503.18942v1
- Date: Mon, 24 Mar 2025 17:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:38:31.657862
- Title: Video-T1: Test-Time Scaling for Video Generation
- Title(参考訳): Video-T1:ビデオ生成のためのテスト時間スケーリング
- Authors: Fangfu Liu, Hanyang Wang, Yimo Cai, Kaiyan Zhang, Xiaohang Zhan, Yueqi Duan,
- Abstract要約: 大規模言語モデル(LLM)の研究者たちは、スケーリングをテスト時間に拡大した。
ビデオ生成モデルが非自明な量の推論時間計算を許せば、挑戦的なテキストプロンプトによって生成品質をどの程度向上できるかという問題に答えることを目指している。
テキスト条件付きビデオ生成ベンチマークの実験では、テスト時間計算の増加がビデオの品質を大幅に向上させることを示した。
- 参考スコア(独自算出の注目度): 19.089876374170167
- License:
- Abstract: With the scale capability of increasing training data, model size, and computational cost, video generation has achieved impressive results in digital creation, enabling users to express creativity across various domains. Recently, researchers in Large Language Models (LLMs) have expanded the scaling to test-time, which can significantly improve LLM performance by using more inference-time computation. Instead of scaling up video foundation models through expensive training costs, we explore the power of Test-Time Scaling (TTS) in video generation, aiming to answer the question: if a video generation model is allowed to use non-trivial amount of inference-time compute, how much can it improve generation quality given a challenging text prompt. In this work, we reinterpret the test-time scaling of video generation as a searching problem to sample better trajectories from Gaussian noise space to the target video distribution. Specifically, we build the search space with test-time verifiers to provide feedback and heuristic algorithms to guide searching process. Given a text prompt, we first explore an intuitive linear search strategy by increasing noise candidates at inference time. As full-step denoising all frames simultaneously requires heavy test-time computation costs, we further design a more efficient TTS method for video generation called Tree-of-Frames (ToF) that adaptively expands and prunes video branches in an autoregressive manner. Extensive experiments on text-conditioned video generation benchmarks demonstrate that increasing test-time compute consistently leads to significant improvements in the quality of videos. Project page: https://liuff19.github.io/Video-T1
- Abstract(参考訳): トレーニングデータ、モデルサイズ、計算コストを増大させるスケール能力により、ビデオ生成はデジタル創造において印象的な成果を上げ、ユーザーは様々な領域で創造性を表現できる。
近年,Large Language Models (LLMs) の研究者は,より推論時間計算を用いることで,LLMの性能を大幅に向上させるため,スケーリングをテスト時間に拡張している。
ビデオファウンデーションモデルを高価なトレーニングコストでスケールアップする代わりに、ビデオ生成におけるテスト時間スケーリング(TTS)のパワーを探求する。
本研究では,ガウス雑音空間から対象映像分布へのより良い軌跡を探索するために,映像生成の時間スケールを探索問題として再解釈する。
具体的には,探索過程をガイドするフィードバックとヒューリスティックなアルゴリズムを提供するテスト時間検証器を用いて探索空間を構築する。
テキストのプロンプトが与えられた場合、まず推測時に雑音候補を増やすことで直感的な線形探索戦略を探索する。
さらに、全フレームを同時にデノベートするには、テスト時間計算のコストがかかるため、自動回帰的にビデオのブランチを適応的に拡張しプーンする、Tree-of-Frames (ToF)と呼ばれるビデオ生成のためのより効率的なTSメソッドを設計する。
テキスト条件付きビデオ生成ベンチマークの大規模な実験は、テスト時間計算の増加がビデオの品質を大幅に向上させることを示した。
プロジェクトページ: https://liuff19.github.io/Video-T1
関連論文リスト
- Reversed in Time: A Novel Temporal-Emphasized Benchmark for Cross-Modal Video-Text Retrieval [56.05621657583251]
クロスモーダル検索(例えば、画像テキスト、ビデオテキスト)は、情報検索およびマルチモーダル視覚言語理解分野において重要なタスクである。
本稿では,新しい時間強調ビデオテキスト検索データセットRTimeを紹介する。
私たちのRTimeデータセットは、現在1ビデオにつき10キャプションの21Kビデオで構成されており、合計で約122時間です。
論文 参考訳(メタデータ) (2024-12-26T11:32:00Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling [85.60543452539076]
既存のビデオ生成モデルは、典型的には限られた数のフレームで訓練されており、推論中に高忠実度長ビデオを生成することができない。
本研究では,複数のテキストに条件付けされた長編ビデオを生成するためのテキスト駆動能力の拡張の可能性について検討する。
我々は,事前学習したビデオ拡散モデルの生成能力を高めるため,チューニング不要かつ時間効率のパラダイムであるFreeNoiseを提案する。
論文 参考訳(メタデータ) (2023-10-23T17:59:58Z) - LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。
具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。
時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文 参考訳(メタデータ) (2023-10-16T19:03:19Z) - A Feature-space Multimodal Data Augmentation Technique for Text-video
Retrieval [16.548016892117083]
近年,テキストビデオ検索手法が注目されている。
データ拡張技術は、目に見えないテスト例のパフォーマンスを向上させるために導入された。
特徴空間で機能し,意味的に類似したサンプルを混合して新しいビデオやキャプションを生成するマルチモーダルデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-08-03T14:05:20Z) - Capturing Temporal Information in a Single Frame: Channel Sampling
Strategies for Action Recognition [19.220288614585147]
計算コストを増大させることなく、2次元ネットワークにおける映像分類のための時間情報をキャプチャする問題に対処する。
そこで我々は,短期的なフレーム・ツー・フレームの変化を捉えるために,入力ビデオのチャネルを並べ替える新しいサンプリング手法を提案する。
我々のサンプリング戦略は、スクラッチからのトレーニングを必要とせず、トレーニングとテストの計算コストを増大させません。
論文 参考訳(メタデータ) (2022-01-25T15:24:37Z) - Video Generation from Text Employing Latent Path Construction for
Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。
本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。
自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文 参考訳(メタデータ) (2021-07-29T06:28:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。