Fugu-MT 論文翻訳(概要): Video Generation Beyond a Single Clip

論文の概要: Video Generation Beyond a Single Clip

arxiv url: http://arxiv.org/abs/2304.07483v1
Date: Sat, 15 Apr 2023 06:17:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-18 18:53:21.778707
Title: Video Generation Beyond a Single Clip
Title（参考訳）: 一つのビデオクリップを超えたビデオ生成
Authors: Hsin-Ping Huang, Yu-Chuan Su, Ming-Hsuan Yang
Abstract要約: ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
参考スコア（独自算出の注目度）: 76.5306434379088
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We tackle the long video generation problem, i.e.~generating videos beyond the output length of video generation models. Due to the computation resource constraints, video generation models can only generate video clips that are relatively short compared with the length of real videos. Existing works apply a sliding window approach to generate long videos at inference time, which is often limited to generating recurrent events or homogeneous content. To generate long videos covering diverse content and multiple events, we propose to use additional guidance to control the video generation process. We further present a two-stage approach to the problem, which allows us to utilize existing video generation models to generate high-quality videos within a small time window while modeling the video holistically based on the input guidance. The proposed approach is complementary to existing efforts on video generation, which focus on generating realistic video within a fixed time window. Extensive experiments on challenging real-world videos validate the benefit of the proposed method, which improves over state-of-the-art by up to 9.5% in objective metrics and is preferred by users more than 80% of time.
Abstract（参考訳）: 我々は、ビデオ生成モデルの出力長を超えるビデオの生成という長大な問題に取り組む。計算資源の制約により、ビデオ生成モデルは実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。既存の作業では、リカレントイベントや同種コンテンツの生成に制限される長いビデオを推論時に生成するためのスライディングウィンドウアプローチを採用している。多様なコンテンツやイベントをカバーする長編ビデオを生成するために,動画生成プロセスを制御するための追加ガイダンスを提案する。さらに,この問題に対する2段階のアプローチを提案することで,既存の映像生成モデルを用いて,入力指導に基づいて映像をモデル化しながら,短時間で高品質な映像を生成できる。提案手法は,固定時間内にリアルな映像を生成することに焦点を当てた映像生成への既存の取り組みを補完するものである。実世界のビデオに挑戦する大規模な実験により、提案手法の利点が検証され、客観的な指標の最大9.5%の改善が達成され、80%以上のユーザが好んでいる。

関連論文リスト

VideoMerge: Towards Training-free Long Video Generation [46.108622251662176]
長いビデオ生成は、コンピュータビジョンにおける挑戦的で魅力的なトピックであり続けている。本稿では,短時間のビデオのマージにシームレスに適応できるトレーニングフリーのVideoMergeを提案する。
論文参考訳（メタデータ） (2025-03-13T00:47:59Z)
FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention [57.651429116402554]
本稿では、一貫した長ビデオ生成のための既存の短ビデオ拡散モデルを拡張するための、単純で訓練のないアプローチについて検討する。短いビデオ拡散モデルを直接適用することで、ビデオの品質が著しく低下することを発見した。そこで本研究では,長い映像の特徴の周波数分布のバランスをとるために,FreeLongという新しい手法を提案する。
論文参考訳（メタデータ） (2024-07-29T11:52:07Z)
Multi-sentence Video Grounding for Long Video Generation [46.363084926441466]
長大映像生成のための多文ビデオグラウンドの勇敢で新しいアイデアを提案する。提案手法は,画像・ビデオ編集,ビデオモーフィング,パーソナライズド生成,ビデオグラウンドニングの発達を,長いビデオ生成にシームレスに拡張する。
論文参考訳（メタデータ） (2024-07-18T07:05:05Z)
ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning [36.378348127629195]
ビデオ合成モデルのための新しいポストチューニング手法であるExVideoを提案する。このアプローチは、現在のビデオ合成モデルの能力を向上し、時間的長期にわたってコンテンツを制作できるように設計されている。当社のアプローチでは、40Kビデオからなるデータセット上でのトレーニングに15kのGPU時間しか必要とせず、オリジナルのフレーム数に対して最大5倍の価格で生成可能なモデル容量を拡大しています。
論文参考訳（メタデータ） (2024-06-20T09:18:54Z)
SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文参考訳（メタデータ） (2023-10-31T17:58:17Z)
Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文参考訳（メタデータ） (2023-09-20T18:13:32Z)
Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising [43.35391175319815]
本研究では,複数テキスト条件付き長編ビデオの生成と編集にテキスト駆動能力を拡張する可能性について検討する。我々は,市販のビデオ拡散モデルの拡張が可能なGen-L-Videoという新しいパラダイムを導入する。実験結果から,本手法は映像拡散モデルの生成・編集能力を著しく拡張することが明らかとなった。
論文参考訳（メタデータ） (2023-05-29T17:38:18Z)
Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文参考訳（メタデータ） (2022-11-23T18:58:39Z)
Diverse Generation from a Single Video Made Possible [24.39972895902724]
本稿では,1つの自然なビデオから映像を生成し,操作するための高速で実用的な方法を提案する。本手法は,シングルビデオGANよりもリアルで高品質な結果を生成する。
論文参考訳（メタデータ） (2021-09-17T15:12:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。