Fugu-MT 論文翻訳(概要): DreamFactory: Pioneering Multi-Scene Long Video Generation with a Multi-Agent Framework

論文の概要: DreamFactory: Pioneering Multi-Scene Long Video Generation with a Multi-Agent Framework

arxiv url: http://arxiv.org/abs/2408.11788v1
Date: Wed, 21 Aug 2024 17:21:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-22 16:08:22.540031
Title: DreamFactory: Pioneering Multi-Scene Long Video Generation with a Multi-Agent Framework
Title（参考訳）: DreamFactory:マルチエージェントフレームワークによるマルチシーンロングビデオ生成のパイオニア化
Authors: Zhifei Xie, Daniel Tang, Dingwei Tan, Jacques Klein, Tegawend F. Bissyand, Saad Ezzini,
Abstract要約: textttDreamFactoryは長く、スタイリッシュに一貫性があり、複雑なビデオを生成する。本稿では,クロスシーン顔距離スコアやクロスシーンスタイル一貫性スコアなどの新しい指標を提案する。
参考スコア（独自算出の注目度）: 5.16336961728007
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current video generation models excel at creating short, realistic clips, but struggle with longer, multi-scene videos. We introduce \texttt{DreamFactory}, an LLM-based framework that tackles this challenge. \texttt{DreamFactory} leverages multi-agent collaboration principles and a Key Frames Iteration Design Method to ensure consistency and style across long videos. It utilizes Chain of Thought (COT) to address uncertainties inherent in large language models. \texttt{DreamFactory} generates long, stylistically coherent, and complex videos. Evaluating these long-form videos presents a challenge. We propose novel metrics such as Cross-Scene Face Distance Score and Cross-Scene Style Consistency Score. To further research in this area, we contribute the Multi-Scene Videos Dataset containing over 150 human-rated videos.
Abstract（参考訳）: 現在のビデオ生成モデルは、短くてリアルなクリップを作るのに優れていますが、より長いマルチシーンビデオで苦労しています。この課題に対処する LLM ベースのフレームワークである \texttt{DreamFactory} を紹介します。 \texttt{DreamFactory}は、マルチエージェントコラボレーションの原則とKey Frames Iteration Design Methodを活用して、長いビデオ間の一貫性とスタイルを保証する。思考の連鎖(COT)を利用して、大きな言語モデルに固有の不確実性に対処する。 \texttt{DreamFactory} は長く、スタイリスティックに一貫性があり、複雑なビデオを生成する。これらの長大なビデオを評価することは難題だ。本稿では,クロスシーン顔距離スコアやクロスシーンスタイル一貫性スコアなどの新しい指標を提案する。この領域のさらなる研究のために,150本以上の人格映像を含むマルチシーン映像データセットを寄贈する。

関連論文リスト

CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance [34.345125922868]
MLLM(Multimodal Large Language Model)を利用したコヒーレントなマルチオブジェクトビデオ生成フレームワークCINEMAを提案する。提案手法では,対象画像とテキストエンティティとの明示的な対応の必要性を排除し,曖昧さを軽減し,アノテーションの労力を削減する。当社のフレームワークはさまざまな主題に適応でき、パーソナライズされたコンテンツ作成の柔軟性が向上する。
論文参考訳（メタデータ） (2025-03-13T14:07:58Z)
Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation [16.80010133425332]
長距離コヒーレンスとリッチコンテンツを備えた15秒ビデオを生成するために設計された,新しいビデオ拡散モデルであるPrestoを紹介する。 PrestoはVBench Semantic Scoreで78.5%、Dynamic Degreeで100%のスプリットを達成した。
論文参考訳（メタデータ） (2024-12-02T09:32:36Z)
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。 87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文参考訳（メタデータ） (2024-11-25T08:04:47Z)
MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文参考訳（メタデータ） (2024-07-23T17:17:05Z)
Anchored Diffusion for Video Face Reenactment [17.343307538702238]
比較的長くシームレスなビデオを合成するための新しい手法であるAnchored Diffusionを紹介する。我々は、ランダムな非一様時間間隔でビデオシーケンスでモデルを訓練し、外部ガイダンスを介して時間情報を組み込む。推論の際には、トランスフォーマーアーキテクチャを利用して拡散プロセスを修正し、共通のフレームに固定された一様でないシーケンスのバッチを生成する。
論文参考訳（メタデータ） (2024-07-21T13:14:17Z)
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文参考訳（メタデータ） (2024-02-05T16:30:49Z)
VideoDreamer: Customized Multi-Subject Text-to-Video Generation with Disen-Mix Finetuning [47.61090084143284]
VideoDreamerは、複数の被験者の視覚的特徴を忠実に保存する、時間的に一貫したテキスト誘導ビデオを生成することができる。ビデオジェネレータは、提案されたDisen-Mix FinetuningとHuman-in-the-Loop Re-finetuning戦略により、与えられた複数の主題に対してさらにカスタマイズされる。
論文参考訳（メタデータ） (2023-11-02T04:38:50Z)
SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文参考訳（メタデータ） (2023-10-31T17:58:17Z)
VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning [62.51232333352754]
VideoDirectorGPTは、一貫したマルチシーンビデオ生成のための新しいフレームワークである。提案手法は,複数シーンのビデオ生成におけるレイアウトと移動制御を大幅に改善する。
論文参考訳（メタデータ） (2023-09-26T17:36:26Z)
Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文参考訳（メタデータ） (2023-09-20T18:13:32Z)
Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising [43.35391175319815]
本研究では,複数テキスト条件付き長編ビデオの生成と編集にテキスト駆動能力を拡張する可能性について検討する。我々は,市販のビデオ拡散モデルの拡張が可能なGen-L-Videoという新しいパラダイムを導入する。実験結果から,本手法は映像拡散モデルの生成・編集能力を著しく拡張することが明らかとなった。
論文参考訳（メタデータ） (2023-05-29T17:38:18Z)
Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文参考訳（メタデータ） (2023-04-15T06:17:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。