論文の概要: Bridging Your Imagination with Audio-Video Generation via a Unified Director
- arxiv url: http://arxiv.org/abs/2512.23222v1
- Date: Mon, 29 Dec 2025 05:56:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.416866
- Title: Bridging Your Imagination with Audio-Video Generation via a Unified Director
- Title(参考訳): ImaginationをオーディオビデオでブリッジするUnified Director
- Authors: Jiaxu Zhang, Tianshu Hu, Yuan Zhang, Zenan Li, Linjie Luo, Guosheng Lin, Xin Chen,
- Abstract要約: 論理的推論と想像的思考はどちらも映画監督の基本的特性であると主張する。
ユーザプロンプトを適切に構造化されたスクリプトでブリッジする統合ディレクタモデルUniMAGEを提案する。
- 参考スコア(独自算出の注目度): 54.45375287950375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing AI-driven video creation systems typically treat script drafting and key-shot design as two disjoint tasks: the former relies on large language models, while the latter depends on image generation models. We argue that these two tasks should be unified within a single framework, as logical reasoning and imaginative thinking are both fundamental qualities of a film director. In this work, we propose UniMAGE, a unified director model that bridges user prompts with well-structured scripts, thereby empowering non-experts to produce long-context, multi-shot films by leveraging existing audio-video generation models. To achieve this, we employ the Mixture-of-Transformers architecture that unifies text and image generation. To further enhance narrative logic and keyframe consistency, we introduce a ``first interleaving, then disentangling'' training paradigm. Specifically, we first perform Interleaved Concept Learning, which utilizes interleaved text-image data to foster the model's deeper understanding and imaginative interpretation of scripts. We then conduct Disentangled Expert Learning, which decouples script writing from keyframe generation, enabling greater flexibility and creativity in storytelling. Extensive experiments demonstrate that UniMAGE achieves state-of-the-art performance among open-source models, generating logically coherent video scripts and visually consistent keyframe images.
- Abstract(参考訳): 既存のAI駆動のビデオ生成システムは、スクリプトのドラフトとキーショット設計を2つの相容れないタスクとして扱うのが一般的である。
この2つの課題は、論理的推論と想像的思考の両方が映画監督の基本的特性であるので、一つの枠組みで統一されるべきである、と我々は主張する。
そこで本研究では,UniMAGEを提案する。UniMAGEは,ユーザのプロンプトを十分に構造化されたスクリプトでブリッジする統合ディレクタモデルである。
そこで本研究では,テキストと画像生成を統一するMixture-of-Transformersアーキテクチャを用いる。
ナラティブロジックとキーフレームの一貫性をさらに向上するため,まず最初にインターリーブを行い,次にディエンタングする'トレーニングパラダイムを導入する。
具体的には、インターリーブド・コンセプト・ラーニング(Interleaved Concept Learning)を行い、インターリーブド・テキストイメージデータを用いて、モデルによるスクリプトの深い理解と想像的な解釈を促進する。
次に、Distangled Expert Learningを実施します。これは、スクリプトをキーフレーム生成から切り離し、ストーリーテリングの柔軟性と創造性を向上します。
大規模な実験により、UniMAGEはオープンソースモデル間で最先端のパフォーマンスを実現し、論理的に一貫性のあるビデオスクリプトと視覚的に一貫性のあるキーフレーム画像を生成する。
関連論文リスト
- OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory [47.073128448877775]
我々は,一貫した,スケーラブルな物語生成のためのグローバルかつコンパクトなクロスショットコンテキストモデリングを実現するOneStoryを提案する。
OneStoryは、MSVを次のショット生成タスクとして再構成し、トレーニング済みのイメージ・ツー・ビデオ(I2V)モデルを活用しながら、自己回帰的なショット合成を可能にする。
OneStoryは、テキストと画像条件の両方の設定において、多種多様な複雑なシーンにまたがる最先端の物語コヒーレンスを実現する。
論文 参考訳(メタデータ) (2025-12-08T18:32:24Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [76.3175166538482]
VideoGen-of-Thought(VGoT)は、単一の文から複数ショットのビデオ合成を自動化するステップバイステップのフレームワークである。
VGoTは、ナラティブな断片化、視覚的不整合、トランジションアーティファクトの3つの課題に対処する。
トレーニング不要のパイプラインで組み合わせられたVGoTは、ショット内面の一貫性が20.4%、スタイルの一貫性が17.4%向上した。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - MovieFactory: Automatic Movie Creation from Text using Large Generative
Models for Language and Images [92.13079696503803]
映画制作のためのフレームワークであるMovieFactory(3072$times$1280)、映画スタイル(マルチシーン)、マルチモーダル(サウンド)映画について紹介する。
本手法は,簡単なテキスト入力を用いて,スムーズなトランジションでキャプティベーション映画を制作することを可能にする。
論文 参考訳(メタデータ) (2023-06-12T17:31:23Z) - DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T17:57:09Z) - In-Context Learning Unlocked for Diffusion Models [163.54453915874402]
本稿では,拡散に基づく生成モデルにおいて,文脈内学習を可能にするフレームワークであるPrompt Diffusionを提案する。
本稿では,幅広い視覚言語タスクをモデル化可能な視覚言語プロンプトと,それを入力とする拡散モデルを提案する。
結果として得られるPrompt Diffusionモデルは、文脈内学習が可能な初めての拡散に基づく視覚言語基礎モデルである。
論文 参考訳(メタデータ) (2023-05-01T23:03:37Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。