論文の概要: CogOmniControl: Reasoning-Driven Controllable Video Generation via Creative Intent Cognition
- arxiv url: http://arxiv.org/abs/2605.19995v1
- Date: Tue, 19 May 2026 15:29:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.487539
- Title: CogOmniControl: Reasoning-Driven Controllable Video Generation via Creative Intent Cognition
- Title(参考訳): CogOmniControl:創造的意図認識による推論駆動制御可能なビデオ生成
- Authors: Hongji Yang, Songlian Li, Yucheng Zhou, Xiaotong Zhao, Alan Zhao, Chengzhong Xu, Jianbing Shen,
- Abstract要約: 我々は、制御可能なビデオ生成を創造的な意図認識と生成に分解する推論駆動フレームワークであるCag OmniControlを紹介する。
具体的には,アニメ制作データを用いて,特殊なCagVLMを訓練する。
一般的なVLMと比較すると、よりプロ的で明確な出力を生成し、スパースや抽象的な条件からユーザの創造的意図を正確に認識する。
- 参考スコア(独自算出の注目度): 64.38611644311136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent diffusion models achieve strong photorealism and fluency in video generation, yet remain fragile under abstract, sparse or complex conditions, leading to poor performance in professional production workflows such as storyboard sketches and clay render conditions. Existing video generation models, either inject conditions through adapters or couple a generic vision-language model (VLM) within a diffusion backbone, leaving a capability gap and failing to produce the videos that align with the user's creative intent. We present CogOmniControl, a reasoning-driven framework that factorizes controllable video generation into creative intent cognition and generation. Specifically, we train a specialized CogVLM using authentic anime production data. Compared to generic VLMs, it generates more professional and clear outputs, accurately cognizing user creative intent from sparse and abstract conditions and tuning these cues into dense reasoning output. Besides, CogOmniDiT unifies the controls from various conditions through in-context generation and is aligned to the CogVLM reasoning outputs via reinforcement learning. Furthermore, leveraging CogVLM's robust capability in guiding video generation, we release its potential in planning specific evaluators and enable a Best-of-N selection for the generated videos. This integration transforms the entire framework into a closed-loop "harness-like" architecture. We further introduce CogReasonBench and CogControlBench, built from professional workflows data that carry genuine creative intent rather than simulated ones. Experiments on two benchmarks show that CogOmniControl surpassed the existing open-source models. The project website: https://um-lab.github.io/CogOmniControl/
- Abstract(参考訳): 最近の拡散モデルは、ビデオ生成において強力なフォトリアリズムと流布性を達成するが、抽象的、疎らか、複雑な条件下では脆弱であり、ストーリーボードスケッチや粘土のレンダリング条件のようなプロのプロダクションワークフローでは性能が低下する。
既存のビデオ生成モデルでは、アダプタを介して条件を注入するか、拡散バックボーン内に汎用視覚言語モデル(VLM)を結合するかのいずれかで、機能的なギャップを残し、ユーザの創造的な意図に沿ったビデオを生成することができない。
我々は、制御可能なビデオ生成を創造的な意図認識と生成に分解する推論駆動フレームワークであるCagOmniControlを紹介する。
具体的には,アニメ制作データを用いて,特殊なCagVLMを訓練する。
一般的なVLMと比較すると、より専門的で明確な出力を生成し、スパースや抽象的な条件からユーザの創造的意図を正確に認識し、これらのキューを高密度な推論出力にチューニングする。
さらに、CogOmniDiTはコンテキスト内生成を通じて様々な条件から制御を統一し、強化学習を通じてCagVLM推論出力に整合する。
さらに,ビデオ生成におけるCogVLMのロバストな能力を活用して,特定の評価指標を計画し,生成したビデオのベスト・オブ・N選択を可能にする可能性を公開する。
この統合により、フレームワーク全体がクローズドループの"ハーネスのような"アーキテクチャに変換される。
さらにCagReasonBenchとCagControlBenchを紹介します。
2つのベンチマークの実験は、CagOmniControlが既存のオープンソースモデルを上回ったことを示している。
プロジェクトのWebサイト: https://um-lab.github.io/CogOmniControl/
関連論文リスト
- VDOT: Efficient Unified Video Creation via Optimal Transport Distillation [70.02065520468726]
本稿では,VDOT という名前の効率的な統合ビデオ生成モデルを提案する。
我々は,実測値分布と偽測値分布の差分を最適化するために,新しい計算最適輸送(OT)技術を用いる。
統合ビデオ生成モデルの訓練を支援するため,ビデオデータアノテーションとフィルタリングのための完全自動パイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-07T11:31:00Z) - Controllable Video Generation: A Survey [72.38313362192784]
本稿では、制御可能なビデオ生成の体系的レビューを行い、理論的基礎と最近の現場の進歩の両方について述べる。
まず、主要な概念を導入し、一般的に使われているオープンソースビデオ生成モデルを紹介します。
次に、映像拡散モデルにおける制御機構に着目し、生成を誘導する認知過程に異なる種類の条件を組み込む方法について分析する。
論文 参考訳(メタデータ) (2025-07-22T06:05:34Z) - BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations [82.94002870060045]
既存のビデオ生成モデルは、複雑なテキストプロンプトに従い、複数のオブジェクトを合成するのに苦労する。
我々は,BlobGEN-Vidというブロブグラウンドビデオ拡散モデルを開発し,ユーザがオブジェクトの動きを制御し,細かいオブジェクトの外観を制御できるようにする。
U-NetとDiTをベースとした動画拡散モデルに基づいてBlobGEN-Vidを構築する。
論文 参考訳(メタデータ) (2025-01-13T19:17:06Z) - Video Creation by Demonstration [59.389591010842636]
我々は、条件付き将来のフレーム予測によってラベルなしビデオから学習する自己教師型トレーニングアプローチである$delta$-Diffusionを提案する。
映像基盤モデルと外観ボトルネック設計を併用して,実演映像から動作遅延を抽出し,生成プロセスの条件付けを行う。
実証的に、$delta$-Diffusionは人間の好みと大規模マシン評価の両方の観点から、関連するベースラインを上回っている。
論文 参考訳(メタデータ) (2024-12-12T18:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。