論文の概要: Compositional Video Generation via Inference-Time Guidance
- arxiv url: http://arxiv.org/abs/2605.14988v1
- Date: Thu, 14 May 2026 15:50:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.925257
- Title: Compositional Video Generation via Inference-Time Guidance
- Title(参考訳): 推論時間誘導による合成映像生成
- Authors: Ariel Shaulov, Eitan Shaar, Amit Edenzon, Gal Chechik, Lior Wolf,
- Abstract要約: テキストからビデオへの拡散モデルは、しばしば構成的理解を必要とするプロンプトで失敗する。
凍結したテキスト・ビデオモデルにおける合成忠実度を改善するための推定時間誘導法であるtextbfCVG を提案する。
- 参考スコア(独自算出の注目度): 69.53614395025632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-video diffusion models generate realistic videos, but often fail on prompts requiring fine-grained compositional understanding, such as relations between entities, attributes, actions, and motion directions. We hypothesize that these failures need not be addressed by retraining the generator, but can instead be mitigated by steering the denoising process using the model's own internal grounding signals. We propose \textbf{CVG}, an inference-time guidance method for improving compositional faithfulness in frozen text-to-video models. Our key observation is that cross-attention maps already encode how prompt concepts are grounded across space and time. We train a lightweight compositional classifier on these attention features and use its gradients during early denoising steps to steer the latent trajectory toward the desired composition. Built on a frozen VLM backbone, the classifier transfers across semantically related composition labels rather than relying only on narrow category-specific features. CVG improves compositional generation without modifying the model architecture, fine-tuning the generator, or requiring layouts, boxes, or other user-supplied controls. Experiments on compositional text-to-video benchmarks show improved prompt faithfulness while preserving the visual quality of the underlying generator.
- Abstract(参考訳): テキストとビデオの拡散モデルはリアルなビデオを生成するが、しばしば実体、属性、アクション、動き方向の関係のような細かい構成的理解を必要とするプロンプトで失敗する。
我々は、これらの障害はジェネレータを再訓練することで対処する必要はなく、代わりにモデルの内部接地信号を用いてデノナイジングプロセスを操ることで軽減できると仮定する。
凍結したテキスト・ビデオモデルにおける合成忠実度を改善するための推論時指導法である「textbf{CVG}」を提案する。
私たちのキーとなる観察は、クロスアテンションマップが、空間と時間にまたがる迅速な概念を、すでにエンコードしていることです。
本研究は,これらの特徴に基づいて軽量な合成分類器を訓練し,初期認知段階における勾配を利用して,所望の組成に対して潜時軌道を操る。
冷凍されたVLMバックボーン上に構築された分類器は、狭いカテゴリ固有の特徴にのみ依存するのではなく、意味的に関連する合成ラベル間で転送される。
CVGは、モデルアーキテクチャを変更したり、ジェネレータを微調整したり、レイアウトやボックス、その他のユーザからの制御を必要とすることなく、構成生成を改善する。
合成テキスト・ビデオベンチマークの実験では、基礎となるジェネレータの視覚的品質を保ちながら、即時忠実性が改善された。
関連論文リスト
- SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing [76.349958946335]
本稿では,映像編集をセマンティックアンカーとモーションモデリングに分解するフレームワークであるSAMA(factorized Semantic Anchoring and Motion Alignment)を提案する。
まずセマンティックアンカリング(Semantic Anchoring)を導入し、スパースアンカフレームでのセマンティックトークンとビデオ潜在者を共同で予測することで、信頼性の高い視覚アンカを確立する。
第2に、モーションアライメントは同じバックボーンをモーション中心のビデオ復元のプリテキストタスクで事前トレーニングする。
論文 参考訳(メタデータ) (2026-03-19T17:59:51Z) - AlcheMinT: Fine-grained Temporal Control for Multi-Reference Consistent Video Generation [58.844504598618094]
本稿では、被験者駆動ビデオ生成のための明示的なタイムスタンプ条件付きフレームワークAlcheMinTを提案する。
提案手法では,時間間隔の符号化を解き放つ新しい位置符号化機構を導入する。
我々は、視覚的アイデンティティとビデオキャプションの結合を強化するために、主観記述型テキストトークンを導入し、世代間あいまいさを緩和する。
論文 参考訳(メタデータ) (2025-12-11T18:59:34Z) - APLA: Additional Perturbation for Latent Noise with Adversarial Training Enables Consistency [9.07931905323022]
拡散モデルに基づく新しいテキスト・ツー・ビデオ(T2V)生成ネットワーク構造を提案する。
提案手法では,1本の動画を入力として必要とせず,事前学習した安定拡散ネットワーク上に構築する。
我々は、変換器と畳み込みのハイブリッドアーキテクチャを活用して、時間的複雑さを補償し、ビデオ内の異なるフレーム間の一貫性を向上させる。
論文 参考訳(メタデータ) (2023-08-24T07:11:00Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。