論文の概要: ACD: Direct Conditional Control for Video Diffusion Models via Attention Supervision
- arxiv url: http://arxiv.org/abs/2512.21268v1
- Date: Wed, 24 Dec 2025 16:24:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.82925
- Title: ACD: Direct Conditional Control for Video Diffusion Models via Attention Supervision
- Title(参考訳): ACD:注意監督によるビデオ拡散モデルの直接条件制御
- Authors: Weiqi Li, Zehao Zhang, Liang Lin, Guangrun Wang,
- Abstract要約: 本稿では,注意監督による映像拡散モデルにおける直接条件制御のためのフレームワークである,注意継続拡散(Attention-Conditional Diffusion)を提案する。
ACDは、モデルの注意マップと外部制御信号との整列により、より良い制御性を実現する。
ベンチマークビデオ生成データセットの実験は、ACDがコンディショニング入力と優れたアライメントを提供することを示した。
- 参考スコア(独自算出の注目度): 62.41380823195191
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllability is a fundamental requirement in video synthesis, where accurate alignment with conditioning signals is essential. Existing classifier-free guidance methods typically achieve conditioning indirectly by modeling the joint distribution of data and conditions, which often results in limited controllability over the specified conditions. Classifier-based guidance enforces conditions through an external classifier, but the model may exploit this mechanism to raise the classifier score without genuinely satisfying the intended condition, resulting in adversarial artifacts and limited effective controllability. In this paper, we propose Attention-Conditional Diffusion (ACD), a novel framework for direct conditional control in video diffusion models via attention supervision. By aligning the model's attention maps with external control signals, ACD achieves better controllability. To support this, we introduce a sparse 3D-aware object layout as an efficient conditioning signal, along with a dedicated Layout ControlNet and an automated annotation pipeline for scalable layout integration. Extensive experiments on benchmark video generation datasets demonstrate that ACD delivers superior alignment with conditioning inputs while preserving temporal coherence and visual fidelity, establishing an effective paradigm for conditional video synthesis.
- Abstract(参考訳): コンディショニング信号との正確なアライメントが不可欠であるビデオ合成において、制御性は基本的な要件である。
既存の分類器なし指導法は、データと条件の連成分布をモデル化することで間接的に条件付けを行うのが一般的であり、しばしば指定された条件に対して限定的な制御性をもたらす。
分類器に基づくガイダンスは、外部分類器を通して条件を強制するが、このモデルは、意図した条件を真に満たさずに分類器のスコアを上げるためにこのメカニズムを利用することができる。
本稿では,注意監督による映像拡散モデルにおける直接条件制御のための新しいフレームワークであるACD(Attention-Conditional Diffusion)を提案する。
モデルのアテンションマップを外部制御信号と整合させることで、ACDはより良い制御性を実現する。
これをサポートするために,効率的な条件付け信号としてスパース3D対応オブジェクトレイアウトを導入し,専用のLayout ControlNetと,スケーラブルなレイアウト統合のための自動アノテーションパイプラインを構築した。
ベンチマークビデオ生成データセットの大規模な実験により、ACDは時間的コヒーレンスと視覚的忠実さを保ちながら、条件付き入力との整合性を向上し、条件付きビデオ合成の効果的なパラダイムを確立した。
関連論文リスト
- $\mathcal{E}_0$: Enhancing Generalization and Fine-Grained Control in VLA Models via Continuized Discrete Diffusion [65.77755100137728]
本稿では、量子化されたアクショントークンを反復的にデノケーションするアクション生成を定式化する、連続的な離散拡散フレームワークであるE0を紹介する。
E0は14の多様な環境において最先端のパフォーマンスを達成し、平均して10.7%強のベースラインを達成している。
論文 参考訳(メタデータ) (2025-11-26T16:14:20Z) - ScaleWeaver: Weaving Efficient Controllable T2I Generation with Multi-Scale Reference Attention [86.93601565563954]
ScaleWeaverは、高度な視覚的自己回帰(VAR)モデルに基づいて、高忠実で制御可能な生成を実現するために設計されたフレームワークである。
提案された参照注意モジュールは image$rightarrow$condition から不要な注意を排除し、計算コストを削減している。
実験によると、ScaleWeaverは、拡散ベースの方法よりも優れた効率を実現しつつ、高品質な生成と正確な制御を提供する。
論文 参考訳(メタデータ) (2025-10-16T17:00:59Z) - DivControl: Knowledge Diversion for Controllable Image Generation [38.166949036830886]
DivControlは、統合制御可能な生成のための分解可能な事前トレーニングフレームワークである。
最先端の制御性を36.4$timesのトレーニングコストで実現している。
また、目に見えない条件で強力なゼロショットと少数ショットのパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-07-31T15:00:15Z) - SCALAR: Scale-wise Controllable Visual Autoregressive Learning [15.775596699630633]
視覚自己回帰(VAR)に基づく制御可能な生成法であるSCALARを提案する。
予め訓練された画像エンコーダを用いて意味制御信号の符号化を抽出し,VARバックボーンの対応する層に注入する。
SCALAR上に構築したSCALAR-Uniは,複数の制御モダリティを共有潜在空間に整合させる統合拡張であり,単一のモデルで柔軟なマルチ条件ガイダンスをサポートする。
論文 参考訳(メタデータ) (2025-07-26T13:23:08Z) - Enabling Versatile Controls for Video Diffusion Models [18.131652071161266]
VCtrlは、事前訓練されたビデオ拡散モデルのきめ細かい制御を可能にするように設計された新しいフレームワークである。
総合的な実験と人的評価により、VCtrlは制御性と生成品質を効果的に向上させる。
論文 参考訳(メタデータ) (2025-03-21T09:48:00Z) - Constraint Guided AutoEncoders for Joint Optimization of Condition Indicator Estimation and Anomaly Detection in Machine Condition Monitoring [0.0]
この研究は、ADとCIの見積の両方に使用できる単一のモデルの構築を可能にするConstraint Guided AutoEncoders(CGAE)の拡張を提案する。
改善されたCI推定のために、拡張には、モデルを時間とともに単調に増加するCI予測に強制する制約が組み込まれている。
実験の結果,提案アルゴリズムは,CIの単調な挙動を改善しつつ,ADに関してCGAEと似ているか,少し良く動作することがわかった。
論文 参考訳(メタデータ) (2024-09-18T08:48:54Z) - ControlVAR: Exploring Controllable Visual Autoregressive Modeling [48.66209303617063]
拡散モデル(DM)の出現により、条件付き視覚発生は顕著に進展した。
高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。
本稿では,フレキシブルかつ効率的な条件生成のための視覚自己回帰モデリングにおける画素レベル制御を探求する新しいフレームワークであるControlmoreを紹介する。
論文 参考訳(メタデータ) (2024-06-14T06:35:33Z) - ECNet: Effective Controllable Text-to-Image Diffusion Models [31.21525123716149]
本稿では,条件付きテキスト・ツー・イメージモデルに対する2つの革新的なソリューションを提案する。
まず,テキスト入力を正確なアノテーション情報で符号化することで,条件の詳細性を高める空間ガイダンス(SGI)を提案する。
第二に、条件付き監督の制限を克服するため、拡散整合損失を導入する。
これにより、各ステップにおける潜時符号と入力信号との一貫性が促進され、出力の堅牢性と精度が向上する。
論文 参考訳(メタデータ) (2024-03-27T10:09:38Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。