論文の概要: Control-DINO: Feature Space Conditioning for Controllable Image-to-Video Diffusion
- arxiv url: http://arxiv.org/abs/2604.01761v1
- Date: Thu, 02 Apr 2026 08:27:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.612449
- Title: Control-DINO: Feature Space Conditioning for Controllable Image-to-Video Diffusion
- Title(参考訳): Control-DINO:制御可能な画像-映像拡散のための特徴空間条件
- Authors: Edoardo A. Dominici, Thomas Deixelberger, Konstantinos Vardis, Markus Steinberger,
- Abstract要約: 他の機能から外観を分離する軽量なアーキテクチャとトレーニング戦略を導入します。
空間分解能の低い空間分解能は高次元で補うことができ、空間表現から生成的レンダリングの制御性が向上することを示す。
- 参考スコア(独自算出の注目度): 4.4853338999399375
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video models have recently been applied with success to problems in content generation, novel view synthesis, and, more broadly, world simulation. Many applications in generation and transfer rely on conditioning these models, typically through perceptual, geometric, or simple semantic signals, fundamentally using them as generative renderers. At the same time, high-dimensional features obtained from large-scale self-supervised learning on images or point clouds are increasingly used as a general-purpose interface for vision models. The connection between the two has been explored for subject specific editing, aligning and training video diffusion models, but not in the role of a more general conditioning signal for pretrained video diffusion models. Features obtained through self-supervised learning like DINO, contain a lot of entangled information about style, lighting and semantics of the scene. This makes them great at reconstruction tasks but limits their generative capabilities. In this paper, we show how we can use the features for tasks such as video domain transfer and video-from-3D generation. We introduce a lightweight architecture and training strategy that decouples appearance from other features that we wish to preserve, enabling robust control for appearance changes such as stylization and relighting. Furthermore, we show that low spatial resolution can be compensated by higher feature dimensionality, improving controllability in generative rendering from explicit spatial representations.
- Abstract(参考訳): ビデオモデルは、コンテンツ生成、新しいビュー合成、そしてより広範に世界シミュレーションにおける問題に成功するために最近応用されている。
生成および転送における多くのアプリケーションは、一般的に知覚的、幾何学的、あるいは単純な意味的な信号を通じて、これらのモデルを条件付けすることに依存し、基本的には生成的レンダラーとして使用する。
同時に、画像や点雲における大規模自己教師型学習から得られる高次元特徴は、視覚モデルのための汎用インターフェースとして、ますます多く利用されている。
この2つの関係は、ビデオ拡散モデルの編集、調整、訓練のために検討されてきたが、事前訓練されたビデオ拡散モデルに対するより一般的な条件付け信号の役割は果たさない。
DINOのような自己教師型学習によって得られた特徴には、シーンのスタイル、照明、セマンティクスに関する多くの絡み合った情報が含まれている。
これにより、再構築作業に優れるが、生成能力は制限される。
本稿では,ビデオドメイン転送や3D映像生成などのタスクに,これらの機能をどのように利用できるかを示す。
我々は、外観を保存したい他の特徴と切り離す軽量なアーキテクチャとトレーニング戦略を導入し、スタイリゼーションやリライトといった外観変化の堅牢な制御を可能にします。
さらに,低空間分解能は高次元で補うことができ,空間表現から生成的レンダリングの制御性が向上することを示した。
関連論文リスト
- Moaw: Unleashing Motion Awareness for Video Diffusion Models [71.34328578845721]
Moawは動画拡散モデルのための動き認識を解放するフレームワークである。
我々は、映像から映像へのモダリティを、映像から映像への追跡へとシフトさせ、運動知覚のための拡散モデルを訓練する。
次に、最強の動作情報をエンコードする特徴を識別する動きラベル付きデータセットを構築し、それらを構造的に同一の映像生成モデルに注入する。
論文 参考訳(メタデータ) (2026-01-19T06:45:46Z) - From Generation to Generalization: Emergent Few-Shot Learning in Video Diffusion Models [65.0487600936788]
ビデオ拡散モデル(VDM)は高品質なコンテンツを合成できる強力な生成ツールとして登場した。
我々は、VDMが自然に構造化された表現を探索し、視覚世界を暗黙的に理解することを主張する。
提案手法は,各タスクを視覚遷移に変換し,短い入力シーケンス上でLoRA重みのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-06-08T20:52:34Z) - Dimension-Reduction Attack! Video Generative Models are Experts on Controllable Image Synthesis [12.160537328404622]
textttDRA-Ctrlはリソース集約型ビデオモデルの再利用に関する新たな洞察を提供する。
textttDRA-Ctrlは、視覚的モダリティにまたがる将来の統一された生成モデルの基礎を築いている。
論文 参考訳(メタデータ) (2025-05-29T10:34:45Z) - GenLit: Reformulating Single-Image Relighting as Video Generation [42.0880277180892]
我々は、映像生成モデルに光操作を行うためのグラフィックスエンジンの能力を蒸留するフレームワークであるGenLitを紹介する。
小さな合成データセットのみに微調整されたモデルが現実世界のシーンに一般化されることが分かりました。
論文 参考訳(メタデータ) (2024-12-15T15:40:40Z) - Moonshot: Towards Controllable Video Generation and Editing with
Multimodal Conditions [94.03133100056372]
Moonshotは、画像とテキストのマルチモーダル入力を同時に処理する新しいビデオ生成モデルである。
モデルは、パーソナライズされたビデオ生成、画像アニメーション、ビデオ編集など、様々な生成アプリケーションに容易に再利用できる。
論文 参考訳(メタデータ) (2024-01-03T16:43:47Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - StyleVideoGAN: A Temporal Generative Model using a Pretrained StyleGAN [70.31913835035206]
本稿では,映像合成問題に対する新しいアプローチを提案する。
トレーニング済みのStyleGANネットワークを利用することで、トレーニング対象の外観を制御できます。
我々の時間的アーキテクチャは、RGBフレームのシーケンスではなく、StyleGANの潜在符号のシーケンスに基づいて訓練される。
論文 参考訳(メタデータ) (2021-07-15T09:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。