論文の概要: Dimension-Reduction Attack! Video Generative Models are Experts on Controllable Image Synthesis
- arxiv url: http://arxiv.org/abs/2505.23325v1
- Date: Thu, 29 May 2025 10:34:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.813613
- Title: Dimension-Reduction Attack! Video Generative Models are Experts on Controllable Image Synthesis
- Title(参考訳): ディメンション・リダクション・アタック!ビデオ生成モデルは制御可能な画像合成の専門家である
- Authors: Hengyuan Cao, Yutong Feng, Biao Gong, Yijing Tian, Yunhong Lu, Chuang Liu, Bin Wang,
- Abstract要約: textttDRA-Ctrlはリソース集約型ビデオモデルの再利用に関する新たな洞察を提供する。
textttDRA-Ctrlは、視覚的モダリティにまたがる将来の統一された生成モデルの基礎を築いている。
- 参考スコア(独自算出の注目度): 12.160537328404622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generative models can be regarded as world simulators due to their ability to capture dynamic, continuous changes inherent in real-world environments. These models integrate high-dimensional information across visual, temporal, spatial, and causal dimensions, enabling predictions of subjects in various status. A natural and valuable research direction is to explore whether a fully trained video generative model in high-dimensional space can effectively support lower-dimensional tasks such as controllable image generation. In this work, we propose a paradigm for video-to-image knowledge compression and task adaptation, termed \textit{Dimension-Reduction Attack} (\texttt{DRA-Ctrl}), which utilizes the strengths of video models, including long-range context modeling and flatten full-attention, to perform various generation tasks. Specially, to address the challenging gap between continuous video frames and discrete image generation, we introduce a mixup-based transition strategy that ensures smooth adaptation. Moreover, we redesign the attention structure with a tailored masking mechanism to better align text prompts with image-level control. Experiments across diverse image generation tasks, such as subject-driven and spatially conditioned generation, show that repurposed video models outperform those trained directly on images. These results highlight the untapped potential of large-scale video generators for broader visual applications. \texttt{DRA-Ctrl} provides new insights into reusing resource-intensive video models and lays foundation for future unified generative models across visual modalities. The project page is https://dra-ctrl-2025.github.io/DRA-Ctrl/.
- Abstract(参考訳): ビデオ生成モデルは、実世界の環境に固有の動的で連続的な変化を捉える能力から、世界シミュレータと見なすことができる。
これらのモデルは、視覚的、時間的、空間的、因果的な次元にわたる高次元情報を統合し、様々な状態の被験者の予測を可能にする。
自然で価値のある研究の方向性は、高次元空間における十分に訓練されたビデオ生成モデルが、制御可能な画像生成のような低次元タスクを効果的に支援できるかどうかを探ることである。
本研究では、長距離コンテキストモデリングやフラットなフルアテンションを含む映像モデルの強みを活用し、様々な生成タスクを実行するために、映像から映像までの知識の圧縮とタスク適応のためのパラダイムである「textit{Dimension-Reduction Attack} (\texttt{DRA-Ctrl})」を提案する。
特に、連続ビデオフレームと離散画像生成の難解なギャップに対処するために、スムーズな適応を保証するミックスアップベースの遷移戦略を導入する。
さらに、テキストプロンプトと画像レベルの制御をより良く整合させるために、調整されたマスキング機構によるアテンション構造を再設計する。
被写体駆動および空間条件付き生成などの多様な画像生成タスクに対する実験では、再利用されたビデオモデルは、画像上で直接訓練された映像よりも優れていた。
これらの結果は、より広い視覚的応用のための大規模ビデオジェネレータの未完成の可能性を強調している。
\texttt{DRA-Ctrl} は、リソース集約型ビデオモデルの再利用に関する新たな洞察を提供し、視覚的モダリティをまたいだ将来の統一生成モデルの基礎を提供する。
プロジェクトページはhttps://dra-ctrl-2025.github.io/DRA-Ctrl/。
関連論文リスト
- PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model [23.768571323272152]
PartRMは、静的オブジェクトの多視点画像から外観、幾何学、部分レベルの動きを同時にモデル化する新しい4D再構成フレームワークである。
我々はPartDrag-4Dデータセットを導入し、20,000以上の状態にまたがる部分レベルのダイナミクスを多視点で観察する。
実験結果から,PartRMはロボット工学の操作作業に応用できる部分レベルの動作学習において,新たな最先端技術を確立していることがわかった。
論文 参考訳(メタデータ) (2025-03-25T17:59:58Z) - VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。
VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。
これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文 参考訳(メタデータ) (2025-02-04T17:07:10Z) - ARCON: Advancing Auto-Regressive Continuation for Driving Videos [7.958859992610155]
本稿では,ビデオ継続におけるLVM(Large Vision Models)の利用について検討する。
セマンティックトークンとRGBトークンを交互に生成するスキームであるARCONを導入し,LVMが高レベルな構造化映像情報を明示的に学習できるようにする。
自律走行シナリオの実験は、我々のモデルが一貫して長いビデオを生成できることを示しています。
論文 参考訳(メタデータ) (2024-12-04T22:53:56Z) - iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。
マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z) - Conditional Generative Modeling for Images, 3D Animations, and Video [4.422441608136163]
コンピュータビジョンのための生成モデリングの分野における革新を推進しようとする論文。
研究は、ノイズと視覚データの変換を提供するアーキテクチャと、生成タスクや3Dコンテンツ操作にエンコーダ・デコーダアーキテクチャを適用することに焦点を当てている。
論文 参考訳(メタデータ) (2023-10-19T21:10:39Z) - Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。
我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文 参考訳(メタデータ) (2022-10-05T14:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。