Fugu-MT 論文翻訳(概要): Dimension-Reduction Attack! Video Generative Models are Experts on Controllable Image Synthesis

論文の概要: Dimension-Reduction Attack! Video Generative Models are Experts on Controllable Image Synthesis

arxiv url: http://arxiv.org/abs/2505.23325v1
Date: Thu, 29 May 2025 10:34:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:07.813613
Title: Dimension-Reduction Attack! Video Generative Models are Experts on Controllable Image Synthesis
Title（参考訳）: ディメンション・リダクション・アタック!ビデオ生成モデルは制御可能な画像合成の専門家である
Authors: Hengyuan Cao, Yutong Feng, Biao Gong, Yijing Tian, Yunhong Lu, Chuang Liu, Bin Wang,
Abstract要約: textttDRA-Ctrlはリソース集約型ビデオモデルの再利用に関する新たな洞察を提供する。 textttDRA-Ctrlは、視覚的モダリティにまたがる将来の統一された生成モデルの基礎を築いている。
参考スコア（独自算出の注目度）: 12.160537328404622
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video generative models can be regarded as world simulators due to their ability to capture dynamic, continuous changes inherent in real-world environments. These models integrate high-dimensional information across visual, temporal, spatial, and causal dimensions, enabling predictions of subjects in various status. A natural and valuable research direction is to explore whether a fully trained video generative model in high-dimensional space can effectively support lower-dimensional tasks such as controllable image generation. In this work, we propose a paradigm for video-to-image knowledge compression and task adaptation, termed \textit{Dimension-Reduction Attack} (\texttt{DRA-Ctrl}), which utilizes the strengths of video models, including long-range context modeling and flatten full-attention, to perform various generation tasks. Specially, to address the challenging gap between continuous video frames and discrete image generation, we introduce a mixup-based transition strategy that ensures smooth adaptation. Moreover, we redesign the attention structure with a tailored masking mechanism to better align text prompts with image-level control. Experiments across diverse image generation tasks, such as subject-driven and spatially conditioned generation, show that repurposed video models outperform those trained directly on images. These results highlight the untapped potential of large-scale video generators for broader visual applications. \texttt{DRA-Ctrl} provides new insights into reusing resource-intensive video models and lays foundation for future unified generative models across visual modalities. The project page is https://dra-ctrl-2025.github.io/DRA-Ctrl/.
Abstract（参考訳）: ビデオ生成モデルは、実世界の環境に固有の動的で連続的な変化を捉える能力から、世界シミュレータと見なすことができる。これらのモデルは、視覚的、時間的、空間的、因果的な次元にわたる高次元情報を統合し、様々な状態の被験者の予測を可能にする。自然で価値のある研究の方向性は、高次元空間における十分に訓練されたビデオ生成モデルが、制御可能な画像生成のような低次元タスクを効果的に支援できるかどうかを探ることである。本研究では、長距離コンテキストモデリングやフラットなフルアテンションを含む映像モデルの強みを活用し、様々な生成タスクを実行するために、映像から映像までの知識の圧縮とタスク適応のためのパラダイムである「textit{Dimension-Reduction Attack} (\texttt{DRA-Ctrl})」を提案する。特に、連続ビデオフレームと離散画像生成の難解なギャップに対処するために、スムーズな適応を保証するミックスアップベースの遷移戦略を導入する。さらに、テキストプロンプトと画像レベルの制御をより良く整合させるために、調整されたマスキング機構によるアテンション構造を再設計する。被写体駆動および空間条件付き生成などの多様な画像生成タスクに対する実験では、再利用されたビデオモデルは、画像上で直接訓練された映像よりも優れていた。これらの結果は、より広い視覚的応用のための大規模ビデオジェネレータの未完成の可能性を強調している。 \texttt{DRA-Ctrl} は、リソース集約型ビデオモデルの再利用に関する新たな洞察を提供し、視覚的モダリティをまたいだ将来の統一生成モデルの基礎を提供する。プロジェクトページはhttps://dra-ctrl-2025.github.io/DRA-Ctrl/。

関連論文リスト

From Generation to Generalization: Emergent Few-Shot Learning in Video Diffusion Models [65.0487600936788]
ビデオ拡散モデル(VDM)は高品質なコンテンツを合成できる強力な生成ツールとして登場した。我々は、VDMが自然に構造化された表現を探索し、視覚世界を暗黙的に理解することを主張する。提案手法は,各タスクを視覚遷移に変換し,短い入力シーケンス上でLoRA重みのトレーニングを可能にする。
論文参考訳（メタデータ） (2025-06-08T20:52:34Z)
MAGREF: Masked Guidance for Any-Reference Video Generation [33.35245169242822]
MAGREFは、任意の参照ビデオ生成のための統一されたフレームワークである。本研究では,一つのモデルで様々な対象推定を柔軟に処理できる領域認識型動的マスキング機構を提案する。我々のモデルは、単目的訓練から複雑な多目的シナリオまで、最先端のビデオ生成品質を提供する。
論文参考訳（メタデータ） (2025-05-29T17:58:15Z)
PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model [23.768571323272152]
PartRMは、静的オブジェクトの多視点画像から外観、幾何学、部分レベルの動きを同時にモデル化する新しい4D再構成フレームワークである。我々はPartDrag-4Dデータセットを導入し、20,000以上の状態にまたがる部分レベルのダイナミクスを多視点で観察する。実験結果から,PartRMはロボット工学の操作作業に応用できる部分レベルの動作学習において,新たな最先端技術を確立していることがわかった。
論文参考訳（メタデータ） (2025-03-25T17:59:58Z)
Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文参考訳（メタデータ） (2025-02-10T14:49:09Z)
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。 VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文参考訳（メタデータ） (2025-02-04T17:07:10Z)
ARCON: Advancing Auto-Regressive Continuation for Driving Videos [7.958859992610155]
本稿では,ビデオ継続におけるLVM(Large Vision Models)の利用について検討する。セマンティックトークンとRGBトークンを交互に生成するスキームであるARCONを導入し,LVMが高レベルな構造化映像情報を明示的に学習できるようにする。自律走行シナリオの実験は、我々のモデルが一貫して長いビデオを生成できることを示しています。
論文参考訳（メタデータ） (2024-12-04T22:53:56Z)
iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。 iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文参考訳（メタデータ） (2024-05-24T05:29:12Z)
Moonshot: Towards Controllable Video Generation and Editing with Multimodal Conditions [94.03133100056372]
Moonshotは、画像とテキストのマルチモーダル入力を同時に処理する新しいビデオ生成モデルである。モデルは、パーソナライズされたビデオ生成、画像アニメーション、ビデオ編集など、様々な生成アプリケーションに容易に再利用できる。
論文参考訳（メタデータ） (2024-01-03T16:43:47Z)
Conditional Generative Modeling for Images, 3D Animations, and Video [4.422441608136163]
コンピュータビジョンのための生成モデリングの分野における革新を推進しようとする論文。研究は、ノイズと視覚データの変換を提供するアーキテクチャと、生成タスクや3Dコンテンツ操作にエンコーダ・デコーダアーキテクチャを適用することに焦点を当てている。
論文参考訳（メタデータ） (2023-10-19T21:10:39Z)
Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文参考訳（メタデータ） (2022-10-05T14:41:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。