論文の概要: Show Me: Unifying Instructional Image and Video Generation with Diffusion Models
- arxiv url: http://arxiv.org/abs/2511.17839v1
- Date: Fri, 21 Nov 2025 23:24:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.464602
- Title: Show Me: Unifying Instructional Image and Video Generation with Diffusion Models
- Title(参考訳): 拡散モデルによるインストラクショナルイメージとビデオ生成の統合
- Authors: Yujiang Pu, Zhanbo Huang, Vishnu Boddeti, Yu Kong,
- Abstract要約: 画像の操作と映像の予測を可能にする統一的なフレームワークを提案する。
構造的忠実度と時間的コヒーレンスを改善するために,構造的および運動的整合性報酬を導入する。
多様なベンチマーク実験により,本手法は指導画像と映像生成の両方において,専門家モデルよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 16.324312147741495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating visual instructions in a given context is essential for developing interactive world simulators. While prior works address this problem through either text-guided image manipulation or video prediction, these tasks are typically treated in isolation. This separation reveals a fundamental issue: image manipulation methods overlook how actions unfold over time, while video prediction models often ignore the intended outcomes. To this end, we propose ShowMe, a unified framework that enables both tasks by selectively activating the spatial and temporal components of video diffusion models. In addition, we introduce structure and motion consistency rewards to improve structural fidelity and temporal coherence. Notably, this unification brings dual benefits: the spatial knowledge gained through video pretraining enhances contextual consistency and realism in non-rigid image edits, while the instruction-guided manipulation stage equips the model with stronger goal-oriented reasoning for video prediction. Experiments on diverse benchmarks demonstrate that our method outperforms expert models in both instructional image and video generation, highlighting the strength of video diffusion models as a unified action-object state transformer.
- Abstract(参考訳): 対話型世界シミュレータの開発には、与えられたコンテキストで視覚的指示を生成することが不可欠である。
以前の研究では、テキスト誘導された画像操作やビデオ予測によってこの問題に対処するが、これらのタスクは通常、分離して扱われる。
画像操作手法は、アクションが時間とともにどのように広がるかを見落としているのに対し、ビデオ予測モデルは意図した結果を無視していることが多い。
そこで本稿では,ビデオ拡散モデルの空間的・時間的要素を選択的に活性化することで,両タスクを同時に実行可能にするフレームワークであるShowMeを提案する。
さらに、構造的忠実度と時間的コヒーレンスを改善するために、構造的および運動的整合性報酬を導入する。
ビデオ事前学習によって得られた空間的知識は、非厳密な画像編集における文脈的一貫性とリアリズムを高める一方、指示誘導操作段階は、より強力な目標指向の推論でビデオ予測を行う。
多様なベンチマーク実験により,本手法は指導画像と映像生成の両方において,エキスパートモデルよりも優れており,映像拡散モデルの強度が統合されたアクションオブジェクト状態変換器として強調されている。
関連論文リスト
- VINCIE: Unlocking In-context Image Editing from Video [62.88977098700917]
本研究では,ビデオからテキスト内画像編集モデルを直接学習できるかどうかを考察する。
このデータから効果的に学習するために、3つのプロキシタスクに基づいて訓練されたブロック因果拡散変換器を設計する。
本モデルでは,2つのマルチターン画像編集ベンチマークにおいて,コンテクスト内画像編集能力が強く,最先端の結果が得られている。
論文 参考訳(メタデータ) (2025-06-12T17:46:54Z) - From Image to Video: An Empirical Study of Diffusion Representations [37.09795196423048]
拡散モデルは生成モデルに革命をもたらし、画像合成やビデオ合成において前例のないリアリズムを可能にした。
この研究は、視覚的理解のための映像と画像の拡散目標の直接比較として初めて行われ、表現学習における時間情報の役割についての洞察を提供する。
論文 参考訳(メタデータ) (2025-02-10T19:53:46Z) - Video Generation with Learned Action Prior [1.740992908651449]
カメラの動きが画像ピクセルと相互作用するので、カメラが動くプラットフォームにマウントされる場合、ビデオ生成は特に困難である。
既存の方法では、カメラのモーションダイナミクスを明示的にモデル化することなく、生のピクセルレベルの画像再構成に集中することで、この問題に対処するのが一般的である。
本稿では,観察された画像状態の一部としてカメラやアクションを考慮し,マルチAP学習フレームワーク内の画像状態とアクションの両方をモデル化する手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T16:00:07Z) - Training-Free Semantic Video Composition via Pre-trained Diffusion Model [96.0168609879295]
現在のアプローチは、主に前景の色と照明を調整したビデオで訓練されており、表面的な調整以上の深い意味の相違に対処するのに苦労している。
本研究では,事前知識を付加した事前学習拡散モデルを用いた学習自由パイプラインを提案する。
実験の結果,我々のパイプラインは出力の視覚的調和とフレーム間のコヒーレンスを確実にすることがわかった。
論文 参考訳(メタデータ) (2024-01-17T13:07:22Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance [69.0740091741732]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Local Frequency Domain Transformer Networks for Video Prediction [24.126513851779936]
ビデオ予測は、現実世界の視覚的変化を予想するだけでなく、何よりも、教師なしの学習規則として登場した。
本稿では,解釈性を維持しつつ,これらのタスクを別々に実行することのできる,完全微分可能なビルディングブロックを提案する。
論文 参考訳(メタデータ) (2021-05-10T19:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。