論文の概要: Rebalancing Reference Frame Dominance to Improve Motion in Image-to-Video Models
- arxiv url: http://arxiv.org/abs/2605.19398v2
- Date: Wed, 20 May 2026 05:07:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 14:55:44.395041
- Title: Rebalancing Reference Frame Dominance to Improve Motion in Image-to-Video Models
- Title(参考訳): 画像-映像モデルにおける動き改善のための参照フレーム優位性の再バランス
- Authors: Wooseok Jeon, Seungho Park, Seunghyun Shin, Sangeyl Lee, Hyeonho Jeong, Hae-Gon Jeon,
- Abstract要約: 画像とビデオのモデルは、テキストとビデオのモデルと比較して、過度に静的なビデオを生成することが多い。
我々は、参照フレームの優位性を、動作抑制の鍵となるメカニズムとして認識する。
そこで我々は,DyMoSを提案する。DyMoSは,生成したフレームから参照フレームへの注意経路を再調整する,トレーニング不要でモデルに依存しない手法である。
- 参考スコア(独自算出の注目度): 27.524568995413087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image-to-video models often generate videos that remain overly static, compared to text-to-video models. While prior approaches mitigate this issue by weakening or modifying the image-conditioning signal, they often require additional training or sacrifice fidelity to the reference image. In this work, we identify reference-frame dominance as a key mechanism behind motion suppression. We observe that non-reference frames in I2V models allocate excessive self-attention to reference-frame key tokens, causing reference information to be over-propagated across time and suppressing inter-frame dynamics. Based on this finding, we propose DyMoS (Dynamic Motion Slider), a training-free and model-agnostic method that rebalances the attention pathway from generated frames to the reference frame during initial denoising steps. DyMoS leaves both the input image and model weights unchanged and introduces a single scalar parameter for continuous control over motion strength. Experiments across multiple state-of-the-art I2V backbones demonstrate that DyMoS consistently improves motion dynamics while maintaining visual quality and fidelity to the reference image.
- Abstract(参考訳): 画像とビデオのモデルは、テキストとビデオのモデルと比較して、過度に静的なビデオを生成することが多い。
以前のアプローチでは、イメージコンディショニング信号の弱化や修正によってこの問題を緩和するが、参照イメージに対する追加のトレーニングや信頼性の犠牲がしばしば必要である。
本研究では,参照フレームの優位性を動作抑制の鍵となるメカニズムとして認識する。
I2Vモデルにおける非参照フレームは、参照鍵トークンに過剰な自己アテンションを割り当て、参照情報を時間にわたって過剰に伝播させ、フレーム間ダイナミクスを抑制する。
そこで本研究では,DyMoS(Dynamic Motion Slider)を提案する。DyMoS(Dynamic Motion Slider)は,生成したフレームから参照フレームへの注意経路を,トレーニング不要でモデルに依存しない手法である。
DyMoSは入力画像とモデルウェイトの両方をそのまま残し、運動強度を連続的に制御するための単一のスカラーパラメータを導入している。
複数の最先端のI2Vバックボーンに対する実験により、DyMoSは参照画像に対する視覚的品質と忠実さを維持しながら、動きのダイナミクスを一貫して改善することが示された。
関連論文リスト
- SteadyDancer: Harmonized and Coherent Human Image Animation with First-Frame Preservation [50.792027578906804]
本稿では,高調波とコヒーレントなアニメーションを実現するR2V(Image-to-Video)パラダイムベースのフレームワークであるSteadyDancerを紹介する。
実験により,SteadyDancerは外観の忠実さとモーションコントロールの両方において最先端の性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-24T17:15:55Z) - Real-Time Motion-Controllable Autoregressive Video Diffusion [79.32730467857535]
本稿では,AR-Dragを提案する。このAR-Dragは,多様なモーション制御を備えたリアルタイム画像・ビデオ生成のための,RLで拡張された最初の数ステップのARビデオ拡散モデルである。
まず,基本動作制御をサポートするためのベースI2Vモデルを微調整し,さらに軌道ベース報酬モデルによる強化により改良する。
本設計では、自己学習機構を通じてマルコフ特性を保存し、ステップを選択的に分解することで訓練を加速する。
論文 参考訳(メタデータ) (2025-10-09T12:17:11Z) - Consistent and Controllable Image Animation with Motion Linear Diffusion Transformers [23.176184261595747]
画像アニメーションにおける効率性, 外観の整合性, 動きの滑らかさを向上するフレームワークであるMiraMoを提案する。
具体的には,(1)ベニラ自己注意を効率的な線形注意に置き換えて生成品質を保ちながら計算オーバーヘッドを低減するための基本的テキスト・ビデオアーキテクチャ,(2)フレームを直接予測するのではなく動きのダイナミクスをモデル化する新たな動き残留学習パラダイム,(3)動きの滑らかさと表現性のバランスをとる動的制御モジュールによって補完された推論中のDCTに基づくノイズ改善戦略,の3つの重要な要素を紹介する。
論文 参考訳(メタデータ) (2025-08-10T08:59:32Z) - Enhancing Motion Dynamics of Image-to-Video Models via Adaptive Low-Pass Guidance [70.12690940725092]
アダプティブローパスガイダンス(ALG)は、よりダイナミックなビデオを生成するためのI2Vモデルサンプリング手順の簡単な修正である。
VBench-I2Vテストスイートでは、ALGはビデオ品質や画像の忠実度を大幅に低下させることなく、ダイナミック度の平均36%の改善を実現している。
論文 参考訳(メタデータ) (2025-06-10T05:23:46Z) - Motion-Aware Concept Alignment for Consistent Video Editing [57.08108545219043]
MoCA-Video (Motion-Aware Concept Alignment in Video) は、画像ドメインのセマンティックミキシングとビデオのギャップを埋めるトレーニング不要のフレームワークである。
生成されたビデオとユーザが提供した参照画像が与えられた後、MoCA-Videoは参照画像のセマンティックな特徴をビデオ内の特定のオブジェクトに注入する。
我々は、標準SSIM、画像レベルLPIPS、時間LPIPSを用いてMoCAの性能を評価し、新しいメトリクスCASS(Conceptual Alignment Shift Score)を導入し、ソースプロンプトと修正ビデオフレーム間の視覚的シフトの一貫性と有効性を評価する。
論文 参考訳(メタデータ) (2025-06-01T13:28:04Z) - Extrapolating and Decoupling Image-to-Video Generation Models: Motion Modeling is Easier Than You Think [24.308538128761985]
Image-to-Video(I2V)生成は、所定の画像と条件(テキストなど)に応じてビデオクリップを合成することを目的としている。
このタスクの主な課題は、画像の本来の外観を維持しながら、自然の動きを同時に生成することである。
本稿では,I2V領域にモデルマージ技術を導入した新しい外挿デカップリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-02T16:06:16Z) - VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。
VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。
これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文 参考訳(メタデータ) (2025-02-04T17:07:10Z) - Boosting Adversarial Transferability using Dynamic Cues [15.194437322391558]
タスク固有のプロンプトを通じて,同じソースモデル内に空間的(イメージ)および時間的(ビデオ)キューを導入する。
我々の攻撃結果は、攻撃者が特別なアーキテクチャを必要としないことを示している。
画像モデルは、変化する環境でブラックボックスモデルを騙すために敵攻撃を最適化する効果的な代理である。
論文 参考訳(メタデータ) (2023-02-23T18:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。