論文の概要: Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!
- arxiv url: http://arxiv.org/abs/2510.03550v1
- Date: Fri, 03 Oct 2025 22:38:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.10744
- Title: Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!
- Title(参考訳): ドラッグ指向のインタラクティブビデオ操作をストリーミングする「Drag Anything, Anytime!
- Authors: Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang,
- Abstract要約: textbfstReaming drag-oriEnted interactiVe vidEo manipulation (REVEL)を提案する。
提案手法は,既存の自己回帰ビデオ拡散モデルにシームレスに統合できる。
- 参考スコア(独自算出の注目度): 88.12304235156591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving streaming, fine-grained control over the outputs of autoregressive video diffusion models remains challenging, making it difficult to ensure that they consistently align with user expectations. To bridge this gap, we propose \textbf{stReaming drag-oriEnted interactiVe vidEo manipuLation (REVEL)}, a new task that enables users to modify generated videos \emph{anytime} on \emph{anything} via fine-grained, interactive drag. Beyond DragVideo and SG-I2V, REVEL unifies drag-style video manipulation as editing and animating video frames with both supporting user-specified translation, deformation, and rotation effects, making drag operations versatile. In resolving REVEL, we observe: \emph{i}) drag-induced perturbations accumulate in latent space, causing severe latent distribution drift that halts the drag process; \emph{ii}) streaming drag is easily disturbed by context frames, thereby yielding visually unnatural outcomes. We thus propose a training-free approach, \textbf{DragStream}, comprising: \emph{i}) an adaptive distribution self-rectification strategy that leverages neighboring frames' statistics to effectively constrain the drift of latent embeddings; \emph{ii}) a spatial-frequency selective optimization mechanism, allowing the model to fully exploit contextual information while mitigating its interference via selectively propagating visual cues along generation. Our method can be seamlessly integrated into existing autoregressive video diffusion models, and extensive experiments firmly demonstrate the effectiveness of our DragStream.
- Abstract(参考訳): 自動回帰ビデオ拡散モデルの出力をきめ細かな制御でストリーミングを実現することは依然として困難であり、ユーザの期待に一貫した一致を保証することは困難である。
このギャップを埋めるために、我々は、細粒でインタラクティブなドラッグを通じて、ユーザが生成したビデオ \emph{anything} を \emph{anything} 上で修正できる新しいタスクである \textbf{stReaming drag-oriEnted interactiVe vidEo manipuLation (REVEL)} を提案する。
DragVideoとSG-I2V以外にも、REVELはビデオフレームの編集とアニメーションとしてドラッグスタイルのビデオ操作を、ユーザが指定した翻訳、変形、回転エフェクトの両方をサポートすることで統合し、ドラッグ操作を汎用化している。
ReVELの解法では, 遅延空間に引き起こされる抵抗誘起摂動が蓄積され, 遅延分布の急激なドリフトが引き起こされ, 流れのドラッグがコンテキストフレームによって容易に乱されるので, 視覚的に不自然な結果が生じる。
そこで本稿では, 近接するフレームの統計を利用して遅延埋め込みのドリフトを効果的に抑制する適応分布自己修正戦略である \emph{i} と, 空間周波数選択最適化機構である \emph{ii} と, モデルが生成した視覚的手がかりを選択的に伝播させ, 干渉を緩和しながら, 文脈情報を完全に活用できるようにする。
提案手法は,既存の自己回帰ビデオ拡散モデルにシームレスに統合することができ,DragStreamの有効性を実証する広範囲な実験を行うことができる。
関連論文リスト
- InstantDrag: Improving Interactivity in Drag-based Image Editing [23.004027029130953]
ドラッグベースの画像編集は、その対話性と精度で最近人気を集めている。
InstantDragは、対話性と速度を向上する最適化不要なパイプラインである。
InstantDragがマスクやテキストのプロンプトなしで高速でリアルな編集を行う能力を示す。
論文 参考訳(メタデータ) (2024-09-13T14:19:27Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - DragVideo: Interactive Drag-style Video Editing [58.59845960686982]
DragVideoはドラッグ・テンポラリなビデオ編集フレームワークだ。
動画を直感的で、ユーザの意図に忠実に編集し、ほとんど目立たない歪みやアーティファクトで、時間的一貫性を維持しながら編集することができる。
従来のプロンプトベースのビデオ編集では、前者の2つを行ない、画像ドラッグを直接適用することは最後に失敗するが、DragVideoの汎用性と汎用性が強調されている。
論文 参考訳(メタデータ) (2023-12-03T10:41:06Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。