論文の概要: Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!
- arxiv url: http://arxiv.org/abs/2510.03550v2
- Date: Mon, 20 Oct 2025 01:47:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.607504
- Title: Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!
- Title(参考訳): ドラッグ指向のインタラクティブビデオ操作をストリーミングする「Drag Anything, Anytime!
- Authors: Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang,
- Abstract要約: textbfstReaming drag-oriEnted interactiVe vidEo manipulation (REVEL)を提案する。
提案手法は,既存の自己回帰ビデオ拡散モデルにシームレスに統合できる。
- 参考スコア(独自算出の注目度): 88.12304235156591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving streaming, fine-grained control over the outputs of autoregressive video diffusion models remains challenging, making it difficult to ensure that they consistently align with user expectations. To bridge this gap, we propose \textbf{stReaming drag-oriEnted interactiVe vidEo manipuLation (REVEL)}, a new task that enables users to modify generated videos \emph{anytime} on \emph{anything} via fine-grained, interactive drag. Beyond DragVideo and SG-I2V, REVEL unifies drag-style video manipulation as editing and animating video frames with both supporting user-specified translation, deformation, and rotation effects, making drag operations versatile. In resolving REVEL, we observe: \emph{i}) drag-induced perturbations accumulate in latent space, causing severe latent distribution drift that halts the drag process; \emph{ii}) streaming drag is easily disturbed by context frames, thereby yielding visually unnatural outcomes. We thus propose a training-free approach, \textbf{DragStream}, comprising: \emph{i}) an adaptive distribution self-rectification strategy that leverages neighboring frames' statistics to effectively constrain the drift of latent embeddings; \emph{ii}) a spatial-frequency selective optimization mechanism, allowing the model to fully exploit contextual information while mitigating its interference via selectively propagating visual cues along generation. Our method can be seamlessly integrated into existing autoregressive video diffusion models, and extensive experiments firmly demonstrate the effectiveness of our DragStream.
- Abstract(参考訳): 自動回帰ビデオ拡散モデルの出力をきめ細かな制御でストリーミングを実現することは依然として困難であり、ユーザの期待に一貫した一致を保証することは困難である。
このギャップを埋めるために、我々は、細粒でインタラクティブなドラッグを通じて、ユーザが生成したビデオ \emph{anything} を \emph{anything} 上で修正できる新しいタスクである \textbf{stReaming drag-oriEnted interactiVe vidEo manipuLation (REVEL)} を提案する。
DragVideoとSG-I2V以外にも、REVELはビデオフレームの編集とアニメーションとしてドラッグスタイルのビデオ操作を、ユーザが指定した翻訳、変形、回転エフェクトの両方をサポートすることで統合し、ドラッグ操作を汎用化している。
ReVELの解法では, 遅延空間に引き起こされる抵抗誘起摂動が蓄積され, 遅延分布の急激なドリフトが引き起こされ, 流れのドラッグがコンテキストフレームによって容易に乱されるので, 視覚的に不自然な結果が生じる。
そこで本稿では, 近接するフレームの統計を利用して遅延埋め込みのドリフトを効果的に抑制する適応分布自己修正戦略である \emph{i} と, 空間周波数選択最適化機構である \emph{ii} と, モデルが生成した視覚的手がかりを選択的に伝播させ, 干渉を緩和しながら, 文脈情報を完全に活用できるようにする。
提案手法は,既存の自己回帰ビデオ拡散モデルにシームレスに統合することができ,DragStreamの有効性を実証する広範囲な実験を行うことができる。
関連論文リスト
- Tuning-free Visual Effect Transfer across Videos [91.93897438317397]
RefVFXは、参照ビデオからターゲットビデオや画像への複雑な時間効果をフィードフォワード形式で転送するフレームワークである。
本稿では,三重項の大規模データセットを導入し,各三重項は参照効果ビデオ,入力画像,および対応する出力ビデオから構成される。
RefVFXは視覚的に一貫した時間的コヒーレントな編集を行い、目に見えない効果カテゴリをまたいで一般化し、量的指標と人的嗜好の両方においてプロンプトのみのベースラインを上回ります。
論文 参考訳(メタデータ) (2026-01-12T18:59:32Z) - Beyond the Visible: Disocclusion-Aware Editing via Proxy Dynamic Graphs [39.496648478488666]
最終フレームの非排除領域に対する明示的なユーザ制御による画像から映像への生成に対処する。
本研究では,部分運動を駆動する軽量でユーザ編集可能なプロキシダイナミックグラフ(PDG)を導入し,その動きに追従する可塑性な外観を合成するために凍結拡散前処理を用いる。
次に,画像の隠蔽領域の外観をユーザが編集し,PDGが符号化した可視性情報を利用して,これらの領域におけるユーザ意図との動きを一致させる潜時空間合成を行う。
論文 参考訳(メタデータ) (2025-12-15T14:45:05Z) - InstantDrag: Improving Interactivity in Drag-based Image Editing [23.004027029130953]
ドラッグベースの画像編集は、その対話性と精度で最近人気を集めている。
InstantDragは、対話性と速度を向上する最適化不要なパイプラインである。
InstantDragがマスクやテキストのプロンプトなしで高速でリアルな編集を行う能力を示す。
論文 参考訳(メタデータ) (2024-09-13T14:19:27Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - DragTraffic: Interactive and Controllable Traffic Scene Generation for Autonomous Driving [10.90477019946728]
DragTrafficは、条件付き拡散に基づく、汎用的でインタラクティブで制御可能なトラフィックシーン生成フレームワークである。
我々は回帰モデルを用いて、一般的な初期解と条件拡散モデルに基づく改良プロセスを提供し、多様性を保証する。
実世界の運転データセットの実験によると、DragTrafficは信頼性、多様性、自由度で既存の手法より優れている。
論文 参考訳(メタデータ) (2024-04-19T04:49:28Z) - DragVideo: Interactive Drag-style Video Editing [58.59845960686982]
DragVideoはドラッグ・テンポラリなビデオ編集フレームワークだ。
動画を直感的で、ユーザの意図に忠実に編集し、ほとんど目立たない歪みやアーティファクトで、時間的一貫性を維持しながら編集することができる。
従来のプロンプトベースのビデオ編集では、前者の2つを行ない、画像ドラッグを直接適用することは最後に失敗するが、DragVideoの汎用性と汎用性が強調されている。
論文 参考訳(メタデータ) (2023-12-03T10:41:06Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。