論文の概要: Point-to-Point: Sparse Motion Guidance for Controllable Video Editing
- arxiv url: http://arxiv.org/abs/2511.18277v1
- Date: Sun, 23 Nov 2025 03:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.739768
- Title: Point-to-Point: Sparse Motion Guidance for Controllable Video Editing
- Title(参考訳): ポイントツーポイント:制御可能なビデオ編集のためのスパース動作誘導
- Authors: Yeji Song, Jaehyun Lee, Mijin Koo, JunHoo Lee, Nojun Kwak,
- Abstract要約: 本稿では,映像拡散モデルに先行するリッチな動きを生かして,最も重要な動きパターンをキャプチャする,新しい動き表現,アンカートークンを提案する。
実験では、アンカートークンはより制御可能でセマンティックに整合したビデオ編集をもたらし、編集や動きの忠実さの点で優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 29.888408281118846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately preserving motion while editing a subject remains a core challenge in video editing tasks. Existing methods often face a trade-off between edit and motion fidelity, as they rely on motion representations that are either overfitted to the layout or only implicitly defined. To overcome this limitation, we revisit point-based motion representation. However, identifying meaningful points remains challenging without human input, especially across diverse video scenarios. To address this, we propose a novel motion representation, anchor tokens, that capture the most essential motion patterns by leveraging the rich prior of a video diffusion model. Anchor tokens encode video dynamics compactly through a small number of informative point trajectories and can be flexibly relocated to align with new subjects. This allows our method, Point-to-Point, to generalize across diverse scenarios. Extensive experiments demonstrate that anchor tokens lead to more controllable and semantically aligned video edits, achieving superior performance in terms of edit and motion fidelity.
- Abstract(参考訳): 被写体を編集しながら動きを正確に保存することは、ビデオ編集作業における中核的な課題である。
既存の方法は、レイアウトに過度に適合するか、暗黙的にしか定義されない動き表現に依存するため、編集と動きの忠実さのトレードオフに直面していることが多い。
この制限を克服するために、我々は点に基づく動きの表現を再考する。
しかし、人間の入力なしに意味のあるポイントを特定することは、特に多様なビデオシナリオにおいて困難である。
そこで本研究では,映像拡散モデルに先行するリッチな動きを生かして,最も重要な動きパターンをキャプチャする,新しい動き表現,アンカートークンを提案する。
アンカートークンは、少数の情報的ポイントトラジェクトリを通してビデオダイナミクスをコンパクトに符号化し、フレキシブルに移動して新しい主題と整合させることができる。
これにより,提案手法であるPoint-to-Pointが,様々なシナリオにまたがって一般化できる。
広範囲にわたる実験により、アンカートークンはより制御可能でセマンティックに整合したビデオ編集につながり、編集や動きの忠実さの点で優れたパフォーマンスを達成することが示されている。
関連論文リスト
- ConMo: Controllable Motion Disentanglement and Recomposition for Zero-Shot Motion Transfer [44.33224798292861]
ConMoは、被写体の動きとカメラの動きを歪め、再構成するフレームワークである。
多様な対象に対してより正確なモーションコントロールを可能にし、マルチオブジェクトシナリオのパフォーマンスを向上させる。
ConMoは、被写体のサイズや位置の編集、被写体除去、セマンティックな修正、カメラモーションシミュレーションなど、幅広いアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2025-04-03T10:15:52Z) - Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。
本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文 参考訳(メタデータ) (2025-03-28T09:34:11Z) - VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control [66.66226299852559]
VideoAnydoorは、高忠実度ディテール保存と正確なモーションコントロールを備えたゼロショットビデオオブジェクト挿入フレームワークである。
詳細な外観を保ちながら、微粒な動き制御をサポートするため、我々は画素ワーパーを設計する。
論文 参考訳(メタデータ) (2025-01-02T18:59:54Z) - Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion [9.134743677331517]
本研究では、動きから外見を遠ざけるために、事前訓練された画像間映像モデルを提案する。
動作テキストインバージョン(Motion-textual Inversion)と呼ばれるこの手法は、画像から映像へのモデルが、主に(相対的な)画像入力から外観を抽出する、という観察を生かしている。
フレームごとの複数のテキスト/画像埋め込みトークンを含むインフレーションされたモーションテキスト埋め込みを操作することにより、高時間運動粒度を実現する。
動作参照ビデオと対象画像の空間的アライメントを必要とせず,様々な領域にまたがって一般化し,フルボディや顔再現といった様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2024-08-01T10:55:20Z) - Drag-A-Video: Non-rigid Video Editing with Point-based Interaction [63.78538355189017]
そこで我々はDrag-A-Videoと呼ばれるインタラクティブなポイントベースビデオ操作のための拡散に基づく新しい手法を提案する。
本手法では,入力ビデオの第1フレームのマスクだけでなく,ハンドポイントとターゲットポイントのペアをクリックできる。
映像の内容を正確に修正するために,ビデオの機能を更新するために,新しい映像レベルのモーションインスペクタを用いる。
論文 参考訳(メタデータ) (2023-12-05T18:05:59Z) - SAVE: Protagonist Diversification with Structure Agnostic Video Editing [29.693364686494274]
従来の作品は通常、自明で一貫した形状でうまく機能し、元のものと大きく異なる体形を持つ難しいターゲットで容易に崩壊する。
動きのパーソナライズを単一音源映像から分離し,それに応じて動きの調整を行う。
我々はまた、新しい擬似光学フローを導入することにより、動き語を適切な動き関連領域に適応するように調整する。
論文 参考訳(メタデータ) (2023-12-05T05:13:20Z) - VideoSwap: Customized Video Subject Swapping with Interactive Semantic
Point Correspondence [37.85691662157054]
密度の高い対応に依存するビデオ編集アプローチは、ターゲット編集が形状変化を伴う場合、効果がない。
我々は,対象者の運動軌跡を調整し,その形状を変更するために,少数の意味点しか必要としないという観察から着想を得た VideoSwap フレームワークを紹介した。
大規模な実験では、さまざまな現実世界のビデオで結果を交換する最先端のビデオ被験者がデモされている。
論文 参考訳(メタデータ) (2023-12-04T17:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。