論文の概要: Vectorized Video Representation with Easy Editing via Hierarchical Spatio-Temporally Consistent Proxy Embedding
- arxiv url: http://arxiv.org/abs/2510.12256v1
- Date: Tue, 14 Oct 2025 08:05:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.238922
- Title: Vectorized Video Representation with Easy Editing via Hierarchical Spatio-Temporally Consistent Proxy Embedding
- Title(参考訳): 階層的空間的一貫したプロキシ埋め込みによる簡易な編集によるベクトル化映像表現
- Authors: Ye Chen, Liming Tan, Yupeng Zhu, Yuanbin Wang, Bingbing Ni,
- Abstract要約: 提案した表現はより少ないパラメータで高い映像再構成精度を実現する。
複雑なビデオ処理タスクをサポートし、ビデオのインペイントや時間的に一貫したビデオ編集を行う。
- 参考スコア(独自算出の注目度): 45.593989778240655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current video representations heavily rely on unstable and over-grained priors for motion and appearance modelling, \emph{i.e.}, pixel-level matching and tracking. A tracking error of just a few pixels would lead to the collapse of the visual object representation, not to mention occlusions and large motion frequently occurring in videos. To overcome the above mentioned vulnerability, this work proposes spatio-temporally consistent proxy nodes to represent dynamically changing objects/scenes in the video. On the one hand, the hierarchical proxy nodes have the ability to stably express the multi-scale structure of visual objects, so they are not affected by accumulated tracking error, long-term motion, occlusion, and viewpoint variation. On the other hand, the dynamic representation update mechanism of the proxy nodes adequately leverages spatio-temporal priors of the video to mitigate the impact of inaccurate trackers, thereby effectively handling drastic changes in scenes and objects. Additionally, the decoupled encoding manner of the shape and texture representations across different visual objects in the video facilitates controllable and fine-grained appearance editing capability. Extensive experiments demonstrate that the proposed representation achieves high video reconstruction accuracy with fewer parameters and supports complex video processing tasks, including video in-painting and keyframe-based temporally consistent video editing.
- Abstract(参考訳): 現在のビデオ表現は、動きや外観のモデリング、ピクセルレベルのマッチング、追跡など、不安定できめ細かな先行技術に大きく依存している。
わずか数ピクセルのトラッキングエラーは、ビデオで頻繁に発生する閉塞や大きな動きだけでなく、視覚オブジェクト表現の崩壊につながる。
上記の脆弱性を克服するため、ビデオ内の動的に変化するオブジェクト/シーンを表現するために、時空間的に一貫したプロキシノードを提案する。
一方、階層的なプロキシノードは、視覚オブジェクトのマルチスケール構造を安定的に表現する能力を持つため、蓄積されたトラッキングエラー、長期動作、オクルージョン、視点変動の影響を受けない。
一方、プロキシノードの動的表現更新機構は、ビデオの時空間的先行を適切に利用し、不正確なトラッカーの影響を緩和し、シーンやオブジェクトの劇的変化を効果的に処理する。
さらに、ビデオ内の異なる視覚オブジェクト間の形状とテクスチャ表現の分離された符号化方式は、制御可能できめ細かい外観編集機能を促進する。
広汎な実験により,提案した表現は少ないパラメータで高い映像再構成精度を実現し,複雑な映像処理タスクをサポートすることを示す。
関連論文リスト
- PISCO: Precise Video Instance Insertion with Sparse Control [20.322731348056543]
プロのAI支援映画製作では、精密で標的とした修正を行うことが不可欠である。
この移行の要点は、既存のビデオに特定のインスタンスを挿入する必要があるビデオインスタンス挿入である。
本稿では,任意のスパース制御が可能なビデオ挿入インスタンスのPISCOを提案する。
論文 参考訳(メタデータ) (2026-02-09T05:15:39Z) - Tuning-free Visual Effect Transfer across Videos [91.93897438317397]
RefVFXは、参照ビデオからターゲットビデオや画像への複雑な時間効果をフィードフォワード形式で転送するフレームワークである。
本稿では,三重項の大規模データセットを導入し,各三重項は参照効果ビデオ,入力画像,および対応する出力ビデオから構成される。
RefVFXは視覚的に一貫した時間的コヒーレントな編集を行い、目に見えない効果カテゴリをまたいで一般化し、量的指標と人的嗜好の両方においてプロンプトのみのベースラインを上回ります。
論文 参考訳(メタデータ) (2026-01-12T18:59:32Z) - Point-to-Point: Sparse Motion Guidance for Controllable Video Editing [29.888408281118846]
本稿では,映像拡散モデルに先行するリッチな動きを生かして,最も重要な動きパターンをキャプチャする,新しい動き表現,アンカートークンを提案する。
実験では、アンカートークンはより制御可能でセマンティックに整合したビデオ編集をもたらし、編集や動きの忠実さの点で優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-23T03:59:59Z) - Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。
時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。
本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文 参考訳(メタデータ) (2025-03-25T17:58:48Z) - VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control [66.66226299852559]
VideoAnydoorは、高忠実度ディテール保存と正確なモーションコントロールを備えたゼロショットビデオオブジェクト挿入フレームワークである。
詳細な外観を保ちながら、微粒な動き制御をサポートするため、我々は画素ワーパーを設計する。
論文 参考訳(メタデータ) (2025-01-02T18:59:54Z) - InstMove: Instance Motion for Object-centric Video Segmentation [70.16915119724757]
本研究では,オブジェクト中心ビデオのインスタンス・モーションを表すInstMoveとインスタンス・レベル・モーションについて検討する。
InstMoveは主に画像特徴の埋め込みのないインスタンスレベルのモーション情報に依存している。
数行のコードだけで、InstMoveは3つの異なるビデオセグメンテーションタスクのために、現在のSOTAメソッドに統合できる。
論文 参考訳(メタデータ) (2023-03-14T17:58:44Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。