論文の概要: LoVoRA: Text-guided and Mask-free Video Object Removal and Addition with Learnable Object-aware Localization
- arxiv url: http://arxiv.org/abs/2512.02933v1
- Date: Tue, 02 Dec 2025 17:01:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.97459
- Title: LoVoRA: Text-guided and Mask-free Video Object Removal and Addition with Learnable Object-aware Localization
- Title(参考訳): LoVoRA: 学習可能なオブジェクト認識ローカライゼーションによるテキスト誘導とマスクなしビデオオブジェクトの削除と追加
- Authors: Zhihan Xiao, Lin Liu, Yixin Gao, Xiaopeng Zhang, Haoxuan Che, Songping Mai, Qi Tian,
- Abstract要約: LoVoRAは、マスクのないビデオオブジェクトの削除と追加のための新しいフレームワークである。
提案手法は,画像間翻訳,光フローベースのマスク伝搬,ビデオペインティングを統合し,時間的に一貫した編集を可能にする。
LoVoRAは、推論中に外部制御信号を必要とせずに、エンドツーエンドのビデオ編集を実現する。
- 参考スコア(独自算出の注目度): 49.945233586949286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided video editing, particularly for object removal and addition, remains a challenging task due to the need for precise spatial and temporal consistency. Existing methods often rely on auxiliary masks or reference images for editing guidance, which limits their scalability and generalization. To address these issues, we propose LoVoRA, a novel framework for mask-free video object removal and addition using object-aware localization mechanism. Our approach utilizes a unique dataset construction pipeline that integrates image-to-video translation, optical flow-based mask propagation, and video inpainting, enabling temporally consistent edits. The core innovation of LoVoRA is its learnable object-aware localization mechanism, which provides dense spatio-temporal supervision for both object insertion and removal tasks. By leveraging a Diffusion Mask Predictor, LoVoRA achieves end-to-end video editing without requiring external control signals during inference. Extensive experiments and human evaluation demonstrate the effectiveness and high-quality performance of LoVoRA.
- Abstract(参考訳): テキスト誘導ビデオ編集、特にオブジェクトの削除と追加は、正確な空間的および時間的整合性を必要とするため、依然として難しい課題である。
既存の方法は、しばしば編集指導のための補助マスクや参照画像に依存しており、拡張性と一般化を制限している。
マスクレスビデオオブジェクト除去と付加のための新しいフレームワークであるLoVoRAをオブジェクト認識のローカライゼーション機構を用いて提案する。
提案手法では,画像から映像への変換,光フローベースのマスマスキング,映像のインパインティングを統合した独自のデータセット構築パイプラインを用いて,時間的に一貫した編集を可能にする。
LoVoRAの中核となる革新は、学習可能なオブジェクト認識ローカライゼーション機構であり、オブジェクト挿入と削除の両方のタスクに対して、高密度な時空間的監視を提供する。
Diffusion Mask Predictorを活用することで、LoVoRAは推論中に外部制御信号を必要とせずにエンドツーエンドのビデオ編集を実現する。
広汎な実験と人的評価により, LoVoRAの有効性と性能が示された。
関連論文リスト
- MAKIMA: Tuning-free Multi-Attribute Open-domain Video Editing via Mask-Guided Attention Modulation [55.101611012677616]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは,グローバルビデオ編集タスクにおいて顕著な結果を示した。
我々は、オープンドメインビデオ編集のための事前訓練されたT2Iモデル上に構築された、チューニング不要なMAEフレームワークであるMAKIMAを紹介する。
論文 参考訳(メタデータ) (2024-12-28T02:36:51Z) - Blended Latent Diffusion under Attention Control for Real-World Video Editing [5.659933808910005]
本稿では,局所的なビデオ編集作業を行うために,画像レベルのブレンド潜在拡散モデルを適用することを提案する。
具体的には、DDIMのインバージョンを利用して、ランダムにノイズのあるものではなく、背景の潜伏者として潜伏者を取得する。
また,拡散段階におけるクロスアテンションマップから導かれる自律マスク製造機構を導入する。
論文 参考訳(メタデータ) (2024-09-05T13:23:52Z) - Disentangling spatio-temporal knowledge for weakly supervised object detection and segmentation in surgical video [10.287675722826028]
本稿では,セミデカップリング型時間的知識蒸留を用いて,高品質なクラスアクティベーションマップ(CAM)の予測を行うために,VDST-Net(Video Spatio-Temporal Disment Networks)を導入している。
提案するフレームワークは,一般的な参照データセットや,オブジェクトが平均60%未満の注釈付きフレームに存在する,より困難な手術用ビデオデータセット上で有効であることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:52:32Z) - MotionEditor: Editing Video Motion via Content-Aware Diffusion [96.825431998349]
MotionEditorはビデオモーション編集のための拡散モデルである。
新たなコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。
論文 参考訳(メタデータ) (2023-11-30T18:59:33Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Occlusion-Aware Video Object Inpainting [72.38919601150175]
本稿では,映像における隠蔽物体の完全な形状と外観を復元する,隠蔽型映像オブジェクトの塗装について述べる。
我々の技術貢献であるVOINは、ビデオオブジェクト形状の完成と隠蔽テクスチャ生成を共同で行う。
より現実的な結果を得るために、VOINはT-PatchGANと新しい時間的YouTubeアテンションベースのマルチクラス識別器の両方を使用して最適化されている。
論文 参考訳(メタデータ) (2021-08-15T15:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。