論文の概要: Learning Stochastic Bridges for Video Object Removal via Video-to-Video Translation
- arxiv url: http://arxiv.org/abs/2601.12066v1
- Date: Sat, 17 Jan 2026 14:22:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.444883
- Title: Learning Stochastic Bridges for Video Object Removal via Video-to-Video Translation
- Title(参考訳): 映像翻訳による映像オブジェクト除去のための確率的ブリッジの学習
- Authors: Zijie Lou, Xiangwei Feng, Jiaxin Wang, Xiaochao Qu, Luoqi Liu, Ting Liu,
- Abstract要約: ブリッジモデルを用いて映像オブジェクトの削除をビデオ間翻訳タスクとして再構成する。
ノイズd法とは異なり、我々のフレームワークは、ソースビデオ(オブジェクトを含む)からターゲットビデオ(オブジェクトを除去する)への直接パスを確立する。
このブリッジ定式化は、入力ビデオを強い構造的先行として有効に活用し、モデルに正確な除去を誘導するとともに、充填領域が周囲環境と論理的に整合していることを保証する。
- 参考スコア(独自算出の注目度): 24.263367201734628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing video object removal methods predominantly rely on diffusion models following a noise-to-data paradigm, where generation starts from uninformative Gaussian noise. This approach discards the rich structural and contextual priors present in the original input video. Consequently, such methods often lack sufficient guidance, leading to incomplete object erasure or the synthesis of implausible content that conflicts with the scene's physical logic. In this paper, we reformulate video object removal as a video-to-video translation task via a stochastic bridge model. Unlike noise-initialized methods, our framework establishes a direct stochastic path from the source video (with objects) to the target video (objects removed). This bridge formulation effectively leverages the input video as a strong structural prior, guiding the model to perform precise removal while ensuring that the filled regions are logically consistent with the surrounding environment. To address the trade-off where strong bridge priors hinder the removal of large objects, we propose a novel adaptive mask modulation strategy. This mechanism dynamically modulates input embeddings based on mask characteristics, balancing background fidelity with generative flexibility. Extensive experiments demonstrate that our approach significantly outperforms existing methods in both visual quality and temporal consistency.
- Abstract(参考訳): 既存のビデオオブジェクト除去法は、非形式的なガウスノイズから生成が始まるノイズ・ツー・データ・パラダイムに従って拡散モデルに依存する。
このアプローチは、元の入力ビデオに存在するリッチな構造的および文脈的先行性を捨てる。
その結果、このような方法は十分なガイダンスを欠くことが多く、不完全なオブジェクトの消去や、シーンの物理論理と矛盾する不可解なコンテンツの合成に繋がる。
本稿では,映像オブジェクトの削除を確率的ブリッジモデルを用いてビデオ間翻訳タスクとして再構成する。
ノイズ初期化法とは違って,本フレームワークは,音源映像から対象映像への直接確率的経路を確立する。
このブリッジ定式化は、入力ビデオを強い構造的先行として有効に活用し、モデルに正確な除去を誘導するとともに、充填領域が周囲環境と論理的に整合していることを保証する。
橋梁が大きな物体の除去を妨げているトレードオフに対処するため,新しい適応型マスク変調戦略を提案する。
この機構は、マスク特性に基づいて入力埋め込みを動的に変調し、背景の忠実度と生成柔軟性のバランスをとる。
広汎な実験により、我々のアプローチは、視覚的品質と時間的一貫性の両方において、既存の手法を著しく上回っていることが示された。
関連論文リスト
- Unified Video Editing with Temporal Reasoner [20.19759768002609]
本稿では,Chain-of-Framesアプローチとして,Chain-of-Thought推論にヒントを得たVideoCoFを提案する。
VideoCoFは、ビデオ拡散モデルを説得して、最初に推論トークンを予測することによって、シー、シー、シー、エディット"手順を強制する。
我々は,50kビデオペアの最小データコストで,VideoCoF-Benchの最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2025-12-08T11:50:18Z) - Generative Omnimatte: Learning to Decompose Video into Layers [29.098471541412113]
本報告では,全方位問題に対処する新しい生成階層化ビデオ分解フレームワークを提案する。
私たちの中核となる考え方は、特定の物体によって引き起こされるシーン効果を識別し除去するために、ビデオ拡散モデルを訓練することです。
我々は,このモデルを,小さく,慎重にキュレートしたデータセットを用いて,既存のビデオインペイントモデルから微調整できることを示す。
論文 参考訳(メタデータ) (2024-11-25T18:59:57Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Motion-Zero: Zero-Shot Moving Object Control Framework for Diffusion-Based Video Generation [10.5019872575418]
本研究では,ゼロショット移動物体軌道制御フレームワークであるMotion-Zeroを提案する。
本手法は、トレーニングプロセスなしで、様々な最先端ビデオ拡散モデルに柔軟に適用できる。
論文 参考訳(メタデータ) (2024-01-18T17:22:37Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Style-A-Video: Agile Diffusion for Arbitrary Text-based Video Style
Transfer [13.098901971644656]
本稿では,Style-A-Video というゼロショットビデオスタイリング手法を提案する。
画像遅延拡散モデルを用いた生成事前学習型トランスフォーマーを用いて、簡潔なテキスト制御ビデオスタイリングを実現する。
テストの結果,従来のソリューションよりも少ない使用量で,優れたコンテンツ保存とスタイリスティックな性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-09T14:03:27Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - TransMoMo: Invariance-Driven Unsupervised Video Motion Retargeting [107.39743751292028]
TransMoMoは、ソースビデオ中の人の動きを、ターゲットの別のビデオに現実的に転送することができる。
動き, 構造, ビューアングルを含む3つの要因の不変性を利用する。
本研究では,最先端手法に対する提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-03-31T17:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。