論文の概要: GenEraser: Generalizable Video Object Removal via Balanced Text-Mask Guidance and Decoupled Locator-Preserver
- arxiv url: http://arxiv.org/abs/2605.30045v1
- Date: Thu, 28 May 2026 14:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.410032
- Title: GenEraser: Generalizable Video Object Removal via Balanced Text-Mask Guidance and Decoupled Locator-Preserver
- Title(参考訳): GenEraser: バランスのとれたテキストマスク誘導と分離されたロケータ-プレサーバによる一般的なビデオオブジェクトの削除
- Authors: Yuqing Chen, Lin Liu, Haisu Wu, Xiaopeng Zhang, Yaowei Wang, Yujiu Yang, Qi Tian,
- Abstract要約: GenEraserは、一般化された高忠実度ビデオオブジェクトとエフェクト除去のための新しいフレームワークである。
拡散変換器のマルチモーダル先行をフル活用するために,バイパートテキストガイダンスと組み合わせたMC-MoE(Multi-Conditional Mixture-of-Experts)を導入する。
また、マスクとテキスト条件の相対的優位性を適応的にバランスさせるための学習可能なDeep C'FGのFusion機構を提案する。
- 参考スコア(独自算出の注目度): 107.6554560318856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video object removal frequently struggles to simultaneously eliminate target objects and their associated physical effects (e.g., smoke, reflections, light, and ripples) in out-of-domain scenarios due to complex spatiotemporal ambiguities. While existing methods primarily rely on spatial masks, they often fail to capture weakly correlated effects, and the potential of explicit textual guidance remains underexplored. Furthermore, a fundamental optimization conflict exists in removal models between high-level semantic generalization and precise pixel-level background preservation. To address these challenges, we propose GenEraser, a novel framework for generalized and high-fidelity video object and effect removal. First, we introduce a Multi-Conditional Mixture-of-Experts (MC-MoE) paired with Bipartite Text guidance to fully exploit the multimodal priors of Diffusion Transformers, significantly enhancing the identification of complex effects. Second, a Learnable Deep ``CFG'' Fusion mechanism (LD-CFG) is developed to adaptively balance the relative dominance of mask and textual conditions across diverse scenarios. Finally, we propose a Decoupled Expert Architecture, comprising a Locator and a Preserver, to mitigate the inherent trade-off between semantic generalization and pixel alignment. Extensive experiments demonstrate that our GenEraser surpasses recent state-of-the-art approaches, achieving significant quantitative improvements (e.g., $2.16$ dB and $1.44$ dB on the ROSE Benchmark and VOR-Eval, respectively) while maintaining exceptionally robust generalization in open-world scenarios. https://cyqii.github.io/GenEraser.github.io/
- Abstract(参考訳): ビデオオブジェクトの除去は、複雑な時空間的曖昧さのために、ドメイン外のシナリオにおいて、ターゲットオブジェクトとその関連する物理的効果(例えば、煙、反射、光、波紋)を同時に除去するのに苦労する。
既存の手法は、主に空間マスクに依存しているが、弱い相関効果を捉えることができず、明示的なテキストガイダンスの可能性は未解明のままである。
さらに、高レベルのセマンティック一般化と正確なピクセルレベルの背景保存の間の除去モデルには、根本的な最適化の矛盾が存在する。
これらの課題に対処するために、一般化された高忠実度ビデオオブジェクトとエフェクト除去のための新しいフレームワークであるGenEraserを提案する。
まず,拡散変換器のマルチモーダル先行をフル活用するために,バイパートテキストガイダンスと組み合わせたMC-MoE(Multi-Conditional Mixture-of-Experts)を導入する。
第二に、学習可能なDeep ``CFG' 融合機構 (LD-CFG) を開発し、様々なシナリオにおいてマスクとテキスト条件の相対的優位性を適応的にバランスさせる。
最後に,ロケータとプリサーバからなる疎結合エキスパートアーキテクチャを提案し,セマンティック・ジェネリゼーションと画素アライメントのトレードオフを緩和する。
大規模な実験により、我々のGenEraserは最近の最先端のアプローチを超越し、重要な定量的改善(ROSE BenchmarkとVOR-Evalでそれぞれ$2.16$dBと$1.44$dB)を達成しつつ、オープンワールドのシナリオにおける非常に堅牢な一般化を維持しながら達成している。
https://cyqii.github.io/GenEraser.github.io/
関連論文リスト
- OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - Semantics and Content Matter: Towards Multi-Prior Hierarchical Mamba for Image Deraining [95.00432497331583]
画像デライニングのためのマルチPrior Hierarchical Mamba (MPHM) ネットワーク
MPHMは、タスクレベルのセマンティックガイダンスのためのマクロセマンティックテキスト先行(CLIP)と、シーン認識構造情報のためのマイクロ構造視覚先行(DINOv2)を統合している。
実験ではMPHMの最先端のパフォーマンスを実証し、Rain200Hデータセットで0.57dBのPSNRゲインを達成した。
論文 参考訳(メタデータ) (2025-11-17T08:08:59Z) - Multi-Agent Amodal Completion: Direct Synthesis with Fine-Grained Semantic Guidance [17.81116161163605]
隠されたオブジェクトの見えない部分を生成するアモーダルコンプリートは、画像編集やARといったアプリケーションには不可欠である。
本稿では,これらの問題を克服するための先行的協調推論に基づく協調的マルチエージェント推論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-22T13:20:06Z) - MemoryOut: Learning Principal Features via Multimodal Sparse Filtering Network for Semi-supervised Video Anomaly Detection [30.470777079947958]
再構成や予測に基づくビデオ異常検出(VAD)手法は2つの重要な課題に直面している。
強い一般化能力は、しばしば正確な再構築や異常事象の予測をもたらす。
低レベルの外観と動きの手がかりにのみ依存することは、複雑なシーンから異常な出来事における高レベルの意味を識別する能力を制限する。
論文 参考訳(メタデータ) (2025-06-03T07:14:57Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。