論文の概要: MiniMax-Remover: Taming Bad Noise Helps Video Object Removal
- arxiv url: http://arxiv.org/abs/2505.24873v1
- Date: Fri, 30 May 2025 17:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.132137
- Title: MiniMax-Remover: Taming Bad Noise Helps Video Object Removal
- Title(参考訳): MiniMax-Removerは、ビデオオブジェクトの除去に役立つ悪質なノイズをタグ付けする
- Authors: Bojia Zi, Weixuan Peng, Xianbiao Qi, Jianan Wang, Shihao Zhao, Rong Xiao, Kam-Fai Wong,
- Abstract要約: 新たな2段階ビデオオブジェクト除去手法であるMiniMax-Removerを提案する。
この課題にテキスト条件が適さないという観察に感銘を受け、事前学習した映像生成モデルを簡素化する。
第2段階では,Stage-1モデルで生成し,ヒトのアノテータで硬化したビデオに対して,除去剤を蒸留した。
- 参考スコア(独自算出の注目度): 20.990172058377752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in video diffusion models have driven rapid progress in video editing techniques. However, video object removal, a critical subtask of video editing, remains challenging due to issues such as hallucinated objects and visual artifacts. Furthermore, existing methods often rely on computationally expensive sampling procedures and classifier-free guidance (CFG), resulting in slow inference. To address these limitations, we propose MiniMax-Remover, a novel two-stage video object removal approach. Motivated by the observation that text condition is not best suited for this task, we simplify the pretrained video generation model by removing textual input and cross-attention layers, resulting in a more lightweight and efficient model architecture in the first stage. In the second stage, we distilled our remover on successful videos produced by the stage-1 model and curated by human annotators, using a minimax optimization strategy to further improve editing quality and inference speed. Specifically, the inner maximization identifies adversarial input noise ("bad noise") that makes failure removals, while the outer minimization step trains the model to generate high-quality removal results even under such challenging conditions. As a result, our method achieves a state-of-the-art video object removal results with as few as 6 sampling steps and doesn't rely on CFG, significantly improving inference efficiency. Extensive experiments demonstrate the effectiveness and superiority of MiniMax-Remover compared to existing methods. Codes and Videos are available at: https://minimax-remover.github.io.
- Abstract(参考訳): 近年,映像拡散モデルが進歩し,映像編集技術が急速に進歩している。
しかし、ビデオ編集の重要なサブタスクであるビデオオブジェクトの除去は、幻覚的オブジェクトや視覚的アーティファクトといった問題により、依然として困難である。
さらに、既存の手法は計算コストのかかるサンプリング手順と分類器フリーガイダンス(CFG)に依存しており、推論が遅い。
これらの制約に対処するため,新しい2段階ビデオオブジェクト除去手法であるMiniMax-Removerを提案する。
この課題にテキスト条件が適さないという観察に感銘を受け、テキスト入力層とクロスアテンション層を取り除き、事前訓練された映像生成モデルを簡素化し、第1段階でより軽量で効率的なモデルアーキテクチャを実現する。
第2段階では,第1ステージモデルで生成し,ヒトアノテータでキュレートしたビデオに対して,最小限の最適化手法を用いて除去器を蒸留し,編集品質と推論速度をさらに向上させた。
特に、内最大化は、障害を除去する逆入力ノイズ(バッドノイズ)を識別し、外最小化ステップは、そのような困難な条件下であっても高品質な除去結果を生成するようにモデルを訓練する。
その結果,提案手法は,6段階のサンプリングを行わず,CFGに依存しない最先端の映像オブジェクト除去結果を実現し,推論効率を著しく向上させることができた。
大規模な実験は、既存の方法と比較してMiniMax-Removerの有効性と優位性を示す。
コードとビデオは、https://minimax-remover.github.io.comで入手できる。
関連論文リスト
- Temporal Action Detection Model Compression by Progressive Block Drop [19.122679098124816]
時間的アクション検出(TAD)は、未トリミングビデオ中のアクションインスタンスを識別し、ローカライズすることを目的としている。
より大きな特徴抽出器とデータセットによって駆動されるモデル性能の最近の改善は、計算要求の増大につながった。
層幅を維持しながらモデル深さを低減するプログレッシブ・ブロック・ドロップ法を提案する。
提案手法は2つのTADベンチマークで計算オーバーヘッドを25%削減する。
論文 参考訳(メタデータ) (2025-03-21T07:26:55Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - VJT: A Video Transformer on Joint Tasks of Deblurring, Low-light
Enhancement and Denoising [45.349350685858276]
ビデオ復元作業は、低品質な観察から高品質な映像を復元することを目的としている。
ビデオはしばしば、ぼやけ、低照度、ノイズなど、さまざまな種類の劣化に直面します。
本稿では,映像の劣化,低照度化,雑音化といった共同作業に対して,効率的なエンドツーエンドビデオトランスフォーマ手法を提案する。
論文 参考訳(メタデータ) (2024-01-26T10:27:56Z) - InstructVideo: Instructing Video Diffusion Models with Human Feedback [65.9590462317474]
InstructVideo は人からのフィードバックでテキスト・ビデオ拡散モデルに報酬の微調整を施す。
InstructVideoには2つの重要な要素がある: 1) 全DDIMサンプリングチェーンを通じて発生する報酬微調整のコストを改善するために、編集として報酬微調整を再放送する。
論文 参考訳(メタデータ) (2023-12-19T17:55:16Z) - OR-NeRF: Object Removing from 3D Scenes Guided by Multiview Segmentation
with Neural Radiance Fields [53.32527220134249]
ニューラル・レージアンス・フィールド(NeRF)の出現により,3次元シーン編集への関心が高まっている。
現在の手法では、時間を要するオブジェクトのラベル付け、特定のターゲットを削除する能力の制限、削除後のレンダリング品質の妥協といった課題に直面している。
本稿では, OR-NeRF と呼ばれる新しいオブジェクト除去パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-17T18:18:05Z) - Learning Task-Oriented Flows to Mutually Guide Feature Alignment in
Synthesized and Real Video Denoising [137.5080784570804]
Video Denoisingは、クリーンなノイズを回復するためにビデオからノイズを取り除くことを目的としている。
既存の研究によっては、近辺のフレームから追加の空間的時間的手がかりを利用することで、光学的流れがノイズ発生の助けとなることが示されている。
本稿では,様々なノイズレベルに対してより堅牢なマルチスケール光フロー誘導型ビデオデノイング法を提案する。
論文 参考訳(メタデータ) (2022-08-25T00:09:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。