論文の概要: PANDORA: Pixel-wise Attention Dissolution and Latent Guidance for Zero-Shot Object Removal
- arxiv url: http://arxiv.org/abs/2603.27555v1
- Date: Sun, 29 Mar 2026 07:34:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.023196
- Title: PANDORA: Pixel-wise Attention Dissolution and Latent Guidance for Zero-Shot Object Removal
- Title(参考訳): PANDORA: ゼロショットオブジェクト除去のための画素単位の注意解離と潜時誘導
- Authors: Dinh-Khoi Vo, Van-Loc Nguyen, Tam V. Nguyen, Minh-Triet Tran, Trung-Nghia Le,
- Abstract要約: 本研究では,事前学習したテキスト・画像拡散モデル上で直接動作する新しいゼロショットオブジェクト除去フレームワークであるPANDORAを提案する。
マスクされた画素に対して最も相関の深い注目キーを無効にすることで、オブジェクトを削除するために、Pixel-wise Attention Dissolutionを提案する。
さらに, 対象物除去に好適な潜伏多様体に対して, ステアリングを行うための局所的注意散らし誘導について紹介する。
- 参考スコア(独自算出の注目度): 18.565422674751215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Removing objects from natural images is challenging due to difficulty of synthesizing semantically coherent content while preserving background integrity. Existing methods often rely on fine-tuning, prompt engineering, or inference-time optimization, yet still suffer from texture inconsistency, rigid artifacts, weak foreground-background disentanglement, and poor scalability for multi-object removal. We propose a novel zero-shot object removal framework, namely PANDORA, that operates directly on pre-trained text-to-image diffusion models, requiring no fine-tuning, prompts, or optimization. We propose Pixel-wise Attention Dissolution to remove object by nullifying the most correlated attention keys for masked pixels, effectively eliminating the object from self-attention flow and allowing background context to dominate reconstruction. We further introduce Localized Attentional Disentanglement Guidance to steer denoising toward latent manifolds favorable to clean object removal. Together, these components enable precise, non-rigid, prompt-free, and scalable multi-object erasure in a single pass. Experiments demonstrate superior visual fidelity and semantic plausibility compared to state-of-the-art methods. The project page is available at https://vdkhoi20.github.io/PANDORA.
- Abstract(参考訳): 背景の完全性を維持しながら意味的コヒーレントなコンテンツを合成することの難しさから、自然画像からオブジェクトを除去することは困難である。
既存の手法は、微調整、迅速なエンジニアリング、あるいは推論時の最適化に頼っていることが多いが、それでもテクスチャの不整合、固いアーチファクト、前景と後方のゆがみの弱い、マルチオブジェクト除去のためのスケーラビリティの低下に悩まされている。
本研究では,未学習のテキスト・画像拡散モデルを直接操作し,微調整やプロンプト,最適化を必要とせず,新たなゼロショットオブジェクト除去フレームワークであるPANDORAを提案する。
マスクされた画素に対して最も関連性の高い注目キーを無効にし、自己注意の流れからオブジェクトを効果的に排除し、背景コンテキストが再構成を支配することによってオブジェクトを除去する。
さらに, 物体除去に好適な潜伏多様体に対して, ステアリングを行うために, 局所的注意分散誘導を導入する。
これらのコンポーネントは、正確で、厳密で、プロンプトフリーで、スケーラブルなマルチオブジェクト消去を可能にする。
実験では、最先端の手法と比較して、視覚的忠実度と意味的妥当性が優れていることを示した。
プロジェクトページはhttps://vdkhoi20.github.io/PANDORAで公開されている。
関連論文リスト
- ObjectClear: Complete Object Removal via Object-Effect Attention [56.2893552300215]
我々は、オブジェクトとそれに関連する視覚的アーティファクトの両方の正確なマスクとともに、オブジェクト効果と不要なペア画像を提供するOBERという、オブジェクト・エフェクト除去のための新しいデータセットを紹介した。
本研究では,物体効果の注意機構を組み込んだ新しいフレームワーク ObjectClear を提案する。
実験では、ObjectClearが既存のメソッドよりも優れており、特に複雑なシナリオにおいて、オブジェクト・エフェクトの除去品質と背景の忠実さの改善を実現している。
論文 参考訳(メタデータ) (2025-05-28T17:51:17Z) - OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting [54.525583840585305]
我々はオブジェクトの削除と挿入を相互依存プロセスとして再概念化する統合フレームワークであるOmniPaintを紹介した。
我々の新しいCFDメトリクスは、コンテキスト整合性とオブジェクト幻覚の堅牢で参照不要な評価を提供する。
論文 参考訳(メタデータ) (2025-03-11T17:55:27Z) - OmniEraser: Remove Objects and Their Effects in Images with Paired Video-Frame Data [21.469971783624402]
本稿では,現実的な物体影と反射を伴う10万以上の高品質なサンプルからなる大規模データセットであるVideo4Removalを提案する。
ビデオフレームと市販のビジョンモデルからオブジェクト-バックグラウンドペアを構築することにより、データ取得の作業コストを大幅に削減することができる。
形状的なアーティファクトや意図しないコンテンツを生成するのを避けるために,Object-Background Guidanceを提案する。
我々は,オブジェクトマスクのみを入力として,オブジェクトとその視覚効果をシームレスに除去する新しい手法であるOmniEraserを提案する。
論文 参考訳(メタデータ) (2025-01-13T15:12:40Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - OR-NeRF: Object Removing from 3D Scenes Guided by Multiview Segmentation
with Neural Radiance Fields [53.32527220134249]
ニューラル・レージアンス・フィールド(NeRF)の出現により,3次元シーン編集への関心が高まっている。
現在の手法では、時間を要するオブジェクトのラベル付け、特定のターゲットを削除する能力の制限、削除後のレンダリング品質の妥協といった課題に直面している。
本稿では, OR-NeRF と呼ばれる新しいオブジェクト除去パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-17T18:18:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。