論文の概要: EraseLoRA: MLLM-Driven Foreground Exclusion and Background Subtype Aggregation for Dataset-Free Object Removal
- arxiv url: http://arxiv.org/abs/2512.21545v1
- Date: Thu, 25 Dec 2025 07:34:38 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:05:21.261668
- Title: EraseLoRA: MLLM-Driven Foreground Exclusion and Background Subtype Aggregation for Dataset-Free Object Removal
- Title(参考訳): EraseLoRA: MLLMによるデータフリーオブジェクト除去のための前景排除とバックグラウンドサブタイプアグリゲーション
- Authors: Sanghyun Jo, Donghwan Lee, Eunji Jung, Seong Je Oh, Kyungsu Kim,
- Abstract要約: 本稿では,注目手術を背景認識推論とテスト時間適応に置き換えるデータセットフリーフレームワークであるEraseLoRAを提案する。
第一に、バックグラウンド対応のフォアグラウンド・エクスクルージョン(BFE)は、マルチモーダルな言語モデルを使用して、ターゲットフォアグラウンド、非ターゲットフォアグラウンド、クリーンなバックグラウンドを、ペアの監督なしに単一のイメージマスクペアから分離する。
第2に、サブタイプアグリゲーション(BRSA)によるバックグラウンド認識リコンストラクションは、推論されたバックグラウンドサブタイプを相補的なピースとして扱うテストタイム最適化を実行する。
- 参考スコア(独自算出の注目度): 10.015328934927062
- License:
- Abstract: Object removal differs from common inpainting, since it must prevent the masked target from reappearing and reconstruct the occluded background with structural and contextual fidelity, rather than merely filling a hole plausibly. Recent dataset-free approaches that redirect self-attention inside the mask fail in two ways: non-target foregrounds are often misinterpreted as background, which regenerates unwanted objects, and direct attention manipulation disrupts fine details and hinders coherent integration of background cues. We propose EraseLoRA, a novel dataset-free framework that replaces attention surgery with background-aware reasoning and test-time adaptation. First, Background-aware Foreground Exclusion (BFE), uses a multimodal large-language models to separate target foreground, non-target foregrounds, and clean background from a single image-mask pair without paired supervision, producing reliable background cues while excluding distractors. Second, Background-aware Reconstruction with Subtype Aggregation (BRSA), performs test-time optimization that treats inferred background subtypes as complementary pieces and enforces their consistent integration through reconstruction and alignment objectives, preserving local detail and global structure without explicit attention intervention. We validate EraseLoRA as a plug-in to pretrained diffusion models and across benchmarks for object removal, demonstrating consistent improvements over dataset-free baselines and competitive results against dataset-driven methods. The code will be made available upon publication.
- Abstract(参考訳): 物体の除去は一般的な塗布と異なり、マスクされたターゲットが、単に穴を確実に埋めるのではなく、隠蔽された背景を構造的・文脈的忠実に再現し直さなければならない。
非ターゲットフォアグラウンドは、しばしば、不要なオブジェクトを再生するバックグラウンドとして誤解される。
本稿では,注目手術を背景認識推論とテスト時間適応に置き換える新しいデータセットフリーフレームワークであるEraseLoRAを提案する。
第一に、バックグラウンド対応のフォアグラウンド・エクスクルージョン(BFE)は、ターゲットフォアグラウンド、非ターゲットフォアグラウンド、クリーンなバックグラウンドを、ペアの監督なしに単一のイメージマスクペアから分離するために、マルチモーダルな言語モデルを使用する。
第2に、サブタイプアグリゲーション(BRSA)を用いたバックグラウンドアグリゲーション(英語版)は、推論されたバックグラウンドサブタイプを相補的なピースとして扱うテストタイム最適化を行い、その一貫した統合を再構築とアライメントの目的を通じて実施し、局所的な詳細とグローバルな構造を明示的に注意を払わずに維持する。
我々は、事前訓練された拡散モデルとオブジェクト除去のためのベンチマークのプラグインとしてEraseLoRAを評価し、データセットフリーベースラインに対する一貫性のある改善とデータセット駆動方式に対する競合的な結果を示す。
コードは公開時に公開されます。
関連論文リスト
- Foundation Model Priors Enhance Object Focus in Feature Space for Source-Free Object Detection [38.14795337940857]
ドメインシフトは、検出器が強力なオブジェクト中心の表現を維持する能力を低下させる。
FALCON-SFODはドメインシフト下でのオブジェクト指向適応を強化するために設計されたフレームワークである。
論文 参考訳(メタデータ) (2025-12-19T12:30:29Z) - Unsupervised Structural Scene Decomposition via Foreground-Aware Slot Attention with Pseudo-Mask Guidance [36.23578004588688]
本研究では,フォアグラウンドを背景から切り離して正確なオブジェクト発見を可能にする2段階フレームワークであるフォアグラウンド・アウェア・スロット・アテンション(FASA)を提案する。
第1段階では、FASAは背景領域と背景領域を区別する粗いシーン分解を行う。
第2段階では、第1スロットが背景を捉え、残りのスロットが個々の前景オブジェクトを表現するために競うマスク付きスロットアテンション機構を導入する。
合成データセットと実世界のデータセットの両方の実験は、FASAが一貫して最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2025-12-02T12:14:05Z) - ObjectClear: Complete Object Removal via Object-Effect Attention [56.2893552300215]
我々は、オブジェクトとそれに関連する視覚的アーティファクトの両方の正確なマスクとともに、オブジェクト効果と不要なペア画像を提供するOBERという、オブジェクト・エフェクト除去のための新しいデータセットを紹介した。
本研究では,物体効果の注意機構を組み込んだ新しいフレームワーク ObjectClear を提案する。
実験では、ObjectClearが既存のメソッドよりも優れており、特に複雑なシナリオにおいて、オブジェクト・エフェクトの除去品質と背景の忠実さの改善を実現している。
論文 参考訳(メタデータ) (2025-05-28T17:51:17Z) - Mitigating Context Bias in Domain Adaptation for Object Detection using Mask Pooling [1.1060425537315088]
コンテキストバイアス(Context bias)とは、オブジェクト検出トレーニングプロセスにおいて、前景オブジェクトと背景の関係を指す。
我々は、畳み込みネットワークアーキテクチャにおけるプール操作を、このバイアスの可能な源として、コンテキストバイアスの因果的視点を提供する。
本研究では,前景マスクの追加入力を用いて,前景と背景領域のプール処理を分離するマスクプーリングを提案する。
論文 参考訳(メタデータ) (2025-05-24T01:05:20Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - ILSGAN: Independent Layer Synthesis for Unsupervised
Foreground-Background Segmentation [49.61394755739333]
教師なしフォアグラウンド・バックグラウンド・セグメンテーションは、散らかった背景から有能な物体を抽出することを目的としている。
我々は、ILSGAN(Independent Layer Synthesis GAN)と呼ばれる、単純かつ効果的な明示的な層独立性モデリング手法を提案する。
我々のILSGANは、複雑な実世界のデータに対して、強力な最先端の生成品質とセグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2022-11-25T09:35:46Z) - Self-Supervised Video Object Segmentation via Cutout Prediction and
Tagging [117.73967303377381]
本稿では, 自己教師型ビデオオブジェクト(VOS)アプローチを提案する。
本手法は,対象情報と背景情報の両方を考慮した識別学習損失の定式化に基づく。
提案手法であるCT-VOSは, DAVIS-2017 と Youtube-VOS の2つの挑戦的なベンチマークにおいて,最先端の結果を達成している。
論文 参考訳(メタデータ) (2022-04-22T17:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。