論文の概要: Interaction-Consistent Object Removal via MLLM-Based Reasoning
- arxiv url: http://arxiv.org/abs/2602.01298v1
- Date: Sun, 01 Feb 2026 15:55:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.70311
- Title: Interaction-Consistent Object Removal via MLLM-Based Reasoning
- Title(参考訳): MLLMに基づく推論による干渉一貫性物体の除去
- Authors: Ching-Kai Huang, Wen-Chieh Lin, Yan-Cen Lee,
- Abstract要約: 画像ベースのオブジェクト削除は、しばしば名前の付いたターゲットのみを消去し、結果が意味的に矛盾する相互作用の証拠を残します。
我々は、この問題を、対象のオブジェクトだけでなく、関連するインタラクション要素も除去する必要があるInteraction-Consistent Object removal (ICOR)として定式化する。
本稿では,Reasoning-Enhanced Object removal with MLLM (REORM)を提案する。
- 参考スコア(独自算出の注目度): 6.873849648746192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-based object removal often erases only the named target, leaving behind interaction evidence that renders the result semantically inconsistent. We formalize this problem as Interaction-Consistent Object Removal (ICOR), which requires removing not only the target object but also associated interaction elements, such as lighting-dependent effects, physically connected objects, targetproduced elements, and contextually linked objects. To address this task, we propose Reasoning-Enhanced Object Removal with MLLM (REORM), a reasoningenhanced object removal framework that leverages multimodal large language models to infer which elements must be jointly removed. REORM features a modular design that integrates MLLM-driven analysis, mask-guided removal, and a self-correction mechanism, along with a local-deployment variant that supports accurate editing under limited resources. To support evaluation, we introduce ICOREval, a benchmark consisting of instruction-driven removals with rich interaction dependencies. On ICOREval, REORM outperforms state-of-the-art image editing systems, demonstrating its effectiveness in producing interactionconsistent results.
- Abstract(参考訳): 画像ベースのオブジェクト削除は、しばしば名前の付いたターゲットのみを消去し、結果が意味的に矛盾する相互作用の証拠を残します。
我々は、この問題を、対象オブジェクトだけでなく、照明依存効果、物理的に連結されたオブジェクト、ターゲット生成された要素、コンテキストに関連付けられたオブジェクトなど、関連する相互作用要素の除去を必要とするInteraction-Consistent Object removal (ICOR)として定式化する。
この課題に対処するために、マルチモーダルな大規模言語モデルを利用して、どの要素を共同で取り除かなければならないかを推測する推論強化オブジェクト除去フレームワークである、MLLM(Reasoning-Enhanced Object removal with MLORM)を提案する。
REORMはMLLM駆動の分析、マスク誘導除去、自己補正機構を統合するモジュール設計と、限られたリソース下で正確な編集をサポートするローカルデプロイの亜種を備えている。
ICOREvalは、命令駆動による除去とリッチな相互依存のベンチマークである。
ICOREvalでは、REORMは最先端の画像編集システムより優れており、インタラクション一貫性のある結果を生成する効果を実証している。
関連論文リスト
- AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models [63.05306474002547]
を強制する規制フレームワークは、機械学習の必要性を喚起します。
AUVICはMLLMのための新しい視覚概念アンラーニングフレームワークである。
AUVICは,非ターゲット概念の性能劣化を最小限に抑えつつ,最先端の目標忘れ率を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-14T13:35:32Z) - CrimEdit: Controllable Editing for Counterfactual Object Removal, Insertion, and Movement [12.202217673682798]
CrimEditは単一のモデル内でタスクの埋め込みと挿入を訓練する。
両方の物体とその効果を除去し、挿入中の物体効果の制御可能な合成を可能にする。
CrimEditは、より優れたオブジェクト除去、制御可能なエフェクト挿入、効率的なオブジェクト移動を実現する。
論文 参考訳(メタデータ) (2025-09-28T07:41:25Z) - ObjectClear: Complete Object Removal via Object-Effect Attention [56.2893552300215]
我々は、オブジェクトとそれに関連する視覚的アーティファクトの両方の正確なマスクとともに、オブジェクト効果と不要なペア画像を提供するOBERという、オブジェクト・エフェクト除去のための新しいデータセットを紹介した。
本研究では,物体効果の注意機構を組み込んだ新しいフレームワーク ObjectClear を提案する。
実験では、ObjectClearが既存のメソッドよりも優れており、特に複雑なシナリオにおいて、オブジェクト・エフェクトの除去品質と背景の忠実さの改善を実現している。
論文 参考訳(メタデータ) (2025-05-28T17:51:17Z) - Marmot: Object-Level Self-Correction via Multi-Agent Reasoning [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を活用する、新しくて一般化可能なフレームワークである。
Marmotは、画像生成タスクにおけるオブジェクトカウント、属性割り当て、空間関係の精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-04-10T16:54:28Z) - ObjectRelator: Enabling Cross-View Object Relation Understanding Across Ego-Centric and Exo-Centric Perspectives [109.11714588441511]
Ego-Exoオブジェクト対応タスクは,セグメンテーションを通じて,ego-Exoパースペクティブ間のオブジェクト関係を理解することを目的としている。
最近提案されたセグメンテーション手法であるPSALMは、このタスクでデモされたゼロショット能力を例外として挙げている。
我々は、マルチモーダルコンディションフュージョンとSSLベースのクロスビューオブジェクトアライメントという、2つの重要なモジュールを特徴とする新しいアプローチであるObjectRelatorを提案する。
論文 参考訳(メタデータ) (2024-11-28T12:01:03Z) - CaRe-Ego: Contact-aware Relationship Modeling for Egocentric Interactive Hand-object Segmentation [14.765419467710812]
エゴセントリック・インタラクティブ・ハンドオブジェクト・セグメンテーション(EgoIHOS)は補助システムにおける人間の行動を理解する上で重要である。
従来の手法では、視覚的特徴のみに基づいて、手とオブジェクトの相互作用を別個の意味圏として認識していた。
本稿では,2つの側面から手と物体の接触を強調するCaRe-Egoを提案する。
論文 参考訳(メタデータ) (2024-07-08T03:17:10Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。