論文の概要: A$^2$-Edit: Precise Reference-Guided Image Editing of Arbitrary Objects and Ambiguous Masks
- arxiv url: http://arxiv.org/abs/2603.10685v1
- Date: Wed, 11 Mar 2026 11:54:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.926389
- Title: A$^2$-Edit: Precise Reference-Guided Image Editing of Arbitrary Objects and Ambiguous Masks
- Title(参考訳): A$^2$-Edit: 任意オブジェクトとあいまいなマスクの精密参照ガイド画像編集
- Authors: Huayu Zheng, Guangzhao Li, Baixuan Zhao, Siqi Luo, Hantao Jiang, Guangtao Zhai, Xiaohong Liu,
- Abstract要約: A$2$-Editを使用すると、ユーザーは粗いマスクだけを使用して任意の対象領域を参照オブジェクトに置き換えることができる。
大規模なマルチカテゴリデータセット textbfUniEdit-500K を構築し,8つの主要カテゴリ,209個の細粒度サブカテゴリ,合計500,104個のイメージペアを含む。
VITON-HDやAnyInsertionのようなベンチマークの実験は、A$2$-Editがすべてのメトリクスで既存のアプローチを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 43.7310424309372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose \textbf{A$^2$-Edit}, a unified inpainting framework for arbitrary object categories, which allows users to replace any target region with a reference object using only a coarse mask. To address the issues of severe homogenization and limited category coverage in existing datasets, we construct a large-scale, multi-category dataset \textbf{UniEdit-500K}, which includes 8 major categories, 209 fine-grained subcategories, and a total of 500,104 image pairs. Such rich category diversity poses new challenges for the model, requiring it to automatically learn semantic relationships and distinctions across categories. To this end, we introduce the \textbf{Mixture of Transformer} module, which performs differentiated modeling of various object categories through dynamic expert selection, and further enhances cross-category semantic transfer and generalization through collaboration among experts. In addition, we propose a \textbf{Mask Annealing Training Strategy} (MATS) that progressively relaxes mask precision during training, reducing the model's reliance on accurate masks and improving robustness across diverse editing tasks. Extensive experiments on benchmarks such as VITON-HD and AnyInsertion demonstrate that A$^2$-Edit consistently outperforms existing approaches across all metrics, providing a new and efficient solution for arbitrary object editing.
- Abstract(参考訳): 本稿では,任意の対象カテゴリを対象とした統一型インペイントフレームワークである \textbf{A$^2$-Edit} を提案する。
既存のデータセットにおける厳密な均質化と限定されたカテゴリカバレッジの問題に対処するため、大規模で多カテゴリのデータセットである \textbf{UniEdit-500K} を構築し、このデータセットには8つの主要なカテゴリ、209のきめ細かいサブカテゴリ、合計500,104の画像対が含まれる。
このようなリッチなカテゴリの多様性は、モデルに新たな課題をもたらし、カテゴリ間のセマンティックな関係と区別を自動的に学習する必要がある。
この目的のために、動的専門家選択により様々な対象カテゴリの区別されたモデリングを行い、専門家同士の協調によるカテゴリ間セマンティックトランスファーと一般化をさらに強化する「トランスフォーマーのテキストbf{Mixture of Transformer}」モジュールを導入する。
さらに,トレーニング中のマスク精度を段階的に緩和し,精度の高いマスクへの依存を低減し,多様な編集作業における堅牢性を向上させることを目的とした「textbf{Mask Annealing Training Strategy} (MATS)」を提案する。
VITON-HDやAnyInsertionのようなベンチマークに関する大規模な実験は、A$^2$-Editがすべてのメトリクスにわたって既存のアプローチを一貫して上回り、任意のオブジェクト編集のための新しい効率的なソリューションを提供することを示した。
関連論文リスト
- Segment and Matte Anything in a Unified Model [5.8874968768571625]
Segment Anything (SAM)は先日,ゼロショットの一般化とフレキシブルプロンプトを実証することによって,セグメンテーションの境界を推し進めた。
SAMの軽量拡張であるSegment And Matte Anything(SAMA)を紹介する。
論文 参考訳(メタデータ) (2026-01-17T19:43:10Z) - AGSwap: Overcoming Category Boundaries in Object Fusion via Adaptive Group Swapping [45.92060292948099]
クロスカテゴリオブジェクトを1つのコヒーレントオブジェクトに融合させることは、テキスト・ツー・イメージ(T2I)生成において注目を集めている。
textbfAdaptive Group Swapping (AGSwap) を提案する。
我々はまた、ImageNet-1KとWordNet上に構築された大規模で階層的に構造化されたデータセットである textbfCross-category Object Fusion (COF) も導入した。
論文 参考訳(メタデータ) (2025-09-23T06:32:14Z) - MASSeg : 2nd Technical Report for 4th PVUW MOSE Track [4.988774092444048]
複雑なビデオオブジェクトセグメンテーションのためのMASSegという改良モデルを提案し,MOSE+という拡張データセットを構築した。
トレーニング中に、堅牢性と一般化を改善するために、フレーム間の一貫性と一貫性のないデータ拡張戦略を組み合わせる。
MASSegはJスコア0.8250、Fスコア0.9007、J&Fスコア0.8628をMOSEテストセットで達成する。
論文 参考訳(メタデータ) (2025-04-14T14:15:46Z) - Mask Factory: Towards High-quality Synthetic Data Generation for Dichotomous Image Segmentation [70.95380821618711]
Dichotomous Image (DIS) タスクは高度に正確なアノテーションを必要とする。
現在の生成モデルとテクニックは、シーンのずれ、ノイズによるエラー、限られたトレーニングサンプルの変動といった問題に苦慮している。
多様な正確なデータセットを生成するためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2024-12-26T06:37:25Z) - MaskUno: Switch-Split Block For Enhancing Instance Segmentation [0.0]
マスク予測を洗練されたROIを処理し、それらを分類し、特定のマスク予測者に割り当てるスイッチスプリットブロックに置き換えることを提案する。
平均平均精度(mAP)が2.03%上昇し,80クラスにおいて高い成績を示した。
論文 参考訳(メタデータ) (2024-07-31T10:12:14Z) - Mixed-Query Transformer: A Unified Image Segmentation Architecture [57.32212654642384]
既存の統合イメージセグメンテーションモデルは、複数のタスクにまたがる統一アーキテクチャを採用するが、各データセットに合わせた個別の重みを使用するか、複数のデータセットに1セットの重みを適用するが、1つのタスクに限定される。
マルチタスクとマルチデータセット画像セグメンテーションを一組の重みで統合したアーキテクチャであるMixed-Query Transformer (MQ-Former)を紹介した。
論文 参考訳(メタデータ) (2024-04-06T01:54:17Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - Per-Pixel Classification is Not All You Need for Semantic Segmentation [184.2905747595058]
マスク分類はセマンティックレベルのセグメンテーションタスクとインスタンスレベルのセグメンテーションタスクの両方を解くのに十分一般的である。
マスクの集合を予測する単純なマスク分類モデルであるMaskFormerを提案する。
提案手法は,現在の最先端セマンティック(ADE20Kでは55.6 mIoU)とパノプティックセグメンテーション(COCOでは52.7 PQ)モデルの両方に優れる。
論文 参考訳(メタデータ) (2021-07-13T17:59:50Z) - LevelSet R-CNN: A Deep Variational Method for Instance Segmentation [79.20048372891935]
現在、多くのアートモデルはMask R-CNNフレームワークに基づいている。
本稿では,両世界の長所を結合したR-CNNを提案する。
我々はCOCOおよびCityscapesデータセットに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2020-07-30T17:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。