論文の概要: Affordance-Aware Object Insertion via Mask-Aware Dual Diffusion
- arxiv url: http://arxiv.org/abs/2412.14462v1
- Date: Thu, 19 Dec 2024 02:23:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:31:32.892015
- Title: Affordance-Aware Object Insertion via Mask-Aware Dual Diffusion
- Title(参考訳): Mask-Aware Dual Diffusion による高次物体挿入
- Authors: Jixuan He, Wanhua Li, Ye Liu, Junsik Kim, Donglai Wei, Hanspeter Pfister,
- Abstract要約: 我々は、人中心画像合成タスクから、より一般的なオブジェクトシーン合成フレームワークまで、Affordanceの概念を拡張した。
マルチストリームアーキテクチャを用いてRGB画像と挿入マスクを同時に識別するMask-Aware Dual Diffusion (MADD)モデルを提案する。
提案手法は最先端の手法より優れており,画像に強い一般化性能を示す。
- 参考スコア(独自算出の注目度): 29.770096013143117
- License:
- Abstract: As a common image editing operation, image composition involves integrating foreground objects into background scenes. In this paper, we expand the application of the concept of Affordance from human-centered image composition tasks to a more general object-scene composition framework, addressing the complex interplay between foreground objects and background scenes. Following the principle of Affordance, we define the affordance-aware object insertion task, which aims to seamlessly insert any object into any scene with various position prompts. To address the limited data issue and incorporate this task, we constructed the SAM-FB dataset, which contains over 3 million examples across more than 3,000 object categories. Furthermore, we propose the Mask-Aware Dual Diffusion (MADD) model, which utilizes a dual-stream architecture to simultaneously denoise the RGB image and the insertion mask. By explicitly modeling the insertion mask in the diffusion process, MADD effectively facilitates the notion of affordance. Extensive experimental results show that our method outperforms the state-of-the-art methods and exhibits strong generalization performance on in-the-wild images. Please refer to our code on https://github.com/KaKituken/affordance-aware-any.
- Abstract(参考訳): 画像編集の一般的な操作として、画像合成は前景のオブジェクトを背景のシーンに統合する。
本稿では,人中心画像合成タスクから,より汎用的なオブジェクトシーン合成フレームワークへのAffordanceの概念の適用を拡大し,前景オブジェクトと背景シーンとの複雑な相互作用に対処する。
Affordanceの原則に従い、様々な位置プロンプトを持つ任意のシーンに任意のオブジェクトをシームレスに挿入することを目的とした、アプライアンス対応オブジェクト挿入タスクを定義する。
限られたデータ問題に対処し、このタスクを組み込むため、3000以上のオブジェクトカテゴリに300万以上のサンプルを含むSAM-FBデータセットを構築した。
さらに,マルチストリームアーキテクチャを用いてRGB画像と挿入マスクを同時に識別するMask-Aware Dual Diffusion (MADD)モデルを提案する。
拡散過程において挿入マスクを明示的にモデル化することにより、MADDは有効性の概念を効果的に促進する。
実験結果から,本手法は最先端の手法よりも優れ,高速な一般化性能を示すことがわかった。
https://github.com/KaKituken/affordance-aware-any.comのコードを参照してください。
関連論文リスト
- Improving Text-guided Object Inpainting with Semantic Pre-inpainting [95.17396565347936]
我々は,典型的な単一ステージオブジェクトを2つのカスケードプロセス – セマンティックプリペイントと高磁場オブジェクト生成 – に分解する。
これを実現するために,トランスフォーマーをベースとしたセマンティックインパインとオブジェクトインパインティング拡散モデルをカスケードし,新しいCAscaded Transformer-Diffusionフレームワークを実現する。
論文 参考訳(メタデータ) (2024-09-12T17:55:37Z) - Pluralistic Salient Object Detection [108.74650817891984]
本稿では,与えられた入力画像に対して,複数の有意な有意な有意な有意な有意な有意な分割結果を生成することを目的とした新しい課題であるPSOD(multiistic Salient Object Detection)を紹介する。
新たに設計された評価指標とともに,2つのSODデータセット "DUTS-MM" と "DUS-MQ" を提案する。
論文 参考訳(メタデータ) (2024-09-04T01:38:37Z) - Completing Visual Objects via Bridging Generation and Segmentation [84.4552458720467]
MaskCompは、生成とセグメンテーションの反復的な段階を通して完了プロセスを記述する。
各イテレーションにおいて、オブジェクトマスクは、画像生成を促進する追加条件として提供される。
我々は,1世代と1つのセグメンテーション段階の組み合わせがマスマスデノイザーとして効果的に機能することを実証した。
論文 参考訳(メタデータ) (2023-10-01T22:25:40Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - SIEDOB: Semantic Image Editing by Disentangling Object and Background [5.149242555705579]
本稿では,セマンティック画像編集のための新しいパラダイムを提案する。
textbfSIEDOB(サイト・英語)は、オブジェクトと背景に対していくつかの異種ワークを明示的に活用する。
我々はCityscapesとADE20K-Roomデータセットに関する広範な実験を行い、本手法がベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-23T06:17:23Z) - AMICO: Amodal Instance Composition [40.03865667370814]
画像合成は、複数のオブジェクトをブレンドして調和した画像を形成することを目的としている。
対象画像に不完全なオブジェクトをブレンドするためのアモーダルインスタンス構成を提案する。
本結果は,COCOAおよびKINSベンチマークにおける最先端性能を示す。
論文 参考訳(メタデータ) (2022-10-11T23:23:14Z) - Exploring the Interactive Guidance for Unified and Effective Image
Matting [16.933897631478146]
そこで我々はUIMという名前のUnified Interactive Image Matting法を提案する。
具体的には、UIMは複数のタイプのユーザインタラクションを活用して、複数のマッチングターゲットの曖昧さを回避する。
UIMは,コンポジション1Kテストセットと合成統合データセットを用いて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-05-17T13:20:30Z) - LayoutBERT: Masked Language Layout Model for Object Insertion [3.4806267677524896]
本稿では,オブジェクト挿入タスクのためのレイアウトBERTを提案する。
これは、新しい自己監督型マスク付き言語モデルと双方向多頭部自己注意を用いている。
各種ドメインからのデータセットの質的および定量的評価を行う。
論文 参考訳(メタデータ) (2022-04-30T21:35:38Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z) - Generating Object Stamps [47.20601520671103]
GANアーキテクチャを用いて,様々な前景オブジェクトを生成し,背景画像に合成するアルゴリズムを提案する。
挑戦的なCOCOデータセットの結果,最先端のオブジェクト挿入手法と比較して,全体的な品質と多様性が向上した。
論文 参考訳(メタデータ) (2020-01-01T14:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。