論文の概要: Rethinking Referring Object Removal
- arxiv url: http://arxiv.org/abs/2403.09128v1
- Date: Thu, 14 Mar 2024 06:26:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 21:36:54.931863
- Title: Rethinking Referring Object Removal
- Title(参考訳): 参照オブジェクト削除の再考
- Authors: Xiangtian Xue, Jiasong Wu, Youyong Kong, Lotfi Senhadji, Huazhong Shu,
- Abstract要約: 23,951枚の画像対において,34,615個のオブジェクトの表現を参照する136,495個のデータセットを構築した。
各ペアは、参照表現と削除後の基底真理を含む画像を含む。
符号化-復号構造を持つエンドツーエンドの構文認識型ハイブリッドマッピングネットワークを提案する。
- 参考スコア(独自算出の注目度): 9.906943507715779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring object removal refers to removing the specific object in an image referred by natural language expressions and filling the missing region with reasonable semantics. To address this task, we construct the ComCOCO, a synthetic dataset consisting of 136,495 referring expressions for 34,615 objects in 23,951 image pairs. Each pair contains an image with referring expressions and the ground truth after elimination. We further propose an end-to-end syntax-aware hybrid mapping network with an encoding-decoding structure. Linguistic features are hierarchically extracted at the syntactic level and fused in the downsampling process of visual features with multi-head attention. The feature-aligned pyramid network is leveraged to generate segmentation masks and replace internal pixels with region affinity learned from external semantics in high-level feature maps. Extensive experiments demonstrate that our model outperforms diffusion models and two-stage methods which process the segmentation and inpainting task separately by a significant margin.
- Abstract(参考訳): 参照オブジェクトの削除は、自然言語表現によって参照される画像中の特定のオブジェクトを削除し、行方不明領域を合理的な意味論で埋めることを指す。
この課題に対処するため,23,951枚の画像対において34,615個のオブジェクトの表現を参照する136,495個の合成データセットであるComCOCOを構築した。
各ペアは、参照表現と削除後の基底真理を含む画像を含む。
さらに,エンコーディング・デコード構造を持つエンドツーエンドの構文認識型ハイブリッドマッピングネットワークを提案する。
言語的特徴は構文レベルで階層的に抽出され、多面的注意を伴う視覚的特徴のダウンサンプリング過程に融合する。
特徴対応ピラミッドネットワークを利用して、セグメンテーションマスクを生成し、高レベルの特徴マップの外部セマンティクスから学んだ領域親和性に置き換える。
大規模な実験により,我々のモデルは拡散モデルと2段階の手法より優れており,セグメンテーションとインペインティングのタスクを大きなマージンで別々に処理することがわかった。
関連論文リスト
- Depth-aware Panoptic Segmentation [1.4170154234094008]
本稿では, パンオプティカルセグメンテーションのための新しいCNN手法を提案する。
そこで本研究では,同じ物体に対して画素の割り当てを行う深度対応ダイス損失項を提案する。
Cityscapesデータセットで行った実験では、提案手法が誤って1つのインスタンスにマージされたオブジェクトの数を減少させることを示した。
論文 参考訳(メタデータ) (2024-03-21T08:06:49Z) - EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models [52.3015009878545]
我々は、追加の訓練をすることなく、きめ細かなセグメンテーションマップを生成できる画像セグメンタを開発した。
低次元特徴写像の空間的位置と画像画素間の意味的対応を同定する。
大規模な実験では、生成したセグメンテーションマップがよく説明され、画像の細部を捉えることが示されている。
論文 参考訳(メタデータ) (2024-01-22T07:34:06Z) - Compose and Conquer: Diffusion-Based 3D Depth Aware Composable Image
Synthesis [12.490787443456636]
本稿では,3次元オブジェクト配置の制御と大域的スタイリスティックな意味論の不整合表現を統合する条件拡散モデルを提案する。
統合されたフレームワークであるtextscCompose and Conquer (CnC) はこれらの手法を統一し、複数の条件を非絡み合いでローカライズする。
論文 参考訳(メタデータ) (2024-01-17T08:30:47Z) - Diffusion Model is Secretly a Training-free Open Vocabulary Semantic
Segmenter [47.29967666846132]
生成テキストから画像への拡散モデルは非常に効率的なオープン語彙セマンティックセマンティックセマンティクスである。
我々はDiffSegmenterという新しいトレーニング不要のアプローチを導入し、入力テキストに意味的に忠実な現実的なオブジェクトを生成する。
3つのベンチマークデータセットの大規模な実験により、提案したDiffSegmenterは、オープン語彙セマンティックセマンティックセグメンテーションの印象的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-09-06T06:31:08Z) - Edge Guided GANs with Multi-Scale Contrastive Learning for Semantic
Image Synthesis [139.2216271759332]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
セマンティックラベルは詳細な構造情報を提供しておらず、局所的な詳細や構造を合成することは困難である。
畳み込み、ダウンサンプリング、正規化といった広く採用されているCNN操作は、通常、空間分解能の損失を引き起こす。
本稿では,同じセマンティッククラスに属する画素埋め込みを強制して,より類似した画像コンテンツを生成することを目的とした,新しいコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-22T14:17:19Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - Edge Guided GANs with Contrastive Learning for Semantic Image Synthesis [194.1452124186117]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
我々のECGANは最先端の手法よりもはるかに優れた結果が得られる。
論文 参考訳(メタデータ) (2020-03-31T01:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。