論文の概要: Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation
- arxiv url: http://arxiv.org/abs/2312.17505v1
- Date: Fri, 29 Dec 2023 07:59:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 12:48:53.438938
- Title: Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation
- Title(参考訳): カモフラージュインスタンスセグメンテーションへのオープンボキャブラリー拡散の活用
- Authors: Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo, Binh-Son Hua, Nhat Minh
Chung, Ivor W. Tsang, Sai-Kit Yeung
- Abstract要約: テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
- 参考スコア(独自算出の注目度): 59.78520153338878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion techniques have shown exceptional capability of
producing high-quality images from text descriptions. This indicates that there
exists a strong correlation between the visual and textual domains. In
addition, text-image discriminative models such as CLIP excel in image
labelling from text prompts, thanks to the rich and diverse information
available from open concepts. In this paper, we leverage these technical
advances to solve a challenging problem in computer vision: camouflaged
instance segmentation. Specifically, we propose a method built upon a
state-of-the-art diffusion model, empowered by open-vocabulary to learn
multi-scale textual-visual features for camouflaged object representations.
Such cross-domain representations are desirable in segmenting camouflaged
objects where visual cues are subtle to distinguish the objects from the
background, especially in segmenting novel objects which are not seen in
training. We also develop technically supportive components to effectively fuse
cross-domain features and engage relevant features towards respective
foreground objects. We validate our method and compare it with existing ones on
several benchmark datasets of camouflaged instance segmentation and generic
open-vocabulary instance segmentation. Experimental results confirm the
advances of our method over existing ones. We will publish our code and
pre-trained models to support future research.
- Abstract(参考訳): テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
これは、視覚領域とテキスト領域の間に強い相関があることを示している。
さらに、CLIPのようなテキストイメージ識別モデルは、オープンな概念から利用できるリッチで多様な情報のおかげで、テキストプロンプトからのイメージラベリングが優れている。
本稿では,これらの技術的進歩を活用し,コンピュータビジョンにおける課題を解決している。
具体的には,オープンボキャブラリによって,迷彩物体表現の多元的テキスト的特徴を学習する権限を付与された,最先端の拡散モデルに基づく手法を提案する。
このようなクロスドメイン表現は、視覚的手がかりが微妙であるカモフラージュされたオブジェクトのセグメンテーションにおいて、特に訓練で見えない新しいオブジェクトのセグメンテーションにおいて望ましい。
また、ドメイン間機能を効果的に融合し、各フォアグラウンドオブジェクトに対して関連する機能を関与させる技術支援コンポーネントも開発しています。
提案手法を検証し,カモフラージュされたインスタンスセグメンテーションと一般のオープン語彙インスタンスセグメンテーションのベンチマークデータセット上で既存手法と比較する。
提案手法の既存手法に対する進歩を実験的に検証した。
将来の研究をサポートするために、コードと事前訓練されたモデルを公開します。
関連論文リスト
- From Text to Mask: Localizing Entities Using the Attention of
Text-to-Image Diffusion Models [41.66656119637025]
本稿では,テキスト・画像拡散モデルの認知ネットワークにおける注意機構を利用する手法を提案する。
そこで我々はPascal VOC 2012 と Microsoft COCO 2014 のセマンティックセグメンテーションを弱教師付きで評価した。
本研究は,セグメンテーションの拡散モデルに隠された豊富なマルチモーダル知識を抽出する方法を明らかにする。
論文 参考訳(メタデータ) (2023-09-08T04:10:01Z) - Diffusion Models for Zero-Shot Open-Vocabulary Segmentation [97.25882784890456]
本稿では,ゼロショット開語彙セグメンテーションのための新しい手法を提案する。
我々は,大規模テキスト・画像拡散モデルの生成特性を利用して,支援画像の集合をサンプリングする。
提案手法は,既存の事前学習型自己教師型特徴抽出器を自然言語で抽出するのに有効であることを示す。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - LD-ZNet: A Latent Diffusion Approach for Text-Based Image Segmentation [10.623430999818925]
本稿では,インターネット規模のデータセットに基づいて学習した潜在拡散モデル(LDM)を用いて,実画像とAI画像のセグメンテーションを行う手法を提案する。
自然画像のテキストと画像のセグメンテーションにおいて,標準ベースラインよりも6%向上することを示す。
AI生成画像では、最先端技術と比較して20%近く改善されている。
論文 参考訳(メタデータ) (2023-03-22T06:55:01Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。