Fugu-MT 論文翻訳(概要): Leveraging Open-Vocabulary Diffusion to Camouflaged Instance Segmentation

論文の概要: Leveraging Open-Vocabulary Diffusion to Camouflaged Instance Segmentation

arxiv url: http://arxiv.org/abs/2312.17505v1
Date: Fri, 29 Dec 2023 07:59:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-02 12:48:53.438938
Title: Leveraging Open-Vocabulary Diffusion to Camouflaged Instance Segmentation
Title（参考訳）: カモフラージュインスタンスセグメンテーションへのオープンボキャブラリー拡散の活用
Authors: Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo, Binh-Son Hua, Nhat Minh Chung, Ivor W. Tsang, Sai-Kit Yeung
Abstract要約: テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
参考スコア（独自算出の注目度）: 59.78520153338878
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-image diffusion techniques have shown exceptional capability of producing high-quality images from text descriptions. This indicates that there exists a strong correlation between the visual and textual domains. In addition, text-image discriminative models such as CLIP excel in image labelling from text prompts, thanks to the rich and diverse information available from open concepts. In this paper, we leverage these technical advances to solve a challenging problem in computer vision: camouflaged instance segmentation. Specifically, we propose a method built upon a state-of-the-art diffusion model, empowered by open-vocabulary to learn multi-scale textual-visual features for camouflaged object representations. Such cross-domain representations are desirable in segmenting camouflaged objects where visual cues are subtle to distinguish the objects from the background, especially in segmenting novel objects which are not seen in training. We also develop technically supportive components to effectively fuse cross-domain features and engage relevant features towards respective foreground objects. We validate our method and compare it with existing ones on several benchmark datasets of camouflaged instance segmentation and generic open-vocabulary instance segmentation. Experimental results confirm the advances of our method over existing ones. We will publish our code and pre-trained models to support future research.
Abstract（参考訳）: テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。これは、視覚領域とテキスト領域の間に強い相関があることを示している。さらに、CLIPのようなテキストイメージ識別モデルは、オープンな概念から利用できるリッチで多様な情報のおかげで、テキストプロンプトからのイメージラベリングが優れている。本稿では,これらの技術的進歩を活用し,コンピュータビジョンにおける課題を解決している。具体的には,オープンボキャブラリによって,迷彩物体表現の多元的テキスト的特徴を学習する権限を付与された,最先端の拡散モデルに基づく手法を提案する。このようなクロスドメイン表現は、視覚的手がかりが微妙であるカモフラージュされたオブジェクトのセグメンテーションにおいて、特に訓練で見えない新しいオブジェクトのセグメンテーションにおいて望ましい。また、ドメイン間機能を効果的に融合し、各フォアグラウンドオブジェクトに対して関連する機能を関与させる技術支援コンポーネントも開発しています。提案手法を検証し,カモフラージュされたインスタンスセグメンテーションと一般のオープン語彙インスタンスセグメンテーションのベンチマークデータセット上で既存手法と比較する。提案手法の既存手法に対する進歩を実験的に検証した。将来の研究をサポートするために、コードと事前訓練されたモデルを公開します。

関連論文リスト

Latent Expression Generation for Referring Image Segmentation and Grounding [13.611995923070426]
既存のほとんどのメソッドは単一のテキスト入力に依存しており、視覚領域で利用可能なリッチな情報のごく一部しか取得できない。このリッチ・ビジュアル・ディテールと粗雑なテキスト・キューのミスマッチは、類似したオブジェクトの誤識別につながる可能性がある。単一のテキスト入力から生成された複数の潜在表現を利用する新しい視覚的グラウンドディングフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-07T07:57:27Z)
The Power of One: A Single Example is All it Takes for Segmentation in VLMs [29.735863112700358]
大規模視覚言語モデル(VLM)は、テキスト記述と画像領域の関連性を暗黙的に学習することで、強力なマルチモーダル理解能力を示す。この創発的能力は、テキストイメージの注意マップに依存する技術を用いて、ゼロショットオブジェクトの検出とセグメンテーションを可能にする。提案手法は, ゼロショット性能が向上し, 単一視覚例による微調整によりさらに向上することを示す。
論文参考訳（メタデータ） (2025-03-13T18:18:05Z)
Nested Attention: Semantic-aware Attention Values for Concept Personalization [78.90196530697897]
我々はNested Attentionを紹介した。これはモデル内の既存のクロスアテンション層にリッチで表現豊かなイメージ表現を注入する新しいメカニズムである。私たちのキーとなるアイデアは、ネストした注意層から得られたクエリ依存の主観値を生成し、生成した画像の各領域について関連する主観的特徴を選択することである。
論文参考訳（メタデータ） (2025-01-02T18:52:11Z)
InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはセマンティックセグメンテーションのためのテストタイムプロンプトインバージョンメソッドである。コントラストソフトクラスタリングを導入し,マスクを画像の構造情報と整合させる。 InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文参考訳（メタデータ） (2024-10-15T10:20:31Z)
Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。文献における既存手法に対して,本手法は良好な性能を発揮する。
論文参考訳（メタデータ） (2024-04-01T17:48:15Z)
Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
インコンテキストセグメンテーションは、与えられた参照画像を使ってオブジェクトをセグメンテーションすることを目的としている。既存のほとんどのアプローチでは、視覚的プロンプトと入力画像クエリの相関を構築するために、メトリックラーニングやマスク付きイメージモデリングを採用しています。この研究は、新しい視点から問題にアプローチし、コンテキスト内セグメンテーションのための潜在拡散モデルの能力を解き放つ。
論文参考訳（メタデータ） (2024-03-14T17:52:31Z)
From Text to Mask: Localizing Entities Using the Attention of Text-to-Image Diffusion Models [38.14123683674355]
本稿では,テキスト・画像拡散モデルの認知ネットワークにおける注意機構を利用する手法を提案する。そこで我々はPascal VOC 2012 と Microsoft COCO 2014 のセマンティックセグメンテーションを弱教師付きで評価した。本研究は,セグメンテーションの拡散モデルに隠された豊富なマルチモーダル知識を抽出する方法を明らかにする。
論文参考訳（メタデータ） (2023-09-08T04:10:01Z)
Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-18T08:23:46Z)
Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文参考訳（メタデータ） (2023-06-15T17:51:28Z)
SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文参考訳（メタデータ） (2022-11-25T18:59:10Z)
Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文参考訳（メタデータ） (2022-08-04T07:51:48Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。