論文の概要: ZegOT: Zero-shot Segmentation Through Optimal Transport of Text Prompts
- arxiv url: http://arxiv.org/abs/2301.12171v2
- Date: Tue, 30 May 2023 13:46:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 01:47:43.688297
- Title: ZegOT: Zero-shot Segmentation Through Optimal Transport of Text Prompts
- Title(参考訳): ZegOT: テキストプロンプトの最適輸送によるゼロショットセグメンテーション
- Authors: Kwanyoung Kim, Yujin Oh, Jong Chul Ye
- Abstract要約: 本稿では,ZegOT法によるZero-shotセグメンテーションを提案する。
MPOTは、複数のテキストプロンプトと凍結したイメージエンコーダ隠されたレイヤの視覚的特徴マップの間の最適なマッピングを学ぶように設計されている。
提案手法は,既存のゼロショットセマンティック・ザ・アート(ZS3)アプローチに対して,最先端(SOTA)性能を実現する。
- 参考スコア(独自算出の注目度): 41.14796120215464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent success of large-scale Contrastive Language-Image Pre-training (CLIP)
has led to great promise in zero-shot semantic segmentation by transferring
image-text aligned knowledge to pixel-level classification. However, existing
methods usually require an additional image encoder or retraining/tuning the
CLIP module. Here, we propose a novel Zero-shot segmentation with Optimal
Transport (ZegOT) method that matches multiple text prompts with frozen image
embeddings through optimal transport. In particular, we introduce a novel
Multiple Prompt Optimal Transport Solver (MPOT), which is designed to learn an
optimal mapping between multiple text prompts and visual feature maps of the
frozen image encoder hidden layers. This unique mapping method facilitates each
of the multiple text prompts to effectively focus on distinct visual semantic
attributes. Through extensive experiments on benchmark datasets, we show that
our method achieves the state-of-the-art (SOTA) performance over existing
Zero-shot Semantic Segmentation (ZS3) approaches.
- Abstract(参考訳): 最近の大規模コントラスト言語-画像事前学習(clip)の成功は、画像テキストに整合した知識をピクセルレベルの分類に移すことで、ゼロショット意味セグメンテーションにおいて大きな期待を呼んでいる。
しかし、既存のメソッドは通常、追加のイメージエンコーダやCLIPモジュールの再トレーニング/チューニングを必要とする。
本稿では,複数のテキストプロンプトと凍結画像埋め込みを最適なトランスポートでマッチングする,最適なトランスポート(zegot)方式によるゼロショットセグメンテーションを提案する。
特に,複数のテキストプロンプトと凍結画像エンコーダ隠れレイヤの視覚的特徴マップ間の最適なマッピングを学習するために設計された,新しい多重プロンプト最適トランスポートソルバ(mpot)を提案する。
このユニークなマッピング手法により、複数のテキストプロンプトのそれぞれが、視覚的なセマンティクス属性に効果的に集中することができる。
ベンチマークデータセットの広範な実験を通じて,既存のゼロショットセマンティックセマンティックセマンティックセマンティクス(ZS3)アプローチよりも最先端(SOTA)の性能を実現することを示す。
関連論文リスト
- Text4Seg: Reimagining Image Segmentation as Text Generation [32.230379277018194]
画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムであるText4Segを紹介する。
セマンティックディスクリプタは、各イメージパッチを対応するテキストラベルにマッピングするセグメンテーションマスクの新しいテキスト表現である。
MLLMのバックボーンを微調整することで,Text4Segが複数のデータセット上で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2024-10-13T14:28:16Z) - Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment [0.7499722271664144]
Contrastive Language and Image Pairing (CLIP) はマルチメディア検索における変換手法である。
CLIPは通常、2つのニューラルネットワークを同時にトレーニングし、テキストとイメージペアのジョイント埋め込みを生成する。
本稿では,様々な画像に基づく類似性検索シナリオに対して,CLIPモデルを最適化するという課題に対処する。
論文 参考訳(メタデータ) (2024-09-03T14:33:01Z) - OTSeg: Multi-prompt Sinkhorn Attention for Zero-Shot Semantic Segmentation [57.84148140637513]
Multi-Prompts Sinkhorn Attention (MPSA)は、マルチモーダル設定でTransformerフレームワーク内のクロスアテンションメカニズムを効果的に置き換える。
OTSegは、Zero-Shot Semantic (ZS3)タスクで大幅に向上した、最先端のSOTA(State-of-the-art)パフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-21T07:15:37Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。