論文の概要: ZegOT: Zero-shot Segmentation Through Optimal Transport of Text Prompts
- arxiv url: http://arxiv.org/abs/2301.12171v1
- Date: Sat, 28 Jan 2023 11:51:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 18:38:18.396931
- Title: ZegOT: Zero-shot Segmentation Through Optimal Transport of Text Prompts
- Title(参考訳): ZegOT: テキストプロンプトの最適輸送によるゼロショットセグメンテーション
- Authors: Kwanyoung Kim, Yujin Oh, Jong Chul Ye
- Abstract要約: 私たちは、CLIPモジュール全体を凍結し続けるとともに、その豊富な情報を完全に活用するコスト効率の戦略を提示します。
具体的には,複数のテキストプロンプトと凍結画像埋め込みを一致させるZegOT法を提案する。
提案手法は,従来のSOTA手法と比較して,x7の軽量パラメータのみを用いて,最先端のSOTA(State-of-the-art)性能を実現する。
- 参考スコア(独自算出の注目度): 41.14796120215464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent success of large-scale Contrastive Language-Image Pre-training (CLIP)
has led to great promise in zero-shot semantic segmentation by transferring
image-text aligned knowledge to pixel-level classification. However, existing
methods usually require an additional image encoder or retraining/tuning the
CLIP module. Here, we present a cost-effective strategy using text-prompt
learning that keeps the entire CLIP module frozen while fully leveraging its
rich information. Specifically, we propose a novel Zero-shot segmentation with
Optimal Transport (ZegOT) method that matches multiple text prompts with frozen
image embeddings through optimal transport, which allows each text prompt to
efficiently focus on specific semantic attributes. Additionally, we propose
Deep Local Feature Alignment (DLFA) that deeply aligns the text prompts with
intermediate local feature of the frozen image encoder layers, which
significantly boosts the zero-shot segmentation performance. Through extensive
experiments on benchmark datasets, we show that our method achieves the
state-of-the-art (SOTA) performance with only x7 lighter parameters compared to
previous SOTA approaches.
- Abstract(参考訳): 最近の大規模コントラスト言語-画像事前学習(clip)の成功は、画像テキストに整合した知識をピクセルレベルの分類に移すことで、ゼロショット意味セグメンテーションにおいて大きな期待を呼んでいる。
しかし、既存のメソッドは通常、追加のイメージエンコーダやCLIPモジュールの再トレーニング/チューニングを必要とする。
ここでは,CLIPモジュール全体の凍結を維持しつつ,そのリッチな情報を完全に活用するテキストプロンプト学習を用いた費用対効果戦略を提案する。
具体的には、複数のテキストプロンプトと最適なトランスポートによる凍結画像埋め込みとを一致させるZegOT(Zero-shot segmentation with Optimal Transport)法を提案する。
さらに,テキストプロンプトと冷凍画像エンコーダ層の中間的局所的特徴とを深く整合させ,ゼロショットセグメンテーション性能を大幅に向上させるDLFA(Deep Local Feature Alignment)を提案する。
ベンチマークデータセットの広範な実験により,本手法は従来のSOTA手法と比較して,x7の軽いパラメータのみを用いて,最先端(SOTA)性能を実現することを示す。
関連論文リスト
- Text4Seg: Reimagining Image Segmentation as Text Generation [32.230379277018194]
画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムであるText4Segを紹介する。
セマンティックディスクリプタは、各イメージパッチを対応するテキストラベルにマッピングするセグメンテーションマスクの新しいテキスト表現である。
MLLMのバックボーンを微調整することで,Text4Segが複数のデータセット上で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2024-10-13T14:28:16Z) - Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment [0.7499722271664144]
Contrastive Language and Image Pairing (CLIP) はマルチメディア検索における変換手法である。
CLIPは通常、2つのニューラルネットワークを同時にトレーニングし、テキストとイメージペアのジョイント埋め込みを生成する。
本稿では,様々な画像に基づく類似性検索シナリオに対して,CLIPモデルを最適化するという課題に対処する。
論文 参考訳(メタデータ) (2024-09-03T14:33:01Z) - OTSeg: Multi-prompt Sinkhorn Attention for Zero-Shot Semantic Segmentation [57.84148140637513]
Multi-Prompts Sinkhorn Attention (MPSA)は、マルチモーダル設定でTransformerフレームワーク内のクロスアテンションメカニズムを効果的に置き換える。
OTSegは、Zero-Shot Semantic (ZS3)タスクで大幅に向上した、最先端のSOTA(State-of-the-art)パフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-21T07:15:37Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。