論文の概要: ZegOT: Zero-shot Segmentation Through Optimal Transport of Text Prompts
- arxiv url: http://arxiv.org/abs/2301.12171v1
- Date: Sat, 28 Jan 2023 11:51:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 18:38:18.396931
- Title: ZegOT: Zero-shot Segmentation Through Optimal Transport of Text Prompts
- Title(参考訳): ZegOT: テキストプロンプトの最適輸送によるゼロショットセグメンテーション
- Authors: Kwanyoung Kim, Yujin Oh, Jong Chul Ye
- Abstract要約: 私たちは、CLIPモジュール全体を凍結し続けるとともに、その豊富な情報を完全に活用するコスト効率の戦略を提示します。
具体的には,複数のテキストプロンプトと凍結画像埋め込みを一致させるZegOT法を提案する。
提案手法は,従来のSOTA手法と比較して,x7の軽量パラメータのみを用いて,最先端のSOTA(State-of-the-art)性能を実現する。
- 参考スコア(独自算出の注目度): 41.14796120215464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent success of large-scale Contrastive Language-Image Pre-training (CLIP)
has led to great promise in zero-shot semantic segmentation by transferring
image-text aligned knowledge to pixel-level classification. However, existing
methods usually require an additional image encoder or retraining/tuning the
CLIP module. Here, we present a cost-effective strategy using text-prompt
learning that keeps the entire CLIP module frozen while fully leveraging its
rich information. Specifically, we propose a novel Zero-shot segmentation with
Optimal Transport (ZegOT) method that matches multiple text prompts with frozen
image embeddings through optimal transport, which allows each text prompt to
efficiently focus on specific semantic attributes. Additionally, we propose
Deep Local Feature Alignment (DLFA) that deeply aligns the text prompts with
intermediate local feature of the frozen image encoder layers, which
significantly boosts the zero-shot segmentation performance. Through extensive
experiments on benchmark datasets, we show that our method achieves the
state-of-the-art (SOTA) performance with only x7 lighter parameters compared to
previous SOTA approaches.
- Abstract(参考訳): 最近の大規模コントラスト言語-画像事前学習(clip)の成功は、画像テキストに整合した知識をピクセルレベルの分類に移すことで、ゼロショット意味セグメンテーションにおいて大きな期待を呼んでいる。
しかし、既存のメソッドは通常、追加のイメージエンコーダやCLIPモジュールの再トレーニング/チューニングを必要とする。
ここでは,CLIPモジュール全体の凍結を維持しつつ,そのリッチな情報を完全に活用するテキストプロンプト学習を用いた費用対効果戦略を提案する。
具体的には、複数のテキストプロンプトと最適なトランスポートによる凍結画像埋め込みとを一致させるZegOT(Zero-shot segmentation with Optimal Transport)法を提案する。
さらに,テキストプロンプトと冷凍画像エンコーダ層の中間的局所的特徴とを深く整合させ,ゼロショットセグメンテーション性能を大幅に向上させるDLFA(Deep Local Feature Alignment)を提案する。
ベンチマークデータセットの広範な実験により,本手法は従来のSOTA手法と比較して,x7の軽いパラメータのみを用いて,最先端(SOTA)性能を実現することを示す。
関連論文リスト
- CgT-GAN: CLIP-guided Text GAN for Image Captioning [48.276753091051035]
本稿では,CLIP-Guided text GAN (CgT-GAN) を提案する。
我々は,外部テキストコーパスのフレーズを模倣するために,CgT-GANの教育に逆行訓練を用いる。
CgT-GANは、すべてのメトリクスで最先端のメソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-08-23T10:25:37Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - Learning to Generate Text-grounded Mask for Open-world Semantic
Segmentation from Only Image-Text Pairs [10.484851004093919]
我々は,任意の視覚概念をイメージに分割する学習を目的とした,オープンワールドセマンティックセマンティックセマンティックセマンティクスに取り組む。
既存のオープンワールドセグメンテーション手法は、多様な視覚概念を学習するためにコントラッシブラーニング(CL)を採用することで、目覚ましい進歩を見せている。
そこで本研究では,モデルが地域テキストアライメントを直接学習することのできる,新しいテキストグラウンド・コントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-01T18:59:03Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。