Fugu-MT 論文翻訳(概要): ZegOT: Zero-shot Segmentation Through Optimal Transport of Text Prompts

論文の概要: ZegOT: Zero-shot Segmentation Through Optimal Transport of Text Prompts

arxiv url: http://arxiv.org/abs/2301.12171v2
Date: Tue, 30 May 2023 13:46:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-01 01:47:43.688297
Title: ZegOT: Zero-shot Segmentation Through Optimal Transport of Text Prompts
Title（参考訳）: ZegOT: テキストプロンプトの最適輸送によるゼロショットセグメンテーション
Authors: Kwanyoung Kim, Yujin Oh, Jong Chul Ye
Abstract要約: 本稿では,ZegOT法によるZero-shotセグメンテーションを提案する。 MPOTは、複数のテキストプロンプトと凍結したイメージエンコーダ隠されたレイヤの視覚的特徴マップの間の最適なマッピングを学ぶように設計されている。提案手法は,既存のゼロショットセマンティック・ザ・アート(ZS3)アプローチに対して,最先端(SOTA)性能を実現する。
参考スコア（独自算出の注目度）: 41.14796120215464
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent success of large-scale Contrastive Language-Image Pre-training (CLIP) has led to great promise in zero-shot semantic segmentation by transferring image-text aligned knowledge to pixel-level classification. However, existing methods usually require an additional image encoder or retraining/tuning the CLIP module. Here, we propose a novel Zero-shot segmentation with Optimal Transport (ZegOT) method that matches multiple text prompts with frozen image embeddings through optimal transport. In particular, we introduce a novel Multiple Prompt Optimal Transport Solver (MPOT), which is designed to learn an optimal mapping between multiple text prompts and visual feature maps of the frozen image encoder hidden layers. This unique mapping method facilitates each of the multiple text prompts to effectively focus on distinct visual semantic attributes. Through extensive experiments on benchmark datasets, we show that our method achieves the state-of-the-art (SOTA) performance over existing Zero-shot Semantic Segmentation (ZS3) approaches.
Abstract（参考訳）: 最近の大規模コントラスト言語-画像事前学習(clip)の成功は、画像テキストに整合した知識をピクセルレベルの分類に移すことで、ゼロショット意味セグメンテーションにおいて大きな期待を呼んでいる。しかし、既存のメソッドは通常、追加のイメージエンコーダやCLIPモジュールの再トレーニング/チューニングを必要とする。本稿では,複数のテキストプロンプトと凍結画像埋め込みを最適なトランスポートでマッチングする,最適なトランスポート(zegot)方式によるゼロショットセグメンテーションを提案する。特に,複数のテキストプロンプトと凍結画像エンコーダ隠れレイヤの視覚的特徴マップ間の最適なマッピングを学習するために設計された,新しい多重プロンプト最適トランスポートソルバ(mpot)を提案する。このユニークなマッピング手法により、複数のテキストプロンプトのそれぞれが、視覚的なセマンティクス属性に効果的に集中することができる。ベンチマークデータセットの広範な実験を通じて,既存のゼロショットセマンティックセマンティックセマンティックセマンティクス(ZS3)アプローチよりも最先端(SOTA)の性能を実現することを示す。

関連論文リスト

The Power of One: A Single Example is All it Takes for Segmentation in VLMs [29.735863112700358]
大規模視覚言語モデル(VLM)は、テキスト記述と画像領域の関連性を暗黙的に学習することで、強力なマルチモーダル理解能力を示す。この創発的能力は、テキストイメージの注意マップに依存する技術を用いて、ゼロショットオブジェクトの検出とセグメンテーションを可能にする。提案手法は, ゼロショット性能が向上し, 単一視覚例による微調整によりさらに向上することを示す。
論文参考訳（メタデータ） (2025-03-13T18:18:05Z)
DiffCLIP: Few-shot Language-driven Multimodal Classifier [19.145645804307566]
DiffCLIPはContrastive Language-Image Pretrainingを拡張する新しいフレームワークである。高次元マルチモーダルリモートセンシング画像の正確な分類のための包括的言語駆動意味情報を提供する。 DiffCLIPはCLIPと比較して3つのリモートセンシングデータセットで10.65%の全体的な精度向上を実現している。
論文参考訳（メタデータ） (2024-12-10T02:21:39Z)
Text4Seg: Reimagining Image Segmentation as Text Generation [32.230379277018194]
画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムであるText4Segを紹介する。セマンティックディスクリプタは、各イメージパッチを対応するテキストラベルにマッピングするセグメンテーションマスクの新しいテキスト表現である。 MLLMのバックボーンを微調整することで,Text4Segが複数のデータセット上で最先端のパフォーマンスを実現することを示す。
論文参考訳（メタデータ） (2024-10-13T14:28:16Z)
Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment [0.7499722271664144]
Contrastive Language and Image Pairing (CLIP) はマルチメディア検索における変換手法である。 CLIPは通常、2つのニューラルネットワークを同時にトレーニングし、テキストとイメージペアのジョイント埋め込みを生成する。本稿では,様々な画像に基づく類似性検索シナリオに対して,CLIPモデルを最適化するという課題に対処する。
論文参考訳（メタデータ） (2024-09-03T14:33:01Z)
OTSeg: Multi-prompt Sinkhorn Attention for Zero-Shot Semantic Segmentation [57.84148140637513]
Multi-Prompts Sinkhorn Attention (MPSA)は、マルチモーダル設定でTransformerフレームワーク内のクロスアテンションメカニズムを効果的に置き換える。 OTSegは、Zero-Shot Semantic (ZS3)タスクで大幅に向上した、最先端のSOTA(State-of-the-art)パフォーマンスを実現している。
論文参考訳（メタデータ） (2024-03-21T07:15:37Z)
Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。 ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文参考訳（メタデータ） (2023-06-23T19:24:48Z)
Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文参考訳（メタデータ） (2023-03-30T06:02:40Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)
TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。 StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文参考訳（メタデータ） (2020-12-06T16:20:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。