論文の概要: OTSeg: Multi-prompt Sinkhorn Attention for Zero-Shot Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2403.14183v2
- Date: Thu, 11 Jul 2024 18:09:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 04:57:27.454637
- Title: OTSeg: Multi-prompt Sinkhorn Attention for Zero-Shot Semantic Segmentation
- Title(参考訳): OTSeg: ゼロショットセマンティックセグメンテーションのためのマルチプロンプトシンクホーン注意
- Authors: Kwanyoung Kim, Yujin Oh, Jong Chul Ye,
- Abstract要約: Multi-Prompts Sinkhorn Attention (MPSA)は、マルチモーダル設定でTransformerフレームワーク内のクロスアテンションメカニズムを効果的に置き換える。
OTSegは、Zero-Shot Semantic (ZS3)タスクで大幅に向上した、最先端のSOTA(State-of-the-art)パフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 57.84148140637513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent success of CLIP has demonstrated promising results in zero-shot semantic segmentation by transferring muiltimodal knowledge to pixel-level classification. However, leveraging pre-trained CLIP knowledge to closely align text embeddings with pixel embeddings still has limitations in existing approaches. To address this issue, we propose OTSeg, a novel multimodal attention mechanism aimed at enhancing the potential of multiple text prompts for matching associated pixel embeddings. We first propose Multi-Prompts Sinkhorn (MPS) based on the Optimal Transport (OT) algorithm, which leads multiple text prompts to selectively focus on various semantic features within image pixels. Moreover, inspired by the success of Sinkformers in unimodal settings, we introduce the extension of MPS, called Multi-Prompts Sinkhorn Attention (MPSA) , which effectively replaces cross-attention mechanisms within Transformer framework in multimodal settings. Through extensive experiments, we demonstrate that OTSeg achieves state-of-the-art (SOTA) performance with significant gains on Zero-Shot Semantic Segmentation (ZS3) tasks across three benchmark datasets.
- Abstract(参考訳): CLIPの最近の成功は、無意味な知識をピクセルレベルの分類に転送することで、ゼロショットセマンティックセグメンテーションの有望な結果を示している。
しかし、事前訓練されたCLIP知識を活用して、テキスト埋め込みとピクセル埋め込みを密に連携させるには、既存のアプローチに制限がある。
この問題に対処するために,OTSegを提案する。OTSegは,複数のテキストプロンプトが関連するピクセルの埋め込みにマッチする可能性を高めるための,新しいマルチモーダルアテンション機構である。
まず,複数のテキストプロンプトを画像画素内の様々な意味的特徴に選択的にフォーカスする最適トランスポート (OT) アルゴリズムに基づくマルチプロンプトシンクホーン (MPS) を提案する。
さらに,Sinkformersの単調な設定での成功に触発されて,MPSの拡張であるMPSA(Multi-Prompts Sinkhorn Attention)を導入し,Transformerフレームワーク内でのマルチモーダルな設定におけるクロスアテンション機構を効果的に置き換えた。
大規模な実験を通じて,OTSegは3つのベンチマークデータセットにわたるゼロショットセマンティックセマンティックセグメンテーション(ZS3)タスクにおいて,高い精度でSOTA(State-of-the-art)性能を実現することを示した。
関連論文リスト
- Elevating All Zero-Shot Sketch-Based Image Retrieval Through Multimodal Prompt Learning [11.033050922826934]
凍結したCLIPバックボーンで動作するように設計された,新しいマルチモーダル・プロンプト学習方式であるSpLIPを紹介する。
SpLIPは双方向のプロンプト共有戦略を実装し、CLIPのビジュアルエンコーダとテキストエンコーダ間の相互知識交換を可能にする。
埋め込み空間をさらに洗練するための2つの革新的な戦略を提案する。
論文 参考訳(メタデータ) (2024-07-05T01:30:42Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World
Understanding [93.45067274442881]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一された多粒性学習フレームワークを開発し、異なるレベルの詳細で多目的知覚能力を持つモデルを同時に強化する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - Stacked Cross-modal Feature Consolidation Attention Networks for Image
Captioning [1.4337588659482516]
本稿では,高レベルなセマンティック概念と視覚情報を統合するための特徴合成手法を利用する。
画像キャプションのための重畳型クロスモーダル特徴統合(SCFC)アテンションネットワークを提案し,同時にクロスモーダル特徴を集約する。
提案したSCFCは、MSCOCOとFlickr30Kデータセットの一般的な指標から、様々な最先端の画像キャプションベンチマークを上回ります。
論文 参考訳(メタデータ) (2023-02-08T09:15:09Z) - ZegOT: Zero-shot Segmentation Through Optimal Transport of Text Prompts [41.14796120215464]
本稿では,ZegOT法によるZero-shotセグメンテーションを提案する。
MPOTは、複数のテキストプロンプトと凍結したイメージエンコーダ隠されたレイヤの視覚的特徴マップの間の最適なマッピングを学ぶように設計されている。
提案手法は,既存のゼロショットセマンティック・ザ・アート(ZS3)アプローチに対して,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-01-28T11:51:20Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。