論文の概要: Extending CLIP's Image-Text Alignment to Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2306.08498v2
- Date: Sun, 7 Apr 2024 07:50:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 05:17:18.044486
- Title: Extending CLIP's Image-Text Alignment to Referring Image Segmentation
- Title(参考訳): CLIPのイメージテキストアライメントを拡張してイメージセグメンテーションの参照
- Authors: Seoyeon Kim, Minguk Kang, Dongwon Kim, Jaesik Park, Suha Kwak,
- Abstract要約: Referring Image(RIS)は、自然言語で記述されたインスタンスをセグメント化することを目的とした、クロスモーダルなタスクである。
RISCLIPは,RISのためのCLIPのクロスモーダルな性質を効果的に活用する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 48.26552693472177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Image Segmentation (RIS) is a cross-modal task that aims to segment an instance described by a natural language expression. Recent methods leverage large-scale pretrained unimodal models as backbones along with fusion techniques for joint reasoning across modalities. However, the inherent cross-modal nature of RIS raises questions about the effectiveness of unimodal backbones. We propose RISCLIP, a novel framework that effectively leverages the cross-modal nature of CLIP for RIS. Observing CLIP's inherent alignment between image and text features, we capitalize on this starting point and introduce simple but strong modules that enhance unimodal feature extraction and leverage rich alignment knowledge in CLIP's image-text shared-embedding space. RISCLIP exhibits outstanding results on all three major RIS benchmarks and also outperforms previous CLIP-based methods, demonstrating the efficacy of our strategy in extending CLIP's image-text alignment to RIS.
- Abstract(参考訳): Referring Image Segmentation (RIS)は、自然言語で記述されたインスタンスのセグメント化を目的とした、クロスモーダルなタスクである。
近年の手法では, 大規模事前学習型単調模型をバックボーンとして利用し, 共同推論のための融合技術も活用されている。
しかし、RISの本質的にのクロスモーダルな性質は、一過性のバックボーンの有効性についての疑問を提起する。
RISCLIPは,RISのためのCLIPのクロスモーダルな性質を効果的に活用する新しいフレームワークである。
CLIPのイメージテキスト共有埋め込み空間におけるリッチアライメントの知識を活用するため,CLIPのイメージとテキストの機能間のアライメントを観察する上で,この出発点を活かし,単一機能抽出を強化するシンプルだが強力なモジュールを導入します。
RISCLIPは3つの主要なRISベンチマークにおいて優れた結果を示し、CLIPベースの手法よりも優れており、CLIPのイメージテキストアライメントをRISに拡張する戦略の有効性を実証している。
関連論文リスト
- Fully Aligned Network for Referring Image Segmentation [22.40918154209717]
本稿では、与えられた言語記述に基づいて画像からオブジェクトをセグメント化するReferring Image Taskに焦点を当てる。
RISの重要な問題は、ターゲットオブジェクトを認識し、セグメント化するために、異なるモダリティ間のきめ細かいアライメントを達成することである。
本稿では,4つのモード間相互作用の原則に従うフルアラインド・ネットワーク(FAN)を提案する。
論文 参考訳(メタデータ) (2024-09-29T06:13:34Z) - Elevating All Zero-Shot Sketch-Based Image Retrieval Through Multimodal Prompt Learning [11.033050922826934]
凍結したCLIPバックボーンで動作するように設計された,新しいマルチモーダル・プロンプト学習方式であるSpLIPを紹介する。
SpLIPは双方向のプロンプト共有戦略を実装し、CLIPのビジュアルエンコーダとテキストエンコーダ間の相互知識交換を可能にする。
埋め込み空間をさらに洗練するための2つの革新的な戦略を提案する。
論文 参考訳(メタデータ) (2024-07-05T01:30:42Z) - Curriculum Point Prompting for Weakly-Supervised Referring Image Segmentation [13.924553294859315]
Point PrompTing (PPT)はCLIPのテキスト画像アライメント機能とSAMの強力なマスク生成機能を利用するポイントジェネレータである。
PPTは、mIoUの弱い監督技術よりも著しく、一貫して優れていた。
論文 参考訳(メタデータ) (2024-04-18T08:46:12Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - CM-MaskSD: Cross-Modality Masked Self-Distillation for Referring Image
Segmentation [29.885991324519463]
本稿では,CM-MaskSD という新しいクロスモーダルマスク型自己蒸留フレームワークを提案する。
提案手法は,CLIPモデルから画像テキストセマンティックアライメントの伝達知識を継承し,きめ細かいパッチワード特徴アライメントを実現する。
我々のフレームワークはパラメータフリーに近い方法でモデル性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-05-19T07:17:27Z) - CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation [56.58365347854647]
私たちは、視覚言語基盤モデル、特にCLIPを適応するためのコストベースの新しいアプローチを導入します。
エンコーダの微調整により,CLIPをセグメント化,未確認のクラスに適応させる手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T12:28:21Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。