論文の概要: RISCLIP: Referring Image Segmentation Framework using CLIP
- arxiv url: http://arxiv.org/abs/2306.08498v1
- Date: Wed, 14 Jun 2023 13:27:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 18:57:19.928627
- Title: RISCLIP: Referring Image Segmentation Framework using CLIP
- Title(参考訳): RISCLIP: CLIP を用いたイメージセグメンテーションフレームワークの参照
- Authors: Seoyeon Kim, Minguk Kang, Jaesik Park
- Abstract要約: 画像参照のためのコントラスト言語-画像事前学習(CLIP)
本稿では,Flsion AdaptersとBackbone Adaptersを用いて,凍結したCLIP機能をRISに残留的に適応させる新しいフレームワークを提案する。
提案手法は,3つの主要なRISベンチマークにおいて,新たな最先端技術に到達する。
- 参考スコア(独自算出の注目度): 11.91669614267993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in computer vision and natural language processing have
naturally led to active research in multi-modal tasks, including Referring
Image Segmentation (RIS). Recent approaches have advanced the frontier of RIS
by impressive margins, but they require an additional pretraining stage on
external visual grounding datasets to achieve the state-of-the-art
performances. We attempt to break free from this requirement by effectively
adapting Contrastive Language-Image Pretraining (CLIP) to RIS. We propose a
novel framework that residually adapts frozen CLIP features to RIS with Fusion
Adapters and Backbone Adapters. Freezing CLIP preserves the backbone's rich,
general image-text alignment knowledge, whilst Fusion Adapters introduce
multi-modal communication and Backbone Adapters inject new knowledge useful in
solving RIS. Our method reaches a new state of the art on three major RIS
benchmarks. We attain such performance without additional pretraining and
thereby absolve the necessity of extra training and data preparation. Source
code and model weights will be available upon publication.
- Abstract(参考訳): 近年のコンピュータビジョンと自然言語処理の進歩は、Referring Image Segmentation (RIS)を含むマルチモーダルタスクの活発な研究につながっている。
最近のアプローチでは、RISのフロンティアを目覚ましいマージンで前進させているが、最先端のパフォーマンスを達成するには、外部の視覚的グラウンドデータセットの事前訓練段階が必要になる。
本稿では, CLIP(Contrastive Language- Image Pretraining) を RIS に適用することにより, この要件から解放しようとする。
本稿では,Flsion AdaptersとBackbone Adaptersを用いて,凍結したCLIP機能をRISに残留的に適応させる新しいフレームワークを提案する。
フリーズCLIPはバックボーンのリッチで汎用的な画像テキストアライメントの知識を保ち、Fusion Adaptersはマルチモーダル通信を導入し、Backbone AdaptersはRISの解決に有用な新しい知識を注入する。
提案手法は3つの主要なRISベンチマーク上での新たな技術状況に達する。
追加の事前訓練を必要とせず、追加のトレーニングやデータ準備の必要性を解消する。
ソースコードとモデルの重み付けは、公開時に提供される。
関連論文リスト
- Fully Aligned Network for Referring Image Segmentation [22.40918154209717]
本稿では、与えられた言語記述に基づいて画像からオブジェクトをセグメント化するReferring Image Taskに焦点を当てる。
RISの重要な問題は、ターゲットオブジェクトを認識し、セグメント化するために、異なるモダリティ間のきめ細かいアライメントを達成することである。
本稿では,4つのモード間相互作用の原則に従うフルアラインド・ネットワーク(FAN)を提案する。
論文 参考訳(メタデータ) (2024-09-29T06:13:34Z) - Elevating All Zero-Shot Sketch-Based Image Retrieval Through Multimodal Prompt Learning [11.033050922826934]
凍結したCLIPバックボーンで動作するように設計された,新しいマルチモーダル・プロンプト学習方式であるSpLIPを紹介する。
SpLIPは双方向のプロンプト共有戦略を実装し、CLIPのビジュアルエンコーダとテキストエンコーダ間の相互知識交換を可能にする。
埋め込み空間をさらに洗練するための2つの革新的な戦略を提案する。
論文 参考訳(メタデータ) (2024-07-05T01:30:42Z) - Curriculum Point Prompting for Weakly-Supervised Referring Image Segmentation [13.924553294859315]
Point PrompTing (PPT)はCLIPのテキスト画像アライメント機能とSAMの強力なマスク生成機能を利用するポイントジェネレータである。
PPTは、mIoUの弱い監督技術よりも著しく、一貫して優れていた。
論文 参考訳(メタデータ) (2024-04-18T08:46:12Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - CM-MaskSD: Cross-Modality Masked Self-Distillation for Referring Image
Segmentation [29.885991324519463]
本稿では,CM-MaskSD という新しいクロスモーダルマスク型自己蒸留フレームワークを提案する。
提案手法は,CLIPモデルから画像テキストセマンティックアライメントの伝達知識を継承し,きめ細かいパッチワード特徴アライメントを実現する。
我々のフレームワークはパラメータフリーに近い方法でモデル性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-05-19T07:17:27Z) - CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation [56.58365347854647]
私たちは、視覚言語基盤モデル、特にCLIPを適応するためのコストベースの新しいアプローチを導入します。
エンコーダの微調整により,CLIPをセグメント化,未確認のクラスに適応させる手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T12:28:21Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。