論文の概要: LCCo: Lending CLIP to Co-Segmentation
- arxiv url: http://arxiv.org/abs/2308.11506v1
- Date: Tue, 22 Aug 2023 15:27:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 17:39:06.886232
- Title: LCCo: Lending CLIP to Co-Segmentation
- Title(参考訳): LCCo:CLIPを共同セグメンテーションに貸す
- Authors: Xin Duan, Yan Yang, Liyuan Pan, Xiabi Liu
- Abstract要約: タスクには、対照的な言語イメージ事前学習フレームワーク(CLIP)を活用します。
データセットから各イメージを独立に処理するバックボーンセグメンテーションネットワークにより、CLIPのセマンティクスをバックボーン機能に導入する。
4つの標準コセグメンテーションベンチマークデータセットの実験により、我々の手法の性能は最先端の手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 6.928807154120318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies co-segmenting the common semantic object in a set of
images. Existing works either rely on carefully engineered networks to mine the
implicit semantic information in visual features or require extra data (i.e.,
classification labels) for training. In this paper, we leverage the contrastive
language-image pre-training framework (CLIP) for the task. With a backbone
segmentation network that independently processes each image from the set, we
introduce semantics from CLIP into the backbone features, refining them in a
coarse-to-fine manner with three key modules: i) an image set feature
correspondence module, encoding global consistent semantic information of the
image set; ii) a CLIP interaction module, using CLIP-mined common semantics of
the image set to refine the backbone feature; iii) a CLIP regularization
module, drawing CLIP towards this co-segmentation task, identifying the best
CLIP semantic and using it to regularize the backbone feature. Experiments on
four standard co-segmentation benchmark datasets show that the performance of
our method outperforms state-of-the-art methods.
- Abstract(参考訳): 本稿では,画像の集合における共通意味オブジェクトの分離について検討する。
既存の作業は、視覚的特徴の暗黙的な意味情報をマイニングするために、慎重に設計されたネットワークに依存するか、またはトレーニングのために追加のデータ(分類ラベル)を必要とする。
本稿では,言語画像事前学習フレームワーク(CLIP)を課題に活用する。
各イメージをセットから独立して処理するバックボーンセグメンテーションネットワークを用いて,クリップからバックボーン機能にセマンティクスを導入して,3つのキーモジュールによる粗雑な粒度調整を行う。
一 画像集合のグローバルに一貫した意味情報を符号化する画像集合の特徴対応モジュール
二 背骨の特徴を洗練させるために、画像セットの共通意味論を用いて、CLIPの相互作用モジュール
iii) CLIP正規化モジュールで、このコセグメンテーションタスクに向けてCLIPを描画し、最高のCLIPセマンティクスを特定し、バックボーン機能を正規化する。
4つの標準コセグメンテーションベンチマークデータセットの実験により、我々の手法の性能は最先端の手法よりも優れていることが示された。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - DetailCLIP: Detail-Oriented CLIP for Fine-Grained Tasks [31.850184662606562]
DetailCLIP(Detail-Oriented CLIP)を導入し、対照的な学習に基づく視覚言語モデルの限界に対処する。
DetailCLIPは,既存のCLIPベースおよび従来の自己教師付き学習(SSL)モデルを上回るセグメンテーション精度を示し,多様なデータセットにまたがる優れた一般化を示す。
論文 参考訳(メタデータ) (2024-09-10T18:27:36Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - S-CLIP: Semi-supervised Vision-Language Learning using Few Specialist
Captions [69.01985134519244]
対照的な言語画像事前学習(CLIP)のような視覚言語モデルは、自然画像領域において顕著な結果を示した。
S-CLIPはCLIPを訓練するための半教師付き学習手法であり、追加の未ペア画像を利用する。
S-CLIPは、ゼロショット分類でCLIPを10%改善し、リモートセンシングベンチマークで画像テキスト検索で4%改善した。
論文 参考訳(メタデータ) (2023-05-23T14:18:11Z) - CLIP is Also an Efficient Segmenter: A Text-Driven Approach for Weakly
Supervised Semantic Segmentation [19.208559353954833]
本稿では,コントラスト言語-画像事前学習モデル(CLIP)が,画像レベルラベルのみを用いて異なるカテゴリをローカライズする可能性について検討する。
高品質なセグメンテーションマスクをCLIPから効率的に生成するために,CLIP-ESと呼ばれる新しいWSSSフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:59Z) - Open Vocabulary Semantic Segmentation with Patch Aligned Contrastive
Learning [82.70453633641466]
Patch Aligned Contrastive Learning (PACL)を導入する。
PACLは画像レベルの予測にも適用可能であることを示し、CLIPバックボーンで使用すると、ゼロショット分類精度が全般的に向上することを示した。
論文 参考訳(メタデータ) (2022-12-09T17:23:00Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。