論文の概要: CLIP-VG: Self-paced Curriculum Adapting of CLIP via Exploiting
Pseudo-Language Labels for Visual Grounding
- arxiv url: http://arxiv.org/abs/2305.08685v1
- Date: Mon, 15 May 2023 14:42:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 14:16:45.123887
- Title: CLIP-VG: Self-paced Curriculum Adapting of CLIP via Exploiting
Pseudo-Language Labels for Visual Grounding
- Title(参考訳): CLIP-VG: Pseudo-Language LabelsによるCLIPの自己ペースト適応
- Authors: Linhui Xiao, Xiaoshan Yang, Fang Peng, Ming Yan, Yaowei Wang,
Changsheng Xu
- Abstract要約: 視覚的グラウンドリング(VG)とは、特定の画像の表現によって記述された領域を特定することを指す。
そこで我々はCLIP-VGを提案する。これは擬似ラベルを利用してCLIPの自己評価カリキュラムを適応させる新しい手法である。
提案手法は,既存の教師なしVG手法であるPseudo-Qよりも,単一ソースとマルチソースの両方で優れている。
- 参考スコア(独自算出の注目度): 82.95678691896241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Grounding (VG) refers to locating a region described by expressions in
a specific image, which is a critical topic in vision-language fields. To
alleviate the dependence on labeled data, existing unsupervised methods try to
locate regions using task-unrelated pseudo-labels. However, a large proportion
of pseudo-labels are noisy and diversity scarcity in language taxonomy.
Inspired by the advances in V-L pretraining, we consider utilizing the VLP
models to realize unsupervised transfer learning in downstream grounding task.
Thus, we propose CLIP-VG, a novel method that can conduct self-paced curriculum
adapting of CLIP via exploiting pseudo-language labels to solve VG problem. By
elaborating an efficient model structure, we first propose a single-source and
multi-source curriculum adapting method for unsupervised VG to progressively
sample more reliable cross-modal pseudo-labels to obtain the optimal model,
thus achieving implicit knowledge exploiting and denoising. Our method
outperforms the existing state-of-the-art unsupervised VG method Pseudo-Q in
both single-source and multi-source scenarios with a large margin, i.e.,
6.78%~10.67% and 11.39%~24.87% on RefCOCO/+/g datasets, even outperforms
existing weakly supervised methods. The code and models will be released at
\url{https://github.com/linhuixiao/CLIP-VG}.
- Abstract(参考訳): vg(visual grounding)とは、視覚言語の分野で重要な話題である、特定の画像における表現によって記述された領域の特定を指す。
ラベル付きデータへの依存を軽減するため、既存の教師なし手法はタスク非関連の擬似ラベルを用いて領域の特定を試みる。
しかし、疑似ラベルの大多数は騒がしく、言語分類学において多様性が乏しい。
v-lプリトレーニングの進歩に触発されて,vlpモデルを用いて下流地における教師なし転送学習を実現することを検討した。
そこで本研究では,vg 問題を解くために疑似言語ラベルを活用し,クリップの自己ペースのカリキュラム適応を行う新手法 clip-vg を提案する。
まず,効率的なモデル構造を構築することで,教師なしのVGに対して,より信頼性の高いクロスモーダルな擬似ラベルを段階的にサンプリングして最適なモデルを得る方法を提案する。
我々の手法は、既存の最先端の教師なしVG手法であるPseudo-Qを、6.78%〜10.67%、11.39%〜24.87%という大きなマージンを持つ単一ソースおよびマルチソースのシナリオで上回る。
コードとモデルは \url{https://github.com/linhuixiao/CLIP-VG} でリリースされる。
関連論文リスト
- SiamSeg: Self-Training with Contrastive Learning for Unsupervised Domain Adaptation Semantic Segmentation in Remote Sensing [14.007392647145448]
UDAは、ラベル付きソースドメインデータをトレーニングしながら、ラベルなしのターゲットドメインデータからモデルを学習することを可能にする。
コントラスト学習を UDA に統合し,セマンティック情報を取得する能力を向上させることを提案する。
我々のSimSegメソッドは既存の手法より優れ、最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-10-17T11:59:39Z) - CLIP-Guided Source-Free Object Detection in Aerial Images [17.26407623526735]
高解像度の空中画像は、しばしばかなりのストレージスペースを必要とし、一般にはアクセスできない。
そこで本研究では,これらの課題に対処する新しいSFOD法を提案する。
自己学習における雑音ラベルを緩和するために,コントラスト言語画像事前学習(CLIP)を用いて擬似ラベルの生成を誘導する。
CLIPのゼロショット分類機能を利用することで、そのスコアを予測された元のバウンディングボックスに集約し、擬似ラベルの洗練されたスコアを得ることができる。
論文 参考訳(メタデータ) (2024-01-10T14:03:05Z) - TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary
Multi-Label Classification of CLIP Without Training [29.431698321195814]
Contrastive Language-Image Pre-Training (CLIP) はオープン語彙分類において顕著な能力を示した。
CLIPは、グローバル機能が最も顕著なクラスに支配される傾向があるため、マルチラベルデータセットのパフォーマンスが低い。
画像タグを得るための局所言語フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T08:15:40Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Realistic Unsupervised CLIP Fine-tuning with Universal Entropy Optimization [101.08992036691673]
本稿では,未知のクラスにおける配布外サンプルの存在を考慮し,教師なしの微調整シナリオについて考察する。
特に,分布外検出と既知のクラスに関連するインスタンスの認識を同時に強化することに注力する。
我々はUniversal Entropy Optimization(UEO)と呼ばれるシンプルで効率的で効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T16:47:17Z) - ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free
Domain Adaptation [20.57370550156505]
ReCLIPは、ヴィジュアル言語モデルのための、ソースフリーなドメイン適応手法である。
ReCLIPは、22の画像分類ベンチマークにおいて、CLIPの平均エラー率を30.17%から25.06%に下げることを示した。
論文 参考訳(メタデータ) (2023-08-04T18:11:40Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z) - Joint Visual and Temporal Consistency for Unsupervised Domain Adaptive
Person Re-Identification [64.37745443119942]
本稿では,局所的なワンホット分類とグローバルなマルチクラス分類を組み合わせることで,視覚的・時間的整合性を両立させる。
3つの大規模ReIDデータセットの実験結果は、教師なしと教師なしの両方のドメイン適応型ReIDタスクにおいて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2020-07-21T14:31:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。