論文の概要: A Simple Long-Tailed Recognition Baseline via Vision-Language Model
- arxiv url: http://arxiv.org/abs/2111.14745v1
- Date: Mon, 29 Nov 2021 17:49:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 18:02:21.909081
- Title: A Simple Long-Tailed Recognition Baseline via Vision-Language Model
- Title(参考訳): 視覚言語モデルによる簡便な長尾認識ベースライン
- Authors: Teli Ma, Shijie Geng, Mengmeng Wang, Jing Shao, Jiasen Lu, Hongsheng
Li, Peng Gao, Yu Qiao
- Abstract要約: 視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
- 参考スコア(独自算出の注目度): 92.2866546058082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The visual world naturally exhibits a long-tailed distribution of open
classes, which poses great challenges to modern visual systems. Existing
approaches either perform class re-balancing strategies or directly improve
network modules to address the problem. However, they still train models with a
finite set of predefined labels, limiting their supervision information and
restricting their transferability to novel instances. Recent advances in
large-scale contrastive visual-language pretraining shed light on a new pathway
for visual recognition. With open-vocabulary supervisions, pretrained
contrastive vision-language models learn powerful multimodal representations
that are promising to handle data deficiency and unseen concepts. By
calculating the semantic similarity between visual and text inputs, visual
recognition is converted to a vision-language matching problem. Inspired by
this, we propose BALLAD to leverage contrastive vision-language models for
long-tailed recognition. We first continue pretraining the vision-language
backbone through contrastive learning on a specific long-tailed target dataset.
Afterward, we freeze the backbone and further employ an additional adapter
layer to enhance the representations of tail classes on balanced training
samples built with re-sampling strategies. Extensive experiments have been
conducted on three popular long-tailed recognition benchmarks. As a result, our
simple and effective approach sets the new state-of-the-art performances and
outperforms competitive baselines with a large margin. Code is released at
https://github.com/gaopengcuhk/BALLAD.
- Abstract(参考訳): 視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムに大きな課題をもたらしている。
既存のアプローチでは、クラスの再バランス戦略を実行するか、問題に対処するためのネットワークモジュールを直接改善する。
しかし、彼らはまだ有限セットのラベルでモデルを訓練し、監督情報を制限し、新しいインスタンスへの転送可能性を制限する。
視覚認識のための新しい経路における大規模コントラスト言語事前学習の最近の進歩
オープン語彙の監督によって、事前訓練された対照的な視覚言語モデルは、データ不足や目に見えない概念を扱うことを約束する強力なマルチモーダル表現を学ぶ。
視覚入力とテキスト入力のセマンティックな類似性を計算することにより、視覚認識を視覚言語マッチング問題に変換する。
これに触発されたBALLADは、長い尾の認識にコントラッシブな視覚言語モデルを利用する。
まず、特定の長い尾を持つターゲットデータセットの対照的な学習を通じて、視覚言語バックボーンの事前学習を継続する。
その後、バックボーンを凍結し、さらに追加のアダプタ層を用いて、再サンプリング戦略で構築したバランスの取れたトレーニングサンプルのテールクラスの表現を強化する。
3つの一般的なロングテール認識ベンチマークで広範な実験が行われている。
その結果、我々の単純かつ効果的なアプローチは、新しい最先端のパフォーマンスを設定し、大きなマージンで競争ベースラインを上回ります。
コードはhttps://github.com/gaopengcuhk/BALLADで公開されている。
関連論文リスト
- Croc: Pretraining Large Multimodal Models with Cross-Modal Comprehension [21.500920290909843]
本稿では,Large Language Models (LLM) のための新しい事前学習パラダイムを提案し,その視覚的理解能力を高める。
具体的には、動的に学習可能なプロンプトトークンプールを設計し、ハンガリーのアルゴリズムを用いて、元のビジュアルトークンの一部を最も関連性の高いプロンプトトークンに置き換える。
我々はCrocと呼ばれる新しい基礎モデルを提案し、大規模な視覚言語ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-18T09:44:25Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Contrastive Learning with Boosted Memorization [36.957895270908324]
自己教師付き学習は、視覚的およびテキスト的データの表現学習において大きな成功を収めた。
近年の自己指導型長期学習の試行は、損失視点やモデル視点の再バランスによって行われる。
本稿では,ラベルを意識しないコンテキストにおける長期学習を強化するために,新しいBCL法を提案する。
論文 参考訳(メタデータ) (2022-05-25T11:54:22Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。