論文の概要: VL-LTR: Learning Class-wise Visual-Linguistic Representation for
Long-Tailed Visual Recognition
- arxiv url: http://arxiv.org/abs/2111.13579v1
- Date: Fri, 26 Nov 2021 16:24:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 19:40:46.517503
- Title: VL-LTR: Learning Class-wise Visual-Linguistic Representation for
Long-Tailed Visual Recognition
- Title(参考訳): VL-LTR:長期視覚認識のためのクラスワイド視覚言語表現学習
- Authors: Changyao Tian, Wenhai Wang, Xizhou Zhu, Xiaogang Wang, Jifeng Dai, Yu
Qiao
- Abstract要約: 本稿では,VL-LTRと呼ばれる視覚言語的長尾認識フレームワークを提案する。
本手法は,画像から視覚表現とそれに対応する言語表現を,雑音のあるクラスレベルのテキスト記述から学習することができる。
特に,ImageNet-LTでは77.2%の精度を達成し,従来のベストメソッドよりも17ポイント以上優れていた。
- 参考スコア(独自算出の注目度): 61.75391989107558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning-based models encounter challenges when processing long-tailed
data in the real world. Existing solutions usually employ some balancing
strategies or transfer learning to deal with the class imbalance problem, based
on the image modality. In this work, we present a visual-linguistic long-tailed
recognition framework, termed VL-LTR, and conduct empirical studies on the
benefits of introducing text modality for long-tailed recognition (LTR).
Compared to existing approaches, the proposed VL-LTR has the following merits.
(1) Our method can not only learn visual representation from images but also
learn corresponding linguistic representation from noisy class-level text
descriptions collected from the Internet; (2) Our method can effectively use
the learned visual-linguistic representation to improve the visual recognition
performance, especially for classes with fewer image samples. We also conduct
extensive experiments and set the new state-of-the-art performance on
widely-used LTR benchmarks. Notably, our method achieves 77.2% overall accuracy
on ImageNet-LT, which significantly outperforms the previous best method by
over 17 points, and is close to the prevailing performance training on the full
ImageNet. Code shall be released.
- Abstract(参考訳): ディープラーニングベースのモデルは、現実世界で長期データを処理する際に困難に直面する。
既存のソリューションは通常、画像のモダリティに基づいたクラス不均衡問題に対処するために、いくつかのバランス戦略や転送学習を用いる。
本稿では,vl-ltrと呼ばれる視覚言語的ロングテール認識フレームワークを提案し,ロングテール認識(ltr)にテキストモダリティを導入することの利点について実証研究を行う。
既存のアプローチと比較して、提案したVL-LTRには以下の利点がある。
1) 画像から視覚表現を学習するだけでなく,インターネットから収集したノイズの多いクラスレベルのテキスト記述から対応する言語表現を学習する。
また,広範な実験を行い,広く使用されているltrベンチマークで最新性能をセットした。
特に,ImageNet-LTで77.2%の精度を達成し,従来の最良の手法を17ポイント以上上回り,完全なImageNetの性能訓練に近づいた。
コードは解放される。
関連論文リスト
- Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z) - Class-Balanced Distillation for Long-Tailed Visual Recognition [100.10293372607222]
実世界のイメージはしばしばクラスごとの画像数の著しい不均衡によって特徴づけられ、ロングテール分布に繋がる。
本研究では、インスタンスサンプリングで学習した特徴表現が長尾設定では最適とは程遠いという重要な観察を行うことで、新しいフレームワークを提案する。
我々の主な貢献は、知識蒸留を利用して特徴表現を強化する新しい訓練方法である。
論文 参考訳(メタデータ) (2021-04-12T08:21:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。