論文の概要: Retrieval Augmented Classification for Long-Tail Visual Recognition
- arxiv url: http://arxiv.org/abs/2202.11233v1
- Date: Tue, 22 Feb 2022 23:40:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-24 15:53:13.492150
- Title: Retrieval Augmented Classification for Long-Tail Visual Recognition
- Title(参考訳): ロングテール視覚認識のための検索強化分類
- Authors: Alexander Long, Wei Yin, Thalaiyasingam Ajanthan, Vu Nguyen, Pulak
Purkait, Ravi Garg, Alan Blair, Chunhua Shen, Anton van den Hengel
- Abstract要約: 本稿では,標準画像分類パイプラインを明示的な検索モジュールで拡張するための汎用的なアプローチであるRetrieval Augmented Classification (RAC)を紹介する。
RACは、標準のベースイメージエンコーダと並列検索ブランチを融合し、プリエンコードされた画像と関連するテキストスニペットの非パラメトリック外部メモリをクエリする。
我々は、RACの検索モジュールが、プロンプトなしで、テールクラスで高いレベルの精度で学習できることを実証した。
- 参考スコア(独自算出の注目度): 143.2716893535358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Retrieval Augmented Classification (RAC), a generic approach to
augmenting standard image classification pipelines with an explicit retrieval
module. RAC consists of a standard base image encoder fused with a parallel
retrieval branch that queries a non-parametric external memory of pre-encoded
images and associated text snippets. We apply RAC to the problem of long-tail
classification and demonstrate a significant improvement over previous
state-of-the-art on Places365-LT and iNaturalist-2018 (14.5% and 6.7%
respectively), despite using only the training datasets themselves as the
external information source. We demonstrate that RAC's retrieval module,
without prompting, learns a high level of accuracy on tail classes. This, in
turn, frees the base encoder to focus on common classes, and improve its
performance thereon. RAC represents an alternative approach to utilizing large,
pretrained models without requiring fine-tuning, as well as a first step
towards more effectively making use of external memory within common computer
vision architectures.
- Abstract(参考訳): 本稿では,標準画像分類パイプラインを明示的な検索モジュールで拡張するための汎用的なアプローチであるRetrieval Augmented Classification (RAC)を紹介する。
RACは、標準のベースイメージエンコーダと並列検索ブランチを融合し、プリエンコードされた画像と関連するテキストスニペットの非パラメトリック外部メモリをクエリする。
トレーニングデータセット自体を外部情報ソースとして用いたにもかかわらず、RACを長期分類の問題に適用し、Places365-LTとiNaturalist-2018(それぞれ14.5%と6.7%)の最先端よりも大幅に改善したことを示す。
racの検索モジュールは,プロンプトすることなく,テールクラスで高い精度を学習できることを実証する。
これにより、ベースエンコーダが共通のクラスにフォーカスできるように解放され、パフォーマンスが向上する。
RACは、微調整を必要とせず、大規模で事前訓練されたモデルを利用するための代替手法であり、一般的なコンピュータビジョンアーキテクチャにおける外部メモリをより効果的に活用するための第一歩である。
関連論文リスト
- Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - Dynamic Conceptional Contrastive Learning for Generalized Category
Discovery [76.82327473338734]
Generalized category discovery (GCD) は、部分的にラベル付けされたデータを自動でクラスタリングすることを目的としている。
ラベル付きデータには、ラベル付きデータの既知のカテゴリだけでなく、新しいカテゴリのインスタンスも含まれている。
GCDの効果的な方法の1つは、ラベルなしデータの識別表現を学習するために自己教師付き学習を適用することである。
本稿では,クラスタリングの精度を効果的に向上する動的概念コントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:04:39Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Why-So-Deep: Towards Boosting Previously Trained Models for Visual Place
Recognition [12.807343105549409]
画像のリコールを改善するために,事前学習モデルのパワーを増幅する知的手法MAQBOOLを提案する。
我々は,最先端手法の高記述次元 (4096-D) と比較して,低記述次元 (512-D) で画像検索結果に匹敵する結果を得た。
論文 参考訳(メタデータ) (2022-01-10T08:39:06Z) - Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。
この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。
また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2021-10-12T17:58:59Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - Instance-level Image Retrieval using Reranking Transformers [18.304597755595697]
インスタンスレベルの画像検索は、クエリイメージ内のオブジェクトに一致する画像の大規模なデータベースで検索するタスクです。
RRT(Reranking Transformers)を一般的なモデルとして提案し、ローカル機能とグローバル機能の両方を組み込んでマッチングイメージをランク付けします。
RRTは軽量であり、一組のトップマッチング結果の再ランク付けを単一のフォワードパスで行えるように容易に並列化できる。
論文 参考訳(メタデータ) (2021-03-22T23:58:38Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Connecting Images through Time and Sources: Introducing Low-data,
Heterogeneous Instance Retrieval [3.6526118822907594]
バリエーションやセマンティックな内容のパネルによく反応する機能を選択するのは簡単ではないことを示す。
Alegoriaベンチマークの新しい拡張バージョンを導入し、詳細なアノテーションを使って記述子を比較します。
論文 参考訳(メタデータ) (2021-03-19T10:54:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。