論文の概要: Memory-based Jitter: Improving Visual Recognition on Long-tailed Data
with Diversity In Memory
- arxiv url: http://arxiv.org/abs/2008.09809v6
- Date: Tue, 6 Jul 2021 07:49:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 08:03:35.982196
- Title: Memory-based Jitter: Improving Visual Recognition on Long-tailed Data
with Diversity In Memory
- Title(参考訳): メモリベースのジッタ: メモリの多様性を考慮したロングテールデータにおける視覚認識の改善
- Authors: Jialun Liu, Jingwei Zhang, Yi yang, Wenhui Li, Chi Zhang and Yifan Sun
- Abstract要約: メモリベースジッター(MBJ)と呼ばれるシンプルで信頼性の高い手法を導入する。
MBJは2つの基本的な視覚認識タスク、すなわち深部画像分類と深部メートル法学習に適用できる。
5つの長い尾の分類ベンチマークと2つの深いメートル法学習ベンチマークの実験は、大幅な改善を示している。
- 参考スコア(独自算出の注目度): 39.56214005885884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper considers deep visual recognition on long-tailed data. To be
general, we consider two applied scenarios, \ie, deep classification and deep
metric learning. Under the long-tailed data distribution, the majority classes
(\ie, tail classes) only occupy relatively few samples and are prone to lack of
within-class diversity. A radical solution is to augment the tail classes with
higher diversity. To this end, we introduce a simple and reliable method named
Memory-based Jitter (MBJ). We observe that during training, the deep model
constantly changes its parameters after every iteration, yielding the
phenomenon of \emph{weight jitters}. Consequentially, given a same image as the
input, two historical editions of the model generate two different features in
the deeply-embedded space, resulting in \emph{feature jitters}. Using a memory
bank, we collect these (model or feature) jitters across multiple training
iterations and get the so-called Memory-based Jitter. The accumulated jitters
enhance the within-class diversity for the tail classes and consequentially
improves long-tailed visual recognition. With slight modifications, MBJ is
applicable for two fundamental visual recognition tasks, \emph{i.e.}, deep
image classification and deep metric learning (on long-tailed data). Extensive
experiments on five long-tailed classification benchmarks and two deep metric
learning benchmarks demonstrate significant improvement. Moreover, the achieved
performance are on par with the state of the art on both tasks.
- Abstract(参考訳): 本稿では,ロングテールデータに対する深い視覚認識について検討する。
一般に、我々は2つの応用シナリオ、すなわち、深層分類と深部メートル法学習を考える。
長い尾のデータ分布の下では、大多数のクラス (\ie, tail class) が比較的少数のサンプルしか占めておらず、クラス内の多様性が欠如している。
急進的な解決策は、より多様性のある末尾クラスを強化することである。
この目的のために,メモリベースジッター (MBJ) と呼ばれるシンプルで信頼性の高い手法を提案する。
トレーニング中、深層モデルは反復毎にパラメータを常に変更し、emph{weight jitters}という現象が発生するのを観察した。
入力と同じイメージが与えられると、モデルの2つの歴史的なエディションが、深く埋め込まれた空間に2つの異なる特徴を生成し、結果として \emph{feature jitters} となる。
メモリバンクを使用して、これらの(モデルや機能)ジッタを複数のトレーニングイテレーションで収集し、いわゆるメモリベースのジッタを取得する。
蓄積されたジッタはテールクラスのクラス内多様性を高め、連続してロングテールの視覚認識を改善する。
mbjはわずかな修正で、2つの基本的なビジュアル認識タスク、すなわち、ディープイメージ分類とディープメトリック学習(ロングテールデータ)に適用できる。
5つのロングテール分類ベンチマークと2つのディープメトリック学習ベンチマークに関する広範な実験は、大幅な改善を示している。
さらに、達成されたパフォーマンスは、両方のタスクにおける最先端技術と同等です。
関連論文リスト
- Holistic Memory Diversification for Incremental Learning in Growing Graphs [16.483780704430405]
目標は、以前のタスクに対する推論能力を維持しながら、新しいタスクを処理するためにグラフモデルを継続的にトレーニングすることだ。
既存の方法は、通常、メモリの多様性の重要性を無視し、以前のタスクから高品質なメモリを効果的に選択することを制限する。
本稿では,グラフにおける漸進的学習のための包括的メモリ選択・生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-11T16:18:15Z) - TaE: Task-aware Expandable Representation for Long Tail Class Incremental Learning [42.630413950957795]
本稿では,各タスクから多様な表現を学習するための新しいタスク対応拡張(TaE)フレームワークを提案する。
TaEは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-02-08T16:37:04Z) - Black-box Unsupervised Domain Adaptation with Bi-directional
Atkinson-Shiffrin Memory [59.51934126717572]
Black-box Unsupervised Domain adaptation (UDA)は、トレーニング中にソースデータまたはソースモデルにアクセスすることなく、ターゲットデータのソース予測で学習する。
両方向の記憶機構であるBiMemを提案する。
BiMemは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、さまざまな視覚的タスクに一貫して優れたドメイン適応性能を実現する。
論文 参考訳(メタデータ) (2023-08-25T08:06:48Z) - Improving Image Recognition by Retrieving from Web-Scale Image-Text Data [68.63453336523318]
本稿では,メモリから抽出した各サンプルの重要性を学習するアテンションベースのメモリモジュールを提案する。
既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。
我々は、ImageNet-LT、Places-LT、Webvisionのデータセットで最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-04-11T12:12:05Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。
MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文 参考訳(メタデータ) (2022-01-03T02:32:06Z) - Memory Wrap: a Data-Efficient and Interpretable Extension to Image
Classification Models [9.848884631714451]
Memory Wrapは、任意の画像分類モデルのプラグアンドプレイ拡張である。
データ効率性とモデル解釈性の両方を改善し、コンテンツアテンションメカニズムを採用する。
メモリラップは,限られたデータ集合から学習すると,標準的な分類器よりも優れることを示す。
論文 参考訳(メタデータ) (2021-06-01T07:24:19Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。