論文の概要: The CLEAR Benchmark: Continual LEArning on Real-World Imagery
- arxiv url: http://arxiv.org/abs/2201.06289v1
- Date: Mon, 17 Jan 2022 09:09:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 13:14:54.590455
- Title: The CLEAR Benchmark: Continual LEArning on Real-World Imagery
- Title(参考訳): the clear benchmark: 現実世界のイメージを継続的に学習する
- Authors: Zhiqiu Lin, Jia Shi, Deepak Pathak, Deva Ramanan
- Abstract要約: 連続学習(CL)は、生涯AIにとって重要な課題であると考えられている。
本稿では,視覚概念の自然な時間進化を伴う最初の連続画像分類ベンチマークであるCLEARを紹介する。
単純な教師なし事前学習のステップで、最先端のCLアルゴリズムがすでに強化されていることが分かりました。
- 参考スコア(独自算出の注目度): 77.98377088698984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual learning (CL) is widely regarded as crucial challenge for lifelong
AI. However, existing CL benchmarks, e.g. Permuted-MNIST and Split-CIFAR, make
use of artificial temporal variation and do not align with or generalize to the
real-world. In this paper, we introduce CLEAR, the first continual image
classification benchmark dataset with a natural temporal evolution of visual
concepts in the real world that spans a decade (2004-2014). We build CLEAR from
existing large-scale image collections (YFCC100M) through a novel and scalable
low-cost approach to visio-linguistic dataset curation. Our pipeline makes use
of pretrained vision-language models (e.g. CLIP) to interactively build labeled
datasets, which are further validated with crowd-sourcing to remove errors and
even inappropriate images (hidden in original YFCC100M). The major strength of
CLEAR over prior CL benchmarks is the smooth temporal evolution of visual
concepts with real-world imagery, including both high-quality labeled data
along with abundant unlabeled samples per time period for continual
semi-supervised learning. We find that a simple unsupervised pre-training step
can already boost state-of-the-art CL algorithms that only utilize
fully-supervised data. Our analysis also reveals that mainstream CL evaluation
protocols that train and test on iid data artificially inflate performance of
CL system. To address this, we propose novel "streaming" protocols for CL that
always test on the (near) future. Interestingly, streaming protocols (a) can
simplify dataset curation since today's testset can be repurposed for
tomorrow's trainset and (b) can produce more generalizable models with more
accurate estimates of performance since all labeled data from each time-period
is used for both training and testing (unlike classic iid train-test splits).
- Abstract(参考訳): 連続学習(CL)は生涯AIにとって重要な課題であると考えられている。
しかし、既存のCLベンチマーク、例えばPermuted-MNISTやSplit-CIFARは人工的な時間変動を利用し、現実世界と整合したり一般化したりしない。
本稿では、10年(2004年~2014年)にわたる現実世界における視覚概念の自然な時間的進化を伴う,最初の連続的画像分類ベンチマークデータセットであるclearを紹介する。
既存の大規模画像コレクション(YFCC100M)から,視覚言語的データセットキュレーションのための,新しい,スケーラブルな低コストアプローチによりCLEARを構築する。
私たちのパイプラインでは、事前にトレーニングされた視覚言語モデル(例えばCLIP)を使用してラベル付きデータセットをインタラクティブに構築しています。
CLEARの以前のCLベンチマークに対する最大の強みは、高品質なラベル付きデータと、連続的な半教師付き学習のための時間単位の豊富なラベル付きサンプルを含む、実世界のイメージによる視覚概念のスムーズな時間的進化である。
我々は、教師なし事前学習の単純なステップが、完全に教師付きデータのみを利用する最先端のCLアルゴリズムを既に強化できることを発見した。
また, iidデータをトレーニングし, テストするcl評価プロトコルがclシステムの性能を人為的に膨らませることを明らかにした。
この問題に対処するため、我々は、常に(近い)未来でテストするCLのための新しい"ストリーミング"プロトコルを提案する。
興味深いことに ストリーミングプロトコルは
(a)今日のテストセットを明日のトレインセットに再利用できるため、データセットのキュレーションを簡略化できる。
(b) トレーニングとテストの両方に各期間のラベル付きデータを使用するため、より正確な性能推定でより一般化可能なモデルを作成することができる。
関連論文リスト
- Density Distribution-based Learning Framework for Addressing Online
Continual Learning Challenges [4.715630709185073]
オンライン連続学習のための密度分布に基づく学習フレームワークを提案する。
我々のフレームワークは、より優れた平均精度と時間空間効率を実現する。
提案手法は, CL のアプローチにおいて, 有意な差で優れる。
論文 参考訳(メタデータ) (2023-11-22T09:21:28Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Computationally Budgeted Continual Learning: What Does Matter? [128.0827987414154]
CL (Continuous Learning) は、新しいデータに適応しながら、以前の知識を保存し、分布の異なる入力データのストリーム上でモデルを逐次訓練することを目的としている。
現在のCL文献では、以前のデータへのアクセス制限に焦点が当てられているが、トレーニングの計算予算に制約は課されていない。
本稿では,この問題を大規模ベンチマークで再検討し,計算制約条件下での従来のCL手法の性能解析を行う。
論文 参考訳(メタデータ) (2023-03-20T14:50:27Z) - Real-Time Evaluation in Online Continual Learning: A New Hope [104.53052316526546]
計算コストに関して,現在の継続学習(CL)手法を評価した。
簡単なベースラインは、この評価の下で最先端のCL法より優れている。
これは、既存のCL文献の大部分は、実用的でない特定の種類のストリームに適合していることを驚くほど示唆している。
論文 参考訳(メタデータ) (2023-02-02T12:21:10Z) - Do Pre-trained Models Benefit Equally in Continual Learning? [25.959813589169176]
既存の継続学習(CL)の研究は主に、ゼロから訓練されたモデルのアルゴリズムの開発に費やされている。
コントリビュートベンチマークのパフォーマンスは高いが、これらのアルゴリズムは現実のシナリオで劇的なパフォーマンス低下を示す。
本稿では,CLに対する事前学習の体系的導入を提唱する。
論文 参考訳(メタデータ) (2022-10-27T18:03:37Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Foundational Models for Continual Learning: An Empirical Study of Latent
Replay [17.322679682451597]
本稿では,下流の連続学習シナリオの基礎として,事前学習型視覚モデルの有効性について検討する。
大規模ベンチマークシナリオにおける各種事前学習モデルの有効性を,潜時および生データ空間におけるバニラ再生設定と比較した。
論文 参考訳(メタデータ) (2022-04-30T19:11:37Z) - Continual Learning for Recurrent Neural Networks: a Review and Empirical
Evaluation [12.27992745065497]
リカレントニューラルネットワークによる連続学習は、受信データが定常的でない多数のアプリケーションへの道を開くことができる。
コントリビューションの分類とベンチマークのレビューを提供することで、シーケンシャルデータ処理のためのCLに関する文献を整理します。
我々は既存のデータセットに基づくシーケンシャルデータを持つclの新しいベンチマークを2つ提案する。
論文 参考訳(メタデータ) (2021-03-12T19:25:28Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。