論文の概要: BloomCoreset: Fast Coreset Sampling using Bloom Filters for Fine-Grained Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2412.16942v1
- Date: Sun, 22 Dec 2024 09:18:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:58:18.629097
- Title: BloomCoreset: Fast Coreset Sampling using Bloom Filters for Fine-Grained Self-Supervised Learning
- Title(参考訳): BloomCoreset:細粒度自己監督学習のためのブルームフィルタを用いた高速コアセットサンプリング
- Authors: Prajwal Singh, Gautam Vashishtha, Indra Deep Mastan, Shanmuganathan Raman,
- Abstract要約: Open-Set for fine-fine Self-Supervised Learning (SSL) problemは、未ラベルデータの大規模なプール(Open-Set)から画像のサブセット(Core-Set)を戦略的にサンプリングすることで、ダウンストリームタスクのパフォーマンスを向上させることを目的としている。
本稿では,コアセット内のサンプルの品質を保ちながら,Open-Setからのサンプリング時間を著しく短縮するBloomCoresetを提案する。
サンプルコアセットの有効性を示すため,提案手法を最先端の微細SSLフレームワークであるSimCoreに統合した。
- 参考スコア(独自算出の注目度): 15.549424176583662
- License:
- Abstract: The success of deep learning in supervised fine-grained recognition for domain-specific tasks relies heavily on expert annotations. The Open-Set for fine-grained Self-Supervised Learning (SSL) problem aims to enhance performance on downstream tasks by strategically sampling a subset of images (the Core-Set) from a large pool of unlabeled data (the Open-Set). In this paper, we propose a novel method, BloomCoreset, that significantly reduces sampling time from Open-Set while preserving the quality of samples in the coreset. To achieve this, we utilize Bloom filters as an innovative hashing mechanism to store both low- and high-level features of the fine-grained dataset, as captured by Open-CLIP, in a space-efficient manner that enables rapid retrieval of the coreset from the Open-Set. To show the effectiveness of the sampled coreset, we integrate the proposed method into the state-of-the-art fine-grained SSL framework, SimCore [1]. The proposed algorithm drastically outperforms the sampling strategy of the baseline in SimCore [1] with a $98.5\%$ reduction in sampling time with a mere $0.83\%$ average trade-off in accuracy calculated across $11$ downstream datasets.
- Abstract(参考訳): ドメイン固有のタスクに対する教師付ききめ細かい認識におけるディープラーニングの成功は、専門家のアノテーションに大きく依存している。
Open-Set for fine-fine Self-Supervised Learning (SSL) problemは、ラベルなしデータの大規模なプール(Open-Set)からイメージのサブセット(Core-Set)を戦略的にサンプリングすることで、ダウンストリームタスクのパフォーマンスを向上させることを目的としている。
本稿では,コアセット内のサンプルの品質を保ちながら,Open-Setからのサンプリング時間を著しく短縮するBloomCoresetを提案する。
そこで,我々はBloomフィルタを革新的ハッシュ機構として利用し,Open-CLIPが取得した細粒度データセットの低レベル特徴と高レベル特徴の両方を,Open-Setからコアセットを高速に検索できる空間効率で格納する。
サンプルコアセットの有効性を示すため,提案手法を最先端の微細SSLフレームワークであるSimCore [1]に統合した。
提案アルゴリズムは、SimCore [1]におけるベースラインのサンプリング戦略を9,8.5 %$サンプリング時間をわずか0.83 %$平均トレードオフで削減し、11 ドルのダウンストリームデータセットで計算した精度で大幅に上回っている。
関連論文リスト
- Curvature Informed Furthest Point Sampling [0.0]
ファテスト点サンプリング(FPS)を強化する強化学習に基づくサンプリングアルゴリズムを提案する。
提案手法は,FPS由来のソフトランクと深部ニューラルネットワークによる曲率スコアを組み合わせることで,ポイントをランク付けする。
我々は,各特徴が性能に与える影響について,質的および定量的に考察した総合的アブレーション研究を提供する。
論文 参考訳(メタデータ) (2024-11-25T23:58:38Z) - Frugal Actor-Critic: Sample Efficient Off-Policy Deep Reinforcement
Learning Using Unique Experiences [8.983448736644382]
リプレイバッファの効率的な利用は、非政治アクター-犯罪強化学習(RL)アルゴリズムにおいて重要な役割を担っている。
本稿では,ユニークなサンプルを選択してリプレイバッファに追加することに焦点を当てた,サンプル効率を実現する手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T10:04:00Z) - Refined Coreset Selection: Towards Minimal Coreset Size under Model
Performance Constraints [69.27190330994635]
コアセットの選択は、計算コストの削減とディープラーニングアルゴリズムのデータ処理の高速化に強力である。
本稿では,モデル性能とコアセットサイズに対する最適化優先順序を維持する革新的な手法を提案する。
実験的に、広範な実験によりその優位性が確認され、しばしばより小さなコアセットサイズでモデル性能が向上する。
論文 参考訳(メタデータ) (2023-11-15T03:43:04Z) - Combating Label Noise With A General Surrogate Model For Sample
Selection [84.61367781175984]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - Towards Sustainable Learning: Coresets for Data-efficient Deep Learning [9.51481812606879]
CRESTは、データセットに関する厳密な理論的サブセット実験を備えた、最初のスケーラブルなサブセットディープネットワークフレームワークである。
CRESTは、非イメージ関数の最も価値のある例を特定している。
論文 参考訳(メタデータ) (2023-06-02T02:51:08Z) - Hierarchical Adaptive Voxel-guided Sampling for Real-time Applications
in Large-scale Point Clouds [6.094829692829813]
本稿では,線形複雑化と高並列化を実現した階層型適応型ボクセル誘導点サンプリング器を提案する。
提案手法は,100倍以上の速度で,最も強力なFPSと競合する性能を実現する。
我々のサンプルは既存のモデルに簡単に統合でき、最小限の労力でランタイムを20$sim$80%削減できる。
論文 参考訳(メタデータ) (2023-05-23T17:45:49Z) - Coreset Sampling from Open-Set for Fine-Grained Self-Supervised Learning [10.57079240576682]
本稿では,大規模未ラベルのオープンセットが利用可能であるという前提の下で,オープンセットの自己改善型学習問題を新たに導入する。
問題設定では、オープンセットとターゲットデータセットの分布ミスマッチを考慮することが重要である。
実験により,SimCoreは表現学習性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2023-03-20T13:38:29Z) - OpenAUC: Towards AUC-Oriented Open-Set Recognition [151.5072746015253]
従来の機械学習は、トレーニングとテストセットが同じラベル空間を共有するという密接な前提に従っている。
Open-Set Recognition (OSR) は、クローズセットサンプルとオープンセットサンプルの両方で正確な予測を行うことを目的としている。
これらの問題を解決するために,OpenAUCという新しいメトリクスを提案する。
論文 参考訳(メタデータ) (2022-10-22T08:54:15Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - NeRF in detail: Learning to sample for view synthesis [104.75126790300735]
ニューラルレイディアンス場(NeRF)法は目覚ましい新しいビュー合成を実証している。
この作業では、バニラ粗大なアプローチの明確な制限に対処します -- パフォーマンスに基づいており、手元にあるタスクのエンドツーエンドをトレーニングしていません。
我々は、サンプルの提案と、そのネットワークにおける重要性を学習し、そのニューラルネットワークアーキテクチャに対する複数の代替案を検討し比較する、微分可能なモジュールを導入する。
論文 参考訳(メタデータ) (2021-06-09T17:59:10Z) - Byzantine-Resilient Non-Convex Stochastic Gradient Descent [61.6382287971982]
敵対的レジリエントな分散最適化。
機械は独立して勾配を計算し 協力することができます
私達のアルゴリズムは新しい集中の技術およびサンプル複雑性に基づいています。
それは非常に実用的です:それはないときすべての前の方法の性能を改善します。
セッティングマシンがあります。
論文 参考訳(メタデータ) (2020-12-28T17:19:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。