論文の概要: Towards Free Data Selection with General-Purpose Models
- arxiv url: http://arxiv.org/abs/2309.17342v2
- Date: Sat, 14 Oct 2023 22:43:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 03:08:06.675899
- Title: Towards Free Data Selection with General-Purpose Models
- Title(参考訳): 汎用モデルによる自由データ選択に向けて
- Authors: Yichen Xie, Mingyu Ding, Masayoshi Tomizuka, Wei Zhan
- Abstract要約: 望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
- 参考スコア(独自算出の注目度): 71.92151210413374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A desirable data selection algorithm can efficiently choose the most
informative samples to maximize the utility of limited annotation budgets.
However, current approaches, represented by active learning methods, typically
follow a cumbersome pipeline that iterates the time-consuming model training
and batch data selection repeatedly. In this paper, we challenge this status
quo by designing a distinct data selection pipeline that utilizes existing
general-purpose models to select data from various datasets with a single-pass
inference without the need for additional training or supervision. A novel free
data selection (FreeSel) method is proposed following this new pipeline.
Specifically, we define semantic patterns extracted from inter-mediate features
of the general-purpose model to capture subtle local information in each image.
We then enable the selection of all data samples in a single pass through
distance-based sampling at the fine-grained semantic pattern level. FreeSel
bypasses the heavy batch selection process, achieving a significant improvement
in efficiency and being 530x faster than existing active learning methods.
Extensive experiments verify the effectiveness of FreeSel on various computer
vision tasks. Our code is available at https://github.com/yichen928/FreeSel.
- Abstract(参考訳): 望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
しかし、アクティブな学習手法で表される現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータの選択を繰り返し繰り返す面倒なパイプラインに従う。
本稿では,既存の汎用モデルを用いて,追加のトレーニングや監督を必要とせずに,単一パス推論を用いて各種データセットからデータを選択する,独自のデータ選択パイプラインを設計することにより,この現状に挑戦する。
このパイプラインに続き、新しい自由データ選択法(FreeSel)が提案されている。
具体的には,汎用モデルの中間的特徴から抽出した意味的パターンを定義し,各画像内の微妙な局所情報をキャプチャする。
次に、細粒度のセマンティックパターンレベルで、距離に基づくサンプリングを通した単一パスにおける全データサンプルの選択を可能にする。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
様々なコンピュータビジョンタスクにおけるfreeselの有効性を検証する広範な実験。
私たちのコードはhttps://github.com/yichen928/FreeSelで利用可能です。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Data curation via joint example selection further accelerates multimodal learning [3.329535792151987]
サンプルを個別に選択するよりも,データのバッチを共同で選択することが学習に有効であることを示す。
このようなバッチを選択するための単純かつトラクタブルなアルゴリズムを導出し、個別に優先順位付けされたデータポイントを超えてトレーニングを著しく加速する。
論文 参考訳(メタデータ) (2024-06-25T16:52:37Z) - Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。
バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。
DivBS(Diversified Batch Selection)を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:12:20Z) - BWS: Best Window Selection Based on Sample Scores for Data Pruning across Broad Ranges [12.248397169100784]
データサブセットの選択は、フルデータセットのトレーニングを近似できる大規模なデータセットの、小さくても情報に富むサブセットを見つけることを目的としている。
難易度スコアに基づいて順序付けされたサンプルから最適なウィンドウサブセットを選択する方法を提案することにより、普遍的で効率的なデータサブセット選択法であるBest Window Selection(BWS)を導入する。
論文 参考訳(メタデータ) (2024-06-05T08:33:09Z) - AdaSelection: Accelerating Deep Learning Training through Data
Subsampling [27.46630703428186]
適応型サブサンプリング手法であるAdaSelectionを導入し,各ミニバッチ内の最も情報性の高いサブサンプルを同定する。
業界標準のベースラインと比較すると、AdaSelectionは一貫して優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-06-19T07:01:28Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Towards General and Efficient Active Learning [20.888364610175987]
アクティブラーニングは、限られたアノテーション予算を利用するために最も有益なサンプルを選択することを目的としている。
本稿では,新しい汎用能動学習法(GEAL)を提案する。
提案手法は,同一モデルの単一パス推定を用いて,異なるデータセット上でデータ選択処理を行うことができる。
論文 参考訳(メタデータ) (2021-12-15T08:35:28Z) - Online Active Model Selection for Pre-trained Classifiers [72.84853880948894]
我々は,任意のラウンドにおいて高い確率で最良のモデルをラベル付けし,出力する情報的サンプルを積極的に選択するオンライン選択的サンプリング手法を設計する。
我々のアルゴリズムは、敵とストリームの両方のオンライン予測タスクに利用できる。
論文 参考訳(メタデータ) (2020-10-19T19:53:15Z) - On Deep Unsupervised Active Learning [41.579343330613675]
教師なしアクティブラーニングは、教師なしアノテートのための教師なしセッティングで代表サンプルを選択することを目的としている。
本稿では,教師なしアクティブラーニングのための新しいディープニューラルネットワークフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-28T02:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。