論文の概要: Towards Free Data Selection with General-Purpose Models
- arxiv url: http://arxiv.org/abs/2309.17342v2
- Date: Sat, 14 Oct 2023 22:43:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 03:08:06.675899
- Title: Towards Free Data Selection with General-Purpose Models
- Title(参考訳): 汎用モデルによる自由データ選択に向けて
- Authors: Yichen Xie, Mingyu Ding, Masayoshi Tomizuka, Wei Zhan
- Abstract要約: 望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
- 参考スコア(独自算出の注目度): 71.92151210413374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A desirable data selection algorithm can efficiently choose the most
informative samples to maximize the utility of limited annotation budgets.
However, current approaches, represented by active learning methods, typically
follow a cumbersome pipeline that iterates the time-consuming model training
and batch data selection repeatedly. In this paper, we challenge this status
quo by designing a distinct data selection pipeline that utilizes existing
general-purpose models to select data from various datasets with a single-pass
inference without the need for additional training or supervision. A novel free
data selection (FreeSel) method is proposed following this new pipeline.
Specifically, we define semantic patterns extracted from inter-mediate features
of the general-purpose model to capture subtle local information in each image.
We then enable the selection of all data samples in a single pass through
distance-based sampling at the fine-grained semantic pattern level. FreeSel
bypasses the heavy batch selection process, achieving a significant improvement
in efficiency and being 530x faster than existing active learning methods.
Extensive experiments verify the effectiveness of FreeSel on various computer
vision tasks. Our code is available at https://github.com/yichen928/FreeSel.
- Abstract(参考訳): 望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
しかし、アクティブな学習手法で表される現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータの選択を繰り返し繰り返す面倒なパイプラインに従う。
本稿では,既存の汎用モデルを用いて,追加のトレーニングや監督を必要とせずに,単一パス推論を用いて各種データセットからデータを選択する,独自のデータ選択パイプラインを設計することにより,この現状に挑戦する。
このパイプラインに続き、新しい自由データ選択法(FreeSel)が提案されている。
具体的には,汎用モデルの中間的特徴から抽出した意味的パターンを定義し,各画像内の微妙な局所情報をキャプチャする。
次に、細粒度のセマンティックパターンレベルで、距離に基づくサンプリングを通した単一パスにおける全データサンプルの選択を可能にする。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
様々なコンピュータビジョンタスクにおけるfreeselの有効性を検証する広範な実験。
私たちのコードはhttps://github.com/yichen928/FreeSelで利用可能です。
関連論文リスト
- LESS: Selecting Influential Data for Targeted Instruction Tuning [69.50855460630105]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - AdaSelection: Accelerating Deep Learning Training through Data
Subsampling [27.46630703428186]
適応型サブサンプリング手法であるAdaSelectionを導入し,各ミニバッチ内の最も情報性の高いサブサンプルを同定する。
業界標準のベースラインと比較すると、AdaSelectionは一貫して優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-06-19T07:01:28Z) - A Gradient-based Approach for Online Robust Deep Neural Network Training
with Noisy Labels [27.7867122240632]
本稿では,雑音ラベルのオンライン選択を可能にする新しい手法を提案する。
オンライングラディエントベースの選択選択(OGRS)は、パラメータ設定を変更することなく、さまざまなクリーン比を持つデータセットから更新するステップによって、クリーンサンプルを自動的に選択することができる。
論文 参考訳(メタデータ) (2023-06-08T08:57:06Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Optimal Data Selection: An Online Distributed View [61.31708750038692]
この問題のオンライン版と分散版のアルゴリズムを開発する。
ランダム選択法は, ランダム選択法よりも5~20%高い性能を示した。
ImageNet と MNIST の学習タスクにおいて、我々の選択方法はランダム選択よりも5-20% 高い性能を示した。
論文 参考訳(メタデータ) (2022-01-25T18:56:16Z) - Towards General and Efficient Active Learning [20.888364610175987]
アクティブラーニングは、限られたアノテーション予算を利用するために最も有益なサンプルを選択することを目的としている。
本稿では,新しい汎用能動学習法(GEAL)を提案する。
提案手法は,同一モデルの単一パス推定を用いて,異なるデータセット上でデータ選択処理を行うことができる。
論文 参考訳(メタデータ) (2021-12-15T08:35:28Z) - Online Active Model Selection for Pre-trained Classifiers [72.84853880948894]
我々は,任意のラウンドにおいて高い確率で最良のモデルをラベル付けし,出力する情報的サンプルを積極的に選択するオンライン選択的サンプリング手法を設計する。
我々のアルゴリズムは、敵とストリームの両方のオンライン予測タスクに利用できる。
論文 参考訳(メタデータ) (2020-10-19T19:53:15Z) - On Deep Unsupervised Active Learning [41.579343330613675]
教師なしアクティブラーニングは、教師なしアノテートのための教師なしセッティングで代表サンプルを選択することを目的としている。
本稿では,教師なしアクティブラーニングのための新しいディープニューラルネットワークフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-28T02:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。