論文の概要: Optimal Data Selection: An Online Distributed View
- arxiv url: http://arxiv.org/abs/2201.10547v3
- Date: Fri, 15 Dec 2023 02:43:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 19:55:37.333980
- Title: Optimal Data Selection: An Online Distributed View
- Title(参考訳): 最適なデータ選択:オンライン分散ビュー
- Authors: Mariel Werner, Anastasios Angelopoulos, Stephen Bates, Michael I.
Jordan
- Abstract要約: この問題のオンライン版と分散版のアルゴリズムを開発する。
ランダム選択法は, ランダム選択法よりも5~20%高い性能を示した。
ImageNet と MNIST の学習タスクにおいて、我々の選択方法はランダム選択よりも5-20% 高い性能を示した。
- 参考スコア(独自算出の注目度): 61.31708750038692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The blessing of ubiquitous data also comes with a curse: the communication,
storage, and labeling of massive, mostly redundant datasets. We seek to solve
this problem at its core, collecting only valuable data and throwing out the
rest via submodular maximization. Specifically, we develop algorithms for the
online and distributed version of the problem, where data selection occurs in
an uncoordinated fashion across multiple data streams. We design a general and
flexible core selection routine for our algorithms which, given any stream of
data, any assessment of its value, and any formulation of its selection cost,
extracts the most valuable subset of the stream up to a constant factor while
using minimal memory. Notably, our methods have the same theoretical guarantees
as their offline counterparts, and, as far as we know, provide the first
guarantees for online distributed submodular optimization in the literature.
Finally, in learning tasks on ImageNet and MNIST, we show that our selection
methods outperform random selection by $5-20\%$.
- Abstract(参考訳): ユビキタスなデータの祝福は、巨大な、ほとんど冗長なデータセットの通信、ストレージ、ラベリングという呪いも伴います。
我々は、その核心でこの問題を解決し、価値あるデータのみを収集し、サブモジュラーの最大化を通じて残りを破棄することを目指している。
具体的には,複数のデータストリームにまたがる非コーディネートな方法でデータ選択を行う,オンラインおよび分散バージョンのアルゴリズムを開発した。
我々は,任意のデータストリーム,その値の評価,選択コストの定式化を前提として,最小限のメモリを用いて,ストリームの最も価値の高いサブセットを一定要素まで抽出する,汎用的で柔軟なコア選択ルーチンを設計する。
特に,本手法はオフライン手法と同じ理論的保証を有しており,我々の知る限り,文献におけるオンライン分散サブモジュール最適化の最初の保証を提供する。
最後に、ImageNetとMNISTの学習タスクにおいて、ランダム選択法が5-20\%$より優れていることを示す。
関連論文リスト
- DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Data-Driven Offline Decision-Making via Invariant Representation
Learning [97.49309949598505]
オフラインのデータ駆動意思決定は、アクティブなインタラクションなしで最適化された決定を合成する。
オフラインデータからトレーニングされたモデルへの入力に関して最適化する場合、誤って良いように見えるアウト・オブ・ディストリビューション(OOD)インプットを生成するのは簡単です。
本稿では、オフラインデータ駆動意思決定をドメイン適応として定式化し、最適化された決定値の正確な予測を行うことを目標とする。
論文 参考訳(メタデータ) (2022-11-21T11:01:37Z) - Greedy Modality Selection via Approximate Submodular Maximization [19.22947539760366]
マルチモーダル学習は、異質な情報ソースを融合することを目的としたマルチモーダルデータからの学習を検討する。
メモリ制約のため、利用可能なすべてのモダリティを活用することが常に可能であるとは限らない。
本研究では,ある計算制約の下で最も情報的かつ補完的なモダリティを効率的に選択することを目的としたモダリティ選択について検討する。
論文 参考訳(メタデータ) (2022-10-22T22:07:27Z) - Federated Feature Selection for Cyber-Physical Systems of Systems [0.3609538870261841]
自動運転車の一群は、データ伝送を99%まで減らし、無視できない情報損失を抑えるために利用する、最適な機能セットに関するコンセンサスを見つける。
以上の結果から、自動運転車の車両群は、データ伝送を99%まで減らし、無視できる情報損失を減らし、最適な機能セットにコンセンサスを見出すことができた。
論文 参考訳(メタデータ) (2021-09-23T12:16:50Z) - Low Budget Active Learning via Wasserstein Distance: An Integer
Programming Approach [81.19737119343438]
アクティブラーニング(Active Learning)とは、ラベル付きデータプールのコアサブセットをラベルに選択することで、ラベル付きデータでモデルをトレーニングするプロセスである。
本稿では,未ラベルプールからワッサーシュタイン距離を最小化するコアセットを選択するための新しい整数最適化問題を提案する。
我々の戦略は、ラベルのないプールで教師なし学習によって得られる高品質な潜伏的特徴を必要とする。
論文 参考訳(メタデータ) (2021-06-05T21:25:03Z) - Near-Optimal Data Source Selection for Bayesian Learning [1.625213292350038]
本研究では,ベイズ学習における基本的問題として,選択したデータストリームに基づいて一定の学習性能を達成しつつ,最小コストで複数のデータソースを選択することを目的とする。
本研究では,データソース選択問題を文献で研究した部分モジュラー集合被覆問題の事例に変換することができることを示す。
論文 参考訳(メタデータ) (2020-11-21T03:12:38Z) - Online Active Model Selection for Pre-trained Classifiers [72.84853880948894]
我々は,任意のラウンドにおいて高い確率で最良のモデルをラベル付けし,出力する情報的サンプルを積極的に選択するオンライン選択的サンプリング手法を設計する。
我々のアルゴリズムは、敵とストリームの両方のオンライン予測タスクに利用できる。
論文 参考訳(メタデータ) (2020-10-19T19:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。