論文の概要: Composable Core-sets for Diversity Approximation on Multi-Dataset
Streams
- arxiv url: http://arxiv.org/abs/2308.05878v1
- Date: Thu, 10 Aug 2023 23:24:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 15:22:24.530833
- Title: Composable Core-sets for Diversity Approximation on Multi-Dataset
Streams
- Title(参考訳): マルチデータセットストリームにおける多様性近似のための合成可能なコアセット
- Authors: Stephanie Wang, Michael Flynn, and Fangyu Luo
- Abstract要約: 構成可能なコアセットはコアセットであり、コアセットのサブセットを結合して元のデータに対する近似を得るという性質を持つ。
本研究では,構成可能なコアセットを構築するためのコアセット構築アルゴリズムを導入し,アクティブな学習環境におけるストリームデータを要約する。
- 参考スコア(独自算出の注目度): 4.765131728094872
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Core-sets refer to subsets of data that maximize some function that is
commonly a diversity or group requirement. These subsets are used in place of
the original data to accomplish a given task with comparable or even enhanced
performance if biases are removed. Composable core-sets are core-sets with the
property that subsets of the core set can be unioned together to obtain an
approximation for the original data; lending themselves to be used for streamed
or distributed data. Recent work has focused on the use of core-sets for
training machine learning models. Preceding solutions such as CRAIG have been
proven to approximate gradient descent while providing a reduced training time.
In this paper, we introduce a core-set construction algorithm for constructing
composable core-sets to summarize streamed data for use in active learning
environments. If combined with techniques such as CRAIG and heuristics to
enhance construction speed, composable core-sets could be used for real time
training of models when the amount of sensor data is large. We provide
empirical analysis by considering extrapolated data for the runtime of such a
brute force algorithm. This algorithm is then analyzed for efficiency through
averaged empirical regression and key results and improvements are suggested
for further research on the topic.
- Abstract(参考訳): コアセットは、一般的に多様性やグループ要件である関数を最大化するデータのサブセットを指す。
これらのサブセットは元のデータの代わりに使われ、バイアスが取り除かれた場合、与えられたタスクを同等またはさらにパフォーマンスを向上する。
構成可能なコアセットはコアセットであり、コアセットのサブセットを結合して元のデータに対する近似を得ることができる。
近年,機械学習モデルのトレーニングにおけるコアセットの利用が注目されている。
CRAIGのような先行解は、トレーニング時間を短縮しながら勾配降下を近似することが証明されている。
本稿では,構成可能なコアセットを構築するためのコアセット構築アルゴリズムを導入し,アクティブな学習環境におけるストリームデータを要約する。
craig や heuristics といった技術と組み合わせて建設速度を向上させると、センサーデータが大きい場合にモデルのリアルタイムトレーニングにコンポーザブルなコアセットが使用できる。
このようなブルートフォースアルゴリズムの実行時の外挿データを考慮し、実証分析を行う。
このアルゴリズムは、平均的な経験的回帰を通じて効率よく解析され、そのトピックに関するさらなる研究のために重要な結果と改善が提案される。
関連論文リスト
- Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Adaptive Second Order Coresets for Data-efficient Machine Learning [5.362258158646462]
データセット上で機械学習モデルをトレーニングすると、かなりの計算コストが発生する。
機械学習のためのトレーニング例のサブセットを抽出するために,AdaCoreを提案する。
論文 参考訳(メタデータ) (2022-07-28T05:43:09Z) - Random projections and Kernelised Leave One Cluster Out
Cross-Validation: Universal baselines and evaluation tools for supervised
machine learning for materials properties [10.962094053749093]
1つのクラスタ・アウト・クロス・バリデーション(LOCO-CV)は、これまで目に見えない材料群を予測するアルゴリズムの性能を測定する方法として導入された。
コンポジションベース表現の徹底的な比較を行い,カーネル近似関数を用いてLOCO-CVアプリケーションの拡張を行う方法について検討する。
テストされたほとんどのタスクにおいて、ドメイン知識は機械学習のパフォーマンスを向上しないが、バンドギャップ予測は例外である。
論文 参考訳(メタデータ) (2022-06-17T15:39:39Z) - Robust Coreset for Continuous-and-Bounded Learning (with Outliers) [30.91741925182613]
本研究では,エム連続有界学習問題に対する新しいロバストなコアセット法を提案する。
私たちの堅牢なコアセットは、完全にダイナミックな環境で効率的に維持できます。
論文 参考訳(メタデータ) (2021-06-30T19:24:20Z) - Coresets via Bilevel Optimization for Continual Learning and Streaming [86.67190358712064]
濃度制約付き二レベル最適化による新しいコアセット構成を提案する。
我々のフレームワークがディープニューラルネットワークのコアセットを効率的に生成できることを示し、連続学習やストリーミング設定における経験的メリットを示す。
論文 参考訳(メタデータ) (2020-06-06T14:20:25Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z) - Uncovering Coresets for Classification With Multi-Objective Evolutionary
Algorithms [0.8057006406834467]
coresetはトレーニングセットのサブセットであり、機械学習アルゴリズムが元のデータ全体にわたってトレーニングされた場合の成果と同じようなパフォーマンスを取得する。
候補コルセットは反復的に最適化され、サンプルの追加と削除が行われる。
多目的進化アルゴリズムは、集合内の点数と分類誤差を同時に最小化するために用いられる。
論文 参考訳(メタデータ) (2020-02-20T09:59:56Z) - On Coresets for Support Vector Machines [61.928187390362176]
coresetは、元のデータポイントの小さな、代表的なサブセットである。
我々は,本アルゴリズムを用いて,既製のSVMソルバをストリーミング,分散,動的データ設定に適用可能であることを示す。
論文 参考訳(メタデータ) (2020-02-15T23:25:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。