論文の概要: GRAD-MATCH: A Gradient Matching Based Data Subset Selection for
Efficient Learning
- arxiv url: http://arxiv.org/abs/2103.00123v1
- Date: Sat, 27 Feb 2021 04:09:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 16:22:25.327705
- Title: GRAD-MATCH: A Gradient Matching Based Data Subset Selection for
Efficient Learning
- Title(参考訳): GRAD-MATCH:効率的な学習のためのグラデーションマッチングベースのデータサブセット選択
- Authors: Krishnateja Killamsetty, Durga Sivasubramanian, Baharan Mirzasoleiman,
Ganesh Ramakrishnan, Abir De, Rishabh Iyer
- Abstract要約: 我々は、トレーニングや検証セットの勾配と密接に一致する部分集合を見つける汎用フレームワークgrad-matchを提案する。
GRAD-MATCHは、最近のデータ選択アルゴリズムよりも大きく、一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 23.75284126177203
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The great success of modern machine learning models on large datasets is
contingent on extensive computational resources with high financial and
environmental costs. One way to address this is by extracting subsets that
generalize on par with the full data. In this work, we propose a general
framework, GRAD-MATCH, which finds subsets that closely match the gradient of
the training or validation set. We find such subsets effectively using an
orthogonal matching pursuit algorithm. We show rigorous theoretical and
convergence guarantees of the proposed algorithm and, through our extensive
experiments on real-world datasets, show the effectiveness of our proposed
framework. We show that GRAD-MATCH significantly and consistently outperforms
several recent data-selection algorithms and is Pareto-optimal with respect to
the accuracy-efficiency trade-off. The code of GRADMATCH is available as a part
of the CORDS toolkit: https://github.com/decile-team/cords.
- Abstract(参考訳): 大規模なデータセット上での最新の機械学習モデルの成功は、財務および環境コストの高い広範な計算リソースにかかっています。
これを解決する方法の1つは、全データと同等に一般化するサブセットを抽出することである。
本研究では,トレーニングや検証セットの勾配によく一致する部分集合を見つけるための一般フレームワーク GRAD-MATCH を提案する。
このようなサブセットを直交マッチング探索アルゴリズムを用いて効果的に見つける。
提案アルゴリズムの厳密な理論的および収束保証を示し、実世界のデータセットに関する広範な実験を通じて、提案されたフレームワークの有効性を示す。
我々は、GRAD-MATCHが最近のデータ選択アルゴリズムを著しく上回り、精度と効率のトレードオフに関してパレート最適であることを示す。
GRADMATCHのコードは、CORDSツールキットの一部として利用できます。
関連論文リスト
- Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Relation-aware Ensemble Learning for Knowledge Graph Embedding [68.94900786314666]
我々は,既存の手法を関係性に配慮した方法で活用し,アンサンブルを学習することを提案する。
関係認識アンサンブルを用いてこれらのセマンティクスを探索すると、一般的なアンサンブル法よりもはるかに大きな検索空間が得られる。
本稿では,リレーショナルなアンサンブル重みを独立に検索する分割探索合成アルゴリズムRelEns-DSCを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:40:12Z) - Composable Core-sets for Diversity Approximation on Multi-Dataset
Streams [4.765131728094872]
構成可能なコアセットはコアセットであり、コアセットのサブセットを結合して元のデータに対する近似を得るという性質を持つ。
本研究では,構成可能なコアセットを構築するためのコアセット構築アルゴリズムを導入し,アクティブな学習環境におけるストリームデータを要約する。
論文 参考訳(メタデータ) (2023-08-10T23:24:51Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Performance Evaluation and Comparison of a New Regression Algorithm [4.125187280299247]
新たに提案した回帰アルゴリズムの性能を,従来の4つの機械学習アルゴリズムと比較した。
GitHubリポジトリにソースコードを提供したので、読者は結果の複製を自由にできます。
論文 参考訳(メタデータ) (2023-06-15T13:01:16Z) - Deep Active Ensemble Sampling For Image Classification [8.31483061185317]
アクティブラーニングフレームワークは、最も有益なデータポイントのラベル付けを積極的に要求することで、データアノテーションのコストを削減することを目的としている。
提案手法には、不確実性に基づく手法、幾何学的手法、不確実性に基づく手法と幾何学的手法の暗黙の組み合わせなどがある。
本稿では, サンプル選択戦略における効率的な探索・探索トレードオフを実現するために, 不確実性に基づくフレームワークと幾何学的フレームワークの両方の最近の進歩を革新的に統合する。
本フレームワークは,(1)正確な後続推定,(2)計算オーバーヘッドと高い精度のトレードオフの2つの利点を提供する。
論文 参考訳(メタデータ) (2022-10-11T20:20:20Z) - How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。
我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。
この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文 参考訳(メタデータ) (2021-05-05T17:56:00Z) - GLISTER: Generalization based Data Subset Selection for Efficient and
Robust Learning [11.220278271829699]
GeneraLIzationベースのデータSubset selecTion for Efficient and Robust LearningフレームワークであるGlisterを紹介します。
パラメータ更新とともに反復的にデータ選択を行う反復オンラインアルゴリズムglister-onlineを提案する。
筆者らのフレームワークは,(a) と (c) の場合に) 効率, 精度の両面で向上し, 他の最先端の堅牢な学習アルゴリズムと比較して, より効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-19T08:41:34Z) - Deep Reinforcement Learning of Graph Matching [63.469961545293756]
ノードとペアの制約下でのグラフマッチング(GM)は、最適化からコンピュータビジョンまでの領域におけるビルディングブロックである。
GMのための強化学習ソルバを提案する。
rgmはペアワイズグラフ間のノード対応を求める。
本手法は,フロントエンドの特徴抽出と親和性関数学習に焦点をあてるという意味において,従来のディープグラフマッチングモデルと異なる。
論文 参考訳(メタデータ) (2020-12-16T13:48:48Z) - Optimally Combining Classifiers for Semi-Supervised Learning [43.77365242185884]
本稿では,Xgboostとトランスダクティブ支援ベクトルマシンの長所を適応的に組み合わせた半教師付き学習手法を提案する。
UCIデータセットと実商業データセットの実験結果から,提案手法の5つの最先端アルゴリズムよりも優れた分類性能を示した。
論文 参考訳(メタデータ) (2020-06-07T09:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。