Fugu-MT 論文翻訳(概要): The Power of Few: Accelerating and Enhancing Data Reweighting with Coreset Selection

論文の概要: The Power of Few: Accelerating and Enhancing Data Reweighting with Coreset Selection

arxiv url: http://arxiv.org/abs/2403.12166v3
Date: Thu, 30 May 2024 20:39:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-03 19:33:06.347876
Title: The Power of Few: Accelerating and Enhancing Data Reweighting with Coreset Selection
Title（参考訳）: 弱さの力:Coreset Selectionによるデータリヘアリングの高速化と強化
Authors: Mohammad Jafari, Yimeng Zhang, Yihua Zhang, Sijia Liu,
Abstract要約: 再重み付けにコアサブセット選択を用いる新しい手法を提案する。戦略的に選択されたコアセットに焦点を当てることで、我々のアプローチは堅牢な表現を提供する。再校正された重みは、データセット全体に対してマッピングされ、伝播される。
参考スコア（独自算出の注目度）: 18.683805940232485
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As machine learning tasks continue to evolve, the trend has been to gather larger datasets and train increasingly larger models. While this has led to advancements in accuracy, it has also escalated computational costs to unsustainable levels. Addressing this, our work aims to strike a delicate balance between computational efficiency and model accuracy, a persisting challenge in the field. We introduce a novel method that employs core subset selection for reweighting, effectively optimizing both computational time and model performance. By focusing on a strategically selected coreset, our approach offers a robust representation, as it efficiently minimizes the influence of outliers. The re-calibrated weights are then mapped back to and propagated across the entire dataset. Our experimental results substantiate the effectiveness of this approach, underscoring its potential as a scalable and precise solution for model training.
Abstract（参考訳）: 機械学習のタスクが進化し続けるにつれて、傾向はより大きなデータセットを集め、ますます大きなモデルを訓練する。これは精度の向上につながったが、計算コストを持続不可能なレベルへとエスカレートした。そこで本研究は,計算効率とモデル精度の微妙なバランスをとることを目的としている。計算時間とモデル性能の両方を効果的に最適化し、コアサブセットの選択を重み付けに利用する新しい手法を提案する。戦略的に選択されたコアセットに焦点をあてることで、アウトリーチの影響を効率よく最小化するため、我々のアプローチは堅牢な表現を提供する。再校正された重みは、データセット全体に対してマッピングされ、伝播される。実験により,本手法の有効性を実証し,モデルトレーニングのスケーラブルで高精度な解法としての可能性を明らかにした。

関連論文リスト

Optimizing ML Training with Metagradient Descent [69.89631748402377]
モデルトレーニングによる勾配というメタグラディエントを,大規模に効率的に計算するアルゴリズムを導入する。次に、メタグラディエントを用いた効果的な最適化を可能にする「滑らかなモデルトレーニング」フレームワークを導入する。
論文参考訳（メタデータ） (2025-03-17T22:18:24Z)
Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-12-12T18:28:55Z)
In2Core: Leveraging Influence Functions for Coreset Selection in Instruction Finetuning of Large Language Models [37.45103473809928]
In2Coreアルゴリズムは,トレーニングモデルと評価サンプルの相関関係を解析し,コアセットを選択する。 LLMの微調整データにアルゴリズムを適用することで、トレーニングデータの50%で同様の性能を実現することができる。
論文参考訳（メタデータ） (2024-08-07T05:48:05Z)
Center-Sensitive Kernel Optimization for Efficient On-Device Incremental Learning [88.78080749909665]
現在のオンデバイストレーニング手法は、破滅的な忘れを考慮せずに、効率的なトレーニングにのみ焦点をあてている。本稿では,単純だが効果的なエッジフレンドリーなインクリメンタル学習フレームワークを提案する。本手法は,メモリの削減と近似計算により,平均精度38.08%の高速化を実現する。
論文参考訳（メタデータ） (2024-06-13T05:49:29Z)
An In-Depth Analysis of Data Reduction Methods for Sustainable Deep Learning [0.15833270109954137]
トレーニングデータセットのサイズを減らすために、最大8つの異なる方法を提示します。また、それらを適用するPythonパッケージも開発しています。これらのデータ削減手法がデータセットの表現性に与える影響を実験的に比較した。
論文参考訳（メタデータ） (2024-03-22T12:06:40Z)
Compute-Efficient Active Learning [0.0]
アクティブラーニングは、ラベルなしデータセットから最も有益なサンプルを選択することでラベリングコストを削減することを目的としている。従来のアクティブな学習プロセスは、拡張性と効率を阻害する広範な計算資源を必要とすることが多い。本稿では,大規模データセット上での能動的学習に伴う計算負担を軽減するための新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-15T12:32:07Z)
Efficiently Robustify Pre-trained Models [18.392732966487582]
大規模モデルの現実的な設定に対する堅牢性は、いまだ探索されていないトピックである。まず、異なる摂動とデータセットの下でこれらのモデルのパフォーマンスをベンチマークします。続いて、大規模ネットワークにおいて、モデルファインチューニングに基づく既存のロバスト化スキームが拡張性に欠ける可能性について論じる。
論文参考訳（メタデータ） (2023-09-14T08:07:49Z)
Learning Objective-Specific Active Learning Strategies with Attentive Neural Processes [72.75421975804132]
学びアクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。能動学習問題の対称性と独立性を利用した新しい分類法を提案する。私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文参考訳（メタデータ） (2023-09-11T14:16:37Z)
Towards Accelerated Model Training via Bayesian Data Selection [45.62338106716745]
本稿では,モデルの一般化損失に対するデータの影響を調べることによって,より合理的なデータ選択原理を提案する。近年の研究では、モデルの一般化損失に対するデータの影響を調べることによって、より合理的なデータ選択の原則が提案されている。この研究は、軽量ベイズ処理を活用し、大規模な事前訓練モデル上に構築された既製のゼロショット予測器を組み込むことにより、これらの問題を解決する。
論文参考訳（メタデータ） (2023-08-21T07:58:15Z)
Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2023-04-25T21:49:09Z)
Towards Robust Dataset Learning [90.2590325441068]
本稿では,頑健なデータセット学習問題を定式化するための三段階最適化法を提案する。ロバストな特徴と非ロバストな特徴を特徴付ける抽象モデルの下で,提案手法はロバストなデータセットを確実に学習する。
論文参考訳（メタデータ） (2022-11-19T17:06:10Z)
Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2021-10-01T10:03:57Z)
Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文参考訳（メタデータ） (2021-06-02T11:39:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。