論文の概要: Learning to Select Pivotal Samples for Meta Re-weighting
- arxiv url: http://arxiv.org/abs/2302.04418v1
- Date: Thu, 9 Feb 2023 03:04:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 16:55:52.741045
- Title: Learning to Select Pivotal Samples for Meta Re-weighting
- Title(参考訳): メタ再重み付けのためのPivotalサンプルの選択を学ぶ
- Authors: Yinjun Wu, Adam Stein, Jacob Gardner, Mayur Naik
- Abstract要約: 本研究では,大規模で不完全なトレーニングセットからこのようなメタサンプルを識別する方法を学習し,その後,クリーン化し,性能を最適化するために利用する。
学習フレームワークにおける2つのクラスタリング手法,Representation-based clustering method (RBC) と Gradient-based clustering method (GBC) を提案する。
- 参考スコア(独自算出の注目度): 12.73177872962048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sample re-weighting strategies provide a promising mechanism to deal with
imperfect training data in machine learning, such as noisily labeled or
class-imbalanced data. One such strategy involves formulating a bi-level
optimization problem called the meta re-weighting problem, whose goal is to
optimize performance on a small set of perfect pivotal samples, called meta
samples. Many approaches have been proposed to efficiently solve this problem.
However, all of them assume that a perfect meta sample set is already provided
while we observe that the selections of meta sample set is performance
critical. In this paper, we study how to learn to identify such a meta sample
set from a large, imperfect training set, that is subsequently cleaned and used
to optimize performance in the meta re-weighting setting. We propose a learning
framework which reduces the meta samples selection problem to a weighted
K-means clustering problem through rigorously theoretical analysis. We propose
two clustering methods within our learning framework, Representation-based
clustering method (RBC) and Gradient-based clustering method (GBC), for
balancing performance and computational efficiency. Empirical studies
demonstrate the performance advantage of our methods over various baseline
methods.
- Abstract(参考訳): サンプル再重み付け戦略は、ノイズ付きラベル付きデータやクラス不均衡データなど、機械学習における不完全なトレーニングデータを扱うための有望なメカニズムを提供する。
そのような戦略の1つは、メタ再重み付け問題と呼ばれる二段階最適化問題の定式化であり、その目標は、メタサンプルと呼ばれる完全なピボットサンプルの小さなセットのパフォーマンスを最適化することである。
この問題を効率的に解くために多くのアプローチが提案されている。
しかし、それら全ては完全なメタサンプルセットがすでに提供されていると仮定し、メタサンプルセットの選択がパフォーマンス上重要であることを観察する。
本稿では, 大規模で不完全なトレーニングセットから, メタ再重み付けにおける性能の最適化に使用されるようなメタサンプルを, どのように識別するかについて検討する。
メタサンプル選択問題を厳密な理論的解析により重み付きK平均クラスタリング問題に還元する学習フレームワークを提案する。
本稿では,学習フレームワークにおける2つのクラスタリング手法である表現型クラスタリング法(rbc)と勾配型クラスタリング法(gbc)を提案する。
実験的な研究は, 様々な基本手法に対する手法の性能上の優位性を実証している。
関連論文リスト
- On Sampling Strategies for Spectral Model Sharding [7.185534285278903]
本研究では,そのようなシャーディングのための2つのサンプリング戦略を提案する。
第1は元の重みの偏りのない推定器を生成し、第2は正方形の近似誤差を最小限にすることを目的としている。
これら2つの手法が,様々な一般的なデータセットの性能向上につながることを実証した。
論文 参考訳(メタデータ) (2024-10-31T16:37:25Z) - Selective Mixup Fine-Tuning for Optimizing Non-Decomposable Objectives [17.10165955576643]
現在の最先端の実証技術は、実用的で非分解不能な性能目標に対して、準最適性能を提供する。
本稿では,SelMixを提案する。SelMixは,事前学習モデルに対して,選択型ミキサアップに基づく安価な微調整技術である。
提案したSelMixファインタニングにより,ベンチマーク間での様々な非分解性目標の性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-03-27T06:55:23Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - A distribution-free mixed-integer optimization approach to hierarchical modelling of clustered and longitudinal data [0.0]
我々は,新しいデータポイントに対するクラスタ効果を評価する革新的なアルゴリズムを導入し,このモデルのロバスト性や精度を高める。
このアプローチの推論的および予測的効果は、学生のスコアリングとタンパク質発現に適用することでさらに説明される。
論文 参考訳(メタデータ) (2023-02-06T23:34:51Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - Transductive Few-Shot Learning: Clustering is All You Need? [31.21306826132773]
そこで本研究では,プロトタイプをベースとした超越的数ショット学習の汎用的定式化について検討する。
提案手法は, 精度と最適化の観点から, 大きな問題にスケールアップしながら, 競争性能を向上する。
驚いたことに、私たちの一般的なモデルは、最先端の学習と比較して、すでに競争力のあるパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2021-06-16T16:14:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。