論文の概要: Oversampling and Downsampling with Core-Boundary Awareness: A Data Quality-Driven Approach
- arxiv url: http://arxiv.org/abs/2509.19856v1
- Date: Wed, 24 Sep 2025 07:55:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.7276
- Title: Oversampling and Downsampling with Core-Boundary Awareness: A Data Quality-Driven Approach
- Title(参考訳): コア境界認識によるオーバーサンプリングとダウンサンプリング: データ品質駆動アプローチ
- Authors: Samir Brahim Belhaouari, Yunis Carreon Kahalan, Humaira Shaffique, Ismael Belhaouari, Ashhadul Islam,
- Abstract要約: 本稿では,2種類のデータを系統的に識別し,識別する手法を提案する。
高品質な意思決定関連データを優先順位付けすることで、私たちのアプローチはテキスト、マルチモーダル、そして自己教師型学習シナリオにまで拡張できます。
この研究は、データ効率の学習における将来の研究の道を開いた。
- 参考スコア(独自算出の注目度): 2.334306891078381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The effectiveness of machine learning models, particularly in unbalanced classification tasks, is often hindered by the failure to differentiate between critical instances near the decision boundary and redundant samples concentrated in the core of the data distribution. In this paper, we propose a method to systematically identify and differentiate between these two types of data. Through extensive experiments on multiple benchmark datasets, we show that the boundary data oversampling method improves the F1 score by up to 10\% on 96\% of the datasets, whereas our core-aware reduction method compresses datasets up to 90\% while preserving their accuracy, making it 10 times more powerful than the original dataset. Beyond imbalanced classification, our method has broader implications for efficient model training, particularly in computationally expensive domains such as Large Language Model (LLM) training. By prioritizing high-quality, decision-relevant data, our approach can be extended to text, multimodal, and self-supervised learning scenarios, offering a pathway to faster convergence, improved generalization, and significant computational savings. This work paves the way for future research in data-efficient learning, where intelligent sampling replaces brute-force expansion, driving the next generation of AI advancements. Our code is available as a Python package at https://pypi.org/project/adaptive-resampling/ .
- Abstract(参考訳): 機械学習モデルの有効性、特に不均衡な分類タスクは、決定境界付近の臨界インスタンスとデータ分散のコアに集中している冗長なサンプルを区別できないためにしばしば妨げられる。
本稿では,これらの2種類のデータを系統的に識別し,識別する手法を提案する。
複数のベンチマークデータセットに対する広範な実験により、境界データオーバーサンプリング法はデータセットの96倍でF1スコアを最大10倍改善する一方、コア・アウェア・リダクション法はデータセットを最大90%圧縮し、精度を保ちながら圧縮し、元のデータセットの10倍のパワーを持つことを示した。
不均衡な分類以外にも,本手法は,特にLarge Language Model (LLM) トレーニングのような計算コストの高い領域において,効率的なモデルトレーニングに幅広い意味を持つ。
高品質な意思決定関連データを優先順位付けすることで、我々のアプローチはテキスト、マルチモーダル、そして自己教師付き学習シナリオにまで拡張することができ、より高速な収束、一般化の改善、計算の大幅な削減を可能にします。
この研究は、データ効率の学習における将来の研究の道を開くものだ。
私たちのコードは、https://pypi.org/project/adaptive-resampling/でPythonパッケージとして利用可能です。
関連論文リスト
- Understanding Data Influence with Differential Approximation [63.817689230826595]
我々は,Diff-Inと呼ばれる連続学習ステップ間の影響の差を蓄積することにより,サンプルの影響を近似する新しい定式化を導入する。
2次近似を用いることで、これらの差分項を高精度に近似し、既存の手法で必要となるモデル凸性を排除した。
Diff-In は既存の影響推定器に比べて近似誤差が著しく低いことを示す。
論文 参考訳(メタデータ) (2025-08-20T11:59:32Z) - Improving the Efficiency of Self-Supervised Adversarial Training through Latent Clustering-Based Selection [2.7554677967598047]
逆向きの堅牢な学習は、トレーニングの例をはるかに多く求めていると広く認識されている。
近年の研究では、モデルロバスト性を高めるために、外部または合成された未ラベルデータを用いた自己教師付き対人訓練が提案されている。
そこで本稿では,SSATに不可欠なラベルなしデータの小さなサブセットを戦略的に選択し,ロバスト性を向上させる手法を提案する。
論文 参考訳(メタデータ) (2025-01-15T15:47:49Z) - Leveraging Semi-Supervised Learning to Enhance Data Mining for Image Classification under Limited Labeled Data [35.431340001608476]
従来のデータマイニング手法は、大規模で高次元で複雑なデータに直面すると不十分である。
本研究では,ラベルのないデータを利用するアルゴリズムの能力向上を目的とした,半教師付き学習手法を提案する。
具体的には、自己学習法を採用し、画像の特徴抽出と分類のための畳み込みニューラルネットワーク(CNN)と組み合わせる。
論文 参考訳(メタデータ) (2024-11-27T18:59:50Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Data curation via joint example selection further accelerates multimodal learning [3.329535792151987]
サンプルを個別に選択するよりも,データのバッチを共同で選択することが学習に有効であることを示す。
このようなバッチを選択するための単純かつトラクタブルなアルゴリズムを導出し、個別に優先順位付けされたデータポイントを超えてトレーニングを著しく加速する。
論文 参考訳(メタデータ) (2024-06-25T16:52:37Z) - Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution [62.71425232332837]
雑音ラベル付きモデルを用いたトレーニングは安価で驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。