論文の概要: Quality over Quantity: An Effective Large-Scale Data Reduction Strategy Based on Pointwise V-Information
- arxiv url: http://arxiv.org/abs/2507.00038v1
- Date: Thu, 19 Jun 2025 06:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.403579
- Title: Quality over Quantity: An Effective Large-Scale Data Reduction Strategy Based on Pointwise V-Information
- Title(参考訳): 量を超える品質: ポイントワイドV情報に基づく効果的な大規模データ削減戦略
- Authors: Fei Chen, Wenchi Zhou,
- Abstract要約: 我々は、ポイントワイドV情報(PVI)に基づく効果的なデータ削減戦略を提案する。
実験により、データの10%-30%を除去すると、0.0001%から0.76%の精度で分類器のパフォーマンスが保たれることが示された。
我々は、以前英語データセットにのみ適用されていたPVIフレームワークを、中国における多様なNLPタスクやベースモデルに移行した。
- 参考スコア(独自算出の注目度): 2.133855532092057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data reduction plays a vital role in data-centric AI by identifying the most informative instance within large-scale datasets to enhance model training efficiency. The core challenge lies in how to select the optimal instances-rather than the entire datasets-to improve data quality and training efficiency. In this paper, we propose an effective data reduction strategy based on Pointwise V-information(PVI). First, we quantify instance difficulty using PVI and filter out low-difficulty instances enabling a static approach. Experiments demonstrate that removing 10%-30% of the data preserves the classifier performance with only a 0.0001% to 0.76% loss in accuracy.Second, we use a progressive learning approach to training the classifiers on instances sorted by ascending PVI, accelerating convergence and achieving a 0.8% accuracy gain over conventional training. Our results suggest that with the effective data reduction strategy, training a classifier on the selected optimal subset could enhance the model performance and boost training efficiency. Moreover, we have transferred the PVI framework, which previously applied only to English datasets, to diverse Chinese NLP tasks and base models, leading to valuable insights for cross-lingual data reduction and faster training. The codes are released at https://github.com/zhouwenchi/DatasetReductionStrategy.
- Abstract(参考訳): データリダクションは、モデルトレーニングの効率を高めるために、大規模データセットの中で最も有益なインスタンスを特定することによって、データ中心のAIにおいて重要な役割を果たす。
最大の課題は、データセット全体ではなく、最適なインスタンスを選択して、データ品質とトレーニング効率を改善する方法だ。
本稿では,PVI(Pointwise V-information)に基づく効果的なデータ削減戦略を提案する。
まず、PVIを用いてインスタンスの難易度を定量化し、静的アプローチを可能にする低分散インスタンスをフィルタリングする。
実験により,データの10%~30%の除去は,0.0001%~0.76%の精度で分類器性能を保ち,PVIの上昇,収束の促進,従来の訓練よりも0.8%の精度向上を達成して分類器の訓練を行う。
その結果,効率的なデータ削減戦略により,選択した最適部分集合上での分類器の訓練がモデル性能を高め,学習効率を向上させることが示唆された。
さらに、以前は英語のデータセットにのみ適用されていたPVIフレームワークを、さまざまな中国のNLPタスクやベースモデルに移行した。
コードはhttps://github.com/zhouwenchi/DatasetReductionStrategyで公開されている。
関連論文リスト
- LearnAlign: Reasoning Data Selection for Reinforcement Learning in Large Language Models Based on Improved Gradient Alignment [14.655048266761783]
強化学習(Reinforcement Learning, RL)は、LLMの推論能力を高めるための重要な技術となっているが、そのデータ非効率性は依然として大きなボトルネックとなっている。
本稿では、RL後学習のための学習可能および代表的トレーニング推論データを知的に選択するLearnerAlignを提案する。
3つの数学的推論ベンチマークによる実験により,本手法はトレーニングデータ要求を大幅に低減することが示された。
論文 参考訳(メタデータ) (2025-06-13T06:05:58Z) - LEAD: Iterative Data Selection for Efficient LLM Instruction Tuning [22.242445543184264]
我々は,標準トレーニングループ内でサンプルユーティリティを完全に正確に推定する,効率的な反復的データ選択フレームワークであるLEADを提案する。
実験の結果、LEADは最先端の手法を著しく上回り、平均モデル性能は6.1%-10.8%向上し、トレーニングデータの2.5%しか使用せず、全体のトレーニング時間を5-10倍短縮した。
論文 参考訳(メタデータ) (2025-05-12T10:57:51Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Exploring Learning Complexity for Efficient Downstream Dataset Pruning [8.990878450631596]
既存のデータセットプルーニングメソッドでは、データセット全体のトレーニングが必要になる。
本稿では、DLC(Distorting-based Learning Complexity)という、単純で、新規で、トレーニング不要な難易度スコアを提案する。
本手法は,より高速に学習できるサンプルを少ないパラメータで学習できるという観察結果に動機付けられている。
論文 参考訳(メタデータ) (2024-02-08T02:29:33Z) - Online Importance Sampling for Stochastic Gradient Optimization [33.42221341526944]
本稿では,トレーニング中のデータの重要度を効率的に計算する実用的なアルゴリズムを提案する。
また、ネットワーク出力の損失w.r.t.の導出に基づく新しいメトリクスを導入し、ミニバッチの重要度サンプリング用に設計した。
論文 参考訳(メタデータ) (2023-11-24T13:21:35Z) - Getting More Juice Out of Your Data: Hard Pair Refinement Enhances Visual-Language Models Without Extra Data [122.282521548393]
コントラスト言語-画像事前学習 (CLIP) は, クロスモーダルな画像-テキスト表現学習の標準となっている。
HELIPは、CLIPモデルを改善するためのコスト効率のよい戦略であり、継続的なトレーニングにおいて既存のデータセット内の挑戦的なテキストイメージペアを利用することで、CLIPモデルを改善する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Selective In-Context Data Augmentation for Intent Detection using
Pointwise V-Information [100.03188187735624]
PLMとPVI(pointwise V-information)に基づく新しい手法を導入し,モデル学習におけるデータポイントの有用性を計測する。
提案手法はまず,学習データの小さなシード上でPLMを微調整し,与えられた意図に対応する発話を新たに生成する。
そこで本手法は,大規模言語モデルの表現力を活用し,多様な学習データを生成する。
論文 参考訳(メタデータ) (2023-02-10T07:37:49Z) - Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。
我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。
我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1~3%改善する。
論文 参考訳(メタデータ) (2020-11-20T06:16:15Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。