論文の概要: Learning from the Best, Differently: A Diversity-Driven Rethinking on Data Selection
- arxiv url: http://arxiv.org/abs/2510.18909v1
- Date: Tue, 21 Oct 2025 03:37:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.229689
- Title: Learning from the Best, Differently: A Diversity-Driven Rethinking on Data Selection
- Title(参考訳): ベストから学ぶ - データ選択に関する多様性駆動の再考
- Authors: Hongyi He, Xiao Liu, Zhenghao Lin, Mingni Tang, Yi Cheng, Jintao Wang, Wenjie Li, Peng Cheng, Yeyun Gong,
- Abstract要約: 既存のアプローチは通常、1次元または複数次元のスコアベースの選択に依存する。
本稿では,データ選択時の品質と多様性を両立するOrthogonal Diversity-Aware Selection (ODiS)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 45.327105807111934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality pre-training data is crutial for large language models, where quality captures factual reliability and semantic value, and diversity ensures broad coverage and distributional heterogeneity. Existing approaches typically rely on single or multiple-dimensional score-based selection. However, directly selecting top-scored data often degrades performance, and sampling from a broader range is required to recover results. The above non-monotonicity between dataset scores and downstream benchmark results reveals a fundamental bias: score-based methods collapse correlated dimensions, causing top-scored data to appear high-quality while systematically overlooking diversity. We argue that ensuring diversity requires decomposing correlated metrics into orthogonal feature dimensions, from which the top-scored data can be directly selected. Therefore, we proposed the Orthogonal Diversity-Aware Selection (ODiS) algorithm, which preserves both quality and diversity during data selection. First, ODiS evaluates data from multiple dimensions, covering language quality, knowledge quality, and comprehension difficulty. The multi-dimensional scores are then decorrelated via Principal Component Analysis (PCA), yielding orthogonal evaluation dimensions. For each dimension, a Roberta-based scorer is trained to regress the data onto PCA-projected scores, enabling scalable inference on large corpora. Finally, ODiS constructs the training dataset by selecting top-scored data within each orthogonal dimension, thereby ensuring both quality and diversity. Empirical results show that ODiS-selected data exhibit less than 2\% inter-dimension overlap, confirming orthogonality between dimensions. More importantly, models trained with ODiS-selected data significantly outperform other baselines on downstream benchmarks, highlighting the necessity of orthogonal, diversity-aware data selection for LLMs.
- Abstract(参考訳): 高品質な事前学習データは、品質が事実の信頼性と意味的価値を捉え、多様性が広範なカバレッジと分布の不均一性を保証するような、大きな言語モデルにとって重要なものである。
既存のアプローチは通常、1次元または複数次元のスコアベースの選択に依存する。
しかし、トップスコアデータの直接選択は、しばしば性能を低下させ、結果を回復するためには、より広い範囲からのサンプリングが必要である。
スコアベースのメソッドは相関次元を崩壊させ、トップスコアのデータは、多様性を体系的に見下ろしながら、高品質に見えます。
多様性を確保するためには、相関メトリクスを直交する特徴次元に分解する必要がある、と我々は主張する。
そこで本稿では,データ選択時の品質と多様性を両立するOrthogonal Diversity-Aware Selection (ODiS)アルゴリズムを提案する。
まず、ODiSは複数の次元からデータを評価し、言語品質、知識品質、理解の難しさをカバーしている。
多次元スコアは主成分分析(PCA)によって非相関となり、直交評価次元が得られる。
各次元について、ロバータベースのスコアラは、PCAプロジェクションされたスコアにデータを回帰するように訓練され、大きなコーパス上でスケーラブルな推論を可能にする。
最後に、ODiSは、各直交次元内のトップスコアデータを選択してトレーニングデータセットを構築し、品質と多様性の両立を保証する。
実験の結果,ODiS選択データでは次元間重なりが2倍未満であり,次元間の直交性が確認された。
さらに重要なことは、ODiS選択データでトレーニングされたモデルは、下流ベンチマークで他のベースラインを著しく上回り、LSMの直交多様データ選択の必要性を強調している。
関連論文リスト
- Towards Understanding Valuable Preference Data for Large Language Model Alignment [85.38864561060088]
大規模言語モデル(LLM)のアライメントは通常、人間の好みの比較から学習することで達成される。
新たに提案したTruncated Influence Function (TIF) を用いた検証データに対する個人の影響によるデータ品質の評価を行う。
この目的のために、我々はそれらを組み合わせ、様々なエラーソースをオフセットし、単純だが効果的なデータ選択ルールをもたらす。
論文 参考訳(メタデータ) (2025-10-15T06:57:55Z) - QuaDMix: Quality-Diversity Balanced Data Selection for Efficient LLM Pretraining [12.872792775510172]
我々はQuaDMixという統合されたデータ選択フレームワークを導入し、大規模言語モデルの事前学習のためのデータ分散を自動的に最適化する。
多様なモデルとデータセットにわたる実験により、QuaDMixは複数のベンチマークで平均パフォーマンスが7.2%向上していることが示された。
論文 参考訳(メタデータ) (2025-04-23T08:36:50Z) - Add-One-In: Incremental Sample Selection for Large Language Models via a Choice-Based Greedy Paradigm [50.492124556982674]
本稿では,新しい選択型サンプル選択フレームワークを提案する。
個々のサンプル品質の評価から、異なるサンプルのコントリビューション値の比較へと焦点をシフトする。
われわれのアプローチをより大きな医療データセットで検証し、現実の応用における実用性を強調した。
論文 参考訳(メタデータ) (2025-03-04T07:32:41Z) - Measuring Data Diversity for Instruction Tuning: A Systematic Analysis and A Reliable Metric [48.81957145701228]
サンプルレベルの「ノーベルティ」に基づく新しい多様性指標であるNovellSumを提案する。
シミュレーションデータと実世界のデータの両方の実験により、NovellSumは正確に多様性の変動を捉え、命令調整されたモデルの性能と0.97の相関を達成している。
論文 参考訳(メタデータ) (2025-02-24T14:20:22Z) - The Best of Both Worlds: Bridging Quality and Diversity in Data Selection with Bipartite Graph [45.51085356985464]
GraphFilterは、データ選択における品質と多様性のバランスをとる新しいアプローチです。
GraphFilterは、最優先の文を反復的に選択し、二部グラフからカバーされたn-gramを取り除き、優先度を再計算して、変化するデータランドスケープを反映する。
6つの広く使用されているベンチマークで3つのモデルバックボーンを使用してGraphFilterを検証する。
論文 参考訳(メタデータ) (2024-10-16T11:16:34Z) - Feature Selection from Differentially Private Correlations [35.187113265093615]
高次元回帰はデータセット内の個々のデータポイントに関する情報をリークすることができる。
相関に基づく順序統計を用いて、データセットから重要な特徴を選択し、それらを民営化する。
提案手法は,多くのデータセット上でのプライベートな特徴選択において,確立されたベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-08-20T13:54:07Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - D2 Pruning: Message Passing for Balancing Diversity and Difficulty in
Data Pruning [70.98091101459421]
コアセット選択は、トレーニングデータのサブセットを選択して、このサブセット(コアセットとも呼ばれる)でトレーニングされたモデルのパフォーマンスを最大化する。
コアセット選択のために,このデータセットグラフ上で前後のメッセージパッシングを利用する新しいプルーニングアルゴリズムD2プルーニングを提案する。
その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を向上し、最大70%のプルーニングレートが得られた。
論文 参考訳(メタデータ) (2023-10-11T23:01:29Z) - Consistent and Flexible Selectivity Estimation for High-Dimensional Data [23.016360687961193]
本稿では,クエリ依存の断片的線形関数を選択性推定器として学習する深層学習モデルを提案する。
提案手法は,最先端モデルの精度を効率よく向上することを示す。
論文 参考訳(メタデータ) (2020-05-20T08:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。