論文の概要: UniGeM: Unifying Data Mixing and Selection via Geometric Exploration and Mining
- arxiv url: http://arxiv.org/abs/2602.03772v1
- Date: Tue, 03 Feb 2026 17:32:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.605781
- Title: UniGeM: Unifying Data Mixing and Selection via Geometric Exploration and Mining
- Title(参考訳): UniGeM: 幾何学的探索とマイニングによるデータの混合と選択の統合
- Authors: Changhao Wang, Yunfei Yu, Xinhao Yao, Jiaolong Yang, Riccardo Cantoro, Chaobo Li, Qing Cui, Jun Zhou,
- Abstract要約: データキュレーションをtextitmanifold 近似問題として扱うことで、ミキシングと選択を統一するフレームワーク textbfUniGeM を導入する。
textbfMacro-Explorationは重みと安定性に基づくクラスタリングを混合することを学び、textbfMicro-Miningは幾何学的分布によって高品質なインスタンスをフィルタする。
- 参考スコア(独自算出の注目度): 28.606369935819686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scaling of Large Language Models (LLMs) is increasingly limited by data quality. Most methods handle data mixing and sample selection separately, which can break the structure in code corpora. We introduce \textbf{UniGeM}, a framework that unifies mixing and selection by treating data curation as a \textit{manifold approximation} problem without training proxy models or relying on external reference datasets. UniGeM operates hierarchically: \textbf{Macro-Exploration} learns mixing weights with stability-based clustering; \textbf{Micro-Mining} filters high-quality instances by their geometric distribution to ensure logical consistency. Validated by training 8B and 16B MoE models on 100B tokens, UniGeM achieves \textbf{2.0$\times$ data efficiency} over a random baseline and further improves overall performance compared to SOTA methods in reasoning-heavy evaluations and multilingual generalization.
- Abstract(参考訳): 大規模言語モデル(LLM)のスケーリングは、データ品質によってますます制限されている。
ほとんどのメソッドはデータミキシングとサンプル選択を別々に処理し、コードコーパスの構造を壊す可能性がある。
データキュレーションをプロキシモデルを訓練したり、外部参照データセットに依存することなく、データキュレーションを \textit{manifold approximation} 問題として扱うことで、ミキシングと選択を統一するフレームワークである \textbf{UniGeM} を紹介する。
UniGeM は階層的に機能する: \textbf{Macro-Exploration} は安定性に基づくクラスタリングと重みを混合することを学び、 \textbf{Micro-Mining} はその幾何学的分布によって高品質なインスタンスをフィルタリングし、論理的一貫性を確保する。
100Bトークン上の8Bおよび16B MoEモデルのトレーニングによって検証され、UniGeMはランダムなベースライン上で \textbf{2.0$\times$データ効率} を達成し、推論重大評価や多言語一般化におけるSOTA法と比較して全体的なパフォーマンスを改善する。
関連論文リスト
- MergeMix: Optimizing Mid-Training Data Mixtures via Learnable Model Merging [72.00014675808228]
textbfMixは、重みをマージするモデルを高忠実で低コストなパフォーマンスプロキシとして再利用することで、最適なデータ混合比を決定する。
8B と 16B のパラメータを持つモデルの実験では、MergeMix が完全なマニュアルチューニングに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2026-01-25T14:31:57Z) - Learning Discrete Bayesian Networks with Hierarchical Dirichlet Shrinkage [52.914168158222765]
我々はDBNを学習するための包括的なベイズ的フレームワークについて詳述する。
我々は、並列ランゲヴィン提案を用いてマルコフ連鎖モンテカルロ(MCMC)アルゴリズムを新たに提案し、正確な後続サンプルを生成する。
原発性乳癌検体から予後ネットワーク構造を明らかにするために本手法を適用した。
論文 参考訳(メタデータ) (2025-09-16T17:24:35Z) - SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Federated Gaussian Mixture Models [0.0]
FedGenGMMは、教師なし学習シナリオのための新しいワンショットのフェデレーション学習アプローチである。
クライアントデバイス上で独立してトレーニングされたローカルGMMモデルは、単一の通信ラウンドを通じて集約される。
非フェデレーションおよび反復フェデレーションメソッドに匹敵するパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-06-02T15:23:53Z) - CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training [63.07024608399447]
本稿では,事前学習環境でデータ混合物を発見し,評価し,精製する自動フレームワークを提案する。
ClimbLabは、20のクラスタを研究用グラウンドとして、フィルタされた1.2トリリオントーケンコーパスであり、ClimbMixはコンパクトだが強力な400ビリオントーケンデータセットである。
論文 参考訳(メタデータ) (2025-04-17T17:58:13Z) - Flexible Bivariate Beta Mixture Model: A Probabilistic Approach for Clustering Complex Data Structures [2.07180164747172]
クラスタリングは分析と機械学習に不可欠である。
k$meansやGaussian Mixture Models (GMM)といった従来のアルゴリズムは、非データで失敗することが多い。
実験コードはhttps://github.com/MB-and-yungpeng/MM-and-FBBMMで公開します。
論文 参考訳(メタデータ) (2025-02-27T10:07:43Z) - Topic Over Source: The Key to Effective Data Mixing for Language Models Pre-training [10.769503491579666]
マルチステージプロセスで生成された詳細なトピックラベルを利用するトピックベースのデータミキシング戦略を提案する。
我々は、トピックによって混合されたデータに基づいて事前訓練された言語モデルは、ソースによって混合されたデータで訓練された言語よりも一貫して優れていることを示した。
理論的解析により,トピックベースのデータは,ソースベースのアプローチに比べて検証損失が著しく低いことがわかった。
論文 参考訳(メタデータ) (2025-02-24T03:25:56Z) - BiMix: A Bivariate Data Mixing Law for Language Model Pretraining [47.77701041534746]
事前学習データ構成がモデル性能に与える影響はいまだよく分かっていない。
$textbfBiMix$は、データの混合を理解し、最適化するための体系的なフレームワークを提供する。
我々の研究は、データミキシングの力学に関する理論的知見と、LLMトレーニング効率を向上させるための実践的なツールの両方に貢献する。
論文 参考訳(メタデータ) (2024-05-23T09:44:02Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Harnessing Hard Mixed Samples with Decoupled Regularizer [69.98746081734441]
Mixupは、決定境界を混合データで滑らかにすることで、ニューラルネットワークの一般化を改善する効率的なデータ拡張アプローチである。
本稿では,非結合型正規化器(Decoupled Mixup, DM)を用いた効率的な混合目標関数を提案する。
DMは、ミキシングの本来の滑らかさを損なうことなく、硬質混合試料を適応的に利用して識別特性をマイニングすることができる。
論文 参考訳(メタデータ) (2022-03-21T07:12:18Z) - Mixed data Deep Gaussian Mixture Model: A clustering model for mixed
datasets [0.0]
我々はMixed Deep Gaussian Mixture Model (MDGMM)と呼ばれるモデルに基づくクラスタリング手法を提案する。
このアーキテクチャは柔軟性があり、連続データや非連続データにも適用できる。
我々のモデルはデータの連続的な低次元表現を提供し、混合データセットを視覚化するのに有用なツールである。
論文 参考訳(メタデータ) (2020-10-13T19:52:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。