論文の概要: GEM: Geometric Entropy Mixing for Optimal LLM Data Curation
- arxiv url: http://arxiv.org/abs/2605.26121v1
- Date: Mon, 27 Apr 2026 06:42:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 02:55:43.005512
- Title: GEM: Geometric Entropy Mixing for Optimal LLM Data Curation
- Title(参考訳): GEM: 最適LLMデータキュレーションのための幾何エントロピー混合
- Authors: Yue Min, Ziyun Qiao, Ruining Chen, Yujun Li,
- Abstract要約: GEM(Geometric Entropy Mixing, 幾何エントロピー混合)は, 変分問題としてデータキュレーションを再構成するフレームワークである。
生成的変動問題を予め混合バランスで分離することにより、GEMはクラスタ崩壊を効果的に防止する。
- 参考スコア(独自算出の注目度): 5.2826294472260935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM pre-training efficacy increasingly depends on data composition rather than sheer volume. Yet, optimal mixing is hindered by categorization flaws: human taxonomies suffer from ontological misalignment, and Euclidean clustering fails to address embedding anisotropy. We introduce GEM (Geometric Entropy Mixing), a framework reformulating data curation as a variational problem on the hypersphere augmented with a mixing-balance regularizer. By decoupling the generative prior and optimizing the objective via a provable MM (Minorize-Maximize) algorithm, GEM effectively counteracts the cluster collapse to discover balanced semantic structures invisible to Euclidean heuristics. We employ teacher-student distillation to scale this geometric fidelity to web-scale corpora and introduce the Geometric Influence Score (GIS) for interpretable taxonomy generation. Experiments with 1.1B-parameter models demonstrate that GEM establishes a new state-of-the-art when integrated into mixing strategies like DoReMi and RegMix, improving average downstream accuracy by up to 1.2% and offering a robust coordinate system for predictable data mixing.
- Abstract(参考訳): LLM事前学習の有効性は、データ構成に大きく依存する。
しかし、最適な混合は分類の欠陥によって妨げられ、ヒトの分類学は存在論的ミスアライメントに悩まされ、ユークリッドのクラスタリングは埋め込み異方性に対処できない。
GEM(Geometric Entropy Mixing, 幾何エントロピー混合)は, 混合バランス正規化器を付加したハイパースフィア上の変動問題として, データキュレーションを再構成するフレームワークである。
生成前を分離し、証明可能なMM(Minorize-Maximize)アルゴリズムで目的を最適化することにより、GEMはクラスタ崩壊を効果的に防止し、ユークリッドのヒューリスティックに見えないバランスの取れた意味構造を発見する。
我々は、この幾何学的忠実度をWebスケールコーパスに拡張するために教師学生蒸留を採用し、分類学の解釈のための幾何学的影響スコア(GIS)を導入した。
1.1Bパラメータモデルによる実験では、GEMがDoReMiやRegMixのような混合戦略に統合された場合に新しい最先端技術を確立し、平均下流精度を最大1.2%改善し、予測可能なデータ混合のための堅牢な座標システムを提供することを示した。
関連論文リスト
- Dendrograms of Mixing Measures for Softmax-Gated Gaussian Mixture of Experts: Consistency without Model Sweeps [41.371172458797524]
ゲーティングパラメータの共通翻訳、固有のゲート-エキスパート相互作用、およびタイトな数値-デノミネータ結合までの不特定性に対処する。
モデル選択には, 最適なパラメータ率を得る専門家の数を一貫したスイープフリーセレクタとして, デンドログラム誘導SGMoEを適応させる。
干ばつを識別できるトウモロコシの形質のデータセット上で、私たちのデンドログラム誘導SGMoEは2人の専門家を選別し、明確な混合階層を公開し、確率を早期に安定化し、解釈可能な遺伝子型フェノタイプマップを生成する。
論文 参考訳(メタデータ) (2025-10-14T17:23:44Z) - Interaction-Aware Gaussian Weighting for Clustered Federated Learning [58.92159838586751]
フェデレートラーニング(FL)は、プライバシを維持しながらモデルをトレーニングするための分散パラダイムとして登場した。
本稿では,新たなクラスタリングFL法であるFedGWC(Federated Gaussian Weighting Clustering)を提案する。
ベンチマークデータセットを用いた実験により,FedGWCはクラスタの品質と分類精度において,既存のFLアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-02-05T16:33:36Z) - A Fresh Look at Generalized Category Discovery through Non-negative Matrix Factorization [83.12938977698988]
Generalized Category Discovery (GCD) は、ラベル付きベースデータを用いて、ベース画像と新規画像の両方を分類することを目的としている。
現在のアプローチでは、コサイン類似性に基づく共起行列 $barA$ の固有の最適化に不適切に対処している。
本稿では,これらの欠陥に対処するNon-Negative Generalized Category Discovery (NN-GCD) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T07:24:11Z) - Adaptive Fuzzy C-Means with Graph Embedding [84.47075244116782]
ファジィクラスタリングアルゴリズムは、大まかに2つの主要なグループに分類できる: ファジィC平均法(FCM)と混合モデルに基づく方法。
本稿では,FCMを用いたクラスタリングモデルを提案する。
論文 参考訳(メタデータ) (2024-05-22T08:15:50Z) - Towards the Theory of Unsupervised Federated Learning: Non-asymptotic Analysis of Federated EM Algorithms [13.857921574409362]
混合モデルの教師なし学習のために設計されたフェデレート勾配EMアルゴリズム(FedGrEM)を導入する。
一般混合モデルに対する包括的有限サンプル理論を提案する。
次に、この一般理論を特定の統計モデルに適用し、モデルパラメータと混合比例の明示的な推定誤差を特徴づける。
論文 参考訳(メタデータ) (2023-10-23T19:53:36Z) - SIGMA: Scale-Invariant Global Sparse Shape Matching [50.385414715675076]
非剛体形状の正確なスパース対応を生成するための新しい混合整数プログラミング(MIP)法を提案する。
いくつかの挑戦的な3Dデータセットに対して,スパースな非剛性マッチングの最先端結果を示す。
論文 参考訳(メタデータ) (2023-08-16T14:25:30Z) - A distribution-free mixed-integer optimization approach to hierarchical modelling of clustered and longitudinal data [0.0]
我々は,新しいデータポイントに対するクラスタ効果を評価する革新的なアルゴリズムを導入し,このモデルのロバスト性や精度を高める。
このアプローチの推論的および予測的効果は、学生のスコアリングとタンパク質発現に適用することでさらに説明される。
論文 参考訳(メタデータ) (2023-02-06T23:34:51Z) - Likelihood Adjusted Semidefinite Programs for Clustering Heterogeneous
Data [16.153709556346417]
クラスタリングは広くデプロイされた学習ツールである。
iLA-SDPはEMよりも感度が低く、高次元データでは安定である。
論文 参考訳(メタデータ) (2022-09-29T21:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。