論文の概要: GRIP: Geometric Refinement and Adaptive Information Potential for Data Efficiency
- arxiv url: http://arxiv.org/abs/2603.00031v1
- Date: Wed, 04 Feb 2026 15:23:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:07.979035
- Title: GRIP: Geometric Refinement and Adaptive Information Potential for Data Efficiency
- Title(参考訳): GRIP:データ効率のための幾何学的リファインメントと適応情報ポテンシャル
- Authors: Changhao Wang, Jiaolong Yang, Xinhao Yao, Yunfei Yu, Peng Jiao, Lu Yu, Junpeng Fang, Riccardo Cantoro, Qing Cui, Jun Zhou,
- Abstract要約: textbfGRIP (Geometric Refinement and Adaptive Information Potential) は、コーパスを情報密度幾何学空間としてモデル化することにより、これらの次元を統一するフレームワークである。
我々の研究は、大規模事前学習における適応データキュレーションのための堅牢な幾何学的基礎を確立する。
- 参考スコア(独自算出の注目度): 28.832806758251607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of Large Language Models (LLMs) is increasingly governed by data efficiency rather than raw scaling volume. However, existing selection methods often decouple global distribution balancing from local instance selection, compromising the hierarchical integrity of the training set. We introduce \textbf{GRIP} (Geometric Refinement and Adaptive Information Potential), a framework that unifies these dimensions by modeling the corpus as an information-dense geometric space. GRIP employs a \textbf{Rapid Adaptation Probe (RAP)} to quantify the information potential of semantic clusters, dynamically re-allocating the sampling budget to regions with the highest representation deficits. Subsequently, we perform Intra-Cluster Selection using a \textbf{length-rectified geometric prior} to counteract embedding density artifacts and preserve long-tail logical sequences. Extensive evaluations on Mixture-of-Experts (MoE) models up to 300B tokens demonstrate that GRIP consistently outperforms state-of-the-art baselines, \textbf{surpassing the performance of models trained on $3\times$ larger uncurated datasets}. Our work establishes a robust geometric foundation for adaptive data curation in large-scale pre-training.
- Abstract(参考訳): LLM(Large Language Models)の性能は、生のスケーリングボリュームよりもデータ効率に支配されている。
しかし、既存の選択方法は、しばしば局所的なインスタンス選択からグローバルな分散バランスを分離し、トレーニングセットの階層的な整合性を損なう。
本稿では,コーパスを情報密度幾何学空間としてモデル化することにより,これらの次元を統一するフレームワークであるtextbf{GRIP}(Geometric Refinement and Adaptive Information Potential)を紹介する。
GRIPは、意味クラスタの情報ポテンシャルを定量化するために、textbf{Rapid Adaptation Probe (RAP) を用いており、サンプリング予算を最も高い表現欠陥のある領域に動的に再割り当てする。
その後、埋め込み密度アーティファクトに対処し、長いテール論理列を保存するために、textbf{length-rectified geometry prior} を用いてクラスタ内選択を行う。
最大300BトークンまでのMixture-of-Experts(MoE)モデルに対する大規模な評価は、GRIPが一貫して最先端のベースラインを上回り、より大規模な未計算データセットでトレーニングされたモデルのパフォーマンスをパスしていることを示している。
我々の研究は、大規模事前学習における適応データキュレーションのための堅牢な幾何学的基礎を確立する。
関連論文リスト
- Optimizing the Landscape of LLM Embeddings with Dynamic Exploratory Graph Analysis for Generative Psychometrics: A Monte Carlo Study [0.0]
本研究では、埋め込みを探索可能なランドスケープとして再編成し、動的探索グラフ解析(DynEGA)を横埋め込み座標に適用する。
大規模モンテカルロシミュレーションでは,OpenAIのテキスト埋め込み3-小モデルを用いて,五次元の壮大なナルシシズムを表す項目を埋め込んだ。
その結果,全エントロピーフィット指数 (TEFI) と正規化相互情報 (NMI) が,埋め込みランドスケープにおける競合する最適化トラジェクトリに繋がることが明らかとなった。
論文 参考訳(メタデータ) (2026-01-14T14:40:14Z) - Scalable Graph Generative Modeling via Substructure Sequences [50.32639806800683]
本稿では,グラフ生成用トランスフォーマー事前学習フレームワークである生成グラフパターンマシン(G$2$PM)を紹介する。
G$2$PMはグラフインスタンス(ノード、エッジ、グラフ全体)をサブ構造のシーケンスとして表現する。
それは、一般化可能かつ伝達可能な表現を学ぶために、シーケンスに関する生成的事前学習を採用する。
論文 参考訳(メタデータ) (2025-05-22T02:16:34Z) - Gaussian Ensemble Belief Propagation for Efficient Inference in High-Dimensional Systems [3.6773638205393198]
高次元モデルにおける効率的な推論は、機械学習における中心的な課題である。
本稿では,Gaussian Ensemble Belief Propagation (GEnBP)アルゴリズムを紹介する。
本稿では,GEnBPが既存の信念手法よりも精度と計算効率で優れていることを示す。
論文 参考訳(メタデータ) (2024-02-13T03:31:36Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - SIGMA: Scale-Invariant Global Sparse Shape Matching [50.385414715675076]
非剛体形状の正確なスパース対応を生成するための新しい混合整数プログラミング(MIP)法を提案する。
いくつかの挑戦的な3Dデータセットに対して,スパースな非剛性マッチングの最先端結果を示す。
論文 参考訳(メタデータ) (2023-08-16T14:25:30Z) - T1: Scaling Diffusion Probabilistic Fields to High-Resolution on Unified
Visual Modalities [69.16656086708291]
拡散確率場(DPF)は、距離空間上で定義された連続関数の分布をモデル化する。
本稿では,局所構造学習に着目したビューワイズサンプリングアルゴリズムによる新しいモデルを提案する。
モデルは、複数のモダリティを統一しながら、高解像度のデータを生成するためにスケールすることができる。
論文 参考訳(メタデータ) (2023-05-24T03:32:03Z) - Nearest Neighborhood-Based Deep Clustering for Source Data-absent
Unsupervised Domain Adaptation [33.394228127643494]
教師なしドメイン適応(UDA)の古典的な設定では、ラベル付きソースデータがトレーニングフェーズで利用可能である。
多くの実世界のシナリオでは、ソースデータはアクセス不能であり、ソースドメインでトレーニングされたモデルのみが利用可能です。
本稿では,この課題に対する新しいディープクラスタリング手法を提案する。
論文 参考訳(メタデータ) (2021-07-27T04:13:59Z) - Mix Dimension in Poincar\'{e} Geometry for 3D Skeleton-based Action
Recognition [57.98278794950759]
グラフ畳み込みネットワーク(GCN)はすでに、不規則なデータをモデル化する強力な能力を実証している。
本稿では,ポアンカー幾何学を用いて定義した空間時空間GCNアーキテクチャを提案する。
提案手法を,現在最大規模の2つの3次元データセット上で評価する。
論文 参考訳(メタデータ) (2020-07-30T18:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。