論文の概要: Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning
- arxiv url: http://arxiv.org/abs/2505.20161v1
- Date: Mon, 26 May 2025 16:05:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 19:27:26.922327
- Title: Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning
- Title(参考訳): 原始合成:勾配に基づくデータ分散化はLLM推論における一般化を促進する
- Authors: Jaehun Jung, Seungju Han, Ximing Lu, Skyler Hallinan, David Acuna, Shrimai Prabhumoye, Mostafa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Yejin Choi,
- Abstract要約: 我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
- 参考スコア(独自算出の注目度): 77.120955854093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective generalization in language models depends critically on the diversity of their training data. Yet existing diversity metrics often fall short of this goal, relying on surface-level heuristics that are decoupled from model behavior. This motivates us to ask: What kind of diversity in training data actually drives generalization in language models -- and how can we measure and amplify it? Through large-scale empirical analyses spanning over 300 training runs, carefully controlled for data scale and quality, we show that data diversity can be a strong predictor of generalization in LLM reasoning -- as measured by average model performance on unseen out-of-distribution benchmarks. We introduce G-Vendi, a metric that quantifies diversity via the entropy of model-induced gradients. Despite using a small off-the-shelf proxy model for gradients, G-Vendi consistently outperforms alternative measures, achieving strong correlation (Spearman's $\rho \approx 0.9$) with out-of-distribution (OOD) performance on both natural language inference (NLI) and math reasoning tasks. Building on this insight, we present Prismatic Synthesis, a framework for generating diverse synthetic data by targeting underrepresented regions in gradient space. Experimental results show that Prismatic Synthesis consistently improves model performance as we scale synthetic data -- not just on in-distribution test but across unseen, out-of-distribution benchmarks -- significantly outperforming state-of-the-art models that rely on 20 times larger data generator than ours. For example, PrismMath-7B, our model distilled from a 32B LLM, outperforms R1-Distill-Qwen-7B -- the same base model trained on proprietary data generated by 671B R1 -- on 6 out of 7 challenging benchmarks.
- Abstract(参考訳): 言語モデルの効果的な一般化は、トレーニングデータの多様性に大きく依存する。
しかし、既存の多様性のメトリクスは、モデル行動から切り離された表面レベルのヒューリスティックに依存して、この目標を達成できないことが多い。
トレーニングデータの多様性は、実際に言語モデルの一般化を促進する -- そして、それをどのように測定し、増幅するか?
300以上のトレーニング実行にまたがる大規模な経験的分析を通じて、データスケールと品質を慎重に制御することで、データの多様性がLLM推論における一般化の強力な予測要因になり得ることを示します。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
勾配に対して小さなオフ・ザ・シェルフプロキシモデルを使用しているにもかかわらず、G-Vendiは、自然言語推論(NLI)と算術推論タスクの両方でOOD(out-of-distribution)のパフォーマンスと強い相関(Spearmanの$\rho \approx 0.9$)を達成して、オルタナティブ測度を一貫して上回っている。
この知見に基づいて、勾配空間の未表現領域を対象とし、多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
実験結果から、Prismatic Synsrationは、非配布テストだけでなく、非配布ベンチマークにおいても、我々の20倍のデータジェネレータに依存する最先端モデルよりもはるかに優れた、合成データのスケールにおいて、モデルパフォーマンスを継続的に向上させることが示された。
例えば、PrismMath-7Bは32B LLMから抽出したもので、R1-Distill-Qwen-7B(671B R1で生成されたプロプライエタリなデータに基づいてトレーニングされたのと同じベースモデル)を7つの挑戦的なベンチマークのうち6つで上回っています。
関連論文リスト
- Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Hybrid Training Approaches for LLMs: Leveraging Real and Synthetic Data to Enhance Model Performance in Domain-Specific Applications [0.0]
本研究では,超微調整型大規模言語モデル(LLM)のハイブリッドアプローチについて検討する。
転写された実データと高品質な合成セッションを組み合わせたデータセットを利用することで、ドメイン固有の実データの制限を克服することを目的とした。
本研究は,基本基礎モデル,実データで微調整されたモデル,ハイブリッド微調整されたモデルという3つのモデルを評価した。
論文 参考訳(メタデータ) (2024-10-11T18:16:03Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Private Synthetic Data Meets Ensemble Learning [15.425653946755025]
機械学習モデルが合成データに基づいてトレーニングされ、実際のデータにデプロイされると、しばしばパフォーマンス低下が発生する。
実データを用いた場合のパフォーマンス向上を目標として,下流モデルのトレーニングのための新たなアンサンブル戦略を導入する。
論文 参考訳(メタデータ) (2023-10-15T04:24:42Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。