論文の概要: Learning from Saturated Data: Signals Beyond Correctness for LLM Training
- arxiv url: http://arxiv.org/abs/2606.01436v1
- Date: Sun, 31 May 2026 20:15:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.702151
- Title: Learning from Saturated Data: Signals Beyond Correctness for LLM Training
- Title(参考訳): 飽和データから学ぶ:LLMトレーニングの正確性を超えた信号
- Authors: Hanno Hiss, Jasper Dekoninck, Martin Vechev,
- Abstract要約: 完全な経験的精度で解いた質問が下流の性能向上に役立てられるかどうかを考察する。
そのために、より微細な品質信号の2つのソースにバイナリの正しさを置き換える。
これらの信号を複数のトレーニングアルゴリズムに組み込んで,Qwen3-1.7B-Base上で評価する。
- 参考スコア(独自算出の注目度): 3.8178950373250604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing capabilities of large language models (LLMs) have led to the saturation of many benchmarks and training datasets used to improve them. Motivated by this, we investigate whether questions solved with perfect empirical accuracy can nevertheless be used to improve downstream performance. To do so, we replace binary correctness with two sources of more fine-grained quality signals: (1) pairwise LLM self-judgments, in which the model evaluates the relative quality of its own solutions, and (2) token-level entropy, where token-level uncertainty is used as a proxy for solution quality. We incorporate these signals into several training algorithms and evaluate them on Qwen3-1.7B-Base. When training exclusively on a simple arithmetic task, quality-based signals improve performance by up to $18.6\%$ over the base model, substantially outperforming SFT. On GSM8K, however, gains are more modest and depend strongly on the quality signal. For instance, self-judgments show poor agreement with a stronger external judge and can even degrade performance below the base model. Overall, our results suggest that quality-based training can extract useful signal from saturated questions for base models, but that applying such signals to more complex tasks requires careful calibration and further study.
- Abstract(参考訳): 大規模言語モデル(LLM)の能力の増大により、多くのベンチマークやトレーニングデータセットが飽和した。
そこで本研究では, 完全な経験的精度で解いた質問が, 下流の性能向上に有効かどうかを考察する。
そこで我々は, 2値の正しさを,(1) LLM自己判断による相対的な解の質の評価と(2) トークンレベルの不確かさが解の質のプロキシとして使用されるトークンレベルのエントロピーという,よりきめ細かな品質信号の2つの源に置き換える。
これらの信号を複数のトレーニングアルゴリズムに組み込んで,Qwen3-1.7B-Base上で評価する。
単純な算術的なタスクを専門にトレーニングする場合、品質ベースの信号は、ベースモデルよりも最大で18.6\%の性能向上を達成し、SFTを大幅に上回っている。
しかし、GSM8Kでは利得はより控えめであり、品質信号に強く依存する。
例えば、自己判断は、より強い外部判断者との不一致を示し、ベースモデルよりも低いパフォーマンスを低下させることができる。
以上の結果から, 品質に基づく学習は, 基本モデルの飽和質問から有用な信号を抽出することができるが, より複雑なタスクにそのような信号を適用するには, 慎重な校正とさらなる研究が必要であることが示唆された。
関連論文リスト
- Cog-DRIFT: Exploration on Adaptively Reformulated Instances Enables Learning from Hard Reasoning Problems [70.94268452442147]
検証可能な報酬(RLVR)からの強化学習はLLMの推論能力を改善した。
本稿では,タスク修正に基づくシンプルで効果的なソリューションを提案する。
本稿では,Cag-DRIFTについて紹介する。このフレームワークは改良された変種を構築し,適応的なカリキュラムに編成する。
論文 参考訳(メタデータ) (2026-04-06T15:38:38Z) - Data Distribution as a Lever for Guiding Optimizers Toward Superior Generalization in LLMs [60.68927774057402]
はじめに、単純さのバイアスが小さくなれば、より良い一般化がもたらされることを示す。
この知見に触発されて、訓練後のサンプルのアップサンプリングや強化によるトレーニングデータ分布がSBを減少させ、一般化の改善につながることを示す。
我々はPhi2-2.7B, Llama3.2-1B, Gemma3-1B-PT, Qwen3-0.6B-Base など複数の言語モデルの性能向上を図る。
論文 参考訳(メタデータ) (2026-01-31T07:40:36Z) - Teaching LMMs for Image Quality Scoring and Interpreting [71.1335005098584]
Q-SiT(Quality Scoring and Interpreting Joint Teaching)は,画像品質のスコアリングと解釈を同時に行うための統合フレームワークである。
Q-SiTは、Q-SiT-miniと共に画像品質スコアリングと解釈タスクを同時に実行する最初のモデルである。
実験結果から,Q-SiTはIQA能力の優れた両タスクにおいて高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-03-12T09:39:33Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - In2Core: Leveraging Influence Functions for Coreset Selection in Instruction Finetuning of Large Language Models [37.45103473809928]
In2Coreアルゴリズムは,トレーニングモデルと評価サンプルの相関関係を解析し,コアセットを選択する。
LLMの微調整データにアルゴリズムを適用することで、トレーニングデータの50%で同様の性能を実現することができる。
論文 参考訳(メタデータ) (2024-08-07T05:48:05Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Entailment as Robust Self-Learner [14.86757876218415]
我々は、複数の異なるNLUタスクを文脈的エンターテイメントとして定式化するプロンプト戦略を設計する。
自己学習における擬似ラベル品質向上のための簡易擬似ラベル編集(SimPLE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:41:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。