Fugu-MT 論文翻訳(概要): What Do Learning Dynamics Reveal About Generalization in LLM Reasoning?

論文の概要: What Do Learning Dynamics Reveal About Generalization in LLM Reasoning?

arxiv url: http://arxiv.org/abs/2411.07681v2
Date: Mon, 18 Nov 2024 18:49:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.870045
Title: What Do Learning Dynamics Reveal About Generalization in LLM Reasoning?
Title（参考訳）: LLM推論における一般化に関する学習ダイナミクスの考察
Authors: Katie Kang, Amrith Setlur, Dibya Ghosh, Jacob Steinhardt, Claire Tomlin, Sergey Levine, Aviral Kumar,
Abstract要約: モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
参考スコア（独自算出の注目度）: 83.83230167222852
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the remarkable capabilities of modern large language models (LLMs), the mechanisms behind their problem-solving abilities remain elusive. In this work, we aim to better understand how the learning dynamics of LLM finetuning shapes downstream generalization. Our analysis focuses on reasoning tasks, whose problem structure allows us to distinguish between memorization (the exact replication of reasoning steps from the training data) and performance (the correctness of the final solution). We find that a model's generalization behavior can be effectively characterized by a training metric we call pre-memorization train accuracy: the accuracy of model samples on training queries before they begin to copy the exact reasoning steps from the training set. On the dataset level, this metric is able to reliably predict test accuracy, achieving $R^2$ of around or exceeding 0.9 across various models (Llama3 8, Gemma2 9B), datasets (GSM8k, MATH), and training configurations. On a per-example level, this metric is also indicative of whether individual model predictions are robust to perturbations in the training query. By connecting a model's learning behavior to its generalization, pre-memorization train accuracy can guide targeted improvements to training strategies. We focus on data curation as an example, and show that prioritizing examples with low pre-memorization accuracy leads to 1.5-2x improvements in data efficiency compared to i.i.d. data scaling, and outperforms other standard data curation techniques.
Abstract（参考訳）: 現代の大規模言語モデル(LLM)の顕著な能力にもかかわらず、それらの問題解決能力のメカニズムはいまだ解明されていない。本研究は,LLM微調整形状の学習力学が下流の一般化に与える影響を,よりよく理解することを目的としている。解析は推論タスクに焦点をあて、その問題構造は記憶(学習データからの推論ステップの正確な複製)と性能(最終解の正しさ)を区別することができる。モデルの一般化動作は,トレーニングセットからの正確な推論ステップのコピーを開始する前に,トレーニングクエリ上でのモデルサンプルの精度を,事前記憶モデルの精度と呼ぶトレーニング指標によって効果的に評価できることがわかった。データセットレベルでは、このメトリックはテスト精度を確実に予測することができ、様々なモデル(Llama3 8 Gemma2 9B)、データセット(GSM8k、MATH)、トレーニング設定で約0.9ドル以上のR^2$を達成できる。例のレベルでは、この指標はトレーニングクエリの摂動に対して個々のモデル予測が堅牢かどうかを示すものである。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。例として、データキュレーションに着目し、プリメモリ化精度の低いサンプルの優先順位付けが、データスケーリングと比較してデータ効率を1.5～2倍改善し、他の標準データキュレーション技術より優れていることを示す。

関連論文リスト

Transfer Learning of Linear Regression with Multiple Pretrained Models: Benefiting from More Pretrained Models via Overparameterization Debiasing [0.5371337604556311]
複数の最小二乗事前学習モデルを用いて線形回帰タスクの伝達学習について検討する。我々は,学習対象モデルの試験誤差を解析的に定式化し,対応する経験的評価を提供する。
論文参考訳（メタデータ） (2026-02-18T15:19:02Z)
On the Impossibility of Retrain Equivalence in Machine Unlearning [43.39599739799909]
機械学習は、モデルの出力に関する特定のトレーニングデータの"影響"を選択的に除去しようとする。理想的なゴールは、保持されたデータのみに基づいて、スクラッチからトレーニングされたモデルと同一のトレーニング等価性である。現代のパイプラインは、しばしば多段階のトレーニングを伴い、各ステージは異なるデータ分散と目的を持っている。
論文参考訳（メタデータ） (2025-10-18T19:58:31Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文参考訳（メタデータ） (2025-02-10T17:57:15Z)
Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [51.41246396610475]
本稿では,外部ツールを使わずにクローズドブック質問応答(QA)の性能を予測することを目的とする。我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴を線形に相関させる情報理論の指標である。
論文参考訳（メタデータ） (2025-02-06T13:23:53Z)
Training Dynamics of a 1.7B LLaMa Model: A Data-Efficient Approach [10.39475177812483]
約200億個のデータに対するDMaS-LLaMa-Liteのトレーニングから得られた洞察を共有します。我々は、検証損失レベルとダウンストリームベンチマークの進化が、不整合テキストから、流動的で文脈に根ざしたアウトプットへの移行を反映しているかを記述した、完全なトレーニングの軌跡を詳述する。これらの経験を詳述し、トレーニングログ、チェックポイント、サンプルアウトプットを提供することで、将来の研究者や実践者が事前学習戦略を洗練することを目指している。
論文参考訳（メタデータ） (2024-12-17T21:15:52Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
TaskMet: Task-Driven Metric Learning for Model Learning [29.0053868393653]
ディープラーニングモデルは、トレーニング手順が認識していない可能性のある下流タスクにデプロイされることが多い。本稿では,モデルのパラメータよりも1段階深いタスク損失信号を用いて,モデルがトレーニングした損失関数のパラメータを学習する。このアプローチは、最適な予測モデル自体を変更するのではなく、下流のタスクにとって重要な情報を強調するためにモデル学習を変更する。
論文参考訳（メタデータ） (2023-12-08T18:59:03Z)
Learning Sample Difficulty from Pre-trained Models for Reliable Prediction [55.77136037458667]
本稿では,大規模事前学習モデルを用いて,サンプル難易度を考慮したエントロピー正規化による下流モデルトレーニングを指導する。我々は、挑戦的なベンチマークで精度と不確実性の校正を同時に改善する。
論文参考訳（メタデータ） (2023-04-20T07:29:23Z)
Theoretical Characterization of the Generalization Performance of Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文参考訳（メタデータ） (2023-04-09T20:36:13Z)
Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning [119.70303730341938]
データフリーメタトレーニングにおけるePisode cUrriculum inversion(ECI)と、内部ループ後のinvErsion calibRation(ICFIL)を提案する。 ECIは、メタモデルのリアルタイムフィードバックに応じて、擬似エピソードの難易度を適応的に増加させる。本稿では,ECIを用いたメタトレーニングの最適化過程を,エンド・ツー・エンド方式で近似形式として定式化する。
論文参考訳（メタデータ） (2023-03-20T15:10:41Z)
Harnessing the Power of Explanations for Incremental Training: A LIME-Based Approach [6.244905619201076]
この研究では、モデル説明がフィードフォワードトレーニングにフィードバックされ、モデルをより一般化するのに役立つ。このフレームワークは、シーケンシャルなテストセットのパフォーマンスを維持するために、Elastic Weight Consolidation (EWC)によるカスタム重み付き損失を取り入れている。提案したカスタムトレーニング手順は、インクリメンタルラーニングセットアップのすべてのフェーズにおいて、0.5%から1.5%までの精度を一貫して向上させる。
論文参考訳（メタデータ） (2022-11-02T18:16:17Z)
Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文参考訳（メタデータ） (2022-09-30T02:25:12Z)
Unrolling SGD: Understanding Factors Influencing Machine Unlearning [17.6607904333012]
機械学習は、デプロイされた機械学習モデルがトレーニングデータポイントの1つを忘れるプロセスである。まず、近似アンラーニングのアプローチとメトリクスを分類する。検証誤差(L2差)、すなわち、ほとんど学習されていないモデルの重みと鼻再訓練されたモデルのL2差を同定する。
論文参考訳（メタデータ） (2021-09-27T23:46:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。