論文の概要: Temporal Sampling for Forgotten Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2505.20196v1
- Date: Mon, 26 May 2025 16:39:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 19:27:26.947538
- Title: Temporal Sampling for Forgotten Reasoning in LLMs
- Title(参考訳): LLMにおける擬似推論のための時間サンプリング
- Authors: Yuetai Li, Zhangchen Xu, Fengqing Jiang, Bhaskar Ramasubramanian, Luyao Niu, Bill Yuchen Lin, Xiang Yue, Radha Poovendran,
- Abstract要約: トレーニング中に、以前正解した問題を解決する方法を、モデルが忘れることがよくあります。
トレーニング軌道に沿って複数のチェックポイントから出力を引き出すシンプルなデコード戦略であるテンポラルサンプリングを導入する。
このアプローチは、リトレーニングやアンサンブルなしに、忘れられたソリューションを回復し、推論性能を大幅に改善する。
- 参考スコア(独自算出の注目度): 14.895026967556088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning large language models (LLMs) is intended to improve their reasoning capabilities, yet we uncover a counterintuitive effect: models often forget how to solve problems they previously answered correctly during training. We term this phenomenon temporal forgetting and show that it is widespread across model sizes, fine-tuning methods (both Reinforcement Learning and Supervised Fine-Tuning), and multiple reasoning benchmarks. To address this gap, we introduce Temporal Sampling, a simple decoding strategy that draws outputs from multiple checkpoints along the training trajectory. This approach recovers forgotten solutions without retraining or ensembling, and leads to substantial improvements in reasoning performance, gains from 4 to 19 points in Pass@k and consistent gains in Majority@k across several benchmarks. We further extend our method to LoRA-adapted models, demonstrating that storing only adapter weights across checkpoints achieves similar benefits with minimal storage cost. By leveraging the temporal diversity inherent in training, Temporal Sampling offers a practical, compute-efficient way to surface hidden reasoning ability and rethink how we evaluate LLMs.
- Abstract(参考訳): 微調整された大きな言語モデル(LLM)は、推論能力を改善することを目的としていますが、反直感的な効果を発見します。
我々は、この現象を時間的忘れ、モデルのサイズ、微調整方法(強化学習と監視細調整の両方)、および複数の推論ベンチマークにまたがっていることを示す。
このギャップに対処するために、トレーニング軌道に沿って複数のチェックポイントから出力を引き出すシンプルなデコード戦略であるテンポラルサンプリングを導入する。
このアプローチは、リトレーニングやアンサンブルなしに、忘れられたソリューションを回復し、推論のパフォーマンスが大幅に改善され、Pass@kでは4から19ポイント、Majority@kではいくつかのベンチマークで一貫して向上する。
さらに,本手法をLoRA適応モデルに拡張し,チェックポイント間のアダプタ重みのみを格納することで,ストレージコストを最小限に抑えられることを示す。
トレーニングに固有の時間的多様性を活用することで、テンポラルサンプリングは、隠れた推論能力を表面化し、どのようにLCMを評価するかを再考する実用的な、計算効率の高い方法を提供する。
関連論文リスト
- Think Deep, Think Fast: Investigating Efficiency of Verifier-free Inference-time-scaling Methods [39.89239733570008]
本研究は推論モデルと非推論モデルの両方に対する推論時間スケーリング手法を包括的に解析する。
非推論モデルは、非常に高い推論予算にもかかわらず、推論モデルに大きく遅れていることが分かっています。
推論モデルでは、多数決は堅牢な推論戦略であり、一般的に競争力があるか、あるいは他のより洗練されたITC手法よりも優れていることが証明されている。
論文 参考訳(メタデータ) (2025-04-18T19:32:55Z) - Reasoning Under 1 Billion: Memory-Augmented Reinforcement Learning for Large Language Models [53.4530106173067]
強化学習(RL)を伴う大規模言語モデル(LLM)は、複雑な推論タスクにおいて有望な改善を示す。
RLは10億のパラメータを持つ小さなLLMでは、効果的に探索するために必要な事前訓練能力が欠如しているため、依然として困難である。
この研究は、この課題に対処するためにエピソード記憶を活用する、新しい本質的なモチベーションアプローチを導入する。
論文 参考訳(メタデータ) (2025-04-03T04:46:17Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。
既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。
クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Online Cascade Learning for Efficient Inference over Streams [9.516197133796437]
大規模言語モデル(LLM)は、データストリームに関する複雑なクエリに応答する自然な役割を持つ。
この課題に対処する最初のアプローチであるオンラインカスケード学習を提案する。
我々は,オンラインでカスケードを学習するタスクを模倣学習問題として定式化する。
論文 参考訳(メタデータ) (2024-02-07T01:46:50Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。