論文の概要: Reasoning Under 1 Billion: Memory-Augmented Reinforcement Learning for Large Language Models
- arxiv url: http://arxiv.org/abs/2504.02273v1
- Date: Thu, 03 Apr 2025 04:46:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 21:09:07.982744
- Title: Reasoning Under 1 Billion: Memory-Augmented Reinforcement Learning for Large Language Models
- Title(参考訳): 10億ドル以下の推論:大規模言語モデルのためのメモリ強化強化学習
- Authors: Hung Le, Dai Do, Dung Nguyen, Svetha Venkatesh,
- Abstract要約: 強化学習(RL)を伴う大規模言語モデル(LLM)は、複雑な推論タスクにおいて有望な改善を示す。
RLは10億のパラメータを持つ小さなLLMでは、効果的に探索するために必要な事前訓練能力が欠如しているため、依然として困難である。
この研究は、この課題に対処するためにエピソード記憶を活用する、新しい本質的なモチベーションアプローチを導入する。
- 参考スコア(独自算出の注目度): 53.4530106173067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in fine-tuning large language models (LLMs) with reinforcement learning (RL) have shown promising improvements in complex reasoning tasks, particularly when paired with chain-of-thought (CoT) prompting. However, these successes have been largely demonstrated on large-scale models with billions of parameters, where a strong pretraining foundation ensures effective initial exploration. In contrast, RL remains challenging for tiny LLMs with 1 billion parameters or fewer because they lack the necessary pretraining strength to explore effectively, often leading to suboptimal reasoning patterns. This work introduces a novel intrinsic motivation approach that leverages episodic memory to address this challenge, improving tiny LLMs in CoT reasoning tasks. Inspired by human memory-driven learning, our method leverages successful reasoning patterns stored in memory while allowing for controlled exploration to generate novel responses. Intrinsic rewards are computed efficiently using a kNN-based episodic memory, allowing the model to discover new reasoning strategies while quickly adapting to effective past solutions. Experiments on fine-tuning GSM8K and AI-MO datasets demonstrate that our approach significantly enhances smaller LLMs' sample efficiency and generalization capability, making RL-based reasoning improvements more accessible in low-resource settings.
- Abstract(参考訳): 強化学習(RL)を用いた細調整大型言語モデル(LLM)の最近の進歩は、特にチェーン・オブ・ソート(CoT)と組み合わせることで、複雑な推論タスクに有望な改善が見られた。
しかし、これらの成功は数十億のパラメータを持つ大規模モデルで広く実証されており、強力な事前学習基盤が効果的な初期探査を確実にしている。
対照的に、RLは10億のパラメータを持つ小さなLLMでは、効果的に探索するために必要な事前学習の強度が欠如しており、しばしば最適下推論パターンにつながるため、依然として困難である。
この研究は、この課題に対処するためにエピソードメモリを活用する新しい本質的なモチベーションアプローチを導入し、CoT推論タスクにおける小さなLLMを改善した。
人間の記憶駆動学習にインスパイアされた本手法は,記憶に記憶された推論パターンをうまく利用し,制御された探索によって新たな応答が生成される。
固有報酬はkNNベースのエピソードメモリを用いて効率的に計算され、モデルが新しい推論戦略を発見できると同時に、有効な過去のソリューションに迅速に適応することができる。
GSM8KとAI-MOデータセットの微調整実験により、我々のアプローチはより小さなLCMのサンプル効率と一般化能力を大幅に向上し、低リソース環境でRLベースの推論の改善がよりアクセスしやすくなった。
関連論文リスト
- Improving RL Exploration for LLM Reasoning through Retrospective Replay [45.00643118030677]
本稿では,Retrospective Replay-based Reinforcement Learning (RRL) という新しいアルゴリズムを提案する。
RRLにより、モデルが早期に特定された有望な状態を再検討し、探索の効率性と有効性を向上させることができる。
論文 参考訳(メタデータ) (2025-04-19T17:40:04Z) - Training Small Reasoning LLMs with Cognitive Preference Alignment [11.367717208838101]
より小型で強力なLCMを学習するための新しいフレームワークであるCristique-Rethink-Verify(CRV)を紹介した。
CRVは複数のLLMエージェントから構成され、それぞれに固有の能力がある。
より小さなモデルの推論能力を高めるために,認知的嗜好最適化(CogPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-14T02:03:54Z) - ToM-RL: Reinforcement Learning Unlocks Theory of Mind in Small LLMs [14.29992535286614]
ルールに基づく強化学習は、小規模言語モデルにおいても、理論・オブ・マインド(ToM)推論能力を解き放つことができることを示す。
RLでトレーニングされた7Bモデルは、GPT-4oやDeepSeek-v3といったモデルを上回る、Hi-ToMベンチマークで84.50%の精度を実現しています。
これらの結果は、RLが社会的認知的推論を強化し、構造的問題解決とニュアンス的社会的推論のギャップを埋める可能性を強調している。
論文 参考訳(メタデータ) (2025-04-02T12:58:42Z) - Innate Reasoning is Not Enough: In-Context Learning Enhances Reasoning Large Language Models with Less Overthinking [39.48406368755411]
大言語モデル(LLM)がRLLM(Reasoning Large Language Models)を導入
RLLMは、訓練から得られる自然的連鎖起因性(CoT)推論能力を示し、自然な疑問に繋がる:「CoTは、RLLMの推論能力を高めるために必要か?」。
本稿では,Zero-shot CoT と Few-shot CoT が数理推論タスクにおける RLLM に与える影響を初めて包括的に解析する。
論文 参考訳(メタデータ) (2025-03-25T12:37:22Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models [33.13238566815798]
大規模言語モデル(LLM)は、複雑な推論タスクに対処するためにそれらを活用することに大きな研究の関心を呼んだ。
最近の研究は、LLMがテスト時間推論中により多くのトークンで"考える"ことを奨励することは、推論の精度を著しく向上させることを示した。
OpenAIのo1シリーズの導入は、この研究の方向性において重要なマイルストーンである。
論文 参考訳(メタデータ) (2025-01-16T17:37:58Z) - Enhancing the Reasoning Capabilities of Small Language Models via Solution Guidance Fine-Tuning [14.857842644246634]
本稿では,SG(Solution Guidance)およびSGFT(Solution-Guidance Fine-Tuning)について紹介する。
SGは、特定の計算ではなく、意味的および論理的なレベルでの問題理解と分解に焦点を当てている。
SGFTは、SLMを微調整して正確な問題解決ガイダンスを生成することができ、任意のSLMにプロンプトとして柔軟に供給することができる。
論文 参考訳(メタデータ) (2024-12-13T06:45:26Z) - Efficient Reinforcement Learning with Large Language Model Priors [18.72288751305885]
大規模言語モデル(LLM)は、最近、強力な汎用ツールとして登場した。
本稿では,従来の行動分布としてLLMを扱い,それらをRLフレームワークに統合することを提案する。
LLMに基づくアクションの事前処理を取り入れることで、探索と複雑性の最適化が大幅に削減されることを示す。
論文 参考訳(メタデータ) (2024-10-10T13:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。