論文の概要: Learning Like Humans: Advancing LLM Reasoning Capabilities via Adaptive Difficulty Curriculum Learning and Expert-Guided Self-Reformulation
- arxiv url: http://arxiv.org/abs/2505.08364v1
- Date: Tue, 13 May 2025 09:10:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.497045
- Title: Learning Like Humans: Advancing LLM Reasoning Capabilities via Adaptive Difficulty Curriculum Learning and Expert-Guided Self-Reformulation
- Title(参考訳): 人間のような学習: 適応困難なカリキュラム学習とエキスパートガイドによる自己変革によるLLM推論能力の向上
- Authors: Enci Zhang, Xingang Yan, Wei Lin, Tianxiang Zhang, Qianchun Lu,
- Abstract要約: 本稿では,大規模言語モデルの複雑な問題を解決する能力を高めるための2つの新しい戦略を提案する。
まず,適応困難カリキュラム学習(adaptive Difficulty Curriculum Learning,ADCL)は,難易度シフト(Difficulty Shift)現象に対処する新しいカリキュラム学習戦略である。
第2に、Expert-Guided Self-Reformulation(EGSR)は、模倣学習と純粋探索のギャップを埋める新しい強化学習戦略である。
- 参考スコア(独自算出の注目度): 5.793561443238794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite impressive progress in areas like mathematical reasoning, large language models still face significant challenges in consistently solving complex problems. Drawing inspiration from key human learning strategies, we propose two novel strategies to enhance the capability of large language models to solve these complex problems. First, Adaptive Difficulty Curriculum Learning (ADCL) is a novel curriculum learning strategy that tackles the Difficulty Shift phenomenon (i.e., a model's perception of problem difficulty dynamically changes during training) by periodically re-estimating difficulty within upcoming data batches to maintain alignment with the model's evolving capabilities. Second, Expert-Guided Self-Reformulation (EGSR) is a novel reinforcement learning strategy that bridges the gap between imitation learning and pure exploration by guiding models to reformulate expert solutions within their own conceptual framework, rather than relying on direct imitation, fostering deeper understanding and knowledge assimilation. Extensive experiments on challenging mathematical reasoning benchmarks, using Qwen2.5-7B as the base model, demonstrate that these human-inspired strategies synergistically and significantly enhance performance. Notably, their combined application improves performance over the standard Zero-RL baseline by 10% on the AIME24 benchmark and 16.6% on AIME25.
- Abstract(参考訳): 数学的推論のような分野の著しい進歩にもかかわらず、大きな言語モデルは複雑な問題を一貫して解決する上で大きな課題に直面している。
人間の重要な学習戦略からインスピレーションを得て、これらの複雑な問題を解決するために、大規模言語モデルの能力を高めるための2つの新しい戦略を提案する。
適応困難カリキュラム学習(Adaptive Difficulty Curriculum Learning, ADCL)は、モデルの発展する能力と整合性を維持するために、次回のデータバッチ内での難易度を定期的に再見積することにより、難易度シフト現象(モデルがトレーニング中に動的に変化する問題に対する認識)に取り組む新しいカリキュラム学習戦略である。
第2に、Expert-Guided Self-Reformulation(EGSR)は、模倣学習と純粋探索のギャップを埋める新しい強化学習戦略である。
Qwen2.5-7Bをベースモデルとして、挑戦的な数学的推論ベンチマークに関する大規模な実験は、これらの人間に触発された戦略が相乗的に、性能を著しく向上することを示した。
特に、それらの統合されたアプリケーションは標準のZero-RLベースラインよりも、AIME24ベンチマークで10%、AIME25で16.6%パフォーマンスを改善している。
関連論文リスト
- GRPO-LEAD: A Difficulty-Aware Reinforcement Learning Approach for Concise Mathematical Reasoning in Language Models [0.17265013728931003]
GRPO-LEADは数学的推論に適した新しい拡張セットである。
本研究は,(1)正確で正確な解法を奨励する長さ依存的精度報酬,(2)誤った答えを判断境界を鋭くするための明示的なペナルティメカニズム,(3)困難問題に対する学習シグナルを増幅する難易度の高い優位性再重み付け戦略を導入する。
論文 参考訳(メタデータ) (2025-04-13T19:07:45Z) - LLM-driven Effective Knowledge Tracing by Integrating Dual-channel Difficulty [9.683271515093994]
本稿では,新しいDual-channel Difficulty-Aware Knowledge Tracing (DDKT) フレームワークを提案する。
難易度測定のための難易度バイアス対応アルゴリズムと生徒の熟達アルゴリズムが組み込まれている。
本枠組みでは,(1)困難バランス知覚系列(DBPS)-学生の主観的知覚と目的的難易度, LLM評価難易度, 数理統計的難易度, および学生の主観的認識の難易度を, (2)難易度比(DMR) - 難易度ゾーンによる生徒の熟達度を正確にモデル化すること,(3)知識状態更新機構 - ゲートによるパーソナライズされた知識獲得を実現すること,の3つを紹介している。
論文 参考訳(メタデータ) (2025-02-27T09:36:27Z) - Revisiting Robust RAG: Do We Still Need Complex Robust Training in the Era of Powerful LLMs? [69.38149239733994]
モデル容量が増大するにつれて、複雑な堅牢なトレーニング戦略が必要かどうかを検討する。
モデルがより強力になるにつれて、複雑な堅牢なトレーニングメソッドによってもたらされるパフォーマンス向上が劇的に減少することがわかった。
この結果から,RAGシステムはモデルがより強力になるにつれて,よりシンプルなアーキテクチャやトレーニング戦略の恩恵を受けることが示唆された。
論文 参考訳(メタデータ) (2025-02-17T03:34:31Z) - BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
我々は,Bloomの分類にインスパイアされた新しいプロンプト技術であるBloomWiseを導入し,Large Language Models(LLMs)の性能を向上させる。
より洗練された認知スキルを身につける必要性に関する決定は、LLMによる自己評価に基づいている。
4つの一般的な算数推論データセットの広範な実験において,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-05T09:27:52Z) - A Psychology-based Unified Dynamic Framework for Curriculum Learning [5.410910735259908]
本稿では、心理学に基づくカリキュラム学習のための統一動的フレームワーク(PUDF)を提案する。
我々は、人工集団(AC)からの応答にIRT(Item Response Theory)を適用して、データトレーニングの難しさを定量化する。
本稿では,モデル学習中に適切なデータ量をスケジュールするDDS-MAE戦略を提案する。
論文 参考訳(メタデータ) (2024-08-09T20:30:37Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Difficulty-Focused Contrastive Learning for Knowledge Tracing with a
Large Language Model-Based Difficulty Prediction [2.8946115982002443]
本稿では,知識追跡モデル(KT)の性能向上のための新しい手法を提案する。
KTモデルに対する難易度中心のコントラスト学習手法と難易度予測のためのLarge Language Model(LLM)ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-19T06:26:25Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。