論文の概要: Progressive Mastery: Customized Curriculum Learning with Guided Prompting for Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2506.04065v1
- Date: Wed, 04 Jun 2025 15:31:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.418928
- Title: Progressive Mastery: Customized Curriculum Learning with Guided Prompting for Mathematical Reasoning
- Title(参考訳): プログレッシブ・マスタリー:数学的推論のためのガイド付きプロンプティングによるカスタマイズされたカリキュラム学習
- Authors: Muling Wu, Qi Qian, Wenhao Liu, Xiaohua Wang, Zisu Huang, Di Liang, LI Miao, Shihan Dou, Changze Lv, Zhenghua Wang, Zhibo Xu, Lina Chen, Tianlong Li, Xiaoqing Zheng, Xuanjing Huang,
- Abstract要約: 大規模言語モデル(LLM)は、様々な推論タスクにおいて顕著な性能を達成しているが、非効率なサンプル利用と非フレキシブルな難易度サンプル処理によって後処理が制限されている。
本稿では,2つの重要なイノベーションを持つ新しいフレームワークであるCustomized Curriculum Learning (CCL)を提案する。
まず,各モデルの個々の能力に基づいてカリキュラムデータセットをカスタマイズする,モデル適応的難易度定義を導入する。
第2に,戦略的なヒントによって標本の難易度を動的に低減し,性能を低下させるような挑戦的な試料を効果的に活用する「ガイド・プロンプティング」を開発した。
- 参考スコア(独自算出の注目度): 43.12759195699103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable performance across various reasoning tasks, yet post-training is constrained by inefficient sample utilization and inflexible difficulty samples processing. To address these limitations, we propose Customized Curriculum Learning (CCL), a novel framework with two key innovations. First, we introduce model-adaptive difficulty definition that customizes curriculum datasets based on each model's individual capabilities rather than using predefined difficulty metrics. Second, we develop "Guided Prompting," which dynamically reduces sample difficulty through strategic hints, enabling effective utilization of challenging samples that would otherwise degrade performance. Comprehensive experiments on supervised fine-tuning and reinforcement learning demonstrate that CCL significantly outperforms uniform training approaches across five mathematical reasoning benchmarks, confirming its effectiveness across both paradigms in enhancing sample utilization and model performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な推論タスクにおいて顕著な性能を達成しているが、非効率なサンプル利用と非フレキシブルな難易度サンプル処理によって後処理が制限されている。
これらの制約に対処するため、我々は2つの重要な革新を持つ新しいフレームワークであるCustomized Curriculum Learning (CCL)を提案する。
まず,各モデルの個々の能力に基づいてカリキュラムデータセットをカスタマイズする,モデル適応的難易度定義を導入する。
第2に,戦略的なヒントによって標本の難易度を動的に低減し,性能を低下させるような挑戦的な試料を効果的に活用する「ガイド・プロンプティング」を開発した。
教師付き微調整および強化学習に関する総合的な実験により、CCLは5つの数学的推論ベンチマークにおいて一様トレーニングアプローチよりも優れており、サンプル利用の強化とモデル性能の両パラダイムにおけるその有効性が確認されている。
関連論文リスト
- Beyond Templates: Dynamic Adaptation of Reasoning Demonstrations via Feasibility-Aware Exploration [15.711365331854614]
本稿では,新しいデータ適応フレームワークである動的推論軌道(DART)について紹介する。
専門家のステップを均一に模倣する代わりに、DARTはステップワイド適応性推定によって導かれる選択的な模倣戦略を採用している。
我々は、DARTを複数の推論ベンチマークとモデルスケールで検証し、一般化とデータ効率を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-05-27T04:08:11Z) - Curriculum-RLAIF: Curriculum Alignment with Reinforcement Learning from AI Feedback [36.919559767160415]
本稿では,データ中心アプローチによる報酬モデルの一般化性の向上を試みる。
本稿では,様々な難易度を持つ選好ペアを構成する新しいフレームワークである$textitCurriculum-RLAIFを提案する。
実験結果から,Curriculum-RLAIFでトレーニングした報酬モデルにより,一般化性が向上することが示唆された。
論文 参考訳(メタデータ) (2025-05-26T14:53:08Z) - Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z) - How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - Large Language Models are Miscalibrated In-Context Learners [22.30783674111999]
本研究では,学習方法の異なる選択にまたがる行動の詳細な分析を行う。
低リソース環境における全ての学習手法に誤校正問題が存在することを観察する。
最大確率で自己認識を行うことで,ロバストかつ校正された予測が得られることがわかった。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - Dynamic Contrastive Distillation for Image-Text Retrieval [90.05345397400144]
画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。
提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。
MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
論文 参考訳(メタデータ) (2022-07-04T14:08:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。