論文の概要: MENTOR: A Reinforcement Learning Framework for Enabling Tool Use in Small Models via Teacher-Optimized Rewards
- arxiv url: http://arxiv.org/abs/2510.18383v2
- Date: Tue, 28 Oct 2025 04:50:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 13:20:32.853647
- Title: MENTOR: A Reinforcement Learning Framework for Enabling Tool Use in Small Models via Teacher-Optimized Rewards
- Title(参考訳): MENTOR:教師最適化リワードによる小型モデルにおけるツールの活用のための強化学習フレームワーク
- Authors: ChangSu Choi, Hoyun Song, Dongyeon Kim, WooHyeon Jung, Minkyung Cho, Sunjin Park, NohHyeob Bae, Seona Yu, KyungTae Lim,
- Abstract要約: 大規模言語モデル (LLM) のツール使用能力をより小さく、より効率的な小言語モデル (SLM) に拡張することは、実用上の重要な課題である。
教師付き微調整(英語版)(SFT)は、堅牢な方法論を学ぶのではなく、静的な教師軌跡のセットを模倣するようにモデルを訓練するので、一般化に苦しむ。
本稿では,強化学習と教師誘導蒸留を組み合わせたフレームワークであるMENTORを提案する。
- 参考スコア(独自算出の注目度): 8.645370827540996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distilling the tool-using capabilities of large language models (LLMs) into smaller, more efficient small language models (SLMs) is a key challenge for their practical application. The predominant approach, supervised fine-tuning (SFT), suffers from poor generalization as it trains models to imitate a static set of teacher trajectories rather than learn a robust methodology. While reinforcement learning (RL) offers an alternative, the standard RL using sparse rewards fails to effectively guide SLMs, causing them to struggle with inefficient exploration and adopt suboptimal strategies. To address these distinct challenges, we propose MENTOR, a framework that synergistically combines RL with teacher-guided distillation. Instead of simple imitation, MENTOR employs an RL-based process to learn a more generalizable policy through exploration. In addition, to solve the problem of reward sparsity, it uses a teacher's reference trajectory to construct a dense, composite teacher-guided reward that provides fine-grained guidance. Extensive experiments demonstrate that MENTOR significantly improves the cross-domain generalization and strategic competence of SLMs compared to both SFT and standard sparse-reward RL baselines.
- Abstract(参考訳): 大規模言語モデル (LLM) のツール使用能力をより小さく、より効率的な小言語モデル (SLM) に拡張することは、実用上の重要な課題である。
教師付き微調整(英語版)(SFT)は、堅牢な方法論を学ぶのではなく、静的な教師軌跡のセットを模倣するようにモデルを訓練するので、一般化に苦しむ。
強化学習(RL)は代替手段を提供するが、スパース報酬を用いた標準のRLはSLMを効果的に導くのに失敗し、非効率な探索に苦労し、準最適戦略を採用する。
これらの課題に対処するために,RLと教師誘導蒸留を相乗的に組み合わせたフレームワークであるMENTORを提案する。
単純な模倣の代わりに、mentORはRLベースのプロセスを使用して探索を通じてより一般化可能なポリシーを学ぶ。
また、報酬の幅の問題を解決するために、教師の基準軌跡を用いて、きめ細かいガイダンスを提供する、密集した複合的な教師誘導報酬を構築する。
広範囲な実験により、mentORはSFTおよび標準スパース逆RLベースラインと比較して、SLMのクロスドメイン一般化と戦略的能力を大幅に改善することが示された。
関連論文リスト
- Your Reward Function for RL is Your Best PRM for Search: Unifying RL and Search-Based TTS [62.22644307952087]
本稿では、RLベースと検索ベースTTSの最初の自然統合であるAIRL-Sを紹介する。
逆逆強化学習(AIRL)とグループ相対政策最適化(GRPO)を組み合わせることで、正しい推論トレースから高密度な動的PRMを直接学習する。
提案手法は,GPT-4oと一致して,ベースモデル上での平均9%の性能向上を図っている。
論文 参考訳(メタデータ) (2025-08-19T23:41:15Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - SuperRL: Reinforcement Learning with Supervision to Boost Language Model Reasoning [42.54530036364341]
まばらな報酬のある環境では、強化学習は軌道のサンプリングに苦労する。
我々は、RLとSFTを代替する統合トレーニングフレームワークであるSuperRLを紹介する。
実験により、スーパーRLは、サンプル効率の向上、一般化の強化、スパース報酬下での堅牢性の向上により、バニラRLを超えることが示された。
論文 参考訳(メタデータ) (2025-06-01T17:43:54Z) - Option Discovery Using LLM-guided Semantic Hierarchical Reinforcement Learning [16.654435148168172]
大規模言語モデル(LLM)は、推論と意思決定において顕著な将来性を示している。
サンプル効率,一般化,マルチタスク適応性を向上させるため,LDSCと呼ばれるLCM誘導階層型RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-24T15:49:56Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Large Language Model-Enhanced Reinforcement Learning for Generic Bus Holding Control Strategies [12.599164162404994]
本研究では,Large Language Models(LLMs)の文脈内学習と推論機能を活用した自動報酬生成パラダイムを提案する。
提案するLLM拡張RLパラダイムの実現可能性を評価するため,バス路線数,停留所数,旅客需要数に異なる広範なバス保持制御シナリオに適用した。
論文 参考訳(メタデータ) (2024-10-14T07:10:16Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Reinforcement Learning to Rank Using Coarse-grained Rewards [17.09775943683446]
粗い粒度のフィードバック信号は、よりアクセシブルで手頃な価格である。
既存の強化学習 ランクへのアプローチは、高いばらつきと低いサンプル効率に悩まされる。
本稿では,大規模言語モデルに広く用いられているRLアルゴリズムに基づいて,新しい強化学習手法をランク付けする。
論文 参考訳(メタデータ) (2022-08-16T06:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。