論文の概要: ARISE: Agent Reasoning with Intrinsic Skill Evolution in Hierarchical Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.16060v1
- Date: Tue, 17 Mar 2026 02:03:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.068734
- Title: ARISE: Agent Reasoning with Intrinsic Skill Evolution in Hierarchical Reinforcement Learning
- Title(参考訳): ARISE:階層的強化学習における本質的なスキル進化を伴うエージェント推論
- Authors: Yu Li, Rui Miao, Zhengling Qi, Tian Lan,
- Abstract要約: ARISE(Agent Reasoning via Intrinsic Skill Evolution)は階層的な強化学習フレームワークである。
共有ポリシを使用して、ハイレベルなスキルを管理し、低レベルなレスポンスを生成する。
階層的な報酬設計は、推論能力と図書館品質の共進化を導く。
- 参考スコア(独自算出の注目度): 17.98540130851038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The dominant paradigm for improving mathematical reasoning in language models relies on Reinforcement Learning with verifiable rewards. Yet existing methods treat each problem instance in isolation without leveraging the reusable strategies that emerge and accumulate during training. To this end, we introduce ARISE (Agent Reasoning via Intrinsic Skill Evolution), a hierarchical reinforcement learning framework, in which a shared policy operates both to manage skills at high-level and to generate responses at low-level (denoted as a Skills Manager and a Worker, respectively). The Manager maintains a tiered skill library through a dedicated skill generation rollout that performs structured summarization of successful solution traces (after execution), while employing a policy-driven selection mechanism to retrieve relevant skills to condition future rollouts (before execution). A hierarchical reward design guides the co-evolution of reasoning ability and library quality. Experiments on two base models and seven benchmarks spanning both competition mathematics and Omni-MATH show that ARISE consistently outperforms GRPO-family algorithms and memory-augmented baselines, with particularly notable gains on out-of-distribution tasks. Ablation studies confirm that each component contributes to the observed improvements and that library quality and reasoning performance improve in tandem throughout training. Code is available at \href{https://github.com/Skylanding/ARISE}{https://github.com/Skylanding/ARISE}.
- Abstract(参考訳): 言語モデルにおける数学的推論を改善する主要なパラダイムは、検証可能な報酬を持つ強化学習に依存している。
しかし、既存のメソッドは、トレーニング中に発生し蓄積する再利用可能な戦略を活用することなく、各イシューインスタンスを分離して扱う。
この目的のために,階層的な強化学習フレームワークであるARISE(Agent Reasoning via Intrinsic Skill Evolution)を導入する。
マネージャは、(実行後)成功したソリューショントレースの構造化要約を実行する専用のスキル生成ロールアウトを通じて、タイレッドスキルライブラリを保持し、ポリシー駆動の選択メカニズムを使用して、(実行前に)将来のロールアウトを条件に関連スキルを検索する。
階層的な報酬設計は、推論能力と図書館品質の共進化を導く。
競合数学とOmni-MATHの両方にまたがる2つのベースモデルと7つのベンチマークの実験により、ARISEはGRPOファミリーアルゴリズムとメモリ拡張ベースラインを一貫して上回っており、特にアウト・オブ・ディストリビューションタスクに顕著な効果があることが示された。
アブレーション研究は、各コンポーネントが観察された改善に寄与し、学習を通してライブラリの品質と推論性能が向上することを確認した。
コードは \href{https://github.com/Skylanding/ARISE}{https://github.com/Skylanding/ARISE} で入手できる。
関連論文リスト
- SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning [83.98129545309277]
生経験と政策改善のギャップを埋めるフレームワークであるSkillRLを提案する。
本手法では,階層型スキルライブラリであるSkillBankを構築するために,経験に基づく蒸留機構を導入する。
ALF、WebShop、および7つの検索強化タスクの実験結果は、SkillRLが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-09T03:17:17Z) - Reinforcement Learning for Self-Improving Agent with Skill Library [14.717149089634718]
大規模言語モデル(LLM)に基づくエージェントは、複雑な推論とマルチターン相互作用において顕著な機能を示した。
有望なアプローチの1つは、エージェントが新しいスキルを学び、検証し、適用できるスキルライブラリを実装することである。
スキルライブラリによるエージェントの自己改善能力を高めるための強化学習(RL)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2025-12-18T21:58:19Z) - Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling [66.0871543682453]
我々はOmni-Thinkerについて紹介する。Omni-Thinkerは多種多様なタスクにわたって大きな言語モデルをスケールする統合強化学習フレームワークである。
我々のスケジューラは,BWTに基づいてタスクを順序付けし,マルチタスク性能を向上する。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - SoftPipe: A Soft-Guided Reinforcement Learning Framework for Automated Data Preparation [10.764970149373845]
我々は,厳格な制約をソフトガイダンスのパラダイムに置き換える,新しいRLフレームワークであるSoftPipeを紹介した。
我々は、SoftPipeがパイプラインの品質を最大13.9%改善し、2.8$times$既存の方法よりも高速な収束を実現することを実証した。
論文 参考訳(メタデータ) (2025-07-18T07:43:22Z) - Dynamic Context-oriented Decomposition for Task-aware Low-rank Adaptation with Less Forgetting and Faster Convergence [131.41894248194995]
タスク認識方式でアダプタを初期化する新しい手法であるコンテキスト指向分解適応(CorDA)を提案する。
本手法は,タスク認識により,知識保存モード (KPM) と命令レビューモード (IPM) の2つのオプション適応モードを実現する。
論文 参考訳(メタデータ) (2025-06-16T07:55:14Z) - Successor Feature Neural Episodic Control [17.706998080391635]
強化学習の長年の目標は、速い学習と、人間や動物に似た柔軟なスキルの移譲を示すインテリジェントなエージェントを構築することである。
本稿では,これらの目標に対処するための2つのフレームワーク – エピソード制御と後継機能 – の統合について検討する。
論文 参考訳(メタデータ) (2021-11-04T19:14:43Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。