論文の概要: Hierarchical Reinforcement Learning with Augmented Step-Level Transitions for LLM Agents
- arxiv url: http://arxiv.org/abs/2604.05808v1
- Date: Tue, 07 Apr 2026 12:44:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.824116
- Title: Hierarchical Reinforcement Learning with Augmented Step-Level Transitions for LLM Agents
- Title(参考訳): LLMエージェントのステップレベル遷移による階層強化学習
- Authors: Shuai Zhen, Yanhua Yu, Ruopei Guo, Nan Cheng, Yang Deng,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、複雑な対話的意思決定タスクにおいて強力な機能を示した。
既存のLLMエージェントは通常、より長い相互作用履歴に依存しており、計算コストが高く、スケーラビリティが制限される。
階層型強化学習フレームワークSTEP-HRLを提案する。
- 参考スコア(独自算出の注目度): 33.53467007340022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) agents have demonstrated strong capabilities in complex interactive decision-making tasks. However, existing LLM agents typically rely on increasingly long interaction histories, resulting in high computational cost and limited scalability. In this paper, we propose STEP-HRL, a hierarchical reinforcement learning (HRL) framework that enables step-level learning by conditioning only on single-step transitions rather than full interaction histories. STEP-HRL structures tasks hierarchically, using completed subtasks to represent global progress of overall task. By introducing a local progress module, it also iteratively and selectively summarizes interaction history within each subtask to produce a compact summary of local progress. Together, these components yield augmented step-level transitions for both high-level and low-level policies. Experimental results on ScienceWorld and ALFWorld benchmarks consistently demonstrate that STEP-HRL substantially outperforms baselines in terms of performance and generalization while reducing token usage. Our code is available at https://github.com/TonyStark042/STEP-HRL.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、複雑な対話的意思決定タスクにおいて強力な機能を示した。
しかし、既存のLLMエージェントは通常、より長い相互作用履歴に依存しており、高い計算コストとスケーラビリティが制限される。
本稿では,階層型強化学習(HRL)フレームワークであるSTEP-HRLを提案する。
STEP-HRLは、タスク全体のグローバルな進捗を表すために、完了したサブタスクを使用して階層的にタスクを行う。
局所進行モジュールを導入することにより、各サブタスク内の相互作用履歴を反復的に選択的に要約し、局所進行のコンパクトな要約を生成する。
これらのコンポーネントが組み合わさって、高レベルポリシーと低レベルポリシーの両方に対して、ステップレベルの移行が強化される。
ScienceWorld と ALFWorld ベンチマークの実験結果から,STEP-HRL はトークン使用率を低下させながら,性能と一般化の点で基線を著しく上回っていることが一貫して示されている。
私たちのコードはhttps://github.com/TonyStark042/STEP-HRLで利用可能です。
関連論文リスト
- SLEA-RL: Step-Level Experience Augmented Reinforcement Learning for Multi-Turn Agentic Training [2.291770711277359]
本研究では,SLEA-RL(Step-Level Experience-Augmented Reinforcement Learning)を提案する。
SLEA-RLは、(i)効率的なクラスタインデックス検索のために構造的に等価な環境状態をグループ化するステップレベルの監視クラスタリング、(ii)スコアベースの入出力とレート制限抽出を通じて成功戦略と失敗パターンを蒸留する自己進化体験ライブラリ、(iii)マルチターンエピソード間のきめ細かな優位性推定のためのステップレベルの信用割当によるポリシー最適化の3つのコンポーネントを通して機能する。
論文 参考訳(メタデータ) (2026-03-18T07:16:18Z) - DRL: Discriminative Representation Learning with Parallel Adapters for Class Incremental Learning [63.65467569295623]
本稿では,これらの課題に対処するための差別的表現学習(DRL)フレームワークを提案する。
逐次学習を効果的かつ効率的に行うために、DRLのネットワークはPTM上に構築される。
我々のDRLは、CIL時代を通して、他の最先端の手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2025-10-14T03:19:15Z) - Divide and Conquer: Grounding LLMs as Efficient Decision-Making Agents via Offline Hierarchical Reinforcement Learning [32.260964481673085]
大規模言語モデル(LLM)は、不十分な探索と長期クレジット割り当てのために、長期的な意思決定タスクに苦しむ。
本稿では, LLMポリシーにパラメータ効率が高く, 一般に適用可能な階層構造を導入する, 革新的なフレームワークを提案する。
我々は,低レベル制御器を抽象的なステップバイステップ計画で制御し,高レベル制御器で学習・指導する手法を開発した。
論文 参考訳(メタデータ) (2025-05-26T09:43:40Z) - Boosting Hierarchical Reinforcement Learning with Meta-Learning for Complex Task Adaptation [0.0]
階層強化学習(HRL)は、それらを構造化されたポリシーに分解することで複雑なタスクを解決するのに適している。
エージェントが階層的なポリシーをより効果的に学習し、適応できるように、メタラーニングをHRLに統合することを提案する。
論文 参考訳(メタデータ) (2024-10-10T13:47:37Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Multi-granularity Knowledge Transfer for Continual Reinforcement Learning [10.89257691485739]
連続強化学習(CRL)は、RLエージェントに一連のタスクを学習する能力を与える。
既存の手法は、しばしば類似のタスク間できめ細かい知識の伝達に重点を置いている。
本稿では,大きめの知識伝達を促進するためのMT-Coreという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-25T03:06:51Z) - BiERL: A Meta Evolutionary Reinforcement Learning Framework via Bilevel
Optimization [34.24884427152513]
双レベル最適化(BiERL)による一般的なメタERLフレームワークを提案する。
我々は、内部レベルの進化した経験を情報的人口表現に組み込むエレガントなメタレベルアーキテクチャを設計する。
我々は MuJoCo と Box2D タスクの広範な実験を行い、一般的なフレームワークとして BiERL が様々なベースラインを上回り、ERL アルゴリズムの多様性の学習性能を一貫して向上することを検証する。
論文 参考訳(メタデータ) (2023-08-01T09:31:51Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。