論文の概要: HiMAC: Hierarchical Macro-Micro Learning for Long-Horizon LLM Agents
- arxiv url: http://arxiv.org/abs/2603.00977v1
- Date: Sun, 01 Mar 2026 08:09:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.439408
- Title: HiMAC: Hierarchical Macro-Micro Learning for Long-Horizon LLM Agents
- Title(参考訳): HiMAC: 長距離LDMエージェントのための階層型マクロマイクロラーニング
- Authors: Hongbo Jin, Rongpeng Zhu, Jiayu Ding, Wenhao Zhang, Ge Li,
- Abstract要約: HiMACは階層的なエージェントRLフレームワークで、長期の意思決定をマクロレベルの計画とマイクロレベルの実行に分解する。
その結果,モデルスケールを単独で増やすのではなく,構造的階層を導入することが,堅牢な長期エージェントインテリジェンスを実現する上で重要な要素であることが示唆された。
- 参考スコア(独自算出の注目度): 19.63866851076813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) agents have recently demonstrated strong capabilities in interactive decision-making, yet they remain fundamentally limited in long-horizon tasks that require structured planning and reliable execution. Existing approaches predominantly rely on flat autoregressive policies, where high-level reasoning and low-level actions are generated within a single token sequence, leading to inefficient exploration and severe error propagation over extended trajectories. In this work, we propose HiMAC, a hierarchical agentic RL framework that explicitly decomposes long-horizon decision-making into macro-level planning and micro-level execution. HiMAC models reasoning as a structured blueprint generation process followed by goal-conditioned action execution, enabling robust long-horizon planning within LLM-based agents. To train this hierarchy efficiently, we introduce a critic-free hierarchical policy optimization paradigm that extends group-based reinforcement learning to bi-level structures through hierarchical relative advantage estimation. Furthermore, we propose an iterative co-evolution training strategy that alternates between planner exploration and executor adaptation, mitigating the non-stationarity inherent in hierarchical learning. Extensive experiments on ALFWorld, WebShop, and Sokoban demonstrate that HiMAC consistently outperforms strong prompting and reinforcement learning baselines, achieving state-of-the-art performance and substantially improved sample efficiency across both text-based and visually grounded environments. Our results show that introducing structured hierarchy, rather than increasing model scale alone, is a key factor for enabling robust long-horizon agentic intelligence.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、最近、インタラクティブな意思決定において強力な能力を示したが、構造化計画と信頼性のある実行を必要とする長距離タスクには基本的に制限されている。
既存のアプローチは主に平らな自己回帰的ポリシーに依存しており、高いレベルの推論と低レベルのアクションが単一のトークンシーケンス内で生成される。
本研究では,階層型エージェントRLフレームワークであるHiMACを提案する。
HiMACモデルは構造化青写真生成プロセスとして推論し、その後ゴール条件付きアクション実行を行い、LSMベースのエージェント内で堅牢な長期計画を可能にする。
この階層を効率的に訓練するために、階層的相対的優位性推定を通じてグループベースの強化学習を二階層構造に拡張する、批判のない階層的ポリシー最適化パラダイムを導入する。
さらに,階層型学習に固有の非定常性を緩和し,プランナー探索と実行者の適応を交互に行う反復的共進化学習戦略を提案する。
ALFWorld、WebShop、およびSokobanでの大規模な実験により、HiMACは強いプロンプトと強化学習ベースラインを一貫して上回り、最先端のパフォーマンスを達成し、テキストベースおよび視覚的に接地された環境におけるサンプル効率を大幅に改善することを示した。
その結果,モデルスケールを単独で増やすのではなく,構造的階層を導入することが,堅牢な長期エージェントインテリジェンスを実現する上で重要な要素であることが示唆された。
関連論文リスト
- HiPER: Hierarchical Reinforcement Learning with Explicit Credit Assignment for Large Language Model Agents [36.77027704958893]
HiPERは階層的計画実行(Hierarchical Plan-Execute RL)フレームワークで、高レベルの計画と低レベルの実行を分離する。
HiPER は ALFWorld で97.4%、Qwen2.5-7B-Instruct で WebShop で83.3% を達成している。
論文 参考訳(メタデータ) (2026-02-18T03:31:34Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - Reinforced Strategy Optimization for Conversational Recommender Systems via Network-of-Experts [63.412646471177645]
会話レコメンダシステム(CRS)のための新しい強化戦略最適化(RSO)手法を提案する。
RSOは、戦略駆動型応答決定をマクロレベルの戦略計画とマイクロレベルの戦略適応に分解する。
実験の結果, RSOは最先端のベースラインと比較して, インタラクション性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2025-09-30T11:12:01Z) - Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning [56.496001894673235]
強化学習(RL)は,大規模言語モデル(LLM)の複雑な推論能力の向上に有効であることが証明された。
解析の結果,アハモーメント,長さスケーリング,エントロピーのダイナミクスといったファズリング現象は異なる現象ではなく,創発的推論階層の目印であることがわかった。
論文 参考訳(メタデータ) (2025-09-03T18:52:49Z) - HERAKLES: Hierarchical Skill Compilation for Open-ended LLM Agents [29.437416274639165]
HERAKLESは、2段階の階層的オートテリックエージェントによって、マスタ化された目標を低レベルポリシーに継続的にコンパイルすることを可能にするフレームワークである。
目標の複雑さを効果的にスケールし、スキルコンパイルによるサンプル効率を改善し、エージェントが時間とともに新しい課題に頑健に適応できるようにする。
論文 参考訳(メタデータ) (2025-08-20T14:50:28Z) - Strict Subgoal Execution: Reliable Long-Horizon Planning in Hierarchical Reinforcement Learning [5.274804664403783]
SSE(Strict Subgoal Execution)は、グラフベースの階層的RLフレームワークで、単一ステップのサブゴアル到達性を強制する。
SSE は既存の目標条件付き RL および階層型 RL アプローチを効率と成功率の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-26T06:35:42Z) - Divide and Conquer: Grounding LLMs as Efficient Decision-Making Agents via Offline Hierarchical Reinforcement Learning [32.260964481673085]
大規模言語モデル(LLM)は、不十分な探索と長期クレジット割り当てのために、長期的な意思決定タスクに苦しむ。
本稿では, LLMポリシーにパラメータ効率が高く, 一般に適用可能な階層構造を導入する, 革新的なフレームワークを提案する。
我々は,低レベル制御器を抽象的なステップバイステップ計画で制御し,高レベル制御器で学習・指導する手法を開発した。
論文 参考訳(メタデータ) (2025-05-26T09:43:40Z) - Structured Agent Distillation for Large Language Model [56.38279355868093]
本研究では,LLMをベースとした大規模エージェントを小さな学生モデルに圧縮するフレームワークであるStructured Agent Distillationを提案する。
提案手法は, [REASON] と [ACT] にトラジェクトリを分割し, 各コンポーネントを教師の行動に合わせるためにセグメント特異的な損失を適用した。
ALFWorld、HotPotQA-ReAct、WebShopの実験は、我々のアプローチがトークンレベルと模倣学習のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-20T02:01:55Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Feudal Graph Reinforcement Learning [18.069747511100132]
グラフに基づく表現とメッセージパッシングモジュールポリシーは、強化学習(RL)における構成可能な制御問題に対処するための顕著なアプローチである
本稿では,階層的RLとピラミッド型メッセージパッシングアーキテクチャを頼りに,このような課題に対処する新しい手法であるFeudal Graph Reinforcement Learning (FGRL)を提案する。
特に、FGRLは階層化されたグラフ構造を通して、階層の上部から上位のコマンドが伝播するポリシーの階層を定義している。
論文 参考訳(メタデータ) (2023-04-11T09:51:13Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。