論文の概要: HERAKLES: Hierarchical Skill Compilation for Open-ended LLM Agents
- arxiv url: http://arxiv.org/abs/2508.14751v1
- Date: Wed, 20 Aug 2025 14:50:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.489787
- Title: HERAKLES: Hierarchical Skill Compilation for Open-ended LLM Agents
- Title(参考訳): HERAKLES:オープンエンドLDMエージェントの階層的スキルコンパイル
- Authors: Thomas Carta, Clément Romac, Loris Gaven, Pierre-Yves Oudeyer, Olivier Sigaud, Sylvain Lamprier,
- Abstract要約: HERAKLESは、2段階の階層的オートテリックエージェントによって、マスタ化された目標を低レベルポリシーに継続的にコンパイルすることを可能にするフレームワークである。
目標の複雑さを効果的にスケールし、スキルコンパイルによるサンプル効率を改善し、エージェントが時間とともに新しい課題に頑健に適応できるようにする。
- 参考スコア(独自算出の注目度): 29.437416274639165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-ended AI agents need to be able to learn efficiently goals of increasing complexity, abstraction and heterogeneity over their lifetime. Beyond sampling efficiently their own goals, autotelic agents specifically need to be able to keep the growing complexity of goals under control, limiting the associated growth in sample and computational complexity. To adress this challenge, recent approaches have leveraged hierarchical reinforcement learning (HRL) and language, capitalizing on its compositional and combinatorial generalization capabilities to acquire temporally extended reusable behaviours. Existing approaches use expert defined spaces of subgoals over which they instantiate a hierarchy, and often assume pre-trained associated low-level policies. Such designs are inadequate in open-ended scenarios, where goal spaces naturally diversify across a broad spectrum of difficulties. We introduce HERAKLES, a framework that enables a two-level hierarchical autotelic agent to continuously compile mastered goals into the low-level policy, executed by a small, fast neural network, dynamically expanding the set of subgoals available to the high-level policy. We train a Large Language Model (LLM) to serve as the high-level controller, exploiting its strengths in goal decomposition and generalization to operate effectively over this evolving subgoal space. We evaluate HERAKLES in the open-ended Crafter environment and show that it scales effectively with goal complexity, improves sample efficiency through skill compilation, and enables the agent to adapt robustly to novel challenges over time.
- Abstract(参考訳): オープンエンドのAIエージェントは、その生涯にわたって、複雑さ、抽象化、異質性の増大という効率的な目標を学ばなければならない。
自己の目標を効率的にサンプリングするだけでなく、自律エージェントは特に、目標の増大する複雑さを制御下に置き、サンプルおよび計算複雑性の関連的な成長を制限する必要がある。
この課題に対処するために、近年のアプローチは階層的強化学習(HRL)と言語を活用し、その構成的および組合せ的一般化能力を利用して、時間的に拡張された再利用可能な行動を取得する。
既存のアプローチでは、階層をインスタンス化し、しばしば事前訓練された関連する低レベルのポリシーを仮定する、専門家定義されたサブゴールの空間を使用する。
このような設計はオープンエンドのシナリオでは不十分であり、ゴール空間は様々な難易度で自然に多様化する。
HERAKLESは、2段階の階層的オートテリックエージェントが、小規模で高速なニューラルネットワークによって実行される低レベルポリシーにマスターされた目標を継続的にコンパイルし、ハイレベルポリシーで利用可能なサブゴールセットを動的に拡張するフレームワークである。
高レベルコントローラとして機能するLarge Language Model (LLM) をトレーニングし、ゴール分解と一般化の強みを活用して、この進化するサブゴール空間上で効果的に動作するようにする。
我々は、オープンエンドのクラフト環境でHERAKLESを評価し、目標の複雑さに効果的にスケールし、スキルコンパイルによるサンプル効率を改善し、エージェントが時間とともに新しい課題に頑健に適応できるようにする。
関連論文リスト
- Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Divide and Conquer: Grounding LLMs as Efficient Decision-Making Agents via Offline Hierarchical Reinforcement Learning [32.260964481673085]
大規模言語モデル(LLM)は、不十分な探索と長期クレジット割り当てのために、長期的な意思決定タスクに苦しむ。
本稿では, LLMポリシーにパラメータ効率が高く, 一般に適用可能な階層構造を導入する, 革新的なフレームワークを提案する。
我々は,低レベル制御器を抽象的なステップバイステップ計画で制御し,高レベル制御器で学習・指導する手法を開発した。
論文 参考訳(メタデータ) (2025-05-26T09:43:40Z) - Multi-Agent Collaboration via Evolving Orchestration [61.93162413517026]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な成果を上げているが、そのモノリシックな性質は複雑な問題解決におけるスケーラビリティと効率を制限している。
LLMをベースとしたマルチエージェントコラボレーションのためのパウチスタイルのパラダイムを提案し、中央オーケストレータがタスク状態の進化に応じてエージェントを動的に指示する。
クローズドドメインおよびオープンドメインシナリオの実験により,この手法は計算コストを低減し,優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2025-05-26T07:02:17Z) - Learning with Expert Abstractions for Efficient Multi-Task Continuous Control [5.796482272333648]
連続したマルチタスク環境における意思決定は、計画のための正確なモデルを得るのが困難であることや、試行錯誤から純粋に学習することの非効率さによって、しばしば妨げられる。
本稿では,これらの制約に対処する階層的強化学習手法を提案する。
手続き的に生成した一連の連続制御環境に対する実証評価により,本手法は,サンプル効率,タスク完了率,複雑なタスクへのスケーラビリティ,新しいシナリオへの一般化の観点から,既存の階層的強化学習手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-03-19T00:44:23Z) - MENTOR: Guiding Hierarchical Reinforcement Learning with Human Feedback and Dynamic Distance Constraint [36.970138281579686]
階層的強化学習(HRL)は、タスクをサブゴールに分割し、それらを順次完了させる階層的枠組みを使用する。
現在の手法は、安定した学習プロセスを保証するための適切なサブゴールを見つけるのに苦労している。
本稿では,人間のフィードバックとダイナミック距離制約を取り入れた汎用階層型強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T03:11:09Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Option-Aware Adversarial Inverse Reinforcement Learning for Robotic
Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。
逆逆強化学習に基づく新しいHILアルゴリズムを開発した。
また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-05T00:28:26Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。