論文の概要: Hierarchical Entity-centric Reinforcement Learning with Factored Subgoal Diffusion
- arxiv url: http://arxiv.org/abs/2602.02722v1
- Date: Mon, 02 Feb 2026 19:40:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.039495
- Title: Hierarchical Entity-centric Reinforcement Learning with Factored Subgoal Diffusion
- Title(参考訳): 因子的部分拡散を用いた階層型エンティティ中心強化学習
- Authors: Dan Haramati, Carl Qi, Tal Daniel, Amy Zhang, Aviv Tamar, George Konidaris,
- Abstract要約: オフラインゴールコンディション強化学習(GCRL)のための階層型エンティティ中心フレームワークを提案する。
このフレームワークは、サブゴール分解と因子構造を組み合わせることで、ドメイン内の長い水平タスクを複数のエンティティで解決する。
本手法は画像ベース長軸タスクにおけるRLエージェントの性能を一定に向上することを示す。
- 参考スコア(独自算出の注目度): 36.28452252200851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a hierarchical entity-centric framework for offline Goal-Conditioned Reinforcement Learning (GCRL) that combines subgoal decomposition with factored structure to solve long-horizon tasks in domains with multiple entities. Achieving long-horizon goals in complex environments remains a core challenge in Reinforcement Learning (RL). Domains with multiple entities are particularly difficult due to their combinatorial complexity. GCRL facilitates generalization across goals and the use of subgoal structure, but struggles with high-dimensional observations and combinatorial state-spaces, especially under sparse reward. We employ a two-level hierarchy composed of a value-based GCRL agent and a factored subgoal-generating conditional diffusion model. The RL agent and subgoal generator are trained independently and composed post hoc through selective subgoal generation based on the value function, making the approach modular and compatible with existing GCRL algorithms. We introduce new variations to benchmark tasks that highlight the challenges of multi-entity domains, and show that our method consistently boosts performance of the underlying RL agent on image-based long-horizon tasks with sparse rewards, achieving over 150% higher success rates on the hardest task in our suite and generalizing to increasing horizons and numbers of entities. Rollout videos are provided at: https://sites.google.com/view/hecrl
- Abstract(参考訳): 本稿では,複数のエンティティを持つドメインの長期的タスクを解決するために,サブゴール分解と因子構造を組み合わせたオフラインゴール・コンディション強化学習(GCRL)のための階層型エンティティ中心のフレームワークを提案する。
複雑な環境で長期的目標を達成することは、強化学習(RL)における中核的な課題である。
複数のエンティティを持つドメインは、その組み合わせの複雑さのために特に困難である。
GCRLは目標を越えた一般化とサブゴール構造の使用を促進するが、特にスパース報酬の下では高次元の観測と組合せ状態空間に苦しむ。
我々は、値ベースGCRLエージェントと因子付きサブゴール生成条件拡散モデルからなる2階層階層を用いる。
RLエージェントとサブゴアルジェネレータは独立に訓練され、値関数に基づいて選択的なサブゴアル生成を行い、既存のGCRLアルゴリズムと互換性のあるアプローチとなる。
マルチエンタリティ領域の課題を強調したベンチマークタスクに新たなバリエーションを導入し,画像ベース長軸タスクにおけるRLエージェントの性能を一定に向上し,組組における最強タスクにおいて150%以上の成功率を達成し,階層化やエンティティ数の増加を一般化することを示す。
ロールアウトビデオは以下の通り。
関連論文リスト
- Integrating Diverse Assignment Strategies into DETRs [61.61489761918158]
ラベル割り当ては、特にDETRスタイルのフレームワークにおいて、オブジェクト検出器において重要なコンポーネントである。
我々は,任意のDETR型検出器に多様な割り当て戦略をシームレスに統合する,フレキシブルで軽量なフレームワークであるLoRA-DETRを提案する。
論文 参考訳(メタデータ) (2026-01-14T07:28:54Z) - Push Smarter, Not Harder: Hierarchical RL-Diffusion Policy for Efficient Nonprehensile Manipulation [8.7216199131049]
HeRDは階層的な強化学習拡散政策であり、プッシュタスクを高レベルの目標選択と低レベルの軌道生成という2つのレベルに分解する。
我々は、中間空間目標を選択するための高レベル強化学習エージェントと、それに到達するための実用的で効率的な軌道を生成するための低レベル目標条件拡散モデルを用いる。
この結果から,階層的制御を低レベル計画に組み込むことが,スケーラブルで目標指向の非包括的操作において有望な方向であることが示唆された。
論文 参考訳(メタデータ) (2025-12-10T21:40:22Z) - HERAKLES: Hierarchical Skill Compilation for Open-ended LLM Agents [29.437416274639165]
HERAKLESは、2段階の階層的オートテリックエージェントによって、マスタ化された目標を低レベルポリシーに継続的にコンパイルすることを可能にするフレームワークである。
目標の複雑さを効果的にスケールし、スキルコンパイルによるサンプル効率を改善し、エージェントが時間とともに新しい課題に頑健に適応できるようにする。
論文 参考訳(メタデータ) (2025-08-20T14:50:28Z) - Divide and Conquer: Grounding LLMs as Efficient Decision-Making Agents via Offline Hierarchical Reinforcement Learning [32.260964481673085]
大規模言語モデル(LLM)は、不十分な探索と長期クレジット割り当てのために、長期的な意思決定タスクに苦しむ。
本稿では, LLMポリシーにパラメータ効率が高く, 一般に適用可能な階層構造を導入する, 革新的なフレームワークを提案する。
我々は,低レベル制御器を抽象的なステップバイステップ計画で制御し,高レベル制御器で学習・指導する手法を開発した。
論文 参考訳(メタデータ) (2025-05-26T09:43:40Z) - Flattening Hierarchies with Policy Bootstrapping [5.528896840956629]
本稿では,重み付けされた重要度サンプリングを施したサブゴール条件ポリシをブートストラップすることで,フラットな(階層的でない)目標条件ポリシーをトレーニングするアルゴリズムを提案する。
提案手法は,大規模状態空間における高次元制御へのスケーリングの鍵となる(部分)ゴール空間上の生成モデルの必要性を排除している。
論文 参考訳(メタデータ) (2025-05-20T23:31:30Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning [88.55095746156428]
Retrieval-augmented Generation (RAG) は、外部知識を大規模言語モデルに組み込むために広く利用されている。
標準的なRAGパイプラインは、クエリ書き換え、文書検索、文書フィルタリング、回答生成など、いくつかのコンポーネントで構成されている。
本稿では,複数コンポーネントからなる複雑なRAGパイプラインを多エージェント協調作業として扱うことを提案する。
論文 参考訳(メタデータ) (2025-01-25T14:24:50Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。