論文の概要: Discovering Temporal Structure: An Overview of Hierarchical Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.14045v1
- Date: Mon, 16 Jun 2025 22:36:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.263315
- Title: Discovering Temporal Structure: An Overview of Hierarchical Reinforcement Learning
- Title(参考訳): 時間構造を発見する:階層的強化学習の概観
- Authors: Martin Klissarov, Akhil Bagaria, Ziyan Luo, George Konidaris, Doina Precup, Marlos C. Machado,
- Abstract要約: この研究は、意思決定における根本的な課題の観点から、HRLの利点を特定することを目的としている。
次に、オンラインエクスペリエンスからオフラインデータセットまで、HRLの時間構造を検出するメソッドのファミリーをカバーします。
最後に、時間構造発見の課題と、そのような取り組みに特に適した領域に焦点を当てる。
- 参考スコア(独自算出の注目度): 49.46436458692833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing agents capable of exploring, planning and learning in complex open-ended environments is a grand challenge in artificial intelligence (AI). Hierarchical reinforcement learning (HRL) offers a promising solution to this challenge by discovering and exploiting the temporal structure within a stream of experience. The strong appeal of the HRL framework has led to a rich and diverse body of literature attempting to discover a useful structure. However, it is still not clear how one might define what constitutes good structure in the first place, or the kind of problems in which identifying it may be helpful. This work aims to identify the benefits of HRL from the perspective of the fundamental challenges in decision-making, as well as highlight its impact on the performance trade-offs of AI agents. Through these benefits, we then cover the families of methods that discover temporal structure in HRL, ranging from learning directly from online experience to offline datasets, to leveraging large language models (LLMs). Finally, we highlight the challenges of temporal structure discovery and the domains that are particularly well-suited for such endeavours.
- Abstract(参考訳): 複雑なオープンエンド環境で探索し、計画し、学習できるエージェントを開発することは、人工知能(AI)における大きな課題である。
階層的強化学習(HRL)は、経験の流れの中で時間構造を発見し、活用することで、この課題に対する有望な解決策を提供する。
HRLフレームワークの強い魅力は、有用な構造を見出そうとする多種多様な文学の体系に繋がった。
しかし、そもそも良い構造を構成するものを定義する方法や、それを識別する問題がどのように役立つのかは、まだ明らかになっていない。
この研究は、意思決定における根本的な課題の観点からHRLのメリットを特定し、AIエージェントのパフォーマンストレードオフへの影響を明らかにすることを目的としている。
これらのメリットを通じて、オンラインエクスペリエンスからオフラインデータセットへの直接学習から、大規模言語モデル(LLM)の活用に至るまで、HRLの時間構造を検出する手法のファミリーをカバーする。
最後に、時間構造発見の課題と、そのような取り組みに特に適した領域に焦点を当てる。
関連論文リスト
- R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization [94.31508613367296]
Retrieval-augmented Generation(RAG)は、大規模言語モデル(LLM)を効果的に強化する鍵となる手段である。
本稿では,手前のタスクに対して最適な構造型を識別し,元の文書をこの構造化形式に再構成し,その結果に基づいて回答を推測するStructRAGを提案する。
実験の結果、StructRAGは最先端のパフォーマンスを実現し、特に挑戦的なシナリオに優れていた。
論文 参考訳(メタデータ) (2024-10-11T13:52:44Z) - Structure in Deep Reinforcement Learning: A Survey and Open Problems [22.77618616444693]
関数近似のためのディープニューラルネットワーク(DNN)の表現能力に支えられた強化学習(RL)は、多くのアプリケーションでかなりの成功を収めている。
しかし、様々な現実のシナリオに対処する実践性は、多様で予測不可能なダイナミクスによって特徴づけられるが、依然として限られている。
この制限は、データ効率の低下、一般化能力の制限、安全性保証の欠如、解釈可能性の欠如に起因している。
論文 参考訳(メタデータ) (2023-06-28T08:48:40Z) - Causality-driven Hierarchical Structure Discovery for Reinforcement
Learning [36.03953383550469]
因果型階層型強化学習フレームワークCDHRLを提案する。
我々はCDHRLが因果性駆動パラダイムによる探索効率を著しく向上させることを示した。
2D-MinecraftとEdenの2つの複雑な環境における結果から、CDHRLは因果性駆動パラダイムによる探索効率を著しく向上させることが示された。
論文 参考訳(メタデータ) (2022-10-13T12:42:48Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。