論文の概要: Brain-Inspired Planning for Better Generalization in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.06470v1
- Date: Sun, 09 Nov 2025 17:32:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.966101
- Title: Brain-Inspired Planning for Better Generalization in Reinforcement Learning
- Title(参考訳): 強化学習におけるより優れた一般化のための脳インスパイアされた計画
- Authors: Mingde "Harry" Zhao,
- Abstract要約: この論文は、エージェントのゼロショット・システマティックな一般化能力を強化する方向性を探求する。
我々は、意思決定時計画エージェントが環境状態の最も関連性の高い側面に動的に集中できるトップダウンアテンション機構を導入する。
また、複雑なタスクをよりシンプルで管理しやすいサブタスクに自動的に分解するSkipperフレームワークを開発しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Reinforcement Learning (RL) systems encounter significant challenges when applied to real-world scenarios, primarily due to poor generalization across environments that differ from their training conditions. This thesis explores the direction of enhancing agents' zero-shot systematic generalization abilities by granting RL agents reasoning behaviors that are found to help systematic generalization in the human brain. Inspired by human conscious planning behaviors, we first introduced a top-down attention mechanism, which allows a decision-time planning agent to dynamically focus its reasoning on the most relevant aspects of the environmental state given its instantaneous intentions, a process we call "spatial abstraction". This approach significantly improves systematic generalization outside the training tasks. Subsequently, building on spatial abstraction, we developed the Skipper framework to automatically decompose complex tasks into simpler, more manageable sub-tasks. Skipper provides robustness against distributional shifts and efficacy in long-term, compositional planning by focusing on pertinent spatial and temporal elements of the environment. Finally, we identified a common failure mode and safety risk in planning agents that rely on generative models to generate state targets during planning. It is revealed that most agents blindly trust the targets they hallucinate, resulting in delusional planning behaviors. Inspired by how the human brain rejects delusional intentions, we propose learning a feasibility evaluator to enable rejecting hallucinated infeasible targets, which led to significant performance improvements in various kinds of planning agents. Finally, we suggest directions for future research, aimed at achieving general task abstraction and fully enabling abstract planning.
- Abstract(参考訳): 既存の強化学習(RL)システムは、実世界のシナリオに適用する場合、主にトレーニング条件と異なる環境間の一般化が不十分なため、重大な課題に直面する。
この論文は、人間の脳の系統的な一般化に役立つと見られる振る舞いを推論するRLエージェントを付与することで、エージェントのゼロショットの系統的一般化能力を増強する方向を探るものである。
人間の意識的な計画行動に触発されて、私たちはまずトップダウンの注意機構を導入しました。これは、意思決定時計画エージェントが、その瞬間的な意図から、環境状態の最も関連性の高い側面、すなわち「空間的抽象」と呼ばれるプロセスに、その推論を動的に焦点を合わせることを可能にするものです。
このアプローチは、トレーニングタスク外の体系的な一般化を大幅に改善する。
その後、空間的抽象化に基づいて、複雑なタスクをよりシンプルで管理しやすいサブタスクに自動的に分解するSkipperフレームワークを開発した。
スキッパーは、環境の関連する空間的および時間的要素に焦点を当てた長期的、構成的計画において、分布シフトと有効性に対する堅牢性を提供する。
最後に、計画中の状態目標を生成するために生成モデルに依存する計画エージェントにおいて、共通の障害モードと安全性リスクを特定した。
ほとんどのエージェントは幻覚の標的を盲目的に信頼しており、妄想的な計画行動をもたらすことが判明した。
人間の脳が妄想的意図を拒絶する方法に着想を得て,幻覚的不可能な目標の拒絶を可能にする実現可能性評価器の学習を提案し,様々な計画エージェントの性能改善につながった。
最後に,汎用的なタスク抽象化の実現と,完全な抽象的計画の実現を目的とした今後の研究の方向性を提案する。
関連論文リスト
- The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - Exploiting Symbolic Heuristics for the Synthesis of Domain-Specific Temporal Planning Guidance using Reinforcement Learning [51.54559117314768]
最近の研究は、時間プランナーの性能向上のためのガイダンスの合成に強化学習(Reinforcement Learning, RL)を用いることを検討した。
本稿では,RLと計画段階の両方において,シンボリックスが提供した情報を活用することに焦点を当てた学習計画フレームワークの進化を提案する。
論文 参考訳(メタデータ) (2025-05-19T17:19:13Z) - Interpreting Emergent Planning in Model-Free Reinforcement Learning [13.820891288919002]
モデルフリー強化学習エージェントが計画を学ぶことができるという最初の証拠を提示する。
これは、ソコバンのモデルフリーエージェントに概念ベースの解釈可能性に基づく方法論を適用することで達成される。
論文 参考訳(メタデータ) (2025-04-02T16:24:23Z) - Rejecting Hallucinated State Targets during Planning [84.179112256683]
計画過程において、生成的または予測的モデルは、期待される状態や望ましい状態の集合を表す「ターゲット」を提案するためにしばしば用いられる。
残念ながら、学習したモデルは必然的に幻覚を与え、妄想的な行動や安全上の懸念を引き起こす可能性がある。
我々は、目標実現可能性評価器を学習することで、実現不可能な目標を特定し、拒否する戦略を考案する。
論文 参考訳(メタデータ) (2024-10-09T17:35:25Z) - Synthesizing Evolving Symbolic Representations for Autonomous Systems [2.4233709516962785]
本稿では,その経験をスクラッチからPDDL表現に合成し,時間とともに更新できるオープンエンド学習システムを提案する。
a)選択肢を発見する、(b)選択肢を使って環境を探索する、(c)収集した知識を抽象化する、(d)計画。
論文 参考訳(メタデータ) (2024-09-18T07:23:26Z) - AgentGen: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation [81.32722475387364]
大規模言語モデルに基づくエージェントが注目され、ますます人気が高まっている。
計画能力は LLM ベースのエージェントの重要な構成要素であり、通常は初期状態から望ましい目標を達成する必要がある。
近年の研究では、専門家レベルの軌跡を指導訓練用LLMに活用することで、効果的に計画能力を向上させることが示されている。
論文 参考訳(メタデータ) (2024-08-01T17:59:46Z) - Diffusion-Reinforcement Learning Hierarchical Motion Planning in Multi-agent Adversarial Games [6.532258098619471]
環境データに応答するグローバルパスを計画するために,高レベル拡散モデルを統合する階層型アーキテクチャを提案する。
提案手法は,検出率と目標到達率において77.18%,47.38%のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-03-16T03:53:55Z) - Dynamic planning in hierarchical active inference [0.0]
人間の脳が認知決定に関連する運動軌跡を推論し、導入する能力について述べる。
本研究では,アクティブ推論における動的計画の話題に焦点を当てた。
論文 参考訳(メタデータ) (2024-02-18T17:32:53Z) - Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。
これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。
環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Novelty Accommodating Multi-Agent Planning in High Fidelity Simulated Open World [7.821603097781892]
我々は、予期せぬ現象、すなわちテクストノベルティが環境中に現れるときに生じる課題に対処する。
環境への新規性の導入は、プランナーの内部モデルに不正確な結果をもたらす可能性がある。
本稿では,同時動作と外部スケジューリングをサポートするための汎用AIエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-22T03:44:04Z) - SPOTTER: Extending Symbolic Planning Operators through Targeted
Reinforcement Learning [24.663586662594703]
シンボリックプランニングモデルにより、意思決定エージェントは任意の方法でアクションをシーケンスし、ダイナミックドメインでさまざまな目標を達成できます。
強化学習アプローチはそのようなモデルを必要とせず、環境を探索して報酬を集めることでドメインダイナミクスを学ぶ。
我々は,当初エージェントが到達できない目標を達成するために必要な新たなオペレータを見つけることで,計画エージェント("spot")の強化とサポートにrlを使用するspotterという統合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-24T00:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。