論文の概要: Brain-Inspired Planning for Better Generalization in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.06470v1
- Date: Sun, 09 Nov 2025 17:32:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.966101
- Title: Brain-Inspired Planning for Better Generalization in Reinforcement Learning
- Title(参考訳): 強化学習におけるより優れた一般化のための脳インスパイアされた計画
- Authors: Mingde "Harry" Zhao,
- Abstract要約: この論文は、エージェントのゼロショット・システマティックな一般化能力を強化する方向性を探求する。
我々は、意思決定時計画エージェントが環境状態の最も関連性の高い側面に動的に集中できるトップダウンアテンション機構を導入する。
また、複雑なタスクをよりシンプルで管理しやすいサブタスクに自動的に分解するSkipperフレームワークを開発しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Reinforcement Learning (RL) systems encounter significant challenges when applied to real-world scenarios, primarily due to poor generalization across environments that differ from their training conditions. This thesis explores the direction of enhancing agents' zero-shot systematic generalization abilities by granting RL agents reasoning behaviors that are found to help systematic generalization in the human brain. Inspired by human conscious planning behaviors, we first introduced a top-down attention mechanism, which allows a decision-time planning agent to dynamically focus its reasoning on the most relevant aspects of the environmental state given its instantaneous intentions, a process we call "spatial abstraction". This approach significantly improves systematic generalization outside the training tasks. Subsequently, building on spatial abstraction, we developed the Skipper framework to automatically decompose complex tasks into simpler, more manageable sub-tasks. Skipper provides robustness against distributional shifts and efficacy in long-term, compositional planning by focusing on pertinent spatial and temporal elements of the environment. Finally, we identified a common failure mode and safety risk in planning agents that rely on generative models to generate state targets during planning. It is revealed that most agents blindly trust the targets they hallucinate, resulting in delusional planning behaviors. Inspired by how the human brain rejects delusional intentions, we propose learning a feasibility evaluator to enable rejecting hallucinated infeasible targets, which led to significant performance improvements in various kinds of planning agents. Finally, we suggest directions for future research, aimed at achieving general task abstraction and fully enabling abstract planning.
- Abstract(参考訳): 既存の強化学習(RL)システムは、実世界のシナリオに適用する場合、主にトレーニング条件と異なる環境間の一般化が不十分なため、重大な課題に直面する。
この論文は、人間の脳の系統的な一般化に役立つと見られる振る舞いを推論するRLエージェントを付与することで、エージェントのゼロショットの系統的一般化能力を増強する方向を探るものである。
人間の意識的な計画行動に触発されて、私たちはまずトップダウンの注意機構を導入しました。これは、意思決定時計画エージェントが、その瞬間的な意図から、環境状態の最も関連性の高い側面、すなわち「空間的抽象」と呼ばれるプロセスに、その推論を動的に焦点を合わせることを可能にするものです。
このアプローチは、トレーニングタスク外の体系的な一般化を大幅に改善する。
その後、空間的抽象化に基づいて、複雑なタスクをよりシンプルで管理しやすいサブタスクに自動的に分解するSkipperフレームワークを開発した。
スキッパーは、環境の関連する空間的および時間的要素に焦点を当てた長期的、構成的計画において、分布シフトと有効性に対する堅牢性を提供する。
最後に、計画中の状態目標を生成するために生成モデルに依存する計画エージェントにおいて、共通の障害モードと安全性リスクを特定した。
ほとんどのエージェントは幻覚の標的を盲目的に信頼しており、妄想的な計画行動をもたらすことが判明した。
人間の脳が妄想的意図を拒絶する方法に着想を得て,幻覚的不可能な目標の拒絶を可能にする実現可能性評価器の学習を提案し,様々な計画エージェントの性能改善につながった。
最後に,汎用的なタスク抽象化の実現と,完全な抽象的計画の実現を目的とした今後の研究の方向性を提案する。
関連論文リスト
- Interpreting Emergent Planning in Model-Free Reinforcement Learning [13.820891288919002]
モデルフリー強化学習エージェントが計画を学ぶことができるという最初の証拠を提示する。
これは、ソコバンのモデルフリーエージェントに概念ベースの解釈可能性に基づく方法論を適用することで達成される。
論文 参考訳(メタデータ) (2025-04-02T16:24:23Z) - Rejecting Hallucinated State Targets during Planning [84.179112256683]
計画過程において、生成的または予測的モデルは、期待される状態や望ましい状態の集合を表す「ターゲット」を提案するためにしばしば用いられる。
残念ながら、学習したモデルは必然的に幻覚を与え、妄想的な行動や安全上の懸念を引き起こす可能性がある。
我々は、目標実現可能性評価器を学習することで、実現不可能な目標を特定し、拒否する戦略を考案する。
論文 参考訳(メタデータ) (2024-10-09T17:35:25Z) - Diffusion-Reinforcement Learning Hierarchical Motion Planning in Multi-agent Adversarial Games [6.532258098619471]
環境データに応答するグローバルパスを計画するために,高レベル拡散モデルを統合する階層型アーキテクチャを提案する。
提案手法は,検出率と目標到達率において77.18%,47.38%のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-03-16T03:53:55Z) - Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。
これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。
環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - Novelty Accommodating Multi-Agent Planning in High Fidelity Simulated Open World [7.821603097781892]
我々は、予期せぬ現象、すなわちテクストノベルティが環境中に現れるときに生じる課題に対処する。
環境への新規性の導入は、プランナーの内部モデルに不正確な結果をもたらす可能性がある。
本稿では,同時動作と外部スケジューリングをサポートするための汎用AIエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-22T03:44:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。