論文の概要: PriPG-RL: Privileged Planner-Guided Reinforcement Learning for Partially Observable Systems with Anytime-Feasible MPC
- arxiv url: http://arxiv.org/abs/2604.08036v1
- Date: Thu, 09 Apr 2026 09:41:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.845898
- Title: PriPG-RL: Privileged Planner-Guided Reinforcement Learning for Partially Observable Systems with Anytime-Feasible MPC
- Title(参考訳): PriPG-RL: 有意なMPCを持つ部分観測可能なシステムのためのプリビジェンドプランナー誘導強化学習
- Authors: Mohsen Amiri, Mohsen Amiri, Ali Beikmohammadi, Sindri Magnuśson, Mehdi Hosseinzadeh,
- Abstract要約: 計画エージェントが学習エージェントを誘導する部分観測可能なマルコフ決定過程(POMDP)を定式化する。
本研究では,P2P-SAC(Planner-to-Policy Soft Actor-Critic)を提案する。
NVIDIA Isaac Labを使ってシミュレーションでアプローチを検証するとともに、現実のUnitree Go2で複雑な障害物の多い環境にデプロイすることに成功しました。
- 参考スコア(独自算出の注目度): 1.4312387415573748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of training a reinforcement learning (RL) policy under partial observability by exploiting a privileged, anytime-feasible planner agent available exclusively during training. We formalize this as a Partially Observable Markov Decision Process (POMDP) in which a planner agent with access to an approximate dynamical model and privileged state information guides a learning agent that observes only a lossy projection of the true state. To realize this framework, we introduce an anytime-feasible Model Predictive Control (MPC) algorithm that serves as the planner agent. For the learning agent, we propose Planner-to-Policy Soft Actor-Critic (P2P-SAC), a method that distills the planner agent's privileged knowledge to mitigate partial observability and thereby improve both sample efficiency and final policy performance. We support this framework with rigorous theoretical analysis. Finally, we validate our approach in simulation using NVIDIA Isaac Lab and successfully deploy it on a real-world Unitree Go2 quadruped navigating complex, obstacle-rich environments.
- Abstract(参考訳): 本稿では、訓練中にのみ利用できる特権有能なプランナーエージェントを利用することにより、部分的可観測性の下で強化学習(RL)政策を訓練する問題に対処する。
我々はこれを、近似力学モデルと特権状態情報にアクセス可能なプランナーエージェントが、真の状態の損失予測のみを観測する学習エージェントを案内する部分観測可能なマルコフ決定プロセス(POMDP)として定式化する。
このフレームワークを実現するために、プランナーエージェントとして機能する任意の有効モデル予測制御(MPC)アルゴリズムを導入する。
学習エージェントとしてP2P-SAC(Planner-to-Policy Soft Actor-Critic)を提案する。
我々は厳密な理論分析でこの枠組みを支持している。
最後に、NVIDIA Isaac Labを使ってシミュレーションのアプローチを検証するとともに、現実のUnitree Go2の4倍の複雑な複雑な障害物の多い環境でのデプロイに成功した。
関連論文リスト
- Curriculum Design for Trajectory-Constrained Agent: Compressing Chain-of-Thought Tokens in LLMs [26.165537937650413]
デプロイメント中に厳格な制約の下で運用するためのトレーニングエージェントは、重大な課題を提示する。
本稿では,訓練中の制約を徐々に厳しくし,エージェントが段階的にデプロイメント要求をマスターできるようにするカリキュラム学習戦略を提案する。
論文 参考訳(メタデータ) (2025-11-04T16:14:56Z) - Learning When to Plan: Efficiently Allocating Test-Time Compute for LLM Agents [35.79575378215309]
強化学習(RL)による推論のための大規模言語モデル(LLM)の訓練は,その問題解決能力を大幅に向上させる。
LLMエージェントの動的計画を形式化する概念的枠組みを導入し、計画にテスト時間計算をいつ割り当てるかを柔軟に決定できるようにする。
Crafter環境での実験は、このアプローチでトレーニングされた動的計画エージェントがよりサンプリング効率が高く、より複雑な目標を一貫して達成していることを示している。
論文 参考訳(メタデータ) (2025-09-03T18:00:13Z) - Smart Exploration in Reinforcement Learning using Bounded Uncertainty Models [0.8602553195689513]
強化学習(Reinforcement Learning, RL)は、不確実な環境で意思決定を行うための強力なフレームワークである。
先行モデル知識を取り入れて探索をガイドし,学習プロセスを加速することで,この問題に対処する。
シミュレーション研究において,BUMEXと呼ばれる探索手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-04-08T12:33:38Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Theoretically Guaranteed Policy Improvement Distilled from Model-Based
Planning [64.10794426777493]
モデルベース強化学習(RL)は、様々な連続制御タスクにおいて顕著な成功を収めた。
近年のプラクティスでは、最適化されたアクションシーケンスをトレーニングフェーズ中にRLポリシーに蒸留する傾向にある。
我々は,モデルに基づく計画から政策への蒸留アプローチを開発する。
論文 参考訳(メタデータ) (2023-07-24T16:52:31Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。
ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文 参考訳(メタデータ) (2020-08-23T16:18:44Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。