論文の概要: Where-to-Learn: Analytical Policy Gradient Directed Exploration for On-Policy Robotic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.27317v1
- Date: Sat, 28 Mar 2026 15:50:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.900577
- Title: Where-to-Learn: Analytical Policy Gradient Directed Exploration for On-Policy Robotic Reinforcement Learning
- Title(参考訳): Where-to-Learn: オンデマンドロボット強化学習のための分析的方針勾配探索
- Authors: Leixin Chang, Xinchen Yao, Ben Liu, Liangjing Yang, Hua Chen,
- Abstract要約: オンライン強化学習(RL)アルゴリズムはロボット制御において大きな可能性を証明している。
そこで本研究では,解析的政策勾配を用いて,タスク認識,物理誘導のガイダンスを注入する新たな方向探索法を提案する。
- 参考スコア(独自算出の注目度): 6.322619062561732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-policy reinforcement learning (RL) algorithms have demonstrated great potential in robotic control, where effective exploration is crucial for efficient and high-quality policy learning. However, how to encourage the agent to explore the better trajectories efficiently remains a challenge. Most existing methods incentivize exploration by maximizing the policy entropy or encouraging novel state visiting regardless of the potential state value. We propose a new form of directed exploration that uses analytical policy gradients from a differentiable dynamics model to inject task-aware, physics-guided guidance, thereby steering the agent towards high-reward regions for accelerated and more effective policy learning.
- Abstract(参考訳): オンライン強化学習(RL)アルゴリズムは、効率的な探索が効率的かつ高品質な政策学習に不可欠であるロボット制御において、大きな可能性を示している。
しかし、どのようにエージェントにより良い軌道を効率的に探索するよう促すかは、依然として課題である。
既存のほとんどの方法は、潜在的状態値に関わらず、政策のエントロピーを最大化したり、新しい状態の訪問を促すことによって探索を奨励する。
そこで本研究では,異なる動的モデルから解析的ポリシー勾配を用いて,タスク認識,物理誘導誘導を注入し,エージェントを高次領域に向けて操り,より効果的な政策学習を行うための方向性探索手法を提案する。
関連論文リスト
- RAPO: Expanding Exploration for LLM Agents via Retrieval-Augmented Policy Optimization [29.421185758698908]
エージェント強化学習(Agentic RL)は,大規模言語モデルベース(LLM)エージェントにおいて顕著な可能性を示している。
本稿では、学習中の探索を明示的に拡張する検索を導入した新しいRLフレームワークである検索型ポリシー最適化(RAPO)を提案する。
RAPOは、3つのエージェント推論タスクにわたる14のデータセットの平均ゲインを+5.0%達成し、トレーニング効率は1.2倍向上した。
論文 参考訳(メタデータ) (2026-03-03T15:23:42Z) - Rethinking Policy Diversity in Ensemble Policy Gradient in Large-Scale Reinforcement Learning [38.79118914746284]
政治間の多様性が政策アンサンブルの学習効率に与える影響を理論的に分析する。
我々は、政策間のKL制約を通じて多様性を規制する結合政策最適化を提案する。
この結果から, 適切な規制下での多様な探索が, 安定した, サンプル効率の学習に欠かせないことが示唆された。
論文 参考訳(メタデータ) (2026-03-02T11:06:40Z) - SOE: Sample-Efficient Robot Policy Self-Improvement via On-Manifold Exploration [58.05143960563826]
On-Manifold Exploration (SOE)は、ロボット操作におけるポリシー探索と改善を強化するフレームワークである。
SOEはタスク関連因子のコンパクトな潜在表現を学習し、有効なアクションの多様体への制約探索を行う。
プラグインモジュールとして任意のポリシモデルとシームレスに統合することができ、基本ポリシのパフォーマンスを低下させることなく、探索を強化することができる。
論文 参考訳(メタデータ) (2025-09-23T17:54:47Z) - Probabilistic Curriculum Learning for Goal-Based Reinforcement Learning [2.5352713493505785]
報酬信号の最大化によって、人工エージェントに環境との対話を教えるアルゴリズムである強化学習は、近年大きな成功を収めている。
有望な研究の方向性の1つは、一般に階層的またはカリキュラム強化学習を通じて、マルチモーダルポリシーを許容するための目標の導入である。
本稿では,継続的制御およびナビゲーションタスクにおける強化学習エージェントの目標を提案するための,確率論的カリキュラム学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-02T08:15:16Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Landmark Guided Active Exploration with State-specific Balance Coefficient [4.539657469634845]
目標条件付き値関数に基づいて,目標空間に計画を立てることにより,サブゴールの予測尺度を設計する。
本稿では,予測と新規性の尺度を統合することで,ランドマーク誘導型探査戦略を提案する。
論文 参考訳(メタデータ) (2023-06-30T08:54:47Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。