論文の概要: Hierarchical Reinforcement Learning and Value Optimization for Challenging Quadruped Locomotion
- arxiv url: http://arxiv.org/abs/2506.20036v1
- Date: Tue, 24 Jun 2025 22:19:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.5454
- Title: Hierarchical Reinforcement Learning and Value Optimization for Challenging Quadruped Locomotion
- Title(参考訳): 四足歩行適応のための階層的強化学習と値最適化
- Authors: Jeremiah Coholich, Muhammad Ali Murtaza, Seth Hutchinson, Zsolt Kira,
- Abstract要約: 四足歩行のための新しい階層型強化学習フレームワークを提案する。
提案手法は,高レベル政策が低レベル政策の最適目標を選択する2層階層構造を取り入れたものである。
我々は、様々な地形の衝突が少なく、より高い報酬を達成する能力の改善を観察する。
- 参考スコア(独自算出の注目度): 30.539613110283035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel hierarchical reinforcement learning framework for quadruped locomotion over challenging terrain. Our approach incorporates a two-layer hierarchy in which a high-level policy (HLP) selects optimal goals for a low-level policy (LLP). The LLP is trained using an on-policy actor-critic RL algorithm and is given footstep placements as goals. We propose an HLP that does not require any additional training or environment samples and instead operates via an online optimization process over the learned value function of the LLP. We demonstrate the benefits of this framework by comparing it with an end-to-end reinforcement learning (RL) approach. We observe improvements in its ability to achieve higher rewards with fewer collisions across an array of different terrains, including terrains more difficult than any encountered during training.
- Abstract(参考訳): 本研究では,挑戦的な地形上での四足歩行のための新しい階層的強化学習フレームワークを提案する。
提案手法では,高レベルポリシー (HLP) が低レベルポリシー (LLP) の最適目標を選択する2層階層構造を取り入れている。
LLPは、オンラインアクター批判的RLアルゴリズムを用いて訓練され、目標としてフットステップ配置が与えられる。
本研究では,新たな学習や環境サンプルを必要としないHLPを提案し,LLPの学習値関数よりもオンライン最適化プロセスを介して運用する。
本稿では、このフレームワークの利点をエンドツーエンド強化学習(RL)アプローチと比較する。
トレーニング中に遭遇した地形よりも難しい地形を含む、さまざまな地形の衝突が少なく、より高い報酬を達成する能力の改善を観察する。
関連論文リスト
- TreeLoRA: Efficient Continual Learning via Layer-Wise LoRAs Guided by a Hierarchical Gradient-Similarity Tree [52.44403214958304]
本稿では階層的な勾配の類似性を利用して階層型アダプタを構築する新しい手法であるTreeLoRAを紹介する。
タスク類似度推定の計算負担を軽減するために,より低い信頼度境界に基づくアルゴリズムを開発するために,バンド手法を用いる。
視覚変換器 (ViTs) と大規模言語モデル (LLMs) の両方を用いた実験により, 提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2025-06-12T05:25:35Z) - LLM-Guided Reinforcement Learning: Addressing Training Bottlenecks through Policy Modulation [7.054214377609925]
強化学習(RL)は、様々な領域で顕著な成功を収めている。
複雑なタスクに対する効果的なポリシーの訓練は依然として難しい。
既存のトレーニングボトルネックを軽減するアプローチは、2つのカテゴリに分類される。
論文 参考訳(メタデータ) (2025-05-27T03:40:02Z) - Co-Reinforcement Learning for Unified Multimodal Understanding and Generation [53.03303124157899]
本稿では,統一多モーダル大言語モデル(ULM)に対するグループ相対的政策最適化による強化学習(RL)の先駆的な探索について述べる。
共同最適化のための統一RLステージとタスク固有強化のための改良RLステージからなる協調強化学習フレームワークであるCoRLを紹介する。
提案したCoRLでは,3つのテキスト・画像生成データセットで平均7%,9つのマルチモーダル理解ベンチマークで平均23%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T06:41:07Z) - SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。
LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。
本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。
我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文 参考訳(メタデータ) (2025-03-19T17:55:08Z) - Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - Retrieval-Augmented Hierarchical in-Context Reinforcement Learning and Hindsight Modular Reflections for Task Planning with LLMs [8.55917897789612]
本研究では,大規模言語モデルを対象とした検索言語強化学習(RAHL)を提案する。
RAHLはLLMベースの高レベルポリシーを使用して複雑なタスクをサブタスクに分解する。
その結果, RAHLは5エピソードで9%, 42%, 10%のパフォーマンス向上が達成できた。
論文 参考訳(メタデータ) (2024-08-12T22:40:01Z) - Preference-Guided Reinforcement Learning for Efficient Exploration [7.83845308102632]
LOPE: Learning Online with trajectory Preference guidancE, a end-to-end preference-guided RL framework。
我々の直感では、LOPEは人的フィードバックをガイダンスとして考慮し、オンライン探索の焦点を直接調整する。
LOPEは収束率と全体的な性能に関して、最先端のいくつかの手法より優れている。
論文 参考訳(メタデータ) (2024-07-09T02:11:12Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - DPO: A Differential and Pointwise Control Approach to Reinforcement Learning [3.2857981869020327]
連続状態行動空間における強化学習(RL)は、科学計算において依然として困難である。
本稿では,連続時間制御の観点からRLを再構成する新しいフレームワークである差分強化学習(Differential RL)を紹介する。
我々は,局所運動演算子を洗練させる段階的アルゴリズムである微分ポリシー最適化(DPO)を開発した。
論文 参考訳(メタデータ) (2024-04-24T03:11:12Z) - Option-Aware Adversarial Inverse Reinforcement Learning for Robotic
Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。
逆逆強化学習に基づく新しいHILアルゴリズムを開発した。
また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-05T00:28:26Z) - Robust Reinforcement Learning via Adversarial training with Langevin
Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。
本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-14T14:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。