論文の概要: Task-Level Decisions to Gait Level Control: A Hierarchical Policy Approach for Quadruped Navigation
- arxiv url: http://arxiv.org/abs/2603.05783v1
- Date: Fri, 06 Mar 2026 00:25:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.96829
- Title: Task-Level Decisions to Gait Level Control: A Hierarchical Policy Approach for Quadruped Navigation
- Title(参考訳): 歩行レベル制御におけるタスクレベル決定--四角形ナビゲーションの階層的政策アプローチ
- Authors: Sijia Li, Haoyu Wang, Shenghai Yuan, Yizhuo Yang, Thien-Minh Nguyen,
- Abstract要約: 本稿では,TDGC(Task-level Decision to Gait Control)と呼ばれる四足歩行のための階層型ポリシーアーキテクチャを提案する。
シミュレーションにおいて強化学習で訓練された低レベルポリシーは、歩行条件付きロコモーションを提供し、タスク要求を制御可能な行動パラメータのコンパクトなセットにマップする。
高レベルポリシーは、スパースな意味や幾何学的な地形からタスク中心の意思決定を行い、それらを低レベルな目標に翻訳し、トレース可能な決定パイプラインを形成する。
- 参考スコア(独自算出の注目度): 23.62662422745379
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Real-world quadruped navigation is constrained by a scale mismatch between high-level navigation decisions and low-level gait execution, as well as by instabilities under out-of-distribution environmental changes. Such variations challenge sim-to-real transfer and can trigger falls when policies lack explicit interfaces for adaptation. In this paper, we present a hierarchical policy architecture for quadrupedal navigation, termed Task-level Decision to Gait Control (TDGC). A low-level policy, trained with reinforcement learning in simulation, delivers gait-conditioned locomotion and maps task requirements to a compact set of controllable behavior parameters, enabling robust mode generation and smooth switching. A high-level policy makes task-centric decisions from sparse semantic or geometric terrain cues and translates them into low-level targets, forming a traceable decision pipeline without dense maps or high-resolution terrain reconstruction. Different from end-to-end approaches, our architecture provides explicit interfaces for deployment-time tuning, fault diagnosis, and policy refinement. We introduce a structured curriculum with performance-driven progression that expands environmental difficulty and disturbance ranges. Experiments show higher task success rates on mixed terrains and out-of-distribution tests.
- Abstract(参考訳): 現実の四足歩行は、高レベルのナビゲーション決定と低レベルの歩行実行のスケールミスマッチや、アウト・オブ・ディストリビューション環境の変化による不安定さによって制限される。
このようなバリエーションはsim-to-real転送に挑戦し、ポリシーが適応のための明示的なインターフェースを欠いている場合にフォールをトリガーする。
本稿では,TDGC(Task-level Decision to Gait Control)と呼ばれる,四足歩行のための階層型ポリシーアーキテクチャを提案する。
シミュレーションにおいて強化学習で訓練された低レベルポリシーは、歩行条件付きロコモーションを提供し、タスク要求をコンパクトな制御可能な行動パラメータにマッピングし、堅牢なモード生成とスムーズな切り替えを可能にする。
高レベルポリシーは、細かな意味や幾何学的な地形の手がかりからタスク中心の意思決定を行い、それらを低レベルな目標に翻訳し、密集した地図や高解像度の地形復元のないトレーサブルな決定パイプラインを形成する。
エンド・ツー・エンドのアプローチとは異なり、私たちのアーキテクチャはデプロイメント・タイム・チューニング、障害診断、ポリシー改善のための明示的なインターフェースを提供します。
本稿では,環境難易度と乱れ範囲を拡大する性能向上型構造化カリキュラムを提案する。
実験では、混合地形でのタスク成功率とアウト・オブ・ディストリビューションテストが示されている。
関連論文リスト
- Iterative On-Policy Refinement of Hierarchical Diffusion Policies for Language-Conditioned Manipulation [6.115550515200226]
HD-ExpItは環境フィードバックによる階層的拡散ポリシーの反復的微調整のためのフレームワークである。
オフラインデータのみにトレーニングされた階層的なポリシを大幅に改善する。
論文 参考訳(メタデータ) (2026-03-05T15:34:43Z) - Dynamic Topology Awareness: Breaking the Granularity Rigidity in Vision-Language Navigation [22.876516699004814]
VLN-CE(Vision-Language Navigation in Continuous Environments)は、高レベルの言語命令を正確で安全で長期の空間行動に基礎付けるという、中核的な課題を提示している。
露骨なトポロジカルマップは、そのようなタスクにおいて堅牢な空間記憶を提供するための重要な解決策であることが証明されている。
既存のトポロジカルプランニング手法は、"Granularity Rigidity"問題に悩まされている。
本研究では,動的トポロジカルナビゲーションのためのフレームワークであるDGNavを提案する。
論文 参考訳(メタデータ) (2026-01-29T14:06:23Z) - QoS-Aware Hierarchical Reinforcement Learning for Joint Link Selection and Trajectory Optimization in SAGIN-Supported UAV Mobility Management [52.15690855486153]
宇宙空間統合ネットワーク (SAGIN) がユビキタスUAV接続を実現するための重要なアーキテクチャとして登場した。
本稿では,SAGINにおけるUAVモビリティ管理を制約付き多目的関節最適化問題として定式化する。
論文 参考訳(メタデータ) (2025-12-17T06:22:46Z) - Push Smarter, Not Harder: Hierarchical RL-Diffusion Policy for Efficient Nonprehensile Manipulation [8.7216199131049]
HeRDは階層的な強化学習拡散政策であり、プッシュタスクを高レベルの目標選択と低レベルの軌道生成という2つのレベルに分解する。
我々は、中間空間目標を選択するための高レベル強化学習エージェントと、それに到達するための実用的で効率的な軌道を生成するための低レベル目標条件拡散モデルを用いる。
この結果から,階層的制御を低レベル計画に組み込むことが,スケーラブルで目標指向の非包括的操作において有望な方向であることが示唆された。
論文 参考訳(メタデータ) (2025-12-10T21:40:22Z) - DAgger Diffusion Navigation: DAgger Boosted Diffusion Policy for Vision-Language Navigation [73.80968452950854]
Vision-Language Navigation in Continuous Environments (VLN-CE) は、エージェントが自由形式の3D空間を通して自然言語の指示に従う必要がある。
既存のVLN-CEアプローチは通常、2段階のウェイポイント計画フレームワークを使用する。
本稿では,エンドツーエンド最適化VLN-CEポリシとしてDAgger Diffusion Navigation (DifNav)を提案する。
論文 参考訳(メタデータ) (2025-08-13T02:51:43Z) - Exploiting Hybrid Policy in Reinforcement Learning for Interpretable Temporal Logic Manipulation [12.243491328213217]
強化学習(Reinforcement Learning, RL)に基づく手法は, ロボット学習においてますます研究されている。
本稿では,エージェントの性能向上のために3段階決定層を利用する時間論理誘導型ハイブリッドポリシーフレームワーク(HyTL)を提案する。
我々は,HyTLを4つの困難な操作タスクで評価し,その有効性と解釈可能性を示した。
論文 参考訳(メタデータ) (2024-12-29T03:34:53Z) - TAS: A Transit-Aware Strategy for Embodied Navigation with Non-Stationary Targets [55.09248760290918]
非定常目標を持つ動的シナリオにおけるナビゲーションのための新しいアルゴリズムを提案する。
我々の新しいTAS(Transit-Aware Strategy)は、具体化されたナビゲーションポリシーをオブジェクトパス情報で強化する。
TASは、ターゲットルートとルートを同期させるエージェントを報酬することで、非定常環境での性能を改善する。
論文 参考訳(メタデータ) (2024-03-14T22:33:22Z) - Rethinking Decision Transformer via Hierarchical Reinforcement Learning [54.3596066989024]
決定変換器(Decision Transformer, DT)は、強化学習(RL)における変換器アーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。
本稿では,階層RLのレンズを用いたシーケンシャル意思決定のための汎用シーケンスモデリングフレームワークを提案する。
DTは、高レベルかつ低レベルなポリシーを選択することで、このフレームワークの特別なケースとして現れ、これらの選択の潜在的な失敗について議論する。
論文 参考訳(メタデータ) (2023-11-01T03:32:13Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Goal Kernel Planning: Linearly-Solvable Non-Markovian Policies for Logical Tasks with Goal-Conditioned Options [54.40780660868349]
我々はLinearly-Solvable Goal Kernel Dynamic Programming (LS-GKDP)と呼ばれる合成フレームワークを導入する。
LS-GKDPは、Linearly-Solvable Markov Decision Process (LMDP)形式とOptions Framework of Reinforcement Learningを組み合わせたものである。
本稿では,目標カーネルを持つLMDPが,タスク接地によって定義された低次元部分空間におけるメタポリティシの効率的な最適化を実現する方法を示す。
論文 参考訳(メタデータ) (2020-07-06T05:13:20Z) - Learning Functionally Decomposed Hierarchies for Continuous Control
Tasks with Path Planning [36.050432925402845]
我々は、長い水平方向制御タスクをうまく解決する新しい階層型強化学習アーキテクチャであるHiDeを提案する。
実験により,本手法は未知のテスト環境にまたがって一般化され,学習法および非学習法と比較して3倍の地平線長に拡張可能であることが示された。
論文 参考訳(メタデータ) (2020-02-14T10:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。