論文の概要: Learning Diverse Skills for Local Navigation under Multi-constraint
Optimality
- arxiv url: http://arxiv.org/abs/2310.02440v1
- Date: Tue, 3 Oct 2023 21:21:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 17:32:21.911089
- Title: Learning Diverse Skills for Local Navigation under Multi-constraint
Optimality
- Title(参考訳): 多制約最適条件下でのローカルナビゲーションのための多変量学習
- Authors: Jin Cheng, Marin Vlastelica, Pavel Kolev, Chenhao Li, Georg Martius
- Abstract要約: 本研究では,品質と多様性のトレードオフについて,制約付き最適化の観点から考察する。
我々は、異なる報酬によって定義される値関数に制約を課しながら、多様なポリシーを得ることができることを示す。
訓練されたポリシーは、本物の12-DoFの四足歩行ロボットSolo12によく伝達される。
- 参考スコア(独自算出の注目度): 27.310655303502305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite many successful applications of data-driven control in robotics,
extracting meaningful diverse behaviors remains a challenge. Typically, task
performance needs to be compromised in order to achieve diversity. In many
scenarios, task requirements are specified as a multitude of reward terms, each
requiring a different trade-off. In this work, we take a constrained
optimization viewpoint on the quality-diversity trade-off and show that we can
obtain diverse policies while imposing constraints on their value functions
which are defined through distinct rewards. In line with previous work, further
control of the diversity level can be achieved through an attract-repel reward
term motivated by the Van der Waals force. We demonstrate the effectiveness of
our method on a local navigation task where a quadruped robot needs to reach
the target within a finite horizon. Finally, our trained policies transfer well
to the real 12-DoF quadruped robot, Solo12, and exhibit diverse agile behaviors
with successful obstacle traversal.
- Abstract(参考訳): ロボット工学におけるデータ駆動制御の多くの応用にもかかわらず、有意義な多様な行動の抽出は依然として課題である。
通常、タスクのパフォーマンスは多様性を達成するために妥協する必要があります。
多くのシナリオでは、タスク要件は様々な報酬条件として指定され、それぞれが異なるトレードオフを必要とする。
本研究では,品質・多様性トレードオフに関する制約付き最適化の視点を取り,異なる報酬によって定義される価値関数に制約を課しながら,多様なポリシーを得ることができることを示す。
以前の研究に則って、ヴァン・デル・ワールスの力によって動機付けられた誘引的報酬項によって、多様性レベルのさらなる制御が達成される。
本研究では,四足ロボットが有限地平線内で目標に到達する必要がある局所ナビゲーションタスクにおいて,本手法の有効性を示す。
最後に、トレーニングされたポリシーは、実際の12-DoF四足歩行ロボットであるSolo12にうまく移行し、障害物を回避して様々なアジャイル行動を示す。
関連論文リスト
- Dual-Force: Enhanced Offline Diversity Maximization under Imitation Constraints [24.544586300399843]
本稿では,Van der Waals (VdW) 力のアルゴリズムに基づいて,多様性を高める新しいオフラインアルゴリズムを提案する。
我々のアルゴリズムは、トレーニング中に遭遇するすべてのスキルをゼロショットでリコールし、事前の作業で学んだスキルセットを大幅に拡張する。
論文 参考訳(メタデータ) (2025-01-08T11:20:48Z) - GRAPE: Generalizing Robot Policy via Preference Alignment [58.419992317452376]
GRAPE: 優先度アライメントによるロボット政策の一般化について述べる。
GRAPEはドメイン内および未確認操作タスクにおける成功率をそれぞれ51.79%、58.20%向上させる。
GRAPEは安全性や効率、衝突速度の37.44%、ロールアウト長さの11.15%といった様々な目標に合わせることができる。
論文 参考訳(メタデータ) (2024-11-28T18:30:10Z) - QuadrupedGPT: Towards a Versatile Quadruped Agent in Open-ended Worlds [51.05639500325598]
ペットに匹敵するアジリティで多様なコマンドに従うように設計されたQuadrupedGPTを紹介します。
エージェントは多種多様なタスクを処理し,複雑な指示を行う能力を示し,多種多様四重化エージェントの開発に向けた重要な一歩である。
論文 参考訳(メタデータ) (2024-06-24T12:14:24Z) - Offline Diversity Maximization Under Imitation Constraints [23.761620064055897]
教師なしスキル発見のための原則付きオフラインアルゴリズムを提案する。
私たちの主な分析的貢献は、フェンシェルの双対性、強化学習、教師なしスキル発見を結びつけることです。
標準オフラインベンチマークD4RLにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2023-07-21T06:12:39Z) - Robust and Versatile Bipedal Jumping Control through Reinforcement
Learning [141.56016556936865]
この研究は、トルク制御された二足歩行ロボットが実世界で頑丈で多目的なダイナミックジャンプを行えるようにすることで、二足歩行ロボットの機敏さの限界を推し進めることを目的としている。
本稿では,ロボットが様々な場所や方向へジャンプするなど,さまざまなジャンプタスクを達成するための強化学習フレームワークを提案する。
我々は,ロボットの長期入出力(I/O)履歴を符号化し,短期I/O履歴への直接アクセスを可能にする新しいポリシー構造を開発する。
論文 参考訳(メタデータ) (2023-02-19T01:06:09Z) - Learning Options via Compression [62.55893046218824]
そこで本研究では,スキル記述長に対するペナルティと,最大限の目標を組み合わさった新たな目的を提案する。
我々の目的は、最大化可能性のみから学んだスキルと比較して、下流のタスクを少ないサンプルで解くスキルを学ぶことである。
論文 参考訳(メタデータ) (2022-12-08T22:34:59Z) - Learning Transferable Motor Skills with Hierarchical Latent Mixture
Policies [37.09286945259353]
階層的混合潜時変動モデルを用いて,データから抽象運動スキルを学習する手法を提案する。
提案手法は,オフラインデータを異なる実行動作に効果的にクラスタ化することができることを示す。
論文 参考訳(メタデータ) (2021-12-09T17:37:14Z) - Diversity-based Trajectory and Goal Selection with Hindsight Experience
Replay [8.259694128526112]
我々はHER(DTGSH)を用いた多様性に基づく軌道と目標選択を提案する。
提案手法は,全てのタスクにおいて,他の最先端手法よりも高速に学習し,高い性能を達成することができることを示す。
論文 参考訳(メタデータ) (2021-08-17T21:34:24Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Gradient Surgery for Multi-Task Learning [119.675492088251]
マルチタスク学習は、複数のタスク間で構造を共有するための有望なアプローチとして登場した。
マルチタスク学習がシングルタスク学習と比較して難しい理由は、完全には理解されていない。
本稿では,他の作業の勾配の正規平面上にタスクの勾配を投影する勾配手術の一形態を提案する。
論文 参考訳(メタデータ) (2020-01-19T06:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。