論文の概要: Learning Diverse Skills for Local Navigation under Multi-constraint
Optimality
- arxiv url: http://arxiv.org/abs/2310.02440v1
- Date: Tue, 3 Oct 2023 21:21:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 17:32:21.911089
- Title: Learning Diverse Skills for Local Navigation under Multi-constraint
Optimality
- Title(参考訳): 多制約最適条件下でのローカルナビゲーションのための多変量学習
- Authors: Jin Cheng, Marin Vlastelica, Pavel Kolev, Chenhao Li, Georg Martius
- Abstract要約: 本研究では,品質と多様性のトレードオフについて,制約付き最適化の観点から考察する。
我々は、異なる報酬によって定義される値関数に制約を課しながら、多様なポリシーを得ることができることを示す。
訓練されたポリシーは、本物の12-DoFの四足歩行ロボットSolo12によく伝達される。
- 参考スコア(独自算出の注目度): 27.310655303502305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite many successful applications of data-driven control in robotics,
extracting meaningful diverse behaviors remains a challenge. Typically, task
performance needs to be compromised in order to achieve diversity. In many
scenarios, task requirements are specified as a multitude of reward terms, each
requiring a different trade-off. In this work, we take a constrained
optimization viewpoint on the quality-diversity trade-off and show that we can
obtain diverse policies while imposing constraints on their value functions
which are defined through distinct rewards. In line with previous work, further
control of the diversity level can be achieved through an attract-repel reward
term motivated by the Van der Waals force. We demonstrate the effectiveness of
our method on a local navigation task where a quadruped robot needs to reach
the target within a finite horizon. Finally, our trained policies transfer well
to the real 12-DoF quadruped robot, Solo12, and exhibit diverse agile behaviors
with successful obstacle traversal.
- Abstract(参考訳): ロボット工学におけるデータ駆動制御の多くの応用にもかかわらず、有意義な多様な行動の抽出は依然として課題である。
通常、タスクのパフォーマンスは多様性を達成するために妥協する必要があります。
多くのシナリオでは、タスク要件は様々な報酬条件として指定され、それぞれが異なるトレードオフを必要とする。
本研究では,品質・多様性トレードオフに関する制約付き最適化の視点を取り,異なる報酬によって定義される価値関数に制約を課しながら,多様なポリシーを得ることができることを示す。
以前の研究に則って、ヴァン・デル・ワールスの力によって動機付けられた誘引的報酬項によって、多様性レベルのさらなる制御が達成される。
本研究では,四足ロボットが有限地平線内で目標に到達する必要がある局所ナビゲーションタスクにおいて,本手法の有効性を示す。
最後に、トレーニングされたポリシーは、実際の12-DoF四足歩行ロボットであるSolo12にうまく移行し、障害物を回避して様々なアジャイル行動を示す。
関連論文リスト
- QuadrupedGPT: Towards a Versatile Quadruped Agent in Open-ended Worlds [51.05639500325598]
QuadrupedGPTは、幅広い複雑なタスクを、ペットに匹敵する俊敏性でマスターするように設計された汎用エージェントである。
我々のエージェントは、大規模マルチモーダルモデル(LMM)を用いて、人間の命令と環境コンテキストを処理する。
長期的な目標を実行可能なサブゴールのシーケンスに分解できる問題解決機能を備えている。
論文 参考訳(メタデータ) (2024-06-24T12:14:24Z) - Offline Diversity Maximization Under Imitation Constraints [23.761620064055897]
教師なしスキル発見のための原則付きオフラインアルゴリズムを提案する。
私たちの主な分析的貢献は、フェンシェルの双対性、強化学習、教師なしスキル発見を結びつけることです。
標準オフラインベンチマークD4RLにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2023-07-21T06:12:39Z) - Robust and Versatile Bipedal Jumping Control through Reinforcement
Learning [141.56016556936865]
この研究は、トルク制御された二足歩行ロボットが実世界で頑丈で多目的なダイナミックジャンプを行えるようにすることで、二足歩行ロボットの機敏さの限界を推し進めることを目的としている。
本稿では,ロボットが様々な場所や方向へジャンプするなど,さまざまなジャンプタスクを達成するための強化学習フレームワークを提案する。
我々は,ロボットの長期入出力(I/O)履歴を符号化し,短期I/O履歴への直接アクセスを可能にする新しいポリシー構造を開発する。
論文 参考訳(メタデータ) (2023-02-19T01:06:09Z) - Learning Options via Compression [62.55893046218824]
そこで本研究では,スキル記述長に対するペナルティと,最大限の目標を組み合わさった新たな目的を提案する。
我々の目的は、最大化可能性のみから学んだスキルと比較して、下流のタスクを少ないサンプルで解くスキルを学ぶことである。
論文 参考訳(メタデータ) (2022-12-08T22:34:59Z) - Versatile Skill Control via Self-supervised Adversarial Imitation of
Unlabeled Mixed Motions [19.626042478612572]
ラベルのないデータセットから制御可能なスキルセットを用いて多目的ポリシーを得るための協調的敵意的手法を提案する。
生成的模倣学習の枠組みにおいて教師なしのスキル発見を活用することで、新規で有用なスキルが実現し、タスク遂行が成功することを示す。
最後に、得られた多目的ポリシーは、Solo 8と呼ばれるアジャイル四足歩行ロボットでテストされ、デモで符号化された多様なスキルを忠実に再現する。
論文 参考訳(メタデータ) (2022-09-16T12:49:04Z) - Learning Multi-Task Transferable Rewards via Variational Inverse
Reinforcement Learning [10.782043595405831]
我々は、生成的対向ネットワークの枠組みに基づく複数のタスクを伴う状況に対して、エンパワーメントに基づく正規化手法を拡張した。
未知のダイナミクスを持つマルチタスク環境下では、ラベルのない専門家の例から報酬とポリシーを学ぶことに集中する。
提案手法は, 状況的相互情報の変動的下限を導出し, 最適化する。
論文 参考訳(メタデータ) (2022-06-19T22:32:41Z) - Lipschitz-constrained Unsupervised Skill Discovery [91.51219447057817]
LSD(Lipschitz-Constrained Skill Discovery)は、エージェントがより多様性があり、ダイナミックで、より遠縁なスキルを発見することを奨励する。
LSDは7つの下流タスクにおいて、スキルの多様性、状態空間のカバレッジ、パフォーマンスという点で、従来のアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-02-02T08:29:04Z) - Learning Transferable Motor Skills with Hierarchical Latent Mixture
Policies [37.09286945259353]
階層的混合潜時変動モデルを用いて,データから抽象運動スキルを学習する手法を提案する。
提案手法は,オフラインデータを異なる実行動作に効果的にクラスタ化することができることを示す。
論文 参考訳(メタデータ) (2021-12-09T17:37:14Z) - Diversity-based Trajectory and Goal Selection with Hindsight Experience
Replay [8.259694128526112]
我々はHER(DTGSH)を用いた多様性に基づく軌道と目標選択を提案する。
提案手法は,全てのタスクにおいて,他の最先端手法よりも高速に学習し,高い性能を達成することができることを示す。
論文 参考訳(メタデータ) (2021-08-17T21:34:24Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Gradient Surgery for Multi-Task Learning [119.675492088251]
マルチタスク学習は、複数のタスク間で構造を共有するための有望なアプローチとして登場した。
マルチタスク学習がシングルタスク学習と比較して難しい理由は、完全には理解されていない。
本稿では,他の作業の勾配の正規平面上にタスクの勾配を投影する勾配手術の一形態を提案する。
論文 参考訳(メタデータ) (2020-01-19T06:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。