Fugu-MT 論文翻訳(概要): Learning Diverse Skills for Local Navigation under Multi-constraint Optimality

論文の概要: Learning Diverse Skills for Local Navigation under Multi-constraint Optimality

arxiv url: http://arxiv.org/abs/2310.02440v1
Date: Tue, 3 Oct 2023 21:21:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 17:32:21.911089
Title: Learning Diverse Skills for Local Navigation under Multi-constraint Optimality
Title（参考訳）: 多制約最適条件下でのローカルナビゲーションのための多変量学習
Authors: Jin Cheng, Marin Vlastelica, Pavel Kolev, Chenhao Li, Georg Martius
Abstract要約: 本研究では,品質と多様性のトレードオフについて,制約付き最適化の観点から考察する。我々は、異なる報酬によって定義される値関数に制約を課しながら、多様なポリシーを得ることができることを示す。訓練されたポリシーは、本物の12-DoFの四足歩行ロボットSolo12によく伝達される。
参考スコア（独自算出の注目度）: 27.310655303502305
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite many successful applications of data-driven control in robotics, extracting meaningful diverse behaviors remains a challenge. Typically, task performance needs to be compromised in order to achieve diversity. In many scenarios, task requirements are specified as a multitude of reward terms, each requiring a different trade-off. In this work, we take a constrained optimization viewpoint on the quality-diversity trade-off and show that we can obtain diverse policies while imposing constraints on their value functions which are defined through distinct rewards. In line with previous work, further control of the diversity level can be achieved through an attract-repel reward term motivated by the Van der Waals force. We demonstrate the effectiveness of our method on a local navigation task where a quadruped robot needs to reach the target within a finite horizon. Finally, our trained policies transfer well to the real 12-DoF quadruped robot, Solo12, and exhibit diverse agile behaviors with successful obstacle traversal.
Abstract（参考訳）: ロボット工学におけるデータ駆動制御の多くの応用にもかかわらず、有意義な多様な行動の抽出は依然として課題である。通常、タスクのパフォーマンスは多様性を達成するために妥協する必要があります。多くのシナリオでは、タスク要件は様々な報酬条件として指定され、それぞれが異なるトレードオフを必要とする。本研究では,品質・多様性トレードオフに関する制約付き最適化の視点を取り,異なる報酬によって定義される価値関数に制約を課しながら,多様なポリシーを得ることができることを示す。以前の研究に則って、ヴァン・デル・ワールスの力によって動機付けられた誘引的報酬項によって、多様性レベルのさらなる制御が達成される。本研究では,四足ロボットが有限地平線内で目標に到達する必要がある局所ナビゲーションタスクにおいて,本手法の有効性を示す。最後に、トレーニングされたポリシーは、実際の12-DoF四足歩行ロボットであるSolo12にうまく移行し、障害物を回避して様々なアジャイル行動を示す。

関連論文リスト

Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。 280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文参考訳（メタデータ） (2025-05-29T06:41:45Z)
Dual-Force: Enhanced Offline Diversity Maximization under Imitation Constraints [24.544586300399843]
本稿では,Van der Waals (VdW) 力のアルゴリズムに基づいて,多様性を高める新しいオフラインアルゴリズムを提案する。我々のアルゴリズムは、トレーニング中に遭遇するすべてのスキルをゼロショットでリコールし、事前の作業で学んだスキルセットを大幅に拡張する。
論文参考訳（メタデータ） (2025-01-08T11:20:48Z)
GRAPE: Generalizing Robot Policy via Preference Alignment [58.419992317452376]
GRAPE: 優先度アライメントによるロボット政策の一般化について述べる。 GRAPEはドメイン内および未確認操作タスクにおける成功率をそれぞれ51.79%、58.20%向上させる。 GRAPEは安全性や効率、衝突速度の37.44%、ロールアウト長さの11.15%といった様々な目標に合わせることができる。
論文参考訳（メタデータ） (2024-11-28T18:30:10Z)
QuadrupedGPT: Towards a Versatile Quadruped Agent in Open-ended Worlds [51.05639500325598]
QuadrupedGPTは、幅広い複雑なタスクを、ペットに匹敵する俊敏性でマスターするように設計された汎用エージェントである。我々のエージェントは、大規模マルチモーダルモデル(LMM)を用いて、人間の命令と環境コンテキストを処理する。長期的な目標を実行可能なサブゴールのシーケンスに分解できる問題解決機能を備えている。
論文参考訳（メタデータ） (2024-06-24T12:14:24Z)
Offline Diversity Maximization Under Imitation Constraints [23.761620064055897]
教師なしスキル発見のための原則付きオフラインアルゴリズムを提案する。私たちの主な分析的貢献は、フェンシェルの双対性、強化学習、教師なしスキル発見を結びつけることです。標準オフラインベンチマークD4RLにおける本手法の有効性を示す。
論文参考訳（メタデータ） (2023-07-21T06:12:39Z)
Robust and Versatile Bipedal Jumping Control through Reinforcement Learning [141.56016556936865]
この研究は、トルク制御された二足歩行ロボットが実世界で頑丈で多目的なダイナミックジャンプを行えるようにすることで、二足歩行ロボットの機敏さの限界を推し進めることを目的としている。本稿では,ロボットが様々な場所や方向へジャンプするなど,さまざまなジャンプタスクを達成するための強化学習フレームワークを提案する。我々は,ロボットの長期入出力(I/O)履歴を符号化し,短期I/O履歴への直接アクセスを可能にする新しいポリシー構造を開発する。
論文参考訳（メタデータ） (2023-02-19T01:06:09Z)
Learning Options via Compression [62.55893046218824]
そこで本研究では,スキル記述長に対するペナルティと,最大限の目標を組み合わさった新たな目的を提案する。我々の目的は、最大化可能性のみから学んだスキルと比較して、下流のタスクを少ないサンプルで解くスキルを学ぶことである。
論文参考訳（メタデータ） (2022-12-08T22:34:59Z)
Versatile Skill Control via Self-supervised Adversarial Imitation of Unlabeled Mixed Motions [19.626042478612572]
ラベルのないデータセットから制御可能なスキルセットを用いて多目的ポリシーを得るための協調的敵意的手法を提案する。生成的模倣学習の枠組みにおいて教師なしのスキル発見を活用することで、新規で有用なスキルが実現し、タスク遂行が成功することを示す。最後に、得られた多目的ポリシーは、Solo 8と呼ばれるアジャイル四足歩行ロボットでテストされ、デモで符号化された多様なスキルを忠実に再現する。
論文参考訳（メタデータ） (2022-09-16T12:49:04Z)
Learning Multi-Task Transferable Rewards via Variational Inverse Reinforcement Learning [10.782043595405831]
我々は、生成的対向ネットワークの枠組みに基づく複数のタスクを伴う状況に対して、エンパワーメントに基づく正規化手法を拡張した。未知のダイナミクスを持つマルチタスク環境下では、ラベルのない専門家の例から報酬とポリシーを学ぶことに集中する。提案手法は, 状況的相互情報の変動的下限を導出し, 最適化する。
論文参考訳（メタデータ） (2022-06-19T22:32:41Z)
Lipschitz-constrained Unsupervised Skill Discovery [91.51219447057817]
LSD(Lipschitz-Constrained Skill Discovery)は、エージェントがより多様性があり、ダイナミックで、より遠縁なスキルを発見することを奨励する。 LSDは7つの下流タスクにおいて、スキルの多様性、状態空間のカバレッジ、パフォーマンスという点で、従来のアプローチよりも優れています。
論文参考訳（メタデータ） (2022-02-02T08:29:04Z)
Learning Transferable Motor Skills with Hierarchical Latent Mixture Policies [37.09286945259353]
階層的混合潜時変動モデルを用いて,データから抽象運動スキルを学習する手法を提案する。提案手法は,オフラインデータを異なる実行動作に効果的にクラスタ化することができることを示す。
論文参考訳（メタデータ） (2021-12-09T17:37:14Z)
Diversity-based Trajectory and Goal Selection with Hindsight Experience Replay [8.259694128526112]
我々はHER(DTGSH)を用いた多様性に基づく軌道と目標選択を提案する。提案手法は,全てのタスクにおいて,他の最先端手法よりも高速に学習し,高い性能を達成することができることを示す。
論文参考訳（メタデータ） (2021-08-17T21:34:24Z)
Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文参考訳（メタデータ） (2020-06-17T03:58:25Z)
Gradient Surgery for Multi-Task Learning [119.675492088251]
マルチタスク学習は、複数のタスク間で構造を共有するための有望なアプローチとして登場した。マルチタスク学習がシングルタスク学習と比較して難しい理由は、完全には理解されていない。本稿では,他の作業の勾配の正規平面上にタスクの勾配を投影する勾配手術の一形態を提案する。
論文参考訳（メタデータ） (2020-01-19T06:33:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。