Fugu-MT 論文翻訳(概要): Leveraging Sequentiality in Reinforcement Learning from a Single Demonstration

論文の概要: Leveraging Sequentiality in Reinforcement Learning from a Single Demonstration

arxiv url: http://arxiv.org/abs/2211.04786v2
Date: Mon, 17 Apr 2023 09:18:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-18 23:25:00.017452
Title: Leveraging Sequentiality in Reinforcement Learning from a Single Demonstration
Title（参考訳）: 単例による強化学習における逐次学習の活用
Authors: Alexandre Chenu, Olivier Serris, Olivier Sigaud and Nicolas Perrin-Gilbert
Abstract要約: 本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
参考スコア（独自算出の注目度）: 68.94506047556412
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep Reinforcement Learning has been successfully applied to learn robotic control. However, the corresponding algorithms struggle when applied to problems where the agent is only rewarded after achieving a complex task. In this context, using demonstrations can significantly speed up the learning process, but demonstrations can be costly to acquire. In this paper, we propose to leverage a sequential bias to learn control policies for complex robotic tasks using a single demonstration. To do so, our method learns a goal-conditioned policy to control a system between successive low-dimensional goals. This sequential goal-reaching approach raises a problem of compatibility between successive goals: we need to ensure that the state resulting from reaching a goal is compatible with the achievement of the following goals. To tackle this problem, we present a new algorithm called DCIL-II. We show that DCIL-II can solve with unprecedented sample efficiency some challenging simulated tasks such as humanoid locomotion and stand-up as well as fast running with a simulated Cassie robot. Our method leveraging sequentiality is a step towards the resolution of complex robotic tasks under minimal specification effort, a key feature for the next generation of autonomous robots.
Abstract（参考訳）: 深層強化学習はロボット制御の学習に成功している。しかし、エージェントが複雑なタスクを完了した後のみ報酬を受ける問題に適用した場合、対応するアルゴリズムは苦労する。この文脈では、デモを使用することで学習プロセスが大幅にスピードアップするが、デモの獲得にはコストがかかる。本稿では,複雑なロボットタスクの制御方針を1つのデモを用いて学習するために,逐次バイアスを活用することを提案する。そこで本手法では,低次元目標間のシステムを制御するための目標条件ポリシーを学習する。このシーケンシャルな目標達成アプローチは、連続した目標間の互換性の問題を引き起こします。そこで本研究では,DCIL-IIと呼ばれる新しいアルゴリズムを提案する。 dcil-iiは前例のないサンプル効率で解決でき、ヒューマノイドのロコモーションやスタンドアップなどのシミュレートされたタスクや、シミュレーションされたキャシーロボットで高速に走ることができる。本手法は,次世代自律ロボットの重要な特徴である,最小限の仕様の下での複雑なロボットタスクの解決に向けたステップである。

関連論文リスト

Investigating the Effectiveness of a Socratic Chain-of-Thoughts Reasoning Method for Task Planning in Robotics, A Case Study [0.0]
本研究では,大規模言語モデル (LLM) が実世界の物理行動で複雑な空間的タスクをナビゲートできるかどうかを考察する。我々は,Webots エンジンに擬似ティアゴロボットを組み込んだ GPT-4(Omni) をオブジェクト探索タスクに適用する。予備的な結果は、チェーン・オブ・ソート推論と組み合わせることで、ソクラティック法が空間認識を必要とするロボットタスクのコード生成に利用できることを示している。
論文参考訳（メタデータ） (2025-03-11T08:36:37Z)
Single-Shot Learning of Stable Dynamical Systems for Long-Horizon Manipulation Tasks [48.54757719504994]
本稿では,必要なトレーニングデータ量を削減しつつ,タスク成功率の向上に焦点をあてる。提案手法では,長距離実証をウェイポイントとサブゴールで定義された離散ステップに分割する手法を提案する。シミュレーションと実世界の両方の実験を通して,本手法を検証し,シミュレーションから物理ロボットプラットフォームへの効果的移行を実証した。
論文参考訳（メタデータ） (2024-10-01T19:49:56Z)
Large Language Models for Orchestrating Bimanual Robots [19.60907949776435]
本稿では,Language-based Bimanual Orchestration (LABOR)を提案する。 NICOLヒューマノイドロボットを用いた2種類の長距離作業のシミュレーション実験により,本手法の評価を行った。
論文参考訳（メタデータ） (2024-04-02T15:08:35Z)
Single-Reset Divide & Conquer Imitation Learning [49.87201678501027]
デモはDeep Reinforcement Learningアルゴリズムの学習プロセスを高速化するために一般的に使用される。いくつかのアルゴリズムは1つのデモンストレーションから学習するために開発されている。
論文参考訳（メタデータ） (2024-02-14T17:59:47Z)
Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文参考訳（メタデータ） (2023-06-06T01:36:56Z)
Automatic Goal Generation using Dynamical Distance Learning [5.797847756967884]
強化学習(RL)エージェントは環境と対話することで複雑な逐次意思決定タスクを学習することができる。エージェントが複雑なタスクを解くために複数の目標を達成する必要があるマルチゴールRLの分野では、サンプリング効率を改善することは特に困難である。本稿では,動的距離関数(DDF)を用いた自動ゴール生成手法を提案する。
論文参考訳（メタデータ） (2021-11-07T16:23:56Z)
Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文参考訳（メタデータ） (2020-06-17T03:58:25Z)
SQUIRL: Robust and Efficient Learning from Video Demonstration of Long-Horizon Robotic Manipulation Tasks [8.756012472587601]
深層強化学習(RL)は複雑な操作タスクを学習するために用いられる。 RLは、ロボットが大量の現実世界の経験を収集する必要がある。 SQUIRLは、単一のビデオデモしか持たない、新しいが関連するロングホライゾンタスクを実行する。
論文参考訳（メタデータ） (2020-03-10T20:26:26Z)
Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文参考訳（メタデータ） (2020-02-25T18:56:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。