論文の概要: RE-MOVE: An Adaptive Policy Design for Robotic Navigation Tasks in
Dynamic Environments via Language-Based Feedback
- arxiv url: http://arxiv.org/abs/2303.07622v2
- Date: Mon, 18 Sep 2023 02:18:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 00:27:39.695700
- Title: RE-MOVE: An Adaptive Policy Design for Robotic Navigation Tasks in
Dynamic Environments via Language-Based Feedback
- Title(参考訳): RE-MOVE:言語に基づくフィードバックによる動的環境におけるロボットナビゲーションタスクの適応的ポリシー設計
- Authors: Souradip Chakraborty, Kasun Weerakoon, Prithvi Poddar, Mohamed Elnoor,
Priya Narayanan, Carl Busart, Pratap Tokekar, Amrit Singh Bedi, and Dinesh
Manocha
- Abstract要約: 継続的制御ロボットナビゲーションタスクのための強化学習ベースのポリシーは、リアルタイムデプロイメント中に環境の変化に適応できないことが多い。
本稿では,RE-MOVEと呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 56.219221064727016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning-based policies for continuous control robotic
navigation tasks often fail to adapt to changes in the environment during
real-time deployment, which may result in catastrophic failures. To address
this limitation, we propose a novel approach called RE-MOVE (REquest help and
MOVE on) to adapt already trained policy to real-time changes in the
environment without re-training via utilizing a language-based feedback. The
proposed approach essentially boils down to addressing two main challenges of
(1) when to ask for feedback and, if received, (2) how to incorporate feedback
into trained policies. RE-MOVE incorporates an epistemic uncertainty-based
framework to determine the optimal time to request instructions-based feedback.
For the second challenge, we employ a zero-shot learning natural language
processing (NLP) paradigm with efficient, prompt design and leverage
state-of-the-art GPT-3.5, Llama-2 language models. To show the efficacy of the
proposed approach, we performed extensive synthetic and real-world evaluations
in several test-time dynamic navigation scenarios. Utilizing RE-MOVE result in
up to 80% enhancement in the attainment of successful goals, coupled with a
reduction of 13.50% in the normalized trajectory length, as compared to
alternative approaches, particularly in demanding real-world environments with
perceptual challenges.
- Abstract(参考訳): 継続的制御ロボットナビゲーションタスクのための強化学習ベースのポリシーは、リアルタイムデプロイメント中に環境の変化に適応できないことが多く、破滅的な失敗をもたらす可能性がある。
この制限に対処するために,すでに訓練済みのポリシーを,言語ベースのフィードバックを活用して再トレーニングすることなく,環境のリアルタイムな変更に適応させるための,re-move(request help and move on)と呼ばれる新しいアプローチを提案する。
提案手法は,(1)フィードバックをいつ求めるか,(2)フィードバックをトレーニングされたポリシに組み込むかという,2つの大きな課題に本質的に対処できる。
RE-MOVEは、エピステマティックな不確実性に基づくフレームワークを組み込んで、指示に基づくフィードバックをリクエストする最適な時間を決定する。
第2の課題として,効率的な高速設計と最先端gpt-3.5,llama-2言語モデルを活用したゼロショット学習自然言語処理(nlp)パラダイムを採用している。
提案手法の有効性を示すために,いくつかのテスト時動的ナビゲーションシナリオにおいて,多種多様な合成および実世界評価を行った。
再移動を利用することで、成功した目標達成率を最大80%まで向上させ、また正規化された軌道長を13.50%削減できる。
関連論文リスト
- Adaptive Tracking of a Single-Rigid-Body Character in Various
Environments [2.048226951354646]
単剛体キャラクタのシミュレーションに基づく深層強化学習手法を提案する。
中心運動モデル (CDM) を用いて, 全身特性を単一剛体 (SRB) として表現し, 基準運動を追跡する政策を訓練することにより, 様々な未観測環境変化に適応できる政策を得ることができる。
弊社の政策は、超ポータブルラップトップ上で30分以内に効率よく訓練され、学習中に経験されていない環境に対処できることを実証する。
論文 参考訳(メタデータ) (2023-08-14T22:58:54Z) - PARTNR: Pick and place Ambiguity Resolving by Trustworthy iNteractive
leaRning [5.046831208137847]
本稿では,選択と配置のポーズにおける複数のモーダルを解析することにより,訓練されたポリシーのあいまいさを検出できるPartinNRアルゴリズムを提案する。
PartNRは、追加のユーザデモが必要なかどうかを判断する適応型、感度ベースのゲーティング機能を採用している。
テーブルトップのピック・アンド・プレイス・タスクにおけるPartinNRの性能を実演する。
論文 参考訳(メタデータ) (2022-11-15T17:07:40Z) - PAnDR: Fast Adaptation to New Environments from Offline Experiences via
Decoupling Policy and Environment Representations [39.11141327059819]
我々は、迅速な政策適応のための疎結合表現を用いた政策適応(PAnDR)を提案する。
オフライン学習では、環境表現と政策表現は、対照的な学習と政策回復を通じて学習される。
オンライン適応フェーズでは、新しい環境で収集された少数の経験から環境コンテキストを推定し、勾配上昇によってポリシーを最適化する。
論文 参考訳(メタデータ) (2022-04-06T14:47:35Z) - Exploring Continuous Integrate-and-Fire for Adaptive Simultaneous Speech
Translation [75.86581380817464]
SimulSTシステムは通常、音声情報を集約する事前決定と、読み書きを決定するポリシーの2つのコンポーネントを含む。
本稿では,CIF(Continuous Integrate-and-Fire)を適用して適応政策をモデル化することを提案する。
単調なマルチヘッドアテンション (MMA) と比較して,本手法はより単純な計算,低レイテンシにおける品質,長い発話の一般化に優れる。
論文 参考訳(メタデータ) (2022-03-22T23:33:18Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - XAI-N: Sensor-based Robot Navigation using Expert Policies and Decision
Trees [55.9643422180256]
本稿では,ロボットの密集した動的環境における衝突のない軌道を計算するためのセンサベース学習ナビゲーションアルゴリズムを提案する。
我々のアプローチは、sim2realパラダイムを用いて訓練された深層強化学習に基づくエキスパートポリシーを使用する。
シミュレーション環境でのアルゴリズムの利点を強調し、移動中の歩行者の間でClearpath Jackalロボットをナビゲートする。
論文 参考訳(メタデータ) (2021-04-22T01:33:10Z) - Deep Reactive Planning in Dynamic Environments [20.319894237644558]
ロボットは、実行中に環境の変化に適応できるエンドツーエンドポリシーを学ぶことができる。
本稿では,従来のキネマティック計画,深層学習,深層学習を組み合わせることで,そのような行動を実現する方法を提案する。
そこで本研究では,6-DoF産業用マニピュレータの実システムと同様に,シミュレーションにおけるいくつかの到達およびピック・アンド・プレイスタスクに対する提案手法を実証する。
論文 参考訳(メタデータ) (2020-10-31T00:46:13Z) - Self-Supervised Policy Adaptation during Deployment [98.25486842109936]
セルフスーパービジョンでは、報酬を使わずに、デプロイ後のトレーニングを継続することができる。
DeepMind Control スイートと ViZDoom の様々なシミュレーション環境で実証評価を行う。
提案手法は,36環境中31環境での一般化を向上し,多くの環境においてドメインランダム化に優れる。
論文 参考訳(メタデータ) (2020-07-08T17:56:27Z) - Fast Adaptation via Policy-Dynamics Value Functions [41.738462615120326]
本稿では,従来のトレーニングと異なる動的に迅速に適応するための新しいアプローチとして,ポリシ・ダイナミックス値関数(PD-VF)を紹介する。
PD-VFは、ポリシーと環境の空間における累積報酬を明示的に推定する。
提案手法は, MuJoCo ドメインの集合上で, 新たな動的処理に迅速に適応可能であることを示す。
論文 参考訳(メタデータ) (2020-07-06T16:47:56Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。