論文の概要: RE-MOVE: An Adaptive Policy Design for Robotic Navigation Tasks in
Dynamic Environments via Language-Based Feedback
- arxiv url: http://arxiv.org/abs/2303.07622v2
- Date: Mon, 18 Sep 2023 02:18:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 00:27:39.695700
- Title: RE-MOVE: An Adaptive Policy Design for Robotic Navigation Tasks in
Dynamic Environments via Language-Based Feedback
- Title(参考訳): RE-MOVE:言語に基づくフィードバックによる動的環境におけるロボットナビゲーションタスクの適応的ポリシー設計
- Authors: Souradip Chakraborty, Kasun Weerakoon, Prithvi Poddar, Mohamed Elnoor,
Priya Narayanan, Carl Busart, Pratap Tokekar, Amrit Singh Bedi, and Dinesh
Manocha
- Abstract要約: 継続的制御ロボットナビゲーションタスクのための強化学習ベースのポリシーは、リアルタイムデプロイメント中に環境の変化に適応できないことが多い。
本稿では,RE-MOVEと呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 56.219221064727016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning-based policies for continuous control robotic
navigation tasks often fail to adapt to changes in the environment during
real-time deployment, which may result in catastrophic failures. To address
this limitation, we propose a novel approach called RE-MOVE (REquest help and
MOVE on) to adapt already trained policy to real-time changes in the
environment without re-training via utilizing a language-based feedback. The
proposed approach essentially boils down to addressing two main challenges of
(1) when to ask for feedback and, if received, (2) how to incorporate feedback
into trained policies. RE-MOVE incorporates an epistemic uncertainty-based
framework to determine the optimal time to request instructions-based feedback.
For the second challenge, we employ a zero-shot learning natural language
processing (NLP) paradigm with efficient, prompt design and leverage
state-of-the-art GPT-3.5, Llama-2 language models. To show the efficacy of the
proposed approach, we performed extensive synthetic and real-world evaluations
in several test-time dynamic navigation scenarios. Utilizing RE-MOVE result in
up to 80% enhancement in the attainment of successful goals, coupled with a
reduction of 13.50% in the normalized trajectory length, as compared to
alternative approaches, particularly in demanding real-world environments with
perceptual challenges.
- Abstract(参考訳): 継続的制御ロボットナビゲーションタスクのための強化学習ベースのポリシーは、リアルタイムデプロイメント中に環境の変化に適応できないことが多く、破滅的な失敗をもたらす可能性がある。
この制限に対処するために,すでに訓練済みのポリシーを,言語ベースのフィードバックを活用して再トレーニングすることなく,環境のリアルタイムな変更に適応させるための,re-move(request help and move on)と呼ばれる新しいアプローチを提案する。
提案手法は,(1)フィードバックをいつ求めるか,(2)フィードバックをトレーニングされたポリシに組み込むかという,2つの大きな課題に本質的に対処できる。
RE-MOVEは、エピステマティックな不確実性に基づくフレームワークを組み込んで、指示に基づくフィードバックをリクエストする最適な時間を決定する。
第2の課題として,効率的な高速設計と最先端gpt-3.5,llama-2言語モデルを活用したゼロショット学習自然言語処理(nlp)パラダイムを採用している。
提案手法の有効性を示すために,いくつかのテスト時動的ナビゲーションシナリオにおいて,多種多様な合成および実世界評価を行った。
再移動を利用することで、成功した目標達成率を最大80%まで向上させ、また正規化された軌道長を13.50%削減できる。
関連論文リスト
- Policy Adaptation via Language Optimization: Decomposing Tasks for Few-Shot Imitation [49.43094200366251]
本稿では,タスク分解のセマンティック理解を生かした,未確認タスクへの数発適応のための新しいアプローチを提案する。
我々の手法であるPALO(Policy Adaptation via Language Optimization)は,タスクのいくつかの実演と,提案する言語分解とを組み合わせる。
PALOは、実世界の長期・多層的なタスクを一貫して完了することができ、事前訓練されたジェネラリスト政策の状況よりも優れています。
論文 参考訳(メタデータ) (2024-08-29T03:03:35Z) - Exploring Test-Time Adaptation for Object Detection in Continually Changing Environments [13.163784646113214]
最近CTTA(Continuous Test-Time Adaptation)が、ターゲットドメインを継続的に変更するソーストレーニングモデルに徐々に適応する、有望なテクニックとして登場した。
まず、オブジェクトレベルのコントラスト学習モジュールは、対象領域における特徴表現を洗練させるために、コントラスト学習のためのオブジェクトレベルの特徴を抽出する。
第2に、適応監視モジュールは、不要な適応を動的にスキップし、予測された信頼度スコアに基づいてカテゴリ固有のしきい値を更新して、効率を向上し、擬似ラベルの品質を向上させる。
論文 参考訳(メタデータ) (2024-06-24T08:30:03Z) - A Conservative Approach for Few-Shot Transfer in Off-Dynamics Reinforcement Learning [3.1515473193934778]
オフダイナミックス強化学習(英語: Off-dynamics Reinforcement Learning)は、ソース環境から、異なるが類似したダイナミクスによって特徴づけられるターゲット環境へポリシーを移そうとする。
我々は近年のImitation Learningと保守的RLアルゴリズムの進歩に触発された革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-24T13:09:08Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - Relative Policy-Transition Optimization for Fast Policy Transfer [18.966619060222634]
我々は2つのマルコフ決定過程(MDP)間の政策伝達の問題を考える。
相対政策最適化(RPO)と相対遷移最適化(RTO)という2つの新しいアルゴリズムを提案する。
RPOは評価されたポリシーをある環境で転送し、別の環境でのリターンを最大化し、RTOはパラメータ化されたダイナミクスモデルを更新し、2つの環境のダイナミクス間のギャップを減らす。
論文 参考訳(メタデータ) (2022-06-13T09:55:04Z) - Exploring Continuous Integrate-and-Fire for Adaptive Simultaneous Speech
Translation [75.86581380817464]
SimulSTシステムは通常、音声情報を集約する事前決定と、読み書きを決定するポリシーの2つのコンポーネントを含む。
本稿では,CIF(Continuous Integrate-and-Fire)を適用して適応政策をモデル化することを提案する。
単調なマルチヘッドアテンション (MMA) と比較して,本手法はより単純な計算,低レイテンシにおける品質,長い発話の一般化に優れる。
論文 参考訳(メタデータ) (2022-03-22T23:33:18Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Adapting to Dynamic LEO-B5G Systems: Meta-Critic Learning Based
Efficient Resource Scheduling [38.733584547351796]
オーバーロードされたLEO地上システムにおける2つの実用的課題に対処する。
最初の課題は、膨大な数の接続されたユーザに対して、リソースを効率的にスケジュールする方法です。
第2の課題は、動的無線環境への適応において、アルゴリズムによるソリューションをよりレジリエントにする方法だ。
論文 参考訳(メタデータ) (2021-10-13T15:21:38Z) - Sim-to-Real Transfer with Incremental Environment Complexity for
Reinforcement Learning of Depth-Based Robot Navigation [1.290382979353427]
段階的環境複雑性を用いたソフト・アクター・クリティカル(SAC)トレーニング戦略を提案し,実世界における追加トレーニングの必要性を大幅に低減した。
アプリケーションは深度に基づくマップレスナビゲーションで、移動ロボットは、事前のマッピング情報なしで、散らかった環境で所定の経路点に到達すべきである。
論文 参考訳(メタデータ) (2020-04-30T10:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。