論文の概要: RE-MOVE: An Adaptive Policy Design Approach for Dynamic Environments via
Language-Based Feedback
- arxiv url: http://arxiv.org/abs/2303.07622v1
- Date: Tue, 14 Mar 2023 04:20:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 16:25:27.879954
- Title: RE-MOVE: An Adaptive Policy Design Approach for Dynamic Environments via
Language-Based Feedback
- Title(参考訳): RE-MOVE:言語に基づくフィードバックによる動的環境に対する適応的ポリシー設計アプローチ
- Authors: Souradip Chakraborty, Kasun Weerakoon, Prithvi Poddar, Pratap Tokekar,
Amrit Singh Bedi, and Dinesh Manocha
- Abstract要約: 継続的制御ロボットナビゲーションタスクのための強化学習ベースのポリシーは、リアルタイムデプロイメント中に環境の変化に適応できないことが多い。
本稿では,RE-MOVEと呼ばれる新しい手法を提案する。この手法は言語に基づくフィードバックを用いて,環境のリアルタイムな変化に適応する。
- 参考スコア(独自算出の注目度): 55.83588043840037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning-based policies for continuous control robotic
navigation tasks often fail to adapt to changes in the environment during
real-time deployment, which may result in catastrophic failures. To address
this limitation, we propose a novel approach called RE-MOVE (\textbf{RE}quest
help and \textbf{MOVE} on), which uses language-based feedback to adjust
trained policies to real-time changes in the environment. In this work, we
enable the trained policy to decide \emph{when to ask for feedback} and
\emph{how to incorporate feedback into trained policies}. RE-MOVE incorporates
epistemic uncertainty to determine the optimal time to request feedback from
humans and uses language-based feedback for real-time adaptation. We perform
extensive synthetic and real-world evaluations to demonstrate the benefits of
our proposed approach in several test-time dynamic navigation scenarios. Our
approach enable robots to learn from human feedback and adapt to previously
unseen adversarial situations.
- Abstract(参考訳): 継続的制御ロボットナビゲーションタスクのための強化学習ベースのポリシーは、リアルタイムデプロイメント中に環境の変化に適応できないことが多く、破滅的な失敗をもたらす可能性がある。
この制限に対処するため, 言語に基づくフィードバックを用いて, リアルタイムな環境変化に適応するRE-MOVE (\textbf{RE}quest help and \textbf{MOVE} on) という新しい手法を提案する。
本研究では,訓練された方針が,訓練された方針にフィードバックを組み込むために,フィードバックを求めるために 'emph{when' と 'emph{how' を決定できる。
re-moveは認識の不確実性を取り込んで、人間からフィードバックを求める最適な時間を決定し、リアルタイム適応のために言語ベースのフィードバックを使用する。
いくつかのテスト時間動的ナビゲーションシナリオにおいて,提案手法の利点を示すために,大規模な総合的および実世界の評価を行う。
我々のアプローチは、ロボットが人間のフィードバックから学び、これまで見えなかった敵の状況に適応できるようにする。
関連論文リスト
- A Conservative Approach for Few-Shot Transfer in Off-Dynamics
Reinforcement Learning [3.3811247908085855]
オフダイナミックス強化学習(英語: Off-dynamics Reinforcement Learning)は、ソース環境から、異なるが類似したダイナミクスによって特徴づけられるターゲット環境へポリシーを移そうとする。
我々は近年のImitation Learningと保守的RLアルゴリズムの進歩に触発された革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-24T13:09:08Z) - Learning Control Policies for Variable Objectives from Offline Data [2.7174376960271154]
可変客観ポリシー(VOP)と呼ばれるモデルに基づくポリシー探索手法の概念拡張を導入する。
ポリシーの入力として渡された目的を変更することで、ユーザはその動作を調整する自由を得たり、実行時に最適化目標を再バランスさせたりすることができる。
論文 参考訳(メタデータ) (2023-08-11T13:33:59Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - Relative Policy-Transition Optimization for Fast Policy Transfer [18.966619060222634]
我々は2つのマルコフ決定過程(MDP)間の政策伝達の問題を考える。
相対政策最適化(RPO)と相対遷移最適化(RTO)という2つの新しいアルゴリズムを提案する。
RPOは評価されたポリシーをある環境で転送し、別の環境でのリターンを最大化し、RTOはパラメータ化されたダイナミクスモデルを更新し、2つの環境のダイナミクス間のギャップを減らす。
論文 参考訳(メタデータ) (2022-06-13T09:55:04Z) - Exploring Continuous Integrate-and-Fire for Adaptive Simultaneous Speech
Translation [75.86581380817464]
SimulSTシステムは通常、音声情報を集約する事前決定と、読み書きを決定するポリシーの2つのコンポーネントを含む。
本稿では,CIF(Continuous Integrate-and-Fire)を適用して適応政策をモデル化することを提案する。
単調なマルチヘッドアテンション (MMA) と比較して,本手法はより単純な計算,低レイテンシにおける品質,長い発話の一般化に優れる。
論文 参考訳(メタデータ) (2022-03-22T23:33:18Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Lifelong Unsupervised Domain Adaptive Person Re-identification with
Coordinated Anti-forgetting and Adaptation [127.6168183074427]
本稿では,LUDA (Lifelong Unsupervised Domain Adaptive) という新たなタスクを提案する。
これは、モデルがターゲット環境のラベル付けされていないデータに継続的に適応する必要があるため、難しい。
我々は、CLUDA-ReIDと呼ばれるこのタスクのための効果的なスキームを設計し、そこでは、アンチフォージェッティングが適応と調和して調整される。
論文 参考訳(メタデータ) (2021-12-13T13:19:45Z) - Adapting to Dynamic LEO-B5G Systems: Meta-Critic Learning Based
Efficient Resource Scheduling [38.733584547351796]
オーバーロードされたLEO地上システムにおける2つの実用的課題に対処する。
最初の課題は、膨大な数の接続されたユーザに対して、リソースを効率的にスケジュールする方法です。
第2の課題は、動的無線環境への適応において、アルゴリズムによるソリューションをよりレジリエントにする方法だ。
論文 参考訳(メタデータ) (2021-10-13T15:21:38Z) - Sim-to-Real Transfer with Incremental Environment Complexity for
Reinforcement Learning of Depth-Based Robot Navigation [1.290382979353427]
段階的環境複雑性を用いたソフト・アクター・クリティカル(SAC)トレーニング戦略を提案し,実世界における追加トレーニングの必要性を大幅に低減した。
アプリケーションは深度に基づくマップレスナビゲーションで、移動ロボットは、事前のマッピング情報なしで、散らかった環境で所定の経路点に到達すべきである。
論文 参考訳(メタデータ) (2020-04-30T10:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。