論文の概要: RE-MOVE: An Adaptive Policy Design Approach for Dynamic Environments via
Language-Based Feedback
- arxiv url: http://arxiv.org/abs/2303.07622v1
- Date: Tue, 14 Mar 2023 04:20:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-03-15 16:25:27.879954
- Title: RE-MOVE: An Adaptive Policy Design Approach for Dynamic Environments via
Language-Based Feedback
- Title(参考訳): RE-MOVE:言語に基づくフィードバックによる動的環境に対する適応的ポリシー設計アプローチ
- Authors: Souradip Chakraborty, Kasun Weerakoon, Prithvi Poddar, Pratap Tokekar,
Amrit Singh Bedi, and Dinesh Manocha
- Abstract要約: 継続的制御ロボットナビゲーションタスクのための強化学習ベースのポリシーは、リアルタイムデプロイメント中に環境の変化に適応できないことが多い。
本稿では,RE-MOVEと呼ばれる新しい手法を提案する。この手法は言語に基づくフィードバックを用いて,環境のリアルタイムな変化に適応する。
- 参考スコア(独自算出の注目度): 55.83588043840037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning-based policies for continuous control robotic
navigation tasks often fail to adapt to changes in the environment during
real-time deployment, which may result in catastrophic failures. To address
this limitation, we propose a novel approach called RE-MOVE (\textbf{RE}quest
help and \textbf{MOVE} on), which uses language-based feedback to adjust
trained policies to real-time changes in the environment. In this work, we
enable the trained policy to decide \emph{when to ask for feedback} and
\emph{how to incorporate feedback into trained policies}. RE-MOVE incorporates
epistemic uncertainty to determine the optimal time to request feedback from
humans and uses language-based feedback for real-time adaptation. We perform
extensive synthetic and real-world evaluations to demonstrate the benefits of
our proposed approach in several test-time dynamic navigation scenarios. Our
approach enable robots to learn from human feedback and adapt to previously
unseen adversarial situations.
- Abstract(参考訳): 継続的制御ロボットナビゲーションタスクのための強化学習ベースのポリシーは、リアルタイムデプロイメント中に環境の変化に適応できないことが多く、破滅的な失敗をもたらす可能性がある。
この制限に対処するため, 言語に基づくフィードバックを用いて, リアルタイムな環境変化に適応するRE-MOVE (\textbf{RE}quest help and \textbf{MOVE} on) という新しい手法を提案する。
本研究では,訓練された方針が,訓練された方針にフィードバックを組み込むために,フィードバックを求めるために 'emph{when' と 'emph{how' を決定できる。
re-moveは認識の不確実性を取り込んで、人間からフィードバックを求める最適な時間を決定し、リアルタイム適応のために言語ベースのフィードバックを使用する。
いくつかのテスト時間動的ナビゲーションシナリオにおいて,提案手法の利点を示すために,大規模な総合的および実世界の評価を行う。
我々のアプローチは、ロボットが人間のフィードバックから学び、これまで見えなかった敵の状況に適応できるようにする。
関連論文リスト
- VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model [34.98047665907545]
政策最適化から価値推定を分離する環境のないRLフレームワークを提案する。
本フレームワークは,(1)長期活動ユーティリティを推定するためにVEMを事前訓練すること,(2)凍結したVEM信号による政策探索を導くこと,の2段階からなる。
Android-in-the-Wildベンチマークで評価すると、VEMはオフラインとオンラインの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-26T07:52:02Z) - Training a Generally Curious Agent [86.84089201249104]
PAPRIKAは,言語モデルによる一般的な意思決定機能の開発を可能にする微調整手法である。
PAPRIKAで微調整されたモデルは、学習した意思決定能力を全く見えないタスクに効果的に移行できることを示す実験結果が得られた。
これらの結果は、新しいシーケンシャルな意思決定問題を自律的に解決できるAIシステムへの有望な道のりを示唆している。
論文 参考訳(メタデータ) (2025-02-24T18:56:58Z) - Policy Learning with a Natural Language Action Space: A Causal Approach [24.096991077437146]
本稿では,自然言語行動空間における多段階意思決定のための新たな因果的枠組みを提案する。
本手法では,1つのモデルを用いて動的処理規則(DTR)を推定するためにQラーニングを用いる。
このアプローチの重要な技術的貢献は、最適化された埋め込みをコヒーレントな自然言語に変換するデコード戦略です。
論文 参考訳(メタデータ) (2025-02-24T17:26:07Z) - COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。
従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。
本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文 参考訳(メタデータ) (2025-02-12T01:31:01Z) - Policy Adaptation via Language Optimization: Decomposing Tasks for Few-Shot Imitation [49.43094200366251]
本稿では,タスク分解のセマンティック理解を生かした,未確認タスクへの数発適応のための新しいアプローチを提案する。
我々の手法であるPALO(Policy Adaptation via Language Optimization)は,タスクのいくつかの実演と,提案する言語分解とを組み合わせる。
PALOは、実世界の長期・多層的なタスクを一貫して完了することができ、事前訓練されたジェネラリスト政策の状況よりも優れています。
論文 参考訳(メタデータ) (2024-08-29T03:03:35Z) - Exploring Test-Time Adaptation for Object Detection in Continually Changing Environments [13.163784646113214]
最近CTTA(Continuous Test-Time Adaptation)が、ターゲットドメインを継続的に変更するソーストレーニングモデルに徐々に適応する、有望なテクニックとして登場した。
まず、オブジェクトレベルのコントラスト学習モジュールは、対象領域における特徴表現を洗練させるために、コントラスト学習のためのオブジェクトレベルの特徴を抽出する。
第2に、適応監視モジュールは、不要な適応を動的にスキップし、予測された信頼度スコアに基づいてカテゴリ固有のしきい値を更新して、効率を向上し、擬似ラベルの品質を向上させる。
論文 参考訳(メタデータ) (2024-06-24T08:30:03Z) - A Conservative Approach for Few-Shot Transfer in Off-Dynamics Reinforcement Learning [3.1515473193934778]
オフダイナミックス強化学習(英語: Off-dynamics Reinforcement Learning)は、ソース環境から、異なるが類似したダイナミクスによって特徴づけられるターゲット環境へポリシーを移そうとする。
我々は近年のImitation Learningと保守的RLアルゴリズムの進歩に触発された革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-24T13:09:08Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - Relative Policy-Transition Optimization for Fast Policy Transfer [18.966619060222634]
我々は2つのマルコフ決定過程(MDP)間の政策伝達の問題を考える。
相対政策最適化(RPO)と相対遷移最適化(RTO)という2つの新しいアルゴリズムを提案する。
RPOは評価されたポリシーをある環境で転送し、別の環境でのリターンを最大化し、RTOはパラメータ化されたダイナミクスモデルを更新し、2つの環境のダイナミクス間のギャップを減らす。
論文 参考訳(メタデータ) (2022-06-13T09:55:04Z) - Exploring Continuous Integrate-and-Fire for Adaptive Simultaneous Speech
Translation [75.86581380817464]
SimulSTシステムは通常、音声情報を集約する事前決定と、読み書きを決定するポリシーの2つのコンポーネントを含む。
本稿では,CIF(Continuous Integrate-and-Fire)を適用して適応政策をモデル化することを提案する。
単調なマルチヘッドアテンション (MMA) と比較して,本手法はより単純な計算,低レイテンシにおける品質,長い発話の一般化に優れる。
論文 参考訳(メタデータ) (2022-03-22T23:33:18Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Adapting to Dynamic LEO-B5G Systems: Meta-Critic Learning Based
Efficient Resource Scheduling [38.733584547351796]
オーバーロードされたLEO地上システムにおける2つの実用的課題に対処する。
最初の課題は、膨大な数の接続されたユーザに対して、リソースを効率的にスケジュールする方法です。
第2の課題は、動的無線環境への適応において、アルゴリズムによるソリューションをよりレジリエントにする方法だ。
論文 参考訳(メタデータ) (2021-10-13T15:21:38Z) - Sim-to-Real Transfer with Incremental Environment Complexity for
Reinforcement Learning of Depth-Based Robot Navigation [1.290382979353427]
段階的環境複雑性を用いたソフト・アクター・クリティカル(SAC)トレーニング戦略を提案し,実世界における追加トレーニングの必要性を大幅に低減した。
アプリケーションは深度に基づくマップレスナビゲーションで、移動ロボットは、事前のマッピング情報なしで、散らかった環境で所定の経路点に到達すべきである。
論文 参考訳(メタデータ) (2020-04-30T10:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。