論文の概要: RE-MOVE: An Adaptive Policy Design Approach for Dynamic Environments via
Language-Based Feedback
- arxiv url: http://arxiv.org/abs/2303.07622v1
- Date: Tue, 14 Mar 2023 04:20:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 16:25:27.879954
- Title: RE-MOVE: An Adaptive Policy Design Approach for Dynamic Environments via
Language-Based Feedback
- Title(参考訳): RE-MOVE:言語に基づくフィードバックによる動的環境に対する適応的ポリシー設計アプローチ
- Authors: Souradip Chakraborty, Kasun Weerakoon, Prithvi Poddar, Pratap Tokekar,
Amrit Singh Bedi, and Dinesh Manocha
- Abstract要約: 継続的制御ロボットナビゲーションタスクのための強化学習ベースのポリシーは、リアルタイムデプロイメント中に環境の変化に適応できないことが多い。
本稿では,RE-MOVEと呼ばれる新しい手法を提案する。この手法は言語に基づくフィードバックを用いて,環境のリアルタイムな変化に適応する。
- 参考スコア(独自算出の注目度): 55.83588043840037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning-based policies for continuous control robotic
navigation tasks often fail to adapt to changes in the environment during
real-time deployment, which may result in catastrophic failures. To address
this limitation, we propose a novel approach called RE-MOVE (\textbf{RE}quest
help and \textbf{MOVE} on), which uses language-based feedback to adjust
trained policies to real-time changes in the environment. In this work, we
enable the trained policy to decide \emph{when to ask for feedback} and
\emph{how to incorporate feedback into trained policies}. RE-MOVE incorporates
epistemic uncertainty to determine the optimal time to request feedback from
humans and uses language-based feedback for real-time adaptation. We perform
extensive synthetic and real-world evaluations to demonstrate the benefits of
our proposed approach in several test-time dynamic navigation scenarios. Our
approach enable robots to learn from human feedback and adapt to previously
unseen adversarial situations.
- Abstract(参考訳): 継続的制御ロボットナビゲーションタスクのための強化学習ベースのポリシーは、リアルタイムデプロイメント中に環境の変化に適応できないことが多く、破滅的な失敗をもたらす可能性がある。
この制限に対処するため, 言語に基づくフィードバックを用いて, リアルタイムな環境変化に適応するRE-MOVE (\textbf{RE}quest help and \textbf{MOVE} on) という新しい手法を提案する。
本研究では,訓練された方針が,訓練された方針にフィードバックを組み込むために,フィードバックを求めるために 'emph{when' と 'emph{how' を決定できる。
re-moveは認識の不確実性を取り込んで、人間からフィードバックを求める最適な時間を決定し、リアルタイム適応のために言語ベースのフィードバックを使用する。
いくつかのテスト時間動的ナビゲーションシナリオにおいて,提案手法の利点を示すために,大規模な総合的および実世界の評価を行う。
我々のアプローチは、ロボットが人間のフィードバックから学び、これまで見えなかった敵の状況に適応できるようにする。
関連論文リスト
- COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。
従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。
本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文 参考訳(メタデータ) (2025-02-12T01:31:01Z) - Adaptive Resource Allocation Optimization Using Large Language Models in Dynamic Wireless Environments [25.866960634041092]
現在のソリューションはドメイン固有のアーキテクチャや技術に依存しており、制約付き最適化のための一般的なDLアプローチは未開発のままである。
本稿では,制約を順守しながら複雑な資源配分問題に対処するために,資源割当(LLM-RAO)のための大規模言語モデルを提案する。
LLM-RAO は従来の DL 法と比較して最大40% の性能向上を実現し,分析手法よりも80$% 向上した。
論文 参考訳(メタデータ) (2025-02-04T12:56:59Z) - Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。
オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。
大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。
LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:37:44Z) - Policy Adaptation via Language Optimization: Decomposing Tasks for Few-Shot Imitation [49.43094200366251]
本稿では,タスク分解のセマンティック理解を生かした,未確認タスクへの数発適応のための新しいアプローチを提案する。
我々の手法であるPALO(Policy Adaptation via Language Optimization)は,タスクのいくつかの実演と,提案する言語分解とを組み合わせる。
PALOは、実世界の長期・多層的なタスクを一貫して完了することができ、事前訓練されたジェネラリスト政策の状況よりも優れています。
論文 参考訳(メタデータ) (2024-08-29T03:03:35Z) - Exploring Test-Time Adaptation for Object Detection in Continually Changing Environments [13.163784646113214]
最近CTTA(Continuous Test-Time Adaptation)が、ターゲットドメインを継続的に変更するソーストレーニングモデルに徐々に適応する、有望なテクニックとして登場した。
まず、オブジェクトレベルのコントラスト学習モジュールは、対象領域における特徴表現を洗練させるために、コントラスト学習のためのオブジェクトレベルの特徴を抽出する。
第2に、適応監視モジュールは、不要な適応を動的にスキップし、予測された信頼度スコアに基づいてカテゴリ固有のしきい値を更新して、効率を向上し、擬似ラベルの品質を向上させる。
論文 参考訳(メタデータ) (2024-06-24T08:30:03Z) - A Conservative Approach for Few-Shot Transfer in Off-Dynamics Reinforcement Learning [3.1515473193934778]
オフダイナミックス強化学習(英語: Off-dynamics Reinforcement Learning)は、ソース環境から、異なるが類似したダイナミクスによって特徴づけられるターゲット環境へポリシーを移そうとする。
我々は近年のImitation Learningと保守的RLアルゴリズムの進歩に触発された革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-24T13:09:08Z) - Exploring Continuous Integrate-and-Fire for Adaptive Simultaneous Speech
Translation [75.86581380817464]
SimulSTシステムは通常、音声情報を集約する事前決定と、読み書きを決定するポリシーの2つのコンポーネントを含む。
本稿では,CIF(Continuous Integrate-and-Fire)を適用して適応政策をモデル化することを提案する。
単調なマルチヘッドアテンション (MMA) と比較して,本手法はより単純な計算,低レイテンシにおける品質,長い発話の一般化に優れる。
論文 参考訳(メタデータ) (2022-03-22T23:33:18Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Adapting to Dynamic LEO-B5G Systems: Meta-Critic Learning Based
Efficient Resource Scheduling [38.733584547351796]
オーバーロードされたLEO地上システムにおける2つの実用的課題に対処する。
最初の課題は、膨大な数の接続されたユーザに対して、リソースを効率的にスケジュールする方法です。
第2の課題は、動的無線環境への適応において、アルゴリズムによるソリューションをよりレジリエントにする方法だ。
論文 参考訳(メタデータ) (2021-10-13T15:21:38Z) - Sim-to-Real Transfer with Incremental Environment Complexity for
Reinforcement Learning of Depth-Based Robot Navigation [1.290382979353427]
段階的環境複雑性を用いたソフト・アクター・クリティカル(SAC)トレーニング戦略を提案し,実世界における追加トレーニングの必要性を大幅に低減した。
アプリケーションは深度に基づくマップレスナビゲーションで、移動ロボットは、事前のマッピング情報なしで、散らかった環境で所定の経路点に到達すべきである。
論文 参考訳(メタデータ) (2020-04-30T10:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。