Fugu-MT 論文翻訳(概要): RE-MOVE: An Adaptive Policy Design Approach for Dynamic Environments via Language-Based Feedback

論文の概要: RE-MOVE: An Adaptive Policy Design Approach for Dynamic Environments via Language-Based Feedback

arxiv url: http://arxiv.org/abs/2303.07622v1
Date: Tue, 14 Mar 2023 04:20:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-15 16:25:27.879954
Title: RE-MOVE: An Adaptive Policy Design Approach for Dynamic Environments via Language-Based Feedback
Title（参考訳）: RE-MOVE:言語に基づくフィードバックによる動的環境に対する適応的ポリシー設計アプローチ
Authors: Souradip Chakraborty, Kasun Weerakoon, Prithvi Poddar, Pratap Tokekar, Amrit Singh Bedi, and Dinesh Manocha
Abstract要約: 継続的制御ロボットナビゲーションタスクのための強化学習ベースのポリシーは、リアルタイムデプロイメント中に環境の変化に適応できないことが多い。本稿では,RE-MOVEと呼ばれる新しい手法を提案する。この手法は言語に基づくフィードバックを用いて,環境のリアルタイムな変化に適応する。
参考スコア（独自算出の注目度）: 55.83588043840037
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning-based policies for continuous control robotic navigation tasks often fail to adapt to changes in the environment during real-time deployment, which may result in catastrophic failures. To address this limitation, we propose a novel approach called RE-MOVE (\textbf{RE}quest help and \textbf{MOVE} on), which uses language-based feedback to adjust trained policies to real-time changes in the environment. In this work, we enable the trained policy to decide \emph{when to ask for feedback} and \emph{how to incorporate feedback into trained policies}. RE-MOVE incorporates epistemic uncertainty to determine the optimal time to request feedback from humans and uses language-based feedback for real-time adaptation. We perform extensive synthetic and real-world evaluations to demonstrate the benefits of our proposed approach in several test-time dynamic navigation scenarios. Our approach enable robots to learn from human feedback and adapt to previously unseen adversarial situations.
Abstract（参考訳）: 継続的制御ロボットナビゲーションタスクのための強化学習ベースのポリシーは、リアルタイムデプロイメント中に環境の変化に適応できないことが多く、破滅的な失敗をもたらす可能性がある。この制限に対処するため, 言語に基づくフィードバックを用いて, リアルタイムな環境変化に適応するRE-MOVE (\textbf{RE}quest help and \textbf{MOVE} on) という新しい手法を提案する。本研究では,訓練された方針が,訓練された方針にフィードバックを組み込むために,フィードバックを求めるために 'emph{when' と 'emph{how' を決定できる。 re-moveは認識の不確実性を取り込んで、人間からフィードバックを求める最適な時間を決定し、リアルタイム適応のために言語ベースのフィードバックを使用する。いくつかのテスト時間動的ナビゲーションシナリオにおいて,提案手法の利点を示すために,大規模な総合的および実世界の評価を行う。我々のアプローチは、ロボットが人間のフィードバックから学び、これまで見えなかった敵の状況に適応できるようにする。

関連論文リスト

RecLLM-R1: A Two-Stage Training Paradigm with Reinforcement Learning and Chain-of-Thought v1 [20.92548890511589]
本稿では,Large Language Models(LLM)を利用したレコメンデーションフレームワークであるRecLLM-R1を紹介する。 RecLLM-R1は、精度、多様性、新規性など、さまざまな評価指標において、既存のベースラインメソッドを大幅に上回っている。
論文参考訳（メタデータ） (2025-06-24T01:39:34Z)
In-Context Learning for Gradient-Free Receiver Adaptation: Principles, Applications, and Theory [54.92893355284945]
ディープラーニングベースの無線受信機は、様々なチャネル環境に動的に適応する能力を提供する。ジョイントトレーニング、ハイパーネットワークベースの手法、メタラーニングを含む現在の適応戦略は、限られた柔軟性を示すか、勾配降下による明示的な最適化を必要とする。本稿では、インコンテキスト学習(ICL)の新たなパラダイムに根ざした勾配なし適応手法を提案する。
論文参考訳（メタデータ） (2025-06-18T06:43:55Z)
Enhancing Decision-Making of Large Language Models via Actor-Critic [28.870961806283425]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な進歩を遂げている。既存の方法は、ロールアウトを正確にシミュレートし、結果を評価する際に、短期的な自己回帰的な行動生成か、制限に直面している。本稿では,LLM をベースとした Actor-Critic フレームワーク LAC を提案する。
論文参考訳（メタデータ） (2025-06-04T14:58:27Z)
Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文参考訳（メタデータ） (2025-05-23T03:28:25Z)
ManipLVM-R1: Reinforcement Learning for Reasoning in Embodied Manipulation with Large Vision-Language Models [26.955482205849282]
LVLM(Large Vision-Language Models)は近年,視覚をシーン認識や言語に活用してロボット操作を進化させた。本稿では,従来の指導をRLVR(Verifiable Rewards)を用いた強化学習に置き換える新しい強化学習フレームワークであるManipLVM-R1を提案する。
論文参考訳（メタデータ） (2025-05-22T10:57:07Z)
VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model [34.98047665907545]
政策最適化から価値推定を分離する環境のないRLフレームワークを提案する。本フレームワークは,(1)長期活動ユーティリティを推定するためにVEMを事前訓練すること,(2)凍結したVEM信号による政策探索を導くこと,の2段階からなる。 Android-in-the-Wildベンチマークで評価すると、VEMはオフラインとオンラインの両方で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-02-26T07:52:02Z)
Training a Generally Curious Agent [86.84089201249104]
PAPRIKAは,言語モデルによる一般的な意思決定機能の開発を可能にする微調整手法である。 PAPRIKAで微調整されたモデルは、学習した意思決定能力を全く見えないタスクに効果的に移行できることを示す実験結果が得られた。これらの結果は、新しいシーケンシャルな意思決定問題を自律的に解決できるAIシステムへの有望な道のりを示唆している。
論文参考訳（メタデータ） (2025-02-24T18:56:58Z)
Policy Learning with a Natural Language Action Space: A Causal Approach [24.096991077437146]
本稿では,自然言語行動空間における多段階意思決定のための新たな因果的枠組みを提案する。本手法では,1つのモデルを用いて動的処理規則(DTR)を推定するためにQラーニングを用いる。このアプローチの重要な技術的貢献は、最適化された埋め込みをコヒーレントな自然言語に変換するデコード戦略です。
論文参考訳（メタデータ） (2025-02-24T17:26:07Z)
COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文参考訳（メタデータ） (2025-02-12T01:31:01Z)
Policy Adaptation via Language Optimization: Decomposing Tasks for Few-Shot Imitation [49.43094200366251]
本稿では,タスク分解のセマンティック理解を生かした,未確認タスクへの数発適応のための新しいアプローチを提案する。我々の手法であるPALO(Policy Adaptation via Language Optimization)は,タスクのいくつかの実演と,提案する言語分解とを組み合わせる。 PALOは、実世界の長期・多層的なタスクを一貫して完了することができ、事前訓練されたジェネラリスト政策の状況よりも優れています。
論文参考訳（メタデータ） (2024-08-29T03:03:35Z)
Exploring Test-Time Adaptation for Object Detection in Continually Changing Environments [13.163784646113214]
最近CTTA(Continuous Test-Time Adaptation)が、ターゲットドメインを継続的に変更するソーストレーニングモデルに徐々に適応する、有望なテクニックとして登場した。まず、オブジェクトレベルのコントラスト学習モジュールは、対象領域における特徴表現を洗練させるために、コントラスト学習のためのオブジェクトレベルの特徴を抽出する。第2に、適応監視モジュールは、不要な適応を動的にスキップし、予測された信頼度スコアに基づいてカテゴリ固有のしきい値を更新して、効率を向上し、擬似ラベルの品質を向上させる。
論文参考訳（メタデータ） (2024-06-24T08:30:03Z)
A Conservative Approach for Few-Shot Transfer in Off-Dynamics Reinforcement Learning [3.1515473193934778]
オフダイナミックス強化学習(英語: Off-dynamics Reinforcement Learning)は、ソース環境から、異なるが類似したダイナミクスによって特徴づけられるターゲット環境へポリシーを移そうとする。我々は近年のImitation Learningと保守的RLアルゴリズムの進歩に触発された革新的なアプローチを提案する。
論文参考訳（メタデータ） (2023-12-24T13:09:08Z)
CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文参考訳（メタデータ） (2023-06-17T11:44:04Z)
Relative Policy-Transition Optimization for Fast Policy Transfer [18.966619060222634]
我々は2つのマルコフ決定過程(MDP)間の政策伝達の問題を考える。相対政策最適化(RPO)と相対遷移最適化(RTO)という2つの新しいアルゴリズムを提案する。 RPOは評価されたポリシーをある環境で転送し、別の環境でのリターンを最大化し、RTOはパラメータ化されたダイナミクスモデルを更新し、2つの環境のダイナミクス間のギャップを減らす。
論文参考訳（メタデータ） (2022-06-13T09:55:04Z)
Exploring Continuous Integrate-and-Fire for Adaptive Simultaneous Speech Translation [75.86581380817464]
SimulSTシステムは通常、音声情報を集約する事前決定と、読み書きを決定するポリシーの2つのコンポーネントを含む。本稿では,CIF(Continuous Integrate-and-Fire)を適用して適応政策をモデル化することを提案する。単調なマルチヘッドアテンション (MMA) と比較して,本手法はより単純な計算,低レイテンシにおける品質,長い発話の一般化に優れる。
論文参考訳（メタデータ） (2022-03-22T23:33:18Z)
Visual-Language Navigation Pretraining via Prompt-based Environmental Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文参考訳（メタデータ） (2022-03-08T11:01:24Z)
Learning Robust Policy against Disturbance in Transition Dynamics via State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文参考訳（メタデータ） (2021-12-20T13:13:05Z)
Adapting to Dynamic LEO-B5G Systems: Meta-Critic Learning Based Efficient Resource Scheduling [38.733584547351796]
オーバーロードされたLEO地上システムにおける2つの実用的課題に対処する。最初の課題は、膨大な数の接続されたユーザに対して、リソースを効率的にスケジュールする方法です。第2の課題は、動的無線環境への適応において、アルゴリズムによるソリューションをよりレジリエントにする方法だ。
論文参考訳（メタデータ） (2021-10-13T15:21:38Z)
Sim-to-Real Transfer with Incremental Environment Complexity for Reinforcement Learning of Depth-Based Robot Navigation [1.290382979353427]
段階的環境複雑性を用いたソフト・アクター・クリティカル(SAC)トレーニング戦略を提案し,実世界における追加トレーニングの必要性を大幅に低減した。アプリケーションは深度に基づくマップレスナビゲーションで、移動ロボットは、事前のマッピング情報なしで、散らかった環境で所定の経路点に到達すべきである。
論文参考訳（メタデータ） (2020-04-30T10:47:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。