論文の概要: Modifying RL Policies with Imagined Actions: How Predictable Policies
Can Enable Users to Perform Novel Tasks
- arxiv url: http://arxiv.org/abs/2312.05991v1
- Date: Sun, 10 Dec 2023 20:40:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 17:43:52.453710
- Title: Modifying RL Policies with Imagined Actions: How Predictable Policies
Can Enable Users to Perform Novel Tasks
- Title(参考訳): 想像上のアクションによるRLポリシーの修正:新しいタスクの実行を可能にする予測可能なポリシー
- Authors: Isaac Sheidlower, Reuben Aronson, Elaine Short
- Abstract要約: 強化学習に基づくロボットにアクセス可能なユーザは、ロボットの自律性とその行動に関する知識を使用して、新しいタスクを完了したいと考えるかもしれない。
1つの方法は、ユーザが遠隔操作によってロボットのアクション空間の一部を制御し、RLポリシーが残りを同時に制御することである。
本研究では,この問題を形式化し,Imaginary Out-of-Distribution Actions(IODA)を提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: It is crucial that users are empowered to use the functionalities of a robot
to creatively solve problems on the fly. A user who has access to a
Reinforcement Learning (RL) based robot may want to use the robot's autonomy
and their knowledge of its behavior to complete new tasks. One way is for the
user to take control of some of the robot's action space through teleoperation
while the RL policy simultaneously controls the rest. However, an
out-of-the-box RL policy may not readily facilitate this. For example, a user's
control may bring the robot into a failure state from the policy's perspective,
causing it to act in a way the user is not familiar with, hindering the success
of the user's desired task. In this work, we formalize this problem and present
Imaginary Out-of-Distribution Actions, IODA, an initial algorithm for
addressing that problem and empowering user's to leverage their expectation of
a robot's behavior to accomplish new tasks.
- Abstract(参考訳): ユーザーは、ロボットの機能を利用して、リアルタイムで問題を創造的に解決できることが重要です。
強化学習(rl)ベースのロボットにアクセス可能なユーザーは、ロボットの自律性とその行動に関する知識を使って新しいタスクを完了させたいかもしれない。
1つの方法は、ユーザが遠隔操作によってロボットのアクション空間の一部を制御し、RLポリシーが残りを同時に制御することである。
しかし、既定のrlポリシーは簡単には実現できないかもしれない。
例えば、ユーザのコントロールは、ポリシーの観点からロボットを障害状態にし、ユーザが慣れていない方法で動作させることで、ユーザの望むタスクの成功を妨げる可能性がある。
本稿では,この課題を定式化し,その問題に対処し,ロボットの行動に対する期待を生かして新たなタスクを実現するための初期アルゴリズムであるiodaを提案する。
関連論文リスト
- Online Behavior Modification for Expressive User Control of RL-Trained Robots [1.6078134198754157]
オンライン行動修正は、RL学習ポリシーを用いてタスクを自律的に完了すると、ユーザがロボットの行動特性をリアルタイムで制御するパラダイムである。
本稿では,行動多様性に基づくアルゴリズム,ACORD(Adjustable Control of RL Dynamics)を提案する。
論文 参考訳(メタデータ) (2024-08-15T12:28:08Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - Imagining In-distribution States: How Predictable Robot Behavior Can Enable User Control Over Learned Policies [1.6078134198754157]
Imaginary Out-of-Distribution Actions, IODAは, ロボットの行動に対する期待を利用して新しいタスクを遂行するアルゴリズムである。
IODAは、タスクパフォーマンスの向上と、ロボットの動作とユーザの期待の一致の度合いの向上につながる。
論文 参考訳(メタデータ) (2024-06-19T17:08:28Z) - Interactive Robot Learning from Verbal Correction [42.37176329867376]
OLAFは、ロボットがミスをしたとき、言葉で訂正するロボットを教える。
OLAFの重要な特徴は、言葉のフィードバックに基づいてロボットの視覚運動神経ポリシーを更新する能力である。
本研究では,ユーザがロボットに長期操作タスクを指示する実験において,設計の有効性を実証する。
論文 参考訳(メタデータ) (2023-10-26T16:46:12Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - Dexterous Manipulation from Images: Autonomous Real-World RL via Substep
Guidance [71.36749876465618]
本稿では,ユーザが新しいタスクを定義するための"プログラミング不要"なアプローチを提供する,視覚に基づくデクスタラスな操作システムについて述べる。
本システムには,最終タスクと中間タスクを画像例で定義するためのフレームワークが組み込まれている。
実世界における多段階物体操作の4指ロボットハンドラーによる実験結果
論文 参考訳(メタデータ) (2022-12-19T22:50:40Z) - Verifying Learning-Based Robotic Navigation Systems [61.01217374879221]
有効モデル選択に現代検証エンジンをどのように利用できるかを示す。
具体的には、検証を使用して、最適下行動を示す可能性のあるポリシーを検出し、除外する。
我々の研究は、現実世界のロボットにおける準最適DRLポリシーを認識するための検証バックエンドの使用を初めて実証したものである。
論文 参考訳(メタデータ) (2022-05-26T17:56:43Z) - ASHA: Assistive Teleoperation via Human-in-the-Loop Reinforcement
Learning [91.58711082348293]
オンラインユーザからのフィードバックからシステムのパフォーマンスに関する強化学習は、この問題に対する自然な解決策である。
このアプローチでは、特にフィードバックが不足している場合には、ループ内の大量のトレーニングデータが必要になる傾向があります。
疎いユーザフィードバックから効率的に学習する階層型ソリューションを提案する。
論文 参考訳(メタデータ) (2022-02-05T02:01:19Z) - Lifelong Robotic Reinforcement Learning by Retaining Experiences [61.79346922421323]
多くのマルチタスク強化学習は、ロボットが常にすべてのタスクからデータを収集できると仮定している。
本研究では,物理ロボットシステムの実用的制約を動機として,現実的なマルチタスクRL問題について検討する。
我々は、ロボットのスキルセットを累積的に成長させるために、過去のタスクで学んだデータとポリシーを効果的に活用するアプローチを導出する。
論文 参考訳(メタデータ) (2021-09-19T18:00:51Z) - SQUIRL: Robust and Efficient Learning from Video Demonstration of
Long-Horizon Robotic Manipulation Tasks [8.756012472587601]
深層強化学習(RL)は複雑な操作タスクを学習するために用いられる。
RLは、ロボットが大量の現実世界の経験を収集する必要がある。
SQUIRLは、単一のビデオデモしか持たない、新しいが関連するロングホライゾンタスクを実行する。
論文 参考訳(メタデータ) (2020-03-10T20:26:26Z) - Learning Force Control for Contact-rich Manipulation Tasks with Rigid
Position-controlled Robots [9.815369993136512]
従来の力制御とRL手法を組み合わせた学習に基づく力制御フレームワークを提案する。
このような制御方式の中で,位置制御ロボットによる力制御を実現するために,従来の2つの手法を実装した。
最後に,実剛性ロボットマニピュレータを用いた操作作業において,RLエージェントを安全に訓練するためのフェールセーフ機構を開発した。
論文 参考訳(メタデータ) (2020-03-02T01:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。