論文の概要: Online Behavior Modification for Expressive User Control of RL-Trained Robots
- arxiv url: http://arxiv.org/abs/2408.16776v1
- Date: Thu, 15 Aug 2024 12:28:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-08 15:56:29.370111
- Title: Online Behavior Modification for Expressive User Control of RL-Trained Robots
- Title(参考訳): RL学習ロボットの表情制御のためのオンライン行動修正
- Authors: Isaac Sheidlower, Mavis Murdock, Emma Bethel, Reuben M. Aronson, Elaine Schaertl Short,
- Abstract要約: オンライン行動修正は、RL学習ポリシーを用いてタスクを自律的に完了すると、ユーザがロボットの行動特性をリアルタイムで制御するパラダイムである。
本稿では,行動多様性に基づくアルゴリズム,ACORD(Adjustable Control of RL Dynamics)を提案する。
- 参考スコア(独自算出の注目度): 1.6078134198754157
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement Learning (RL) is an effective method for robots to learn tasks. However, in typical RL, end-users have little to no control over how the robot does the task after the robot has been deployed. To address this, we introduce the idea of online behavior modification, a paradigm in which users have control over behavior features of a robot in real time as it autonomously completes a task using an RL-trained policy. To show the value of this user-centered formulation for human-robot interaction, we present a behavior diversity based algorithm, Adjustable Control Of RL Dynamics (ACORD), and demonstrate its applicability to online behavior modification in simulation and a user study. In the study (n=23) users adjust the style of paintings as a robot traces a shape autonomously. We compare ACORD to RL and Shared Autonomy (SA), and show ACORD affords user-preferred levels of control and expression, comparable to SA, but with the potential for autonomous execution and robustness of RL.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、ロボットがタスクを学習するための効果的な方法である。
しかし、典型的なRLでは、ロボットが配備された後、エンドユーザーはロボットがどのようにタスクを行うかをほとんど制御できない。
そこで本研究では,ロボットが自律的にタスクを完了すると,ユーザがロボットの行動特性をリアルタイムで制御するパラダイムである,オンライン行動修正(オンライン行動修正)のアイデアを紹介する。
人-ロボットインタラクションにおけるこのユーザ中心の定式化の価値を示すために,行動多様性に基づくアルゴリズム,ACORD(Adjustable Control of RL Dynamics)を提案する。
研究(n=23)では、ロボットが自律的に形をトレースするので、ユーザは絵のスタイルを調整します。
ACORD と RL と共有自律性 (Shared Autonomy, SA) を比較し,ACORD は,SA に匹敵するユーザ優先の制御と表現のレベルを持つが,自律的な実行と RL の堅牢性の可能性を示す。
関連論文リスト
- Imagining In-distribution States: How Predictable Robot Behavior Can Enable User Control Over Learned Policies [1.6078134198754157]
Imaginary Out-of-Distribution Actions, IODAは, ロボットの行動に対する期待を利用して新しいタスクを遂行するアルゴリズムである。
IODAは、タスクパフォーマンスの向上と、ロボットの動作とユーザの期待の一致の度合いの向上につながる。
論文 参考訳(メタデータ) (2024-06-19T17:08:28Z) - Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control [106.32794844077534]
本稿では,二足歩行ロボットのための動的移動制御系を構築するために,深層強化学習を用いた研究について述べる。
本研究では、周期歩行やランニングから周期ジャンプや立位に至るまで、様々な動的二足歩行技術に使用できる汎用的な制御ソリューションを開発する。
この研究は、二足歩行ロボットの俊敏性の限界を、現実世界での広範な実験を通じて押し上げる。
論文 参考訳(メタデータ) (2024-01-30T10:48:43Z) - Modifying RL Policies with Imagined Actions: How Predictable Policies
Can Enable Users to Perform Novel Tasks [0.0]
強化学習に基づくロボットにアクセス可能なユーザは、ロボットの自律性とその行動に関する知識を使用して、新しいタスクを完了したいと考えるかもしれない。
1つの方法は、ユーザが遠隔操作によってロボットのアクション空間の一部を制御し、RLポリシーが残りを同時に制御することである。
本研究では,この問題を形式化し,Imaginary Out-of-Distribution Actions(IODA)を提示する。
論文 参考訳(メタデータ) (2023-12-10T20:40:45Z) - Grow Your Limits: Continuous Improvement with Real-World RL for Robotic
Locomotion [66.69666636971922]
本稿では,ロボットの学習過程における探索を調節するポリシー正規化フレームワークであるAPRLを提案する。
APRLは四足歩行ロボットを、数分で完全に現実世界を歩けるように効率よく学習する。
論文 参考訳(メタデータ) (2023-10-26T17:51:46Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Combining model-predictive control and predictive reinforcement learning
for stable quadrupedal robot locomotion [0.0]
モデル予測型と予測型強化型学習コントローラの組み合わせによりこれを実現できるかを検討する。
本研究では,両制御手法を組み合わせて,四足歩行ロボットの安定ゲート生成問題に対処する。
論文 参考訳(メタデータ) (2023-07-15T09:22:37Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - Human-AI Shared Control via Frequency-based Policy Dissection [34.0399894373716]
人間-AI共有制御は、複雑な環境で制御タスクを達成するために、人間がAIと対話し、協力することを可能にする。
従来の強化学習(RL)手法は、人間の制御可能なポリシーを達成するために目標条件付き設計を試みる。
我々は、学習したニューラルコントローラの中間表現とエージェント動作の運動特性を整合させる、TextitPolicy Dissectionと呼ばれるシンプルで効果的な周波数ベースのアプローチを開発した。
論文 参考訳(メタデータ) (2022-05-31T23:57:55Z) - Verifying Learning-Based Robotic Navigation Systems [61.01217374879221]
有効モデル選択に現代検証エンジンをどのように利用できるかを示す。
具体的には、検証を使用して、最適下行動を示す可能性のあるポリシーを検出し、除外する。
我々の研究は、現実世界のロボットにおける準最適DRLポリシーを認識するための検証バックエンドの使用を初めて実証したものである。
論文 参考訳(メタデータ) (2022-05-26T17:56:43Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Learning Force Control for Contact-rich Manipulation Tasks with Rigid
Position-controlled Robots [9.815369993136512]
従来の力制御とRL手法を組み合わせた学習に基づく力制御フレームワークを提案する。
このような制御方式の中で,位置制御ロボットによる力制御を実現するために,従来の2つの手法を実装した。
最後に,実剛性ロボットマニピュレータを用いた操作作業において,RLエージェントを安全に訓練するためのフェールセーフ機構を開発した。
論文 参考訳(メタデータ) (2020-03-02T01:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。