論文の概要: Deep Reinforcement Learning for Haptic Shared Control in Unknown Tasks
- arxiv url: http://arxiv.org/abs/2101.06227v1
- Date: Fri, 15 Jan 2021 17:27:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-28 11:12:35.971003
- Title: Deep Reinforcement Learning for Haptic Shared Control in Unknown Tasks
- Title(参考訳): 未知課題における触覚共有制御のための深層強化学習
- Authors: Franklin Carde\~noso Fernandez and Wouter Caarls
- Abstract要約: Haptic Share Control (HSC) は遠隔操作システムにおける直接遠隔操作の代替である。
仮想誘導力の応用は、ユーザの制御労力を減少させ、様々なタスクの実行時間を改善する。
課題は、実行中のタスクに対して最適なガイド力を提供するためのコントローラの開発にある。
この研究は、支援を提供するための深い決定論的ポリシー勾配(DDPG)アルゴリズムとタスク検出を実行するための畳み込みニューラルネットワーク(CNN)に基づいてコントローラを設計することで、この問題に対処する。
- 参考スコア(独自算出の注目度): 1.0635248457021496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have shown a growing interest in using haptic shared control
(HSC) in teleoperated systems. In HSC, the application of virtual guiding
forces decreases the user's control effort and improves execution time in
various tasks, presenting a good alternative in comparison with direct
teleoperation. HSC, despite demonstrating good performance, opens a new gap:
how to design the guiding forces. For this reason, the challenge lies in
developing controllers to provide the optimal guiding forces for the tasks that
are being performed. This work addresses this challenge by designing a
controller based on the deep deterministic policy gradient (DDPG) algorithm to
provide the assistance, and a convolutional neural network (CNN) to perform the
task detection, called TAHSC (Task Agnostic Haptic Shared Controller). The
agent learns to minimize the time it takes the human to execute the desired
task, while simultaneously minimizing their resistance to the provided
feedback. This resistance thus provides the learning algorithm with information
about which direction the human is trying to follow, in this case, the
pick-and-place task. Diverse results demonstrate the successful application of
the proposed approach by learning custom policies for each user who was asked
to test the system. It exhibits stable convergence and aids the user in
completing the task with the least amount of time possible.
- Abstract(参考訳): 近年,遠隔操作システムにおける触覚共有制御(HSC)への関心が高まっている。
HSCでは、仮想誘導力の適用により、ユーザの制御労力が減少し、様々なタスクの実行時間が改善され、直接遠隔操作と比較して優れた代替手段が提示される。
hscは、優れたパフォーマンスを示しているにもかかわらず、新たなギャップを開く。
このため、この課題は、実行中のタスクに対して最適な誘導力を提供するためのコントローラの開発にある。
この研究は、支援を提供するためのDeep Deterministic Policy gradient(DDPG)アルゴリズムと、タスク検出を行う畳み込みニューラルネットワーク(CNN)に基づいて、TAHSC(Task Agnostic Haptic Shared Controller)と呼ばれるコントローラを設計することで、この問題に対処する。
エージェントは、人間が所望のタスクを実行するのに要する時間を最小化し、同時に提供されたフィードバックに対する抵抗を最小化する。
この抵抗により、学習アルゴリズムは、人間が追跡しようとしている方向、この場合、ピック・アンド・プレイス・タスクに関する情報を提供する。
様々な結果から,システムテストの依頼を受けたユーザ毎に独自のポリシーを学習することで,提案手法の適用性が実証された。
安定した収束を示し、最小限の時間でタスクを完了させるのに役立つ。
関連論文リスト
- Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration [13.053013407015628]
本稿では,不確実な力学を持つシステムに対する最適制御ポリシーの学習問題に対処する。
本稿では,競争的アプローチよりもはるかに高速に制御ポリシーを学習できる高速化されたRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-16T00:53:41Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Scaling Learning based Policy Optimization for Temporal Logic Tasks by Controller Network Dropout [4.421486904657393]
非線形環境下で動作する自律エージェントに対して,フィードバックコントローラを訓練するためのモデルに基づくアプローチを提案する。
この学習問題は、エージェントのタスク目標の時間的地平線に比例して繰り返し単位の数が比例する、リカレントニューラルネットワーク(RNN)のトレーニングとどのように似ているかを示す。
そこで我々は,ドロップアウトあるいは勾配サンプリングのアイデアに基づく新しい勾配近似アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-23T12:53:51Z) - Verified Compositional Neuro-Symbolic Control for Stochastic Systems
with Temporal Logic Tasks [11.614036749291216]
自律エージェントのためのニューラルネットワーク(NN)コントローラを学ぶために、最近いくつかの方法が提案されている。
これらのアプローチにおける重要な課題は、しばしば安全保証が欠如しているか、提供された保証が現実的でないことである。
本稿では,訓練されたNNコントローラの時間的構成が存在するかどうかを確認することで,この問題に対処することを目的とする。
論文 参考訳(メタデータ) (2023-11-17T20:51:24Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - CLUTR: Curriculum Learning via Unsupervised Task Representation Learning [130.79246770546413]
CLUTRは、タスク表現とカリキュラム学習を2段階最適化に分離する、新しいカリキュラム学習アルゴリズムである。
CLUTRは、CarRacingとナビゲーション環境における一般化とサンプル効率の観点から、原則的かつ一般的なUED手法であるPAIREDよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-19T01:45:29Z) - Computation Offloading and Resource Allocation in F-RANs: A Federated
Deep Reinforcement Learning Approach [67.06539298956854]
フォグ無線アクセスネットワーク(フォグ無線アクセスネットワーク、F-RAN)は、ユーザのモバイルデバイス(MD)が計算タスクを近くのフォグアクセスポイント(F-AP)にオフロードできる有望な技術である。
論文 参考訳(メタデータ) (2022-06-13T02:19:20Z) - Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。
高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-06-12T04:09:39Z) - Accelerated Reinforcement Learning for Temporal Logic Control Objectives [10.216293366496688]
本稿では,未知マルコフ決定過程(MDP)をモデル化した移動ロボットの学習制御ポリシーの問題に対処する。
本稿では,制御ポリシを関連手法よりもはるかに高速に学習可能な制御対象に対するモデルベース強化学習(RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-09T17:09:51Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。