論文の概要: Quantifying the Effect of Feedback Frequency in Interactive
Reinforcement Learning for Robotic Tasks
- arxiv url: http://arxiv.org/abs/2207.09845v1
- Date: Wed, 20 Jul 2022 12:17:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 13:02:20.448121
- Title: Quantifying the Effect of Feedback Frequency in Interactive
Reinforcement Learning for Robotic Tasks
- Title(参考訳): ロボット作業における相互強化学習におけるフィードバック周波数の影響の定量化
- Authors: Daniel Harnack and Julie Pivin-Bachler and Nicol\'as Navarro-Guerrero
- Abstract要約: 強化学習はロボット制御において広く採用されている。
対話的なフィードバックはRLを著しく高速化する。
どのフィードバック頻度が最適かについては合意がない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has become widely adopted in robot control.
Despite many successes, one major persisting problem can be very low data
efficiency. One solution is interactive feedback, which has been shown to speed
up RL considerably. As a result, there is an abundance of different strategies,
which are, however, primarily tested on discrete grid-world and small scale
optimal control scenarios. In the literature, there is no consensus about which
feedback frequency is optimal or at which time the feedback is most beneficial.
To resolve these discrepancies we isolate and quantify the effect of feedback
frequency in robotic tasks with continuous state and action spaces. The
experiments encompass inverse kinematics learning for robotic manipulator arms
of different complexity. We show that seemingly contradictory reported
phenomena occur at different complexity levels. Furthermore, our results
suggest that no single ideal feedback frequency exists. Rather that feedback
frequency should be changed as the agent's proficiency in the task increases.
- Abstract(参考訳): 強化学習(RL)はロボット制御において広く採用されている。
多くの成功にもかかわらず、1つの大きな問題は、非常に低いデータ効率である。
1つの解決策はインタラクティブなフィードバックであり、RLを大幅に高速化することが示されている。
結果として、多くの異なる戦略が存在するが、これは主に離散グリッドワールドと小規模の最適制御シナリオでテストされている。
文献では、どのフィードバック周波数が最適か、どの時点でフィードバックが最も有益かについてのコンセンサスはない。
これらの相違を解決するために,ロボット作業におけるフィードバック周波数の影響を連続状態と行動空間で分離,定量化する。
この実験は、複雑なロボットマニピュレータアームの逆運動学学習を包含する。
異なる複雑性レベルでは、一見矛盾した報告現象が発生する。
さらに, 理想的なフィードバック周波数は1つも存在しないことが示唆された。
むしろ、エージェントのタスクの習熟度が増加するにつれて、フィードバックの頻度を変更するべきである。
関連論文リスト
- Reinforcement Learning with Segment Feedback [56.54271464134885]
状態ごとの反応フィードバックと軌道フィードバックのギャップを埋める一般的なパラダイムを提供するRLというモデルを考える。
バイナリフィードバックの下では、$m$のセグメント数の増加は指数率で後悔を減少させるが、驚くべきことに、和フィードバックの下では、$m$の増加は後悔を著しく減少させるものではない。
論文 参考訳(メタデータ) (2025-02-03T23:08:42Z) - Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,新しい値に基づく強化学習アルゴリズムであるCQN-AS(Coarse-to-fine Q-Network with Action Sequence)を紹介する。
我々は,53のロボットタスクに対して,疎密かつ高密度な報酬と実演と無実の報酬を用いたアルゴリズムを検討した。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - Primitive Skill-based Robot Learning from Human Evaluative Feedback [28.046559859978597]
強化学習アルゴリズムは、現実世界環境における長期ロボット操作タスクを扱う際に、課題に直面している。
本稿では,人間フィードバックからの強化学習(RLHF)と原始的スキルベース強化学習の2つのアプローチを活用する新しいフレームワークSEEDを提案する。
以上の結果から,SEEDはサンプル効率と安全性において最先端のRLアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T20:48:30Z) - Dynamic Decision Frequency with Continuous Options [11.83290684845269]
古典的な強化学習アルゴリズムでは、エージェントは離散時間と一定時間間隔で決定を行う。
本研究では,連続時間連続オプティオン(CTCO)と呼ばれるフレームワークを提案する。
本研究では,環境相互作用の周波数選択の影響を受けないことを示す。
論文 参考訳(メタデータ) (2022-12-06T19:51:12Z) - Offline Reinforcement Learning at Multiple Frequencies [62.08749079914275]
本研究では、オフライン強化学習アルゴリズムが、トレーニング中に複数の周波数を混合したデータに対応できるかどうかについて検討する。
学習を安定させるために$Q$-valueの更新率で一貫性を強制する、単純だが効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:54:49Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Robust Policies via Mid-Level Visual Representations: An Experimental
Study in Manipulation and Navigation [115.4071729927011]
エンド・ツー・エンドのRLフレームワークにおいて,中間レベルの視覚表現を汎用的かつ容易に認識可能な知覚状態として用いることの効果について検討した。
一般化を支援し、サンプルの複雑さを改善し、最終的なパフォーマンスを高めることを示します。
実際には、ドメインのランダム化やスクラッチからの学習が失敗したタスクのポリシーをうまくトレーニングするために、中間レベルの表現が使用できる。
論文 参考訳(メタデータ) (2020-11-13T00:16:05Z) - Robust Learning with Frequency Domain Regularization [1.370633147306388]
モデルのフィルタの周波数スペクトルを制約し,新しい正規化手法を提案する。
本研究では,(1)対向的摂動を抑えること,(2)異なるアーキテクチャにおける一般化のギャップを小さくすること,(3)微調整を伴わない伝達学習シナリオにおける一般化能力を向上させることによる正規化の有効性を実証する。
論文 参考訳(メタデータ) (2020-07-07T07:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。