論文の概要: Quantifying the Effect of Feedback Frequency in Interactive
Reinforcement Learning for Robotic Tasks
- arxiv url: http://arxiv.org/abs/2207.09845v1
- Date: Wed, 20 Jul 2022 12:17:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 13:02:20.448121
- Title: Quantifying the Effect of Feedback Frequency in Interactive
Reinforcement Learning for Robotic Tasks
- Title(参考訳): ロボット作業における相互強化学習におけるフィードバック周波数の影響の定量化
- Authors: Daniel Harnack and Julie Pivin-Bachler and Nicol\'as Navarro-Guerrero
- Abstract要約: 強化学習はロボット制御において広く採用されている。
対話的なフィードバックはRLを著しく高速化する。
どのフィードバック頻度が最適かについては合意がない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has become widely adopted in robot control.
Despite many successes, one major persisting problem can be very low data
efficiency. One solution is interactive feedback, which has been shown to speed
up RL considerably. As a result, there is an abundance of different strategies,
which are, however, primarily tested on discrete grid-world and small scale
optimal control scenarios. In the literature, there is no consensus about which
feedback frequency is optimal or at which time the feedback is most beneficial.
To resolve these discrepancies we isolate and quantify the effect of feedback
frequency in robotic tasks with continuous state and action spaces. The
experiments encompass inverse kinematics learning for robotic manipulator arms
of different complexity. We show that seemingly contradictory reported
phenomena occur at different complexity levels. Furthermore, our results
suggest that no single ideal feedback frequency exists. Rather that feedback
frequency should be changed as the agent's proficiency in the task increases.
- Abstract(参考訳): 強化学習(RL)はロボット制御において広く採用されている。
多くの成功にもかかわらず、1つの大きな問題は、非常に低いデータ効率である。
1つの解決策はインタラクティブなフィードバックであり、RLを大幅に高速化することが示されている。
結果として、多くの異なる戦略が存在するが、これは主に離散グリッドワールドと小規模の最適制御シナリオでテストされている。
文献では、どのフィードバック周波数が最適か、どの時点でフィードバックが最も有益かについてのコンセンサスはない。
これらの相違を解決するために,ロボット作業におけるフィードバック周波数の影響を連続状態と行動空間で分離,定量化する。
この実験は、複雑なロボットマニピュレータアームの逆運動学学習を包含する。
異なる複雑性レベルでは、一見矛盾した報告現象が発生する。
さらに, 理想的なフィードバック周波数は1つも存在しないことが示唆された。
むしろ、エージェントのタスクの習熟度が増加するにつれて、フィードバックの頻度を変更するべきである。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - Primitive Skill-based Robot Learning from Human Evaluative Feedback [28.046559859978597]
強化学習アルゴリズムは、現実世界環境における長期ロボット操作タスクを扱う際に、課題に直面している。
本稿では,人間フィードバックからの強化学習(RLHF)と原始的スキルベース強化学習の2つのアプローチを活用する新しいフレームワークSEEDを提案する。
以上の結果から,SEEDはサンプル効率と安全性において最先端のRLアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T20:48:30Z) - Dynamic Decision Frequency with Continuous Options [11.83290684845269]
古典的な強化学習アルゴリズムでは、エージェントは離散時間と一定時間間隔で決定を行う。
本研究では,連続時間連続オプティオン(CTCO)と呼ばれるフレームワークを提案する。
本研究では,環境相互作用の周波数選択の影響を受けないことを示す。
論文 参考訳(メタデータ) (2022-12-06T19:51:12Z) - Offline Reinforcement Learning at Multiple Frequencies [62.08749079914275]
本研究では、オフライン強化学習アルゴリズムが、トレーニング中に複数の周波数を混合したデータに対応できるかどうかについて検討する。
学習を安定させるために$Q$-valueの更新率で一貫性を強制する、単純だが効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:54:49Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Reset-Free Reinforcement Learning via Multi-Task Learning: Learning
Dexterous Manipulation Behaviors without Human Intervention [67.1936055742498]
マルチタスク学習は、リセットフリーの学習スキームをはるかに複雑な問題に効果的にスケールできることを示す。
この研究は、人間の介入なしにRLを用いて現実世界での巧妙な操作行動を学ぶ能力を示す。
論文 参考訳(メタデータ) (2021-04-22T17:38:27Z) - Robust Policies via Mid-Level Visual Representations: An Experimental
Study in Manipulation and Navigation [115.4071729927011]
エンド・ツー・エンドのRLフレームワークにおいて,中間レベルの視覚表現を汎用的かつ容易に認識可能な知覚状態として用いることの効果について検討した。
一般化を支援し、サンプルの複雑さを改善し、最終的なパフォーマンスを高めることを示します。
実際には、ドメインのランダム化やスクラッチからの学習が失敗したタスクのポリシーをうまくトレーニングするために、中間レベルの表現が使用できる。
論文 参考訳(メタデータ) (2020-11-13T00:16:05Z) - Robust Learning with Frequency Domain Regularization [1.370633147306388]
モデルのフィルタの周波数スペクトルを制約し,新しい正規化手法を提案する。
本研究では,(1)対向的摂動を抑えること,(2)異なるアーキテクチャにおける一般化のギャップを小さくすること,(3)微調整を伴わない伝達学習シナリオにおける一般化能力を向上させることによる正規化の有効性を実証する。
論文 参考訳(メタデータ) (2020-07-07T07:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。