論文の概要: Next-Future: Sample-Efficient Policy Learning for Robotic-Arm Tasks
- arxiv url: http://arxiv.org/abs/2504.11247v1
- Date: Tue, 15 Apr 2025 14:45:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:10:56.018414
- Title: Next-Future: Sample-Efficient Policy Learning for Robotic-Arm Tasks
- Title(参考訳): 次世代:ロボットアームタスクのためのサンプル効率のよい政策学習
- Authors: Fikrican Özgür, René Zurbrügg, Suryansh Kumar,
- Abstract要約: 我々は,単一ステップ遷移に対する報酬に焦点を当てた新しいリプレイ戦略「Next-Future」を紹介する。
このアプローチは、マルチゴールマルコフ決定過程の学習におけるサンプル効率と精度を大幅に向上させる。
- 参考スコア(独自算出の注目度): 6.991281327290525
- License:
- Abstract: Hindsight Experience Replay (HER) is widely regarded as the state-of-the-art algorithm for achieving sample-efficient multi-goal reinforcement learning (RL) in robotic manipulation tasks with binary rewards. HER facilitates learning from failed attempts by replaying trajectories with redefined goals. However, it relies on a heuristic-based replay method that lacks a principled framework. To address this limitation, we introduce a novel replay strategy, "Next-Future", which focuses on rewarding single-step transitions. This approach significantly enhances sample efficiency and accuracy in learning multi-goal Markov decision processes (MDPs), particularly under stringent accuracy requirements -- a critical aspect for performing complex and precise robotic-arm tasks. We demonstrate the efficacy of our method by highlighting how single-step learning enables improved value approximation within the multi-goal RL framework. The performance of the proposed replay strategy is evaluated across eight challenging robotic manipulation tasks, using ten random seeds for training. Our results indicate substantial improvements in sample efficiency for seven out of eight tasks and higher success rates in six tasks. Furthermore, real-world experiments validate the practical feasibility of the learned policies, demonstrating the potential of "Next-Future" in solving complex robotic-arm tasks.
- Abstract(参考訳): Hindsight Experience Replay (HER) は、二進的な報酬を伴うロボット操作タスクにおいて、サンプル効率のよいマルチゴール強化学習(RL)を実現するための最先端のアルゴリズムとして広く見なされている。
HERは、再定義された目標で軌道を再生することで失敗した試みから学習を容易にする。
しかし、これは原則的なフレームワークを欠いたヒューリスティックなリプレイ手法に依存している。
この制限に対処するために,単一ステップ遷移に対する報酬に焦点を当てた新しいリプレイ戦略 "Next-Future" を導入する。
このアプローチは多目標マルコフ決定プロセス(MDP)の学習におけるサンプル効率と精度を大幅に向上させ、特に厳格な精度要件の下では、複雑なロボットアームタスクを実行する上で重要な側面である。
本手法の有効性は,マルチゴールRLフレームワークにおいて,単段階学習が付加価値の近似をいかに向上させるかを強調することで実証する。
提案したリプレイ戦略の性能は,10個のランダムシードを用いて,8つの困難なロボット操作タスクで評価される。
その結果,8つのタスクのうち7つのタスクにおいて,サンプル効率が大幅に向上し,6つのタスクにおいて高い成功率が得られた。
さらに、実世界の実験は、複雑なロボットアームタスクの解決における「次世代」の可能性を実証し、学習されたポリシーの実現可能性を検証する。
関連論文リスト
- Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning [82.46975428739329]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Enhancing Robotic Navigation: An Evaluation of Single and
Multi-Objective Reinforcement Learning Strategies [0.9208007322096532]
本研究では,ロボットが目的達成に向けて効果的に移動できるよう訓練するための単目的と多目的の強化学習法の比較分析を行った。
報酬関数を変更して報酬のベクターを返却し、それぞれ異なる目的に関連付けることで、ロボットはそれぞれの目標を効果的にバランスさせるポリシーを学ぶ。
論文 参考訳(メタデータ) (2023-12-13T08:00:26Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - Exploiting Symmetry and Heuristic Demonstrations in Off-policy
Reinforcement Learning for Robotic Manipulation [1.7901837062462316]
本稿では,物理ロボット環境に存在する自然対称性を定義し,組み込むことを目的とする。
提案手法は,産業用アームの2つのポイント・ツー・ポイント・リーチタスクによって,障害物を伴わずに検証される。
提案手法と従来の非政治強化学習アルゴリズムとの比較研究は,アプリケーションにおける学習性能と潜在的価値の優位性を示している。
論文 参考訳(メタデータ) (2023-04-12T11:38:01Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Automatic Goal Generation using Dynamical Distance Learning [5.797847756967884]
強化学習(RL)エージェントは環境と対話することで複雑な逐次意思決定タスクを学習することができる。
エージェントが複雑なタスクを解くために複数の目標を達成する必要があるマルチゴールRLの分野では、サンプリング効率を改善することは特に困難である。
本稿では,動的距離関数(DDF)を用いた自動ゴール生成手法を提案する。
論文 参考訳(メタデータ) (2021-11-07T16:23:56Z) - Value-Based Reinforcement Learning for Continuous Control Robotic
Manipulation in Multi-Task Sparse Reward Settings [15.198729819644795]
スパース報酬設定における連続的なロボット操作タスクの学習における価値に基づく強化学習の可能性を示す。
ロボット操作タスクにおいて、RBF-DQNはTD3、SAC、PPOといった最先端のアルゴリズムよりも高速に収束することを示す。
また,RBF-DQNを用いてアブレーション研究を行い,HER (Hindsight Experience Replay) やPER ( Prioritized Experience Replay) などのバニラ深度Q学習の強化手法がRBF-DQNにも適用可能であることを示した。
論文 参考訳(メタデータ) (2021-07-28T13:40:08Z) - Reinforcement Learning Experiments and Benchmark for Solving Robotic
Reaching Tasks [0.0]
強化学習はロボットアームによる到達タスクの解決に成功している。
ハイドサイト体験再生探索技術により報奨信号の増大が, オフ・ポリティクス・エージェントの平均リターンを増加させることが示されている。
論文 参考訳(メタデータ) (2020-11-11T14:00:49Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。