論文の概要: Pretraining in Actor-Critic Reinforcement Learning for Robot Motion Control
- arxiv url: http://arxiv.org/abs/2510.12363v1
- Date: Tue, 14 Oct 2025 10:25:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.278301
- Title: Pretraining in Actor-Critic Reinforcement Learning for Robot Motion Control
- Title(参考訳): ロボット動作制御のためのアクタ・クリティカル強化学習の事前学習
- Authors: Jiale Fan, Andrei Cramariuc, Tifanny Portela, Marco Hutter,
- Abstract要約: この研究は、ニューラルネットワークモデルを事前学習するためのパラダイムを定義することを目的としている。
タスクに依存しない探索に基づくデータ収集アルゴリズムを用いて、多様な動的遷移データを収集する。
事前訓練された重みはアクターネットワークと批評家ネットワークの両方にロードされ、実際のタスクのポリシー最適化をウォームスタートさせる。
- 参考スコア(独自算出の注目度): 6.288719574558261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pretraining-finetuning paradigm has facilitated numerous transformative advancements in artificial intelligence research in recent years. However, in the domain of reinforcement learning (RL) for robot motion control, individual skills are often learned from scratch despite the high likelihood that some generalizable knowledge is shared across all task-specific policies belonging to a single robot embodiment. This work aims to define a paradigm for pretraining neural network models that encapsulate such knowledge and can subsequently serve as a basis for warm-starting the RL process in classic actor-critic algorithms, such as Proximal Policy Optimization (PPO). We begin with a task-agnostic exploration-based data collection algorithm to gather diverse, dynamic transition data, which is then used to train a Proprioceptive Inverse Dynamics Model (PIDM) through supervised learning. The pretrained weights are loaded into both the actor and critic networks to warm-start the policy optimization of actual tasks. We systematically validated our proposed method on seven distinct robot motion control tasks, showing significant benefits to this initialization strategy. Our proposed approach on average improves sample efficiency by 40.1% and task performance by 7.5%, compared to random initialization. We further present key ablation studies and empirical analyses that shed light on the mechanisms behind the effectiveness of our method.
- Abstract(参考訳): プレトレーニング・ファインタニングのパラダイムは、近年、人工知能研究における多くの変革的な進歩を促している。
しかしながら、ロボットの動き制御のための強化学習(RL)の分野では、個々のスキルは、単一のロボットの実施形態に属するタスク固有のポリシー間で、いくつかの一般化可能な知識が共有される可能性が高いにもかかわらず、スクラッチから学習されることが多い。
この研究は、これらの知識をカプセル化し、その後、PPO(Proximal Policy Optimization)のような古典的なアクター批判アルゴリズムでRLプロセスを温める基盤となるニューラルネットワークモデルを事前訓練するためのパラダイムを定義することを目的としている。
まず,タスクに依存しない探索に基づくデータ収集アルゴリズムを用いて,多種多様な動的遷移データを収集し,教師あり学習を通じてPIDM(Proprioceptive Inverse Dynamics Model)を訓練する。
事前訓練された重みはアクターネットワークと批評家ネットワークの両方にロードされ、実際のタスクのポリシー最適化をウォームスタートさせる。
提案手法を7つのロボット動作制御タスクに対して体系的に検証し,この初期化戦略に有意な効果を示した。
提案手法は, ランダム初期化と比較して, サンプル効率を40.1%向上し, タスク性能を7.5%向上させる。
さらに,本手法の有効性の背景にあるメカニズムに光を当てた重要なアブレーション研究と実証分析を行った。
関連論文リスト
- Next-Future: Sample-Efficient Policy Learning for Robotic-Arm Tasks [6.991281327290525]
我々は,単一ステップ遷移に対する報酬に焦点を当てた新しいリプレイ戦略「Next-Future」を紹介する。
このアプローチは、マルチゴールマルコフ決定過程の学習におけるサンプル効率と精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-15T14:45:51Z) - Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する,新しい値に基づく強化学習アルゴリズムを提案する。
実験により、CQN-ASは、様々なスパース逆ヒューマノイド制御およびテーブルトップ操作タスクにおいて、いくつかのベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Active Exploration in Bayesian Model-based Reinforcement Learning for Robot Manipulation [8.940998315746684]
ロボットアームのエンドタスクに対するモデルベース強化学習(RL)アプローチを提案する。
我々はベイズニューラルネットワークモデルを用いて、探索中に動的モデルに符号化された信念と情報の両方を確率論的に表現する。
実験により,ベイズモデルに基づくRL手法の利点が示された。
論文 参考訳(メタデータ) (2024-04-02T11:44:37Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [65.57123249246358]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - PASTA: Pretrained Action-State Transformer Agents [10.654719072766495]
自己教師型学習は、様々なコンピューティング領域において革命的なパラダイムシフトをもたらした。
最近のアプローチでは、大量のラベルのないデータに基づいて、トランスフォーマーモデルを事前訓練する。
強化学習において、研究者は最近これらのアプローチに適応し、専門家の軌道で事前訓練されたモデルを開発した。
論文 参考訳(メタデータ) (2023-07-20T15:09:06Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。