論文の概要: Actor-Critic Pretraining for Proximal Policy Optimization
- arxiv url: http://arxiv.org/abs/2602.23804v1
- Date: Fri, 27 Feb 2026 08:43:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.331354
- Title: Actor-Critic Pretraining for Proximal Policy Optimization
- Title(参考訳): 近接政策最適化のためのアクタ・クライブ事前学習
- Authors: Andreas Kernbach, Amr Elsheikh, Nicolas Grupp, René Nagel, Marco F. Huber,
- Abstract要約: 本稿では,PPO(Proximal Policy Optimization)のようなアクター批判アルゴリズムに対する事前学習手法を提案する。
アクターは行動クローンにより事前訓練され、批評家は事前訓練されたポリシーのロールアウトから得られるリターンを用いて事前訓練される。
実験結果から, アクタークリティカルプレトレーニングは, プレトレーニングを行わない平均86.1%, アクター専用プレトレーニングでは30.9%, サンプル効率は86.1%向上した。
- 参考スコア(独自算出の注目度): 2.7575165233051693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) actor-critic algorithms enable autonomous learning but often require a large number of environment interactions, which limits their applicability in robotics. Leveraging expert data can reduce the number of required environment interactions. A common approach is actor pretraining, where the actor network is initialized via behavioral cloning on expert demonstrations and subsequently fine-tuned with RL. In contrast, the initialization of the critic network has received little attention, despite its central role in policy optimization. This paper proposes a pretraining approach for actor-critic algorithms like Proximal Policy Optimization (PPO) that uses expert demonstrations to initialize both networks. The actor is pretrained via behavioral cloning, while the critic is pretrained using returns obtained from rollouts of the pretrained policy. The approach is evaluated on 15 simulated robotic manipulation and locomotion tasks. Experimental results show that actor-critic pretraining improves sample efficiency by 86.1% on average compared to no pretraining and by 30.9% to actor-only pretraining.
- Abstract(参考訳): 強化学習(RL)アクター批判アルゴリズムは、自律的な学習を可能にするが、しばしば多くの環境相互作用を必要とし、ロボット工学における適用性を制限する。
専門家データを活用することで、必要な環境相互作用の数を減らすことができる。
一般的なアプローチはアクター事前訓練であり、アクターネットワークは専門家によるデモンストレーションの行動クローンによって初期化され、その後RLで微調整される。
対照的に、政策最適化における中心的な役割にもかかわらず、批評家ネットワークの初期化はほとんど注目されていない。
本稿では,PPO (Proximal Policy Optimization) のようなアクタークリティカルなアルゴリズムに対する事前学習手法を提案する。
アクターは行動クローンにより事前訓練され、批評家は事前訓練されたポリシーのロールアウトから得られるリターンを用いて事前訓練される。
この手法は15の模擬ロボット操作と移動タスクで評価される。
実験結果から, アクタークリティカルプレトレーニングは, プレトレーニングを行わない平均86.1%, アクター専用プレトレーニングでは30.9%, サンプル効率は86.1%向上した。
関連論文リスト
- A Rubric-Supervised Critic from Sparse Real-World Outcomes [87.11204512676193]
現実のコーディングエージェントは、成功信号がノイズが多く、遅延し、スパースであるループで人間と動作します。
本稿では,RLに基づくトレーニングや推論時間スケーリングの報奨モデルとして,スパースとノイズの相互作用データから"批判的"モデルを学習するプロセスを提案する。
論文 参考訳(メタデータ) (2026-03-04T07:23:54Z) - Pretraining in Actor-Critic Reinforcement Learning for Robot Motion Control [6.288719574558261]
この研究は、ニューラルネットワークモデルを事前学習するためのパラダイムを定義することを目的としている。
タスクに依存しない探索に基づくデータ収集アルゴリズムを用いて、多様な動的遷移データを収集する。
事前訓練された重みはアクターネットワークと批評家ネットワークの両方にロードされ、実際のタスクのポリシー最適化をウォームスタートさせる。
論文 参考訳(メタデータ) (2025-10-14T10:25:40Z) - Learning to Reason as Action Abstractions with Scalable Mid-Training RL [55.24192942739207]
効果的な中間訓練フェーズは、有用なアクションのコンパクトなセットを特定し、高速な選択を可能にする。
本稿では,スケーラブルなミッドトレーニングアルゴリズムであるReasoning as Action Abstractions (RA3)を提案する。
論文 参考訳(メタデータ) (2025-09-30T05:34:20Z) - RLP: Reinforcement as a Pretraining Objective [103.45068938532923]
我々は,情報駆動型強化事前訓練の目的として,強化学習のコアスピリットである探索を,事前訓練の最終段階に導くことを提案する。
このトレーニングの目的は、モデルが次に何が起こるかを予測する前に、自分自身で考えることを奨励し、事前学習の早い段階で独立した思考行動を教えることである。
特に、RLPは、通常のテキストにおける事前学習対象としての推論のための強化学習を再構築し、次のトーケン予測と有用な連鎖推論の出現の間のギャップを埋める。
論文 参考訳(メタデータ) (2025-09-26T17:53:54Z) - What Matters for Batch Online Reinforcement Learning in Robotics? [65.06558240091758]
政策改善のために、自律的に収集された大量のデータから学習できることは、真にスケーラブルなロボット学習を可能にするという約束を支えている。
これまで、オンラインRL問題に模倣学習とフィルタ模倣学習を適用してきた。
これらの軸が自律的なデータ量でパフォーマンスとスケーリングにどのように影響するかを分析します。
論文 参考訳(メタデータ) (2025-05-12T21:24:22Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - PAC-Bayesian Soft Actor-Critic Learning [9.752336113724928]
アクター批判アルゴリズムは、強化学習(RL)と政策評価と2つの関数近似器による改善という2つの目標に対処する。
我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)ベイズ境界を初めて採用することによって対処する。
論文 参考訳(メタデータ) (2023-01-30T10:44:15Z) - Actor-Director-Critic: A Novel Deep Reinforcement Learning Framework [2.6477113498726244]
深層強化学習のための新しい枠組みであるアクター・ディレクタ・クリティカルを提案する。
使用した2つの批評家ネットワークに対して、1つではなく2つの批評家ネットワークを設計する。
アクター・ディレクタ・クリティック・フレームワークの性能検証と改良された2重推定器法をTD3アルゴリズムに適用した。
論文 参考訳(メタデータ) (2023-01-10T10:21:32Z) - Actor Prioritized Experience Replay [0.0]
優先度付き体験再生(PER)では、エージェントは時間差誤差(TD)に比例した非一様確率でサンプリングされた遷移から学習することができる。
本稿では,アクター・クリティカルな手法に対する新しい経験リプレイ・サンプリング・フレームワークを紹介し,安定性の問題やPERの実証的性能の低下の背景にある最近の知見についても考察する。
我々の理論的主張を検証し、導入した手法が競合するアプローチを著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-09-01T15:27:46Z) - Single-Timescale Actor-Critic Provably Finds Globally Optimal Policy [122.01837436087516]
我々は、強化学習アルゴリズムの最も一般的なファミリーの一つであるアクター批判のグローバル収束とグローバル最適性について研究する。
線形関数近似を用いたシングルタイムスケールアクター批評家の収束率と大域的最適性を確立した。
論文 参考訳(メタデータ) (2020-08-02T14:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。