論文の概要: Experience-Efficient Model-Free Deep Reinforcement Learning Using Pre-Training
- arxiv url: http://arxiv.org/abs/2510.10029v1
- Date: Sat, 11 Oct 2025 05:15:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.744137
- Title: Experience-Efficient Model-Free Deep Reinforcement Learning Using Pre-Training
- Title(参考訳): 事前学習を用いたモデルなし深層強化学習の経験
- Authors: Ruoxing Yang,
- Abstract要約: 強化学習エージェントは通常、ポリシーを学ぶために環境相互作用の大規模なサンプルに依存する。
ネットワークの一部を同様の物理で異なる環境に事前学習することは、エージェントがターゲット環境を高い効率で学習するのに役立ちます。
我々は,PPOPTが,報奨と一般訓練安定性の両面において,小規模なトレーニングサンプルにおいて,ベースラインの古典的PPOよりも優れていたことを実証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce PPOPT - Proximal Policy Optimization using Pretraining, a novel, model-free deep-reinforcement-learning algorithm that leverages pretraining to achieve high training efficiency and stability on very small training samples in physics-based environments. Reinforcement learning agents typically rely on large samples of environment interactions to learn a policy. However, frequent interactions with a (computer-simulated) environment may incur high computational costs, especially when the environment is complex. Our main innovation is a new policy neural network architecture that consists of a pretrained neural network middle section sandwiched between two fully-connected networks. Pretraining part of the network on a different environment with similar physics will help the agent learn the target environment with high efficiency because it will leverage a general understanding of the transferrable physics characteristics from the pretraining environment. We demonstrate that PPOPT outperforms baseline classic PPO on small training samples both in terms of rewards gained and general training stability. While PPOPT underperforms against classic model-based methods such as DYNA DDPG, the model-free nature of PPOPT allows it to train in significantly less time than its model-based counterparts. Finally, we present our implementation of PPOPT as open-source software, available at github.com/Davidrxyang/PPOPT.
- Abstract(参考訳): PPOPT - Proximal Policy Optimization Using Pretraining, a novel, model-free deep-reinforcement-learning algorithm that leverages pretraining to achieve high training efficiency and stability on very small training sample in Physics-based environment。
強化学習エージェントは通常、ポリシーを学ぶために環境相互作用の大規模なサンプルに依存する。
しかしながら、(コンピュータシミュレーションされた)環境との頻繁な相互作用は、特に複雑な環境の場合、高い計算コストを発生させる可能性がある。
当社の主なイノベーションは、トレーニング済みのニューラルネットワーク中間部を2つの完全に接続されたネットワークに挟んだ、新たなポリシニューラルネットワークアーキテクチャです。
ネットワークの一部を同様の物理で異なる環境に事前学習することで、エージェントは、事前学習環境から転送可能な物理特性の一般的な理解を活用するため、ターゲット環境を高い効率で学習するのに役立つ。
我々は,PPOPTが,報奨と一般訓練安定性の両面において,小規模なトレーニングサンプルにおいて,ベースラインの古典的PPOよりも優れていたことを実証した。
PPOPTは、DYNA DDPGのような古典的なモデルベースの手法に対して性能が低いが、PPOPTのモデルフリーな性質は、モデルベースの手法よりも大幅に少ない時間でトレーニングすることができる。
最後に、github.com/Davidrxyang/PPOPTで利用可能なオープンソースソフトウェアとしてPPOPTを実装した。
関連論文リスト
- Deep Hierarchical Learning with Nested Subspace Networks [53.71337604556311]
大規模ニューラルネットワークのためのNested Subspace Networks (NSN)を提案する。
NSNは、単一のモデルを連続した計算予算の範囲で動的かつきめ細かな調整を可能にする。
我々は,NSNを訓練済みのLLMに外科的に適用し,スムーズで予測可能な計算性能フロンティアを解き放つことができることを示した。
論文 参考訳(メタデータ) (2025-09-22T15:13:14Z) - On-Policy Optimization of ANFIS Policies Using Proximal Policy Optimization [0.0]
PPO(Proximal Policy Optimization)を用いたニューロファジィコントローラのトレーニングのための強化学習手法を提案する。
PPOで訓練されたファジィエージェントは、20000更新後、最大500のリターンをゼロで達成した。
このことは、強化学習タスクにおいて、PPOが説明可能な神経ファジィエージェントを訓練する可能性を強調している。
論文 参考訳(メタデータ) (2025-06-22T17:49:49Z) - FORT: Forward-Only Regression Training of Normalizing Flows [85.66894616735752]
我々は,古典正規化フローを,精度の高い一段階生成モデルとして再考する。
本稿では,従来の最大度学習で用いられる可変式の変更を計算する必要のない,スケーラブルな学習目標を提案する。
論文 参考訳(メタデータ) (2025-06-01T20:32:27Z) - Multiple Physics Pretraining for Physical Surrogate Models [41.26924657687872]
物理モデリングのための自己認識型タスク・時間事前学習手法であるMultiple Physics Pretraining (MPP)を導入する。
MPPでは、特定の物理システム上で1つのモデルをトレーニングするのではなく、バックボーンモデルをトレーニングし、複数の異種物理システムのダイナミクスを予測する。
1つのMPP事前学習変換器は、事前学習タスクと下流タスクの両方において、タスク固有のベースラインを一致または向上させることができることを示す。
論文 参考訳(メタデータ) (2023-10-04T17:29:19Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [65.57123249246358]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - Tensor-Compressed Back-Propagation-Free Training for (Physics-Informed)
Neural Networks [15.188785164091987]
後方伝播(BP)は、ニューラルネットワークトレーニングの勾配を計算するために広く使われている。
自動微分をサポートするハードウェアやソフトウェアリソースが不足しているため、エッジデバイス上でBPを実装するのは難しい。
本稿では,現実的なニューラルネットワークを学習するためには,前方伝播のみを必要とする,完全にBPフリーなフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-18T23:56:50Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。