Fugu-MT 論文翻訳(概要): PCGRL+: Scaling, Control and Generalization in Reinforcement Learning Level Generators

論文の概要: PCGRL+: Scaling, Control and Generalization in Reinforcement Learning Level Generators

arxiv url: http://arxiv.org/abs/2408.12525v1
Date: Thu, 22 Aug 2024 16:30:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-23 13:12:21.482482
Title: PCGRL+: Scaling, Control and Generalization in Reinforcement Learning Level Generators
Title（参考訳）: PCGRL+:強化学習レベルジェネレータのスケーリング・制御・一般化
Authors: Sam Earle, Zehua Jiang, Julian Togelius,
Abstract要約: 制御可能なデザイナーエージェントを訓練する手段として,PCGRL (Procedural Content Generation) が導入された。 PCGRLはゲームデザイナーにユニークな余裕を提供するが、RLエージェントを訓練する計算集約的なプロセスによって制約される。我々はJaxにいくつかのPCGRL環境を実装し、GPU上で学習とシミュレーションのあらゆる側面が並列に行われるようにした。
参考スコア（独自算出の注目度）: 2.334978724544296
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Procedural Content Generation via Reinforcement Learning (PCGRL) has been introduced as a means by which controllable designer agents can be trained based only on a set of computable metrics acting as a proxy for the level's quality and key characteristics. While PCGRL offers a unique set of affordances for game designers, it is constrained by the compute-intensive process of training RL agents, and has so far been limited to generating relatively small levels. To address this issue of scale, we implement several PCGRL environments in Jax so that all aspects of learning and simulation happen in parallel on the GPU, resulting in faster environment simulation; removing the CPU-GPU transfer of information bottleneck during RL training; and ultimately resulting in significantly improved training speed. We replicate several key results from prior works in this new framework, letting models train for much longer than previously studied, and evaluating their behavior after 1 billion timesteps. Aiming for greater control for human designers, we introduce randomized level sizes and frozen "pinpoints" of pivotal game tiles as further ways of countering overfitting. To test the generalization ability of learned generators, we evaluate models on large, out-of-distribution map sizes, and find that partial observation sizes learn more robust design strategies.
Abstract（参考訳）: レベルの品質とキー特性のプロキシとして機能する計算可能なメトリクスのセットのみに基づいて、制御可能なデザイナエージェントをトレーニングする手段として、PCGRL(Procedural Content Generation)が導入されている。 PCGRLはゲームデザイナにユニークな価格のセットを提供するが、RLエージェントを訓練する計算集約的なプロセスに制約されており、これまでは比較的小さなレベルの生成に限られてきた。このスケールの問題に対処するため、我々はJaxで複数のPCGRL環境を実装し、GPU上で学習とシミュレーションのすべての側面が並列に行われるようにし、環境シミュレーションを高速化し、RLトレーニング中に情報ボトルネックのCPU-GPU転送を除去し、最終的にトレーニング速度を大幅に改善する。この新しいフレームワークの以前の作業から得られたいくつかの重要な結果を再現し、モデルが以前研究したよりもずっと長くトレーニングし、その振る舞いを10億のタイムステップ後に評価します。人間設計者に対するさらなるコントロールを目指して,我々は,過度な適合に対応するために,ランダム化レベルサイズと中心的なゲームタイルの「ピンポイント」を導入している。学習したジェネレータの一般化能力をテストするため,大規模な分布外マップサイズモデルの評価を行い,部分的な観測サイズがより堅牢な設計戦略を学習することを確認した。

関連論文リスト

The Art of Scaling Reinforcement Learning Compute for LLMs [52.71086085139566]
強化学習(RL)は、大規模言語モデルの訓練の中心となっている。計算予算の急激な増加にもかかわらず、RL計算のスケーリングにおけるアルゴリズム改善の評価方法に関する原則的な理解は存在しない。我々は,約40万時間以上のGPU時間を有する,最初の大規模体系的な研究を提示する。
論文参考訳（メタデータ） (2025-10-15T17:43:03Z)
From Supervision to Exploration: What Does Protein Language Model Learn During Reinforcement Learning? [76.288870982181]
タンパク質言語モデル(PLM)は、大規模事前学習と拡張性のあるアーキテクチャを通じて高度な計算タンパク質科学を持つ。強化学習(RL)は探索を拡大し、タンパク質設計における正確な多目的最適化を可能にした。 RLはサンプリング効率を向上し,さらに重要な点として,教師あり学習で捉えない能力を明らかにするかどうかを問う。
論文参考訳（メタデータ） (2025-10-02T01:31:10Z)
Learning to Reason as Action Abstractions with Scalable Mid-Training RL [55.24192942739207]
効果的な中間訓練フェーズは、有用なアクションのコンパクトなセットを特定し、高速な選択を可能にする。本稿では,スケーラブルなミッドトレーニングアルゴリズムであるReasoning as Action Abstractions (RA3)を提案する。
論文参考訳（メタデータ） (2025-09-30T05:34:20Z)
Scaling Offline RL via Efficient and Expressive Shortcut Models [13.050231036248338]
ノイズサンプリングプロセスの反復性のため, オフライン強化学習(RL)は依然として困難である。本稿では、ショートカットモデルを利用してトレーニングと推論の両方をスケールする新しいオフラインRLアルゴリズムであるScalable Offline Reinforcement Learning (SORL)を紹介する。我々は、SORLがオフラインのRLタスクにまたがって高い性能を達成し、テスト時間計算の増大とともに正のスケーリング挙動を示すことを示した。
論文参考訳（メタデータ） (2025-05-28T20:59:22Z)
Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文参考訳（メタデータ） (2025-04-10T17:15:53Z)
EvoRL: A GPU-accelerated Framework for Evolutionary Reinforcement Learning [24.389896398264202]
我々はGPUアクセラレーションに最適化された最初のエンドツーエンドEvoRLフレームワークである$texttt$textbfEvoRL$$を紹介した。このフレームワークは、環境シミュレーションやECプロセスを含む、アクセラレーター上のトレーニングパイプライン全体を実行する。
論文参考訳（メタデータ） (2025-01-25T08:31:07Z)
Accelerating Goal-Conditioned RL Algorithms and Research [17.155006770675904]
自己指導型目標条件強化学習(GCRL)エージェントは、環境との非構造的相互作用において達成された目標から学習することで、新しい行動を発見する。これらの手法は、低速環境シミュレーションのデータ不足や安定したアルゴリズムの欠如により、同様の成功は得られていない。我々は、自制的なGCRLのためのベンチマーク(JaxGCRL)をリリースし、研究者は単一のGPU上で数百万の環境ステップでエージェントを訓練することができる。
論文参考訳（メタデータ） (2024-08-20T17:58:40Z)
Stop Regressing: Training Value Functions via Classification for Scalable Deep RL [109.44370201929246]
分類的クロスエントロピーを用いた値関数のトレーニングにより,様々な領域における性能とスケーラビリティが向上することを示す。例えば、SoftMoEによるAtari 2600ゲームでのシングルタスクRL、大規模ResNetによるAtariでのマルチタスクRL、Q-トランスフォーマーによるロボット操作、検索なしでチェスをプレイする、高容量トランスフォーマーによる言語エージェントWordleタスクなどがある。
論文参考訳（メタデータ） (2024-03-06T18:55:47Z)
Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文参考訳（メタデータ） (2023-05-26T00:43:02Z)
On Transforming Reinforcement Learning by Transformer: The Development Trajectory [97.79247023389445]
Transformerは元々自然言語処理用に開発されたもので、コンピュータビジョンでも大きな成功を収めている。既存の開発をアーキテクチャ拡張と軌道最適化の2つのカテゴリに分類する。ロボット操作,テキストベースのゲーム,ナビゲーション,自律運転におけるTRLの主な応用について検討する。
論文参考訳（メタデータ） (2022-12-29T03:15:59Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
Light-weight probing of unsupervised representations for Reinforcement Learning [20.638410483549706]
線形探索が教師なしRL表現の品質評価の代行的タスクであるかどうかを検討する。本稿では,Atari100kベンチマークにおける下流RL性能と,探索タスクが強く相関していることを示す。これにより、事前学習アルゴリズムの空間を探索し、有望な事前学習レシピを特定するためのより効率的な方法が提供される。
論文参考訳（メタデータ） (2022-08-25T21:08:01Z)
Model-Free Generative Replay for Lifelong Reinforcement Learning: Application to Starcraft-2 [5.239932780277599]
生成的リプレイ(GR)は、生物学的にインスパイアされたリプレイ機構であり、自己ラベルの例で学習経験を増強する。本稿では,2つのデシラタを満たすLRL用GRのバージョンを提案する。 (a) 深層RLを用いて学習したポリシーの潜在表現の内観的密度モデリング, (b) モデルなしのエンドツーエンド学習である。
論文参考訳（メタデータ） (2022-08-09T22:00:28Z)
RLFlow: Optimising Neural Network Subgraph Transformation with World Models [0.0]
本稿では,ニューラルネットワークのアーキテクチャを最適化するためのモデルベースエージェントを提案する。提案手法は, 共通の畳み込みネットワーク上での最先端技術の性能に適合し, トランスフォーマースタイルのアーキテクチャでは最大5%性能が向上することを示す。
論文参考訳（メタデータ） (2022-05-03T11:52:54Z)
Multitask Adaptation by Retrospective Exploration with Learned World Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文参考訳（メタデータ） (2021-10-25T20:02:57Z)
Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文参考訳（メタデータ） (2021-06-14T18:48:40Z)
RL-Scope: Cross-Stack Profiling for Deep Reinforcement Learning Workloads [4.575381867242508]
RL-Scopeは、低レベルのCPU/GPUリソース使用量を高レベルのアルゴリズム操作にスコープするクロススタックプロファイラである。本稿では,RL-Scopeの実用性について,詳細なケーススタディを通して紹介する。
論文参考訳（メタデータ） (2021-02-08T15:42:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。