論文の概要: Automatic Generation of High-Performance RL Environments
- arxiv url: http://arxiv.org/abs/2603.12145v1
- Date: Thu, 12 Mar 2026 16:45:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.225577
- Title: Automatic Generation of High-Performance RL Environments
- Title(参考訳): 高性能RL環境の自動生成
- Authors: Seth Karten, Rahul Dev Appapogu, Chi Jin,
- Abstract要約: 複雑な強化学習環境を高性能な実装に変換するには、これまで何ヶ月もの専門技術が必要だった。
計算コスト10ドルで意味論的に等価な高性能環境を創出する再利用可能なレシピを提案する。
- 参考スコア(独自算出の注目度): 13.796920626646964
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Translating complex reinforcement learning (RL) environments into high-performance implementations has traditionally required months of specialized engineering. We present a reusable recipe - a generic prompt template, hierarchical verification, and iterative agent-assisted repair - that produces semantically equivalent high-performance environments for <$10 in compute cost. We demonstrate three distinct workflows across five environments. Direct translation (no prior performance implementation exists): EmuRust (1.5x PPO speedup via Rust parallelism for a Game Boy emulator) and PokeJAX, the first GPU-parallel Pokemon battle simulator (500M SPS random action, 15.2M SPS PPO; 22,320x over the TypeScript reference). Translation verified against existing performance implementations: throughput parity with MJX (1.04x) and 5x over Brax at matched GPU batch sizes (HalfCheetah JAX); 42x PPO (Puffer Pong). New environment creation: TCGJax, the first deployable JAX Pokemon TCG engine (717K SPS random action, 153K SPS PPO; 6.6x over the Python reference), synthesized from a web-extracted specification. At 200M parameters, the environment overhead drops below 4% of training time. Hierarchical verification (property, interaction, and rollout tests) confirms semantic equivalence for all five environments; cross-backend policy transfer confirms zero sim-to-sim gap for all five environments. TCGJax, synthesized from a private reference absent from public repositories, serves as a contamination control for agent pretraining data concerns. The paper contains sufficient detail - including representative prompts, verification methodology, and complete results - that a coding agent could reproduce the translations directly from the manuscript.
- Abstract(参考訳): 複雑な強化学習(RL)環境を高性能な実装に変換するには、これまで何ヶ月もの専門技術が必要だった。
本稿では, 汎用的なプロンプトテンプレート, 階層的検証, 反復的エージェント支援修復による, セマンティックに等価なハイパフォーマンス環境を計算コスト$10で生成する再利用可能なレシピを提案する。
5つの環境にまたがる3つの異なるワークフローを示します。
EmuRust(ゲームボーイエミュレータのラスト並列化による1.5倍のPPOスピードアップ)と、最初のGPU並列ポケモンバトルシミュレータ(500M SPSランダムアクション、15.2M SPS PPO; 22,320x over the TypeScript参照)であるPokeJAXである。
MJX (1.04x) と 5x over Brax (HalfCheetah JAX) のスループットパリティ、42x PPO (Puffer Pong) である。
新しい環境の作成: TCGJaxは、最初のデプロイ可能なJAX Pokemon TCGエンジン(717K SPSランダムアクション、153K SPS PPO; 6.6x over the Python reference)で、Webで抽出された仕様から合成された。
2億のパラメータで、環境オーバーヘッドはトレーニング時間の4%以下になる。
階層的検証(プロパティ、インタラクション、ロールアウトテスト)は5つの環境すべてにおいて意味論的等価性を確認する。
TCGJaxは、公開リポジトリにないプライベートレファレンスから合成され、データに関する事前訓練を行うエージェントの汚染制御として機能する。
この論文には、代表的プロンプト、検証手法、完全な結果を含む十分な詳細が含まれており、コーディングエージェントは原稿から直接翻訳を再現できる。
関連論文リスト
- RepoGenesis: Benchmarking End-to-End Microservice Generation from Readme to Repository [52.98970048197381]
RepoGenesisは、リポジトリレベルのエンドツーエンドWebマイクロサービス生成のための、最初の多言語ベンチマークである。
18のドメインと11のフレームワークに106のリポジトリ(60のPython、46のJava)があり、1,258のAPIエンドポイントと2,335のテストケースが検証されている。
その結果、高いAC(最大73.91%)とDSR(最大100%)にもかかわらず、最高のパフォーマンスのシステムはPythonで23.67%のPass@1、Javaで21.45%しか達成していないことが明らかになった。
論文 参考訳(メタデータ) (2026-01-20T13:19:20Z) - Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression [19.447797559761135]
学習後圧縮は大規模言語モデル(LLM)の計算コストとメモリコストを削減する
既存の圧縮ベンチマークは、言語モデリングと自然言語理解タスクのみに焦点を当てている。
圧縮がLLMのエージェント能力に与える影響を評価するための,最初の包括的なベンチマークであるACBenchを紹介する。
論文 参考訳(メタデータ) (2025-05-26T02:49:07Z) - RustRepoTrans: Repository-level Code Translation Benchmark Targeting Rust [50.65321080814249]
RustRepoTransは、インクリメンタル翻訳をターゲットにした、最初のリポジトリレベルのコンテキストコード変換ベンチマークである。
複雑な翻訳シナリオの制約を評価するために, 7つの代表的なLLMを評価し, それらの誤差を分析した。
論文 参考訳(メタデータ) (2024-11-21T10:00:52Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。