論文の概要: Synthetic Monitoring Environments for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.06252v1
- Date: Fri, 06 Mar 2026 13:10:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.785846
- Title: Synthetic Monitoring Environments for Reinforcement Learning
- Title(参考訳): 強化学習のための総合モニタリング環境
- Authors: Leonard Pleiss, Carolin Schmidt, Maximilian Schiffer,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、エージェントの動作の正確なホワイトボックス診断を可能にするベンチマークを欠いている。
現在の環境は、しばしば複雑さの要因を絡み合わせる。
本稿では,連続制御タスクの無限スイートであるSME(Synthetic Monitoring Environments)を紹介する。
- 参考スコア(独自算出の注目度): 3.6551292689240777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) lacks benchmarks that enable precise, white-box diagnostics of agent behavior. Current environments often entangle complexity factors and lack ground-truth optimality metrics, making it difficult to isolate why algorithms fail. We introduce Synthetic Monitoring Environments (SMEs), an infinite suite of continuous control tasks. SMEs provide fully configurable task characteristics and known optimal policies. As such, SMEs allow for the exact calculation of instantaneous regret. Their rigorous geometric state space bounds allow for systematic within-distribution (WD) and out-of-distribution (OOD) evaluation. We demonstrate the framework's benefit through multidimensional ablations of PPO, TD3, and SAC, revealing how specific environmental properties - such as action or state space size, reward sparsity and complexity of the optimal policy - impact WD and OOD performance. We thereby show that SMEs offer a standardized, transparent testbed for transitioning RL evaluation from empirical benchmarking toward rigorous scientific analysis.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、エージェントの動作の正確なホワイトボックス診断を可能にするベンチマークを欠いている。
現在の環境は、しばしば複雑さの要因を絡めていて、アルゴリズムが失敗する理由を区別するのが困難である。
連続制御タスクの無限スイートであるSME(Synthetic Monitoring Environments)を紹介する。
中小企業は、完全に構成可能なタスク特性と既知の最適ポリシーを提供する。
したがって、中小企業は即時後悔の正確な計算を可能にする。
厳密な幾何学的状態境界は、系統的内分布(WD)と外分布(OOD)の評価を可能にする。
我々は, PPO, TD3, SACの多次元化によるフレームワークのメリットを実証し, アクションや状態空間サイズ, 報酬空間, 最適ポリシの複雑さなど, 特定の環境特性がWDとOODのパフォーマンスに与える影響を明らかにする。
そこで我々は,SMEがRL評価を実証的ベンチマークから厳密な科学的分析へ移行するための,標準化された透明なテストベッドを提供することを示した。
関連論文リスト
- ProAct: Agentic Lookahead in Interactive Environments [56.50613398808361]
ProActは、2段階のトレーニングパラダイムを通じて、エージェントが正確なルックアヘッド推論を内部化することを可能にするフレームワークである。
そこでは,環境に基づく探索から得られたトラジェクトリの微調整をエージェントが行うGLAD(Grounded LookAhead Distillation)を紹介する。
また,政策段階のアルゴリズムを改良する補助値推定器であるモンテカルロ批判(MC-Critic)を提案する。
論文 参考訳(メタデータ) (2026-02-05T05:45:16Z) - ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking [84.07076200941474]
ArenaRLは、ポイントワイドスカラースコアからグループ内相対ランクにシフトする強化学習パラダイムである。
我々は,グループ内対角アリーナを構築し,安定した有利な信号を得るためのトーナメントベースのランキングスキームを考案する。
実験により、ArenaRLは標準のRLベースラインを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2026-01-10T08:43:07Z) - Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - AutoForge: Automated Environment Synthesis for Agentic Reinforcement Learning [71.4322853508083]
シミュレーション環境における強化学習の実施は、言語ベースのエージェントを強化するためのコスト効率が高く、スケーラブルな方法を提供する。
これまでの作業は、半自動化された環境合成や、十分な困難を欠いたタスクに限られており、幅や深さがほとんどない。
本稿では,高難易度かつ容易に検証可能なタスクに関連付けられたシミュレーション環境の,自動化されたスケーラブルな合成のための統一パイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-28T09:43:11Z) - Personality as a Probe for LLM Evaluation: Method Trade-offs and Downstream Effects [0.6087817758152709]
本稿では,ビッグファイブ特性を用いたパーソナリティコントロールの体系的研究について述べる。
トラトレベルの分析では、オープン性はICLに最も耐性のある、独特な挑戦であり、同意性を示している。
Gemma-2-2B-ITとLLaMA-3-8B-Instructの実験により明らかなトレードオフが明らかになった。
論文 参考訳(メタデータ) (2025-09-05T04:19:15Z) - STORI: A Benchmark and Taxonomy for Stochastic Environments [2.8825582215429186]
Reinforcement Learning (RL)技術は、Atari100kのようなシミュレーションベンチマークで素晴らしいパフォーマンスを達成した。
現実のシステムはノイズの多い観測、予測不可能な力学、非定常状態を含むため、中心的な障害は環境性である。
本稿では,環境の包括的5種類の分類法を提案し,最先端のモデルベースRLアルゴリズムの系統的脆弱性を実証する。
論文 参考訳(メタデータ) (2025-09-01T21:43:22Z) - Towards Optimal Adversarial Robust Reinforcement Learning with Infinity Measurement Error [9.473089575932375]
近年の研究は、国家の敵対的堅牢性を達成する上での課題を浮き彫りにしている。
内向的状態適応型マルコフ決定プロセス(ISA-MDP)について紹介する。
DRLの堅牢性の向上は自然環境における性能を損なうものではないことを示す。
論文 参考訳(メタデータ) (2025-02-23T22:16:01Z) - Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。
政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。
政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:14:06Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。