論文の概要: Toward a Unified Benchmark and Taxonomy of Stochastic Environments
- arxiv url: http://arxiv.org/abs/2509.01793v1
- Date: Mon, 01 Sep 2025 21:43:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.847748
- Title: Toward a Unified Benchmark and Taxonomy of Stochastic Environments
- Title(参考訳): 確率環境の統一ベンチマークと分類学に向けて
- Authors: Aryan Amit Barsainyan, Jing Yu Lim, Dianbo Liu,
- Abstract要約: Reinforcement Learning (RL)エージェントは、Atari100kのようなベンチマークで強力な結果を得ているが、実世界の条件に対する堅牢性には制限がある。
STORI (Stochastic-ataRI) は様々な効果を取り入れたベンチマークであり, 様々な不確実性の下でRL法の厳密な評価を可能にする。
- 参考スコア(独自算出の注目度): 2.8825582215429186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) agents have achieved strong results on benchmarks such as Atari100k, yet they remain limited in robustness to real-world conditions. Model-Based RL approaches that rely on learned World Models often struggle in environments with true stochasticity and partial observability, despite their theoretical grounding in POMDPs. Current benchmarks rarely capture these challenges, focusing instead on deterministic or overly simplified settings, and the lack of a clear taxonomy of stochasticity further hampers systematic evaluation. To address this gap, we introduce STORI (STOchastic-ataRI), a benchmark that incorporates diverse stochastic effects and enables rigorous assessment of RL methods under varied forms of uncertainty. In addition, we propose a taxonomy of stochasticity in RL environments, providing a unified framework for analyzing and comparing approaches.
- Abstract(参考訳): Reinforcement Learning (RL)エージェントは、Atari100kのようなベンチマークで強力な結果を得ているが、実世界の条件に対する堅牢性には制限がある。
学習した世界モデルに依存するモデルベースRLアプローチは、POMDPの理論的根拠にもかかわらず、真の確率性と部分的な可観測性を持つ環境でしばしば苦労する。
現在のベンチマークでは、決定論的あるいは過度に単純化された設定に焦点が当てられ、確率性の明確な分類法が欠如しているため、これらの課題が体系的な評価を損なうことは滅多にない。
STORI(Stochastic-ataRI)は,様々な確率効果を取り入れ,不確実性の異なるRL手法の厳密な評価を可能にするベンチマークである。
さらに、RL環境における確率性の分類を提案し、アプローチの分析と比較のための統一的なフレームワークを提供する。
関連論文リスト
- Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes [55.2480439325792]
強化学習(Reinforcement Learning, RL)は、数学のような検証可能な決定論的領域において、言語モデルの精度を向上させるために著しく有効であることが証明されている。
本稿では,現在のRL法が,科学的実験のような検証可能な領域における言語モデルの最適化にも有効かどうかを検討する。
論文 参考訳(メタデータ) (2025-08-15T20:50:53Z) - Testing Generalizability in Causal Inference [3.547529079746247]
機械学習アルゴリズムの一般化性を統計的に評価するための公式な手続きは存在しない。
本研究では,高次元因果推論モデルの一般化可能性を統計的に評価するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-05T11:44:00Z) - Model-Based Reward Shaping for Adversarial Inverse Reinforcement Learning in Stochastic Environments [11.088387316161064]
理論的結果が得られず,性能が劣化した環境下でのAIRL(Adrial Inverse Reinforcement Learning)手法の限界に対処する。
そこで本研究では,環境における最適政策の理論的保証とともに,力学情報を報酬形成に注入する手法を提案する。
本稿では,モデル拡張型AIRLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-04T18:27:37Z) - SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning [9.88109749688605]
モデルに基づくオフライン強化学習は、事前コンパイルされたデータセットと学習環境モデルを使用してポリシーを訓練する。
本稿では,問題をモデルバイアスとポリシーシフトという2つの基本要素に分解する包括的分析を行う。
本稿では,モデルに基づくオフライン強化学習(SAMBO-RL)について紹介する。
論文 参考訳(メタデータ) (2024-08-23T04:25:09Z) - Time-Constrained Robust MDPs [28.641743425443]
我々は,多因子性,相関性,時間依存障害を考慮した新しい時間制約型ロバストMDP(TC-RMDP)の定式化を導入する。
本研究では、ロバストなRLにおける一般的な仮定を再考し、より実用的で現実的なRLアプリケーションを開発するための新たな道を開く。
論文 参考訳(メタデータ) (2024-06-12T16:45:09Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Single-Trajectory Distributionally Robust Reinforcement Learning [21.955807398493334]
本研究では,分散ロバストRL (DRRL) を提案する。
既存のDRRLアルゴリズムはモデルベースか、1つのサンプル軌道から学習できないかのいずれかである。
単一軌道を用いた分散ロバストQ-ラーニング(DRQ)と呼ばれる,完全モデルフリーなDRRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-27T14:08:09Z) - Posterior Coreset Construction with Kernelized Stein Discrepancy for
Model-Based Reinforcement Learning [78.30395044401321]
我々は、強化学習(MBRL)のための新しいモデルベースアプローチを開発する。
ターゲット遷移モデルの仮定を緩和し、混合モデルの一般的な族に属する。
連続的な制御環境では、壁時計の時間を最大50%削減することができる。
論文 参考訳(メタデータ) (2022-06-02T17:27:49Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。