論文の概要: STORI: A Benchmark and Taxonomy for Stochastic Environments
- arxiv url: http://arxiv.org/abs/2509.01793v2
- Date: Fri, 03 Oct 2025 06:53:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:51.973608
- Title: STORI: A Benchmark and Taxonomy for Stochastic Environments
- Title(参考訳): STORI:確率環境のベンチマークと分類
- Authors: Aryan Amit Barsainyan, Jing Yu Lim, Dianbo Liu,
- Abstract要約: Reinforcement Learning (RL)技術は、Atari100kのようなシミュレーションベンチマークで素晴らしいパフォーマンスを達成した。
現実のシステムはノイズの多い観測、予測不可能な力学、非定常状態を含むため、中心的な障害は環境性である。
本稿では,環境の包括的5種類の分類法を提案し,最先端のモデルベースRLアルゴリズムの系統的脆弱性を実証する。
- 参考スコア(独自算出の注目度): 2.8825582215429186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) techniques have achieved impressive performance on simulated benchmarks such as Atari100k, yet recent advances remain largely confined to simulation and show limited transfer to real-world domains. A central obstacle is environmental stochasticity, as real systems involve noisy observations, unpredictable dynamics, and non-stationary conditions that undermine the stability of current methods. Existing benchmarks rarely capture these uncertainties and favor simplified settings where algorithms can be tuned to succeed. The absence of a well-defined taxonomy of stochasticity further complicates evaluation, as robustness to one type of stochastic perturbation, such as sticky actions, does not guarantee robustness to other forms of uncertainty. To address this critical gap, we introduce STORI (STOchastic-ataRI), a benchmark that systematically incorporates diverse stochastic effects and enables rigorous evaluation of RL techniques under different forms of uncertainty. We propose a comprehensive five-type taxonomy of environmental stochasticity and demonstrate systematic vulnerabilities in state-of-the-art model-based RL algorithms through targeted evaluation of DreamerV3 and STORM. Our findings reveal that world models dramatically underestimate environmental variance, struggle with action corruption, and exhibit unreliable dynamics under partial observability. We release the code and benchmark publicly at https://github.com/ARY2260/stori, providing a unified framework for developing more robust RL systems.
- Abstract(参考訳): Reinforcement Learning (RL)技術は、Atari100kのようなシミュレーションベンチマークで印象的な性能を達成したが、最近の進歩はシミュレーションに限られており、現実世界のドメインへの限られた転送を示している。
実際のシステムはノイズの多い観測、予測不可能な力学、現在の手法の安定性を損なう非定常条件を含むため、環境確率性(英語版)が中心的な障害である。
既存のベンチマークでは、これらの不確実性を捉えることはめったになく、アルゴリズムが成功するように調整できるような、単純化された設定を好む。
確率性の明確に定義された分類が存在しないことは、一種類の確率的摂動に対する堅牢性、例えば粘着作用のような、他の不確実性に対して堅牢性を保証するものではないため、評価をさらに複雑にする。
STORI(Stochastic-ataRI)は,様々な確率効果を体系的に取り入れ,不確実性の異なるRL手法の厳密な評価を可能にするベンチマークである。
本研究では,DreamerV3 とSTORM を対象とした,最先端のモデルベース RL アルゴリズムの系統的脆弱性を実証し,環境確率性に関する総合的な5種類の分類法を提案する。
その結果,世界モデルは環境変動を劇的に過小評価し,行動腐敗に苦しむとともに,部分観測可能性の下では信頼性の低いダイナミクスを示すことがわかった。
我々はコードとベンチマークをhttps://github.com/ary2260/storiで公開し、より堅牢なRLシステムを開発するための統一されたフレームワークを提供します。
関連論文リスト
- GTS: Inference-Time Scaling of Latent Reasoning with a Learnable Gaussian Thought Sampler [54.10960908347221]
我々は、学習可能な密度から条件付きサンプリングとして潜在思考探索をモデル化し、このアイデアをガウス思想サンプリング(GTS)としてインスタンス化する。
GTSは、連続的推論状態における文脈依存摂動分布を予測し、バックボーンを凍結させながらGRPOスタイルのポリシー最適化を訓練する。
論文 参考訳(メタデータ) (2026-02-15T09:57:47Z) - AgentNoiseBench: Benchmarking Robustness of Tool-Using LLM Agents Under Noisy Condition [72.24180896265192]
本稿では,騒音環境下でのエージェントモデルのロバスト性を評価するためのフレームワークであるAgentNoiseBenchを紹介する。
まず、実世界のシナリオにおけるバイアスと不確実性の詳細な分析を行う。
次に,環境騒音をユーザノイズとツールノイズの2つの主要なタイプに分類する。
この分析に基づいて,既存のエージェント中心ベンチマークに制御可能なノイズを注入する自動パイプラインを開発した。
論文 参考訳(メタデータ) (2026-02-11T20:33:10Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Balance Equation-based Distributionally Robust Offline Imitation Learning [8.607736795429638]
イミテーション・ラーニング(IL)は、報酬関数や明示的なコントローラを手動で設計するロボットや制御タスクに非常に効果的であることが証明されている。
標準のILメソッドは、トレーニングとデプロイメントの間に環境のダイナミクスが固定されていると暗黙的に仮定します。
バランス方程式に基づく分散ロバストオフライン学習を通じてこの問題に対処する。
不確実な遷移モデルの集合に対する分布論的にロバストな最適化としてこの問題を定式化し、最悪の遷移分布の下での模倣損失を最小限に抑える政策を求める。
論文 参考訳(メタデータ) (2025-11-11T07:48:09Z) - Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes [55.2480439325792]
強化学習(Reinforcement Learning, RL)は、数学のような検証可能な決定論的領域において、言語モデルの精度を向上させるために著しく有効であることが証明されている。
本稿では,現在のRL法が,科学的実験のような検証可能な領域における言語モデルの最適化にも有効かどうかを検討する。
論文 参考訳(メタデータ) (2025-08-15T20:50:53Z) - Online Robust Multi-Agent Reinforcement Learning under Model Uncertainties [10.054572105379425]
十分に訓練されたマルチエージェントシステムは、実環境にデプロイされた時にフェールする可能性がある。
DRMGは、定義された環境不確実性のセットに対して最悪のケースパフォーマンスを最適化することで、システムのレジリエンスを高める。
本稿では、DRMGにおけるオンライン学習の先駆者であり、エージェントは事前データなしで環境相互作用から直接学習する。
論文 参考訳(メタデータ) (2025-08-04T23:14:32Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - Testing Generalizability in Causal Inference [3.547529079746247]
機械学習アルゴリズムの一般化性を統計的に評価するための公式な手続きは存在しない。
本研究では,高次元因果推論モデルの一般化可能性を統計的に評価するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-05T11:44:00Z) - Model-Based Reward Shaping for Adversarial Inverse Reinforcement Learning in Stochastic Environments [11.088387316161064]
理論的結果が得られず,性能が劣化した環境下でのAIRL(Adrial Inverse Reinforcement Learning)手法の限界に対処する。
そこで本研究では,環境における最適政策の理論的保証とともに,力学情報を報酬形成に注入する手法を提案する。
本稿では,モデル拡張型AIRLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-04T18:27:37Z) - SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning [9.88109749688605]
モデルに基づくオフライン強化学習は、事前コンパイルされたデータセットと学習環境モデルを使用してポリシーを訓練する。
本稿では,問題をモデルバイアスとポリシーシフトという2つの基本要素に分解する包括的分析を行う。
本稿では,モデルに基づくオフライン強化学習(SAMBO-RL)について紹介する。
論文 参考訳(メタデータ) (2024-08-23T04:25:09Z) - Time-Constrained Robust MDPs [28.641743425443]
我々は,多因子性,相関性,時間依存障害を考慮した新しい時間制約型ロバストMDP(TC-RMDP)の定式化を導入する。
本研究では、ロバストなRLにおける一般的な仮定を再考し、より実用的で現実的なRLアプリケーションを開発するための新たな道を開く。
論文 参考訳(メタデータ) (2024-06-12T16:45:09Z) - SURE: SUrvey REcipes for building reliable and robust deep networks [12.268921703825258]
本稿では,深層ニューラルネットワークにおける不確実性推定手法を再検討し,信頼性を高めるために一連の手法を統合する。
我々は,不確実性推定の有効性を示す重要なテストベッドである故障予測のベンチマークに対して,SUREを厳格に評価する。
データ破損、ラベルノイズ、長い尾のクラス分布といった現実世界の課題に適用した場合、SUREは顕著な堅牢性を示し、現在の最先端の特殊手法と同等あるいは同等な結果をもたらす。
論文 参考訳(メタデータ) (2024-03-01T13:58:19Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Single-Trajectory Distributionally Robust Reinforcement Learning [21.955807398493334]
本研究では,分散ロバストRL (DRRL) を提案する。
既存のDRRLアルゴリズムはモデルベースか、1つのサンプル軌道から学習できないかのいずれかである。
単一軌道を用いた分散ロバストQ-ラーニング(DRQ)と呼ばれる,完全モデルフリーなDRRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-27T14:08:09Z) - Statistical Safety and Robustness Guarantees for Feedback Motion
Planning of Unknown Underactuated Stochastic Systems [1.0323063834827415]
本研究では, 平均力学モデルを用いたサンプリングベースプランナを提案し, 学習外乱境界による閉ループ追従誤差を同時に有界化する。
この保証は,10次元四角形ロボットのシミュレーションや,クレージーフライ四角形ロボットとクリアパスジャカルロボットの現実世界でのシミュレーションにおいて,経験的安全性に変換されることを検証した。
論文 参考訳(メタデータ) (2022-12-13T19:38:39Z) - Posterior Coreset Construction with Kernelized Stein Discrepancy for
Model-Based Reinforcement Learning [78.30395044401321]
我々は、強化学習(MBRL)のための新しいモデルベースアプローチを開発する。
ターゲット遷移モデルの仮定を緩和し、混合モデルの一般的な族に属する。
連続的な制御環境では、壁時計の時間を最大50%削減することができる。
論文 参考訳(メタデータ) (2022-06-02T17:27:49Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。