論文の概要: Infra-Bayesian Reinforcement Learning Agents Outperform Classical RL For Worst-Case Robustness
- arxiv url: http://arxiv.org/abs/2605.23146v1
- Date: Fri, 22 May 2026 01:51:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.155494
- Title: Infra-Bayesian Reinforcement Learning Agents Outperform Classical RL For Worst-Case Robustness
- Title(参考訳): ワーストケースロバストネスのための古典的RLの性能向上のための赤外ベイズ強化学習エージェント
- Authors: Manish Aryal, Faiyaz Azam, Agnivo Banerjee, Sai Sidhanth Manoharan Jayanthi, Allegra Laro, Clément Legentilhomme, Andrew Lin, Florian Lorkowski, Radman Rakhshandehroo, Patric Rommel, Emanuel Ruzak, Nathan Theng, Paul Yushin Rapoport,
- Abstract要約: 有限出力状態決定問題に対する赤外ベイジアン強化学習アーキテクチャの概念実証実装を提案する。
我々のエージェントは一連の仮説を維持し、それらを赤外線ベイズ条件で更新し、最悪のケース予測値を最大化してアクションを選択する。
本研究は, モデル不特定性および政策依存不確実性の下で頑健な強化学習エージェントへのステップを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classical reinforcement learning assumes the agent interacts with a fixed environment whose behavior does not depend on the agent's policy. This assumption breaks down in non-realizable settings where other actors might anticipate the agent's behavior, including environments crucial to AI safety, where the agent interacts with predictors, humans, other AI agents, and institutions. In such settings, the agent's model class fails to capture the world in which it operates. Under such misspecification, classical Bayesian methods can produce confidently wrong posteriors, unreliable decisions, and unbounded regret, as realizability fails to obtain. Infra-Bayesianism is a decision-theoretic framework that addresses these failures by distinguishing ordinary probabilistic uncertainty, where priors can be reasonably chosen, from Knightian uncertainty, where no grounds exist for the construction of such a prior. It does so by evaluating actions on their worst-case outcomes, rather than from posterior expectations or weighted averaging. We present the first proof-of-concept implementation of an infra-Bayesian reinforcement learning architecture for finite-outcome stateless decision problems. Our agent maintains a set of imprecise hypotheses, updates them using infra-Bayesian conditioning, and selects actions by maximizing worst-case expected value. We apply this implementation of the infra-Bayesian maximin decision process to an environment with Knightian uncertainty, and demonstrate a lower worst-case regret as compared to classical reinforcement learning agents. We also investigate Newcomb's problem and show that the infra-Bayesian agent picks the optimal strategy, outperforming classical decision theory agents. Our results provide a step towards reinforcement learning agents that remain robust under model misspecification and policy-dependent uncertainty.
- Abstract(参考訳): 古典的な強化学習は、エージェントがエージェントの方針に依存しない固定された環境と相互作用すると仮定する。
この仮定は、エージェントが予測者、人間、その他のAIエージェント、施設と相互作用する、AI安全性に不可欠な環境を含む、他のアクターがエージェントの行動を予想する、実現不可能な環境で破られる。
このような設定では、エージェントのモデルクラスは、それが動作する世界をキャプチャできない。
このような不特定性の下では、古典的ベイズ的手法は、実現可能性を得られなかったため、自信に欠けた後部、信頼できない決定、および無拘束な後悔を生み出すことができる。
インフラ・ベイジアン主義(Infra-Bayesianism)は、通常の確率的不確実性(英語版)を区別することで、これらの失敗に対処する決定論的枠組みであり、それ以前に構築するための根拠が存在しない騎士的不確実性(英語版)から、事前を合理的に選択することができる。
これは、後続の期待や重み付けによる平均よりも、最悪の結果に対する行動を評価することで実現している。
有限出力ステートレス決定問題に対する赤外ベイジアン強化学習アーキテクチャの最初の概念実証実装を提案する。
我々のエージェントは一連の不正確な仮説を維持し、それらを赤外線ベイズ条件で更新し、最悪の場合の予測値を最大化して行動を選択する。
Infra-Bayesian maximin決定プロセスのこの実装を、Knightian不確実性のある環境に適用し、古典的な強化学習エージェントと比較して最悪のケースの後悔を減らしたことを示す。
また、ニューコームの問題を調査し、赤外線ベイズエージェントが最適戦略を選択し、古典的決定論エージェントより優れていることを示す。
本研究は, モデル不特定性および政策依存不確実性の下で頑健な強化学習エージェントへのステップを提供する。
関連論文リスト
- Semantic Reward Collapse and the Preservation of Epistemic Integrity in Adaptive AI Systems [0.0]
近年の強化学習の進歩により、大規模言語モデルのユーザビリティ、一貫性、安全性が大幅に向上した。
実行的確実性などの繰り返しの振る舞いは、スカラー化された選好最適化システム内の未解決構造問題を示唆している。
本稿では,SRC(Semantic Reward Collapse)を提案する。
論文 参考訳(メタデータ) (2026-05-12T17:03:26Z) - What Capable Agents Must Know: Selection Theorems for Robust Decision-Making under Uncertainty [1.6868147729303773]
我々は「選択定理」を証明し、低い「平均的な後悔」がエージェントに予測的、構造化された内部状態を実装することを強制することを示す。
後悔は、最適当量に対する確率質量を制限することを示し、高マージンな結果の分離に必要な予測的区別を強制する。
論文 参考訳(メタデータ) (2026-03-03T00:47:58Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Heterogeneous-Agent Trajectory Forecasting Incorporating Class
Uncertainty [54.88405167739227]
本稿では,エージェントのクラス確率を明示的に組み込んだヘテロジニアスエージェント軌道予測手法であるHAICUを提案する。
さらに,新たな挑戦的な実世界の自動運転データセットであるpupも紹介する。
軌道予測にクラス確率を組み込むことで,不確実性に直面した性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-04-26T10:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。