Fugu-MT 論文翻訳(概要): Accelerated Online Risk-Averse Policy Evaluation in POMDPs with Theoretical Guarantees and Novel CVaR Bounds

論文の概要: Accelerated Online Risk-Averse Policy Evaluation in POMDPs with Theoretical Guarantees and Novel CVaR Bounds

arxiv url: http://arxiv.org/abs/2602.23073v1
Date: Thu, 26 Feb 2026 15:01:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.734372
Title: Accelerated Online Risk-Averse Policy Evaluation in POMDPs with Theoretical Guarantees and Novel CVaR Bounds
Title（参考訳）: 理論的保証と新たなCVaR境界を有するPMDPのオンラインリスク・リバース政策評価
Authors: Yaacov Pariente, Vadim Indelman,
Abstract要約: この研究は、部分的に観測可能な領域における条件付き値-アット・リスク評価を加速するための理論的枠組みを導入する。単純化された信念-MDPから計算可能なCVaR値関数の上下境界を確立する。我々は,確率的保証を伴う粒子信頼型MDPフレームワーク内で,これらの境界に対する推定器を開発する。
参考スコア（独自算出の注目度）: 9.269394037577177
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Risk-averse decision-making under uncertainty in partially observable domains is a central challenge in artificial intelligence and is essential for developing reliable autonomous agents. The formal framework for such problems is the partially observable Markov decision process (POMDP), where risk sensitivity is introduced through a risk measure applied to the value function, with Conditional Value-at-Risk (CVaR) being a particularly significant criterion. However, solving POMDPs is computationally intractable in general, and approximate methods rely on computationally expensive simulations of future agent trajectories. This work introduces a theoretical framework for accelerating CVaR value function evaluation in POMDPs with formal performance guarantees. We derive new bounds on the CVaR of a random variable X using an auxiliary random variable Y, under assumptions relating their cumulative distribution and density functions; these bounds yield interpretable concentration inequalities and converge as the distributional discrepancy vanishes. Building on this, we establish upper and lower bounds on the CVaR value function computable from a simplified belief-MDP, accommodating general simplifications of the transition dynamics. We develop estimators for these bounds within a particle-belief MDP framework with probabilistic guarantees, and employ them for acceleration via action elimination: actions whose bounds indicate suboptimality under the simplified model are safely discarded while ensuring consistency with the original POMDP. Empirical evaluation across multiple POMDP domains confirms that the bounds reliably separate safe from dangerous policies while achieving substantial computational speedups under the simplified model.
Abstract（参考訳）: 部分的に観測可能な領域における不確実性の下でのリスク-逆決定は、人工知能における中心的な課題であり、信頼性の高い自律エージェントの開発に不可欠である。このような問題の正式な枠組みは、部分的に観測可能なマルコフ決定プロセス(POMDP)であり、特に重要な基準である条件付き値-アット・リスク(CVaR)を用いて、値関数に適用されるリスク尺度を通じてリスク感度を導入する。しかし、POMDPの解法は一般に計算的に難解であり、近似法は将来のエージェント軌道の計算に高価なシミュレーションに依存する。本研究は, CVaR値関数評価を形式的性能保証付きPOMDPで高速化するための理論的枠組みを提案する。確率変数 Y を用いた確率変数 X のCVaR 上の新たな境界を,その累積分布と密度関数に関する仮定に基づいて導出する。そこで我々は, CVaR値関数の上と下の境界を, 単純化された信念-MDPから計算可能とし, 遷移力学の一般化を調節する。我々は、確率的保証を持つ粒子信頼型MDPフレームワークにおいて、これらの境界に対する推定器を開発し、それらをアクション除去による加速に利用し、単純化されたモデルの下での準最適性を示す動作は、元のPOMDPとの整合性を確保しつつ安全に破棄される。複数のPOMDPドメインにまたがる実験的な評価により、境界が危険なポリシーから確実に分離され、単純化されたモデルの下で実質的な計算スピードアップが達成されることを確認した。

関連論文リスト

Doubly-Robust Estimation of Counterfactual Policy Mean Embeddings [23.3862001690226]
反ファクトポリシーの下での成果の分配を推定することは、推薦、広告、医療といった領域における意思決定にとって重要である。再生カーネル空間(RKHS)における反事実分布全体を表す新しいフレームワーク-Counterfactual Policy Mean Embedding(CPME)を提案する。プラグイン推定器と2倍頑健な推定器の両方を導入し、後者は結果埋め込みモデルと確率モデルの両方においてバイアスを補正することで収束率の向上を享受する。
論文参考訳（メタデータ） (2025-06-03T12:16:46Z)
Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文参考訳（メタデータ） (2025-02-01T18:09:49Z)
Simplification of Risk Averse POMDPs with Performance Guarantees [6.129902017281406]
部分的に観測可能な領域における不確実性の下でのリスク回避意思決定は、AIの基本的問題であり、信頼性の高い自律エージェントにとって不可欠である。この場合、値関数がリターンの条件値(CVaR)である場合、問題は部分的に観測可能なマルコフ決定プロセス(POMDP)を用いてモデル化される。 POMDPの最適解を計算することは、一般に計算的に計算可能である。我々は,性能保証を提供しながら,値関数の評価を高速化する簡易化フレームワークを開発した。
論文参考訳（メタデータ） (2024-06-05T07:05:52Z)
Provable Risk-Sensitive Distributional Reinforcement Learning with General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-02-28T08:43:18Z)
Off-Policy Evaluation in Markov Decision Processes under Weak Distributional Overlap [3.351714665243138]
我々は,マルコフ決定過程(MDP)における非政治的評価の課題を再考し,分布重なりというより弱い概念の下で検討する。本稿では,この環境での良好な性能を期待できる2重頑健性(TDR)推定器のクラスを紹介する。我々の実験では、強い分布重なりが保たない場合、適切な乱れが、政治外の正確な評価を可能にする上で重要な役割を担っていることがわかった。
論文参考訳（メタデータ） (2024-02-13T03:55:56Z)
Risk Aware Belief-dependent Constrained POMDP Planning [9.061408029414453]
リスク認識は、オンライン操作エージェントの基本である。既存の制約付きPOMDPアルゴリズムは一般に離散状態と観測空間のために設計されている。本稿では,リスク・逆信念に依存した制約付きPMDPの新たな定式化について述べる。
論文参考訳（メタデータ） (2022-09-06T17:48:13Z)
Monotonic Improvement Guarantees under Non-stationarity for Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文参考訳（メタデータ） (2022-01-31T20:39:48Z)
Robust and Adaptive Temporal-Difference Learning Using An Ensemble of Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。 OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。 1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文参考訳（メタデータ） (2021-12-01T23:15:09Z)
Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via Trust Region Decomposition [52.06086375833474]
非定常性は多エージェント強化学習における厄介な問題である。ポリシーシーケンスの定常性を明示的にモデル化するための$delta$-stationarity測定を導入する。共同政策の分岐を推定するために,メッセージパッシングに基づく信頼領域分解ネットワークを提案する。
論文参考訳（メタデータ） (2021-02-21T14:46:50Z)
Cautious Reinforcement Learning via Distributional Risk in the Dual Domain [45.17200683056563]
マルコフ決定過程(MDP)によって定義される強化学習問題において,状態と行動空間が可算有限である場合のリスク感受性ポリシーの推定について検討する。本稿では,強化学習の線形プログラミング(LP)の2つの目的に付加されるペナルティ関数として,新たなリスク定義を提案する。
論文参考訳（メタデータ） (2020-02-27T23:18:04Z)
GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文参考訳（メタデータ） (2020-02-21T00:27:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。