論文の概要: Bayesian Deployment Approval for Learned Landing Controllers under Finite Rollout Validation
- arxiv url: http://arxiv.org/abs/2605.27720v1
- Date: Tue, 26 May 2026 21:45:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.564577
- Title: Bayesian Deployment Approval for Learned Landing Controllers under Finite Rollout Validation
- Title(参考訳): 有限ロールアウト検証による学習型着陸制御器のベイズ展開承認
- Authors: Fei Jiang, Lei Yang,
- Abstract要約: この研究は、有限ロールアウトエビデンスの下で学習された自律着陸制御装置に対するベイズ承認フレームワークを開発する。
不確実な動作条件下でのタッチダウン安全度に基づいて,確率的着地能力の定式化を導入する。
提案フレームワークは,不確実性下での強化学習評価と展開指向の検証の間に,実用的な統計的関係を提供する。
- 参考スコア(独自算出の注目度): 11.10478089117307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning and data-driven autonomous controllers are commonly evaluated using cumulative reward and empirical success frequency under finite simulation trajectories. However, such empirical metrics do not necessarily provide sufficient statistical evidence regarding deployment readiness under uncertainty. This work develops a Bayesian approval framework for learned autonomous landing controllers under finite rollout evidence. A probabilistic landing capability formulation is introduced based on touchdown safety satisfaction under uncertain operating conditions, while Bayesian posterior inference is used to quantify uncertainty regarding the true deployment capability of learned policies. Posterior approval probability and posterior deployment risk are further introduced for deployment-oriented evaluation, together with a sequential validation framework supporting approve/reject/continue decisions during progressive rollout testing. Simulation experiments using PPO and SAC controllers demonstrate that empirical success and reward optimization may produce overconfident deployment interpretation under limited validation evidence, whereas posterior approval inference provides a more uncertainty-calibrated assessment of deployment readiness. The proposed framework provides a practical statistical connection between conventional reinforcement-learning evaluation and deployment-oriented validation under uncertainty and may be generalized to broader classes of learned autonomous systems.
- Abstract(参考訳): 強化学習とデータ駆動型自律制御装置は、有限のシミュレーション軌道下での累積報酬と経験的成功頻度を用いて一般に評価される。
しかし、このような実証的な指標は、不確実性の下での配備準備について十分な統計的証拠を提供するとは限らない。
この研究は、有限ロールアウトエビデンスの下で学習された自律着陸制御装置に対するベイズ承認フレームワークを開発する。
不確実な動作条件下でのタッチダウン安全度に基づいて,確率的着地能力の定式化を導入するとともに,学習ポリシの真の展開能力に関する不確実性をベイズ後部推論を用いて定量化する。
後続の承認確率と後続のデプロイメントリスクはさらに導入され、プログレッシブロールアウトテスト中の承認/拒否/継続決定をサポートするシーケンシャルな検証フレームワークも導入されている。
PPOとSACコントローラを用いたシミュレーション実験により、実験的な成功と報酬の最適化が限定された検証証拠の下で過度に信頼されたデプロイメントの解釈をもたらすことを示した。
提案手法は, 従来の強化学習評価と不確実性下でのデプロイメント指向の検証との間に, 実用的な統計的関連性を提供し, より広範な学習自律システムのクラスに一般化することができる。
関連論文リスト
- Conformal Prediction Assessment: A Framework for Conditional Coverage Evaluation and Selection [8.778189690708578]
コンフォーマル予測アセスメント(CPA)は、条件付きカバレッジを教師付き学習タスクとして再編成するフレームワークである。
条件付き妥当性指数(CVI)は信頼性を安全性(発見リスク)と効率(発見コスト)に分解する
論文 参考訳(メタデータ) (2026-03-28T08:30:17Z) - Evaluating LLM Safety Under Repeated Inference via Accelerated Prompt Stress Testing [0.0]
信頼性工学にインスパイアされた深度指向評価フレームワークであるAPST(Accelerated Prompt Stress Testing)を紹介する。
APSTは、制御された運用条件下で同じプロンプトを繰り返しサンプリングし、遅延故障モードを発生させる。
同様のベンチマークアライメントスコアを持つモデルでは,繰り返しサンプリングを行うと,経験的失敗率が大きく異なることが判明した。
論文 参考訳(メタデータ) (2026-02-12T10:09:13Z) - Scenario-aware Uncertainty Quantification for Trajectory Prediction with Statistical Guarantees [16.41262478059784]
本稿では,予測区間と信頼性評価を備えた予測トラジェクトリを提供するシナリオ認識不確実性定量化フレームワークを提案する。
実世界のnuPlanデータセットを用いてフレームワークの評価を行い、シナリオアウェアな不確実性定量化と信頼性評価の有効性を実証した。
論文 参考訳(メタデータ) (2025-12-05T12:54:39Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Doubly-Robust Estimation of Counterfactual Policy Mean Embeddings [23.3862001690226]
反ファクトポリシーの下での成果の分配を推定することは、推薦、広告、医療といった領域における意思決定にとって重要である。
再生カーネル空間(RKHS)における反事実分布全体を表す新しいフレームワーク-Counterfactual Policy Mean Embedding(CPME)を提案する。
プラグイン推定器と2倍頑健な推定器の両方を導入し、後者は結果埋め込みモデルと確率モデルの両方においてバイアスを補正することで収束率の向上を享受する。
論文 参考訳(メタデータ) (2025-06-03T12:16:46Z) - SConU: Selective Conformal Uncertainty in Large Language Models [59.25881667640868]
SconU(Selective Conformal Uncertainity)と呼ばれる新しいアプローチを提案する。
我々は,特定の管理可能なリスクレベルで設定されたキャリブレーションの不確実性分布から,与えられたサンプルが逸脱するかどうかを決定するのに役立つ2つの共形p値を開発する。
我々のアプローチは、単一ドメインと学際的コンテキストの両方にわたる誤発見率の厳密な管理を促進するだけでなく、予測の効率を高める。
論文 参考訳(メタデータ) (2025-04-19T03:01:45Z) - Rectifying Conformity Scores for Better Conditional Coverage [75.73184036344908]
本稿では,分割共形予測フレームワーク内で信頼セットを生成する新しい手法を提案する。
本手法は,任意の適合度スコアのトレーニング可能な変換を行い,条件付き範囲を正確に確保しつつ,条件付き範囲を改善する。
論文 参考訳(メタデータ) (2025-02-22T19:54:14Z) - Probabilistic Conformal Prediction with Approximate Conditional Validity [81.30551968980143]
本研究では,共形手法の柔軟性と条件分布の推定を組み合わせ,予測セットを生成する手法を開発した。
我々の手法は、条件付きカバレッジの観点から既存の手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-07-01T20:44:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。