論文の概要: Adaptive Estimation and Optimal Control in Offline Contextual MDPs without Stationarity
- arxiv url: http://arxiv.org/abs/2605.03393v1
- Date: Tue, 05 May 2026 06:08:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.792849
- Title: Adaptive Estimation and Optimal Control in Offline Contextual MDPs without Stationarity
- Title(参考訳): 定常性のないオフラインMDPの適応推定と最適制御
- Authors: Riddhiman Bhattacharyya, Sayak Chakrabarty, Imon Banerjee,
- Abstract要約: 我々は,文脈的MDPの適応的推定とコスト最適化に対する新しいアプローチを提案する。
我々は、文脈的MDPの内在的特性から進化する重要な技術的課題を克服し、これを克服する。
我々の保証は、比較的最近で強力な統計手法である$T$-estimationを利用して、完全な一般性の下で確立される。
- 参考スコア(独自算出の注目度): 4.686525329317328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contextual MDPs are powerful tools with wide applicability in areas from biostatistics to machine learning. However, specializing them to offline datasets has been challenging due to a lack of robust, theoretically backed methods. Our work tackles this problem by introducing a new approach towards adaptive estimation and cost optimization of contextual MDPs. This estimator, to the best of our knowledge, is the first of its kind, and is endowed with strong optimality guarantees. We achieve this by overcoming the key technical challenges evolving from the endogenous properties of contextual MDPs; such as non-stationarity, or model irregularity. Our guarantees are established under complete generality by utilizing the relatively recent and powerful statistical technique of $T$-estimation (Baraud, 2011). We first provide a procedure for selecting an estimator given a sample from a contextual MDP and use it to derive oracle risk bounds under two distinct, but nevertheless meaningful, loss functions. We then consider the problem of determining the optimal control with the aid of the aforementioned density estimate and provide finite sample guarantees for the cost function.
- Abstract(参考訳): コンテキストMDPは、バイオ統計学から機械学習まで幅広い分野に適用可能な強力なツールである。
しかしながら、オフラインデータセットに特化することは、ロバストで理論的に支援されたメソッドが欠如しているため、難しかった。
本研究は,文脈型MDPの適応的推定とコスト最適化に向けた新しいアプローチを導入することで,この問題に対処する。
この推定器は、私たちの知る限りでは、その種の第一種であり、強力な最適性保証が与えられている。
我々は、非定常性やモデルの不規則性といった文脈的MDPの内在性から進化する重要な技術的課題を克服し、これを克服する。
我々の保証は、比較的最近で強力な統計手法である$T$-estimation(Baraud, 2011)を利用して、完全な一般性の下で確立される。
まず、文脈的MDPから与えられたサンプルから推定器を選択して、2つの異なるが有意義な損失関数の下でオラクルのリスク境界を導出する手法を提案する。
次に、上記の密度推定の助けを借りて最適制御を決定する問題を考察し、コスト関数に対する有限サンプル保証を提供する。
関連論文リスト
- Reliability-Aware Determinantal Point Processes for Robust Informative Data Selection in Large Language Models [6.463509584149428]
本稿では,確率的データアクセスを考慮した信頼性を考慮したk-DPPの実装であるProbDPPを紹介する。
我々は、この信頼性を考慮した多様性を半帯域問題とみなし、オンライン上で未知の信頼性を効率的に学習するためのUPBスタイルのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-01-31T20:14:33Z) - Labels or Preferences? Budget-Constrained Learning with Human Judgments over AI-Generated Outputs [17.028710603629026]
我々は,AIにおいて,基幹ラベルとペアの選好の間で,固定されたアノテーション予算を最適に割り当てる方法について述べる。
本稿では,データ取得戦略を最適に学習する新しいロバストネス手法であるPreference-Calibrated Active Learning (PCAL)を紹介する。
この研究は、現代のAIにおける予算制約学習に対する原則的かつ統計的に効率的なアプローチを提供する。
論文 参考訳(メタデータ) (2026-01-19T23:23:29Z) - Reliable LLM-Based Edge-Cloud-Expert Cascades for Telecom Knowledge Systems [54.916243942641444]
大規模言語モデル(LLM)は、通信などの分野において、自動化の鍵となる存在として浮上している。
本研究では,問合せパイプラインによる意思決定を支援する,エッジクラウドに精通したLLMベースの知識システムについて検討する。
論文 参考訳(メタデータ) (2025-12-23T03:10:09Z) - On the Optimality of Tracking Fisher Information in Adaptive Testing with Stochastic Binary Responses [3.491999371287298]
逐次二進応答から連続能力パラメータを推定する問題について検討する。
本稿では,フィッシャー情報を最大化するための質問を適応的に選択する簡単なアルゴリズムを提案する。
我々は,このフィッシャー追跡戦略が,固定信頼と固定予算の双方において最適な性能を達成することを証明した。
論文 参考訳(メタデータ) (2025-10-09T07:10:00Z) - Rectified Robust Policy Optimization for Model-Uncertain Constrained Reinforcement Learning without Strong Duality [53.525547349715595]
我々はRectified Robust Policy Optimization (RRPO) と呼ばれる新しいプライマリのみのアルゴリズムを提案する。
RRPOは双対の定式化に頼ることなく、主問題に直接作用する。
我々は、最もよく知られた下界と一致する複雑性を持つ、ほぼ最適な実現可能なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2025-08-24T16:59:38Z) - Distributionally Robust Optimization with Adversarial Data Contamination [49.89480853499918]
凸リプシッツ損失関数を持つ一般化線形モデルに対するワッサーシュタイン-1 DRO 目標の最適化に焦点をあてる。
私たちの主な貢献は、データ汚染のトレーニングに対するロバストネスと分散シフトに対するロバストネスを統合した、新しいモデリングフレームワークです。
この研究は、データ汚染と分散シフトという2つの課題の下で学習するために、効率的な計算によって支援される最初の厳密な保証を確立する。
論文 参考訳(メタデータ) (2025-07-14T18:34:10Z) - End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - An Offline Risk-aware Policy Selection Method for Bayesian Markov
Decision Processes [0.0]
Exploitation vs. Caution (EvC) はベイズ形式主義のモデル不確実性をエレガントに取り入れたパラダイムである。
我々は,多種多様なMDPクラスを提供する異なる離散的かつシンプルな環境において,最先端のアプローチでEvCを検証する。
テストシナリオでは、EvCは堅牢なポリシーを選択することができ、実践者にとって有用なツールとして際立っている。
論文 参考訳(メタデータ) (2021-05-27T20:12:20Z) - Data-Driven Robust Optimization using Unsupervised Deep Learning [0.0]
逆問題に対して凸混合整数プログラムとして定式化することにより、トレーニングされたニューラルネットワークをロバストな最適化モデルに統合できることを示す。
このアプローチは、カーネルベースのサポートベクターセットを用いて、同様のアプローチより優れていることが判明した。
論文 参考訳(メタデータ) (2020-11-19T11:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。