Robust Parameter Learning for Uncertain MDPs
Abstractの概要
本論文は、経験的遷移頻度から得られる統計的不確実性を、既知のパラメトリックMDP(pMDP)のパラメータ空間に射影することで、不確実MDP(UMDP)を学習するフレームワークを提案している。遷移確率を独立に扱うのではなく、共有パラメータによって捉えられる代数的依存関係を活用し、真のパラメータインスタンスを少なくとも確率1−δで含むパラメータ空間上の信頼領域を構築する。得られる結合的不確実性集合は計算上困難であるため、著者らはトラクタブルなロバスト方策合成を可能にする矩形および線形の外側緩和の階層を開発している。さらに、このフレームワークは、学習された制約が仮定されたパラメトリック構造と整合しない場合を特定し、モデル誤特定の診断機能も提供する。
新規性
主要な貢献は、個々の遷移確率に対する独立した信頼区間を構築するのではなく、pMDPのパラメータ空間を通じて不確実MDPを学習することで、遷移間の代数的依存関係を保持する点にある。また、構造的に結合された不確実性をロバスト合成に対してトラクタブルにするために、矩形・式単位・パラメータ単位の射影からなる健全な緩和の形式的階層と、多項式制約に対するMcCormickベースの線形化を導入している。
成果
著者らは、射影されたパラメータ不確実性領域が真のパラメータインスタンスを少なくとも確率1−δで含むことを証明し、ロバスト値が真の性能のPAC下界であることを保証している。実験的には、パラメトリック構造の活用により、パラメータ結合を伴う区間ベースの学習よりも大幅に緊密な不確実性推定が得られ、式単位の射影はしばしば最も緊密な矩形緩和に匹敵しつつ計算コストを大幅に削減している。オンライン学習実験では、緊密な不確実性モデルにより、ベースラインと比較して認証済みサンプル効率が最大1桁改善された。
論文の注目点
- 本手法は遷移レベルの統計的不確実性をpMDPパラメータ空間に射影し、遷移間の代数的依存関係を尊重した高信頼不確実性領域を生成し、PAC包含保証を提供する。
- 誘導される結合的不確実性の計算困難性に対処するため、証明された包含関係を持つ健全な緩和の階層(矩形・式単位・パラメータ単位)を開発し、多項式制約の線形化にMcCormick包絡線を使用している。
- ベンチマーク評価において、式単位の射影は緊密性と実行時間の最良のトレードオフとして浮上し、しばしば最も緊密な矩形緩和に匹敵しつつ、ベースラインの区間学習と同等の計算コストを維持している。