論文の概要: Data-Efficient Safe Policy Improvement Using Parametric Structure
- arxiv url: http://arxiv.org/abs/2507.15532v2
- Date: Mon, 18 Aug 2025 18:41:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.580751
- Title: Data-Efficient Safe Policy Improvement Using Parametric Structure
- Title(参考訳): パラメトリック構造を用いたデータ効率の良い安全政策改善
- Authors: Kasper Engelen, Guillermo A. Pérez, Marnix Suilen,
- Abstract要約: 3つのコントリビューションを通じて、安全政策改善(SPI)をよりデータ効率よくします。
パラメトリックSPIアルゴリズムは、分布間の既知の相関を利用して、遷移ダイナミクスをより正確に推定する。
より高度な前処理技術は、満足度変調理論(SMT)の解法に基づいて、さらに多くのアクションを特定できる。
- 参考スコア(独自算出の注目度): 6.914228980072897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safe policy improvement (SPI) is an offline reinforcement learning problem in which a new policy that reliably outperforms the behavior policy with high confidence needs to be computed using only a dataset and the behavior policy. Markov decision processes (MDPs) are the standard formalism for modeling environments in SPI. In many applications, additional information in the form of parametric dependencies between distributions in the transition dynamics is available. We make SPI more data-efficient by leveraging these dependencies through three contributions: (1) a parametric SPI algorithm that exploits known correlations between distributions to more accurately estimate the transition dynamics using the same amount of data; (2) a preprocessing technique that prunes redundant actions from the environment through a game-based abstraction; and (3) a more advanced preprocessing technique, based on satisfiability modulo theory (SMT) solving, that can identify more actions to prune. Empirical results and an ablation study show that our techniques increase the data efficiency of SPI by multiple orders of magnitude while maintaining the same reliability guarantees.
- Abstract(参考訳): 安全な政策改善(SPI)は、データセットと行動ポリシーのみを使用して、信頼性の高い行動ポリシーを確実に上回る新しいポリシーを計算する必要がある、オフラインの強化学習問題である。
マルコフ決定プロセス(MDP)は、SPIにおける環境モデリングの標準形式である。
多くのアプリケーションでは、遷移力学における分布間のパラメトリック依存関係という形で追加情報が得られる。
我々は,(1)分布間の既知の相関を利用して,同じ量のデータを用いて遷移ダイナミクスをより正確に推定するパラメトリックSPIアルゴリズム,(2)ゲームベースの抽象化を通じて環境から冗長な動作を誘発する前処理技術,(3)満足度変調理論(SMT)に基づくより高度な前処理技術,という3つの貢献を通じて,これらの依存関係を活用することにより,SPIをより効率的にする。
実験結果とアブレーション研究により,SPIのデータ効率は,同一の信頼性保証を維持しつつ,桁違いに向上することが示された。
関連論文リスト
- Efficient Solution and Learning of Robust Factored MDPs [57.2416302384766]
未知の環境との相互作用からr-MDPを学習することで、性能保証による堅牢なポリシーの合成が可能になる。
本稿では,因子状態表現に基づくr-MDPの解法と学習法を提案する。
論文 参考訳(メタデータ) (2025-08-01T15:23:15Z) - Relative Entropy Pathwise Policy Optimization [56.86405621176669]
そこで本研究では,Q値モデルをオンラインデータから純粋にトレーニング可能な,価値段階駆動型オンデマンドアルゴリズムの構築方法について述べる。
本稿では,パスワイズポリシー勾配のサンプル効率と,標準的なオンライン学習の単純さと最小限のメモリフットプリントを組み合わせた,効率的なオンライン学習アルゴリズムであるRelative Entropy Pathwise Policy Optimization (REPPO)を提案する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - EKPC: Elastic Knowledge Preservation and Compensation for Class-Incremental Learning [53.88000987041739]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、AIモデルを、時間とともに異なるクラスのシーケンシャルに到着したデータから継続的に学習可能にすることを目的としている。
本稿では, 重要度を考慮した重要度正規化 (IPR) と CIL のためのトレーニング可能なセマンティックドリフト補償 (TSDC) を統合したElastic Knowledge Preservation and Compensation (EKPC) 法を提案する。
論文 参考訳(メタデータ) (2025-06-14T05:19:58Z) - P3: A Policy-Driven, Pace-Adaptive, and Diversity-Promoted Framework for data pruning in LLM Training [22.61313628957683]
本稿では、反復データプルーニングによるタスク固有の微調整プロセスの最適化を目的とした適応型フレームワークであるP3を紹介する。
P3は、政策駆動型困難度測定、ペース適応選択、多様性促進の3つの主要な構成要素で構成されている。
我々は,従来のデータプルーニング手法に対して,P3を推論シナリオであるAPPSとMATHで検証し,大幅な改善を示した。
論文 参考訳(メタデータ) (2024-08-10T12:44:49Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - More for Less: Safe Policy Improvement With Stronger Performance
Guarantees [7.507789621505201]
安全な政策改善(SPI)問題は、サンプルデータが生成された行動ポリシーの性能を改善することを目的としている。
本稿では,SPI問題に対する新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-13T16:22:21Z) - Safe Policy Improvement for POMDPs via Finite-State Controllers [6.022036788651133]
部分的に観測可能なマルコフ決定プロセス(POMDP)のための安全政策改善(SPI)について検討する。
SPIメソッドは、モデルや環境自体へのアクセスを必要とせず、オフラインで動作ポリシーを確実に改善することを目指している。
我々は,この新方針が(未知の)POMDPの新しいFSCに変換され,行動方針を高い確率で上回ることを示す。
論文 参考訳(メタデータ) (2023-01-12T11:22:54Z) - Robust Anytime Learning of Markov Decision Processes [8.799182983019557]
データ駆動型アプリケーションでは、限られたデータから正確な確率を導き出すと統計的エラーが発生する。
不確実なMDP(uMDP)は正確な確率を必要としないが、遷移においていわゆる不確実性集合を用いる。
本稿では,ベイズ的推論スキームとロバストポリシーの計算を組み合わせた,頑健な任意の時間学習手法を提案する。
論文 参考訳(メタデータ) (2022-05-31T14:29:55Z) - Data Augmentation through Expert-guided Symmetry Detection to Improve
Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。
近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。
学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文 参考訳(メタデータ) (2021-12-18T14:32:32Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。