論文の概要: Observations Meet Actions: Learning Control-Sufficient Representations for Robust Policy Generalization
- arxiv url: http://arxiv.org/abs/2507.19437v1
- Date: Fri, 25 Jul 2025 17:08:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:49.044631
- Title: Observations Meet Actions: Learning Control-Sufficient Representations for Robust Policy Generalization
- Title(参考訳): 観察と行動:ロバスト政策の一般化のための制御に十分な表現の学習
- Authors: Yuliang Gu, Hongpeng Cao, Marco Caccamo, Naira Hovakimyan,
- Abstract要約: 潜時変化("contexts")をキャプチャすることは、強化学習(RL)エージェントをトレーニング体制を越えて展開する上で鍵となる。
我々は、コンテキストベースのRLを二重推論制御問題として再認識し、2つの特性とその階層を正式に特徴付ける。
我々は,表現学習と政策学習をきれいに分離する,ELBOスタイルの文脈的エビデンスを導出する。
- 参考スコア(独自算出の注目度): 6.408943565801689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Capturing latent variations ("contexts") is key to deploying reinforcement-learning (RL) agents beyond their training regime. We recast context-based RL as a dual inference-control problem and formally characterize two properties and their hierarchy: observation sufficiency (preserving all predictive information) and control sufficiency (retaining decision-making relevant information). Exploiting this dichotomy, we derive a contextual evidence lower bound(ELBO)-style objective that cleanly separates representation learning from policy learning and optimizes it with Bottlenecked Contextual Policy Optimization (BCPO), an algorithm that places a variational information-bottleneck encoder in front of any off-policy policy learner. On standard continuous-control benchmarks with shifting physical parameters, BCPO matches or surpasses other baselines while using fewer samples and retaining performance far outside the training regime. The framework unifies theory, diagnostics, and practice for context-based RL.
- Abstract(参考訳): 潜時変化("contexts")をキャプチャすることは、強化学習(RL)エージェントをトレーニング体制を越えて展開する上で鍵となる。
我々は、コンテキストベースのRLを二重推論制御問題として再認識し、2つの特性とそれらの階層を正式に特徴づける: 観測十分性(全ての予測情報を保存する)と制御十分性(意思決定関連情報を保持する)。
この二分法を実施すれば,政策学習から表現学習をきれいに分離し,BCPO(Bottlenecked Contextual Policy Optimization)で最適化する,文脈的エビデンスローバウンド(ELBO)スタイルの目的が導出される。
物理パラメータをシフトさせる標準の連続制御ベンチマークでは、BCPOは他のベースラインと一致またはオーバーし、サンプルを減らし、トレーニング体制よりはるかにパフォーマンスを維持する。
このフレームワークは、コンテキストベースのRLの理論、診断、実践を統一する。
関連論文リスト
- Guided Policy Optimization under Partial Observability [36.853129816484845]
部分的に観察可能な環境下での強化学習(RL)は、不確実性の下での学習の複雑さによって大きな課題を生じさせる。
本稿では,ガイドと学習者を協調訓練するフレームワークであるGPOを紹介する。
理論的には、この学習方式は直接RLに匹敵する最適性を達成し、既存のアプローチに固有の重要な制限を克服する。
論文 参考訳(メタデータ) (2025-05-21T12:01:08Z) - SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning [9.88109749688605]
モデルに基づくオフライン強化学習は、事前コンパイルされたデータセットと学習環境モデルを使用してポリシーを訓練する。
本稿では,問題をモデルバイアスとポリシーシフトという2つの基本要素に分解する包括的分析を行う。
本稿では,モデルに基づくオフライン強化学習(SAMBO-RL)について紹介する。
論文 参考訳(メタデータ) (2024-08-23T04:25:09Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Counterfactual Explanation Policies in RL [3.674863913115432]
COUNTERPOLは、反実的説明を用いて強化学習ポリシーを分析する最初のフレームワークである。
RLにおけるCounterpolと広く利用されている信頼領域ベースのポリシー最適化手法の理論的関係を確立する。
論文 参考訳(メタデータ) (2023-07-25T01:14:56Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。
我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文 参考訳(メタデータ) (2022-02-09T15:01:59Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。