論文の概要: To Distill or Decide? Understanding the Algorithmic Trade-off in Partially Observable Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.03207v1
- Date: Fri, 03 Oct 2025 17:45:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.519968
- Title: To Distill or Decide? Understanding the Algorithmic Trade-off in Partially Observable Reinforcement Learning
- Title(参考訳): 希薄化か決定か : 部分観察型強化学習におけるアルゴリズムトレードオフの理解
- Authors: Yuda Song, Dhruv Rohatgi, Aarti Singh, J. Andrew Bagnell,
- Abstract要約: 部分的可観測性は強化学習(RL)における悪名高い課題である
近年の実証的な成功は、最適な潜伏政策であるマルコフ政策を学習し模倣するために特権付き専門家蒸留を用いている。
専門的な蒸留は、潜伏状態情報を持たないRLよりも計算効率が高いが、十分に文書化された故障モードもある。
- 参考スコア(独自算出の注目度): 21.212850813246405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Partial observability is a notorious challenge in reinforcement learning (RL), due to the need to learn complex, history-dependent policies. Recent empirical successes have used privileged expert distillation--which leverages availability of latent state information during training (e.g., from a simulator) to learn and imitate the optimal latent, Markovian policy--to disentangle the task of "learning to see" from "learning to act". While expert distillation is more computationally efficient than RL without latent state information, it also has well-documented failure modes. In this paper--through a simple but instructive theoretical model called the perturbed Block MDP, and controlled experiments on challenging simulated locomotion tasks--we investigate the algorithmic trade-off between privileged expert distillation and standard RL without privileged information. Our main findings are: (1) The trade-off empirically hinges on the stochasticity of the latent dynamics, as theoretically predicted by contrasting approximate decodability with belief contraction in the perturbed Block MDP; and (2) The optimal latent policy is not always the best latent policy to distill. Our results suggest new guidelines for effectively exploiting privileged information, potentially advancing the efficiency of policy learning across many practical partially observable domains.
- Abstract(参考訳): 部分可観測性は、複雑で歴史に依存した政策を学ぶ必要があるため、強化学習(RL)において悪名高い課題である。
近年の実証的な成功は、訓練中に潜伏状態の情報(例えばシミュレーターから)の可用性を活用して最適な潜伏状態(Markovian policy)を学習し模倣する特権付き専門家蒸留を用いており、これは「学習から行動への学習」というタスクを「行動への学習」から切り離すものである。
専門的な蒸留は、潜伏状態情報を持たないRLよりも計算効率が高いが、十分に文書化された故障モードもある。
本稿では, 摂動ブロック MDP と呼ばれる単純な理論モデルと, 模擬ロコモーション課題の制御実験を通して, 特権的専門家蒸留と標準RLとのアルゴリズム的トレードオフについて検討する。
本研究の主目的は,(1)遅延力学の確率性に基づくトレードオフであり,その理論的予測は,摂動ブロックMDPにおける信念の収縮と近似的復位性を対比することによるものであり,(2)最適潜水政策は蒸留に最適な潜水政策であるとは限らない。
以上の結果から,特権情報を効果的に活用するための新たなガイドラインが提案され,実用的な部分観測可能な領域をまたいだ政策学習の効率が向上する可能性が示唆された。
関連論文リスト
- What Matters for Batch Online Reinforcement Learning in Robotics? [65.06558240091758]
政策改善のために、自律的に収集された大量のデータから学習できることは、真にスケーラブルなロボット学習を可能にするという約束を支えている。
これまで、オンラインRL問題に模倣学習とフィルタ模倣学習を適用してきた。
これらの軸が自律的なデータ量でパフォーマンスとスケーリングにどのように影響するかを分析します。
論文 参考訳(メタデータ) (2025-05-12T21:24:22Z) - The Pitfalls of Imitation Learning when Actions are Continuous [33.44344966171865]
本研究では,連続的な状態・動作制御システムにおいて,専門家のデモレータを模倣する問題について検討する。
指数的安定性と呼ばれる制御理論的性質を満たす力学であっても、任意の滑らかな決定論的模倣ポリシーは必ず誤りを被ることを示す。
論文 参考訳(メタデータ) (2025-03-12T18:11:37Z) - Bridging the Sim-to-Real Gap from the Information Bottleneck Perspective [38.845882541261645]
ヒストリカル・インフォメーション・ボトルネック(HIB)と呼ばれる新しい特権知識蒸留法を提案する。
HIBは、変化可能な動的情報を取得することによって、歴史的軌道から特権的な知識表現を学習する。
シミュレーションと実世界の両方のタスクに関する実証実験は、HIBが従来の方法と比較して一般化性を向上させることを示した。
論文 参考訳(メタデータ) (2023-05-29T07:51:00Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文 参考訳(メタデータ) (2023-02-09T17:16:29Z) - Deconfounding Imitation Learning with Variational Inference [19.99248795957195]
標準的な模倣学習は、スペシャリストが模倣剤とは異なる感覚入力を持つ場合、失敗する可能性がある。
これは、部分的な可観測性によって、因果グラフに隠された共同創設者が生まれるためである。
本稿では,専門家の潜伏情報を推測するために変分推論モデルを訓練し,それを用いて潜伏条件ポリシーを訓練することを提案する。
論文 参考訳(メタデータ) (2022-11-04T18:00:02Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。