論文の概要: Stable Offline Value Function Learning with Bisimulation-based Representations
- arxiv url: http://arxiv.org/abs/2410.01643v2
- Date: Sat, 2 Nov 2024 19:33:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 14:50:13.537016
- Title: Stable Offline Value Function Learning with Bisimulation-based Representations
- Title(参考訳): Bisimulation-based Representation を用いた安定オフライン値関数学習
- Authors: Brahma S. Pavse, Yudong Chen, Qiaomin Xie, Josiah P. Hanna,
- Abstract要約: 強化学習では、固定目標ポリシーに従って行動を行う際に、各状態から期待される割引リターンを推定するために、オフライン値関数学習を用いる。
状態-作用表現を明示的に形成することにより、値関数学習を安定させることが重要である。
我々は、オフラインポリシー評価(KROPE)のためのカーネル表現と呼ばれるシミュレーションベースのアルゴリズムを導入する。
- 参考スコア(独自算出の注目度): 13.013000247825248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning, offline value function learning is the procedure of using an offline dataset to estimate the expected discounted return from each state when taking actions according to a fixed target policy. The stability of this procedure, i.e., whether it converges to its fixed-point, critically depends on the representations of the state-action pairs. Poorly learned representations can make value function learning unstable, or even divergent. Therefore, it is critical to stabilize value function learning by explicitly shaping the state-action representations. Recently, the class of bisimulation-based algorithms have shown promise in shaping representations for control. However, it is still unclear if this class of methods can stabilize value function learning. In this work, we investigate this question and answer it affirmatively. We introduce a bisimulation-based algorithm called kernel representations for offline policy evaluation (KROPE). KROPE uses a kernel to shape state-action representations such that state-action pairs that have similar immediate rewards and lead to similar next state-action pairs under the target policy also have similar representations. We show that KROPE: 1) learns stable representations and 2) leads to lower value error than baselines. Our analysis provides new theoretical insight into the stability properties of bisimulation-based methods and suggests that practitioners can use these methods for stable and accurate evaluation of offline reinforcement learning agents.
- Abstract(参考訳): 強化学習において、オフライン値関数学習は、固定された目標ポリシーに従って行動を取るとき、各状態から期待される割引リターンを推定するためにオフラインデータセットを使用する手順である。
この手順の安定性、すなわちそれがその固定点に収束するかどうかは、状態-作用対の表現に決定的に依存する。
粗末に学習された表現は、価値関数の学習を不安定にする可能性がある。
したがって、状態-作用表現を明示的に形成することにより、値関数学習を安定させることが重要である。
近年,バイシミュレーションに基づくアルゴリズムのクラスでは,制御のための表現の形式化が期待されている。
しかし,この手法が値関数学習を安定化させるかどうかはまだ不明である。
本研究では,この問題を調査し,肯定的に答える。
オフラインポリシー評価(KROPE)のためのカーネル表現と呼ばれるシミュレーションに基づくアルゴリズムを提案する。
KROPEはカーネルを使用して状態-作用表現を形作り、同じ即時報酬を持つ状態-作用対と、同じ状態-作用対をターゲットポリシーの下でも同様の表現を持つようにしている。
KROPEをご覧ください。
1)安定表現を学習し、
2) 基準値よりも値エラーが小さい。
本分析は,バイシミュレーションに基づく手法の安定性に関する新たな理論的知見を提供し,これらの手法をオフライン強化学習エージェントの安定的かつ正確な評価に活用できることを示唆する。
関連論文リスト
- Vlearn: Off-Policy Learning with Efficient State-Value Function Estimation [22.129001951441015]
既存の非政治強化学習アルゴリズムは、しばしば明示的な状態-作用-値関数表現に依存している。
この信頼性は、高次元の作用空間における状態-作用値関数の維持が困難なデータ非効率をもたらす。
本稿では,非政治的な深層強化学習に対する批判として,状態値関数のみを利用する効率的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-07T12:45:51Z) - Confidence-Conditioned Value Functions for Offline Reinforcement
Learning [86.59173545987984]
本稿では,任意の信頼度を高い確率で同時に学習するベルマンバックアップ方式を提案する。
理論的には、学習した値関数が真値の任意の信頼度で保守的な推定値を生成することを示す。
論文 参考訳(メタデータ) (2022-12-08T23:56:47Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文 参考訳(メタデータ) (2022-03-11T09:00:12Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - What are the Statistical Limits of Offline RL with Linear Function
Approximation? [70.33301077240763]
オフライン強化学習は、オフライン(観測的)データを活用して、シーケンシャルな意思決定戦略の学習を導く。
本研究は,提案可能なサンプル効率のオフライン強化学習を可能にする表現条件と分布条件の基本的な問題に焦点を当てる。
論文 参考訳(メタデータ) (2020-10-22T17:32:13Z) - Inverse Policy Evaluation for Value-based Sequential Decision-making [10.188967035477217]
強化学習のための価値に基づく手法は、一般に価値関数から振舞いを導出する方法を欠いている。
本稿では、逆ポリシー評価と近似値反復アルゴリズムを組み合わせることで、値ベース制御の実現可能性を示す。
論文 参考訳(メタデータ) (2020-08-26T01:31:38Z) - Representations for Stable Off-Policy Reinforcement Learning [37.561660796265]
関数近似による強化学習は不安定であり、また分岐することもある。
本研究では,非政治学習においても,標準的TDアルゴリズムが安定な非自明な状態表現を示す。
我々はこれらの安定表現が勾配降下を用いて学習できることを実証的に示すことで結論付けた。
論文 参考訳(メタデータ) (2020-07-10T17:55:54Z) - Offline Contextual Bandits with Overparameterized Models [52.788628474552276]
オフラインの文脈的盗賊にも同じ現象が起こるかどうかを問う。
この相違は, 目的の強調安定性によるものであることを示す。
大規模なニューラルネットワークを用いた実験では、アクション安定な値ベース目標と不安定なポリシベース目標とのギャップは、大きなパフォーマンス差をもたらす。
論文 参考訳(メタデータ) (2020-06-27T13:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。