論文の概要: Making Linear MDPs Practical via Contrastive Representation Learning
- arxiv url: http://arxiv.org/abs/2207.07150v1
- Date: Thu, 14 Jul 2022 18:18:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-18 13:24:57.741710
- Title: Making Linear MDPs Practical via Contrastive Representation Learning
- Title(参考訳): コントラスト表現学習による線形MDPの実現
- Authors: Tianjun Zhang, Tongzheng Ren, Mengjiao Yang, Joseph E. Gonzalez, Dale
Schuurmans, Bo Dai
- Abstract要約: マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 101.75885788118131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is common to address the curse of dimensionality in Markov decision
processes (MDPs) by exploiting low-rank representations. This motivates much of
the recent theoretical study on linear MDPs. However, most approaches require a
given representation under unrealistic assumptions about the normalization of
the decomposition or introduce unresolved computational challenges in practice.
Instead, we consider an alternative definition of linear MDPs that
automatically ensures normalization while allowing efficient representation
learning via contrastive estimation. The framework also admits
confidence-adjusted index algorithms, enabling an efficient and principled
approach to incorporating optimism or pessimism in the face of uncertainty. To
the best of our knowledge, this provides the first practical representation
learning method for linear MDPs that achieves both strong theoretical
guarantees and empirical performance. Theoretically, we prove that the proposed
algorithm is sample efficient in both the online and offline settings.
Empirically, we demonstrate superior performance over existing state-of-the-art
model-based and model-free algorithms on several benchmarks.
- Abstract(参考訳): マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
これは最近の線形MDPの理論研究の多くを動機付けている。
しかし、ほとんどのアプローチでは、分解の正規化に関する非現実的な仮定の下で与えられた表現を必要とする。
代わりに,正規化を自動で保証し,コントラスト推定による効率的な表現学習を可能にする線形mdpの代替定義を考える。
このフレームワークは信頼調整インデックスアルゴリズムも認めており、不確実性に直面して楽観主義や悲観主義を取り入れるための効率的で原則的なアプローチを可能にしている。
我々の知る限り、この手法は線形MDPに対して、強力な理論的保証と経験的性能の両方を達成するための最初の実用的な表現学習法を提供する。
理論的には,提案アルゴリズムがオンラインとオフラインの両方で効率的にサンプル化できることを実証する。
複数のベンチマークにおいて,既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
関連論文リスト
- BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - Online MDP with Transition Prototypes: A Robust Adaptive Approach [8.556972018137147]
オンラインのロバストなマルコフ決定プロセス(MDP)について検討し、基礎となる遷移カーネルの有限個のプロトタイプに関する情報を得る。
本稿では,対応するロバストポリシーの性能を保証しつつ,真の基盤となるトランジションカーネルを効率的に同定するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-18T17:19:55Z) - Efficient Fairness-Performance Pareto Front Computation [51.558848491038916]
最適公正表現はいくつかの有用な構造特性を持つことを示す。
そこで,これらの近似問題は,凹凸プログラミング法により効率的に解けることを示す。
論文 参考訳(メタデータ) (2024-09-26T08:46:48Z) - Stochastic convex optimization for provably efficient apprenticeship
learning [1.0609815608017066]
コスト関数が不明な大規模マルコフ決定プロセス(MDP)について検討する。
擬似学習の課題に対処するために凸最適化ツールを用いており、これは、限られた専門家による実証からポリシーを学習するものである。
論文 参考訳(メタデータ) (2021-12-31T19:47:57Z) - Efficient Performance Bounds for Primal-Dual Reinforcement Learning from
Demonstrations [1.0609815608017066]
本稿では,コスト関数の不明な大規模マルコフ決定プロセスについて考察し,限られた専門家による実証から政策を学習する問題に対処する。
既存の逆強化学習法には強力な理論的保証があるが、計算上は高価である。
ラグランジアン双対性を利用して理論と実践のギャップを埋める新しい双線型サドルポイントフレームワークを導入する。
論文 参考訳(メタデータ) (2021-12-28T05:47:24Z) - How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。
我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。
この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文 参考訳(メタデータ) (2021-05-05T17:56:00Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。