Fugu-MT 論文翻訳(概要): Making Linear MDPs Practical via Contrastive Representation Learning

論文の概要: Making Linear MDPs Practical via Contrastive Representation Learning

arxiv url: http://arxiv.org/abs/2207.07150v1
Date: Thu, 14 Jul 2022 18:18:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-18 13:24:57.741710
Title: Making Linear MDPs Practical via Contrastive Representation Learning
Title（参考訳）: コントラスト表現学習による線形MDPの実現
Authors: Tianjun Zhang, Tongzheng Ren, Mengjiao Yang, Joseph E. Gonzalez, Dale Schuurmans, Bo Dai
Abstract要約: マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
参考スコア（独自算出の注目度）: 101.75885788118131
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: It is common to address the curse of dimensionality in Markov decision processes (MDPs) by exploiting low-rank representations. This motivates much of the recent theoretical study on linear MDPs. However, most approaches require a given representation under unrealistic assumptions about the normalization of the decomposition or introduce unresolved computational challenges in practice. Instead, we consider an alternative definition of linear MDPs that automatically ensures normalization while allowing efficient representation learning via contrastive estimation. The framework also admits confidence-adjusted index algorithms, enabling an efficient and principled approach to incorporating optimism or pessimism in the face of uncertainty. To the best of our knowledge, this provides the first practical representation learning method for linear MDPs that achieves both strong theoretical guarantees and empirical performance. Theoretically, we prove that the proposed algorithm is sample efficient in both the online and offline settings. Empirically, we demonstrate superior performance over existing state-of-the-art model-based and model-free algorithms on several benchmarks.
Abstract（参考訳）: マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。これは最近の線形MDPの理論研究の多くを動機付けている。しかし、ほとんどのアプローチでは、分解の正規化に関する非現実的な仮定の下で与えられた表現を必要とする。代わりに,正規化を自動で保証し,コントラスト推定による効率的な表現学習を可能にする線形mdpの代替定義を考える。このフレームワークは信頼調整インデックスアルゴリズムも認めており、不確実性に直面して楽観主義や悲観主義を取り入れるための効率的で原則的なアプローチを可能にしている。我々の知る限り、この手法は線形MDPに対して、強力な理論的保証と経験的性能の両方を達成するための最初の実用的な表現学習法を提供する。理論的には,提案アルゴリズムがオンラインとオフラインの両方で効率的にサンプル化できることを実証する。複数のベンチマークにおいて,既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。

関連論文リスト

Online Inference of Constrained Optimization: Primal-Dual Optimality and Sequential Quadratic Programming [55.848340925419286]
等式制約と不等式制約を持つ2次最適化問題の解に対するオンライン統計的推測について検討した。これらの問題を解決するための逐次プログラミング(SSQP)手法を開発し、目的の近似と制約の線形近似を逐次実行することでステップ方向を計算する。本手法は,Hjek と Le Cam の意味での最適原始双対制限行列を用いて局所正規性を示す。
論文参考訳（メタデータ） (2025-11-27T06:16:17Z)
Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文参考訳（メタデータ） (2025-10-27T23:10:06Z)
Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。 IB対応推論最適化(IBRO)を提案する。
論文参考訳（メタデータ） (2025-07-24T13:14:25Z)
Discrete Markov Bridge [93.64996843697278]
離散マルコフブリッジと呼ばれる離散表現学習に特化して設計された新しいフレームワークを提案する。私たちのアプローチは、Matrix LearningとScore Learningの2つの重要なコンポーネントの上に構築されています。
論文参考訳（メタデータ） (2025-05-26T09:32:12Z)
BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文参考訳（メタデータ） (2025-01-31T02:39:07Z)
Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。この障壁を克服する斬新でシンプルな推定器を提示する。
論文参考訳（メタデータ） (2025-01-30T22:29:41Z)
Online MDP with Transition Prototypes: A Robust Adaptive Approach [8.556972018137147]
オンラインのロバストなマルコフ決定プロセス(MDP)について検討し、基礎となる遷移カーネルの有限個のプロトタイプに関する情報を得る。本稿では,対応するロバストポリシーの性能を保証しつつ,真の基盤となるトランジションカーネルを効率的に同定するアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-18T17:19:55Z)
Efficient Fairness-Performance Pareto Front Computation [51.558848491038916]
最適公正表現はいくつかの有用な構造特性を持つことを示す。そこで,これらの近似問題は,凹凸プログラミング法により効率的に解けることを示す。
論文参考訳（メタデータ） (2024-09-26T08:46:48Z)
Value-Biased Maximum Likelihood Estimation for Model-based Reinforcement Learning in Discounted Linear MDPs [16.006893624836554]
本稿では,VBMLE (Value-Biased Maximum Likelihood Estimation) のレンズによる線形MDPの解法を提案する。 VBMLEは、各時間ステップで1つの最適化問題だけを解決する必要があるため、計算的により効率的である。後悔する解析では、線形MDPにおけるMLEの一般収束結果が、新しいスーパーマーチンゲール構造を通して提供される。
論文参考訳（メタデータ） (2023-10-17T18:27:27Z)
Stochastic convex optimization for provably efficient apprenticeship learning [1.0609815608017066]
コスト関数が不明な大規模マルコフ決定プロセス(MDP)について検討する。擬似学習の課題に対処するために凸最適化ツールを用いており、これは、限られた専門家による実証からポリシーを学習するものである。
論文参考訳（メタデータ） (2021-12-31T19:47:57Z)
Efficient Performance Bounds for Primal-Dual Reinforcement Learning from Demonstrations [1.0609815608017066]
本稿では,コスト関数の不明な大規模マルコフ決定プロセスについて考察し,限られた専門家による実証から政策を学習する問題に対処する。既存の逆強化学習法には強力な理論的保証があるが、計算上は高価である。ラグランジアン双対性を利用して理論と実践のギャップを埋める新しい双線型サドルポイントフレームワークを導入する。
論文参考訳（メタデータ） (2021-12-28T05:47:24Z)
False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。 SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文参考訳（メタデータ） (2021-10-24T15:34:03Z)
Sample Efficient Reinforcement Learning In Continuous State Spaces: A Perspective Beyond Linearity [50.38337893712897]
線形性を仮定しないMDP上の構造条件であるEPW(Effective Planning Window)条件を導入する。 EPW条件は、この条件を満たすMDPを確実に解くアルゴリズムを提供することで、サンプル効率のよいRLを許容することを示した。また, EPW のような条件の必要性も示し, わずかに非線形な単純な MDP を効率的にサンプリングできないことを示した。
論文参考訳（メタデータ） (2021-06-15T00:06:59Z)
Efficient Iterative Amortized Inference for Learning Symmetric and Disentangled Multi-Object Representations [8.163697683448811]
本稿では,オブジェクト中心表現の教師なし学習のための効率的なフレームワークであるEfficientMORLを紹介する。対称性と非絡み合いの両方を必要とすることによる最適化の課題は、高コスト反復的償却推論によって解決できることを示す。標準のマルチオブジェクト・ベンチマークでは,強いオブジェクト分解と歪みを示しながら,ほぼ1桁の高速なトレーニングとテスト時間推定を実現している。
論文参考訳（メタデータ） (2021-06-07T14:02:49Z)
How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文参考訳（メタデータ） (2021-05-05T17:56:00Z)
COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文参考訳（メタデータ） (2021-02-16T18:50:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。