Fugu-MT 論文翻訳(概要): DeepAveragers: Offline Reinforcement Learning by Solving Derived Non-Parametric MDPs

論文の概要: DeepAveragers: Offline Reinforcement Learning by Solving Derived Non-Parametric MDPs

arxiv url: http://arxiv.org/abs/2010.08891v1
Date: Sun, 18 Oct 2020 00:11:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-06 03:49:39.270786
Title: DeepAveragers: Offline Reinforcement Learning by Solving Derived Non-Parametric MDPs
Title（参考訳）: deepaveragers:非パラメトリックmdpによるオフライン強化学習
Authors: Aayam Shrestha, Stefan Lee, Prasad Tadepalli, Alan Fern
Abstract要約: 静的な経験データセットから得られる有限表現型MDPを最適に解くことに基づくオフライン強化学習(RL)へのアプローチについて検討する。我々の主な貢献は、Deep Averagers with Costs MDP (DAC-MDP)を導入し、オフラインRLに対するソリューションを検討することである。
参考スコア（独自算出の注目度）: 47.73837217824527
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study an approach to offline reinforcement learning (RL) based on optimally solving finitely-represented MDPs derived from a static dataset of experience. This approach can be applied on top of any learned representation and has the potential to easily support multiple solution objectives as well as zero-shot adjustment to changing environments and goals. Our main contribution is to introduce the Deep Averagers with Costs MDP (DAC-MDP) and to investigate its solutions for offline RL. DAC-MDPs are a non-parametric model that can leverage deep representations and account for limited data by introducing costs for exploiting under-represented parts of the model. In theory, we show conditions that allow for lower-bounding the performance of DAC-MDP solutions. We also investigate the empirical behavior in a number of environments, including those with image-based observations. Overall, the experiments demonstrate that the framework can work in practice and scale to large complex offline RL problems.
Abstract（参考訳）: 静的な経験データセットから得られる有限表現型MDPを最適に解くことに基づくオフライン強化学習(RL)へのアプローチについて検討する。このアプローチは、学習した表現の上に適用でき、環境や目標の変更に対するゼロショット調整だけでなく、複数のソリューション目標を簡単にサポートできる可能性がある。我々の主な貢献は、Deep Averagers with Costs MDP (DAC-MDP)を導入し、オフラインRLに対するソリューションを検討することである。 dac-mdpsは非パラメトリックモデルであり、モデルの未表示部分を利用するためのコストを導入することで、深い表現を活用でき、限られたデータも考慮できる。理論的には、DAC-MDPソリューションの性能を低く抑える条件を示す。また,画像に基づく観察を含む様々な環境における経験的行動についても検討した。全体として、実験はフレームワークが実際に動作し、大規模で複雑なオフラインのrl問題にスケールできることを示しています。

関連論文リスト

Efficient Solution and Learning of Robust Factored MDPs [57.2416302384766]
未知の環境との相互作用からr-MDPを学習することで、性能保証による堅牢なポリシーの合成が可能になる。本稿では,因子状態表現に基づくr-MDPの解法と学習法を提案する。
論文参考訳（メタデータ） (2025-08-01T15:23:15Z)
Unsupervised Data Generation for Offline Reinforcement Learning: A Perspective from Model [57.20064815347607]
オフライン強化学習(RL)は、最近RL研究者から関心が高まりつつある。オフラインRLの性能は、オンラインRLのフィードバックによって修正できる配布外問題に悩まされる。本稿では、まず、バッチデータとオフラインRLアルゴリズムの性能を理論的に橋渡しする。タスクに依存しない環境では、教師なしのRLによって訓練された一連のポリシーは、パフォーマンスギャップにおける最悪の後悔を最小限に抑えることができることを示す。
論文参考訳（メタデータ） (2025-06-24T14:08:36Z)
Reinforce LLM Reasoning through Multi-Agent Reflection [8.088795955922656]
DPSDPは,自己生成データを直接選好学習することで,アクタクリティカルなLLMシステムを反復的に洗練する強化学習アルゴリズムである。理論的には、DPSDPはトレーニング分布内の任意のポリシーのパフォーマンスと一致させることができる。例えば、ベンチマークMATH 500では、5つの改良ステップ以上の多数投票がミニストラーモデルで第1回投票の精度を58.2%から63.2%に向上させた。
論文参考訳（メタデータ） (2025-06-10T02:43:47Z)
On Discriminative Probabilistic Modeling for Self-Supervised Representation Learning [85.75164588939185]
複数モーダルな)自己教師付き表現学習のための連続領域における識別確率モデル問題について検討する。我々は、自己教師付き表現学習における現在のInfoNCEに基づくコントラスト損失の制限を明らかにするために一般化誤差解析を行う。
論文参考訳（メタデータ） (2024-10-11T18:02:46Z)
Graph-based Unsupervised Disentangled Representation Learning via Multimodal Large Language Models [42.17166746027585]
複素データ内の因子化属性とその相互関係を学習するための双方向重み付きグラフベースフレームワークを提案する。具体的には、グラフの初期ノードとして要素を抽出する$beta$-VAEベースのモジュールを提案する。これらの相補的加群を統合することで、我々は細粒度、実用性、教師なしの絡み合いをうまく達成できる。
論文参考訳（メタデータ） (2024-07-26T15:32:21Z)
BECAUSE: Bilinear Causal Representation for Generalizable Offline Model-based Reinforcement Learning [39.090104460303415]
オフラインモデルベース強化学習(MBRL)は、事前コンパイルされたデータセットを使用してモデルとポリシーを学ぶことにより、データ効率を向上させる。本稿は、このミスマッチの主な原因を、オフラインデータに存在する根底にある共同設立者から特定する。両状態の因果表現をキャプチャするアルゴリズムである textbfBilintextbfEar textbfCAUSal rtextbfEpresentation (BECAUSE) を導入する。
論文参考訳（メタデータ） (2024-07-15T17:59:23Z)
Causal prompting model-based offline reinforcement learning [16.95292725275873]
モデルベースのオフラインRLでは、エージェントは追加または非倫理的な探索を必要とせずに、事前にコンパイルされたデータセットを完全に活用することができる。モデルベースのオフラインRLをオンラインシステムに適用することは、高度に最適化された(ノイズが満ちた)、オンラインシステムによって生成されたデータセットの多様な性質による課題を示す。本稿では,高度に最適化されたリソース制約のあるオンラインシナリオを対象としたCausal Prompting Reinforcement Learningフレームワークを紹介する。
論文参考訳（メタデータ） (2024-06-03T07:28:57Z)
POMDP inference and robust solution via deep reinforcement learning: An application to railway optimal maintenance [0.7046417074932257]
深部RLを用いたPMDPの推論とロバストな解法の組み合わせを提案する。まず、すべての遷移モデルと観測モデルパラメータは、隠れマルコフモデルのマルコフ・チェイン・モンテ・カルロサンプリングによって共同で推論される。パラメータが不確実なPOMDPは、パラメータ分布を領域ランダム化によって解に組み込んだ深部RL手法によって解決される。
論文参考訳（メタデータ） (2023-07-16T15:44:58Z)
The Impact of Task Underspecification in Evaluating Deep Reinforcement Learning [1.4711121887106535]
深層強化学習法(DRL)の評価は、この分野の科学的進歩の不可欠な部分である。本稿では,MDPのパラメータ化ファミリーを検討するためにDRLの評価を増強する。 MDPファミリーの評価は,どの手法を最先端とみなすべきかという疑念を招き,比較的異なる手法の相対的なランク付けをしばしば得ることを示す。
論文参考訳（メタデータ） (2022-10-16T18:51:55Z)
Offline Reinforcement Learning with Instrumental Variables in Confounded Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文参考訳（メタデータ） (2022-09-18T22:03:55Z)
Semi-Markov Offline Reinforcement Learning for Healthcare [57.15307499843254]
本稿では,SDQN,SDDQN,SBCQという3つのオフラインRLアルゴリズムを紹介する。変動時間環境において,これらのアルゴリズムのみが最適ポリシーを学習できることを実験的に実証した。我々は,脳卒中予防のためのウォーファリン投与に関連する実世界のオフラインデータセットに,我々の新しいアルゴリズムを適用した。
論文参考訳（メタデータ） (2022-03-17T14:51:21Z)
Towards Deployment-Efficient Reinforcement Learning: Lower Bound and Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文参考訳（メタデータ） (2022-02-14T01:31:46Z)
Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文参考訳（メタデータ） (2021-11-29T06:29:49Z)
MOReL : Model-Based Offline Reinforcement Learning [49.30091375141527]
オフライン強化学習(RL)では、環境との歴史的相互作用のデータセットのみに基づく高報酬政策を学習することが目的である。モデルベースオフラインRLのためのアルゴリズムフレームワークMOReLを提案する。オフラインRLベンチマークにおいてMOReLが最先端の結果と一致するか,あるいは超えるかを示す。
論文参考訳（メタデータ） (2020-05-12T17:52:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。