Fugu-MT 論文翻訳(概要): Efficiency Separation between RL Methods: Model-Free, Model-Based and Goal-Conditioned

論文の概要: Efficiency Separation between RL Methods: Model-Free, Model-Based and Goal-Conditioned

arxiv url: http://arxiv.org/abs/2309.16291v1
Date: Thu, 28 Sep 2023 09:38:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-29 15:21:37.028092
Title: Efficiency Separation between RL Methods: Model-Free, Model-Based and Goal-Conditioned
Title（参考訳）: rl法の効率分離:モデルフリー、モデルベース、ゴールコンディショニング
Authors: Brieuc Pinon, Rapha\"el Jungers, Jean-Charles Delvenne
Abstract要約: 我々は,広範囲の強化学習(RL)アルゴリズムの効率性に対する基本的な制限を証明した。この制限は、モデルフリーのRL法にも適用され、ツリーサーチによる計画など、幅広いモデルベースの手法にも適用される。
参考スコア（独自算出の注目度）: 0.6215404942415159
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We prove a fundamental limitation on the efficiency of a wide class of Reinforcement Learning (RL) algorithms. This limitation applies to model-free RL methods as well as a broad range of model-based methods, such as planning with tree search. Under an abstract definition of this class, we provide a family of RL problems for which these methods suffer a lower bound exponential in the horizon for their interactions with the environment to find an optimal behavior. However, there exists a method, not tailored to this specific family of problems, which can efficiently solve the problems in the family. In contrast, our limitation does not apply to several types of methods proposed in the literature, for instance, goal-conditioned methods or other algorithms that construct an inverse dynamics model.
Abstract（参考訳）: 我々は,広範囲の強化学習(RL)アルゴリズムの効率性に対する基本的な制限を証明した。この制限は、モデルフリーなrlメソッドだけでなく、木探索による計画のようなモデルベースメソッドにも適用される。このクラスの抽象的な定義の下で、これらの手法が環境と相互作用して最適な振る舞いを見つけるために地平線において低い境界指数に悩まされるようなRL問題の族を提供する。しかし、この特定の問題群に合わせたものではない方法があり、家族内の問題を効率的に解くことができる。対照的に、我々の制限は、例えばゴール条件付き手法や逆ダイナミクスモデルを構成するアルゴリズムなど、文献で提案されているいくつかの手法には適用されない。

関連論文リスト

A Clean Slate for Offline Reinforcement Learning [30.87055102715522]
オフライン強化学習(RL)は曖昧な問題定義と絡み合ったアルゴリズム設計によって妨げられている。我々は、厳格な分類法と、オンラインチューニング予算を明確に定量化する透明な評価プロトコルを導入する。我々は,TD3-AWR(モデルフリー)とMoBRAC(モデルベース)という,確立されたベースラインを大幅に上回る2つの新しいアルゴリズムを開発した。
論文参考訳（メタデータ） (2025-04-15T17:59:05Z)
Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
正規球上の線形最小化オラクル(LMO)を利用する最適化手法について検討する。この問題の幾何学に適応するためにLMOを用いた新しいアルゴリズム群を提案し, 意外なことに, 制約のない問題に適用可能であることを示す。
論文参考訳（メタデータ） (2025-02-11T13:10:34Z)
Leveraging Constraint Violation Signals For Action-Constrained Reinforcement Learning [13.332006760984122]
ACRL(Action-Constrained Reinforcement Learning)は、ポリシーネットワークの後にプロジェクション層を用いて行動を修正する。近年,潜在変数と実行可能行動の異なるマッピングを学習するために,生成モデルを訓練する手法が提案されている。
論文参考訳（メタデータ） (2025-02-08T12:58:26Z)
Functional Homotopy: Smoothing Discrete Optimization via Continuous Parameters for LLM Jailbreak Attacks [24.935016443423233]
本研究では,機能的ホモトピー法と呼ばれる新しい最適化手法を提案する。一連の簡単な最適化問題を構築することにより、確立されたホモトピー法から導かれる原理を用いて、これらの問題を反復的に解決する。この手法を大規模言語モデル(LLM)に対するジェイルブレイク攻撃合成に適用し,既存の手法よりも20%～30%の精度向上を実現した。
論文参考訳（メタデータ） (2024-10-05T17:22:39Z)
Oracle Inequalities for Model Selection in Offline Reinforcement Learning [105.74139523696284]
本稿では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。対数係数まで最小値の速度-最適不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。そこで本研究では,優れたモデルクラスを確実に選択できることを示す数値シミュレーションを行った。
論文参考訳（メタデータ） (2022-11-03T17:32:34Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
Offline Reinforcement Learning via High-Fidelity Generative Behavior Modeling [34.88897402357158]
政策モデルの分布表現性に制限があるため,従来の手法はトレーニング中にも見つからない行動を選択する可能性がある。我々は,学習方針を表現的生成行動モデルと行動評価モデルという2つの部分に分解して生成的アプローチを採用する。提案手法は,最先端のオフラインRL法と比較して,競争力や優れた性能を実現する。
論文参考訳（メタデータ） (2022-09-29T04:36:23Z)
Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-08-12T09:54:11Z)
A Policy Efficient Reduction Approach to Convex Constrained Deep Reinforcement Learning [2.811714058940267]
本稿では,最小基準点法(MNP)を一般化した条件勾配型アルゴリズムを提案する。提案手法は,メモリコストを桁違いに削減し,その性能と効率を両立させる。
論文参考訳（メタデータ） (2021-08-29T20:51:32Z)
COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文参考訳（メタデータ） (2021-02-16T18:50:32Z)
Constrained Model-based Reinforcement Learning with Robust Cross-Entropy Method [30.407700996710023]
本稿では,制約違反に対するスパースインジケータ信号を用いた制約/安全強化学習問題について検討する。本稿では,ニューラルネットワークアンサンブルモデルを用いて予測の不確実性を推定し,モデル予測制御を基本制御フレームワークとして利用する。その結果,本手法は現状のベースラインよりもはるかに少ない制約違反数でタスクを完了させることが判明した。
論文参考訳（メタデータ） (2020-10-15T18:19:35Z)
An Online Method for A Class of Distributionally Robust Optimization with Non-Convex Objectives [54.29001037565384]
本稿では,オンライン分散ロバスト最適化(DRO)のクラスを解決するための実用的なオンライン手法を提案する。本研究は,ネットワークの堅牢性向上のための機械学習における重要な応用を実証する。
論文参考訳（メタデータ） (2020-06-17T20:19:25Z)
Deep Unfolding Network for Image Super-Resolution [159.50726840791697]
本稿では,学習に基づく手法とモデルに基づく手法の両方を活用する,エンドツーエンドのトレーニング可能なアンフォールディングネットワークを提案する。提案するネットワークは, モデルベース手法の柔軟性を継承し, 一つのモデルを用いて, 異なるスケール要因に対する, 曖昧でノイズの多い画像の超解像化を行う。
論文参考訳（メタデータ） (2020-03-23T17:55:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。