論文の概要: A General Perspective on Objectives of Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.03074v1
- Date: Mon, 5 Jun 2023 17:50:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 13:35:21.027882
- Title: A General Perspective on Objectives of Reinforcement Learning
- Title(参考訳): 強化学習の目的に関する総合的展望
- Authors: Long Yang
- Abstract要約: 強化学習のための目的の3つのバージョンを示す。
1つは目的の標準定義、もう1つは$lambda$-returnバージョン、もう1つは一般的な目的です。
最後のバージョンは、RLの目的を理解するための高いレベルを提供しており、そこでは、広く使われているRLテクニックを接続する基本的な定式化を示している。
- 参考スコア(独自算出の注目度): 4.832509214779894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this lecture, we present a general perspective on reinforcement learning
(RL) objectives, where we show three versions of objectives. The first version
is the standard definition of objective in RL literature. Then we extend the
standard definition to the $\lambda$-return version, which unifies the standard
definition of objective. Finally, we propose a general objective that unifies
the previous two versions. The last version provides a high level to understand
of RL's objective, where it shows a fundamental formulation that connects some
widely used RL techniques (e.g., TD$(\lambda)$ and GAE), and this objective can
be potentially applied to extensive RL algorithms.
- Abstract(参考訳): 本稿では,強化学習(rl)目標に関する一般的な視点を示し,目的の3つのバージョンを示す。
最初のバージョンは rl literature における objective の標準定義である。
その後、標準定義を$\lambda$-returnバージョンに拡張し、objectiveの標準定義を統一します。
最後に,これまでの2つのバージョンを統一する汎用目的を提案する。
最後のバージョンはRLの目的を理解するための高いレベルを提供し、そこでは広く使われているRLの技法(例えば、TD$(\lambda)$とGAE)を接続する基本的な定式化を示し、この目的は広範なRLアルゴリズムに適用できる可能性がある。
関連論文リスト
- Vision-Language Models as a Source of Rewards [68.52824755339806]
強化学習エージェントの報酬源として市販の視覚言語モデル(VLM)の有効性を検討する。
様々な言語目標の視覚的達成に対する報酬は、CLIPファミリーのモデルから導き出すことができ、様々な言語目標を達成するためのRLエージェントの訓練に使用されることを示す。
論文 参考訳(メタデータ) (2023-12-14T18:06:17Z) - On The Expressivity of Objective-Specification Formalisms in
Reinforcement Learning [4.998202587873575]
強化学習における客観的特化形式の比較を行った。
形式主義は、支配的な表現力と、現在の技法で最適化するための単純さの両方を持たない。
結果は、報奨学習を多種多様なフォーマリズムに適応させる将来の研究の必要性を強調している。
論文 参考訳(メタデータ) (2023-10-18T09:46:01Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - What is Essential for Unseen Goal Generalization of Offline
Goal-conditioned RL? [31.202506227437937]
オフラインのゴール条件付きRL(GCRL)は、完全にオフラインのデータセットから汎用エージェントをトレーニングする方法を提供する。
我々は、新しいオフラインGCRL法、Generalizable Offline goAl-condiTioned RL(GOAT)を提案する。
9つの独立した同一分散(IID)タスクと17のOODタスクを含む新しいベンチマークでは、GOATは現在の最先端メソッドを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2023-05-30T09:26:32Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Goal Exploration Augmentation via Pre-trained Skills for Sparse-Reward
Long-Horizon Goal-Conditioned Reinforcement Learning [6.540225358657128]
強化学習(Reinforcement Learning, RL)は、複雑な環境でスパース・リワード・ロングホライゾン・タスクを達成するのにしばしば苦労する。
ゴール条件強化学習(GCRL)は,手軽なサブゴールのカリキュラムを通じて,この問題に対処するために用いられている。
GCRLでは、エージェントが最終的に望ましいゴールへの経路を見つけるためには、新しいサブゴールの探索が不可欠である。
論文 参考訳(メタデータ) (2022-10-28T11:11:04Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。