論文の概要: Reinforcement Learning with Lookahead Information
- arxiv url: http://arxiv.org/abs/2406.02258v2
- Date: Fri, 18 Oct 2024 13:42:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:14:51.382767
- Title: Reinforcement Learning with Lookahead Information
- Title(参考訳): ルックアヘッド情報を用いた強化学習
- Authors: Nadav Merlis,
- Abstract要約: エージェントが報酬や移行の実現を現在の状態で観察し、どの行動をとるかを決定するという強化学習問題について検討する。
これまでの研究は、このルックアヘッド情報が収集された報酬を大幅に増加させることを示している。
我々は、ルックアヘッド情報を組み込むことができる確率効率の高い学習アルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 7.696213902533885
- License:
- Abstract: We study reinforcement learning (RL) problems in which agents observe the reward or transition realizations at their current state before deciding which action to take. Such observations are available in many applications, including transactions, navigation and more. When the environment is known, previous work shows that this lookahead information can drastically increase the collected reward. However, outside of specific applications, existing approaches for interacting with unknown environments are not well-adapted to these observations. In this work, we close this gap and design provably-efficient learning algorithms able to incorporate lookahead information. To achieve this, we perform planning using the empirical distribution of the reward and transition observations, in contrast to vanilla approaches that only rely on estimated expectations. We prove that our algorithms achieve tight regret versus a baseline that also has access to lookahead information - linearly increasing the amount of collected reward compared to agents that cannot handle lookahead information.
- Abstract(参考訳): エージェントが報酬や移行の実現を現在の状態で観察し、どの行動をとるかを決定するための強化学習(RL)問題について検討する。
このような観察は、トランザクションやナビゲーションなど、多くのアプリケーションで利用できます。
環境が分かっている場合、以前の研究は、このルックアヘッド情報が収集された報酬を大幅に増加させることができることを示した。
しかし、特定のアプリケーション以外では、未知の環境と対話するための既存のアプローチは、これらの観測に適していない。
本研究では、このギャップを埋め、ルックアヘッド情報を組み込むことができる確率効率の高い学習アルゴリズムを設計する。
これを実現するために、推定期待にのみ依存するバニラアプローチとは対照的に、報酬と遷移観測の実証的な分布を用いた計画を行う。
我々のアルゴリズムは、ルックアヘッド情報にもアクセス可能なベースラインに対して、ルックアヘッド情報を扱うことができないエージェントに比べて、収集された報酬の量を直線的に増加させることを証明している。
関連論文リスト
- Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Imitation from Observation With Bootstrapped Contrastive Learning [12.048166025000976]
IfO(IfO)は、マルコフ決定プロセスにおいて自律エージェントを訓練する学習パラダイムである。
本稿では,OfOアルゴリズムであるBootIfOLについて紹介する。
我々は,限られた数の実証軌道を用いて効果的な政策を訓練できることを示す,様々な制御タスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-02-13T17:32:17Z) - Large-Scale Retrieval for Reinforcement Learning [15.372742113152233]
強化学習において、支配的なパラダイムは、エージェントが決定をネットワークの重みに導くのに役立つ情報を修復することである。
ここでは,エージェントが大規模コンテキスト依存型データベースのルックアップを利用してパラメトリック計算を支援する方法を提案する。
論文 参考訳(メタデータ) (2022-06-10T18:25:30Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Glimpse-Attend-and-Explore: Self-Attention for Active Visual Exploration [47.01485765231528]
アクティブな視覚探索は、限られた視野を持つエージェントが部分的な観察に基づいて環境を理解するのを支援することを目的としている。
タスク固有の不確実性マップではなく、自己注意を用いて視覚探索をガイドするGlimpse-Attend-and-Exploreモデルを提案する。
私たちのモデルは、探索を駆動する際のデータセットバイアスに頼らずに、奨励的な結果を提供します。
論文 参考訳(メタデータ) (2021-08-26T11:41:03Z) - Reinforcement Learning, Bit by Bit [27.66567077899924]
強化学習エージェントはシミュレーション環境において顕著な成果を示した。
データ効率は、この成功を現実の環境に運ぶ上で障害となる。
我々は、原則化されたガイダンスを提供する概念と後悔の分析について議論する。
論文 参考訳(メタデータ) (2021-03-06T06:37:46Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。