論文の概要: Reinforcement Learning, Bit by Bit
- arxiv url: http://arxiv.org/abs/2103.04047v1
- Date: Sat, 6 Mar 2021 06:37:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 16:00:54.102224
- Title: Reinforcement Learning, Bit by Bit
- Title(参考訳): 強化学習, Bit by Bit
- Authors: Xiuyuan Lu, Benjamin Van Roy, Vikranth Dwaracherla, Morteza Ibrahimi,
Ian Osband, Zheng Wen
- Abstract要約: 強化学習エージェントはシミュレーション環境において顕著な成果を示した。
データ効率は、この成功を実環境に持ち込む上で障害となる。
私達は概念を開発し、一緒に原則的な指導を提供する後悔の境界を確立します。
- 参考スコア(独自算出の注目度): 35.45234107515709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning agents have demonstrated remarkable achievements in
simulated environments. Data efficiency poses an impediment to carrying this
success over to real environments. The design of data-efficient agents calls
for a deeper understanding of information acquisition and representation. We
develop concepts and establish a regret bound that together offer principled
guidance. The bound sheds light on questions of what information to seek, how
to seek that information, and it what information to retain. To illustrate
concepts, we design simple agents that build on them and present computational
results that demonstrate improvements in data efficiency.
- Abstract(参考訳): 強化学習エージェントはシミュレーション環境において顕著な成果を示した。
データ効率は、この成功を実環境に持ち込む上で障害となる。
データ効率のエージェントの設計は、情報取得と表現のより深い理解を求めている。
私達は概念を開発し、一緒に原則的な指導を提供する後悔の境界を確立します。
境界は、探すべき情報、その情報を探す方法、そして保持すべき情報についての質問に光を当てます。
概念を説明するために,その上に構築する単純なエージェントをデザインし,データ効率の向上を示す計算結果を提示する。
関連論文リスト
- Leveraging Superfluous Information in Contrastive Representation Learning [0.0]
従来のコントラスト学習フレームワークには,過剰な情報が存在することを示す。
我々は,予測情報と過剰情報の両方を線形に組み合わせることで,ロバストな表現を学習するための新しい目的,すなわちSuperInfoを設計する。
我々は、画像分類、オブジェクト検出、インスタンス分割タスクにおいて、従来のコントラスト学習アプローチよりも優れていることをしばしば示している。
論文 参考訳(メタデータ) (2024-08-19T16:21:08Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Representation Learning in Deep RL via Discrete Information Bottleneck [39.375822469572434]
本研究では,タスク非関連情報の存在下で,潜在状態を効率的に構築するために,情報のボトルネックを利用する方法について検討する。
本稿では,RepDIBとよばれる変動的および離散的な情報のボトルネックを利用して,構造化された因子化表現を学習するアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-28T14:38:12Z) - Large-Scale Retrieval for Reinforcement Learning [15.372742113152233]
強化学習において、支配的なパラダイムは、エージェントが決定をネットワークの重みに導くのに役立つ情報を修復することである。
ここでは,エージェントが大規模コンテキスト依存型データベースのルックアップを利用してパラメトリック計算を支援する方法を提案する。
論文 参考訳(メタデータ) (2022-06-10T18:25:30Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - The Value of Information When Deciding What to Learn [21.945359614094503]
本研究は情報指向サンプリングの設計原理に基づく(Russo & Van Roy, 2014)。
我々は,学習内容を決定する際の情報の価値を確認する実証的な結果に目を向ける前に,学習目標に関する文献からの新たな知見を提示する。
論文 参考訳(メタデータ) (2021-10-26T19:23:12Z) - Which Mutual-Information Representation Learning Objectives are
Sufficient for Control? [80.2534918595143]
相互情報は、データの表現を学習するために魅力的な形式を提供する。
本稿では,最適政策の学習と表現のための状態表現の十分性について定式化する。
意外なことに、これらの2つの目的は、MDPの構造に関する軽度で一般的な仮定を前提に、不十分な表現をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-14T10:12:34Z) - Curious Representation Learning for Embodied Intelligence [81.21764276106924]
近年,自己指導型表現学習は顕著な成功を収めている。
しかし、真にインテリジェントなエージェントを構築するためには、環境から学習できる表現学習アルゴリズムを構築する必要がある。
本稿では,強化学習方針と視覚的表現モデルを同時に学習する,好奇心をそそる表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:59:20Z) - Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。
これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。
これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文 参考訳(メタデータ) (2021-02-22T18:56:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。