論文の概要: Learning Agent State Online with Recurrent Generate-and-Test
- arxiv url: http://arxiv.org/abs/2112.15236v1
- Date: Thu, 30 Dec 2021 23:10:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-03 13:54:08.243878
- Title: Learning Agent State Online with Recurrent Generate-and-Test
- Title(参考訳): リカレントジェネレーション・アンド・テストによるエージェントのオンライン学習
- Authors: Amir Samani, Richard S. Sutton
- Abstract要約: この研究はエージェント状態を学ぶためのジェネレーション・アンド・テストのアプローチに基づく手法を導入する。
生成とテストのアルゴリズムは、特徴を生成し、有用性をテストすることによって、状態特徴を検索する。
提案手法は,エージェント状態をオンラインで効果的に学習し,正確な予測を行うことができることを示す。
- 参考スコア(独自算出の注目度): 7.93806901080197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning continually and online from a continuous stream of data is
challenging, especially for a reinforcement learning agent with sequential
data. When the environment only provides observations giving partial
information about the state of the environment, the agent must learn the agent
state based on the data stream of experience. We refer to the state learned
directly from the data stream of experience as the agent state. Recurrent
neural networks can learn the agent state, but the training methods are
computationally expensive and sensitive to the hyper-parameters, making them
unideal for online learning. This work introduces methods based on the
generate-and-test approach to learn the agent state. A generate-and-test
algorithm searches for state features by generating features and testing their
usefulness. In this process, features useful for the agent's performance on the
task are preserved, and the least useful features get replaced with newly
generated features. We study the effectiveness of our methods on two online
multi-step prediction problems. The first problem, trace conditioning, focuses
on the agent's ability to remember a cue for a prediction multiple steps into
the future. In the second problem, trace patterning, the agent needs to learn
patterns in the observation signals and remember them for future predictions.
We show that our proposed methods can effectively learn the agent state online
and produce accurate predictions.
- Abstract(参考訳): 連続したデータストリームから継続的にオンラインに学習することは、特にシーケンシャルなデータを持つ強化学習エージェントにとって難しい。
環境が環境の状態に関する部分的な情報を与える観察のみを提供する場合、エージェントは経験のデータストリームに基づいてエージェントの状態を学ぶ必要がある。
経験データストリームから直接学んだ状態をエージェント状態と呼ぶ。
リカレントニューラルネットワークはエージェント状態を学習することができるが、トレーニング方法は計算コストが高く、ハイパーパラメータに敏感であり、オンライン学習には適さない。
本研究は,エージェントの状態学習のための生成・テストアプローチに基づく手法を提案する。
生成とテストのアルゴリズムは、特徴を生成し、有用性をテストすることによって、状態特徴を検索する。
このプロセスでは、タスクにおけるエージェントのパフォーマンスに有用な機能を保存し、最も有用な機能は新しく生成された機能に置き換えられる。
オンライン多段階予測問題に対する提案手法の有効性について検討した。
最初の問題はトレース条件付けであり、エージェントが未来への複数のステップを予測するためのキューを記憶する能力に焦点を当てている。
2つ目の問題、トレースパターニングでは、エージェントは観測信号のパターンを学習し、将来の予測のために記憶する必要がある。
提案手法は,エージェント状態をオンラインで効果的に学習し,正確な予測を行うことができることを示す。
関連論文リスト
- Online Continual Learning For Interactive Instruction Following Agents [20.100312650193228]
このような学習シナリオは,ロボットエージェントが世界を探索し,知覚する上で,継続的に世界を学ぶことが求められているため,現実的ではない,と我々は主張する。
本研究では,新しい行動学習と新しい環境学習という,エンボディエージェントのための2つの連続学習環境を提案する。
論文 参考訳(メタデータ) (2024-03-12T11:33:48Z) - Data Quality in Imitation Learning [15.939363481618738]
ロボット工学のオフライン学習では、インターネットのスケールデータがないだけで、高品質なデータセットが必要なのです。
これは特に、専門家によるデモンストレーションを用いたロボット学習のためのサンプル効率のよいパラダイムである模倣学習(IL)において当てはまる。
本研究では,分散シフトのレンズによる模倣学習のためのデータ品質の形式化に向けた第一歩を踏み出す。
論文 参考訳(メタデータ) (2023-06-04T18:48:32Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Online Continual Learning with Natural Distribution Shifts: An Empirical
Study with Visual Data [101.6195176510611]
オンライン」連続学習は、情報保持とオンライン学習の有効性の両方を評価することができる。
オンライン連続学習では、入力される各小さなデータをまずテストに使用し、次にトレーニングセットに追加し、真にオンラインにします。
本稿では,大規模かつ自然な分布変化を示すオンライン連続視覚学習のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-08-20T06:17:20Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - How Useful is Self-Supervised Pretraining for Visual Tasks? [133.1984299177874]
我々は、総合的な合成データセットと下流タスクにまたがる様々な自己教師付きアルゴリズムを評価する。
我々の実験は、利用可能なラベルの数が増えるにつれて、セルフスーパービジョンの有用性がどう変化するかについての洞察を提供する。
論文 参考訳(メタデータ) (2020-03-31T16:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。