論文の概要: Perception-Prediction-Reaction Agents for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.15223v1
- Date: Fri, 26 Jun 2020 21:53:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 20:56:32.982771
- Title: Perception-Prediction-Reaction Agents for Deep Reinforcement Learning
- Title(参考訳): 深層強化学習のための知覚・予測・反応エージェント
- Authors: Adam Stooke, Valentin Dalibard, Siddhant M. Jayakumar, Wojciech M.
Czarnecki, and Max Jaderberg
- Abstract要約: 本稿では,長期記憶を必要とするタスクにおける強化学習を改善するために,新しいリカレントエージェントアーキテクチャを提案する。
新しい補助的損失は、3つのコアすべてから引き出されたポリシーを互いに規則化し、ポリシーが最近の記憶と長期記憶の両方から表現できることを前倒しする。
- 参考スコア(独自算出の注目度): 12.566380944901816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new recurrent agent architecture and associated auxiliary
losses which improve reinforcement learning in partially observable tasks
requiring long-term memory. We employ a temporal hierarchy, using a
slow-ticking recurrent core to allow information to flow more easily over long
time spans, and three fast-ticking recurrent cores with connections designed to
create an information asymmetry. The \emph{reaction} core incorporates new
observations with input from the slow core to produce the agent's policy; the
\emph{perception} core accesses only short-term observations and informs the
slow core; lastly, the \emph{prediction} core accesses only long-term memory.
An auxiliary loss regularizes policies drawn from all three cores against each
other, enacting the prior that the policy should be expressible from either
recent or long-term memory. We present the resulting
\emph{Perception-Prediction-Reaction} (PPR) agent and demonstrate its improved
performance over a strong LSTM-agent baseline in DMLab-30, particularly in
tasks requiring long-term memory. We further show significant improvements in
Capture the Flag, an environment requiring agents to acquire a complicated
mixture of skills over long time scales. In a series of ablation experiments,
we probe the importance of each component of the PPR agent, establishing that
the entire, novel combination is necessary for this intriguing result.
- Abstract(参考訳): 長期記憶を必要とする部分的に観察可能なタスクにおける強化学習を改善するために,新たなエージェントアーキテクチャとそれに伴う補助損失を導入する。
テンポラリな階層構造を用いて、情報の流れを長時間にわたってより容易に流すことができるようにし、3つの高速な繰り返しコアを情報非対称性を生成するよう設計した。
emph{reaction} コアは、エージェントのポリシーを生成するために、遅いコアからの入力による新しい観測を組み込む; \emph{perception} コアは短期的な観測のみにアクセスし、遅いコアに通知する; 最後に、\emph{prediction} コアは長期記憶のみにアクセスする。
補助的損失は、3つのコアすべてから引き出されたポリシーを互いに規則化し、ポリシーが最近の記憶と長期記憶のいずれかから表現できることを前倒しする。
DMLab-30の強力なLSTM-エージェントベースライン,特に長期記憶を必要とするタスクにおいて,PPR(emph{Perception-Prediction-Reaction})エージェントが有効であることを示す。
さらに,長期にわたる複雑なスキルの混合をエージェントが要求する環境であるCapture the Flagの大幅な改善を示す。
一連のアブレーション実験において,ppr剤の各成分の重要性を探究し,この興味深い結果に新たな組み合わせが必要であることを確認した。
関連論文リスト
- HERMES: temporal-coHERent long-forM understanding with Episodes and Semantics [32.117677036812836]
HERMESは、エピソードメモリ蓄積をシミュレートしてアクションシーケンスをキャプチャするモデルである。
エピソード・コムプレッサーは、ミクロからセミマクロレベルまでの重要な表現を効率的に集約する。
Semantic ReTRieverは、関連するマクロレベルの情報を保持しながら、特徴次元を劇的に削減する。
論文 参考訳(メタデータ) (2024-08-30T17:52:55Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Improving Out-of-Distribution Generalization of Neural Rerankers with
Contextualized Late Interaction [52.63663547523033]
マルチベクトルの最も単純な形式である後期相互作用は、[]ベクトルのみを使用して類似度スコアを計算する神経リランカにも役立ちます。
異なるモデルサイズと多様な性質の第一段階のレトリバーに一貫性があることが示される。
論文 参考訳(メタデータ) (2023-02-13T18:42:17Z) - Generalization, Mayhems and Limits in Recurrent Proximal Policy
Optimization [1.8570591025615453]
正しく効率的な実装を実現するために、繰り返しを追加する際には、正しくなければならない重要な詳細を強調します。
モータル・メイヘムとシーリング・スポットライトのベンチマークによる再帰的PPOの限界について検討した。
注目すべきは、訓練種子の数を拡大する際のモルタル・マヘムの強い一般化への移行を示すことができることである。
論文 参考訳(メタデータ) (2022-05-23T07:54:15Z) - Recurrence-in-Recurrence Networks for Video Deblurring [58.49075799159015]
最先端のビデオデブロアリング法は、しばしばフレーム間の時間的依存性をモデル化するために、リカレントニューラルネットワークを採用する。
本稿では,短距離メモリの限界に対処する再帰型ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-12T11:58:13Z) - Towards mental time travel: a hierarchical memory for reinforcement
learning agents [9.808027857786781]
強化学習エージェントは、特に遅延や邪魔なタスクの後、過去の詳細を忘れることが多い。
エージェントが過去を詳細に記憶するのに役立つ階層型トランスフォーマーメモリ(HTM)を提案する。
HTMのエージェントは、トレーニング対象よりも桁違い長いタスクシーケンスに外挿することができ、メタラーニング環境からゼロショットを一般化してエピソード間の知識を維持することもできる。
論文 参考訳(メタデータ) (2021-05-28T18:12:28Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Dynamic Embeddings for Interaction Prediction [2.5758502140236024]
推薦システム(RS)では、ユーザが対話する次の項目を予測することが、ユーザの保持に不可欠である。
近年,ユーザとアイテム間の相互相互作用を個別のユーザとアイテムの埋め込みを用いてモデル化する手法の有効性が示されている。
本稿では,DeePRedと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-11-10T16:04:46Z) - Untangling tradeoffs between recurrence and self-attention in neural
networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。
長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。
本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文 参考訳(メタデータ) (2020-06-16T19:24:25Z) - Sequential Recommender via Time-aware Attentive Memory Network [67.26862011527986]
本稿では,注意機構と繰り返し単位を改善するための時間ゲーティング手法を提案する。
また,長期と短期の嗜好を統合するマルチホップ・タイムアウェア・アテンテーティブ・メモリ・ネットワークを提案する。
提案手法は,候補探索タスクに対してスケーラブルであり,ドット積に基づくTop-Kレコメンデーションのための潜在因数分解の非線形一般化とみなすことができる。
論文 参考訳(メタデータ) (2020-05-18T11:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。