論文の概要: Deep Transformer Q-Networks for Partially Observable Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2206.01078v1
- Date: Thu, 2 Jun 2022 15:04:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 17:33:02.835427
- Title: Deep Transformer Q-Networks for Partially Observable Reinforcement
Learning
- Title(参考訳): 部分観測型強化学習のためのDeep Transformer Q-Networks
- Authors: Kevin Esslinger, Robert Platt, Christopher Amato
- Abstract要約: Deep Transformer Q-Networks (DTQN)は、トランスフォーマーとセルフアテンションを利用してエージェントの履歴をエンコードする新しいアーキテクチャである。
我々の実験では、変換器は従来の再帰的手法よりも高速かつ安定に部分的に観測可能なタスクを解くことができることを示した。
- 参考スコア(独自算出の注目度): 14.126617899983097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world reinforcement learning tasks often involve some form of partial
observability where the observations only give a partial or noisy view of the
true state of the world. Such tasks typically require some form of memory,
where the agent has access to multiple past observations, in order to perform
well. One popular way to incorporate memory is by using a recurrent neural
network to access the agent's history. However, recurrent neural networks in
reinforcement learning are often fragile and difficult to train, susceptible to
catastrophic forgetting and sometimes fail completely as a result. In this
work, we propose Deep Transformer Q-Networks (DTQN), a novel architecture
utilizing transformers and self-attention to encode an agent's history. DTQN is
designed modularly, and we compare results against several modifications to our
base model. Our experiments demonstrate the transformer can solve partially
observable tasks faster and more stably than previous recurrent approaches.
- Abstract(参考訳): 実世界の強化学習タスクは、観測結果が世界の真の状態の部分的あるいは騒々しい見方しか与えない部分的な可観測性を含むことが多い。
このようなタスクは一般的に、エージェントが複数の過去の観測にアクセスできるような何らかのメモリを必要とする。
メモリを組み込む一般的な方法は、エージェントの履歴にアクセスするためにリカレントニューラルネットワークを使用することである。
しかし、強化学習における繰り返し発生するニューラルネットワークは、しばしば脆弱で訓練が難しく、破滅的な忘れがちであり、結果として完全に失敗することがある。
本研究では,トランスフォーマーとセルフアテンションを利用してエージェントの履歴をエンコードする新しいアーキテクチャであるdeep transformer q-networks (dtqn)を提案する。
DTQNはモジュール的に設計されており、その結果をベースモデルに対するいくつかの変更と比較する。
本実験は,従来の再帰的手法よりも高速かつ安定に部分的に観測可能なタスクを解くことができることを示す。
関連論文リスト
- Continual Diffuser (CoD): Mastering Continual Offline Reinforcement Learning with Experience Rehearsal [54.93261535899478]
強化学習のロボット制御のような現実世界の応用では、タスクが変化し、新しいタスクが順次発生する。
この状況は、タスクの変更に適応し、獲得した知識を保持するエージェントを訓練する上で、可塑性-安定トレードオフという新たな課題を生じさせる。
本研究では,連続拡散器(Continuous diffuser,CoD)と呼ばれるリハーサルに基づく連続拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-09-04T08:21:47Z) - Improving the Trainability of Deep Neural Networks through Layerwise
Batch-Entropy Regularization [1.3999481573773072]
ニューラルネットワークの各層を通しての情報の流れを定量化するバッチエントロピーを導入,評価する。
損失関数にバッチエントロピー正規化項を追加するだけで、500層からなる「バニラ」完全連結ネットワークと畳み込みニューラルネットワークをトレーニングできることが示される。
論文 参考訳(メタデータ) (2022-08-01T20:31:58Z) - A new hope for network model generalization [66.5377859849467]
ネットワークトラフィックダイナミクスのための機械学習モデルを一般化することは、失われた原因とみなされる傾向がある。
_Transformer_と呼ばれるMLアーキテクチャは、これまで想像不可能だった他のドメインでの一般化を可能にした。
パケットトレースからネットワークダイナミクスを学習するためのNTT(Network Traffic Transformer)を提案する。
論文 参考訳(メタデータ) (2022-07-12T21:16:38Z) - Continual Learning with Transformers for Image Classification [12.028617058465333]
コンピュータビジョンでは、ニューラルネットワークモデルは、過去に何を学んだかを忘れずに、新しい概念を継続的に学習する。
本研究では,適応型適応器の蒸留法 (ADA) を開発した。
本手法は,モデルを再学習することなく,優れた予測性能を維持することを実証的に示す。
論文 参考訳(メタデータ) (2022-06-28T15:30:10Z) - Transfer Learning via Test-Time Neural Networks Aggregation [11.42582922543676]
ディープニューラルネットワークが従来の機械学習より優れていることが示されている。
ディープ・ネットワークは一般性に欠けており、異なる分布から引き出された新しい(テスト)セットでは性能が良くない。
論文 参考訳(メタデータ) (2022-06-27T15:46:05Z) - Learning Fast and Slow for Online Time Series Forecasting [76.50127663309604]
Fast and Slow Learning Networks (FSNet)は、オンライン時系列予測のための総合的なフレームワークである。
FSNetは、最近の変更への迅速な適応と、同様の古い知識の取得のバランスを取る。
私たちのコードは公開されます。
論文 参考訳(メタデータ) (2022-02-23T18:23:07Z) - Least Redundant Gated Recurrent Neural Network [0.0]
我々は、Deep Memory Update (DMU)と呼ばれるリカレントニューラルネットワークを導入する。
これは、ラグ状態とネットワーク入力の深い変換により、前のメモリ状態を更新することに基づいている。
学習速度をモジュールのサイズに関連付けるため、トレーニングは安定して高速である。
論文 参考訳(メタデータ) (2021-05-28T20:24:00Z) - Thinking Deeply with Recurrence: Generalizing from Easy to Hard
Sequential Reasoning Problems [51.132938969015825]
我々は、リカレントネットワークは、非リカレントディープモデルの振る舞いを詳細にエミュレートする能力を有することを観察する。
再帰ステップの少ない単純な迷路を解くように訓練された再帰ネットワークは、推論中に追加の繰り返しを実行するだけで、より複雑な問題を解決することができる。
論文 参考訳(メタデータ) (2021-02-22T14:09:20Z) - Implicit recurrent networks: A novel approach to stationary input
processing with recurrent neural networks in deep learning [0.0]
本研究では,ニューラルネットの新たな実装を深層学習に導入し,検証する。
繰り返しネットワークの暗黙的な実装にバックプロパゲーションアルゴリズムを実装するアルゴリズムを提案する。
シングルレイヤの暗黙的リカレントネットワークはXOR問題を解くことができ、一方、単調に活性化関数が増加するフィードフォワードネットワークは、このタスクで失敗する。
論文 参考訳(メタデータ) (2020-10-20T18:55:32Z) - Unsupervised Transfer Learning for Spatiotemporal Predictive Networks [90.67309545798224]
我々は、教師なし学習されたモデルの動物園から別のネットワークへ知識を伝達する方法を研究する。
私たちのモチベーションは、モデルは異なるソースからの複雑なダイナミクスを理解することが期待されていることです。
提案手法は,時間的予測のための3つのベンチマークで大幅に改善され,重要度が低いベンチマークであっても,ターゲットのメリットが得られた。
論文 参考訳(メタデータ) (2020-09-24T15:40:55Z) - Incremental Training of a Recurrent Neural Network Exploiting a
Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。
隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。
新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文 参考訳(メタデータ) (2020-06-29T08:35:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。