論文の概要: History Compression via Language Models in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.12258v1
- Date: Tue, 24 May 2022 17:59:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 12:36:30.566669
- Title: History Compression via Language Models in Reinforcement Learning
- Title(参考訳): 強化学習における言語モデルによる履歴圧縮
- Authors: Fabian Paischer, Thomas Adler, Vihang Patil, Angela Bitto-Nemling,
Markus Holzleitner, Sebastian Lehner, Hamid Eghbal-zadeh, Sepp Hochreiter
- Abstract要約: 部分的に観測可能なマルコフ決定プロセス(POMDP)では、エージェントは通常、過去の表現を使って基礎となるMDPを近似する。
歴史表現と圧縮にフリーズした事前学習言語変換器 (PLT) を用い, サンプル効率を向上させることを提案する。
我々の新しい手法であるHELMは、メモリモジュールとしての履歴表現のための事前訓練された言語変換器を含むアクタ・クリティカル・ネットワークアーキテクチャを実現する。
- 参考スコア(独自算出の注目度): 5.937618881286057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a partially observable Markov decision process (POMDP), an agent typically
uses a representation of the past to approximate the underlying MDP. We propose
to utilize a frozen Pretrained Language Transformer (PLT) for history
representation and compression to improve sample efficiency. To avoid training
of the Transformer, we introduce FrozenHopfield, which automatically associates
observations with original token embeddings. To form these associations, a
modern Hopfield network stores the original token embeddings, which are
retrieved by queries that are obtained by a random but fixed projection of
observations. Our new method, HELM, enables actor-critic network architectures
that contain a pretrained language Transformer for history representation as a
memory module. Since a representation of the past need not be learned, HELM is
much more sample efficient than competitors. On Minigrid and Procgen
environments HELM achieves new state-of-the-art results. Our code is available
at https://github.com/ml-jku/helm.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)では、エージェントは通常、過去の表現を使って基礎となるMDPを近似する。
歴史表現と圧縮にフリーズした事前学習言語変換器(PLT)を用いて,サンプル効率を向上させることを提案する。
トランスフォーマーのトレーニングを避けるために,観測結果とオリジナルトークンの埋め込みを自動的に関連付けるFrozenHopfieldを導入する。
これらの関連性を形成するために、現代のホプフィールドネットワークは、ランダムだが固定された観測投影によって得られるクエリによって検索されるオリジナルのトークン埋め込みを格納する。
我々の新しい手法であるHELMは、メモリモジュールとしての履歴表現のための事前訓練された言語トランスフォーマーを含むアクタクリティカルネットワークアーキテクチャを実現する。
過去の表現を学習する必要がないため、HELMは競合他社よりもはるかに効率的なサンプルである。
Minigrid および Procgen 環境では、HELM は新たな最先端の結果を達成する。
私たちのコードはhttps://github.com/ml-jku/helmで利用可能です。
関連論文リスト
- With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。
素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。
これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文 参考訳(メタデータ) (2022-10-10T08:27:28Z) - Improving language models by retrieving from trillions of tokens [50.42630445476544]
大規模コーパスから取得した文書チャンクを条件付けすることで,自動回帰言語モデルを強化する。
2兆ドルのトークンデータベースで、Retrieval-Enhanced Transformer (RETRO)は、PileのGPT-3とJurassic-1に匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-12-08T17:32:34Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。