論文の概要: Improving Token-Based World Models with Parallel Observation Prediction
- arxiv url: http://arxiv.org/abs/2402.05643v2
- Date: Tue, 13 Feb 2024 15:38:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 18:05:09.150208
- Title: Improving Token-Based World Models with Parallel Observation Prediction
- Title(参考訳): 並列観測予測によるトークンベース世界モデルの改善
- Authors: Lior Cohen, Kaixin Wang, Bingyi Kang, Shie Mannor
- Abstract要約: トークンベースの世界モデル(TBWM)は、最近サンプル効率のよい方法として提案されている。
想像の中で、次の観測のシーケンシャルなトークン・バイ・トークンの生成は深刻なボトルネックをもたらす。
我々は、このボトルネックを解決するために、新しい並列観測予測(POP)機構を考案した。
POPは、我々の強化学習環境に合わせて、新しいフォワードモードでRetentive Network(RetNet)を拡張します。
- 参考スコア(独自算出の注目度): 60.539860740006226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by the success of Transformers when applied to sequences of
discrete symbols, token-based world models (TBWMs) were recently proposed as
sample-efficient methods. In TBWMs, the world model consumes agent experience
as a language-like sequence of tokens, where each observation constitutes a
sub-sequence. However, during imagination, the sequential token-by-token
generation of next observations results in a severe bottleneck, leading to long
training times, poor GPU utilization, and limited representations. To resolve
this bottleneck, we devise a novel Parallel Observation Prediction (POP)
mechanism. POP augments a Retentive Network (RetNet) with a novel forward mode
tailored to our reinforcement learning setting. We incorporate POP in a novel
TBWM agent named REM (Retentive Environment Model), showcasing a 15.4x faster
imagination compared to prior TBWMs. REM attains superhuman performance on 12
out of 26 games of the Atari 100K benchmark, while training in less than 12
hours. Our code is available at \url{https://github.com/leor-c/REM}.
- Abstract(参考訳): 離散シンボルのシーケンスに適用するトランスフォーマーの成功に動機づけられたトークンベースの世界モデル(tbwms)が最近,サンプル効率のよい手法として提案されている。
TBWMでは、世界モデルはエージェント体験を言語のようなトークンのシーケンスとして消費し、それぞれの観察がサブシーケンスを構成する。
しかしながら、イマジネーションの間、シーケンシャルなトークン・バイ・トークン生成による次の観測は深刻なボトルネックを引き起こし、長いトレーニング時間、GPU利用の低さ、限られた表現につながる。
このボトルネックを解決するために,新しい並列観測予測(POP)機構を考案した。
POPは、我々の強化学習環境に合わせて、新しいフォワードモードでRetentive Network(RetNet)を拡張します。
我々は,従来のTBWMよりも15.4倍高速な想像力を示す新しいTBWMエージェントREM(Retentive Environment Model)にPOPを組み込んだ。
REMは、Atari 100Kベンチマークの26試合中12試合で超人的なパフォーマンスを達成し、トレーニングは12時間以内である。
私たちのコードは \url{https://github.com/leor-c/REM} で利用可能です。
関連論文リスト
- Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [63.77614880533488]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - An Attentive Inductive Bias for Sequential Recommendation beyond the
Self-Attention [23.610204672115195]
本稿では、Sequential Recommation(SR)モデルにおける自己注意の低パスフィルタ特性を明らかにする先駆的な研究について述べる。
本稿では,細粒度連続パターンを考慮し,誘導バイアスを注入するBSARecという新しい手法を提案する。
我々の発見は、SRドメインの大幅な進歩を示し、既存のTransformerベースのSRモデルのギャップを埋めることが期待されている。
論文 参考訳(メタデータ) (2023-12-16T05:23:08Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Effective Batching for Recurrent Neural Network Grammars [11.578465815362913]
リカレントニューラルネットワーク文法(RNNG)は、科学と工学の両方の観点から大きな注目を集めている。
本稿では,複数の文にまたがるテンソルと並列に全ての操作を演算するRNNGに有効であることを示す。
我々のPyTorch実装は、既存のC++ DyNet実装と比較してGPUとx6のスピードアップを効果的に利用しています。
論文 参考訳(メタデータ) (2021-05-31T09:34:07Z) - Fast Sequence Generation with Multi-Agent Reinforcement Learning [40.75211414663022]
機械翻訳では、すべての単語を並列に生成することで推論時間を高速化するノンオートレグレッシブデコードが提案されている。
我々は,非自己回帰的シーケンス生成(NAG)のための新しい訓練パラダイムを用いた簡易かつ効率的なモデルを提案する。
MSCOCOイメージキャプションベンチマークでは、NAG法は最先端のオートレグレッシブモデルに匹敵するパフォーマンスを実現し、13.9倍のデコード高速化を実現します。
論文 参考訳(メタデータ) (2021-01-24T12:16:45Z) - Learning to Recover from Multi-Modality Errors for Non-Autoregressive
Neural Machine Translation [38.123025955523836]
非自己回帰型ニューラルネットワーク翻訳(NAT)は、ターゲットシーケンス全体を同時に予測し、推論プロセスを著しく加速する。
本稿では,セグメントのシーケンスとして変換を生成する半自己回帰モデルRecoverSATを提案する。
セグメント長と繰り返し削除セグメントを動的に決定することにより、RecoverSATは繰り返しおよび欠落したトークンエラーから回復することができる。
広範に使用されている3つのベンチマークデータセットによる実験結果から,提案モデルでは,対応する自己回帰モデルと同等の性能を維持しつつ,4$times$の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2020-06-09T10:12:16Z) - LAVA NAT: A Non-Autoregressive Translation Model with Look-Around
Decoding and Vocabulary Attention [54.18121922040521]
非自己回帰翻訳(NAT)モデルは、1つの前方通過で複数のトークンを生成する。
これらのNATモデルは、しばしば多重性の問題に悩まされ、重複トークンや欠落トークンを生成する。
本稿では,この問題を解決するための新しい方法として,Look-Around(LA)戦略とVocabulary Attention(VA)メカニズムを提案する。
論文 参考訳(メタデータ) (2020-02-08T04:11:03Z) - Non-Autoregressive Machine Translation with Disentangled Context
Transformer [70.95181466892795]
最先端のニューラルネットワーク翻訳モデルは、左から右への翻訳を生成し、各ステップは以前に生成されたトークンに条件付けされる。
本研究では,異なるコンテキストのトークンを同時に生成するDisentangled Context (DisCo) 変換器を提案する。
本モデルでは,非自己回帰型機械翻訳技術と比較して性能が向上する一方,デコーディング時間の平均は大幅に減少する。
論文 参考訳(メタデータ) (2020-01-15T05:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。