論文の概要: Improving Token-Based World Models with Parallel Observation Prediction
- arxiv url: http://arxiv.org/abs/2402.05643v4
- Date: Tue, 28 May 2024 08:10:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 11:38:36.621606
- Title: Improving Token-Based World Models with Parallel Observation Prediction
- Title(参考訳): 並列観測予測によるトークンベース世界モデルの改善
- Authors: Lior Cohen, Kaixin Wang, Bingyi Kang, Shie Mannor,
- Abstract要約: トークンベースの世界モデル(TBWM)は、最近サンプル効率のよい方法として提案されている。
想像の中で、次の観測のシーケンシャルなトークン・バイ・トークンの生成は深刻なボトルネックをもたらす。
我々は、このボトルネックを解決するために、新しい並列観測予測(POP)機構を考案した。
POPは、我々の強化学習環境に合わせて、新しいフォワードモードでRetentive Network(RetNet)を拡張します。
- 参考スコア(独自算出の注目度): 55.41770427527391
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by the success of Transformers when applied to sequences of discrete symbols, token-based world models (TBWMs) were recently proposed as sample-efficient methods. In TBWMs, the world model consumes agent experience as a language-like sequence of tokens, where each observation constitutes a sub-sequence. However, during imagination, the sequential token-by-token generation of next observations results in a severe bottleneck, leading to long training times, poor GPU utilization, and limited representations. To resolve this bottleneck, we devise a novel Parallel Observation Prediction (POP) mechanism. POP augments a Retentive Network (RetNet) with a novel forward mode tailored to our reinforcement learning setting. We incorporate POP in a novel TBWM agent named REM (Retentive Environment Model), showcasing a 15.4x faster imagination compared to prior TBWMs. REM attains superhuman performance on 12 out of 26 games of the Atari 100K benchmark, while training in less than 12 hours. Our code is available at \url{https://github.com/leor-c/REM}.
- Abstract(参考訳): 離散シンボルのシーケンスに適用したトランスフォーマーの成功により、最近、サンプル効率の良い方法としてトークンベースの世界モデル(TBWM)が提案された。
TBWMでは、ワールドモデルはエージェントの経験を言語のようなトークンのシーケンスとして消費し、それぞれの観察がサブシーケンスを構成する。
しかしながら、イマジネーションの間、シーケンシャルなトークン・バイ・トークン生成による次の観測は深刻なボトルネックを引き起こし、長いトレーニング時間、GPU利用の低さ、限られた表現につながります。
このボトルネックを解決するために,新しい並列観測予測(POP)機構を考案した。
POPは、我々の強化学習環境に合わせて、新しいフォワードモードでRetentive Network(RetNet)を拡張します。
我々は,従来のTBWMよりも15.4倍高速な想像力を示す新しいTBWMエージェントREM(Retentive Environment Model)にPOPを組み込んだ。
REMは、Atari 100Kベンチマークの26試合中12試合で超人的なパフォーマンスを達成し、トレーニングは12時間以内である。
私たちのコードは \url{https://github.com/leor-c/REM} で利用可能です。
関連論文リスト
- Learning to Play Atari in a World of Tokens [4.880437151994464]
変換器に基づく学習(DART)のための離散抽象表現を導入する。
本研究では,自己回帰的世界モデリングのためのトランスフォーマー・デコーダと,世界モデルの離散表現におけるタスク関連キューへの参加による学習行動のためのトランスフォーマー・デコーダを組み込んだ。
DARTは、Atari 100kサンプル効率ベンチマークでルックアヘッド検索を使用しない従来の最先端の手法よりも、平均的な人間正規化スコアが0.790で、26試合中9試合で人間に勝っている。
論文 参考訳(メタデータ) (2024-06-03T14:25:29Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - An Attentive Inductive Bias for Sequential Recommendation beyond the
Self-Attention [23.610204672115195]
本稿では、Sequential Recommation(SR)モデルにおける自己注意の低パスフィルタ特性を明らかにする先駆的な研究について述べる。
本稿では,細粒度連続パターンを考慮し,誘導バイアスを注入するBSARecという新しい手法を提案する。
我々の発見は、SRドメインの大幅な進歩を示し、既存のTransformerベースのSRモデルのギャップを埋めることが期待されている。
論文 参考訳(メタデータ) (2023-12-16T05:23:08Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Fast Sequence Generation with Multi-Agent Reinforcement Learning [40.75211414663022]
機械翻訳では、すべての単語を並列に生成することで推論時間を高速化するノンオートレグレッシブデコードが提案されている。
我々は,非自己回帰的シーケンス生成(NAG)のための新しい訓練パラダイムを用いた簡易かつ効率的なモデルを提案する。
MSCOCOイメージキャプションベンチマークでは、NAG法は最先端のオートレグレッシブモデルに匹敵するパフォーマンスを実現し、13.9倍のデコード高速化を実現します。
論文 参考訳(メタデータ) (2021-01-24T12:16:45Z) - LAVA NAT: A Non-Autoregressive Translation Model with Look-Around
Decoding and Vocabulary Attention [54.18121922040521]
非自己回帰翻訳(NAT)モデルは、1つの前方通過で複数のトークンを生成する。
これらのNATモデルは、しばしば多重性の問題に悩まされ、重複トークンや欠落トークンを生成する。
本稿では,この問題を解決するための新しい方法として,Look-Around(LA)戦略とVocabulary Attention(VA)メカニズムを提案する。
論文 参考訳(メタデータ) (2020-02-08T04:11:03Z) - Non-Autoregressive Machine Translation with Disentangled Context
Transformer [70.95181466892795]
最先端のニューラルネットワーク翻訳モデルは、左から右への翻訳を生成し、各ステップは以前に生成されたトークンに条件付けされる。
本研究では,異なるコンテキストのトークンを同時に生成するDisentangled Context (DisCo) 変換器を提案する。
本モデルでは,非自己回帰型機械翻訳技術と比較して性能が向上する一方,デコーディング時間の平均は大幅に減少する。
論文 参考訳(メタデータ) (2020-01-15T05:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。