Fugu-MT 論文翻訳(概要): Improving Token-Based World Models with Parallel Observation Prediction

論文の概要: Improving Token-Based World Models with Parallel Observation Prediction

arxiv url: http://arxiv.org/abs/2402.05643v2
Date: Tue, 13 Feb 2024 15:38:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 18:05:09.150208
Title: Improving Token-Based World Models with Parallel Observation Prediction
Title（参考訳）: 並列観測予測によるトークンベース世界モデルの改善
Authors: Lior Cohen, Kaixin Wang, Bingyi Kang, Shie Mannor
Abstract要約: トークンベースの世界モデル(TBWM)は、最近サンプル効率のよい方法として提案されている。想像の中で、次の観測のシーケンシャルなトークン・バイ・トークンの生成は深刻なボトルネックをもたらす。我々は、このボトルネックを解決するために、新しい並列観測予測(POP)機構を考案した。 POPは、我々の強化学習環境に合わせて、新しいフォワードモードでRetentive Network(RetNet)を拡張します。
参考スコア（独自算出の注目度）: 60.539860740006226
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Motivated by the success of Transformers when applied to sequences of discrete symbols, token-based world models (TBWMs) were recently proposed as sample-efficient methods. In TBWMs, the world model consumes agent experience as a language-like sequence of tokens, where each observation constitutes a sub-sequence. However, during imagination, the sequential token-by-token generation of next observations results in a severe bottleneck, leading to long training times, poor GPU utilization, and limited representations. To resolve this bottleneck, we devise a novel Parallel Observation Prediction (POP) mechanism. POP augments a Retentive Network (RetNet) with a novel forward mode tailored to our reinforcement learning setting. We incorporate POP in a novel TBWM agent named REM (Retentive Environment Model), showcasing a 15.4x faster imagination compared to prior TBWMs. REM attains superhuman performance on 12 out of 26 games of the Atari 100K benchmark, while training in less than 12 hours. Our code is available at \url{https://github.com/leor-c/REM}.
Abstract（参考訳）: 離散シンボルのシーケンスに適用するトランスフォーマーの成功に動機づけられたトークンベースの世界モデル(tbwms)が最近,サンプル効率のよい手法として提案されている。 TBWMでは、世界モデルはエージェント体験を言語のようなトークンのシーケンスとして消費し、それぞれの観察がサブシーケンスを構成する。しかしながら、イマジネーションの間、シーケンシャルなトークン・バイ・トークン生成による次の観測は深刻なボトルネックを引き起こし、長いトレーニング時間、GPU利用の低さ、限られた表現につながる。このボトルネックを解決するために,新しい並列観測予測(POP)機構を考案した。 POPは、我々の強化学習環境に合わせて、新しいフォワードモードでRetentive Network(RetNet)を拡張します。我々は,従来のTBWMよりも15.4倍高速な想像力を示す新しいTBWMエージェントREM(Retentive Environment Model)にPOPを組み込んだ。 REMは、Atari 100Kベンチマークの26試合中12試合で超人的なパフォーマンスを達成し、トレーニングは12時間以内である。私たちのコードは \url{https://github.com/leor-c/REM} で利用可能です。

関連論文リスト

OmniSAT: Compact Action Token, Faster Auto Regression [70.70037017501357]
我々は、コンパクトで転送可能なアクション表現を学ぶOmni Swift Action Tokenizerを紹介する。その結果、離散トークン化はトレーニングシーケンスを6.8$times$に短縮し、ターゲットエントロピーを低下させる。
論文参考訳（メタデータ） (2025-10-08T03:55:24Z)
Test-Time Training Done Right [61.8429380523577]
テスト時間トレーニング(TTT)モデルは、推論中にモデルの重みの一部を適応させることによってコンテキストをモデル化する。既存のTT手法は、長文データを扱う上で有効性を示すのに苦労した。我々は,大規模チャンクテストタイムトレーニング(LaCT)を開発し,ハードウェア利用率を桁違いに向上させる。
論文参考訳（メタデータ） (2025-05-29T17:50:34Z)
Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文参考訳（メタデータ） (2025-04-29T06:33:13Z)
FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文参考訳（メタデータ） (2024-10-27T15:53:49Z)
Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens [53.99177152562075]
視覚における自己回帰モデルのスケールアップは、大きな言語モデルほど有益でないことが証明されている。モデルが離散トークンを使用するか、連続トークンを使用するか、BERTやGPTのようなトランスフォーマーアーキテクチャを用いてランダムまたは固定順序でトークンを生成するか、という2つの重要な要素に焦点を当てる。その結果,すべてのモデルが検証損失の点で効果的にスケールしているのに対して,評価性能はFID,GenEvalスコア,視覚的品質などによって異なる傾向を呈することがわかった。
論文参考訳（メタデータ） (2024-10-17T17:59:59Z)
Diffusion Auto-regressive Transformer for Effective Self-supervised Time Series Forecasting [47.58016750718323]
我々はTimeDARTと呼ばれる新しい自己管理手法を提案する。 TimeDARTは、時系列データ内のグローバルシーケンス依存とローカル詳細特徴の両方をキャプチャする。私たちのコードはhttps://github.com/Melmaphother/TimeDART.comで公開されています。
論文参考訳（メタデータ） (2024-10-08T06:08:33Z)
TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。 TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文参考訳（メタデータ） (2024-05-27T05:45:51Z)
Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文参考訳（メタデータ） (2024-04-18T09:17:06Z)
Fast Sequence Generation with Multi-Agent Reinforcement Learning [40.75211414663022]
機械翻訳では、すべての単語を並列に生成することで推論時間を高速化するノンオートレグレッシブデコードが提案されている。我々は,非自己回帰的シーケンス生成(NAG)のための新しい訓練パラダイムを用いた簡易かつ効率的なモデルを提案する。 MSCOCOイメージキャプションベンチマークでは、NAG法は最先端のオートレグレッシブモデルに匹敵するパフォーマンスを実現し、13.9倍のデコード高速化を実現します。
論文参考訳（メタデータ） (2021-01-24T12:16:45Z)
LAVA NAT: A Non-Autoregressive Translation Model with Look-Around Decoding and Vocabulary Attention [54.18121922040521]
非自己回帰翻訳(NAT)モデルは、1つの前方通過で複数のトークンを生成する。これらのNATモデルは、しばしば多重性の問題に悩まされ、重複トークンや欠落トークンを生成する。本稿では,この問題を解決するための新しい方法として,Look-Around(LA)戦略とVocabulary Attention(VA)メカニズムを提案する。
論文参考訳（メタデータ） (2020-02-08T04:11:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。