Fugu-MT 論文翻訳(概要): Efficient World Models with Context-Aware Tokenization

論文の概要: Efficient World Models with Context-Aware Tokenization

arxiv url: http://arxiv.org/abs/2406.19320v1
Date: Thu, 27 Jun 2024 16:54:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-28 13:28:34.953846
Title: Efficient World Models with Context-Aware Tokenization
Title（参考訳）: 文脈認識トークン化を用いた効率的な世界モデル
Authors: Vincent Micheli, Eloi Alonso, François Fleuret,
Abstract要約: $Delta$-IRISは、時間ステップ間のデルタをエンコードする離散オートエンコーダで構成されるワールドモデルアーキテクチャを備えた新しいエージェントである。 Crafterのベンチマークでは、$Delta$-IRISは、複数のフレーム予算で新しい最先端の技術を設定します。
参考スコア（独自算出の注目度）: 22.84676306124071
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scaling up deep Reinforcement Learning (RL) methods presents a significant challenge. Following developments in generative modelling, model-based RL positions itself as a strong contender. Recent advances in sequence modelling have led to effective transformer-based world models, albeit at the price of heavy computations due to the long sequences of tokens required to accurately simulate environments. In this work, we propose $\Delta$-IRIS, a new agent with a world model architecture composed of a discrete autoencoder that encodes stochastic deltas between time steps and an autoregressive transformer that predicts future deltas by summarizing the current state of the world with continuous tokens. In the Crafter benchmark, $\Delta$-IRIS sets a new state of the art at multiple frame budgets, while being an order of magnitude faster to train than previous attention-based approaches. We release our code and models at https://github.com/vmicheli/delta-iris.
Abstract（参考訳）: 深層強化学習(RL)メソッドのスケールアップは大きな課題である。生成モデリングの発展に続いて、モデルベースのRLは自身を強力な競合者として位置づけた。シークエンスモデリングの最近の進歩は、環境を正確にシミュレートするために必要なトークンの長いシーケンスのため、重い計算の価格ではあるものの、効果的なトランスフォーマーベースの世界モデルを生み出している。本研究では、時間ステップ間の確率的デルタを符号化する離散オートエンコーダと、連続トークンで世界の現在の状態を要約して将来のデルタを予測する自己回帰変換器からなる、世界モデルアーキテクチャを備えた新しいエージェントである$\Delta$-IRISを提案する。 Crafterベンチマークでは、$\Delta$-IRISは、複数のフレーム予算で新しい最先端を設定できると同時に、従来の注目ベースのアプローチよりもトレーニングが大幅に高速である。コードとモデルはhttps://github.com/vmicheli/delta-iris.comで公開しています。

関連論文リスト

Emergent temporal abstractions in autoregressive models enable hierarchical reinforcement learning [61.380634253724594]
次トーケン予測に基づく大規模自己回帰モデルの構築と強化学習(RL)による微調整自己回帰モデルの内部表現を動作させ,探索することにより,この問題を克服できることを示す。
論文参考訳（メタデータ） (2025-12-23T18:51:50Z)
M-STAR: Multi-Scale Spatiotemporal Autoregression for Human Mobility Modeling [16.41018877188885]
本研究では,多段階時空間自動回帰(M-STAR)を提案する。 M-STARは、モビリティパターンをエンコードするマルチスケール時空間トケナイザと、トランスフォーマーベースのデコーダを組み合わせて、次のスケールの自己回帰予測を行う。
論文参考訳（メタデータ） (2025-12-08T08:57:55Z)
Intention-Conditioned Flow Occupancy Models [69.79049994662591]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文参考訳（メタデータ） (2025-06-10T15:27:46Z)
FLARE: Robot Learning with Implicit World Modeling [87.81846091038676]
$textbfFLARE$は、予測潜在世界モデリングをロボットポリシー学習に統合する。 $textbfFLARE$は最先端のパフォーマンスを実現し、これまでのポリシー学習のベースラインを最大26%上回っている。この結果は、暗黙の世界モデリングと高周波ロボット制御を組み合わせた汎用的でスケーラブルなアプローチとして$textbfFLARE$を確立した。
論文参考訳（メタデータ） (2025-05-21T15:33:27Z)
Learning Transformer-based World Models with Contrastive Predictive Coding [58.0159270859475]
変換器の表現能力を十分に活用するには,次の状態予測目標が不十分であることを示す。本稿では,行動条件のContrastive Predictive Codingを用いた世界モデルであるTWISTERを導入することで,世界モデル予測をより長い時間的地平線まで拡張することを提案する。 TWISTERは、Atari 100kベンチマークで162%の人間正規化平均スコアを達成し、ルックアヘッド検索を使用しない最先端のメソッドの中で、新しい記録を樹立した。
論文参考訳（メタデータ） (2025-03-06T13:18:37Z)
Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient [9.519619751861333]
状態空間モデル(SSM)をベースとした世界モデルを提案する。長期依存関係を効果的にキャプチャしながら、メモリと計算の複雑さを$O(n)$達成します。このモデルはアクセス可能で、市販のラップトップでトレーニングすることができる。
論文参考訳（メタデータ） (2024-10-11T15:10:40Z)
Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2～3倍の高速化を実現した。
論文参考訳（メタデータ） (2024-07-22T18:00:00Z)
Locality Sensitive Sparse Encoding for Learning World Models Online [29.124825481348285]
Follow-The-Leader世界モデルはモデルに基づく強化学習に望ましい。 FTLモデルは、FTLを達成するために、すべての相互作用ステップで蓄積されたデータを再学習する必要がある。我々の世界モデルは、リプレイで訓練されたディープワールドモデルの性能に匹敵するか、適合するかのどちらかで、1パスの軌跡データを使ってオンラインで学習した。
論文参考訳（メタデータ） (2024-01-23T19:00:02Z)
STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。 Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文参考訳（メタデータ） (2023-10-14T16:42:02Z)
Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文参考訳（メタデータ） (2023-05-26T00:43:02Z)
Transformers are Sample Efficient World Models [1.9444242128493845]
我々は、離散自己エンコーダと自己回帰変換器からなる世界モデルで学習するデータ効率のエージェントIRISを紹介する。 Atari 100kベンチマークの2時間のゲームプレイに相当するIRISは、平均的な人間正規化スコア1.046を達成し、26ゲーム中10ゲームで人間を上回っている。
論文参考訳（メタデータ） (2022-09-01T17:03:07Z)
TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech Recognition [69.68154370877615]
非自己回帰(NAR)モデルは、出力トークン間の時間的依存関係を排除し、少なくとも1ステップで出力トークン全体を予測することができる。この2つの問題に対処するため,TSNATと呼ばれる新しいモデルを提案する。以上の結果から,TSNATはARモデルと競合する性能を示し,複雑なNARモデルよりも優れていた。
論文参考訳（メタデータ） (2021-04-04T02:34:55Z)
LAVA NAT: A Non-Autoregressive Translation Model with Look-Around Decoding and Vocabulary Attention [54.18121922040521]
非自己回帰翻訳(NAT)モデルは、1つの前方通過で複数のトークンを生成する。これらのNATモデルは、しばしば多重性の問題に悩まされ、重複トークンや欠落トークンを生成する。本稿では,この問題を解決するための新しい方法として,Look-Around(LA)戦略とVocabulary Attention(VA)メカニズムを提案する。
論文参考訳（メタデータ） (2020-02-08T04:11:03Z)
AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。 3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文参考訳（メタデータ） (2020-01-15T18:32:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。