Fugu-MT 論文翻訳(概要): Improving Transformer World Models for Data-Efficient RL

論文の概要: Improving Transformer World Models for Data-Efficient RL

arxiv url: http://arxiv.org/abs/2502.01591v1
Date: Mon, 03 Feb 2025 18:25:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:55.34904
Title: Improving Transformer World Models for Data-Efficient RL
Title（参考訳）: データ効率RLのためのトランスフォーマー世界モデルの改善
Authors: Antoine Dedieu, Joseph Ortiz, Xinghua Lou, Carter Wendelken, Wolfgang Lehrach, J Swaroop Guntupalli, Miguel Lazaro-Gredilla, Kevin Patrick Murphy,
Abstract要約: 本稿では, Craftax-classicベンチマークにおいて, アートパフォーマンスの新たな状態を実現するためのモデルベースRLへのアプローチを提案する。提案アルゴリズムは,1M環境ステップのみで67.4%の報酬を達成し,53.2%のDreamerV3を著しく上回り,初めて65.0%の人的パフォーマンスを達成した。
参考スコア（独自算出の注目度）: 5.920669613621277
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present an approach to model-based RL that achieves a new state of the art performance on the challenging Craftax-classic benchmark, an open-world 2D survival game that requires agents to exhibit a wide range of general abilities -- such as strong generalization, deep exploration, and long-term reasoning. With a series of careful design choices aimed at improving sample efficiency, our MBRL algorithm achieves a reward of 67.4% after only 1M environment steps, significantly outperforming DreamerV3, which achieves 53.2%, and, for the first time, exceeds human performance of 65.0%. Our method starts by constructing a SOTA model-free baseline, using a novel policy architecture that combines CNNs and RNNs. We then add three improvements to the standard MBRL setup: (a) "Dyna with warmup", which trains the policy on real and imaginary data, (b) "nearest neighbor tokenizer" on image patches, which improves the scheme to create the transformer world model (TWM) inputs, and (c) "block teacher forcing", which allows the TWM to reason jointly about the future tokens of the next timestep.
Abstract（参考訳）: 本稿では,高度な一般化,深層探査,長期的推論など,エージェントが幅広い汎用能力を示すことを要求するオープンワールド2DサバイバルゲームであるCraftax-classicベンチマーク上で,新たな最先端性能を実現するためのモデルベースRLを提案する。 MBRLアルゴリズムは,サンプル効率の向上を目的とした一連の設計選択により,わずか1Mの環境ステップで67.4%の報酬を達成し,53.2%のDreamerV3を著しく上回り,初めて65.0%の人的パフォーマンスを達成した。提案手法は,CNNとRNNを組み合わせた新しいポリシーアーキテクチャを用いて,SOTAモデルフリーベースラインの構築から始まる。次に、標準のMBRLセットアップに3つの改善を加えます。 (a)「ウォームアップを伴うダイナ」とは、現実的・虚的データに関する方針を訓練するものである。 b)画像パッチ上の「アレスト隣人トークンライザ」は、トランスフォーマー世界モデル(TWM)入力の作成計画を改善し、 (c)「ブロック教師強制」により、TWMは次の段階のトークンについて共同で推論することができる。

関連論文リスト

Towards foundational LiDAR world models with efficient latent flow matching [9.86884512471034]
既存のLiDARワールドモデルは狭義に訓練されており、それぞれのモデルは構築されたドメインに限られる。 3つの要求シナリオにまたがる最初の体系的ドメイン転送研究を行う。微調整データの量が異なるため,実験の結果,1つの事前学習モデルで最大11%の絶対的改善が達成できることがわかった。
論文参考訳（メタデータ） (2025-06-30T00:16:55Z)
Enter the Void - Planning to Seek Entropy When Reward is Scarce [6.208654695856247]
本稿では,短時間の潜伏予測を用いて,高エントロピー状態の予測と探索を積極的に行う新しい手法を提案する。提案する階層型プランナは,いつ計画を立てるか,地平線の長さを計画し,報酬とエントロピーの重み付けを動的に行う。提案手法は,Dreamerのコンバージェンスにおいて,Dreamerのコンバージェンスよりも50%高速で,Dreamerが必要とする環境ステップの60%に,想像力で訓練されたポリシーが収束する。
論文参考訳（メタデータ） (2025-05-22T15:28:50Z)
Output Scaling: YingLong-Delayed Chain of Thought in a Large Pretrained Time Series Forecasting Model [55.25659103706409]
このフレームワークは,設計した基盤モデルであるYingLongの最先端性能を実現する。 YingLongは、マスク付きトークンリカバリによってトレーニングされた非因果的双方向アテンションエンコーダのみのトランスフォーマーである。我々は、6Mから3Mパラメータの4つの基礎モデルをリリースし、ゼロショットタスクにおいて優れた結果を示す。
論文参考訳（メタデータ） (2025-05-20T14:31:06Z)
Learning Transformer-based World Models with Contrastive Predictive Coding [58.0159270859475]
変換器の表現能力を十分に活用するには,次の状態予測目標が不十分であることを示す。本稿では,行動条件のContrastive Predictive Codingを用いた世界モデルであるTWISTERを導入することで,世界モデル予測をより長い時間的地平線まで拡張することを提案する。 TWISTERは、Atari 100kベンチマークで162%の人間正規化平均スコアを達成し、ルックアヘッド検索を使用しない最先端のメソッドの中で、新しい記録を樹立した。
論文参考訳（メタデータ） (2025-03-06T13:18:37Z)
Masked Generative Priors Improve World Models Sequence Modelling Capabilities [19.700020499490137]
Masked Generative Modellingはより効率的で優れた帰納的バイアスとして登場した。 GIT-STORMは、Atari 100kベンチマークでRLタスクのパフォーマンスが大幅に向上したことを示している。トランスフォーマーをベースとした世界モデルが初めて連続行動環境に適用し、先行研究における大きなギャップに対処する。
論文参考訳（メタデータ） (2024-10-10T11:52:07Z)
Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining [49.730897226510095]
我々は,60億のトークンデータを持つアタリゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Reinforceed World-Action Modelを紹介する。われわれの最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上での人間レベルのパフォーマンス78.9%で、既存の最先端の大規模なオフラインRLベースラインを31.6%上回っている。
論文参考訳（メタデータ） (2024-10-01T10:25:03Z)
DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。 VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文参考訳（メタデータ） (2024-06-14T17:49:55Z)
STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。 Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文参考訳（メタデータ） (2023-10-14T16:42:02Z)
Aligning Large Multimodal Models with Factually Augmented RLHF [176.54751941088819]
大規模マルチモーダルモデル(LMM)はモダリティにまたがって構築され、2つのモダリティ間のミスアライメントは「ハロシン化」をもたらす。テキスト領域から視覚言語アライメントのタスクまで,RLHF(Reinforcement Learning from Human Feedback)を適応させる。本稿では、報酬モデルに付加的な事実情報を追加するFactually Augmented RLHFという新しいアライメントアルゴリズムを提案する。提案手法は,テキストのみのGPT-4の性能レベルが94%であるLLaVA-Benchデータセットにおいて,顕著な改善を実現している。
論文参考訳（メタデータ） (2023-09-25T20:59:33Z)
Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文参考訳（メタデータ） (2023-05-26T00:43:02Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
Generative Multi-Stream Architecture For American Sign Language Recognition [15.717424753251674]
複雑なアプリケーションのための機能豊かさの低いデータセットのトレーニングは、人間のパフォーマンスよりも最適な収束を制限します。本稿では,非現実性を危険にさらすことなく機能収束を改善することを目的とした,新たなハードウェアの必要性を排除した生成型マルチストリームアーキテクチャを提案する。提案手法は,従来のモデルよりも0.45%,5.53%の精度で,トレーニングから1.42%の精度で95.62%の精度を達成している。
論文参考訳（メタデータ） (2020-03-09T21:04:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。