Fugu-MT 論文翻訳(概要): WHALE: Towards Generalizable and Scalable World Models for Embodied Decision-making

論文の概要: WHALE: Towards Generalizable and Scalable World Models for Embodied Decision-making

arxiv url: http://arxiv.org/abs/2411.05619v1
Date: Fri, 08 Nov 2024 15:01:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.780663
Title: WHALE: Towards Generalizable and Scalable World Models for Embodied Decision-making
Title（参考訳）: WHALE: 身体決定のための一般化可能でスケーラブルな世界モデルを目指して
Authors: Zhilong Zhang, Ruifeng Chen, Junyin Ye, Yihao Sun, Pengyuan Wang, Jingcheng Pang, Kaiyuan Li, Tianshuo Liu, Haoxin Lin, Yang Yu, Zhi-Hua Zhou,
Abstract要約: 本稿では、一般化可能な世界モデルを学ぶためのフレームワークであるWHALEを紹介する。 Whale-STは、拡張一般化性を備えた時空間変圧器を用いたスケーラブルな世界モデルである。また、Open X-Embodimentデータセットから970K軌道上でトレーニングされた414MパラメータワールドモデルであるWhale-Xを提案する。
参考スコア（独自算出の注目度）: 40.53824201182517
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: World models play a crucial role in decision-making within embodied environments, enabling cost-free explorations that would otherwise be expensive in the real world. To facilitate effective decision-making, world models must be equipped with strong generalizability to support faithful imagination in out-of-distribution (OOD) regions and provide reliable uncertainty estimation to assess the credibility of the simulated experiences, both of which present significant challenges for prior scalable approaches. This paper introduces WHALE, a framework for learning generalizable world models, consisting of two key techniques: behavior-conditioning and retracing-rollout. Behavior-conditioning addresses the policy distribution shift, one of the primary sources of the world model generalization error, while retracing-rollout enables efficient uncertainty estimation without the necessity of model ensembles. These techniques are universal and can be combined with any neural network architecture for world model learning. Incorporating these two techniques, we present Whale-ST, a scalable spatial-temporal transformer-based world model with enhanced generalizability. We demonstrate the superiority of Whale-ST in simulation tasks by evaluating both value estimation accuracy and video generation fidelity. Additionally, we examine the effectiveness of our uncertainty estimation technique, which enhances model-based policy optimization in fully offline scenarios. Furthermore, we propose Whale-X, a 414M parameter world model trained on 970K trajectories from Open X-Embodiment datasets. We show that Whale-X exhibits promising scalability and strong generalizability in real-world manipulation scenarios using minimal demonstrations.
Abstract（参考訳）: 世界モデルは、具現化された環境における意思決定において重要な役割を果たす。効果的な意思決定を容易にするためには、世界モデルは、アウト・オブ・ディストリビューション(OOD)領域における忠実な想像力をサポートするために強力な一般化性を備え、シミュレーションされた経験の信頼性を評価するための信頼性の高い不確実性評価を提供する必要がある。本稿では、一般化可能な世界モデルを学ぶためのフレームワークであるWHALEについて紹介する。行動条件付けは、世界モデル一般化エラーの主要な原因の一つであるポリシ分散シフトに対処する一方、リトラシング・ロールアウトはモデルアンサンブルを必要とせずに効率的な不確実性推定を可能にする。これらのテクニックは普遍的であり、世界モデル学習のためのニューラルネットワークアーキテクチャと組み合わせることができる。これら2つの手法を組み込んだWhale-STは、拡張一般化性を備えたスケーラブルな時空間変圧器ベースの世界モデルである。本稿では,評価精度と映像生成精度を両立させてシミュレーションタスクにおけるWhale-STの優位性を実証する。さらに、完全オフラインシナリオにおけるモデルに基づくポリシー最適化を強化する不確実性推定手法の有効性について検討する。さらに,Open X-Embodimentデータセットから970K軌道上で学習した414MパラメータワールドモデルであるWhale-Xを提案する。 Whale-Xは、最小限のデモを用いた実世界の操作シナリオにおいて、有望なスケーラビリティと強力な一般化性を示すことを示す。

関連論文リスト

AI in a vat: Fundamental limits of efficient world modelling for agent sandboxing and interpretability [84.52205243353761]
最近の研究は、世界モデルを使用して、AIエージェントをデプロイ前にテストできる制御された仮想環境を生成することを提案する。評価対象のAIエージェントに非依存な世界モデルを簡単にする方法を検討する。
論文参考訳（メタデータ） (2025-04-06T20:35:44Z)
AdaWorld: Learning Adaptable World Models with Latent Actions [76.50869178593733]
我々は,効率的な適応を実現する革新的な世界モデル学習手法であるAdaWorldを提案する。主要なアイデアは、世界モデルの事前トレーニング中にアクション情報を統合することである。次に、これらの潜伏行動を条件とした自己回帰的世界モデルを開発する。
論文参考訳（メタデータ） (2025-03-24T17:58:15Z)
Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文参考訳（メタデータ） (2025-01-17T10:39:09Z)
Masked Generative Priors Improve World Models Sequence Modelling Capabilities [19.700020499490137]
Masked Generative Modellingはより効率的で優れた帰納的バイアスとして登場した。 GIT-STORMは、Atari 100kベンチマークでRLタスクのパフォーマンスが大幅に向上したことを示している。トランスフォーマーをベースとした世界モデルが初めて連続行動環境に適用し、先行研究における大きなギャップに対処する。
論文参考訳（メタデータ） (2024-10-10T11:52:07Z)
Zero-shot Safety Prediction for Autonomous Robots with Foundation World Models [0.12499537119440243]
世界モデルは、コントローラを訓練し、システムの内部のダイナミックモデルを学ぶことによって安全違反を予測するために代理世界を作成する。本稿では,観察を意味的かつ因果的に潜伏した表現に組み込む基礎世界モデルを提案する。これにより、Surrogate dynamicsは、トレーニング不要な大規模言語モデルを活用することで、因果先状態を直接予測できる。
論文参考訳（メタデータ） (2024-03-30T20:03:49Z)
ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文参考訳（メタデータ） (2023-12-14T15:53:07Z)
STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。 Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文参考訳（メタデータ） (2023-10-14T16:42:02Z)
COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。 $textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文参考訳（メタデータ） (2023-10-11T06:10:07Z)
When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文参考訳（メタデータ） (2023-02-15T04:14:20Z)
Predictive World Models from Real-World Partial Observations [66.80340484148931]
本研究では,現実の道路環境に対する確率論的予測世界モデル学習のためのフレームワークを提案する。従来の手法では、学習のための基礎的真理として完全状態を必要とするが、HVAEが部分的に観察された状態のみから完全状態を予測することを学べる新しい逐次訓練法を提案する。
論文参考訳（メタデータ） (2023-01-12T02:07:26Z)
Style-Hallucinated Dual Consistency Learning for Domain Generalized Semantic Segmentation [117.3856882511919]
本稿では、ドメインシフトを処理するためのStyle-HAllucinated Dual consistEncy Learning(SHADE)フレームワークを提案する。 SHADEは3つの実世界のデータセットの平均mIoUに対して5.07%と8.35%の精度で改善し、最先端の手法よりも優れています。
論文参考訳（メタデータ） (2022-04-06T02:49:06Z)
Quantifying Multimodality in World Models [5.593667856320704]
RLに基づく世界モデルにおけるマルチモーダル不確実性の検出と定量化のための新しい指標を提案する。不確実な将来の状態の正しいモデリングと検出は、安全な方法で重要な状況を扱うための基盤となる。
論文参考訳（メタデータ） (2021-12-14T09:52:18Z)
Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文参考訳（メタデータ） (2021-10-27T04:27:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。