論文の概要: dWorldEval: Scalable Robotic Policy Evaluation via Discrete Diffusion World Model
- arxiv url: http://arxiv.org/abs/2604.22152v1
- Date: Fri, 24 Apr 2026 01:50:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.303579
- Title: dWorldEval: Scalable Robotic Policy Evaluation via Discrete Diffusion World Model
- Title(参考訳): dWorldEval:離散拡散世界モデルによるスケーラブルなロボット政策評価
- Authors: Yaxuan Li, Zhongyi Zhou, Yefei Chen, Yaokai Xue, Yichen Zhu,
- Abstract要約: 本稿では,ロボットポリシーのスケーラブルな評価プロキシとして,離散拡散世界モデルを用いたdWorldEvalを提案する。
dWorldEvalは、視覚、言語、ロボットアクションを含むすべてのモダリティを統一トークン空間にマッピングし、単一のトランスフォーマーベースの認知ネットワークを介してそれらに到達する。
- 参考スコア(独自算出の注目度): 14.221014931347327
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Evaluating robotics policies across thousands of environments and thousands of tasks is infeasible with existing approaches. This motivates the need for a new methodology for scalable robotics policy evaluation. In this paper, we propose dWorldEval, which uses a discrete diffusion world model as a scalable evaluation proxy for robotics policies. Specifically, dWorldEval maps all modalities - including vision, language, and robotic actions - into a unified token space, modeling them via a single transformer-based denoising network. In this paper, we propose dWorldEval, using a discrete diffusion world model as a scalable evaluation proxy for robotics policy. Specifically, it maps all modalities, including vision, language, and robotics action into a unified token space, then denoises them with a single transformer network. Building on this architecture, we employ a sparse keyframe memory to maintain spatiotemporal consistency. We also introduce a progress token that indicates the degree of task completion. At inference, the model jointly predicts future observations and progress token, allowing automatically determine success when the progress reaches 1. Extensive experiments demonstrate that dWorldEval significantly outperforms previous approaches, i.e., WorldEval, Ctrl-World, and WorldGym, on LIBERO, RoboTwin, and multiple real-robot tasks. It paves the way for a new architectural paradigm in building world simulators for robotics evaluation at scale.
- Abstract(参考訳): 何千もの環境と何千ものタスクにわたるロボットポリシーを評価することは、既存のアプローチでは不可能である。
これは、スケーラブルなロボティクスポリシー評価のための新しい方法論の必要性を動機付けている。
本稿では,ロボットポリシーのスケーラブルな評価プロキシとして,離散拡散世界モデルを用いたdWorldEvalを提案する。
具体的には、dWorldEvalは、視覚、言語、ロボットアクションを含むすべてのモダリティを統一トークン空間にマッピングし、単一のトランスフォーマーベースの認知ネットワークを通じてモデリングする。
本稿では,ロボット政策のスケーラブルな評価プロキシとして,離散拡散世界モデルを用いたdWorldEvalを提案する。
具体的には、視覚、言語、ロボットなどのあらゆるモダリティを統一されたトークン空間にマッピングし、単一のトランスフォーマーネットワークでそれらを認知する。
このアーキテクチャに基づいて、時空間整合性を維持するために、スパースキーフレームメモリを使用します。
タスク完了の度合いを示すプログレストークンも導入する。
推測時に、モデルは将来の観測と進捗トークンを共同で予測し、進捗が1に達すると自動的に成功を判定する。
dWorldEvalは、LIBERO、RoboTwin、および複数の実ロボットタスクにおいて、従来のアプローチであるWorldEval、Ctrl-World、WorldGymを大きく上回ることを示した。
ロボット工学評価のための世界シミュレータの構築において、新しいアーキテクチャパラダイムの道を開く。
関連論文リスト
- WestWorld: A Knowledge-Encoded Scalable Trajectory World Model for Diverse Robotic Systems [30.47929124291285]
軌道世界モデルは、ロボット力学の学習、計画、制御において重要な役割を果たす。
多様なロボットシステムのためのknoWledge-Encoded Scalable Trajectory WorldモデルであるWestWorldを紹介する。
WestWorldは、ゼロおよび少数ショットの軌道予測において、競争ベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2026-03-15T14:12:43Z) - Large Video Planner Enables Generalizable Robot Control [117.49024534548319]
汎用ロボットは、様々なタスクや環境にまたがって一般化する意思決定モデルを必要とする。
最近の研究は、マルチモーダル大言語モデル(LM)をアクション出力で拡張し、視覚-アクション(VLA)システムを構築することで、ロボット基盤モデルを構築している。
本稿では,ロボット基礎モデル構築における主要なモダリティとして,大規模ビデオ事前学習を用いるための代替パラダイムについて検討する。
論文 参考訳(メタデータ) (2025-12-17T18:35:54Z) - WorldGym: World Model as An Environment for Policy Evaluation [41.204900701616914]
WorldGymは、実環境のプロキシとして機能する自動回帰、アクション条件付きビデオ生成モデルである。
ポリシーはモンテカルロの世界モデルによるロールアウトを通じて評価され、視覚言語モデルが報酬を提供する。
We show that WorldGym can maintain relative policy rankings across different policy version, sizes, and training checkpoints。
論文 参考訳(メタデータ) (2025-05-31T15:51:56Z) - Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments [26.66666135624716]
ゼロショットロボットポリシーのトレーニングとデプロイのためのフレームワークであるロボットユーティリティモデル(RUM)を提案する。
RUMは微調整なしで新しい環境に一般化できる。
キャビネットドアのオープン、引き出しのオープン、ナプキンのピックアップ、紙袋のピックアップ、転倒物の再配向の5つのユーティリティモデルを訓練する。
論文 参考訳(メタデータ) (2024-09-09T17:59:50Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。