論文の概要: Generative World Modelling for Humanoids: 1X World Model Challenge Technical Report
- arxiv url: http://arxiv.org/abs/2510.07092v1
- Date: Wed, 08 Oct 2025 14:49:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.572069
- Title: Generative World Modelling for Humanoids: 1X World Model Challenge Technical Report
- Title(参考訳): ヒューマノイドのための生成的世界モデリング:1Xワールドモデルチャレンジ技術レポート
- Authors: Riccardo Mereu, Aidan Scannell, Yuxin Hou, Yi Zhao, Aditya Jitta, Antonio Dominguez, Luigi Acerbi, Amos Storkey, Paul Chang,
- Abstract要約: 1X World Model Challengeでは、実世界のヒューマノイドインタラクションのオープンソースベンチマークが導入されている。
We adapt the video generation foundation model Wan-2.2 TI2V-5B to video-state-conditioned future frame prediction。
本モデルでは,サンプリングタスクで23.0dBPSNR,圧縮タスクで6.6386のTop-500 CEを実現し,両課題において第1位を確保した。
- 参考スコア(独自算出の注目度): 13.66563834458748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models are a powerful paradigm in AI and robotics, enabling agents to reason about the future by predicting visual observations or compact latent states. The 1X World Model Challenge introduces an open-source benchmark of real-world humanoid interaction, with two complementary tracks: sampling, focused on forecasting future image frames, and compression, focused on predicting future discrete latent codes. For the sampling track, we adapt the video generation foundation model Wan-2.2 TI2V-5B to video-state-conditioned future frame prediction. We condition the video generation on robot states using AdaLN-Zero, and further post-train the model using LoRA. For the compression track, we train a Spatio-Temporal Transformer model from scratch. Our models achieve 23.0 dB PSNR in the sampling task and a Top-500 CE of 6.6386 in the compression task, securing 1st place in both challenges.
- Abstract(参考訳): 世界モデルはAIとロボティクスにおいて強力なパラダイムであり、エージェントは視覚的な観察やコンパクトな潜伏状態を予測することによって未来を推論することができる。
1X World Model Challengeでは、将来の画像フレームの予測に焦点をあてたサンプリングと、将来の離散遅延コードの予測に重点を置いた圧縮という、2つの補完的なトラックを備えた、現実世界のヒューマノイドインタラクションのオープンソースベンチマークが導入されている。
サンプリングトラックでは,映像生成基盤モデルWan-2.2 TI2V-5Bを映像状態条件の将来のフレーム予測に適用する。
我々は、AdaLN-Zeroを用いてロボット状態にビデオ生成を条件付け、さらにLoRAを用いてモデルを訓練する。
圧縮トラックでは,スクラッチから時空間変圧器モデルを訓練する。
本モデルでは,サンプリングタスクで23.0dBPSNR,圧縮タスクで6.6386のTop-500 CEを実現し,両課題において第1位を確保した。
関連論文リスト
- Humanoid World Models: Open World Foundation Models for Humanoid Robotics [2.7781524868854715]
我々はHWM(Humanoid World Models)を紹介した。HWMは、HWM(Humanoid World Models)は、HWM(Humanoid World Models)の一種で、HWM(Humanoid World Models)と呼ばれる軽量でオープンソースのモデルである。
我々は,100時間のヒューマノイド実験において,Masked TransformersとFlow-Matchingの2種類の生成モデルを訓練した。
パラメータ共有技術は,性能や視力に最小限の影響を伴って,モデルサイズを33~53%削減する。
論文 参考訳(メタデータ) (2025-06-01T21:33:36Z) - WorldModelBench: Judging Video Generation Models As World Models [57.776769550453594]
ビデオ生成モデルは急速に進歩し、ロボット工学や自動運転といった意思決定アプリケーションをサポートするビデオワールドモデルとしての地位を確立している。
現在のベンチマークでは、これらの主張を厳格に評価することができず、一般的なビデオ品質にのみ焦点が当てられている。
アプリケーション駆動ドメインにおけるビデオ生成モデルのワールドモデリング能力を評価するためのベンチマークであるWorldModelBenchを提案する。
論文 参考訳(メタデータ) (2025-02-28T03:58:23Z) - D$^2$-World: An Efficient World Model through Decoupled Dynamic Flow [47.361822281431586]
CVPR-2024 Workshop on Foundation Models for Autonomous Systems(CVPR-2024)で開催される予測的世界モデルチャレンジの2番目のソリューションを要約する。
D$2$-Worldは、Decoupled Dynamic Flowを通して将来の点雲を効果的に予測する新しい世界モデルである。
提案手法は,OpenScene Predictive World Modelベンチマークの最先端性能を実現し,第2位を確保し,ベースラインモデルよりも300%以上高速なトレーニングを行う。
論文 参考訳(メタデータ) (2024-11-26T01:42:49Z) - VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - Copilot4D: Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion [36.321494200830244]
Copilot4Dは、まずVQVAEでセンサ観測をトークン化し、次に離散拡散によって未来を予測する新しい世界モデリング手法である。
本研究は,ロボット工学におけるGPTのような非教師なし学習のパワーを,トークン化エージェント体験における離散拡散によって解き放つことを示す。
論文 参考訳(メタデータ) (2023-11-02T06:21:56Z) - T3VIP: Transformation-based 3D Video Prediction [49.178585201673364]
本稿では,シーンを対象部品に分解することで3次元動きを明示的にモデル化する3次元映像予測手法を提案する。
我々のモデルは、完全に教師なしであり、現実世界の性質を捉え、画像と点のクラウド領域における観察の手がかりがその学習信号を構成する。
我々の知る限り、我々のモデルは、静止カメラの未来をRGB-Dビデオで予測する最初の生成モデルである。
論文 参考訳(メタデータ) (2022-09-19T15:01:09Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。