論文の概要: Enhancing Physical Consistency in Lightweight World Models
- arxiv url: http://arxiv.org/abs/2509.12437v1
- Date: Mon, 15 Sep 2025 20:43:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.757037
- Title: Enhancing Physical Consistency in Lightweight World Models
- Title(参考訳): 軽量世界モデルにおける物理的整合性向上
- Authors: Dingrui Wang, Zhexiao Sun, Zhouheng Li, Cheng Wang, Youlun Peng, Hongyuan Ye, Baha Zarrouki, Wei Li, Mattia Piccinini, Lei Xie, Johannes Betz,
- Abstract要約: 小さな世界モデルは展開しやすいが、正確な物理を学ぶのに苦労することが多く、予測が下手である。
本研究では,鳥眼ビュー(BEV)表現における物理的相互作用を効率的に捉えるためのコンパクトモデルとして,PWM(Physical-Informed BEV World Model)を提案する。
- 参考スコア(独自算出の注目度): 10.686739237034436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A major challenge in deploying world models is the trade-off between size and performance. Large world models can capture rich physical dynamics but require massive computing resources, making them impractical for edge devices. Small world models are easier to deploy but often struggle to learn accurate physics, leading to poor predictions. We propose the Physics-Informed BEV World Model (PIWM), a compact model designed to efficiently capture physical interactions in bird's-eye-view (BEV) representations. PIWM uses Soft Mask during training to improve dynamic object modeling and future prediction. We also introduce a simple yet effective technique, Warm Start, for inference to enhance prediction quality with a zero-shot model. Experiments show that at the same parameter scale (400M), PIWM surpasses the baseline by 60.6% in weighted overall score. Moreover, even when compared with the largest baseline model (400M), the smallest PIWM (130M Soft Mask) achieves a 7.4% higher weighted overall score with a 28% faster inference speed.
- Abstract(参考訳): 世界モデルをデプロイする上で大きな課題は、サイズとパフォーマンスのトレードオフである。
大規模な世界モデルはリッチな物理力学を捉えることができるが、膨大な計算資源を必要とするため、エッジデバイスでは実用的ではない。
小さな世界モデルは展開しやすいが、正確な物理を学ぶのに苦労することが多く、予測が下手である。
本研究では,鳥眼視(BEV)表現における物理的相互作用を効率的に捉えるためのコンパクトモデルとして,PWM(Physical-Informed BEV World Model)を提案する。
PIWMは訓練中にSoft Maskを使用して動的オブジェクトモデリングと将来の予測を改善する。
また,ゼロショットモデルを用いて予測品質を向上させるための簡易かつ効果的な手法であるウォームスタートを導入する。
実験によると、同じパラメータスケール(400M)でPIWMがベースラインを60.6%上回った。
さらに、最大のベースラインモデル(400M)と比較しても、最小のPIWM(130M Soft Mask)は7.4%のスコアを獲得し、推論速度は28%速くなった。
関連論文リスト
- SlimMoE: Structured Compression of Large MoE Models via Expert Slimming and Distillation [82.53411922988039]
SlimMoEは、大規模なMoEモデルをより小さく効率的な変種に変換するための多段階圧縮フレームワークである。
このフレームワークを用いて、Phi 3.5-MoE (41.9Bトータル/6.6Bアクティベートパラメータ)を圧縮し、Phi-mini-MoE (7.6Bトータル/2.4Bアクティベートパラメータ)とPhi-tiny-MoE (3.8Bトータル/1.1Bアクティベートパラメータ)を生成する。
実験により、圧縮されたモデルが他のモデルと同等の大きさのモデルよりも優れ、より大きなモデルと競合し続けていることが示された。
論文 参考訳(メタデータ) (2025-06-23T07:15:59Z) - Humanoid World Models: Open World Foundation Models for Humanoid Robotics [2.7781524868854715]
我々はHWM(Humanoid World Models)を紹介した。HWMは、HWM(Humanoid World Models)は、HWM(Humanoid World Models)の一種で、HWM(Humanoid World Models)と呼ばれる軽量でオープンソースのモデルである。
我々は,100時間のヒューマノイド実験において,Masked TransformersとFlow-Matchingの2種類の生成モデルを訓練した。
パラメータ共有技術は,性能や視力に最小限の影響を伴って,モデルサイズを33~53%削減する。
論文 参考訳(メタデータ) (2025-06-01T21:33:36Z) - Neural Motion Simulator: Pushing the Limit of World Models in Reinforcement Learning [11.762260966376125]
モーションダイナミクスモデルは、効率的なスキル獲得と効果的なプランニングに不可欠である。
本稿では,脳神経運動シミュレータ (MoSim) を紹介する。
MoSimは物理状態予測において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-09T17:59:32Z) - Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models [192.5620883942846]
ネモトロン-Hは8Bと56B/47Bハイブリッド・マンバ・トランスフォーマーのファミリーである。
私たちは共通のTransformerモデルアーキテクチャにおけるほとんどの自己注意レイヤをMambaレイヤに置き換えます。
Nemotron-Hモデルは、他の同様のサイズのオープンソーストランスフォーマーモデルと比較して、精度が良いか低いかのどちらかを提供する。
論文 参考訳(メタデータ) (2025-04-04T17:41:58Z) - WorldModelBench: Judging Video Generation Models As World Models [57.776769550453594]
ビデオ生成モデルは急速に進歩し、ロボット工学や自動運転といった意思決定アプリケーションをサポートするビデオワールドモデルとしての地位を確立している。
現在のベンチマークでは、これらの主張を厳格に評価することができず、一般的なビデオ品質にのみ焦点が当てられている。
アプリケーション駆動ドメインにおけるビデオ生成モデルのワールドモデリング能力を評価するためのベンチマークであるWorldModelBenchを提案する。
論文 参考訳(メタデータ) (2025-02-28T03:58:23Z) - EMOv2: Pushing 5M Vision Model Frontier [92.21687467702972]
様々な下流タスクにおいて,5M級軽量モデルの新たなフロンティアを構築した。
我々の研究は、Transformerにおける効率的なIRBと実用的なコンポーネントの軽量なインフラを再考する。
4G/5G帯でモデルをダウンロードする場合のモバイルユーザの遅延を考慮し,5M程度の軽量モデルの性能上限について検討する。
論文 参考訳(メタデータ) (2024-12-09T17:12:22Z) - Physics-informed linear regression is a competitive approach compared to
Machine Learning methods in building MPC [0.8135412538980287]
総じて, ビルのベースラインコントローラと比較して, 暖房・冷却エネルギーの低減効果が良好であることが示唆された。
また, 物理インフォームドARMAXモデルは, 計算負担が低く, 機械学習モデルと比較して, サンプル効率が優れていることも確認した。
論文 参考訳(メタデータ) (2021-10-29T16:56:05Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。