論文の概要: Semantic World Models
- arxiv url: http://arxiv.org/abs/2510.19818v1
- Date: Wed, 22 Oct 2025 17:53:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.248322
- Title: Semantic World Models
- Title(参考訳): セマンティック世界モデル
- Authors: Jacob Berg, Chuning Zhu, Yanda Bao, Ishan Durugkar, Abhishek Gupta,
- Abstract要約: 世界モデルによる計画は、ロボット制御の強力なパラダイムを提供する。
本稿では,将来的なフレームをピクセルとして再構成するのではなく,タスク関連セマンティック情報のみを予測する必要があることを示唆する。
- 参考スコア(独自算出の注目度): 11.950909271505923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Planning with world models offers a powerful paradigm for robotic control. Conventional approaches train a model to predict future frames conditioned on current frames and actions, which can then be used for planning. However, the objective of predicting future pixels is often at odds with the actual planning objective; strong pixel reconstruction does not always correlate with good planning decisions. This paper posits that instead of reconstructing future frames as pixels, world models only need to predict task-relevant semantic information about the future. For such prediction the paper poses world modeling as a visual question answering problem about semantic information in future frames. This perspective allows world modeling to be approached with the same tools underlying vision language models. Thus vision language models can be trained as "semantic" world models through a supervised finetuning process on image-action-text data, enabling planning for decision-making while inheriting many of the generalization and robustness properties from the pretrained vision-language models. The paper demonstrates how such a semantic world model can be used for policy improvement on open-ended robotics tasks, leading to significant generalization improvements over typical paradigms of reconstruction-based action-conditional world modeling. Website available at https://weirdlabuw.github.io/swm.
- Abstract(参考訳): 世界モデルによる計画は、ロボット制御の強力なパラダイムを提供する。
従来のアプローチでは、現在のフレームとアクションに条件付けされた将来のフレームを予測するためにモデルをトレーニングし、プランニングに使用することができる。
しかし、将来の画素予測の目的は実際の計画目標と矛盾することが多く、強い画素再構成は必ずしも良い計画決定と相関しない。
本稿では,将来的なフレームをピクセルとして再構成するのではなく,タスク関連セマンティック情報のみを予測する必要があることを示唆する。
このような予測のために、将来のフレームにおける意味情報に関する視覚的質問応答問題として、世界モデリングを取り上げている。
この視点により、世界モデリングは、視覚言語モデルに基づく同じツールでアプローチできる。
このように、視覚言語モデルは、イメージ・アクション・テキスト・データの教師付き微調整プロセスを通じて「意味のある」世界モデルとして訓練することができ、事前訓練された視覚言語モデルから多くの一般化と堅牢性を継承しながら、意思決定の計画を可能にする。
本稿では,このようなセマンティックな世界モデルが,オープンエンドロボットタスクのポリシー改善にどのように利用できるかを示し,リコンストラクションに基づくアクション・コンディショナル・ワールド・モデリングの典型的なパラダイムよりも大幅に一般化されていることを示す。
Webサイトはhttps://weirdlabuw.github.io/swm.comで公開されている。
関連論文リスト
- From Forecasting to Planning: Policy World Model for Collaborative State-Action Prediction [57.56072009935036]
政策世界モデル(PWM)と呼ばれる新しい運転パラダイムを導入する。
PWMは、統一アーキテクチャ内での世界モデリングと軌道計画を統合する。
提案手法は,マルチビューおよびマルチモーダル入力に依存する最先端の手法に適合するか,あるいは超越する。
論文 参考訳(メタデータ) (2025-10-22T14:57:51Z) - WorldPrediction: A Benchmark for High-level World Modeling and Long-horizon Procedural Planning [52.36434784963598]
我々は、異なるAIモデルのワールドモデリングと手続き計画能力を評価するためのビデオベースのベンチマークであるWorldPredictionを紹介する。
現在のフロンティアモデルでは,WorldPrediction-WMでは57%,WorldPrediction-PPでは38%の精度しか達成できないが,人間は両タスクを完璧に解くことができる。
論文 参考訳(メタデータ) (2025-06-04T18:22:40Z) - World Models for Cognitive Agents: Transforming Edge Intelligence in Future Networks [55.90051810762702]
本稿では,世界モデルを概観し,そのアーキテクチャ,トレーニングパラダイム,予測,生成,計画,因果推論といった応用を概観する。
ワイヤレスエッジインテリジェンス最適化に適した,新しい世界モデルに基づく強化学習フレームワークであるWireless Dreamerを提案する。
論文 参考訳(メタデータ) (2025-05-31T06:43:00Z) - Learning 3D Persistent Embodied World Models [84.40585374179037]
我々は、以前に生成されたコンテンツの明示的なメモリを備えた、新しい永続的エンボディド・ワールドモデルを導入する。
映像拡散モデルでは, 映像拡散モデルにより, エージェントの今後の観察のRGB-D映像が予測される。
この生成は、環境の永続的な3Dマップに集約される。
論文 参考訳(メタデータ) (2025-05-05T17:59:17Z) - Object-Centric World Model for Language-Guided Manipulation [4.008780119020479]
エージェントが自律運転やロボット工学といった分野の将来と計画を予測するためには,世界モデルが不可欠である。
本稿では,言語命令で案内されたスロットアテンションを用いて,オブジェクト中心の表現空間を活用する世界モデルを提案する。
本モデルでは,オブジェクト中心の表現として現在の状態を認識し,この表現空間における将来の状態を自然言語命令で予測する。
論文 参考訳(メタデータ) (2025-03-08T11:17:37Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。