論文の概要: Web World Models
- arxiv url: http://arxiv.org/abs/2512.23676v1
- Date: Mon, 29 Dec 2025 18:31:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.61577
- Title: Web World Models
- Title(参考訳): Web World Models
- Authors: Jichen Feng, Yifan Zhang, Chenggong Zhang, Yifu Lu, Shilong Liu, Mengdi Wang,
- Abstract要約: Web World Model (WWM) は「世界状態と物理」が通常のWebコードで実装される中核となる。
リアルなウェブスタック上にWWMのスイートを構築し、現実の地理や架空の銀河探検家、ウェブスケールの百科事典や物語の世界、シミュレーションやゲームのような環境を基盤とする無限の旅行アトラスを構築します。
この結果から,ウェブスタック自体が世界モデルのスケーラブルな基盤として機能し,制御可能かつオープンな環境を実現することが示唆された。
- 参考スコア(独自算出の注目度): 60.208836336654315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language agents increasingly require persistent worlds in which they can act, remember, and learn. Existing approaches sit at two extremes: conventional web frameworks provide reliable but fixed contexts backed by databases, while fully generative world models aim for unlimited environments at the expense of controllability and practical engineering. In this work, we introduce the Web World Model (WWM), a middle ground where world state and ``physics'' are implemented in ordinary web code to ensure logical consistency, while large language models generate context, narratives, and high-level decisions on top of this structured latent state. We build a suite of WWMs on a realistic web stack, including an infinite travel atlas grounded in real geography, fictional galaxy explorers, web-scale encyclopedic and narrative worlds, and simulation- and game-like environments. Across these systems, we identify practical design principles for WWMs: separating code-defined rules from model-driven imagination, representing latent state as typed web interfaces, and utilizing deterministic generation to achieve unlimited but structured exploration. Our results suggest that web stacks themselves can serve as a scalable substrate for world models, enabling controllable yet open-ended environments. Project Page: https://github.com/Princeton-AI2-Lab/Web-World-Models.
- Abstract(参考訳): 言語エージェントは、彼らが行動し、記憶し、学ぶことのできる永続的な世界を必要としている。
既存のアプローチは2つの極端に位置づけられている: 従来のWebフレームワークはデータベースがバックアップする信頼性があるが、固定されたコンテキストを提供する。
本稿では,Web World Model(WWM)を紹介する。これは,世界状態と‘物理’が論理的整合性を確保するために通常のWebコードで実装される中盤であり,大規模言語モデルは,この構造化された潜在状態の上にコンテキスト,物語,高レベルな決定を生成する。
リアルなウェブスタック上にWWMのスイートを構築し、現実の地理や架空の銀河探検家、ウェブスケールの百科事典や物語の世界、シミュレーションやゲームのような環境を基盤とする無限の旅行アトラスを構築します。
これらのシステム全体で、コード定義ルールをモデル駆動のイマジネーションから分離し、潜在状態を型付きWebインターフェースとして表現し、決定論的生成を利用して無制限だが構造化された探索を実現する、WWMの実践的設計原則を同定する。
この結果から,ウェブスタック自体が世界モデルのスケーラブルな基盤として機能し,制御可能かつオープンな環境を実現することが示唆された。
Project Page: https://github.com/Princeton-AI2-Lab/Web-World-Models
関連論文リスト
- WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World [100.68103378427567]
エージェントは現実的な4D駆動環境を合成し、説得力があるように見えるが、物理的または行動的に失敗することが多い。
モデルがどのように構築され、理解され、その生成された世界の中でどのように振る舞うかを評価するフルスペクトルベンチマークであるWorldLensを紹介します。
さらに、数値的なスコアとテキストの合理性を備えた人間の注釈付きビデオの大規模データセット WorldLens-26K を構築し、WorldLens-Agent を開発した。
論文 参考訳(メタデータ) (2025-12-11T18:59:58Z) - Affordance Representation and Recognition for Autonomous Agents [64.39018305018904]
本稿では,構造化データを用いた世界モデリングのためのパターン言語を提案する。
DOMトランスダクションパターンは、Webページの複雑さの課題に対処する。
Hypermedia Affordances Recognition Patternは、エージェントがその世界モデルを動的に強化することを可能にする。
論文 参考訳(メタデータ) (2025-10-28T14:27:28Z) - Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents [22.608219492706876]
本稿では,各候補行動の結果をシミュレートし,考慮した世界モデルを用いたWebエージェントのためのモデルベース計画フレームワークを提案する。
実証的な結果は、WebDreamerがリアクティブベースラインよりも大幅にパフォーマンスが向上していることを示している。
我々の訓練された世界モデルDreamer-7Bは、GPT-4oに匹敵する性能を発揮し、複雑なウェブ環境における効率的かつ効率的な計画のための特殊な世界モデルの可能性を強調した。
論文 参考訳(メタデータ) (2024-11-10T18:50:51Z) - One-shot World Models Using a Transformer Trained on a Synthetic Prior [37.027893127637036]
ワンショット世界モデル(英: One-Shot World Model、OSWM)は、純粋に合成データからコンテキスト内学習形式で学習されるトランスフォーマー世界モデルである。
OSWMは、シンプルなグリッド世界のダイナミクスや、CartPoleのジム、カスタムコントロール環境に迅速に適応できる。
論文 参考訳(メタデータ) (2024-09-21T09:39:32Z) - WorldGPT: Empowering LLM as Multimodal World Model [51.243464216500975]
MLLM(Multimodal Large Language Model)に基づく汎用世界モデルWorldGPTを紹介する。
WorldGPTは、さまざまなドメインにまたがる数百万のビデオを分析して、世界ダイナミクスの理解を得る。
マルチモーダル状態遷移予測ベンチマークWorldNetの評価を行う。
論文 参考訳(メタデータ) (2024-04-28T14:42:02Z) - Grounded Decoding: Guiding Text Generation with Grounded Models for
Embodied Agents [111.15288256221764]
グラウンデッドデコーディングプロジェクトは、両方のモデルの知識を活用することで、ロボット環境で複雑な長期タスクを解決することを目的としている。
我々はこれを確率的フィルタリングに類似した問題として、言語モデルの下で高い確率を持つシーケンスをデコードし、基底モデル対象のセットで高い確率を示す。
本研究では,3つのシミュレーション領域と実世界の領域にまたがって,そのような基底モデルがどのように得られるのかを実証し,両モデルの知識を活用して,ロボット環境での複雑な長期的タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-03-01T22:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。