論文の概要: WorldString: Actionable World Representation
- arxiv url: http://arxiv.org/abs/2605.18743v2
- Date: Wed, 20 May 2026 07:13:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 14:55:44.326927
- Title: WorldString: Actionable World Representation
- Title(参考訳): WorldString: Actionable World Representation
- Authors: Kunqi Xu, Jitao Li, Jianglong Ye, Tianshu Tang, Isabella Liu, Sifei Liu, Xueyan Zou,
- Abstract要約: 我々は,ポイントクラウドやRGB-Dビデオストリームから直接学習することで,実世界のオブジェクトの状態多様体をモデル化できるニューラルネットワークであるWorldStringを提案する。
WorldStringは物理世界モデルの基本的なビルディングブロックとして機能するので、WorldStringと名付けます。しかしながら、その完全に差別化可能な構造は、ポリシー学習とニューラルダイナミクスとの将来の統合をシームレスに実現します。
- 参考スコア(独自算出の注目度): 29.267308971639682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the emergent behaviors in large language models that generalized human intelligence, the research community is pursuing similar emergent capabilities within world models, with a emphasis on modeling the physical world. Within the scope of physical world model, objects are the fundamental primitives that constitute physical reality. From humans to computers, nearly everything we interact with is an object. These objects are rarely static; they are actionable entities with varying states determined by their intrinsic properties. While current methods approach object action states either via video generation or dynamic scene reconstruction, none explicitly model this basic element in a unified, principled way to build an actionable object representation. We propose WorldString, a neural architecture capable of modeling the state manifold of real-world objects by learning directly from point clouds or RGB-D video streams. Serving as a versatile digital twin, it acts as a foundational building block for physical world models; thus, we name it WorldString. Sweetly, its fully differentiable structure seamlessly enables future integration with policy learning and neural dynamics.
- Abstract(参考訳): 人間の知性を一般化した大きな言語モデルにおける創発的行動に触発された研究コミュニティは、物理世界のモデリングに重点を置いて、世界モデルの中で同様の創発的能力を追求している。
物理的世界モデルの範囲内では、オブジェクトは物理的な現実を構成する基本的なプリミティブである。
人間からコンピュータまで、私たちが対話するほとんどのものは、オブジェクトです。
これらのオブジェクトは、しばしば静的であり、それら固有の性質によって決定される様々な状態を持つ作用可能な実体である。
現在の方法では、オブジェクトのアクション状態にビデオ生成または動的シーン再構成を経由するが、アクション可能なオブジェクト表現を構築するための統一的で原則化された方法で、この基本的な要素を明示的にモデル化することはない。
我々は,ポイントクラウドやRGB-Dビデオストリームから直接学習することで,実世界のオブジェクトの状態多様体をモデル化できるニューラルネットワークであるWorldStringを提案する。
汎用的なデジタルツインとして機能し、物理世界のモデルの基礎となるビルディングブロックとして機能します。
興味深いことに、完全に差別化可能な構造は、ポリシー学習とニューラルダイナミクスとの統合をシームレスに実現している。
関連論文リスト
- Is Your Driving World Model an All-Around Player? [107.28582946012818]
We introduced WorldLens, a unified benchmark that measure world-model fidelity across the full spectrum。
6つの代表モデルについて評価したところ、既存のアプローチがすべての軸にわたって支配的でないことが判明した。
アルゴリズムのメトリクスを人間の知覚でブリッジするために、26,808エントリの人間注釈付き嗜好データセットであるWorldLens-26Kをコントリビュートする。
論文 参考訳(メタデータ) (2026-05-11T17:05:49Z) - WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World [100.68103378427567]
エージェントは現実的な4D駆動環境を合成し、説得力があるように見えるが、物理的または行動的に失敗することが多い。
モデルがどのように構築され、理解され、その生成された世界の中でどのように振る舞うかを評価するフルスペクトルベンチマークであるWorldLensを紹介します。
さらに、数値的なスコアとテキストの合理性を備えた人間の注釈付きビデオの大規模データセット WorldLens-26K を構築し、WorldLens-Agent を開発した。
論文 参考訳(メタデータ) (2025-12-11T18:59:58Z) - Simulating the Visual World with Artificial Intelligence: A Roadmap [48.64639618440864]
ビデオ生成は、視覚的に魅力的なクリップを生成するものから、インタラクションをサポートし、物理的な可視性を維持する仮想環境を構築するものへとシフトしている。
この調査は、この進化の体系的な概要を提供し、現代のビデオ基盤モデルを2つのコアコンポーネントの組み合わせとして概念化した。
4世代にわたる映像生成の進展を追究し,本質的な物理的妥当性を具現化した映像生成モデルを構築した。
論文 参考訳(メタデータ) (2025-11-11T18:59:50Z) - PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis [52.905353023326306]
物理的に妥当で多様な実演を合成し、効率的な世界モデルを学ぶためのフレームワークであるPhysWorldを提案する。
実験により、PhysWorldは、最新の最先端手法、すなわちPhysTwinよりも47倍高速な推論速度を実現しつつ、競争性能を持つことが示された。
論文 参考訳(メタデータ) (2025-10-24T13:25:39Z) - Dyn-O: Building Structured World Models with Object-Centric Representations [42.65409148846005]
オブジェクト中心の表現に基づいて構築された拡張構造化世界モデルであるDyn-Oを紹介する。
オブジェクト中心表現における以前の研究と比較すると、Dyn-Oは学習表現とモデリングダイナミクスの両方において改善されている。
提案手法は,画素観測からオブジェクト中心の世界モデルを直接学習し,DreamerV3のロールアウト予測精度を向上する。
論文 参考訳(メタデータ) (2025-07-04T05:06:15Z) - Dream to Manipulate: Compositional World Models Empowering Robot Imitation Learning with Imagination [25.62602420895531]
DreMaは、実世界の学習された明示的な表現とそのダイナミクスを使って、デジタル双生児を構築するための新しいアプローチである。
DreMaはタスク毎の1つの例から新しい物理タスクを学べることを示す。
論文 参考訳(メタデータ) (2024-12-19T15:38:15Z) - Hierarchical Relational Inference [80.00374471991246]
本稿では,物体を局所的に独立に振る舞うが,よりグローバルに一括して振る舞う部分の階層としてモデル化する物理推論手法を提案する。
従来の手法とは異なり,本手法は生画像から直接教師なしの方法で学習する。
複数のレベルの抽象化を明確に区別し、合成ビデオと実世界のビデオのモデリングにおいて、強力なベースラインを超えて改善する。
論文 参考訳(メタデータ) (2020-10-07T20:19:10Z) - RELATE: Physically Plausible Multi-Object Scene Synthesis Using
Structured Latent Spaces [77.07767833443256]
RELATEは、複数の対話オブジェクトの物理的に可視なシーンとビデオを生成することを学習するモデルである。
オブジェクト中心生成モデリングにおける最先端の手法とは対照的に、RELATEは自然に動的なシーンに拡張し、高い視覚的忠実度のビデオを生成する。
論文 参考訳(メタデータ) (2020-07-02T17:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。