論文の概要: FOLIAGE: Towards Physical Intelligence World Models Via Unbounded Surface Evolution
- arxiv url: http://arxiv.org/abs/2506.03173v1
- Date: Thu, 29 May 2025 01:16:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:13.903818
- Title: FOLIAGE: Towards Physical Intelligence World Models Via Unbounded Surface Evolution
- Title(参考訳): FOLIAGE:物理知能の世界モデルを目指して
- Authors: Xiaoyi Liu, Hao Tang,
- Abstract要約: 本稿では,物理インフォームド・マルチモーダル世界モデルFOLIAGEを提案する。
Action-Perceptionループでは、統合コンテキストがイメージ、メッシュ接続、ポイントクラウドを共有潜在状態にマップする。
物理制御アクションを条件とした物理認識予測器は、この潜伏状態に時間をかけて、表面の目標潜伏状態と整合する。
- 参考スコア(独自算出の注目度): 8.895165270489167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Physical intelligence -- anticipating and shaping the world from partial, multisensory observations -- is critical for next-generation world models. We propose FOLIAGE, a physics-informed multimodal world model for unbounded accretive surface growth. In its Action-Perception loop, a unified context encoder maps images, mesh connectivity, and point clouds to a shared latent state. A physics-aware predictor, conditioned on physical control actions, advances this latent state in time to align with the target latent of the surface, yielding a Modality-Agnostic Growth Embedding (MAGE) that interfaces with critic heads for downstream objectives. FOLIAGE's Accretive Graph Network (AGN) captures dynamic connectivity through Age Positional Encoding and Energy-Gated Message-Passing. Geometry-Correspondence Fusion and Cross-Patch Masking enhance MAGE's expressiveness, while Hierarchical Pooling balances global context with local dynamics. We create SURF-GARDEN, a world model learning platform comprising a Counterfactual Physics Simulator, a Multimodal Correspondence Extractor, and Evolution Tracing, which generates 7,200 diverse surface-growth sequences. SURF-BENCH, our physical-intelligence evaluation suite, evaluates six core tasks -- topology recognition, inverse material estimation, growth-stage classification, latent roll-out, cross-modal retrieval, and dense correspondence -- and four stress tests -- sensor dropout, zero-shot modality transfer, long-horizon prediction, and physics ablation -- to probe resilience. FOLIAGE outperforms specialized baselines while remaining robust across dynamic environments, establishing a new world-model based, multimodal pathway to physical intelligence.
- Abstract(参考訳): 物理インテリジェンス — 部分的、多感覚的な観察から世界を予測し、形作る — は、次世代の世界モデルにとって重要な存在だ。
本研究では,非有界表面成長のための物理インフォームド・マルチモーダル世界モデルFOLIAGEを提案する。
Action-Perceptionループでは、統合コンテキストエンコーダがイメージ、メッシュ接続、ポイントクラウドを共有潜在状態にマップする。
物理制御アクションを条件とした物理認識予測器は、この潜伏状態が表面の目標潜伏状態と整合するように進行し、下流の目的に対して批評家と対話するモダリティ-非依存成長埋め込み(MAGE)を生成する。
FOLIAGEのAccretive Graph Network (AGN)は、年齢位置エンコーディングとEnergy-Gated Message-Passingを通じて動的接続をキャプチャする。
Geometry-Cor correspondingence FusionとCross-Patch MaskingはMAGEの表現性を高め、Hierarchical Poolingはグローバルコンテキストと局所力学のバランスをとる。
対物物理シミュレータ,マルチモーダル対応エクストラクタ,進化追跡からなる世界モデル学習プラットフォームであるSURF-GARDENを作成し、7,200の多様な表面成長配列を生成する。
物理インテリジェンス評価スイートであるSURF-BENCHは、トポロジー認識、逆材料推定、成長段階分類、潜時ロールアウト、クロスモーダル検索、密度対応の6つのコアタスクと、センサドロップアウト、ゼロショットモダリティ転送、ロングホライゾン予測、物理アブレーションの4つのストレステストを評価した。
FOLIAGEは、動的環境全体にわたって堅牢でありながら、特別なベースラインよりも優れており、物理インテリジェンスに対する新しい世界モデルベースのマルチモーダルパスを確立している。
関連論文リスト
- DeepVerse: 4D Autoregressive Video Generation as a World Model [16.877309608945566]
DeepVerseは、4Dインタラクティブな新しい世界モデルであり、過去の時系列から幾何学的予測を現在の行動予測に明示的に取り入れている。
実験では、明示的な幾何学的制約を組み込むことで、DeepVerseはより豊かな時間的関係と基礎となる物理力学を捉えている。
この機能はドリフトを大幅に低減し、時間的一貫性を高め、モデルが確実に将来的なシーケンスを生成することを可能にする。
論文 参考訳(メタデータ) (2025-06-01T17:58:36Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - PhysFormer++: Facial Video-based Physiological Measurement with SlowFast
Temporal Difference Transformer [76.40106756572644]
最近のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙な手がかりのマイニングに重点を置いている。
本稿では,PhysFormerとPhys++++をベースとした2つのエンドツーエンドビデオ変換器を提案する。
4つのベンチマークデータセットで総合的な実験を行い、時間内テストとクロスデータセットテストの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2023-02-07T15:56:03Z) - PhysFormer: Facial Video-based Physiological Measurement with Temporal
Difference Transformer [55.936527926778695]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙なrの手がかりのマイニングに重点を置いている。
本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文 参考訳(メタデータ) (2021-11-23T18:57:11Z) - Physics-Coupled Spatio-Temporal Active Learning for Dynamical Systems [15.923190628643681]
主な課題の1つは、認識されたデータストリームを生成する根本原因を推測することである。
機械学習ベースの予測モデルの成功は、モデルトレーニングに大量の注釈付きデータを必要とする。
提案するST-PCNNは, 実世界のデータセットと実世界のデータセットの両方において, 極めて少ないインスタンスで最適精度に収束することを示した。
論文 参考訳(メタデータ) (2021-08-11T18:05:55Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - ThreeDWorld: A Platform for Interactive Multi-Modal Physical Simulation [75.0278287071591]
ThreeDWorld (TDW) はインタラクティブなマルチモーダル物理シミュレーションのためのプラットフォームである。
TDWは、リッチな3D環境において、高忠実な感覚データのシミュレーションと、移動体エージェントとオブジェクト間の物理的相互作用を可能にする。
我々は、コンピュータビジョン、機械学習、認知科学における新たな研究方向において、TDWによって実現された初期実験を提示する。
論文 参考訳(メタデータ) (2020-07-09T17:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。