Fugu-MT 論文翻訳(概要): LaWM: Least Action World Models for Long-Horizon Physical Consistency from Visual Observations

論文の概要: LaWM: Least Action World Models for Long-Horizon Physical Consistency from Visual Observations

arxiv url: http://arxiv.org/abs/2605.08279v1
Date: Fri, 08 May 2026 07:03:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:49.52496
Title: LaWM: Least Action World Models for Long-Horizon Physical Consistency from Visual Observations
Title（参考訳）: LaWM:視覚観測による長距離物理一貫性の最小アクション世界モデル
Authors: Qixin Xiao, Maani Ghaffari,
Abstract要約: 学習された視覚的潜伏空間における最小アクションの原理を運用するためのラストアクション世界モデル(LaWM)を提案する。 LaWMは、学習された一般化された座標に観測を符号化し、連続的な潜伏状態上で潜在離散ラグランジアンを学ぶ。遷移は離散的な変動原理によって誘導されるため、LaWMは長期の視覚予測のための構造保存バイアスを提供する。
参考スコア（独自算出の注目度）: 9.35652906982887
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning predictive world models from visual observations is a core problem in embodied AI, with applications to model-based reinforcement learning and robotic planning. Existing latent world models typically generate future states with unconstrained neural transition functions, while modern video generation systems often prioritize perceptual plausibility or introduce physical structure through auxiliary losses, external guidance, or separate dynamics modules. As a result, long-horizon rollouts can remain weakly grounded in the physical principles that govern real dynamics, leading to compounding error, energy drift, and physically inconsistent futures. We propose Least Action World Models (LaWM), a latent world-modeling framework that operationalizes the Principle of Least Action in learned visual latent space: future rollouts are governed by a learned Lagrangian action functional rather than produced only by an unconstrained transition predictor. Our main technical realization is a latent variational integrator: LaWM encodes observations into learned generalized coordinates, learns a latent discrete Lagrangian over consecutive latent states, constructs a discrete action functional, and advances prediction by solving the corresponding discrete integration condition. Thus, physical structure is not merely used to score, regularize, or constrain a completed trajectory; it defines the latent transition rule itself. Because the transition is induced by a discrete variational principle, LaWM provides a structure-preserving bias for long-horizon visual prediction. Across physics-clean synthetic dynamics and embodied robot interaction benchmarks, LaWM improves physical invariance, background consistency, motion smoothness, and appearance and geometric prediction metrics over video-generation and world-model baselines.
Abstract（参考訳）: 視覚的な観察から予測的世界モデルを学ぶことは、モデルベースの強化学習とロボット計画への応用を含む、AIの具体化における中核的な問題である。既存の潜在世界モデルは、通常、制約のない神経遷移関数を持つ将来の状態を生成するが、現代のビデオ生成システムは、しばしば知覚的可視性を優先するか、補助的な損失、外部ガイダンス、または別々の動的モジュールを通して物理的構造を導入する。結果として、長い水平方向のロールアウトは、実際の力学を支配する物理原理に弱い基礎を保ち、複雑なエラー、エネルギーのドリフト、そして物理的に矛盾した未来へと繋がる。学習された視覚的潜在空間における最小アクションの原理を運用する潜在的世界モデリングフレームワークであるラグランジアン・ワールド・モデル(LaWM)を提案し、将来のロールアウトは、制約のない遷移予測器によってのみ生成されるのではなく、学習されたラグランジアン・アクション機能によって制御される。 LaWMは、学習された一般化された座標に観測を符号化し、連続的な潜伏状態上で遅延離散ラグランジアンを学習し、離散的な作用関数を構築し、対応する離散積分条件を解くことによって予測を前進させる。したがって、物理的な構造は単に、完了した軌道のスコア、正規化、あるいは制約にのみ使用されるのではなく、潜在遷移規則そのものを定義する。遷移は離散的な変動原理によって誘導されるため、LaWMは長期の視覚予測のための構造保存バイアスを提供する。 LaWMは物理クリーンな合成力学とロボットの相互作用ベンチマークの範囲で、物理的不変性、背景の一貫性、動きの滑らかさ、外見と幾何学的予測の指標をビデオジェネレーションやワールドモデルベースラインよりも改善する。

関連論文リスト

ACWM-Phys: Investigating Generalized Physical Interaction in Action-Conditioned Video World Models [15.357110248749214]
行動条件付き世界モデル(ACWM)は,映像の予測と意思決定に強く期待されている。本稿では,多様な物理力学下での行動条件予測のための新しいベンチマークであるACWM-Physを紹介する。
論文参考訳（メタデータ） (2026-05-09T00:00:47Z)
The Global Neural World Model: Spatially Grounded Discrete Topologies for Action-Conditioned Planning [0.9137554315375919]
我々は、トポロジカル量子化を実現する自己安定化フレームワークであるGNWM(Global Neural World Model)を提案する。 JEPA(Joint-Embedding Predictive Architecture)として活動する筆者らは, このアーキテクチャにより, 「グリッドスナッピング」を固有誤差補正機構として利用することにより, 自己回帰ロールアウト時の多様体のドリフトを防止することができることを示した。
論文参考訳（メタデータ） (2026-04-17T15:12:15Z)
ResWM: Residual-Action World Model for Visual RL [0.06999740786886534]
生の視覚観測から予測的世界モデルを学ぶことは強化学習(RL)の中心的課題である ResWM(Residual-Action World Model、Residual-Action World Model)は、制御変数を絶対作用から残留作用に再構成する新しいフレームワークである。 ResWMはより安定的でエネルギー効率のよい行動軌跡を生み出す。
論文参考訳（メタデータ） (2026-03-11T11:27:08Z)
Walk through Paintings: Egocentric World Models from Internet Priors [65.30611174953958]
本稿では,エゴセントリック・ワールド・モデル(EgoWM)について述べる。我々は、スクラッチからトレーニングするよりも、インターネット規模のビデオモデルのリッチワールドを再利用し、軽量なコンディショニング層を通じてモーターコマンドを注入する。当社のアプローチは,3-DoF移動ロボットから25-DoFヒューマノイドまで,エボディメントやアクションスペースを自然に拡張する。
論文参考訳（メタデータ） (2026-01-21T18:59:32Z)
Aligning Agentic World Models via Knowledgeable Experience Learning [68.85843641222186]
環境フィードバックをシンセサイザー化したWorld Knowledge Repositoryを構築するフレームワークであるWorldMindを紹介する。 WorldMindは、優れたクロスモデルとクロス環境転送性を備えたベースラインよりも優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2026-01-19T17:33:31Z)
Semantic Belief-State World Model for 3D Human Motion Prediction [0.0]
本研究では,人間の動作予測を人体多様体上の潜在力学シミュレーションとして再構成するセマンティック・リーフ・ステート・ワールド・モデルを提案する。 SBWMは、モデルに基づく強化学習のために開発された信念状態の世界モデルにインスパイアされ、潜伏遷移とロールアウト中心のトレーニングを人間の動作領域に適用する。
論文参考訳（メタデータ） (2026-01-07T02:06:26Z)
Prismatic World Model: Learning Compositional Dynamics for Planning in Hybrid Systems [38.4555621948915]
Prismatic World Model (PRISM-WM) は複雑なハイブリッド力学を構成可能なプリミティブに分解するように設計されている。 PRISM-WMは系力学におけるシャープモード遷移を正確にモデル化することでロールアウトドリフトを著しく低減する。
論文参考訳（メタデータ） (2025-12-09T09:40:34Z)
Learning Primitive Embodied World Models: Towards Scalable Robotic Learning [50.32986780156215]
我々は,世界モデリングのための新しいパラダイム--Primitive Embodied World Models (PEWM)を提案する。ビデオ生成を固定的な短地平線に制限することにより,ロボット行動の言語概念と視覚的表現の微妙なアライメントを可能にする。我々のフレームワークは、きめ細かい物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
論文参考訳（メタデータ） (2025-08-28T14:31:48Z)
Latent Space Energy-based Neural ODEs [73.01344439786524]
本稿では,連続時間列を表現するために設計された新しい深部力学モデルを提案する。マルコフ連鎖モンテカルロの最大推定値を用いてモデルを訓練する。振動系, ビデオ, 実世界の状態系列(MuJoCo)の実験結果から, 学習可能なエネルギーベース先行モデルの方が既存のモデルより優れていることが示された。
論文参考訳（メタデータ） (2024-09-05T18:14:22Z)
SEGNO: Generalizing Equivariant Graph Neural Networks with Physical Inductive Biases [66.61789780666727]
等変性を維持しながら, 2階連続性をGNNに組み込む方法を示す。また、SEGNOに関する理論的知見も提供し、隣接する状態間の一意の軌跡を学習できることを強調している。我々のモデルは最先端のベースラインよりも大幅に改善されている。
論文参考訳（メタデータ） (2023-08-25T07:15:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。