論文の概要: VisionLaw: Inferring Interpretable Intrinsic Dynamics from Visual Observations via Bilevel Optimization
- arxiv url: http://arxiv.org/abs/2508.13792v1
- Date: Tue, 19 Aug 2025 12:52:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.921978
- Title: VisionLaw: Inferring Interpretable Intrinsic Dynamics from Visual Observations via Bilevel Optimization
- Title(参考訳): VisionLaw: 双方向最適化による視覚観測から解釈可能な固有ダイナミクスを推定する
- Authors: Jailing Lin, Shu Jiang, Qingyuan Zeng, Zhenzhong Wang, Min Jiang,
- Abstract要約: VisionLawは、視覚的な観察から固有の力学の解釈可能な表現を推論する二段階最適化フレームワークである。
既存の最先端手法を著しく上回り、新しいシナリオにおける対話型シミュレーションの強力な一般化を示す。
- 参考スコア(独自算出の注目度): 3.131272328696594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The intrinsic dynamics of an object governs its physical behavior in the real world, playing a critical role in enabling physically plausible interactive simulation with 3D assets. Existing methods have attempted to infer the intrinsic dynamics of objects from visual observations, but generally face two major challenges: one line of work relies on manually defined constitutive priors, making it difficult to generalize to complex scenarios; the other models intrinsic dynamics using neural networks, resulting in limited interpretability and poor generalization. To address these challenges, we propose VisionLaw, a bilevel optimization framework that infers interpretable expressions of intrinsic dynamics from visual observations. At the upper level, we introduce an LLMs-driven decoupled constitutive evolution strategy, where LLMs are prompted as a knowledgeable physics expert to generate and revise constitutive laws, with a built-in decoupling mechanism that substantially reduces the search complexity of LLMs. At the lower level, we introduce a vision-guided constitutive evaluation mechanism, which utilizes visual simulation to evaluate the consistency between the generated constitutive law and the underlying intrinsic dynamics, thereby guiding the upper-level evolution. Experiments on both synthetic and real-world datasets demonstrate that VisionLaw can effectively infer interpretable intrinsic dynamics from visual observations. It significantly outperforms existing state-of-the-art methods and exhibits strong generalization for interactive simulation in novel scenarios.
- Abstract(参考訳): オブジェクトの本質的なダイナミクスは、現実世界における物理的な振る舞いを制御し、3Dアセットによる物理的に妥当なインタラクティブなシミュレーションを可能にする上で重要な役割を担っている。
既存の手法では、視覚的な観察から対象の本質的なダイナミクスを推測しようと試みているが、一般的には2つの大きな課題に直面している: 1行の作業は手作業で定義された構成的事前に依存し、複雑なシナリオに一般化することが困難である。
これらの課題に対処するため、視覚観測から固有力学の解釈可能な表現を推論する二段階最適化フレームワークVisionLawを提案する。
上層部では、LLMの探索複雑性を著しく低減する組込みデカップリング機構を用いて、LLMを知識のある物理専門家として推し進め、構成法則を生成・修正する構成進化戦略を導入する。
下層では、視覚シミュレーションを利用して、生成した構成則と基礎となる固有力学の整合性を評価し、上層階の進化を導く視覚誘導構成評価機構を導入する。
合成データセットと実世界のデータセットの両方の実験により、VisionLawは視覚観察から解釈可能な固有ダイナミクスを効果的に推論できることが示されている。
既存の最先端手法を著しく上回り、新しいシナリオにおける対話型シミュレーションの強力な一般化を示す。
関連論文リスト
- Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。
データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。
本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文 参考訳(メタデータ) (2025-05-23T03:28:25Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - ViRAC: A Vision-Reasoning Agent Head Movement Control Framework in Arbitrary Virtual Environments [0.13654846342364302]
本稿では,大規模モデルの常識的知識と推論能力を活用するViRACを提案する。
ViRACは最近の最先端技術よりも自然でコンテキスト対応の頭部回転を生成する。
論文 参考訳(メタデータ) (2025-02-14T09:46:43Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity [51.40558987254471]
強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多い。
本稿では,統計的・アルゴリズム的な観点から,textit General$ latent dynamicsの下での強化学習の課題に対処する。
論文 参考訳(メタデータ) (2024-10-23T14:22:49Z) - Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - Understanding Physical Dynamics with Counterfactual World Modeling [10.453874628135294]
我々は、動的理解のための視覚構造抽出にCWM(Counterfactual World Modeling)を用いる。
CWMは、アノテーションなしでビデオデータのマスキング予測に時間分解マスキングポリシーを使用する。
これらの構造は物理力学の理解に有用であることを示し、CWMがPhilonベンチマークの最先端性能を達成できることを示した。
論文 参考訳(メタデータ) (2023-12-11T03:07:25Z) - Robust and Controllable Object-Centric Learning through Energy-based
Models [95.68748828339059]
我々の研究は概念的にシンプルで一般的なアプローチであり、エネルギーベースモデルを通してオブジェクト中心の表現を学習する。
既存のアーキテクチャに容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。