論文の概要: Learning Physical Principles from Interaction: Self-Evolving Planning via Test-Time Memory
- arxiv url: http://arxiv.org/abs/2602.20323v1
- Date: Mon, 23 Feb 2026 20:18:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.513546
- Title: Learning Physical Principles from Interaction: Self-Evolving Planning via Test-Time Memory
- Title(参考訳): 相互作用から物理原理を学ぶ:テスト時間記憶による自己進化計画
- Authors: Haoyang Li, Yang You, Hao Su, Leonidas Guibas,
- Abstract要約: 視覚言語モデル(VLM)は、一般に摩擦と安定性を推論することができる。
本稿では、VLMロボットプランナがテスト時のインタラクションから物理原理を学習できるようにするためのメモリフレームワークであるPhysMemを紹介する。
- 参考スコア(独自算出の注目度): 28.574363246822227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable object manipulation requires understanding physical properties that vary across objects and environments. Vision-language model (VLM) planners can reason about friction and stability in general terms; however, they often cannot predict how a specific ball will roll on a particular surface or which stone will provide a stable foundation without direct experience. We present PhysMem, a memory framework that enables VLM robot planners to learn physical principles from interaction at test time, without updating model parameters. The system records experiences, generates candidate hypotheses, and verifies them through targeted interaction before promoting validated knowledge to guide future decisions. A central design choice is verification before application: the system tests hypotheses against new observations rather than applying retrieved experience directly, reducing rigid reliance on prior experience when physical conditions change. We evaluate PhysMem on three real-world manipulation tasks and simulation benchmarks across four VLM backbones. On a controlled brick insertion task, principled abstraction achieves 76% success compared to 23% for direct experience retrieval, and real-world experiments show consistent improvement over 30-minute deployment sessions.
- Abstract(参考訳): 信頼性のあるオブジェクト操作は、オブジェクトや環境によって異なる物理的特性を理解する必要がある。
視覚言語モデル(VLM)のプランナーは、一般に摩擦と安定性について推論することができるが、特定のボールが特定の表面にどのように転がるか、どの石が直接経験なしで安定した基礎を提供するかを予測できないことが多い。
本稿では,VLMロボットプランナがモデルパラメータを更新することなく,テスト時のインタラクションから物理原理を学習できるメモリフレームワークPhysMemを提案する。
システムは、経験を記録し、仮説を生成し、対象とする相互作用を通じて検証し、検証された知識を推進し、将来の決定を導く。
システムは、取得した経験を直接適用するのではなく、新しい観察に対する仮説を仮定し、物理的条件が変化する前の経験への厳格な依存を減らす。
我々は、4つのVLMバックボーンにまたがる3つの実世界の操作タスクとシミュレーションベンチマークについてPhysMemを評価する。
制御されたブロック挿入タスクでは、原則化された抽象化が76%の成功を達成し、直接体験検索では23%が成功し、実世界の実験では30分間のデプロイメントセッションで一貫した改善が見られた。
関連論文リスト
- Do-Undo: Generating and Reversing Physical Actions in Vision-Language Models [57.71440995598757]
我々は,視覚言語モデルにおける重要なギャップに対処するために,Do-Undoタスクとベンチマークを導入する。
Do-Undoは、物理的な行動の結果をシミュレートし、それを正確に反転させるモデルを必要とし、視覚の世界における真の原因と効果を反映している。
論文 参考訳(メタデータ) (2025-12-15T18:03:42Z) - SIMPACT: Simulation-Enabled Action Planning using Vision-Language Models [60.80050275581661]
VLM(Vision-Language Models)は、目覚しい常識と意味論的推論能力を示す。
物理力学に関する基礎的な理解は欠如している。
テストタイムでシミュレーション可能な ACTion Planning フレームワークである S を提案する。
本手法は,5つの難易度,実世界の剛体および変形可能な操作課題に対して,最先端の性能を示す。
論文 参考訳(メタデータ) (2025-12-05T18:51:03Z) - Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation [17.786858357661604]
Phys2Realは、視覚言語モデル(VLM)を推論した物理パラメータ推定と、不確実性を考慮した融合による対話的適応を組み合わせた、リアルからシミュレート・トゥ・リアルなRLパイプラインである。
提案手法は,(1)3次元ガウススプラッティングによる高忠実度幾何再構成,(2)物理パラメータによるVLM推定,(3)相互作用データからのオンライン物理パラメータ推定の3要素からなる。
論文 参考訳(メタデータ) (2025-10-13T17:51:23Z) - From Physics to Machine Learning and Back: Part II - Learning and Observational Bias in PHM [52.64097278841485]
物理インフォームドモデリングとデータストラテジーによる学習と観察バイアスの導入は、モデルを物理的に一貫した信頼性のある予測へと導くことができるかを検討する。
メタラーニングや少数ショットラーニングなどの高速適応手法をドメイン一般化手法とともに検討する。
論文 参考訳(メタデータ) (2025-09-25T14:15:43Z) - PhysGym: Benchmarking LLMs in Interactive Physics Discovery with Controlled Priors [29.988641224102164]
textscPhysGymは、LSMベースの科学的推論を厳格に評価するための、新しいベンチマークスイートとシミュレーションプラットフォームである。
textscPhysGymの主な貢献は、エージェントに提供された事前知識のレベルを高度に制御することにある。
論文 参考訳(メタデータ) (2025-07-21T12:28:10Z) - Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。
データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。
本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文 参考訳(メタデータ) (2025-05-23T03:28:25Z) - APEX: Empowering LLMs with Physics-Based Task Planning for Real-time Insight [5.553693338042919]
APEX(Anticipatory Physics-Enhanced Execution)は、大規模言語モデルに物理駆動型フォレストを組み、リアルタイムタスク計画のためのフレームワークである。
APEX は標準の LLM や VLM ベースのモデルを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-20T04:34:58Z) - Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models [11.282655911647483]
視覚言語モデル(VLM)における物理推論の課題
物理コンテキストビルダー(PCB)は,物理シーンの詳細な記述を生成するために,より小型のVLMを微調整したモジュラーフレームワークである。
PCBは、視覚知覚と推論の分離を可能にし、身体的理解に対する相対的な貢献を分析することができる。
論文 参考訳(メタデータ) (2024-12-11T18:40:16Z) - SimLM: Can Language Models Infer Parameters of Physical Systems? [56.38608628187024]
物理系におけるパラメータ推論におけるLarge Language Models (LLM) の性能について検討する。
実験の結果,単純なシステムであっても,本課題には適していないことが示唆された。
物理シミュレータを用いてLLMのコンテキストを拡大する探索の有望な方向を提案する。
論文 参考訳(メタデータ) (2023-12-21T12:05:19Z) - Which priors matter? Benchmarking models for learning latent dynamics [70.88999063639146]
古典力学の先行概念を機械学習モデルに統合する手法が提案されている。
これらのモデルの現在の機能について、精査する。
連続的および時間的可逆的ダイナミクスの使用は、すべてのクラスのモデルに恩恵をもたらす。
論文 参考訳(メタデータ) (2021-11-09T23:48:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。