Fugu-MT 論文翻訳(概要): Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models

論文の概要: Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models

arxiv url: http://arxiv.org/abs/2412.08619v2
Date: Mon, 10 Mar 2025 17:01:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:43.874609
Title: Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models
Title（参考訳）: 物理コンテキストビルダー:視覚言語モデルにおける物理推論のためのモジュラーフレームワーク
Authors: Vahid Balazadeh, Mohammadmehdi Ataei, Hyunmin Cheong, Amir Hosein Khasahmadi, Rahul G. Krishnan,
Abstract要約: 視覚言語モデル(VLM)における物理推論の課題ファインチューニングは大きなモデルでは高価であり、すべてのタスクで繰り返し実行できない。我々は,物理シーンの詳細な記述を生成するために,特殊なVLMを微調整した新しいモジュラーフレームワークであるPhysical Context Builders (PCBs)を紹介した。
参考スコア（独自算出の注目度）: 9.474337395173388
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Physical reasoning, which involves interpreting object behaviors within dynamic environments, remains a significant challenge for Vision-Language Models (VLMs). The limitations in physical reasoning arise from an inability to translate learned knowledge into predictions about physical behavior. We perform a careful study to show how continual fine-tuning can mitigate this issue. However, fine-tuning is expensive for large models and impractical to repeatedly perform for every task. This necessitates the creation of modular and scalable ways to teach VLMs about physical reasoning. To that end, we introduce Physics Context Builders (PCBs), a novel modular framework where specialized VLMs are fine-tuned to generate detailed physical scene descriptions. These can be used as physical contexts for larger VLMs to enhance their reasoning capabilities. PCBs enable the separation of visual perception from reasoning, allowing us to analyze their relative contributions to physical understanding. We perform careful experiments on CLEVRER and on Falling Tower, a stability detection dataset with both simulated and real-world scenes, to demonstrate that PCBs provide substantial performance improvements, increasing average accuracy by up to 13.8% on complex physical reasoning tasks. Notably, PCBs show strong Sim2Real transfer, successfully generalizing from simulated training data to real-world scenes. Our work demonstrates that enhancing visual perception through modular, simulation-trained components offers a practical approach to improving physical reasoning in VLMs, while providing insights into the factors affecting physical understanding in these models.
Abstract（参考訳）: 動的環境における物体の挙動を解釈する物理推論は、視覚言語モデル(VLM)にとって重要な課題である。物理的推論の限界は、学習した知識を物理的行動に関する予測に翻訳できないことから生じる。我々は、連続的な微調整がこの問題をいかに軽減できるかを示すために、慎重に研究を行う。しかし、大型モデルでは微調整が高価であり、全てのタスクで繰り返し実行できない。これは、物理的推論についてVLMを教えるモジュラーでスケーラブルな方法を作成する必要がある。そこで我々は,物理シーンの詳細な記述を生成するために,特殊なVLMを微調整した新しいモジュラーフレームワークであるPhysical Context Builders (PCBs)を紹介した。これらは、より大きなVLMの物理的コンテキストとして利用でき、推論能力を高めることができる。 PCBは、視覚知覚と推論の分離を可能にし、身体的理解に対する相対的な貢献を分析することができる。我々は、CLEVRERとFalling Towerにおいて、シミュレーションと実世界の両方のシーンで安定検出データセットを構築し、PCBが大幅な性能改善を提供し、複雑な物理的推論タスクにおいて平均精度を最大13.8%向上させることを示す。特に、PCBはSim2Realの強い転送を示し、シミュレートされたトレーニングデータから現実世界のシーンへの一般化に成功した。本研究は,VLMの物理的推論を改善するための実践的アプローチを提供するとともに,これらのモデルにおける物理的理解に影響を与える要因について考察する。

関連論文リスト

DeepPHY: Benchmarking Agentic VLMs on Physical Reasoning [23.41054475390841]
視覚言語モデル(VLM)は、強い知覚能力と印象的な視覚的推論を示す。複雑な動的環境において、細部と正確な行動計画に注意を払うのに苦労する。 DeepPHYは、現実世界のシナリオでこれらの機能を評価するために設計された、新しいベンチマークフレームワークである。我々の評価では、最先端のVLMでさえ、物理的知識を正確な予測制御に変換するのに苦労している。
論文参考訳（メタデータ） (2025-08-07T13:58:19Z)
Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation [90.00687889213991]
複雑な長距離ロボット操作問題を解決するには、高度な高レベルの計画能力が必要である。インターネット上で事前訓練された視覚言語モデル(VLM)は、原則としてそのような問題に対処するためのフレームワークを提供する。本稿では,多段階操作タスクにおけるVLMの物理推論能力を高める新しいテストタイムフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-23T20:42:15Z)
PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding [21.91860938879665]
視覚言語モデル(VLM)は、常識的推論において優れているが、物理世界を理解するのに苦労していることを示す。本稿では、VLMの一般化強度とビジョンモデルの専門知識を組み合わせたフレームワークであるPhysAgentを紹介する。以上の結果から,VLMの物理世界理解能力の向上は,Mokaなどのエージェントの具体化に有効であることが示唆された。
論文参考訳（メタデータ） (2025-01-27T18:59:58Z)
MAPS: Advancing Multi-Modal Reasoning in Expert-Level Physical Science [62.96434290874878]
現在のMLLM(Multi-Modal Large Language Models)は、一般的な視覚的推論タスクにおいて強力な機能を示している。我々は,MLLMに基づく物理知覚とシミュレーションによるマルチモーダル科学推論(MAPS)という新しいフレームワークを開発した。 MAPSは、専門家レベルのマルチモーダル推論タスクを物理的知覚モデル(PPM)を介して物理図理解に分解し、シミュレータを介して物理的知識で推論する。
論文参考訳（メタデータ） (2025-01-18T13:54:00Z)
LLMPhy: Complex Physical Reasoning Using Large Language Models and World Models [35.01842161084472]
そこで我々は,TraySimという物理推論タスクとデータセットを提案する。私たちのタスクは、外部の影響を受けるトレイ上のいくつかのオブジェクトのダイナミクスを予測することです。 LLMの物理知識とプログラム合成能力を活用するゼロショットブラックボックス最適化フレームワークであるLLMPhyを提案する。この結果から,LLMと物理エンジンの組み合わせにより,最先端のゼロショット物理推論性能が得られることがわかった。
論文参考訳（メタデータ） (2024-11-12T18:56:58Z)
In-Context Learning Improves Compositional Understanding of Vision-Language Models [2.762909189433944]
合成画像理解は、トレーニングデータに存在する物体バイアスのため、かなり難しい課題である。コントラストモデルと生成モデルを比較し、アーキテクチャの違い、事前学習データ、トレーニングタスクと損失を分析します。提案手法は,複数の構成的理解データセットにまたがるベースラインモデルより優れている。
論文参考訳（メタデータ） (2024-07-22T09:03:29Z)
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文参考訳（メタデータ） (2024-02-12T18:21:14Z)
ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文参考訳（メタデータ） (2024-02-09T01:09:21Z)
Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-09-08T17:49:44Z)
Physically Grounded Vision-Language Models for Robotic Manipulation [59.143640049407104]
39.6Kのクラウドソースと417Kの自動物理概念アノテーションからなるオブジェクト中心のデータセットであるPhysObjectsを提案する。本稿では,PhysObjects上での視覚言語モデルの微調整により,物理オブジェクト概念の理解が向上することを示す。我々は、この物理的基盤を持つVLMを、大規模言語モデルに基づくロボットプランナーと対話的なフレームワークに組み込む。
論文参考訳（メタデータ） (2023-09-05T20:21:03Z)
GPT-Based Models Meet Simulation: How to Efficiently Use Large-Scale Pre-Trained Language Models Across Simulation Tasks [0.0]
本稿では,科学シミュレーションにおける大規模事前学習言語モデルの利用に関する最初の研究である。最初の課題は参加者の関与を促進する概念モデルの構造を説明することである。第2のタスクはシミュレーション出力の要約に重点を置いており、モデルユーザーが望ましいシナリオを識別できるようにしている。第3の課題は、シミュレーションの可視化の洞察をテキストで伝えることによって、シミュレーションプラットフォームへのアクセシビリティの拡大を目指している。
論文参考訳（メタデータ） (2023-06-21T15:42:36Z)
Physics-informed machine learning for Structural Health Monitoring [0.0]
この章では、エンジニアがモデル化または評価しようとしている構造についてしばしば持つ物理的な洞察を考慮に入れたMLアルゴリズムを適用する、物理インフォームド機械学習の概念を紹介します。この章では、単純な物理モデルとデータ駆動モデルを組み合わせたグレーボックスモデルによって、SHM設定における予測能力が向上することを示す。 SHMアプリケーションは、オフショアや航空宇宙構造物の負荷監視タスクから、ロングスパンブリッジのパフォーマンス監視まで、幅広いアプリケーションがデモされる。
論文参考訳（メタデータ） (2022-06-30T14:16:33Z)
Dynamic Visual Reasoning by Learning Differentiable Physics Models from Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文参考訳（メタデータ） (2021-10-28T17:59:13Z)
Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文参考訳（メタデータ） (2020-04-28T17:06:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。