論文の概要: Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2412.08619v2
- Date: Mon, 10 Mar 2025 17:01:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:40:30.990459
- Title: Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models
- Title(参考訳): 物理コンテキストビルダー:視覚言語モデルにおける物理推論のためのモジュラーフレームワーク
- Authors: Vahid Balazadeh, Mohammadmehdi Ataei, Hyunmin Cheong, Amir Hosein Khasahmadi, Rahul G. Krishnan,
- Abstract要約: 視覚言語モデル(VLM)における物理推論の課題
ファインチューニングは大きなモデルでは高価であり、すべてのタスクで繰り返し実行できない。
我々は,物理シーンの詳細な記述を生成するために,特殊なVLMを微調整した新しいモジュラーフレームワークであるPhysical Context Builders (PCBs)を紹介した。
- 参考スコア(独自算出の注目度): 9.474337395173388
- License:
- Abstract: Physical reasoning, which involves interpreting object behaviors within dynamic environments, remains a significant challenge for Vision-Language Models (VLMs). The limitations in physical reasoning arise from an inability to translate learned knowledge into predictions about physical behavior. We perform a careful study to show how continual fine-tuning can mitigate this issue. However, fine-tuning is expensive for large models and impractical to repeatedly perform for every task. This necessitates the creation of modular and scalable ways to teach VLMs about physical reasoning. To that end, we introduce Physics Context Builders (PCBs), a novel modular framework where specialized VLMs are fine-tuned to generate detailed physical scene descriptions. These can be used as physical contexts for larger VLMs to enhance their reasoning capabilities. PCBs enable the separation of visual perception from reasoning, allowing us to analyze their relative contributions to physical understanding. We perform careful experiments on CLEVRER and on Falling Tower, a stability detection dataset with both simulated and real-world scenes, to demonstrate that PCBs provide substantial performance improvements, increasing average accuracy by up to 13.8% on complex physical reasoning tasks. Notably, PCBs show strong Sim2Real transfer, successfully generalizing from simulated training data to real-world scenes. Our work demonstrates that enhancing visual perception through modular, simulation-trained components offers a practical approach to improving physical reasoning in VLMs, while providing insights into the factors affecting physical understanding in these models.
- Abstract(参考訳): 動的環境における物体の挙動を解釈する物理推論は、視覚言語モデル(VLM)にとって重要な課題である。
物理的推論の限界は、学習した知識を物理的行動に関する予測に翻訳できないことから生じる。
我々は、連続的な微調整がこの問題をいかに軽減できるかを示すために、慎重に研究を行う。
しかし、大型モデルでは微調整が高価であり、全てのタスクで繰り返し実行できない。
これは、物理的推論についてVLMを教えるモジュラーでスケーラブルな方法を作成する必要がある。
そこで我々は,物理シーンの詳細な記述を生成するために,特殊なVLMを微調整した新しいモジュラーフレームワークであるPhysical Context Builders (PCBs)を紹介した。
これらは、より大きなVLMの物理的コンテキストとして利用でき、推論能力を高めることができる。
PCBは、視覚知覚と推論の分離を可能にし、身体的理解に対する相対的な貢献を分析することができる。
我々は、CLEVRERとFalling Towerにおいて、シミュレーションと実世界の両方のシーンで安定検出データセットを構築し、PCBが大幅な性能改善を提供し、複雑な物理的推論タスクにおいて平均精度を最大13.8%向上させることを示す。
特に、PCBはSim2Realの強い転送を示し、シミュレートされたトレーニングデータから現実世界のシーンへの一般化に成功した。
本研究は,VLMの物理的推論を改善するための実践的アプローチを提供するとともに,これらのモデルにおける物理的理解に影響を与える要因について考察する。
関連論文リスト
- MAPS: Advancing Multi-Modal Reasoning in Expert-Level Physical Science [62.96434290874878]
現在のMLLM(Multi-Modal Large Language Models)は、一般的な視覚的推論タスクにおいて強力な機能を示している。
我々は,MLLMに基づく物理知覚とシミュレーションによるマルチモーダル科学推論(MAPS)という新しいフレームワークを開発した。
MAPSは、専門家レベルのマルチモーダル推論タスクを物理的知覚モデル(PPM)を介して物理図理解に分解し、シミュレータを介して物理的知識で推論する。
論文 参考訳(メタデータ) (2025-01-18T13:54:00Z) - LLMPhy: Complex Physical Reasoning Using Large Language Models and World Models [35.01842161084472]
そこで我々は,TraySimという物理推論タスクとデータセットを提案する。
私たちのタスクは、外部の影響を受けるトレイ上のいくつかのオブジェクトのダイナミクスを予測することです。
LLMの物理知識とプログラム合成能力を活用するゼロショットブラックボックス最適化フレームワークであるLLMPhyを提案する。
この結果から,LLMと物理エンジンの組み合わせにより,最先端のゼロショット物理推論性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-12T18:56:58Z) - In-Context Learning Improves Compositional Understanding of Vision-Language Models [2.762909189433944]
合成画像理解は、トレーニングデータに存在する物体バイアスのため、かなり難しい課題である。
コントラストモデルと生成モデルを比較し、アーキテクチャの違い、事前学習データ、トレーニングタスクと損失を分析します。
提案手法は,複数の構成的理解データセットにまたがるベースラインモデルより優れている。
論文 参考訳(メタデータ) (2024-07-22T09:03:29Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。
私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。
また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文 参考訳(メタデータ) (2024-02-09T01:09:21Z) - SimLM: Can Language Models Infer Parameters of Physical Systems? [56.38608628187024]
物理系におけるパラメータ推論におけるLarge Language Models (LLM) の性能について検討する。
実験の結果,単純なシステムであっても,本課題には適していないことが示唆された。
物理シミュレータを用いてLLMのコンテキストを拡大する探索の有望な方向を提案する。
論文 参考訳(メタデータ) (2023-12-21T12:05:19Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - GPT-Based Models Meet Simulation: How to Efficiently Use Large-Scale
Pre-Trained Language Models Across Simulation Tasks [0.0]
本稿では,科学シミュレーションにおける大規模事前学習言語モデルの利用に関する最初の研究である。
最初の課題は参加者の関与を促進する概念モデルの構造を説明することである。
第2のタスクはシミュレーション出力の要約に重点を置いており、モデルユーザーが望ましいシナリオを識別できるようにしている。
第3の課題は、シミュレーションの可視化の洞察をテキストで伝えることによって、シミュレーションプラットフォームへのアクセシビリティの拡大を目指している。
論文 参考訳(メタデータ) (2023-06-21T15:42:36Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。