論文の概要: PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding
- arxiv url: http://arxiv.org/abs/2501.16411v2
- Date: Wed, 29 Jan 2025 03:52:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 12:31:39.411801
- Title: PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding
- Title(参考訳): PhysBench:物理世界理解のためのビジョンランゲージモデルのベンチマークと強化
- Authors: Wei Chow, Jiageng Mao, Boyi Li, Daniel Seita, Vitor Guizilini, Yue Wang,
- Abstract要約: 視覚言語モデル(VLM)は、常識的推論において優れているが、物理世界を理解するのに苦労していることを示す。
本稿では、VLMの一般化強度とビジョンモデルの専門知識を組み合わせたフレームワークであるPhysAgentを紹介する。
以上の結果から,VLMの物理世界理解能力の向上は,Mokaなどのエージェントの具体化に有効であることが示唆された。
- 参考スコア(独自算出の注目度): 21.91860938879665
- License:
- Abstract: Understanding the physical world is a fundamental challenge in embodied AI, critical for enabling agents to perform complex tasks and operate safely in real-world environments. While Vision-Language Models (VLMs) have shown great promise in reasoning and task planning for embodied agents, their ability to comprehend physical phenomena remains extremely limited. To close this gap, we introduce PhysBench, a comprehensive benchmark designed to evaluate VLMs' physical world understanding capability across a diverse set of tasks. PhysBench contains 10,002 entries of interleaved video-image-text data, categorized into four major domains: physical object properties, physical object relationships, physical scene understanding, and physics-based dynamics, further divided into 19 subclasses and 8 distinct capability dimensions. Our extensive experiments, conducted on 75 representative VLMs, reveal that while these models excel in common-sense reasoning, they struggle with understanding the physical world -- likely due to the absence of physical knowledge in their training data and the lack of embedded physical priors. To tackle the shortfall, we introduce PhysAgent, a novel framework that combines the generalization strengths of VLMs with the specialized expertise of vision models, significantly enhancing VLMs' physical understanding across a variety of tasks, including an 18.4\% improvement on GPT-4o. Furthermore, our results demonstrate that enhancing VLMs' physical world understanding capabilities can help embodied agents such as MOKA. We believe that PhysBench and PhysAgent offer valuable insights and contribute to bridging the gap between VLMs and physical world understanding.
- Abstract(参考訳): 物理的な世界を理解することは、エージェントが複雑なタスクを実行し、現実世界の環境で安全に操作できるように、AIを具現化するための根本的な課題である。
VLM(Vision-Language Models)は、エンボディエージェントの推論とタスクプランニングにおいて大きな可能性を示してきたが、物理現象を理解する能力は依然として極めて限られている。
このギャップを埋めるために,VLMの物理世界理解能力を評価するための総合的なベンチマークであるPhysBenchを紹介する。
PhysBenchは、インターリーブされたビデオ画像テキストデータの10,002エントリを、物理的オブジェクトプロパティ、物理的オブジェクトの関係、物理的シーン理解、物理に基づくダイナミクスの4つの主要なドメインに分類し、さらに19のサブクラスと8つの異なる能力次元に分けられる。
75個のVLMで実施した大規模な実験では、これらのモデルは常識的推論において優れているが、物理的な世界を理解するのに苦労していることが判明した。
この欠点に対処するため、我々は、VLMの一般化強度とビジョンモデルの専門知識を組み合わせた新しいフレームワークであるPhysAgentを紹介し、GPT-4oの18.4倍の改善を含む様々なタスクにおけるVLMの物理的理解を著しく向上させる。
さらに,VLMの物理世界理解能力の向上が,Mokaなどのエージェントの具体化に有効であることを示す。
我々はPhysBenchとPhysAgentが価値ある洞察を提供し、VLMと物理世界理解のギャップを埋めることに貢献していると考えている。
関連論文リスト
- LLMPhy: Complex Physical Reasoning Using Large Language Models and World Models [35.01842161084472]
そこで我々は,TraySimという物理推論タスクとデータセットを提案する。
私たちのタスクは、外部の影響を受けるトレイ上のいくつかのオブジェクトのダイナミクスを予測することです。
LLMの物理知識とプログラム合成能力を活用するゼロショットブラックボックス最適化フレームワークであるLLMPhyを提案する。
この結果から,LLMと物理エンジンの組み合わせにより,最先端のゼロショット物理推論性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-12T18:56:58Z) - Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文 参考訳(メタデータ) (2024-10-07T17:56:04Z) - Technique Report of CVPR 2024 PBDL Challenges [211.79824163599872]
物理に基づくビジョンは、画像から形状、反射率、光の分布、中性などのシーン特性を復元する過程を反転させることを目的としている。
深層学習は様々な視覚タスクに対して有望な改善を示しており、物理に基づく視覚と組み合わせることで、これらのアプローチは視覚システムの堅牢性と精度を高めることができる。
CVPR 2024ワークショップで行われたPBDL 2024チャレンジの結果を要約する。
論文 参考訳(メタデータ) (2024-06-15T21:44:17Z) - ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。
私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。
また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文 参考訳(メタデータ) (2024-02-09T01:09:21Z) - Penetrative AI: Making LLMs Comprehend the Physical World [3.0266193917041306]
大きな言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示しています。
本稿は,IoTセンサとアクチュエータを用いて,LLMを物理的世界と相互作用し,推論するために拡張する方法について検討する。
論文 参考訳(メタデータ) (2023-10-14T15:48:15Z) - Physically Grounded Vision-Language Models for Robotic Manipulation [59.143640049407104]
39.6Kのクラウドソースと417Kの自動物理概念アノテーションからなるオブジェクト中心のデータセットであるPhysObjectsを提案する。
本稿では,PhysObjects上での視覚言語モデルの微調整により,物理オブジェクト概念の理解が向上することを示す。
我々は、この物理的基盤を持つVLMを、大規模言語モデルに基づくロボットプランナーと対話的なフレームワークに組み込む。
論文 参考訳(メタデータ) (2023-09-05T20:21:03Z) - Intrinsic Physical Concepts Discovery with Object-Centric Predictive
Models [86.25460882547581]
PHYsical Concepts Inference NEtwork (PHYCINE) は、異なる抽象レベルの物理概念を監督なしで推論するシステムである。
物理概念変数を含むオブジェクト表現は因果推論タスクの性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-03-03T11:52:21Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。