論文の概要: PhysVLM: Enabling Visual Language Models to Understand Robotic Physical Reachability
- arxiv url: http://arxiv.org/abs/2503.08481v2
- Date: Thu, 13 Mar 2025 11:19:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 12:08:56.731734
- Title: PhysVLM: Enabling Visual Language Models to Understand Robotic Physical Reachability
- Title(参考訳): PhysVLM:ロボットの物理的到達性を理解するための視覚言語モデルの構築
- Authors: Weijie Zhou, Manli Tao, Chaoyang Zhao, Haiyun Guo, Honghui Dong, Ming Tang, Jinqiao Wang,
- Abstract要約: 本研究では,多種多様なロボット,すなわち空間物理到達可能性マップ(S-Pマップ)間での物理的な到達可能性の統一表現を提案する。
PhysVLMは、この到達可能性情報を視覚的推論に統合する視覚言語モデルである。
- 参考スコア(独自算出の注目度): 31.532470258146073
- License:
- Abstract: Understanding the environment and a robot's physical reachability is crucial for task execution. While state-of-the-art vision-language models (VLMs) excel in environmental perception, they often generate inaccurate or impractical responses in embodied visual reasoning tasks due to a lack of understanding of robotic physical reachability. To address this issue, we propose a unified representation of physical reachability across diverse robots, i.e., Space-Physical Reachability Map (S-P Map), and PhysVLM, a vision-language model that integrates this reachability information into visual reasoning. Specifically, the S-P Map abstracts a robot's physical reachability into a generalized spatial representation, independent of specific robot configurations, allowing the model to focus on reachability features rather than robot-specific parameters. Subsequently, PhysVLM extends traditional VLM architectures by incorporating an additional feature encoder to process the S-P Map, enabling the model to reason about physical reachability without compromising its general vision-language capabilities. To train and evaluate PhysVLM, we constructed a large-scale multi-robot dataset, Phys100K, and a challenging benchmark, EQA-phys, which includes tasks for six different robots in both simulated and real-world environments. Experimental results demonstrate that PhysVLM outperforms existing models, achieving a 14\% improvement over GPT-4o on EQA-phys and surpassing advanced embodied VLMs such as RoboMamba and SpatialVLM on the RoboVQA-val and OpenEQA benchmarks. Additionally, the S-P Map shows strong compatibility with various VLMs, and its integration into GPT-4o-mini yields a 7.1\% performance improvement.
- Abstract(参考訳): タスク実行には,環境とロボットの身体的到達性を理解することが不可欠である。
最先端の視覚言語モデル(VLM)は、環境認識において優れているが、ロボットの物理的到達性の理解の欠如により、具体化された視覚推論タスクにおいて、不正確または非現実的な応答を生じることが多い。
この問題に対処するために,多種多様なロボット,すなわちS-Pマップ(Space-Physical Reachability Map)とPhysVLM(PhysVLM)にまたがる物理到達可能性の統一表現を提案する。
具体的には、S-Pマップは、ロボットの物理的到達可能性を、特定のロボット構成とは独立して一般化された空間表現に抽象化し、ロボット固有のパラメータではなく、到達性機能にフォーカスできるようにする。
その後、PhysVLMはS-Pマップを処理するために追加の機能エンコーダを組み込むことで従来のVLMアーキテクチャを拡張した。
PhysVLMをトレーニングし評価するために、大規模なマルチロボットデータセットであるPhys100Kと、シミュレーションと実環境の両方において6つの異なるロボットのためのタスクを含む挑戦的なベンチマークであるEQA-physを構築した。
実験の結果、PhysVLMは既存のモデルよりも優れており、EQA-phys上ではGPT-4oよりも146%向上し、RoboVQA-valやOpenEQAベンチマークではRoboMambaやSpatialVLMといった先進的なVLMを上回っていることがわかった。
さらに、S-Pマップは様々なVLMとの互換性が強く、GPT-4o-miniへの統合によりパフォーマンスは7.1\%向上した。
関連論文リスト
- PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding [21.91860938879665]
視覚言語モデル(VLM)は、常識的推論において優れているが、物理世界を理解するのに苦労していることを示す。
本稿では、VLMの一般化強度とビジョンモデルの専門知識を組み合わせたフレームワークであるPhysAgentを紹介する。
以上の結果から,VLMの物理世界理解能力の向上は,Mokaなどのエージェントの具体化に有効であることが示唆された。
論文 参考訳(メタデータ) (2025-01-27T18:59:58Z) - TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。
我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。
4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:40:51Z) - Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models [9.474337395173388]
視覚言語モデル(VLM)における物理推論の課題
ファインチューニングは大きなモデルでは高価であり、すべてのタスクで繰り返し実行できない。
我々は,物理シーンの詳細な記述を生成するために,特殊なVLMを微調整した新しいモジュラーフレームワークであるPhysical Context Builders (PCBs)を紹介した。
論文 参考訳(メタデータ) (2024-12-11T18:40:16Z) - Identifying Terrain Physical Parameters from Vision -- Towards Physical-Parameter-Aware Locomotion and Navigation [33.10872127224328]
視覚に基づく環境パラメータ推定のためのクロスモーダルな自己教師型学習フレームワークを提案する。
我々は物理デコーダをシミュレーションで訓練し、マルチモーダル入力から摩擦と剛性を予測した。
トレーニングされたネットワークは、物理的なパラメータを持つ現実世界のイメージのラベル付けを可能にし、デプロイ中にビジュアルネットワークをさらにトレーニングする。
論文 参考訳(メタデータ) (2024-08-29T14:35:14Z) - PhyGrasp: Generalizing Robotic Grasping with Physics-informed Large
Multimodal Models [58.33913881592706]
人間は、自分の直感的な物理学を巧みに把握し、これまで見たことのない物体であっても、効率的に把握を変更できる。
この研究は、そのような物理的常識的推論をロボット操作に注入することに注力している。
自然言語と3次元点雲の2つのモードからの入力を利用するマルチモーダル大モデルであるPhyGraspを紹介する。
論文 参考訳(メタデータ) (2024-02-26T18:57:52Z) - ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。
私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。
また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文 参考訳(メタデータ) (2024-02-09T01:09:21Z) - DiffuseBot: Breeding Soft Robots With Physics-Augmented Generative
Diffusion Models [102.13968267347553]
本稿では,様々なタスクにおいて優れたソフトロボット形態を生成する物理拡張拡散モデルであるDiffuseBotを提案する。
我々は、その能力とともに、シミュレーションされた、そして製造された様々なロボットを紹介します。
論文 参考訳(メタデータ) (2023-11-28T18:58:48Z) - Physically Grounded Vision-Language Models for Robotic Manipulation [59.143640049407104]
39.6Kのクラウドソースと417Kの自動物理概念アノテーションからなるオブジェクト中心のデータセットであるPhysObjectsを提案する。
本稿では,PhysObjects上での視覚言語モデルの微調整により,物理オブジェクト概念の理解が向上することを示す。
我々は、この物理的基盤を持つVLMを、大規模言語モデルに基づくロボットプランナーと対話的なフレームワークに組み込む。
論文 参考訳(メタデータ) (2023-09-05T20:21:03Z) - SAPIEN: A SimulAted Part-based Interactive ENvironment [77.4739790629284]
SAPIENは現実的で物理に富んだシミュレートされた環境であり、音声オブジェクトのための大規模なセットをホストしている。
部品検出と動作特性認識のための最先端の視覚アルゴリズムの評価を行い,ロボットインタラクションタスクの実証を行った。
論文 参考訳(メタデータ) (2020-03-19T00:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。