論文の概要: Bridge Thinking and Acting: Unleashing Physical Potential of VLM with Generalizable Action Expert
- arxiv url: http://arxiv.org/abs/2510.03896v1
- Date: Sat, 04 Oct 2025 18:33:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.327082
- Title: Bridge Thinking and Acting: Unleashing Physical Potential of VLM with Generalizable Action Expert
- Title(参考訳): 橋梁の思考と行動 : 汎用アクションエキスパートによるVLMの物理的可能性
- Authors: Mingyu Liu, Zheng Huang, Xiaoyi Lin, Muzhi Zhu, Canyu Zhao, Zongze Du, Yating Wang, Haoyi Zhu, Hao Chen, Chunhua Shen,
- Abstract要約: VLM(Vision-Language Models)は、優れた計画と推論能力を示している。
最近の二重系アプローチは「思考」と「行動」を分離しようとする
一般化可能なアクションエキスパートを中心としたフレームワークを紹介します。
- 参考スコア(独自算出の注目度): 60.88976842557026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Vision-Language Models (VLM) have demonstrated impressive planning and reasoning capabilities, translating these abilities into the physical world introduces significant challenges. Conventional Vision-Language-Action (VLA) models, which integrate reasoning and action into a monolithic architecture, generalize poorly because they are constrained by scarce, narrow-domain data. While recent dual-system approaches attempt to decouple "thinking" from "acting", they are often constrained by semantic ambiguities within the action module. This ambiguity makes large-scale, cross-task training infeasible. Consequently, these systems typically necessitate fine-tuning on newly collected data when deployed to novel environments, and the cooperation mechanism between the two systems remains ill-defined. To address these limitations, we introduce, for the first time, a framework centered around a generalizable action expert. Our approach utilizes sparse 3D trajectories as an intermediate representation, effectively bridging the high-level planning capabilities of the VLM with the low-level physical action module. During the planning phase, the VLM is only required to generate coarse 3D waypoints. These waypoints are then processed by our generalizable action expert, which refines them into dense, executable action sequences by sampling real-time point cloud observations of the environment. To promote training efficiency and robust generalization, we introduce a novel "Action Pre-training, Pointcloud Fine-tuning" paradigm. Our method combines the broad generalization capabilities of VLMs in visual understanding and planning with the fine-grained, action-level generalization of action expert.
- Abstract(参考訳): VLM(Vision-Language Models)は、優れた計画と推論能力を示してきたが、これらの能力を物理的な世界に翻訳することは、大きな課題をもたらす。
論理とアクションをモノリシックなアーキテクチャに統合する従来のビジョン・ランゲージ・アクション(VLA)モデルは、希少で狭いドメインデータに制約されているため、一般化が不十分である。
最近のデュアルシステムアプローチでは「思考」と「行動」を分離しようとするが、アクションモジュール内の意味的曖昧さによって制約されることが多い。
この曖昧さは、大規模でクロスタスクなトレーニングを可能にする。
その結果、これらのシステムは通常、新しい環境にデプロイする際には、新たに収集したデータの微調整を必要とし、両者の協調メカニズムは未定義のままである。
これらの制限に対処するために、私たちは初めて、一般化可能なアクションエキスパートを中心としたフレームワークを紹介します。
提案手法はスパース3次元軌道を中間表現として利用し,低レベル物理動作モジュールによるVLMの高レベル計画能力を効果的に橋渡しする。
計画段階では、VLMは粗い3Dウェイポイントを生成するためにのみ必要となる。
これらの経路ポイントは、我々の一般化可能なアクションエキスパートによって処理され、環境のリアルタイムな点雲観測をサンプリングすることで、それらを高密度で実行可能なアクションシーケンスに洗練する。
トレーニング効率とロバストな一般化を促進するため,我々は新しい「Action Pre-training, Pointcloud Fine-tuning」パラダイムを導入する。
本手法は,視覚的理解と計画におけるVLMの広範な一般化能力と,アクションエキスパートの詳細なアクションレベル一般化とを組み合わせたものである。
関連論文リスト
- Seeing Space and Motion: Enhancing Latent Actions with Spatial and Dynamic Awareness for VLA [21.362682837521632]
Latent Action Models (LAMs) は、視覚言語制御システムにおいて、大規模な無注釈データからセマンティック・アクション・リセプションを学習することを可能にする。
Farsighted-LAMを提案する。これは幾何学的空間符号化とマルチスケール時間的モデリングを備えた潜在アクションフレームワークである。
さらに,Farsighted-LAM上に構築されたエンドツーエンドVLAフレームワークであるSSM-VLAを提案する。
論文 参考訳(メタデータ) (2025-09-30T13:41:43Z) - PhysiAgent: An Embodied Agent Framework in Physical World [33.821400205384144]
VLA(Vision-Language-Action)モデルは顕著な成功を収めたが、しばしば限定的な一般化に苦戦している。
現在のアプローチはしばしばこれらのモデルを厳密でシーケンシャルな構造に組み合わせる。
本研究では,物理環境において効果的に動作するように調整された物理エージェントフレームワークであるPhysorAgentを提案する。
論文 参考訳(メタデータ) (2025-09-29T09:39:32Z) - OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning [50.45036742963495]
我々は,先進的な具体的推論とタスクプランニングを可能にする,多元的多元的プランナーであるOmniEVAを紹介する。
Task-Adaptive 3D Groundingメカニズムは、様々な実施タスクに対してコンテキスト対応の3Dグラウンドを可能にする。
Embodiment-Aware Reasoningフレームワークは、タスクの目標と実施制約を推論ループに組み込む。
論文 参考訳(メタデータ) (2025-09-11T10:32:22Z) - Growing Through Experience: Scaling Episodic Grounding in Language Models [67.27024505353384]
言語モデル(LM)は、物理的な計画タスクに長けるために、堅牢なエピソジックグラウンドを必要とする。
現在のエピソジックな基盤アプローチは、スケーラビリティと統合に苦労しています。
本稿では,より小規模から大規模にエピソジックな動作を効果的に伝達する,スケーラブルな弱から強のエピソジックな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-02T04:52:19Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。