論文の概要: DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2510.13375v1
- Date: Wed, 15 Oct 2025 10:09:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.618491
- Title: DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning
- Title(参考訳): DepthVLA:Depth-Aware空間推論を用いたビジョン・ランゲージ・アクションモデルの構築
- Authors: Tianyuan Yuan, Yicheng Liu, Chenhao Lu, Zhuoguang Chen, Tao Jiang, Hang Zhao,
- Abstract要約: VLA(Vision-Language-Action)モデルは最近、印象的な一般化と言語誘導操作機能を示している。
視覚言語モデル(VLM)から受け継いだ空間的推論の制限による空間的推論の精度の低下
本稿では,プレトレーニングした深度予測モジュールを通じて空間認識を明示的に組み込んだ,シンプルで効果的なVLAアーキテクチャであるDepthVLAを提案する。
- 参考スコア(独自算出の注目度): 35.44151923549777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have recently shown impressive generalization and language-guided manipulation capabilities. However, their performance degrades on tasks requiring precise spatial reasoning due to limited spatial reasoning inherited from Vision-Language Models (VLMs). Existing VLAs rely on extensive action-data pretraining to ground VLMs in 3D space, which reduces training efficiency and is still insufficient for accurate spatial understanding. In this work, we present DepthVLA, a simple yet effective VLA architecture that explicitly incorporates spatial awareness through a pretrained depth prediction module. DepthVLA adopts a mixture-of-transformers design that unifies a VLM, a depth transformer, and an action expert with fully shared attentions, forming an end-to-end model with enhanced spatial reasoning. Extensive evaluations in both real-world and simulated environments show that DepthVLA outperforms state-of-the-art approaches, achieving 78.5% vs. 65.0% progress in real-world tasks, 94.9% vs. 93.6% in the LIBERO simulator, and 74.8% vs. 58.8% in the Simpler simulator. Our code will be made publicly available.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは最近、印象的な一般化と言語誘導操作機能を示している。
しかし、その性能は視覚言語モデル(VLM)から受け継がれた限られた空間的推論のため、正確な空間的推論を必要とするタスクに低下する。
既存のVLAは3次元空間における地上でのVLMに対する広範な行動データ事前訓練に依存しており、訓練効率を低下させ、正確な空間理解には不十分である。
本稿では,プレトレーニングした深度予測モジュールを通じて空間認識を明示的に組み込んだ,シンプルで効果的なVLAアーキテクチャであるDepthVLAを提案する。
DepthVLAは、VLM、深度変換器、および完全に共有された注意を持つアクションエキスパートを統一した変換器の混合設計を採用し、空間推論を拡張したエンドツーエンドモデルを形成する。
DepthVLAは、現実世界のタスクの78.5%対65.0%、LIBEROシミュレータの94.9%対93.6%、Simplerシミュレータの74.8%対58.8%で、最先端のアプローチよりも優れていた。
私たちのコードは公開されます。
関連論文リスト
- TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation [58.21084913574353]
我々は,世界力学を暗黙的に理解したVモデルを実現するシンプルなアプローチであるPri4Rを紹介する。
Pri4Rは、VLAモデルを軽量なポイントトラックヘッドで拡張し、3Dポイントトラックを予測する。
このような課題に対して,Pri4Rは性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2026-03-02T07:23:53Z) - Universal Pose Pretraining for Generalizable Vision-Language-Action Policies [83.39008378156647]
既存のVision-Language-Action(VLA)モデルは、しばしば機能崩壊と訓練効率の低下に悩まされる。
本稿では,VLAトレーニングを3次元空間前駆体抽出のための事前学習フェーズに分離する,分離されたパラダイムであるPose-VLAを提案する。
我々のフレームワークは2段階の事前学習パイプラインに従い、ポーズと動きのアライメントによる基本的な空間接地を確立する。
論文 参考訳(メタデータ) (2026-02-23T11:00:08Z) - MASS: Motion-Aware Spatial-Temporal Grounding for Physics Reasoning and Comprehension in Vision-Language Models [45.450035386882824]
視覚言語モデル(VLM)は、標準的なビデオタスクではうまく機能するが、運動力学や空間的相互作用を含む物理駆動推論に苦慮する。
本稿では,物理世界のコンテキストキューをVLMの知覚,理解,推論に合わせた解釈可能な表現に変換することによって,このギャップに対処するアプローチを提案する。
論文 参考訳(メタデータ) (2025-11-23T09:43:44Z) - SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding [64.86119288520419]
マルチモーダル言語モデルは時間と空間の空間的推論に苦しむ。
SIMS-Vは3次元シミュレータの特権情報を利用するシステムデータ生成フレームワークである。
提案手法は,実世界の空間的タスクの具体的改善を図りながら,一般的な映像理解の性能を維持しながら,堅牢な一般化を実証する。
論文 参考訳(メタデータ) (2025-11-06T18:53:31Z) - VITA-VLA: Efficiently Teaching Vision-Language Models to Act via Action Expert Distillation [76.13140980997508]
VLA(Vision-Language Action)モデルは、事前訓練された視覚言語モデル(VLM)の強い知覚能力を活用することにより、ロボット操作を著しく向上させる。
本稿では,VLMに事前訓練された小規模な行動モデルから知識を伝達することで,動作実行能力を持たせる,簡易かつ効果的な蒸留ベースフレームワークを提案する。
5つの操作課題にわたる実世界の実験において,本手法は教師モデルより一貫して優れ,82.0%の成功率(17%改善)を達成した。
論文 参考訳(メタデータ) (2025-10-10T17:59:56Z) - SD-VLM: Spatial Measuring and Understanding with Depth-Encoded Vision-Language Models [75.64836077468722]
視覚言語モデル(VLM)は2次元意味的視覚的理解において優れているが、3次元空間的関係について定量的に推論する能力はいまだ未解明のままである。
VLMの基本空間知覚能力を大幅に向上させる新しいフレームワークであるSD-VLMを提案する。
我々はSD-VLMを訓練した。これは強力な一般化VLMであり、より優れた空間的測定と理解能力を示す。
論文 参考訳(メタデータ) (2025-09-22T12:08:12Z) - DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [41.030494146004806]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z) - Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding [11.222744122842023]
本稿では、3次元幾何学的特徴を暗黙的にVision-Language-Action(VLA)モデルに組み込むプラグイン・アンド・プレイ・モジュールを提案する。
提案手法は,様々なシナリオにおける最先端VLAモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-07-01T04:05:47Z) - BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models [37.699828966838986]
BridgeVLAは、3D入力を複数の2D画像に投影し、VLMバックボーンとの入力アライメントを保証する新しい3D VLAモデルである。
アクション予測に2Dヒートマップを使用し、一貫した2次元画像空間内の入力空間と出力空間を統一する。
10以上のタスクで96.8%の成功率を達成することができ、1タスクにつき3つの軌道しか持たず、異常なサンプル効率を誇示している。
論文 参考訳(メタデータ) (2025-06-09T17:36:34Z) - UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent [14.089700378708756]
textbfUP-VLA, textbfUnified VLA model training with multi-modal textbfUnderstanding and future textbfPrediction objectives。
UP-VLAはCalvin ABC-Dベンチマークの33%の改善を実現している。
論文 参考訳(メタデータ) (2025-01-31T03:20:09Z) - CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z) - Exploring Spatial Representation to Enhance LLM Reasoning in Aerial Vision-Language Navigation [11.267956604072845]
ALN(Aerial Vision-and-Language Navigation)は、無人航空機(Unmanned Aerial Vehicles、UAV)が自然言語の指示や視覚的手がかりを通じて屋外の環境を航行できるようにする新しいタスクである。
本稿では,大規模言語モデル(LLM)をアクション予測のエージェントとして活用する,空飛ぶVLNタスクのためのトレーニングフリーゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-11T03:54:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。