論文の概要: Evo-Depth: A Lightweight Depth-Enhanced Vision-Language-Action Model
- arxiv url: http://arxiv.org/abs/2605.14950v1
- Date: Thu, 14 May 2026 15:21:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.909242
- Title: Evo-Depth: A Lightweight Depth-Enhanced Vision-Language-Action Model
- Title(参考訳): Evo-Depth:軽量深度拡張型ビジョンランゲージ・アクションモデル
- Authors: Tao Lin, Yuxin Du, Jiting Liu, Nuobei Zhu, Yunhe Li, Yuqian Fu, Yinxinyu Chen, Hongyi Cai, Zewei Ye, Bing Cheng, Kai Ye, Yiran Mao, Yilei Zhong, MingKang Dong, Junchi Yan, Gen Li, Bo Zhao,
- Abstract要約: Vision-Language-Actionモデルは、認識、言語基盤、アクション生成の統一を約束している。
現在のVLAモデルは、深度情報と詳細な空間関係を持たない2次元視覚表現に大きく依存している。
Evo-Depthは、空間的に接地された操作を強化する軽量な深度強化VLAフレームワークである。
- 参考スコア(独自算出の注目度): 43.14057937517956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action models have emerged as a promising paradigm for robotic manipulation by unifying perception, language grounding, and action generation. However, they often struggle in scenarios requiring precise spatial understanding, as current VLA models primarily rely on 2D visual representations that lack depth information and detailed spatial relationships. While recent approaches incorporate explicit 3D inputs such as depth maps or point clouds to address this issue, they often increase system complexity, require additional sensors, and remain vulnerable to sensing noise and reconstruction errors. Another line of work explores implicit 3D-aware spatial modeling directly from RGB observations without extra sensors, but it often relies on large geometry foundation models, resulting in higher training and deployment costs. To address these challenges, we propose Evo-Depth, a lightweight depth-enhanced VLA framework that enhances spatially grounded manipulation without relying on additional sensing hardware or compromising deployment efficiency. Evo-Depth employs a lightweight Implicit Depth Encoding Module to extract compact depth features from multi-view RGB images. These features are incorporated into vision-language representations through a Spatial Enhancement Module via depth-aware modulation, enabling efficient spatial-semantic enhancement. A Progressive Alignment Training strategy is further introduced to align the resulting depth-enhanced representations with downstream action learning. With only 0.9B parameters, Evo-Depth achieves superior performance across four simulation benchmarks. In real-world experiments, Evo-Depth attains the highest average success rate while also exhibiting the smallest model size, lowest GPU memory usage, and highest inference frequency among compared methods.
- Abstract(参考訳): Vision-Language-Actionモデルは、知覚、言語接地、行動生成を統一することでロボット操作のための有望なパラダイムとして登場した。
しかしながら、現在のVLAモデルは、深度情報や詳細な空間関係が欠如している2次元視覚表現に依存しているため、正確な空間理解を必要とするシナリオでしばしば苦労する。
近年のアプローチでは、この問題に対処するために深度マップや点雲などの明示的な3D入力が組み込まれているが、システムの複雑さを増大させ、追加のセンサーを必要とし、ノイズや再構成エラーの検知に弱いままである。
別の研究の行では、RGB観測から直接3D対応空間モデリングを余分なセンサーなしで直接探索するが、しばしば大きな幾何学の基礎モデルに依存し、より高いトレーニングと展開コストをもたらす。
これらの課題に対処するために、Evo-Depthを提案する。Evo-Depthは、空間的に接地された操作を、追加のセンサーハードウェアやデプロイメント効率に頼らずに強化する軽量な奥行き強化VLAフレームワークである。
Evo-Depth は、マルチビュー RGB 画像からコンパクトな深度特徴を抽出するために、軽量な Implicit Depth Encoding Module を使用している。
これらの特徴は、深度対応変調による空間拡張モジュールを通して視覚言語表現に組み込まれ、効率的な空間意味的拡張を可能にする。
結果の深度強調表現と下流行動学習を整合させるために、プログレッシブアライメントトレーニング戦略が導入された。
0.9Bのパラメータしか持たず、Evo-Depthは4つのシミュレーションベンチマークで優れた性能を達成している。
実世界の実験では、Evo-Depthは最小のモデルサイズ、最低のGPUメモリ使用量、比較したメソッドの推論頻度も示しながら、最高平均成功率を達成した。
関連論文リスト
- VEGA: Visual Encoder Grounding Alignment for Spatially-Aware Vision-Language-Action Models [55.12929235609365]
現在の視覚言語アクション(VLA)モデルの視覚バックボーンは、主に3次元幾何学的監督を伴わない2次元画像データに事前訓練されている。
既存の暗黙の接地法は、VLA特徴を3D認識基盤モデルと整合させることによって、この問題に部分的に対処する。
DINOv2-FiT3D の空間認識機能と VLA の視覚エンコーダの出力を直接一致させるフレームワーク VEGA を提案する。
論文 参考訳(メタデータ) (2026-05-11T12:44:26Z) - AugVLA-3D: Depth-Driven Feature Augmentation for Vision-Language-Action Models [42.57469056850227]
VLA(Vision-Language-Action)モデルは最近、ロボットの知覚と制御において顕著な進歩を遂げている。
深度推定をVLAモデルに統合し,3次元特徴表現を充実させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:57:32Z) - Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding [11.222744122842023]
本稿では、3次元幾何学的特徴を暗黙的にVision-Language-Action(VLA)モデルに組み込むプラグイン・アンド・プレイ・モジュールを提案する。
提案手法は,様々なシナリオにおける最先端VLAモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-07-01T04:05:47Z) - Lightweight RGB-D Salient Object Detection from a Speed-Accuracy Tradeoff Perspective [54.91271106816616]
現在のRGB-D法は通常、大規模なバックボーンを利用して精度を向上させるが効率を犠牲にする。
本稿では,軽量RGB-D SODのためのSATNet(Speed-Accuracy Tradeoff Network)を提案する。
深度について,高品質の深度マップを生成するための深度任意のモデルを導入する。
モダリティ融合において,モダリティ間の整合性を検討するために,DAM(Decoupled Attention Module)を提案する。
特徴表現のために,双方向の反転フレームワークを用いたDIRM (Dual Information Representation Module) を開発した。
論文 参考訳(メタデータ) (2025-05-07T19:37:20Z) - Towards Ambiguity-Free Spatial Foundation Model: Rethinking and Decoupling Depth Ambiguity [20.86484181698326]
決定論的予測に限定された既存のモデルは、現実世界の多層深度を見落としている。
単一予測から多仮説空間基盤モデルへのパラダイムシフトを導入する。
論文 参考訳(メタデータ) (2025-03-08T02:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。