論文の概要: QDepth-VLA: Quantized Depth Prediction as Auxiliary Supervision for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2510.14836v1
- Date: Thu, 16 Oct 2025 16:11:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.941355
- Title: QDepth-VLA: Quantized Depth Prediction as Auxiliary Supervision for Vision-Language-Action Models
- Title(参考訳): QDepth-VLA:ビジョン・ランゲージ・アクションモデルのための補助的スーパービジョンとしての量子深度予測
- Authors: Yixuan Li, Yuhui Chen, Mingcai Zhou, Haoran Li,
- Abstract要約: QDepth-VLA(QDepth-VLA)は、補助深度予測タスクによりビジョン・ランゲージ・アクション(VLA)モデルを拡張するフレームワークである。
専用深度エキスパートは、VQ-VAEエンコーダから得られた深度マップの量子化潜在トークンを予測するように設計されている。
シミュレーションベンチマークと実世界のタスクの実験結果から,QDepth-VLAは操作タスクに強い空間的推論と競合性能をもたらすことが示された。
- 参考スコア(独自算出の注目度): 21.56638062257106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial perception and reasoning are crucial for Vision-Language-Action (VLA) models to accomplish fine-grained manipulation tasks. However, existing approaches often lack the ability to understand and reason over the essential 3D structures necessary for precise control. To address this limitation, we propose QDepth-VLA, a general framework that augments VLA models with an auxiliary depth prediction task. A dedicated depth expert is designed to predict quantized latent tokens of depth maps obtained from a VQ-VAE encoder, enabling the model to learn depth-aware representations that capture critical geometric cues. Experimental results on the simulation benchmarks and real-world tasks demonstrate that QDepth-VLA yields strong spatial reasoning and competitive performance on manipulation tasks.
- Abstract(参考訳): 空間知覚と推論は、微粒な操作を行うためにビジョン・ランゲージ・アクション(VLA)モデルにとって不可欠である。
しかし、既存のアプローチは、正確な制御に必要な3D構造を理解し、推論する能力に欠けることが多い。
この制限に対処するため、補助深度予測タスクでVLAモデルを拡張する一般的なフレームワークであるQDepth-VLAを提案する。
専用深度エキスパートは、VQ-VAEエンコーダから得られた深度マップの量子化潜在トークンを予測し、決定的な幾何学的手がかりを捉える深度認識表現を学習できるように設計されている。
シミュレーションベンチマークと実世界のタスクの実験結果から,QDepth-VLAは操作タスクに強い空間的推論と競合性能をもたらすことが示された。
関連論文リスト
- Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding [11.222744122842023]
本稿では、3次元幾何学的特徴を暗黙的にVision-Language-Action(VLA)モデルに組み込むプラグイン・アンド・プレイ・モジュールを提案する。
提案手法は,様々なシナリオにおける最先端VLAモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-07-01T04:05:47Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は、FG-BMKと呼ばれる包括的きめ細かい評価ベンチマークを導入し、1.01万の質問と0.33万の画像を含む。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis [65.42684641776931]
3Dビジョン言語(3D-VL)ベンチマークは、3D-VLモデルの評価に不足している。
我々は3D-VLグラウンドとQAタスクのベンチマークであるBeacon3Dを提案する。
論文 参考訳(メタデータ) (2025-03-28T13:32:29Z) - UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent [14.089700378708756]
textbfUP-VLA, textbfUnified VLA model training with multi-modal textbfUnderstanding and future textbfPrediction objectives。
UP-VLAはCalvin ABC-Dベンチマークの33%の改善を実現している。
論文 参考訳(メタデータ) (2025-01-31T03:20:09Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - PEVL: Position-enhanced Pre-training and Prompt Tuning for
Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。
PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。
PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2022-05-23T10:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。