論文の概要: StereoVLA: Enhancing Vision-Language-Action Models with Stereo Vision
- arxiv url: http://arxiv.org/abs/2512.21970v1
- Date: Fri, 26 Dec 2025 10:34:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.524588
- Title: StereoVLA: Enhancing Vision-Language-Action Models with Stereo Vision
- Title(参考訳): StereoVLA:ステレオビジョンを用いたビジョン・ランゲージ・アクションモデルの実現
- Authors: Shengliang Deng, Mi Yan, Yixin Zheng, Jiayi Su, Wenhao Zhang, Xiaoguang Zhao, Heming Cui, Zhizheng Zhang, He Wang,
- Abstract要約: ステレオカメラは人間の両眼視を忠実に模倣し、精密なロボット操作に欠かせない空間的手がかりを提供する。
アドバンテージにもかかわらず、視覚言語アクションモデル(VLA)におけるステレオビジョンの採用はいまだ検討されていない。
本稿では立体視からリッチな幾何学的手がかりを利用するVLAモデルであるStereoVLAを提案する。
- 参考スコア(独自算出の注目度): 20.470652428992338
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Stereo cameras closely mimic human binocular vision, providing rich spatial cues critical for precise robotic manipulation. Despite their advantage, the adoption of stereo vision in vision-language-action models (VLAs) remains underexplored. In this work, we present StereoVLA, a VLA model that leverages rich geometric cues from stereo vision. We propose a novel Geometric-Semantic Feature Extraction module that utilizes vision foundation models to extract and fuse two key features: 1) geometric features from subtle stereo-view differences for spatial perception; 2) semantic-rich features from the monocular view for instruction following. Additionally, we propose an auxiliary Interaction-Region Depth Estimation task to further enhance spatial perception and accelerate model convergence. Extensive experiments show that our approach outperforms baselines by a large margin in diverse tasks under the stereo setting and demonstrates strong robustness to camera pose variations.
- Abstract(参考訳): ステレオカメラは人間の両眼視を忠実に模倣し、精密なロボット操作に欠かせない空間的手がかりを提供する。
アドバンテージにもかかわらず、視覚言語アクションモデル(VLA)におけるステレオビジョンの採用はいまだ検討されていない。
本稿では立体視からリッチな幾何学的手がかりを利用するVLAモデルであるStereoVLAを提案する。
視覚基盤モデルを用いて2つの重要な特徴を抽出・融合する新しい幾何学・意味的特徴抽出モジュールを提案する。
1)空間知覚における微妙な立体視差からの幾何学的特徴
2) 指示に従うための単分子的視点からの意味豊かな特徴。
さらに,空間認識をさらに強化し,モデル収束を加速する補助的相互作用-相対深度推定タスクを提案する。
大規模な実験により, ステレオ環境下での多様なタスクにおいて, ベースラインよりも高い性能を示し, カメラに対する強いロバスト性を示す。
関連論文リスト
- Stereo World Model: Camera-Guided Stereo Video Generation [52.3922115596956]
本稿では、ステレオビデオ生成のための外観と両眼形状を共同で学習するカメラコンディショニングステレオワールドモデルであるStereoWorldを紹介する。
単分子RGBやRGBDのアプローチとは異なり、StereoWorldはRGBモードでのみ動作する。
論文 参考訳(メタデータ) (2026-03-18T05:42:22Z) - Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。
我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。
以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-20T11:59:19Z) - Empowering Dynamic Urban Navigation with Stereo and Mid-Level Vision [13.586199223564273]
単眼視と中級視線を無視することは非効率であることを示す。
ステレオ入力と深度推定や高密度画素追跡などの明快な中間レベルビジョンでNFMを増強するStereoWalkerを提案する。
中間レベルのビジョンによって、StereoWalkerはトレーニングデータのわずか1.5%を使用して最先端のパフォーマンスを達成でき、フルデータを使用して最先端のデータを上回ります。
論文 参考訳(メタデータ) (2025-12-11T18:59:56Z) - DINOv2 Driven Gait Representation Learning for Video-Based Visible-Infrared Person Re-identification [30.593882551803855]
Visible-Infrared person re-identification (VVI-ID) は、視界と赤外線を横断する同じ歩行者をモダリティから回収することを目的としている。
これらの課題に対処するために、DINOv2の豊富な視覚的優位性を活用して、外観に相補的な歩行特徴を学習するゲイト表現学習フレームワークを提案する。
具体的にはセマンティック・アウェア・シルエット・ゲイトラーニング(GL)モデルを提案する。
論文 参考訳(メタデータ) (2025-11-06T11:21:13Z) - Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding [11.222744122842023]
本稿では、3次元幾何学的特徴を暗黙的にVision-Language-Action(VLA)モデルに組み込むプラグイン・アンド・プレイ・モジュールを提案する。
提案手法は,様々なシナリオにおける最先端VLAモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-07-01T04:05:47Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - Unifying Correspondence, Pose and NeRF for Pose-Free Novel View Synthesis from Stereo Pairs [57.492124844326206]
この研究は、3次元視覚における挑戦的で先駆的な課題であるステレオペアからのポーズレスノベルビュー合成の課題に踏み込んだ。
我々の革新的なフレームワークは、これまでとは違って、シームレスに2D対応マッチング、カメラポーズ推定、NeRFレンダリングを統合し、これらのタスクの相乗的強化を促進します。
論文 参考訳(メタデータ) (2023-12-12T13:22:44Z) - SGM3D: Stereo Guided Monocular 3D Object Detection [62.11858392862551]
SGM3Dと呼ばれるステレオ誘導単分子物体検出ネットワークを提案する。
ステレオ画像から抽出したロバストな3次元特徴を利用して、モノクル画像から得られた特徴を強化する。
本手法は,余分な計算コストを伴わずに性能を向上させるために,他の多くの単分子的手法に統合することができる。
論文 参考訳(メタデータ) (2021-12-03T13:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。