論文の概要: GLaD: Geometric Latent Distillation for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2512.09619v1
- Date: Wed, 10 Dec 2025 13:07:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.261101
- Title: GLaD: Geometric Latent Distillation for Vision-Language-Action Models
- Title(参考訳): GLaD:ビジョンランゲージ・アクションモデルのための幾何学的潜水蒸留
- Authors: Minghao Guo, Meng Cao, Jiachen Tao, Rongtao Xu, Yan Yan, Xiaodan Liang, Ivan Laptev, Xiaojun Chang,
- Abstract要約: GLaDは、知識蒸留による事前学習中に3次元の幾何学的先行を組み込んだ幾何学的認識型視覚・言語・アクション(VLA)フレームワークである。
GLaDは4つのLIBEROタスクスイートの平均成功率は94.1%で、同じ事前トレーニングデータを使用するUniVLA(92.5%)を上回っている。
- 参考スコア(独自算出の注目度): 106.53332923530245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing Vision-Language-Action (VLA) models rely primarily on RGB information, while ignoring geometric cues crucial for spatial reasoning and manipulation. In this work, we introduce GLaD, a geometry-aware VLA framework that incorporates 3D geometric priors during pretraining through knowledge distillation. Rather than distilling geometric features solely into the vision encoder, we align the LLM's hidden states corresponding to visual tokens with features from a frozen geometry-aware vision transformer (VGGT), ensuring that geometric understanding is deeply integrated into the multimodal representations that drive action prediction. Pretrained on the Bridge dataset with this geometry distillation mechanism, GLaD achieves 94.1% average success rate across four LIBERO task suites, outperforming UniVLA (92.5%) which uses identical pretraining data. These results validate that geometry-aware pretraining enhances spatial reasoning and policy generalization without requiring explicit depth sensors or 3D annotations.
- Abstract(参考訳): 既存のVision-Language-Action (VLA) モデルは、主にRGB情報に依存し、空間的推論や操作に欠く幾何学的手がかりを無視している。
本稿では, 知識蒸留による事前学習において, 3次元幾何学的事前学習を取り入れた幾何学的VLAフレームワークであるGLaDを紹介する。
視覚エンコーダのみに幾何学的特徴を蒸留するのではなく、視覚トークンに対応するLLMの隠れ状態と凍結幾何認識視覚変換器(VGGT)の特徴とを一致させ、幾何学的理解が行動予測を駆動するマルチモーダル表現に深く統合されることを保証する。
この幾何蒸留機構でブリッジデータセットに事前トレーニングされたGLaDは、4つのLIBEROタスクスイートの平均成功率94.1%を達成し、同じ事前トレーニングデータを使用するUniVLA(92.5%)を上回った。
これらの結果は,空間的推論やポリシーの一般化を,明示的な深度センサや3Dアノテーションを必要とせずに促進することを示す。
関連論文リスト
- GAP-MLLM: Geometry-Aligned Pre-training for Activating 3D Spatial Perception in Multimodal Large Language Models [70.61152292499737]
このギャップは、幾何学的事前の不足から生じるものではなく、訓練パラダイムの誤った調整から生じるものである、と我々は主張する。
既存のアプローチでは、通常、特徴の結合を示唆し、幾何学的な監督なしに下流のタスクを直接最適化する。
本稿では,下流適応前の構造知覚を明示的に活性化する幾何学的事前学習パラダイムであるGAP-MLLMを提案する。
論文 参考訳(メタデータ) (2026-03-17T12:43:48Z) - Scalable Adaptation of 3D Geometric Foundation Models via Weak Supervision from Internet Video [76.32954467706581]
本稿では,生のビデオストリームからGEometric foundationモデルのスケーラブル適応を行うフレームワークであるSAGEを提案する。
階層的なマイニングパイプラインを使用して、ビデオをトレーニングトラジェクトリやハイブリッド監視に変換します。
実験の結果、SAGEはゼロショットの一般化を著しく向上し、チェムファー距離を20-42%削減した。
論文 参考訳(メタデータ) (2026-02-08T09:53:21Z) - Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models [79.18306680174011]
DSR Suiteは、データセット、ベンチマーク、モデルの各面にギャップを埋める。
そこで本研究では,DSRビデオから複数問合せペアを生成する自動パイプラインを提案する。
パイプラインは、カメラポーズ、局所点雲、オブジェクトマスク、向き、および3Dトラジェクトリを含む、豊富な幾何学的および運動的な情報を抽出する。
論文 参考訳(メタデータ) (2025-12-23T17:56:36Z) - GeoPredict: Leveraging Predictive Kinematics and 3D Gaussian Geometry for Precise VLA Manipulation [26.632472450402947]
VLA(Vision-Language-Action)モデルは、ロボット操作において強力な一般化を実現するが、主に反応性と2D中心のままである。
予測力学および幾何学的先行性を持つ連続作用ポリシーを付加する幾何学的VLAフレームワークであるGeoPredictを提案する。
RoboCasa Human-50、LIBERO、実世界の操作タスクの実験は、GeoPredictが強いVLAベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-18T17:51:42Z) - 3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation [17.294440057314812]
VLM(Vision-Language Models)は様々な視覚的・言語的タスクにおいて顕著な性能を示した。
人為的な幾何学的手がかりを予め訓練されたVLMに注入するフレームワークであるGeometric Distillationを提案する。
本手法は、自然な画像テキスト入力と互換性を保ちながら、表現を幾何学的に認識するように形成する。
論文 参考訳(メタデータ) (2025-06-11T15:56:59Z) - Geometry-guided Feature Learning and Fusion for Indoor Scene Reconstruction [14.225228781008209]
本稿では3次元シーン再構成のための新しい幾何学的統合機構を提案する。
提案手法は,特徴学習,特徴融合,ネットワーク監視という3段階の3次元幾何学を取り入れている。
論文 参考訳(メタデータ) (2024-08-28T08:02:47Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。