論文の概要: Distilling 3D Spatial Reasoning into a Lightweight Vision-Language Model with CoT
- arxiv url: http://arxiv.org/abs/2605.09719v1
- Date: Sun, 10 May 2026 19:38:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.390071
- Title: Distilling 3D Spatial Reasoning into a Lightweight Vision-Language Model with CoT
- Title(参考訳): CoTを用いた軽量ビジョンランゲージモデルへの3次元空間推論の蒸留
- Authors: Alaa Asfour, Christopher Indris, Leihan Chen, Tejas Vyas, Guanghui Wang,
- Abstract要約: LLaVA-3Dのような大規模3次元視覚言語モデル(VLM)は強力な空間推論を提供するが、計算コストが高いため展開が困難である。
本研究では、7B教師から2.29B学生モデルへの空間的推論を伝達する知識蒸留フレームワークを提案する。
提案手法は,教師のパフォーマンスの54~72%を維持しながら,8.7倍の推論遅延と3倍のモデルサイズ削減を実現する。
- 参考スコア(独自算出の注目度): 5.121729740393489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale 3D vision-language models (VLMs) like LLaVA-3D offer strong spatial reasoning but are difficult to deploy due to high computational costs. We propose a knowledge distillation framework that transfers spatial reasoning from a 7B teacher to a 2.29B student model. Our approach achieves 8.7x lower inference latency and a 3x reduction in model size while retaining 54-72% of the teacher's performance. The framework utilizes VGGT as the vision encoder and a multi-task distillation pipeline with uncertainty-aware loss weighting. To improve reasoning without chain-of-thought (CoT) data, we introduce "Hidden CoT": learnable latent tokens that serve as an internal scratchpad before answer generation. This is the first use of latent scratchpad reasoning in distilled 3D VLMs. The student model jointly performs spatial description, depth estimation, and object detection. Experiments on ScanNet and 3D-FRONT show strong spatial understanding, reaching 68-72% accuracy on proximity and contact tasks. Our framework enables efficient 3D scene QA on resource-constrained platforms.
- Abstract(参考訳): LLaVA-3Dのような大規模3次元視覚言語モデル(VLM)は強力な空間推論を提供するが、計算コストが高いため展開が困難である。
本研究では、7B教師から2.29B学生モデルへの空間的推論を伝達する知識蒸留フレームワークを提案する。
提案手法は,教師のパフォーマンスの54~72%を維持しながら,8.7倍の推論遅延と3倍のモデルサイズ削減を実現する。
このフレームワークは、VGGTをビジョンエンコーダと、不確実性を考慮した損失重み付けを備えたマルチタスク蒸留パイプラインとして利用する。
チェーン・オブ・ソート(CoT)データを使わずに推論を改善するために,回答生成の前に内部スクラッチパッドとして機能する学習可能な潜在トークン"Hidden CoT"を導入する。
これは蒸留3次元VLMにおける潜在スクラッチパッド推論の最初の使用である。
学生モデルは、空間記述、深さ推定、物体検出を共同で行う。
ScanNetと3D-FRONTの実験では空間的理解が強く、近接タスクと接触タスクで68-72%の精度に達した。
本フレームワークは,資源制約されたプラットフォーム上での効率的な3DシーンQAを実現する。
関連論文リスト
- Do 3D Large Language Models Really Understand 3D Spatial Relationships? [80.64317885117704]
3次元大言語モデルは3次元世界、特に物体間の空間的関係を理解していると主張している。
テキストのみの質問応答ペア上での言語モデルの微調整は、3D入力を使わずにSQA3Dベンチマークでこれらの手法を相容・超越することができる。
本稿では,より厳密な評価ベンチマークであるReal-3DQAを紹介する。
論文 参考訳(メタデータ) (2026-03-06T16:04:34Z) - Splat and Distill: Augmenting Teachers with Feed-Forward 3D Reconstruction For 3D-Aware Distillation [10.159228582199924]
Vision Foundation Models (VFM) は、様々な下流2Dタスクに適用することで大きな成功を収めた。
その効果にもかかわらず、それらはしばしば3D認識の重大な欠如を示す。
Splat と Distill は,高速なフィードフォワード3次元再構成パイプラインで教師モデルを強化することで,堅牢な3次元認識を2次元 VFM に組み込むフレームワークである。
論文 参考訳(メタデータ) (2026-02-05T18:59:05Z) - DC-Scene: Data-Centric Learning for 3D Scene Understanding [11.204526527127094]
3Dシーン理解は、ロボット工学、自律運転、拡張現実といったビジョン応用において、基本的な役割を担っている。
本稿では,3次元シーン理解に適したデータ中心型フレームワークDC-Sceneを提案する。
本稿では,CLIP-driven dual-indicator Quality (DIQ) フィルタを導入し,視覚言語アライメントスコアとキャプションロスパープレキシティを組み合わせたカリキュラムスケジューラを提案する。
論文 参考訳(メタデータ) (2025-05-21T08:05:27Z) - SceneSplat: Gaussian Splatting-based Scene Understanding with Vision-Language Pretraining [100.23919762298227]
現在、既存のすべてのメソッドは、トレーニング中や推論時に2Dまたはテキストのモダリティに依存している。
我々はSceneSplatを紹介し,3DGSで動作する最初の大規模屋内シーン理解手法について紹介する。
ラベルのないシーンからリッチな3D特徴学習を解放する自己教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2025-03-23T12:50:25Z) - Open Vocabulary 3D Scene Understanding via Geometry Guided Self-Distillation [67.36775428466045]
2次元事前学習モデルから優れた3次元表現を学習するための幾何学ガイド自己蒸留(GGSD)を提案する。
3D表現の利点により、蒸留した3D学生モデルの性能は2D教師モデルよりも大幅に上回ることができる。
論文 参考訳(メタデータ) (2024-07-18T10:13:56Z) - Attention-Based Depth Distillation with 3D-Aware Positional Encoding for
Monocular 3D Object Detection [10.84784828447741]
ADDは、3D対応の位置符号化を備えた注意に基づく深度知識蒸留フレームワークである。
教師の設計によると、私たちのフレームワークはシームレスで、ドメインギャップフリーで、実装が容易で、オブジェクト指向の地層深度と互換性があります。
我々は,3つの代表的な単分子検出器上でのフレームワークを実装し,予測計算コストの増大を伴わず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-11-30T06:39:25Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - Searching Efficient 3D Architectures with Sparse Point-Voxel Convolution [34.713667358316286]
自動運転車は安全に運転するために、3Dシーンを効率的に正確に理解する必要がある。
既存の3次元知覚モデルは、低解像度のボキセル化とアグレッシブなダウンサンプリングのために、小さなインスタンスを十分に認識できない。
Sparse Point-Voxel Convolution (SPVConv) は,バニラ・スパース・コンボリューションを高分解能な点ベース分岐に装備する軽量な3次元モジュールである。
論文 参考訳(メタデータ) (2020-07-31T14:27:27Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。