論文の概要: Geometry-Guided 3D Visual Token Pruning for Video-Language Models
- arxiv url: http://arxiv.org/abs/2604.18260v1
- Date: Mon, 20 Apr 2026 13:33:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.90603
- Title: Geometry-Guided 3D Visual Token Pruning for Video-Language Models
- Title(参考訳): ビデオ言語モデルのための幾何学誘導型3次元視覚トーンプルーニング
- Authors: Han Li, Zehao Huang, Jiahui Fu, Naiyan Wang, Si Liu,
- Abstract要約: 我々はGeo3DPrunerを提案する。
Geo3DPrunerは、まず、幾何学的に認識されたグローバルな注意を通して、クロスフレームの関連性をモデル化し、2段階のプルーニングプロセスを実行する。
複数の3Dシーン理解ベンチマークの実験では、Geo3DPrunerは元の性能の90%以上を維持し、ビジュアルトークンの90%をプルーニングし、既存のテキスト誘導型および視覚誘導型プルーニング法を著しく上回っている。
- 参考スコア(独自算出の注目度): 35.786221225043455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models have demonstrated remarkable capabilities in 2D vision, motivating their extension to 3D scene understanding. Recent studies represent 3D scenes as 3D spatial videos composed of image sequences with depth and camera pose information, enabling pre-trained video-language models to perform 3D reasoning tasks. However, the large number of visual tokens in spatial videos remains a major bottleneck for efficient inference and context management. Existing pruning methods overlook the view consistency of spatial videos and the spatial diversity of the remaining tokens, which prevents them from effectively removing inter-frame redundancy and preserving scene completeness. In this paper, we propose Geo3DPruner, a Geometry-Guided 3D Visual Token Pruning framework. Geo3DPruner first models cross-frame relevance through geometry-aware global attention, and then performs a two-stage pruning process. The intra-voxel stage selects representative multi-view features within each voxel, while the inter-voxel stage preserves spatial diversity by selecting a globally distributed subset of voxels. Extensive experiments on multiple 3D scene understanding benchmarks demonstrate that Geo3DPruner retains over 90% of the original performance while pruning 90% of visual tokens, significantly outperforming existing text-guided and vision-guided pruning methods.
- Abstract(参考訳): マルチモーダルな大規模言語モデルは2次元視覚において顕著な能力を示し、その3次元シーン理解への拡張を動機付けている。
近年の研究では、3Dシーンを深度とカメラポーズ情報からなる3次元空間映像として表現し、事前学習されたビデオ言語モデルで3D推論作業を行うことができる。
しかし、空間ビデオにおける視覚トークンの多さは、効率的な推論とコンテキスト管理の大きなボトルネックとなっている。
既存のプルーニング手法は、フレーム間の冗長性を効果的に排除し、シーン完全性を維持するために、空間ビデオの視界の整合性と残りのトークンの空間的多様性を見落としている。
本稿では,Geo3DPrunerを提案する。
Geo3DPrunerは、まず、幾何学的に認識されたグローバルな注意を通して、クロスフレームの関連性をモデル化し、2段階のプルーニングプロセスを実行する。
ボクセル内ステージは、各ボクセル内の代表的多視点特徴を選択し、ボクセル間ステージは、世界規模で分散されたボクセルのサブセットを選択することにより、空間的多様性を維持する。
複数の3Dシーン理解ベンチマークによる大規模な実験により、Geo3DPrunerは元の性能の90%以上を維持し、ビジュアルトークンの90%をプルーニングし、既存のテキスト誘導型および視覚誘導型プルーニング法を大幅に上回った。
関連論文リスト
- DriveTok: 3D Driving Scene Tokenization for Unified Multi-View Reconstruction and Understanding [75.41918200553525]
DriveTokは、マルチビューの再構築と理解を統一するための効率的な3D駆動シーントークンである。
復号化にはマルチビュートランスフォーマーを用いて,シーントークンからマルチビュー機能を再構築する。
また,シーントークンに直接3Dヘッドを追加して,3Dセマンティック占有率の予測を行う。
論文 参考訳(メタデータ) (2026-03-19T17:58:22Z) - 3D Aware Region Prompted Vision Language Model [99.4106711584584]
SR-3Dは、共有された視覚トークン空間を介して、シングルビュー2D画像とマルチビュー3Dデータを接続する。
SR-3Dはフレキシブルな領域プロンプトをサポートしており、バウンディングボックス、任意のフレーム上のセグメンテーションマスク、あるいは直接3Dでアノテートできる。
論文 参考訳(メタデータ) (2025-09-16T17:59:06Z) - Unleashing the Multi-View Fusion Potential: Noise Correction in VLM for Open-Vocabulary 3D Scene Understanding [15.86865606131156]
MVOV3Dはオープンな3Dシーン理解のための2次元多視点融合の可能性の解放を目的とした新しいアプローチである。
具体的には、MVOV3Dは、CLIPエンコーダでエンコードされた正確な領域レベルの画像特徴とテキスト特徴を活用することで、マルチビュー2D機能を改善する。
ScanNet200では14.7% mIoU,Matterport160では16.2% mIoU,オープン語彙セマンティックセマンティックセグメンテーションでは14.7% mIoUを達成した。
論文 参考訳(メタデータ) (2025-06-28T08:40:42Z) - NVSMask3D: Hard Visual Prompting with Camera Pose Interpolation for 3D Open Vocabulary Instance Segmentation [14.046423852723615]
本稿では,3次元ガウシアン・スプレイティングに基づくハードビジュアル・プロンプト手法を導入し,対象物に関する多様な視点を創出する。
提案手法は現実的な3次元視点をシミュレートし,既存のハード・ビジュアル・プロンプトを効果的に増強する。
このトレーニングフリー戦略は、事前のハード・ビジュアル・プロンプトとシームレスに統合され、オブジェクト記述的特徴が強化される。
論文 参考訳(メタデータ) (2025-04-20T14:39:27Z) - MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [91.94869042117621]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - WildSeg3D: Segment Any 3D Objects in the Wild from 2D Images [16.107027445270887]
多様な環境にまたがる任意の3Dオブジェクトのセグメンテーションを可能にする効率的なアプローチであるWildSeg3Dを紹介する。
このフィードフォワードアプローチの重要な課題は、複数の2次元ビューにまたがる3Dアライメントエラーの蓄積である。
また,リアルタイム対話型セグメンテーションのための動的グローバルアライニング(DGA)とマルチビューグループマッピング(MGM)を提案する。
論文 参考訳(メタデータ) (2025-03-11T13:10:41Z) - g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks [62.74304008688472]
Generalizable 3D-Language Feature Fields (g3D-LF)は、大規模な3D言語データセットで事前訓練された3D表現モデルである。
論文 参考訳(メタデータ) (2024-11-26T01:54:52Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。