論文の概要: SeGPruner: Semantic-Geometric Visual Token Pruner for 3D Question Answering
- arxiv url: http://arxiv.org/abs/2603.29437v1
- Date: Tue, 31 Mar 2026 08:44:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.361539
- Title: SeGPruner: Semantic-Geometric Visual Token Pruner for 3D Question Answering
- Title(参考訳): SeGPruner:3次元質問応答のためのセマンティック・ジオメトリック・ビジュアル・トーケン・プラナー
- Authors: Wenli Li, Kai Zhao, Haoran Jiang, Enquan Yang, Yi Su, Dan Zeng,
- Abstract要約: SeGPrunerは、多視点画像を用いた効率的な3Dのための意味認識および幾何学誘導型トークン還元フレームワークである。
推論効率を大幅に改善し、ビジュアルトークンの予算を91%削減し、推論遅延を86%削減する。
- 参考スコア(独自算出の注目度): 18.541639027941198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have been widely adopted for 3D question answering (3D QA). In typical pipelines, visual tokens extracted from multiple viewpoints are concatenated with language tokens and jointly processed by a large language model (LLM) for inference. However, aggregating multi-view observations inevitably introduces severe token redundancy, leading to an overly large visual token set that significantly hinders inference efficiency under constrained token budgets. Visual token pruning has emerged as a prevalent strategy to address this issue. Nevertheless, most existing pruners are primarily tailored to 2D inputs or rely on indirect geometric cues, which limits their ability to explicitly retain semantically critical objects and maintain sufficient spatial coverage for robust 3D reasoning. In this paper, we propose SeGPruner, a semantic-aware and geometry-guided token reduction framework for efficient 3D QA with multi-view images. Specifically, SeGPruner first preserves semantically salient tokens through an attention-based importance module (Saliency-aware Token Selector), ensuring that object-critical evidence is retained. It then complements these tokens with spatially diverse ones via a geometry-guided selector (Geometry-aware Token Diversifier), which jointly considers semantic relevance and 3D geometric distance. This cooperation between saliency preservation and geometry-guided diversification balances object-level evidence and global scene coverage under aggressive token reduction. Extensive experiments on ScanQA and OpenEQA demonstrate that SeGPruner substantially improves inference efficiency, reducing the visual token budget by 91% and inference latency by 86%, while maintaining competitive performance in 3D reasoning tasks.
- Abstract(参考訳): 視覚言語モデル(VLM)は3次元質問応答(3D QA)に広く採用されている。
典型的なパイプラインでは、複数の視点から抽出された視覚トークンは言語トークンと連結され、推論のために大きな言語モデル(LLM)によって共同で処理される。
しかし、多視点観測の集約は必然的に深刻なトークン冗長性をもたらし、制約付きトークン予算下での推論効率を著しく阻害する過度に大きな視覚トークンセットをもたらす。
この問題に対処するための一般的な戦略として、ビジュアルトークンのプルーニングが登場した。
しかし、既存のプルーナーのほとんどは、主に2D入力や間接幾何学的手がかりに依存しており、意味的に重要なオブジェクトを明示的に保持し、堅牢な3D推論のために十分な空間的カバレッジを維持する能力を制限する。
本稿では,多視点画像を用いた効率的な3次元QAのための意味認識および幾何学誘導型トークン還元フレームワークであるSeGPrunerを提案する。
具体的には、SeGPrunerはまず注意に基づく重要モジュール(Saliency-aware Token Selector)を通じて意味論的に健全なトークンを保存し、オブジェクトクリティカルな証拠を確実に保持する。
次に、これらのトークンを幾何学誘導セレクタ(Geometry-aware Token Diversifier)を介して空間的に多様なトークンと補完し、意味的関連性と3次元幾何学的距離を共同で検討する。
この塩分保存と幾何誘導型多様化の協調は、積極的なトークン還元の下でのオブジェクトレベルの証拠とグローバルなシーンカバレッジのバランスを保っている。
ScanQAとOpenEQAの大規模な実験により、SeGPrunerは推論効率を大幅に改善し、視覚トークンの予算を91%削減し、推論遅延を86%削減し、3D推論タスクにおける競合性能を維持した。
関連論文リスト
- Towards Foundation Models for 3D Scene Understanding: Instance-Aware Self-Supervised Learning for Point Clouds [53.82500407523346]
PointINSは、幾何学的学習を通じてポイントクラウド表現を豊かにする、インスタンス指向の自己組織化フレームワークである。
PointINSは、屋内のインスタンスセグメンテーションで平均+3.5%のmAP改善、屋外のパン光学セグメンテーションで+4.1%のPQゲインを達成している。
論文 参考訳(メタデータ) (2026-03-26T08:31:06Z) - FUSER: Feed-Forward MUltiview 3D Registration Transformer and SE(3)$^N$ Diffusion Refinement [39.19949818461193]
Fは、全てのスキャンを統一されたコンパクトな潜在空間で処理する最初のフィードフォワードマルチビュー登録変換器である。
F はペアワイズ推定なしでグローバルなポーズを予測する。
3DMatch, ScanNet, ArkitScenesの実験により, 本手法が優れた登録精度と優れた計算効率を実現することを示す。
論文 参考訳(メタデータ) (2025-12-10T07:11:22Z) - Point Linguist Model: Segment Any Object via Bridged Large 3D-Language Model [51.02616473941499]
大規模言語モデル(LLM)による3Dオブジェクトのセグメンテーションは、その広範囲なセマンティクス、タスクの柔軟性、強力な一般化により、広く普及しているパラダイムとなっている。
LLMは高レベルなセマンティックトークンを処理し、3次元の点雲は密度の高い幾何学的構造のみを伝達する。
本稿では,LLMと高密度3次元点雲の間の表現ギャップを橋渡しする一般フレームワークであるポイント言語モデル(PLM)を提案する。
論文 参考訳(メタデータ) (2025-09-09T15:01:28Z) - SGS-3D: High-Fidelity 3D Instance Segmentation via Reliable Semantic Mask Splitting and Growing [20.383892902000976]
高忠実度3Dインスタンスセグメンテーション(SGS-3D)のための分割・成長型セマンティックマスクを提案する。
本稿では,3次元幾何学的プリミティブの共起を利用したマスクフィルタリング手法を提案する。
幾何学的洗練のために,空間的連続性と高次特徴を両立させて細粒度オブジェクトインスタンスを構築する。
論文 参考訳(メタデータ) (2025-09-05T14:37:31Z) - SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z) - Fast3D: Accelerating 3D Multi-modal Large Language Models for Efficient 3D Scene Understanding [24.964149224068027]
我々は,3D MLLM のためのプラグ&プレイ型ビジュアルトークン解析フレームワークである Fast3D を提案する。
グローバルアテンション予測(GAP)は,目標モデルのグローバルアテンション分布を予測し,トークンの効果的な重要度推定を可能にする。
SAPは、注意に基づく複雑性評価を通じて動的トークン予算を導入し、レイヤーワイドプルーニング比率を自動的に調整する。
論文 参考訳(メタデータ) (2025-07-12T16:29:02Z) - Pts3D-LLM: Studying the Impact of Token Structure for 3D Scene Understanding With Large Language Models [9.658828841170472]
本研究は,3次元トークン構造に関する厳密な研究であり,映像ベースおよび点ベース表現を体系的に比較する。
本稿では,ソナタで事前学習したポイントトランスフォーマーV3エンコーダの3Dポイントクラウド機能を組み込むことで,視覚トークンを充実させる手法を提案する。
論文 参考訳(メタデータ) (2025-06-06T02:35:26Z) - Self-Supervised and Generalizable Tokenization for CLIP-Based 3D Understanding [87.68271178167373]
凍結したCLIPバックボーンを用いたスケール不変表現学習のためのユニバーサル3Dトークン化器を提案する。
S4Tokenは、シーンスケールに関係なくセマンティックインフォームドトークンを生成するトークン化パイプラインである。
論文 参考訳(メタデータ) (2025-05-24T18:26:30Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。