論文の概要: HCC-3D: Hierarchical Compensatory Compression for 98% 3D Token Reduction in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.09883v1
- Date: Fri, 14 Nov 2025 01:15:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.548932
- Title: HCC-3D: Hierarchical Compensatory Compression for 98% 3D Token Reduction in Vision-Language Models
- Title(参考訳): HCC-3D:視覚言語モデルにおける98%の3次元トークン削減のための階層的補償圧縮
- Authors: Liheng Zhang, Jin Wang, Hui Li, Bingfeng Zhang, Weifeng Liu,
- Abstract要約: ポイントクラウドとテキストデータ間のマルチモーダル推論を可能にするために、VLM(Vision-Language Models)を活用している。
現在の3D-VLMは、3Dポイントの雲を直接3Dトークンに埋め込む。
このフレームワークはアプリケーションを制限する計算コストが非常に高く、LLM(Large Language Model)の全ての3Dトークンの処理にボトルネックがあることを特定します。
重要な情報の完全性を維持しながら、3Dトークンによってもたらされる計算オーバーヘッドをどうやって削減できるのか?
- 参考スコア(独自算出の注目度): 19.63602285036466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D understanding has drawn significant attention recently, leveraging Vision-Language Models (VLMs) to enable multi-modal reasoning between point cloud and text data. Current 3D-VLMs directly embed the 3D point clouds into 3D tokens, following large 2D-VLMs with powerful reasoning capabilities. However, this framework has a great computational cost limiting its application, where we identify that the bottleneck lies in processing all 3D tokens in the Large Language Model (LLM) part. This raises the question: how can we reduce the computational overhead introduced by 3D tokens while preserving the integrity of their essential information? To address this question, we introduce Hierarchical Compensatory Compression (HCC-3D) to efficiently compress 3D tokens while maintaining critical detail retention. Specifically, we first propose a global structure compression (GSC), in which we design global queries to compress all 3D tokens into a few key tokens while keeping overall structural information. Then, to compensate for the information loss in GSC, we further propose an adaptive detail mining (ADM) module that selectively recompresses salient but under-attended features through complementary scoring. Extensive experiments demonstrate that HCC-3D not only achieves extreme compression ratios (approximately 98%) compared to previous 3D-VLMs, but also achieves new state-of-the-art performance, showing the great improvements on both efficiency and performance.
- Abstract(参考訳): ポイントクラウドとテキストデータ間のマルチモーダル推論を可能にするために、VLM(Vision-Language Models)を活用している。
現在の3D-VLMは、3Dポイントの雲を直接3Dトークンに埋め込む。
しかし、このフレームワークはアプリケーションを制限する計算コストが非常に高く、Large Language Model (LLM) の全ての3Dトークンを処理する際にボトルネックが生じることを認識しています。
重要な情報の完全性を維持しながら、3Dトークンによってもたらされる計算オーバーヘッドをどうやって削減できるのか?
この問題に対処するため,我々はHCC-3D(Hierarchical Compensatory Compression)を導入し,重要な詳細保持を維持しつつ3Dトークンを効率よく圧縮する。
具体的には、まずグローバルな構造圧縮(GSC)を提案し、グローバルなクエリを設計し、すべての3Dトークンをいくつかのキートークンに圧縮し、全体的な構造情報を保持する。
そして, GSCにおける情報損失を補うために, 相補的なスコアリングにより, 正当性, 過小性の特徴を選択的に再圧縮する適応ディテールマイニング (ADM) モジュールを提案する。
HCC-3Dは従来の3D-VLMと比較して極端な圧縮比(約98%)を達成するだけでなく、新しい最先端の性能も達成し、効率と性能の両方に大きな改善が見られた。
関連論文リスト
- 3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding [11.069512983766783]
大規模視覚言語モデル(VLM)は2次元視覚理解タスクにおいて大きな進歩を遂げている。
本稿では,3次元VLMの推論能力を高める基礎モデルである3D-R1を提案する。
大規模な実験によると、3D-R1は様々な3Dシーンベンチマークで平均10%改善されている。
論文 参考訳(メタデータ) (2025-07-31T11:59:06Z) - Fast3D: Accelerating 3D Multi-modal Large Language Models for Efficient 3D Scene Understanding [24.964149224068027]
我々は,3D MLLM のためのプラグ&プレイ型ビジュアルトークン解析フレームワークである Fast3D を提案する。
グローバルアテンション予測(GAP)は,目標モデルのグローバルアテンション分布を予測し,トークンの効果的な重要度推定を可能にする。
SAPは、注意に基づく複雑性評価を通じて動的トークン予算を導入し、レイヤーワイドプルーニング比率を自動的に調整する。
論文 参考訳(メタデータ) (2025-07-12T16:29:02Z) - Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs [72.11701578308804]
本稿では,最近の3次元視覚言語モデルを3次元オブジェクト中心,2次元イメージベース,および3次元シーン中心のアプローチに分類する。
3Dシーン中心のVLMと2Dシーン中心のVLMのアーキテクチャ的類似性にもかかわらず、最新の3Dオブジェクト中心と2Dイメージベースアプローチと比較して比較的低い性能を示した。
本研究は,これらのモデルが多モードアライメント機能を有する一方で,言語的手がかりに過度に頼り,頻繁な回答に過度に適合する傾向があることを示唆している。
論文 参考訳(メタデータ) (2025-06-05T17:56:12Z) - AdaToken-3D: Dynamic Spatial Gating for Efficient 3D Large Multimodal-Models Reasoning [27.40106634796608]
大規模マルチモーダルモデル(LMM)は、ディープラーニングにおいて重要な研究対象となっている。
現在、3D LMMは何千もの空間トークンを多モーダル推論に用いており、重要な非効率性に悩まされている。
冗長トークンを動的に生成する適応型空間トークン最適化フレームワークであるAdaToken-3Dを提案する。
論文 参考訳(メタデータ) (2025-05-19T07:11:07Z) - 3UR-LLM: An End-to-End Multimodal Large Language Model for 3D Scene Understanding [49.15555885075644]
オープンソースの2D MLLMとLCMをベースとしたパイプラインを開発し,高品質な3Dテキストペアを生成する。
本稿では,3次元シーンの正確な解釈を目的としたエンドツーエンド3次元MLLMである3UR-LLMモデルを紹介する。
論文 参考訳(メタデータ) (2025-01-14T03:50:23Z) - Make Your ViT-based Multi-view 3D Detectors Faster via Token Compression [78.93023152602525]
スロー推論速度は、自律運転のようなリアルタイムの要求の高いタスクにマルチビュー3D検出器を配置する上で最も重要な問題の一つである。
TokenCompression3D (ToC3D) と呼ばれるシンプルで効果的な方法を提案する。
提案手法は, 最大30%の推論スピードアップで最近のSOTAの性能をほぼ維持できる。
論文 参考訳(メタデータ) (2024-09-01T06:58:08Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。