Fugu-MT 論文翻訳(概要): Efficient3D: A Unified Framework for Adaptive and Debiased Token Reduction in 3D MLLMs

論文の概要: Efficient3D: A Unified Framework for Adaptive and Debiased Token Reduction in 3D MLLMs

arxiv url: http://arxiv.org/abs/2604.02689v1
Date: Fri, 03 Apr 2026 03:32:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 17:20:24.304358
Title: Efficient3D: A Unified Framework for Adaptive and Debiased Token Reduction in 3D MLLMs
Title（参考訳）: Efficient3D:3D MLLMにおける適応型および脱バイアス型トーケン低減のための統一フレームワーク
Authors: Yuhui Lin, Siyue Yu, Yuxing Yang, Guangliang Cheng, Jimin Xiao,
Abstract要約: 本稿では,視覚的トークンプルーニングのための統合フレームワークであるEfficient3Dを提案する。 Scan2CapデータセットのCIDErは+2.57%向上した。
参考スコア（独自算出の注目度）: 37.792545310147965
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent advances in Multimodal Large Language Models (MLLMs) have expanded reasoning capabilities into 3D domains, enabling fine-grained spatial understanding. However, the substantial size of 3D MLLMs and the high dimensionality of input features introduce considerable inference overhead, which limits practical deployment on resource constrained platforms. To overcome this limitation, this paper presents Efficient3D, a unified framework for visual token pruning that accelerates 3D MLLMs while maintaining competitive accuracy. The proposed framework introduces a Debiased Visual Token Importance Estimator (DVTIE) module, which considers the influence of shallow initial layers during attention aggregation, thereby producing more reliable importance predictions for visual tokens. In addition, an Adaptive Token Rebalancing (ATR) strategy is developed to dynamically adjust pruning strength based on scene complexity, preserving semantic completeness and maintaining balanced attention across layers. Together, they enable context-aware token reduction that maintains essential semantics with lower computation. Comprehensive experiments conducted on five representative 3D vision and language benchmarks, including ScanRefer, Multi3DRefer, Scan2Cap, ScanQA, and SQA3D, demonstrate that Efficient3D achieves superior performance compared with unpruned baselines, with a +2.57% CIDEr improvement on the Scan2Cap dataset. Therefore, Efficient3D provides a scalable and effective solution for efficient inference in 3D MLLMs. The code is released at: https://github.com/sol924/Efficient3D
Abstract（参考訳）: MLLM(Multimodal Large Language Models)の最近の進歩は、推論能力を3Dドメインに拡張し、きめ細かい空間的理解を可能にしている。しかし、3次元MLLMのかなりのサイズと入力機能の高次元性は、リソース制約されたプラットフォームへの実際のデプロイを制限するかなりの推測オーバーヘッドをもたらす。この制限を克服するために、競争精度を維持しながら3D MLLMを高速化する視覚トークンプルーニングのための統合フレームワークであるEfficient3Dを提案する。提案するフレームワークでは,注目集約中の浅い初期層の影響を考慮し,より信頼性の高い視覚トークンの重要度予測を行うDVTIE (Debiased Visual Token Importance Estimator) モジュールが導入された。さらに、シーンの複雑さに基づいてプルーニング強度を動的に調整し、セマンティックな完全性を保ち、層間のバランスの取れた注意を維持するためのアダプティブ・トークン・リバランシング(ATR)戦略を開発した。同時に、より少ない計算で本質的なセマンティクスを維持する、コンテキスト対応トークンの削減を可能にする。 ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dを含む5つの代表的な3Dビジョンと言語ベンチマークで実施された総合的な実験は、Efficient3DがScan2Capデータセットの+2.57%のCIDEr改善により、未処理のベースラインよりも優れたパフォーマンスを達成することを示した。したがって、Efficient3Dは3D MLLMにおける効率的な推論のためのスケーラブルで効果的なソリューションを提供する。コードは、https://github.com/sol924/Efficient3Dでリリースされます。

関連論文リスト

Point Cloud as a Foreign Language for Multi-modal Large Language Model [22.63554774942836]
SAGEは、トレーニング済みの3Dエンコーダに頼ることなく、生の点雲を直接処理する最初のエンドツーエンドの3D MLLMである。提案手法では, 幾何サンプリングと近傍凝集とベクトル量子化を組み合わせた軽量な3次元トークン化器を導入し, 点雲を離散トークンに変換する。
論文参考訳（メタデータ） (2026-03-10T04:22:40Z)
Lemon: A Unified and Scalable 3D Multimodal Model for Universal Spatial Understanding [80.66591664266744]
Lemonは3Dポイントクラウドパッチと言語トークンを単一のシーケンスとして処理する統合トランスフォーマーアーキテクチャである。 3次元データの複雑さに対処するため,空間的コンテキストを保存するための構造化パッチやトークン化方式を開発した。 Lemonは、総合的な3D理解と推論タスクにまたがって、最先端のパフォーマンスを確立する。
論文参考訳（メタデータ） (2025-12-14T20:02:43Z)
Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文参考訳（メタデータ） (2025-11-14T04:16:09Z)
HCC-3D: Hierarchical Compensatory Compression for 98% 3D Token Reduction in Vision-Language Models [19.63602285036466]
ポイントクラウドとテキストデータ間のマルチモーダル推論を可能にするために、VLM(Vision-Language Models)を活用している。現在の3D-VLMは、3Dポイントの雲を直接3Dトークンに埋め込む。このフレームワークはアプリケーションを制限する計算コストが非常に高く、LLM(Large Language Model)の全ての3Dトークンの処理にボトルネックがあることを特定します。重要な情報の完全性を維持しながら、3Dトークンによってもたらされる計算オーバーヘッドをどうやって削減できるのか?
論文参考訳（メタデータ） (2025-11-13T02:28:10Z)
Point Linguist Model: Segment Any Object via Bridged Large 3D-Language Model [51.02616473941499]
大規模言語モデル(LLM)による3Dオブジェクトのセグメンテーションは、その広範囲なセマンティクス、タスクの柔軟性、強力な一般化により、広く普及しているパラダイムとなっている。 LLMは高レベルなセマンティックトークンを処理し、3次元の点雲は密度の高い幾何学的構造のみを伝達する。本稿では,LLMと高密度3次元点雲の間の表現ギャップを橋渡しする一般フレームワークであるポイント言語モデル(PLM)を提案する。
論文参考訳（メタデータ） (2025-09-09T15:01:28Z)
Fast3D: Accelerating 3D Multi-modal Large Language Models for Efficient 3D Scene Understanding [24.964149224068027]
我々は,3D MLLM のためのプラグ&プレイ型ビジュアルトークン解析フレームワークである Fast3D を提案する。グローバルアテンション予測(GAP)は,目標モデルのグローバルアテンション分布を予測し,トークンの効果的な重要度推定を可能にする。 SAPは、注意に基づく複雑性評価を通じて動的トークン予算を導入し、レイヤーワイドプルーニング比率を自動的に調整する。
論文参考訳（メタデータ） (2025-07-12T16:29:02Z)
AdaToken-3D: Dynamic Spatial Gating for Efficient 3D Large Multimodal-Models Reasoning [27.40106634796608]
大規模マルチモーダルモデル(LMM)は、ディープラーニングにおいて重要な研究対象となっている。現在、3D LMMは何千もの空間トークンを多モーダル推論に用いており、重要な非効率性に悩まされている。冗長トークンを動的に生成する適応型空間トークン最適化フレームワークであるAdaToken-3Dを提案する。
論文参考訳（メタデータ） (2025-05-19T07:11:07Z)
LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文参考訳（メタデータ） (2024-08-14T10:00:16Z)
MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文参考訳（メタデータ） (2024-06-13T17:59:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。