論文の概要: AdaToken-3D: Dynamic Spatial Gating for Efficient 3D Large Multimodal-Models Reasoning
- arxiv url: http://arxiv.org/abs/2505.12782v1
- Date: Mon, 19 May 2025 07:11:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.458461
- Title: AdaToken-3D: Dynamic Spatial Gating for Efficient 3D Large Multimodal-Models Reasoning
- Title(参考訳): AdaToken-3D:3次元大規模マルチモーダルモデル推論のための動的空間ゲーティング
- Authors: Kai Zhang, Xingyu Chen, Xiaofeng Zhang,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は、ディープラーニングにおいて重要な研究対象となっている。
現在、3D LMMは何千もの空間トークンを多モーダル推論に用いており、重要な非効率性に悩まされている。
冗長トークンを動的に生成する適応型空間トークン最適化フレームワークであるAdaToken-3Dを提案する。
- 参考スコア(独自算出の注目度): 27.40106634796608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Models (LMMs) have become a pivotal research focus in deep learning, demonstrating remarkable capabilities in 3D scene understanding. However, current 3D LMMs employing thousands of spatial tokens for multimodal reasoning suffer from critical inefficiencies: excessive computational overhead and redundant information flows. Unlike 2D VLMs processing single images, 3D LMMs exhibit inherent architectural redundancy due to the heterogeneous mechanisms between spatial tokens and visual tokens. To address this challenge, we propose AdaToken-3D, an adaptive spatial token optimization framework that dynamically prunes redundant tokens through spatial contribution analysis. Our method automatically tailors pruning strategies to different 3D LMM architectures by quantifying token-level information flows via attention pattern mining. Extensive experiments on LLaVA-3D (a 7B parameter 3D-LMM) demonstrate that AdaToken-3D achieves 21\% faster inference speed and 63\% FLOPs reduction while maintaining original task accuracy. Beyond efficiency gains, this work systematically investigates redundancy patterns in multimodal spatial information flows through quantitative token interaction analysis. Our findings reveal that over 60\% of spatial tokens contribute minimally ($<$5\%) to the final predictions, establishing theoretical foundations for efficient 3D multimodal learning.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)はディープラーニングにおいて重要な研究対象となり、3Dシーン理解において顕著な能力を発揮している。
しかし、現在の3D LMMでは、過剰な計算オーバーヘッドと冗長な情報フローという、何千もの空間トークンをマルチモーダル推論に用いている。
単一の画像を処理する2D VLMとは異なり、3D LMMは空間トークンと視覚トークンの間の不均一な機構のため、固有のアーキテクチャ上の冗長性を示す。
この課題に対処するため,空間コントリビューション分析により冗長トークンを動的に生成する適応型空間トークン最適化フレームワークであるAdaToken-3Dを提案する。
本手法は,注目パターンマイニングによるトークンレベルの情報フローを定量化することにより,異なる3次元LMMアーキテクチャに対するプルーニング戦略を自動的に調整する。
LLaVA-3D(7Bパラメータ3D-LMM)の広範囲な実験により、AdaToken-3Dは、元のタスク精度を維持しつつ、21倍高速な推論速度と63倍のFLOPs削減を実現していることが示された。
本研究は,効率向上以外にも,定量的トークン相互作用解析を通じて多モーダル空間情報の流れの冗長パターンを体系的に研究する。
その結果,60 %以上の空間トークンが最終予測に最小限($5 %)貢献し,効率的な3次元マルチモーダル学習の理論的基盤を確立した。
関連論文リスト
- econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。
筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2025-04-08T13:12:31Z) - MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [87.30919771444117]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - 3UR-LLM: An End-to-End Multimodal Large Language Model for 3D Scene Understanding [49.15555885075644]
オープンソースの2D MLLMとLCMをベースとしたパイプラインを開発し,高品質な3Dテキストペアを生成する。
本稿では,3次元シーンの正確な解釈を目的としたエンドツーエンド3次元MLLMである3UR-LLMモデルを紹介する。
論文 参考訳(メタデータ) (2025-01-14T03:50:23Z) - Optimized CNNs for Rapid 3D Point Cloud Object Recognition [2.6462438855724826]
本研究では,畳み込みニューラルネットワーク(CNN)を用いて3次元点雲内の物体を効率的に検出する手法を提案する。
提案手法では特徴中心の投票機構を採用して,入力データで観測される典型的な疎度を生かした畳み込み層を構築する。
Vote3Deepモデルは、わずか3層で、レーザーのみのアプローチとレーザービジョンを組み合わせた手法の両方において、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2024-12-03T21:42:30Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - Spatiotemporal Modeling Encounters 3D Medical Image Analysis:
Slice-Shift UNet with Multi-View Fusion [0.0]
本稿では,2次元CNNにおける3次元特徴をエンコードする2次元モデルSlice SHift UNetを提案する。
より正確にマルチビュー機能は、ボリュームの3次元平面に沿って2次元の畳み込みを実行することで協調的に学習される。
提案手法の有効性は,多モード腹部多臓器軸 (AMOS) と Cranial Vault (BTCV) データセットを越えたマルチアトラスラベリング (Multi-Atlas Labeling Beyond the Cranial Vault) で検証した。
論文 参考訳(メタデータ) (2023-07-24T14:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。