論文の概要: Exploring the Potential of Encoder-free Architectures in 3D LMMs
- arxiv url: http://arxiv.org/abs/2502.09620v1
- Date: Thu, 13 Feb 2025 18:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:51:02.267243
- Title: Exploring the Potential of Encoder-free Architectures in 3D LMMs
- Title(参考訳): 3次元LMMにおけるエンコーダフリーアーキテクチャの可能性を探る
- Authors: Yiwen Tang, Zoey Guo, Zhuhao Wang, Ray Zhang, Qizhi Chen, Junli Liu, Delin Qu, Zhigang Wang, Dong Wang, Xuelong Li, Bin Zhao,
- Abstract要約: 本稿では,エンコーダをベースとした3次元大規模マルチモーダルモデルの課題を克服するために,エンコーダフリーアーキテクチャの可能性を初めて包括的に検討する。
以上の結果から,エンコーダフリーアーキテクチャは3次元理解分野におけるエンコーダベースアーキテクチャの代替として有望であることが示された。
- 参考スコア(独自算出の注目度): 40.43146298677712
- License:
- Abstract: Encoder-free architectures have been preliminarily explored in the 2D visual domain, yet it remains an open question whether they can be effectively applied to 3D understanding scenarios. In this paper, we present the first comprehensive investigation into the potential of encoder-free architectures to overcome the challenges of encoder-based 3D Large Multimodal Models (LMMs). These challenges include the failure to adapt to varying point cloud resolutions and the point features from the encoder not meeting the semantic needs of Large Language Models (LLMs). We identify key aspects for 3D LMMs to remove the encoder and enable the LLM to assume the role of the 3D encoder: 1) We propose the LLM-embedded Semantic Encoding strategy in the pre-training stage, exploring the effects of various point cloud self-supervised losses. And we present the Hybrid Semantic Loss to extract high-level semantics. 2) We introduce the Hierarchical Geometry Aggregation strategy in the instruction tuning stage. This incorporates inductive bias into the LLM early layers to focus on the local details of the point clouds. To the end, we present the first Encoder-free 3D LMM, ENEL. Our 7B model rivals the current state-of-the-art model, ShapeLLM-13B, achieving 55.0%, 50.92%, and 42.7% on the classification, captioning, and VQA tasks, respectively. Our results demonstrate that the encoder-free architecture is highly promising for replacing encoder-based architectures in the field of 3D understanding. The code is released at https://github.com/Ivan-Tang-3D/ENEL
- Abstract(参考訳): エンコーダフリーアーキテクチャは2次元視覚領域で事前に検討されてきたが、これらが3次元理解シナリオに効果的に適用できるかどうかには疑問が残る。
本稿では,エンコーダをベースとした3次元大規模マルチモーダルモデル(LMM)の課題を克服するために,エンコーダフリーアーキテクチャの可能性を初めて包括的に検討する。
これらの課題には、さまざまなポイントクラウド解決に適応できないことや、Large Language Models (LLMs) のセマンティックニーズを満たしていないエンコーダのポイント機能などが含まれる。
我々は,3次元LMMにおいて,エンコーダを除去し,LLMが3次元エンコーダの役割を担えるようにするための重要な側面を同定する。
1) 事前学習段階におけるLLM埋め込みセマンティックエンコーディング戦略を提案し, 各種点雲の自己管理損失の影響について検討した。
そして,ハイブリット・セマンティック・ロス(Hybrid Semantic Loss)を提案する。
2) 指導指導段階において階層的幾何集合戦略を導入する。
これは、ポイントクラウドの局所的な詳細に焦点を合わせるために、LLMアーリーレイヤに誘導バイアスを組み込む。
最後に,Encoder-free 3D LMM,ENELを提案する。
我々の7Bモデルは現在の最先端モデルであるShapeLLM-13Bと競合し、それぞれ55.0%、50.92%、42.7%の分類、キャプション、VQAタスクを達成しています。
以上の結果から,エンコーダフリーアーキテクチャは3次元理解分野におけるエンコーダベースアーキテクチャの代替として有望であることが示された。
コードはhttps://github.com/Ivan-Tang-3D/ENELで公開されている。
関連論文リスト
- Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving? [66.6886931183372]
我々は,LDMと1層線形プロジェクタを接続する3Dトークン化器として,DETR方式の3Dパーセプトロンを導入する。
その単純さにもかかわらず、Atlasは3D検出とエゴ計画の両方で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-05-28T16:57:44Z) - Unified Scene Representation and Reconstruction for 3D Large Language Models [40.693839066536505]
既存のアプローチは、基底真理(GT)幾何または補助モデルによって再構成された3次元シーンから点雲を抽出する。
凍結した2次元基礎モデルを用いて、Uni3DR2の3次元幾何学的および意味的認識表現特徴を抽出する。
我々の学習した3D表現は、再構築プロセスに貢献するだけでなく、LLMにとって貴重な知識も提供します。
論文 参考訳(メタデータ) (2024-04-19T17:58:04Z) - Large Generative Model Assisted 3D Semantic Communication [51.17527319441436]
本稿では,GAM-3DSC(Generative AI Model Assisted 3D SC)システムを提案する。
まず,ユーザ要求に基づいて3次元シナリオからキーセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティクスを抽出する。
次に、これらの多視点画像を符号化するための適応意味圧縮モデル(ASCM)を提案する。
最後に、物理チャネルのチャネル状態情報(CSI)を推定・精査するために、条件付き生成逆数ネットワークと拡散モデル支援チャネル推定(GDCE)を設計する。
論文 参考訳(メタデータ) (2024-03-09T03:33:07Z) - Correlation Pyramid Network for 3D Single Object Tracking [16.694809791177263]
本稿では,統合エンコーダとモーションファクターデコーダを備えた新しい相関ピラミッドネットワーク(CorpNet)を提案する。
CorpNetは、リアルタイムに実行しながら最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-05-16T06:07:20Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - Encoder-decoder with Multi-level Attention for 3D Human Shape and Pose
Estimation [61.98690211671168]
本稿では,マルチレベルアテンション・デコーダ・ネットワーク(MAED)を提案する。
3DPWのトレーニングセットにより、MAEDはPA-MPJPEの6.2、7.2、2.4mmの従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-09-06T09:06:17Z) - Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。
本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。
提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-08-26T12:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。