論文の概要: Efficient Encoder-Free Fourier-based 3D Large Multimodal Model
- arxiv url: http://arxiv.org/abs/2602.23153v1
- Date: Thu, 26 Feb 2026 16:16:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.767619
- Title: Efficient Encoder-Free Fourier-based 3D Large Multimodal Model
- Title(参考訳): 効率的なエンコーダフリーフーリエベース3次元大規模マルチモーダルモデル
- Authors: Guofeng Mei, Wei Lin, Luigi Riz, Yujiao Wu, Yiming Wang, Fabio Poiesi,
- Abstract要約: 3Dデータを処理する大規模マルチモーダルモデル(LMM)は通常、幾何学的特徴を抽出するために重く訓練済みのビジュアルエンコーダに依存している。
我々は,最初の効率的なエンコーダレス3DシーンLMMであるFase3Dを提案する。
- 参考スコア(独自算出の注目度): 22.758597018527244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Multimodal Models (LMMs) that process 3D data typically rely on heavy, pre-trained visual encoders to extract geometric features. While recent 2D LMMs have begun to eliminate such encoders for efficiency and scalability, extending this paradigm to 3D remains challenging due to the unordered and large-scale nature of point clouds. This leaves a critical unanswered question: How can we design an LMM that tokenizes unordered 3D data effectively and efficiently without a cumbersome encoder? We propose Fase3D, the first efficient encoder-free Fourier-based 3D scene LMM. Fase3D tackles the challenges of scalability and permutation invariance with a novel tokenizer that combines point cloud serialization and the Fast Fourier Transform (FFT) to approximate self-attention. This design enables an effective and computationally minimal architecture, built upon three key innovations: First, we represent large scenes compactly via structured superpoints. Second, our space-filling curve serialization followed by an FFT enables efficient global context modeling and graph-based token merging. Lastly, our Fourier-augmented LoRA adapters inject global frequency-aware interactions into the LLMs at a negligible cost. Fase3D achieves performance comparable to encoder-based 3D LMMs while being significantly more efficient in computation and parameters. Project website: https://tev-fbk.github.io/Fase3D.
- Abstract(参考訳): 3Dデータを処理する大規模マルチモーダルモデル(LMM)は通常、幾何学的特徴を抽出するために重く訓練済みのビジュアルエンコーダに依存している。
最近の2D LMMは、効率性とスケーラビリティのために、このようなエンコーダを排除し始めているが、このパラダイムを3Dに拡張することは、未秩序で大規模な点雲の性質のため、依然として困難である。
難解なエンコーダを使わずに、秩序のない3Dデータを効果的に効率的にトークン化するLMMをどうやって設計できるのか?
本稿では,最初の効率的なエンコーダフリーなFourierベースの3DシーンLMMであるFase3Dを提案する。
Fase3Dは、ポイントクラウドシリアライゼーションとFast Fourier Transform(FFT)を組み合わせて自己アテンションを近似する新しいトークンライザによって、スケーラビリティと置換不変性の課題に取り組む。
この設計は,3つの重要なイノベーションに基づいて構築された,効果的で最小限のアーキテクチャを実現する。
第2に、FFTによる空間充足曲線のシリアライゼーションにより、効率的なグローバルコンテキストモデリングとグラフベースのトークンマージが可能となる。
最後に、Fourier-augmented LoRAアダプタは、LLMにグローバルな周波数認識インタラクションを無視可能なコストで注入する。
Fase3Dは、エンコーダベースの3D LMMに匹敵する性能を達成し、計算やパラメーターにおいてはるかに効率的である。
プロジェクトサイト: https://tev-fbk.github.io/Fase3D。
関連論文リスト
- PatchAlign3D: Local Feature Alignment for Dense 3D Shape understanding [67.15800065888887]
現在の3次元形状の基礎モデルは、グローバルなタスク(検索、分類)において優れているが、局所的な部分レベルの推論には不十分である。
本稿では,ポイントクラウドから直接,言語対応のパッチレベル機能を生成するエンコーダのみの3Dモデルを提案する。
我々の3Dエンコーダは、テストタイムのマルチビューレンダリングなしで高速なシングルパス推論によるゼロショット3D部分分割を実現する。
論文 参考訳(メタデータ) (2026-01-05T18:55:45Z) - AdaToken-3D: Dynamic Spatial Gating for Efficient 3D Large Multimodal-Models Reasoning [27.40106634796608]
大規模マルチモーダルモデル(LMM)は、ディープラーニングにおいて重要な研究対象となっている。
現在、3D LMMは何千もの空間トークンを多モーダル推論に用いており、重要な非効率性に悩まされている。
冗長トークンを動的に生成する適応型空間トークン最適化フレームワークであるAdaToken-3Dを提案する。
論文 参考訳(メタデータ) (2025-05-19T07:11:07Z) - Exploring the Potential of Encoder-free Architectures in 3D LMMs [40.43146298677712]
本稿では,エンコーダをベースとした3次元大規模マルチモーダルモデルの課題を軽減するために,エンコーダフリーアーキテクチャの可能性を初めて包括的に検討する。
以上の結果から,エンコーダフリーアーキテクチャは3次元理解分野におけるエンコーダベースアーキテクチャの代替として有望であることが示された。
論文 参考訳(メタデータ) (2025-02-13T18:59:45Z) - YOLOO: You Only Learn from Others Once [27.222676133154284]
我々は,新しいマルチモーダル3DMOTパラダイムである textbyoLOO を提案する。
YOLOOはポイントクラウドエンコーダに、ポイントクラウドや他のモダリティ(画像やテキストキューなど)から統一されたトリモーダル表現(UTR)を一度に学習する権限を与える。
特に、YOLOOは、2つのコアコンポーネント: 統一三モードエンコーダ(UTEnc)とフレキシブルな幾何学的制約(F-GC)モジュール。
論文 参考訳(メタデータ) (2024-09-01T05:09:32Z) - EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。
入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。