Fugu-MT 論文翻訳(概要): Efficient Encoder-Free Fourier-based 3D Large Multimodal Model

論文の概要: Efficient Encoder-Free Fourier-based 3D Large Multimodal Model

arxiv url: http://arxiv.org/abs/2602.23153v1
Date: Thu, 26 Feb 2026 16:16:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.767619
Title: Efficient Encoder-Free Fourier-based 3D Large Multimodal Model
Title（参考訳）: 効率的なエンコーダフリーフーリエベース3次元大規模マルチモーダルモデル
Authors: Guofeng Mei, Wei Lin, Luigi Riz, Yujiao Wu, Yiming Wang, Fabio Poiesi,
Abstract要約: 3Dデータを処理する大規模マルチモーダルモデル(LMM)は通常、幾何学的特徴を抽出するために重く訓練済みのビジュアルエンコーダに依存している。我々は,最初の効率的なエンコーダレス3DシーンLMMであるFase3Dを提案する。
参考スコア（独自算出の注目度）: 22.758597018527244
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Multimodal Models (LMMs) that process 3D data typically rely on heavy, pre-trained visual encoders to extract geometric features. While recent 2D LMMs have begun to eliminate such encoders for efficiency and scalability, extending this paradigm to 3D remains challenging due to the unordered and large-scale nature of point clouds. This leaves a critical unanswered question: How can we design an LMM that tokenizes unordered 3D data effectively and efficiently without a cumbersome encoder? We propose Fase3D, the first efficient encoder-free Fourier-based 3D scene LMM. Fase3D tackles the challenges of scalability and permutation invariance with a novel tokenizer that combines point cloud serialization and the Fast Fourier Transform (FFT) to approximate self-attention. This design enables an effective and computationally minimal architecture, built upon three key innovations: First, we represent large scenes compactly via structured superpoints. Second, our space-filling curve serialization followed by an FFT enables efficient global context modeling and graph-based token merging. Lastly, our Fourier-augmented LoRA adapters inject global frequency-aware interactions into the LLMs at a negligible cost. Fase3D achieves performance comparable to encoder-based 3D LMMs while being significantly more efficient in computation and parameters. Project website: https://tev-fbk.github.io/Fase3D.
Abstract（参考訳）: 3Dデータを処理する大規模マルチモーダルモデル(LMM)は通常、幾何学的特徴を抽出するために重く訓練済みのビジュアルエンコーダに依存している。最近の2D LMMは、効率性とスケーラビリティのために、このようなエンコーダを排除し始めているが、このパラダイムを3Dに拡張することは、未秩序で大規模な点雲の性質のため、依然として困難である。難解なエンコーダを使わずに、秩序のない3Dデータを効果的に効率的にトークン化するLMMをどうやって設計できるのか? 本稿では,最初の効率的なエンコーダフリーなFourierベースの3DシーンLMMであるFase3Dを提案する。 Fase3Dは、ポイントクラウドシリアライゼーションとFast Fourier Transform(FFT)を組み合わせて自己アテンションを近似する新しいトークンライザによって、スケーラビリティと置換不変性の課題に取り組む。この設計は,3つの重要なイノベーションに基づいて構築された,効果的で最小限のアーキテクチャを実現する。第2に、FFTによる空間充足曲線のシリアライゼーションにより、効率的なグローバルコンテキストモデリングとグラフベースのトークンマージが可能となる。最後に、Fourier-augmented LoRAアダプタは、LLMにグローバルな周波数認識インタラクションを無視可能なコストで注入する。 Fase3Dは、エンコーダベースの3D LMMに匹敵する性能を達成し、計算やパラメーターにおいてはるかに効率的である。プロジェクトサイト: https://tev-fbk.github.io/Fase3D。

関連論文リスト

PatchAlign3D: Local Feature Alignment for Dense 3D Shape understanding [67.15800065888887]
現在の3次元形状の基礎モデルは、グローバルなタスク(検索、分類)において優れているが、局所的な部分レベルの推論には不十分である。本稿では,ポイントクラウドから直接,言語対応のパッチレベル機能を生成するエンコーダのみの3Dモデルを提案する。我々の3Dエンコーダは、テストタイムのマルチビューレンダリングなしで高速なシングルパス推論によるゼロショット3D部分分割を実現する。
論文参考訳（メタデータ） (2026-01-05T18:55:45Z)
Lemon: A Unified and Scalable 3D Multimodal Model for Universal Spatial Understanding [80.66591664266744]
Lemonは3Dポイントクラウドパッチと言語トークンを単一のシーケンスとして処理する統合トランスフォーマーアーキテクチャである。 3次元データの複雑さに対処するため,空間的コンテキストを保存するための構造化パッチやトークン化方式を開発した。 Lemonは、総合的な3D理解と推論タスクにまたがって、最先端のパフォーマンスを確立する。
論文参考訳（メタデータ） (2025-12-14T20:02:43Z)
How Many Tokens Do 3D Point Cloud Transformer Architectures Really Need? [56.09721366421187]
トークンは極めて冗長であり、実質的な非効率性をもたらすことを示す。本稿では,最大90～95%のトークン数を削減できるグローバルなグラフトークンマージ手法であるgitmerge3Dを紹介する。この研究は、大規模な3Dトランスフォーマーモデルの冗長性を初めて評価し、より効率的な3D基盤アーキテクチャの開発に関する洞察を提供する。
論文参考訳（メタデータ） (2025-11-07T17:38:01Z)
TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP [52.79100775328595]
3Dビジュアルグラウンドティングは、人間の指示に基づいて現実世界の3D環境における視覚情報を理解するための具体的エージェントである。既存の3Dビジュアルグラウンド法は、異なるモダリティの異なるエンコーダに依存している。本稿では,3つのモードすべてを処理するために,統合された2次元事前学習型マルチモーダルネットワークを提案する。
論文参考訳（メタデータ） (2025-07-20T10:28:06Z)
AdaToken-3D: Dynamic Spatial Gating for Efficient 3D Large Multimodal-Models Reasoning [27.40106634796608]
大規模マルチモーダルモデル(LMM)は、ディープラーニングにおいて重要な研究対象となっている。現在、3D LMMは何千もの空間トークンを多モーダル推論に用いており、重要な非効率性に悩まされている。冗長トークンを動的に生成する適応型空間トークン最適化フレームワークであるAdaToken-3Dを提案する。
論文参考訳（メタデータ） (2025-05-19T07:11:07Z)
Exploring the Potential of Encoder-free Architectures in 3D LMMs [40.43146298677712]
本稿では,エンコーダをベースとした3次元大規模マルチモーダルモデルの課題を軽減するために,エンコーダフリーアーキテクチャの可能性を初めて包括的に検討する。以上の結果から,エンコーダフリーアーキテクチャは3次元理解分野におけるエンコーダベースアーキテクチャの代替として有望であることが示された。
論文参考訳（メタデータ） (2025-02-13T18:59:45Z)
3D-LLaVA: Towards Generalist 3D LMMs with Omni Superpoint Transformer [33.42183318484381]
3D-LLaVAは,3D世界の理解,推論,対話において,インテリジェントなアシスタントとして機能するように設計された,シンプルかつ強力な3D LMMである。 3D-LLaVAのコアには、3つの機能を統合する新しいOmni Superpoint Transformer (OST)がある。
論文参考訳（メタデータ） (2025-01-02T09:33:13Z)
YOLOO: You Only Learn from Others Once [27.222676133154284]
我々は,新しいマルチモーダル3DMOTパラダイムである textbyoLOO を提案する。 YOLOOはポイントクラウドエンコーダに、ポイントクラウドや他のモダリティ(画像やテキストキューなど)から統一されたトリモーダル表現(UTR)を一度に学習する権限を与える。特に、YOLOOは、2つのコアコンポーネント: 統一三モードエンコーダ(UTEnc)とフレキシブルな幾何学的制約(F-GC)モジュール。
論文参考訳（メタデータ） (2024-09-01T05:09:32Z)
EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文参考訳（メタデータ） (2024-08-21T17:57:06Z)
Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文参考訳（メタデータ） (2024-04-11T17:59:45Z)
Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文参考訳（メタデータ） (2020-08-26T12:24:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。