論文の概要: 3D-MoE: A Mixture-of-Experts Multi-modal LLM for 3D Vision and Pose Diffusion via Rectified Flow
- arxiv url: http://arxiv.org/abs/2501.16698v1
- Date: Tue, 28 Jan 2025 04:31:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:42:22.432671
- Title: 3D-MoE: A Mixture-of-Experts Multi-modal LLM for 3D Vision and Pose Diffusion via Rectified Flow
- Title(参考訳): 3D-MoE: 変形流による3次元視覚・空間拡散のための実験用多モードLCM
- Authors: Yueen Ma, Yuzheng Zhuang, Jianye Hao, Irwin King,
- Abstract要約: 3次元の視覚と空間的推論は、長い間、我々の3次元の世界を正確に知覚するのに好ましいと認識されてきた。
高品質な3Dデータ収集の難しさから,近年,この領域の研究が勢いを増している。
我々は,既存の高密度活性化LDMをマルチモーダルデータ処理に有効であることが証明されたMix-of-experts(MoE)モデルに変換することを提案する。
- 参考スコア(独自算出の注目度): 69.94527569577295
- License:
- Abstract: 3D vision and spatial reasoning have long been recognized as preferable for accurately perceiving our three-dimensional world, especially when compared with traditional visual reasoning based on 2D images. Due to the difficulties in collecting high-quality 3D data, research in this area has only recently gained momentum. With the advent of powerful large language models (LLMs), multi-modal LLMs for 3D vision have been developed over the past few years. However, most of these models focus primarily on the vision encoder for 3D data. In this paper, we propose converting existing densely activated LLMs into mixture-of-experts (MoE) models, which have proven effective for multi-modal data processing. In addition to leveraging these models' instruction-following capabilities, we further enable embodied task planning by attaching a diffusion head, Pose-DiT, that employs a novel rectified flow diffusion scheduler. Experimental results on 3D question answering and task-planning tasks demonstrate that our 3D-MoE framework achieves improved performance with fewer activated parameters.
- Abstract(参考訳): 3次元視覚と空間的推論は、特に従来の2次元画像に基づく視覚的推論と比較して、我々の3次元世界を正確に知覚するのに好まれている。
高品質な3Dデータ収集の難しさから,近年,この領域の研究が勢いを増している。
強力な大規模言語モデル(LLM)の出現に伴い、3DビジョンのためのマルチモーダルLLMがここ数年開発されてきた。
しかし、これらのモデルのほとんどは、主に3Dデータのビジョンエンコーダに焦点を当てている。
本稿では,マルチモーダルデータ処理に有効であることが証明された,既存の高密度活性化LDMをMix-of-experts(MoE)モデルに変換することを提案する。
これらのモデルの命令追従機能を活用することに加えて、新しい修正フロー拡散スケジューラを用いた拡散ヘッドであるPose-DiTを付加することで、さらに具体化タスク計画を可能にする。
3D質問応答とタスク計画タスクの実験結果から,我々の3D-MoEフレームワークは,活性化パラメータが少なく,性能が向上することを示した。
関連論文リスト
- 3UR-LLM: An End-to-End Multimodal Large Language Model for 3D Scene Understanding [49.15555885075644]
オープンソースの2D MLLMとLCMをベースとしたパイプラインを開発し,高品質な3Dテキストペアを生成する。
本稿では,3次元シーンの正確な解釈を目的としたエンドツーエンド3次元MLLMである3UR-LLMモデルを紹介する。
論文 参考訳(メタデータ) (2025-01-14T03:50:23Z) - Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding [19.382210260928776]
Video-3D LLMは3Dシーンをダイナミックビデオとして扱い、3D位置エンコーディングをこれらの表現に組み込む。
本モデルは,複数の3次元シーン理解ベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-30T14:28:53Z) - Diffusion Models in 3D Vision: A Survey [11.116658321394755]
本稿では,3次元視覚タスクの拡散モデルを利用する最先端のアプローチについて概説する。
これらのアプローチには、3Dオブジェクト生成、形状補完、点雲再構成、シーン理解が含まれる。
本稿では,計算効率の向上,マルチモーダル融合の強化,大規模事前学習の活用などの可能性について論じる。
論文 参考訳(メタデータ) (2024-10-07T04:12:23Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - M3DBench: Let's Instruct Large Models with Multi-modal 3D Prompts [30.571811801090224]
M3DBenchと呼ばれる包括的3Dインストラクションフォローデータセットを導入する。
テキスト、画像、3Dオブジェクト、その他の視覚的プロンプトとインターリーブされた一般的なマルチモーダル命令をサポートする。
地域レベルでもシーンレベルでも多様な3Dタスクを統一し、現実世界の3D環境における様々な基本的な能力をカバーしている。
論文 参考訳(メタデータ) (2023-12-17T16:53:30Z) - An Embodied Generalist Agent in 3D World [67.16935110789528]
本稿では,3次元世界における知覚,接地,推論,計画,行動に優れた多モードジェネリストエージェントLEOを紹介する。
我々は,多種多様なオブジェクトレベルおよびシーンレベルのタスクからなる大規模データセットを収集する。
3Dキャプション,質問応答,具体的推論,ナビゲーション,操作など,多岐にわたるLEOの卓越した習熟度を実証した。
論文 参考訳(メタデータ) (2023-11-18T01:21:38Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。