論文の概要: Scaling LLaNA: Advancing NeRF-Language Understanding Through Large-Scale Training
- arxiv url: http://arxiv.org/abs/2504.13995v1
- Date: Fri, 18 Apr 2025 18:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 05:56:11.450279
- Title: Scaling LLaNA: Advancing NeRF-Language Understanding Through Large-Scale Training
- Title(参考訳): LLaNAのスケーリング: 大規模トレーニングによるNeRF-Language理解の促進
- Authors: Andrea Amaduzzi, Pierluigi Zama Ramirez, Giuseppe Lisanti, Samuele Salti, Luigi Di Stefano,
- Abstract要約: 我々は、NeRFキャプションやQ&Aといった新しいタスクを実行できる最初のMLLMであるLLaNAを紹介する。
我々はShapeNetおよびそれに基づいてトレーニングされた300K以上のNeRFからなる,最初の大規模NeRF言語データセットを構築した。
提案手法のNeRF理解能力を評価するためのベンチマークを開発した。
- 参考スコア(独自算出の注目度): 17.774826745566784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Multimodal Large Language Models (MLLMs) have shown remarkable capabilities in understanding both images and 3D data, yet these modalities face inherent limitations in comprehensively representing object geometry and appearance. Neural Radiance Fields (NeRFs) have emerged as a promising alternative, encoding both geometric and photorealistic properties within the weights of a simple Multi-Layer Perceptron (MLP). This work investigates the feasibility and effectiveness of ingesting NeRFs into an MLLM. We introduce LLaNA, the first MLLM able to perform new tasks such as NeRF captioning and Q\&A, by directly processing the weights of a NeRF's MLP. Notably, LLaNA is able to extract information about the represented objects without the need to render images or materialize 3D data structures. In addition, we build the first large-scale NeRF-language dataset, composed by more than 300K NeRFs trained on ShapeNet and Objaverse, with paired textual annotations that enable various NeRF-language tasks. Based on this dataset, we develop a benchmark to evaluate the NeRF understanding capability of our method. Results show that directly processing NeRF weights leads to better performance on NeRF-Language tasks compared to approaches that rely on either 2D or 3D representations derived from NeRFs.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、画像と3Dデータの両方を理解する際、顕著な能力を示しているが、これらのモダリティは、オブジェクトの幾何学と外観を包括的に表現する上で、固有の制限に直面している。
ニューラル・ラジアンス・フィールド(NeRF)は、単純なマルチ層パーセプトロン(MLP)の重みの幾何学的特性と光的特性の両方を符号化する、有望な代替物として登場した。
本研究は, MLLMへのNeRFの取り込みの有効性と有効性について検討する。
我々は,NeRFキャプションやQ\&Aといった新しいタスクを,NeRFのMLPの重みを直接処理することで実現した最初のMLLMであるLLaNAを紹介する。
特に、LLaNAは、画像のレンダリングや3Dデータ構造の実体化を必要とせずに、表現されたオブジェクトに関する情報を抽出することができる。
さらに,ShapeNet と Objaverse でトレーニングされた300K 以上の NeRF を用いて,さまざまな NeRF 言語タスクを可能にするペアテキストアノテーションを組み込んだ,最初の大規模 NeRF 言語データセットを構築した。
このデータセットに基づいて,提案手法のNeRF理解能力を評価するベンチマークを開発した。
その結果、NeRF重みを直接処理することで、NeRFから派生した2次元あるいは3次元表現に依存するアプローチと比較して、NeRF-Languageタスクの性能が向上することが示された。
関連論文リスト
- LLaNA: Large Language and NeRF Assistant [17.774826745566784]
我々は、NeRFキャプションなどの新しいタスクを実行することができる初の汎用NeRF言語アシスタントであるLLaNAを開発した。
我々は,人的介入を伴わないさまざまなNeRF言語タスクに対して,テキストアノテーションを用いたNeRFのデータセットを構築した。
その結果,NeRF重みの処理は,NeRFから2次元あるいは3次元の表現を抽出することに対して良好な効果が得られた。
論文 参考訳(メタデータ) (2024-06-17T17:59:59Z) - NeRF-DetS: Enhanced Adaptive Spatial-wise Sampling and View-wise Fusion Strategies for NeRF-based Indoor Multi-view 3D Object Detection [17.631688089207724]
屋内シーンでは、物体の位置とスケールの多様さが視覚的な3D知覚タスクを大きな課題にしている。
従来の研究では、暗黙の表現は視覚的な3D知覚タスクに役立てる能力を持っていることが示されている。
これらの問題に対処するために, 単純で効果的なNeRF-DetSを提案する。
論文 参考訳(メタデータ) (2024-04-22T06:59:03Z) - NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields [57.617972778377215]
提案手法は,RGB画像から有効な3D表現を生成する方法を示す。
我々は、この表現を、提案した擬似RGBデータに基づいて、180万枚以上の画像で事前訓練する。
我々は,NeRFの自己教師型プレトレーニングであるNeRF-MAE(NeRF-MAE)を目覚ましいスケールで実施し,様々な3Dタスクの性能向上を実現した。
論文 参考訳(メタデータ) (2024-04-01T17:59:55Z) - Obj-NeRF: Extract Object NeRFs from Multi-view Images [7.669778218573394]
単一プロンプトを用いた多視点画像から特定の物体の3次元形状を復元する包括的パイプラインNeRFを提案する。
また、オブジェクトの除去、回転、置換、再色など、様々な用途に-NeRFを適用する。
論文 参考訳(メタデータ) (2023-11-26T13:15:37Z) - Registering Neural Radiance Fields as 3D Density Images [55.64859832225061]
我々は,様々な場面でトレーニングやテストが可能な,普遍的な事前学習型ニューラルネットワークを提案する。
我々は,グローバルアプローチとして,NeRFモデルを効果的に登録できることを実証した。
論文 参考訳(メタデータ) (2023-05-22T09:08:46Z) - MultiPlaneNeRF: Neural Radiance Field with Non-Trainable Representation [6.860380947025009]
NeRFは2D画像から3Dオブジェクトを効率的に表現する人気モデルである。
上記の問題を同時に解くモデルとして,MultiPlaneNeRFを提案する。
論文 参考訳(メタデータ) (2023-05-17T21:27:27Z) - LiDAR-NeRF: Novel LiDAR View Synthesis via Neural Radiance Fields [112.62936571539232]
本稿では,LiDARセンサのための新しいビュー合成手法を提案する。
スタイルトランスファーニューラルネットワークを用いた従来のモデルベースLiDARシミュレータは、新しいビューのレンダリングに応用できる。
ニューラル放射場(NeRF)を用いて幾何学と3D点の属性の連成学習を容易にする。
論文 参考訳(メタデータ) (2023-04-20T15:44:37Z) - FeatureNeRF: Learning Generalizable NeRFs by Distilling Foundation
Models [21.523836478458524]
一般化可能なNeRFに関する最近の研究は、単一または少数の画像からの新規なビュー合成に関する有望な結果を示している。
本研究では,事前学習された視覚モデルを蒸留することにより,一般化可能なNeRFを学習するためのFeatureNeRFという新しいフレームワークを提案する。
一般化可能な3次元特徴抽出器としてのFeatureNeRFの有効性を実証した。
論文 参考訳(メタデータ) (2023-03-22T17:57:01Z) - AligNeRF: High-Fidelity Neural Radiance Fields via Alignment-Aware
Training [100.33713282611448]
我々は、高分解能データによるNeRFのトレーニングに関する最初のパイロット研究を行う。
本稿では,多層パーセプトロンと畳み込み層との結合を含む,対応する解を提案する。
私たちのアプローチは、明らかなトレーニング/テストコストを導入することなく、ほぼ無償です。
論文 参考訳(メタデータ) (2022-11-17T17:22:28Z) - Sem2NeRF: Converting Single-View Semantic Masks to Neural Radiance
Fields [49.41982694533966]
本稿では,1つの単一ビューセマンティックマスクを入力として条件付けしたSemantic-to-NeRF変換を提案する。
特に、Sem2NeRFは、事前訓練されたデコーダの3Dシーン表現を制御する潜在コードにセマンティックマスクをエンコードすることで、非常に困難なタスクに対処する。
提案したSem2NeRFの有効性を検証し、2つのベンチマークデータセット上でいくつかの強いベースラインを上回ります。
論文 参考訳(メタデータ) (2022-03-21T09:15:58Z) - iNeRF: Inverting Neural Radiance Fields for Pose Estimation [68.91325516370013]
Neural RadianceField(NeRF)を「反転」してメッシュフリーポーズ推定を行うフレームワークiNeRFを紹介します。
NeRFはビュー合成のタスクに極めて有効であることが示されている。
論文 参考訳(メタデータ) (2020-12-10T18:36:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。