論文の概要: LLaNA: Large Language and NeRF Assistant
- arxiv url: http://arxiv.org/abs/2406.11840v2
- Date: Fri, 22 Nov 2024 10:38:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:01:20.340368
- Title: LLaNA: Large Language and NeRF Assistant
- Title(参考訳): LLaNA: 大規模言語とNeRFアシスタント
- Authors: Andrea Amaduzzi, Pierluigi Zama Ramirez, Giuseppe Lisanti, Samuele Salti, Luigi Di Stefano,
- Abstract要約: 我々は、NeRFキャプションなどの新しいタスクを実行することができる初の汎用NeRF言語アシスタントであるLLaNAを開発した。
我々は,人的介入を伴わないさまざまなNeRF言語タスクに対して,テキストアノテーションを用いたNeRFのデータセットを構築した。
その結果,NeRF重みの処理は,NeRFから2次元あるいは3次元の表現を抽出することに対して良好な効果が得られた。
- 参考スコア(独自算出の注目度): 17.774826745566784
- License:
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated an excellent understanding of images and 3D data. However, both modalities have shortcomings in holistically capturing the appearance and geometry of objects. Meanwhile, Neural Radiance Fields (NeRFs), which encode information within the weights of a simple Multi-Layer Perceptron (MLP), have emerged as an increasingly widespread modality that simultaneously encodes the geometry and photorealistic appearance of objects. This paper investigates the feasibility and effectiveness of ingesting NeRF into MLLM. We create LLaNA, the first general-purpose NeRF-language assistant capable of performing new tasks such as NeRF captioning and Q\&A. Notably, our method directly processes the weights of the NeRF's MLP to extract information about the represented objects without the need to render images or materialize 3D data structures. Moreover, we build a dataset of NeRFs with text annotations for various NeRF-language tasks with no human intervention. Based on this dataset, we develop a benchmark to evaluate the NeRF understanding capability of our method. Results show that processing NeRF weights performs favourably against extracting 2D or 3D representations from NeRFs.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は画像と3Dデータの理解に優れていた。
しかし、どちらのモダリティも、対象の外観と幾何学をホモロジー的に捉えることには欠点がある。
一方、単純なMulti-Layer Perceptron (MLP) の重み内で情報を符号化するNeural Radiance Fields (NeRF) は、オブジェクトの幾何学的外観とフォトリアリスティックな外観を同時に符号化する、より広範なモダリティとして出現している。
本稿では, MLLMへのNeRF導入の有効性と有効性について検討する。
我々は、NeRFキャプションやQ\&Aといった新しいタスクを実行できる初の汎用NeRF言語アシスタントであるLLaNAを開発した。
特に,本手法は,画像のレンダリングや3Dデータ構造の実現を必要とせずに,NeRFのMLPの重みを直接処理して表現対象に関する情報を抽出する。
さらに,人間の介入を伴わないさまざまなNeRF言語タスクに対して,テキストアノテーションを用いたNeRFのデータセットを構築した。
このデータセットに基づいて,提案手法のNeRF理解能力を評価するベンチマークを開発した。
その結果,NeRF重みの処理は,NeRFから2次元あるいは3次元の表現を抽出することに対して良好な効果が得られた。
関連論文リスト
- NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields [57.617972778377215]
提案手法は,RGB画像から有効な3D表現を生成する方法を示す。
我々は、この表現を、提案した擬似RGBデータに基づいて、180万枚以上の画像で事前訓練する。
我々は,NeRFの自己教師型プレトレーニングであるNeRF-MAE(NeRF-MAE)を目覚ましいスケールで実施し,様々な3Dタスクの性能向上を実現した。
論文 参考訳(メタデータ) (2024-04-01T17:59:55Z) - Obj-NeRF: Extract Object NeRFs from Multi-view Images [7.669778218573394]
単一プロンプトを用いた多視点画像から特定の物体の3次元形状を復元する包括的パイプラインNeRFを提案する。
また、オブジェクトの除去、回転、置換、再色など、様々な用途に-NeRFを適用する。
論文 参考訳(メタデータ) (2023-11-26T13:15:37Z) - RePaint-NeRF: NeRF Editting via Semantic Masks and Diffusion Models [36.236190350126826]
本稿では,RGB画像を入力として取り出し,ニューラルシーンの3Dコンテンツを変更可能な新しいフレームワークを提案する。
具体的には,対象オブジェクトを意味的に選択し,事前学習した拡散モデルを用いてNeRFモデルを誘導し,新しい3Dオブジェクトを生成する。
実験の結果,本アルゴリズムは,異なるテキストプロンプト下でのNeRFの3次元オブジェクトの編集に有効であることがわかった。
論文 参考訳(メタデータ) (2023-06-09T04:49:31Z) - MultiPlaneNeRF: Neural Radiance Field with Non-Trainable Representation [11.049528513775968]
NeRFは2D画像から3Dオブジェクトを効率的に表現する人気モデルである。
上記の問題を同時に解くモデルとして,MultiPlaneNeRFを提案する。
論文 参考訳(メタデータ) (2023-05-17T21:27:27Z) - Multi-Space Neural Radiance Fields [74.46513422075438]
既存のニューラルレージアンス場(NeRF)法は反射物体の存在に悩まされている。
並列部分空間における特徴場の群を用いてシーンを表現するマルチスペースニューラルレイディアンス場(MS-NeRF)を提案する。
提案手法は,高品質シーンのレンダリングにおいて,既存の単一空間NeRF法よりも優れていた。
論文 参考訳(メタデータ) (2023-05-07T13:11:07Z) - FeatureNeRF: Learning Generalizable NeRFs by Distilling Foundation
Models [21.523836478458524]
一般化可能なNeRFに関する最近の研究は、単一または少数の画像からの新規なビュー合成に関する有望な結果を示している。
本研究では,事前学習された視覚モデルを蒸留することにより,一般化可能なNeRFを学習するためのFeatureNeRFという新しいフレームワークを提案する。
一般化可能な3次元特徴抽出器としてのFeatureNeRFの有効性を実証した。
論文 参考訳(メタデータ) (2023-03-22T17:57:01Z) - AligNeRF: High-Fidelity Neural Radiance Fields via Alignment-Aware
Training [100.33713282611448]
我々は、高分解能データによるNeRFのトレーニングに関する最初のパイロット研究を行う。
本稿では,多層パーセプトロンと畳み込み層との結合を含む,対応する解を提案する。
私たちのアプローチは、明らかなトレーニング/テストコストを導入することなく、ほぼ無償です。
論文 参考訳(メタデータ) (2022-11-17T17:22:28Z) - NeRF-Loc: Transformer-Based Object Localization Within Neural Radiance
Fields [62.89785701659139]
我々は,NeRFシーン内の物体の3次元境界ボックスを抽出するトランスフォーマーベースのフレームワークNeRF-Locを提案する。
NeRF-Locは、事前訓練されたNeRFモデルとカメラビューを入力として、オブジェクトのラベル付き3Dバウンディングボックスを出力として生成する。
論文 参考訳(メタデータ) (2022-09-24T18:34:22Z) - Sem2NeRF: Converting Single-View Semantic Masks to Neural Radiance
Fields [49.41982694533966]
本稿では,1つの単一ビューセマンティックマスクを入力として条件付けしたSemantic-to-NeRF変換を提案する。
特に、Sem2NeRFは、事前訓練されたデコーダの3Dシーン表現を制御する潜在コードにセマンティックマスクをエンコードすることで、非常に困難なタスクに対処する。
提案したSem2NeRFの有効性を検証し、2つのベンチマークデータセット上でいくつかの強いベースラインを上回ります。
論文 参考訳(メタデータ) (2022-03-21T09:15:58Z) - iNeRF: Inverting Neural Radiance Fields for Pose Estimation [68.91325516370013]
Neural RadianceField(NeRF)を「反転」してメッシュフリーポーズ推定を行うフレームワークiNeRFを紹介します。
NeRFはビュー合成のタスクに極めて有効であることが示されている。
論文 参考訳(メタデータ) (2020-12-10T18:36:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。