論文の概要: Foundational Models for 3D Point Clouds: A Survey and Outlook
- arxiv url: http://arxiv.org/abs/2501.18594v1
- Date: Thu, 30 Jan 2025 18:59:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:14:51.711303
- Title: Foundational Models for 3D Point Clouds: A Survey and Outlook
- Title(参考訳): 3Dポイントクラウドの基礎モデル:調査と展望
- Authors: Vishal Thengane, Xiatian Zhu, Salim Bouzerdoum, Son Lam Phung, Yunpeng Li,
- Abstract要約: 3次元点雲の表現は、物理世界の幾何学的忠実性を維持する上で重要な役割を担っている。
このギャップを埋めるためには、複数のモダリティを組み込む必要がある。
ファンデーションモデル(FM)は、これらのモダリティをシームレスに統合し、推論することができる。
- 参考スコア(独自算出の注目度): 50.61473863985571
- License:
- Abstract: The 3D point cloud representation plays a crucial role in preserving the geometric fidelity of the physical world, enabling more accurate complex 3D environments. While humans naturally comprehend the intricate relationships between objects and variations through a multisensory system, artificial intelligence (AI) systems have yet to fully replicate this capacity. To bridge this gap, it becomes essential to incorporate multiple modalities. Models that can seamlessly integrate and reason across these modalities are known as foundation models (FMs). The development of FMs for 2D modalities, such as images and text, has seen significant progress, driven by the abundant availability of large-scale datasets. However, the 3D domain has lagged due to the scarcity of labelled data and high computational overheads. In response, recent research has begun to explore the potential of applying FMs to 3D tasks, overcoming these challenges by leveraging existing 2D knowledge. Additionally, language, with its capacity for abstract reasoning and description of the environment, offers a promising avenue for enhancing 3D understanding through large pre-trained language models (LLMs). Despite the rapid development and adoption of FMs for 3D vision tasks in recent years, there remains a gap in comprehensive and in-depth literature reviews. This article aims to address this gap by presenting a comprehensive overview of the state-of-the-art methods that utilize FMs for 3D visual understanding. We start by reviewing various strategies employed in the building of various 3D FMs. Then we categorize and summarize use of different FMs for tasks such as perception tasks. Finally, the article offers insights into future directions for research and development in this field. To help reader, we have curated list of relevant papers on the topic: https://github.com/vgthengane/Awesome-FMs-in-3D.
- Abstract(参考訳): 3Dポイントの雲の表現は、物理世界の幾何学的忠実さを維持する上で重要な役割を担い、より正確な複雑な3D環境を実現する。
人間は多感覚システムを通じて物体と変種の間の複雑な関係を自然に理解しているが、人工知能(AI)システムはまだこの能力を完全に再現していない。
このギャップを埋めるためには、複数のモダリティを組み込む必要がある。
これらのモダリティをシームレスに統合し、推論できるモデルは、ファンデーションモデル(FM)として知られている。
画像やテキストなどの2次元モダリティのためのFMの開発は、大規模なデータセットが豊富に利用できることから、大きな進歩を遂げている。
しかし、ラベル付きデータの不足と高い計算オーバーヘッドにより、3Dドメインはタグ付けされている。
これに対し、最近の研究では、既存の2D知識を活用することで、これらの課題を克服し、FMを3Dタスクに適用する可能性を探る研究が始まっている。
さらに、言語は、抽象的な推論と環境記述の能力を持ち、大きな事前学習された言語モデル(LLM)を通して3D理解を強化するための有望な道を提供する。
近年の3DビジョンタスクにおけるFMの急速な開発と採用にもかかわらず、総合的・詳細な文献レビューには差がある。
本稿では,3次元視覚理解のためのFMを用いた最先端手法の概要を包括的に提示することにより,このギャップに対処することを目的とする。
まず, 各種3次元FM構築における各種戦略の見直しから始める。
次に、認識タスクなどのタスクに対して異なるFMを分類し、まとめる。
最後に、この分野における研究開発の今後の方向性について考察する。
読者を助けるために、このトピックに関する関連論文のリストをキュレートした: https://github.com/vgthengane/Awesome-FMs-in-3D。
関連論文リスト
- Diffusion Models in 3D Vision: A Survey [11.116658321394755]
本稿では,3次元視覚タスクの拡散モデルを利用する最先端のアプローチについて概説する。
これらのアプローチには、3Dオブジェクト生成、形状補完、点雲再構成、シーン理解が含まれる。
本稿では,計算効率の向上,マルチモーダル融合の強化,大規模事前学習の活用などの可能性について論じる。
論文 参考訳(メタデータ) (2024-10-07T04:12:23Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [113.18524940863841]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。
我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。
3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文 参考訳(メタデータ) (2024-05-16T16:59:58Z) - A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing
Objects in 3D Scenes [80.20670062509723]
3Dシークエンスキャプションは、3Dシーンの詳細な説明を作成することを目的とした、視覚言語によるブリッジングタスクである。
2次元の視覚的キャプションと比較して、現実世界の表現が密接なため、大きな可能性と課題が提示される。
既存手法の人気と成功にもかかわらず、この分野の進歩を要約した総合的な調査は乏しい。
論文 参考訳(メタデータ) (2024-03-12T10:04:08Z) - M3DBench: Let's Instruct Large Models with Multi-modal 3D Prompts [30.571811801090224]
M3DBenchと呼ばれる包括的3Dインストラクションフォローデータセットを導入する。
テキスト、画像、3Dオブジェクト、その他の視覚的プロンプトとインターリーブされた一般的なマルチモーダル命令をサポートする。
地域レベルでもシーンレベルでも多様な3Dタスクを統一し、現実世界の3D環境における様々な基本的な能力をカバーしている。
論文 参考訳(メタデータ) (2023-12-17T16:53:30Z) - An Embodied Generalist Agent in 3D World [67.16935110789528]
本稿では,3次元世界における知覚,接地,推論,計画,行動に優れた多モードジェネリストエージェントLEOを紹介する。
我々は,多種多様なオブジェクトレベルおよびシーンレベルのタスクからなる大規模データセットを収集する。
3Dキャプション,質問応答,具体的推論,ナビゲーション,操作など,多岐にわたるLEOの卓越した習熟度を実証した。
論文 参考訳(メタデータ) (2023-11-18T01:21:38Z) - Recent Advances in Multi-modal 3D Scene Understanding: A Comprehensive
Survey and Evaluation [28.417029383793068]
マルチモーダルな3Dシーン理解は、自律運転や人間とコンピュータのインタラクションなど、多くの分野で広く応用されているため、注目されている。
追加のモダリティを導入することは、シーン解釈の豊かさと精度を高めるだけでなく、より堅牢でレジリエントな理解を確実にする。
本報告では, 従来の手法を, モダリティやタスクに応じて徹底的に分類し, それぞれの強みと限界を探求する新しい分類法を提案する。
論文 参考訳(メタデータ) (2023-10-24T09:39:05Z) - Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。
最近、研究者は焦点を2Dから3Dにシフトし始めた。
3Dデータの表現は、非常に大きな課題をもたらします。
論文 参考訳(メタデータ) (2022-10-27T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。