論文の概要: ConceptFusion: Open-set Multimodal 3D Mapping
- arxiv url: http://arxiv.org/abs/2302.07241v2
- Date: Wed, 15 Feb 2023 01:49:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-16 11:26:58.131996
- Title: ConceptFusion: Open-set Multimodal 3D Mapping
- Title(参考訳): ConceptFusion:オープンセットマルチモーダル3Dマッピング
- Authors: Krishna Murthy Jatavallabhula and Alihusein Kuwajerwala and Qiao Gu
and Mohd Omama and Tao Chen and Shuang Li and Ganesh Iyer and Soroush
Saryazdi and Nikhil Keetha and Ayush Tewari and Joshua B. Tenenbaum and Celso
Miguel de Melo and Madhava Krishna and Liam Paull and Florian Shkurti and
Antonio Torralba
- Abstract要約: ConceptFusionは基本的にオープンセットのシーン表現である。
これは、閉じた概念や本質的にはマルチモーダル以上の推論を可能にする。
実世界の多くのデータセット上でConceptFusionを評価する。
- 参考スコア(独自算出の注目度): 72.62385272589574
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Building 3D maps of the environment is central to robot navigation, planning,
and interaction with objects in a scene. Most existing approaches that
integrate semantic concepts with 3D maps largely remain confined to the
closed-set setting: they can only reason about a finite set of concepts,
pre-defined at training time. Further, these maps can only be queried using
class labels, or in recent work, using text prompts.
We address both these issues with ConceptFusion, a scene representation that
is (1) fundamentally open-set, enabling reasoning beyond a closed set of
concepts and (ii) inherently multimodal, enabling a diverse range of possible
queries to the 3D map, from language, to images, to audio, to 3D geometry, all
working in concert. ConceptFusion leverages the open-set capabilities of
today's foundation models pre-trained on internet-scale data to reason about
concepts across modalities such as natural language, images, and audio. We
demonstrate that pixel-aligned open-set features can be fused into 3D maps via
traditional SLAM and multi-view fusion approaches. This enables effective
zero-shot spatial reasoning, not needing any additional training or finetuning,
and retains long-tailed concepts better than supervised approaches,
outperforming them by more than 40% margin on 3D IoU. We extensively evaluate
ConceptFusion on a number of real-world datasets, simulated home environments,
a real-world tabletop manipulation task, and an autonomous driving platform. We
showcase new avenues for blending foundation models with 3D open-set multimodal
mapping.
For more information, visit our project page https://concept-fusion.github.io
or watch our 5-minute explainer video
https://www.youtube.com/watch?v=rkXgws8fiDs
- Abstract(参考訳): 環境の3Dマップの構築は、ロボットナビゲーション、計画、シーン内のオブジェクトとのインタラクションの中心である。
意味論的概念を3Dマップと統合する既存のアプローチは、ほとんどクローズドセットの設定に限られており、訓練時に事前に定義された有限な概念の集合についてしか推論できない。
さらに、これらのマップは、クラスラベルまたは最近の作業でのみ、テキストプロンプトを使用してクエリすることができる。
この2つの課題は,(1)基本的オープンセットのシーン表現であるConceptFusionによって解決され,概念の閉じた集合を超えて推論が可能となり,(ii)本質的にマルチモーダルであり,言語,画像,オーディオ,3次元幾何学など,様々な3Dマップへのクエリが可能となる。
conceptfusionは、インターネットスケールデータで事前トレーニングされた今日の基盤モデルのオープンセット機能を活用して、自然言語、画像、音声といったモダリティにまたがる概念を推論する。
従来のslamとマルチビュー融合による3dマップにピクセル指向のオープンセット機能を融合できることを実証した。
これにより、追加のトレーニングや微調整を必要とせず、効果的なゼロショット空間推論が可能となり、3D IoUでは40%以上のマージンを達成できる。
実世界のデータセット,シミュレートされたホーム環境,実世界のテーブルトップ操作タスク,自律運転プラットフォーム上でのコンセプトフュージョンを広範囲に評価した。
基礎モデルと3次元オープンセットマルチモーダルマッピングをブレンドする新しい方法を紹介する。
詳しくは、プロジェクトページ https://concept-fusion.github.io または、5分間の解説ビデオ https://www.youtube.com/watch?
v=rkXgws8fiDs
関連論文リスト
- OpenOcc: Open Vocabulary 3D Scene Reconstruction via Occupancy Representation [30.76201018651464]
従来の3Dシーン理解アプローチでは、高価なラベル付き3Dデータセットを使用して、単一のタスクに対してモデルのトレーニングと監視を行う。
我々は,3次元シーン再構成とオープン語彙理解をニューラルラディアンスフィールドで統合する新しいフレームワークOpenOccを提案する。
提案手法は3次元シーン理解タスクにおいて,特に小型・長距離オブジェクトにおいて,競争性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-18T13:53:48Z) - Open-Fusion: Real-time Open-Vocabulary 3D Mapping and Queryable Scene
Representation [13.770613689032503]
Open-Fusionはリアルタイムオープンな3Dマッピングとクエリ可能なシーン表現のための画期的なアプローチである。
オープンセットのセマンティック理解のために、事前訓練された視覚言語基盤モデル(VLFM)の力を利用する。
追加の3Dトレーニングを必要とせずに、オープン語彙に優れたアノテーションのない3Dセグメンテーションを提供する。
論文 参考訳(メタデータ) (2023-10-05T21:57:36Z) - ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and
Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。
2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。
我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文 参考訳(メタデータ) (2023-09-28T17:53:38Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - CLIP-FO3D: Learning Free Open-world 3D Scene Representations from 2D
Dense CLIP [19.66617835750012]
3Dシーン理解モデルのトレーニングには、複雑な人間のアノテーションが必要である。
視覚言語による事前学習モデル(例えばCLIP)は、顕著なオープンワールド推論特性を示している。
本稿では,CLIPの特徴空間を直接3次元シーン理解モデルに変換することを提案する。
論文 参考訳(メタデータ) (2023-03-08T17:30:58Z) - OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。
私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。
このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文 参考訳(メタデータ) (2022-11-28T18:58:36Z) - Towards High-Fidelity Single-view Holistic Reconstruction of Indoor
Scenes [50.317223783035075]
単視点画像から総合的な3次元屋内シーンを再構築するための新しい枠組みを提案する。
詳細なオブジェクト再構成のためのインスタンス整列型暗黙関数(InstPIFu)を提案する。
私たちのコードとモデルは公開されます。
論文 参考訳(メタデータ) (2022-07-18T14:54:57Z) - Disentangling 3D Prototypical Networks For Few-Shot Concept Learning [29.02523358573336]
本稿では,RGB-D画像をオブジェクトの形状やスタイルや背景シーンの地図に分解するニューラルネットワークアーキテクチャを提案する。
我々のネットワークには、画像形成過程、世界シーンの3次元幾何学、形状スタイルの相互作用を反映したアーキテクチャバイアスが組み込まれています。
論文 参考訳(メタデータ) (2020-11-06T14:08:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。