論文の概要: WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with
Multi-modal Visual Data and Natural Language
- arxiv url: http://arxiv.org/abs/2304.05645v1
- Date: Wed, 12 Apr 2023 06:48:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 15:59:37.562334
- Title: WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with
Multi-modal Visual Data and Natural Language
- Title(参考訳): WildRefer: マルチモーダルビジュアルデータと自然言語を用いた大規模動的シーンにおける3次元オブジェクトのローカライゼーション
- Authors: Zhenxiang Lin, Xidong Peng, Peishan Cong, Yuenan Hou, Xinge Zhu, Sibei
Yang, Yuexin Ma
- Abstract要約: 本稿では,自然言語記述とオンラインキャプチャによるマルチモーダル視覚データに基づく大規模動的シーンにおける3次元視覚接地作業について紹介する。
本研究では,画像の外観特徴,点雲の位置と幾何学的特徴,および連続的な入力フレームにおける動的特徴を言語の意味的特徴にマッチさせる手法であるWildReferを提案する。
われわれのデータセットは、野生の3Dビジュアルグラウンドの研究にとって重要なものであり、自動運転とサービスロボットの開発を促進する大きな可能性を秘めている。
- 参考スコア(独自算出の注目度): 21.33863007110277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the task of 3D visual grounding in large-scale dynamic scenes
based on natural linguistic descriptions and online captured multi-modal visual
data, including 2D images and 3D LiDAR point clouds. We present a novel method,
WildRefer, for this task by fully utilizing the appearance features in images,
the location and geometry features in point clouds, and the dynamic features in
consecutive input frames to match the semantic features in language. In
particular, we propose two novel datasets, STRefer and LifeRefer, which focus
on large-scale human-centric daily-life scenarios with abundant 3D object and
natural language annotations. Our datasets are significant for the research of
3D visual grounding in the wild and has huge potential to boost the development
of autonomous driving and service robots. Extensive comparisons and ablation
studies illustrate that our method achieves state-of-the-art performance on two
proposed datasets. Code and dataset will be released when the paper is
published.
- Abstract(参考訳): 本稿では,2次元画像と3次元LiDAR点雲を含む,自然言語記述とオンラインキャプチャによるマルチモーダル視覚データに基づく大規模動的シーンにおける3次元視覚グラウンドの課題を紹介する。
本稿では,画像の出現特性,点雲の位置と幾何学的特徴,連続入力フレームの動的特徴を十分に活用し,言語における意味的特徴に適合させる新しい手法であるwildreferを提案する。
特に,3dオブジェクトと自然言語アノテーションが豊富な大規模人間中心の日常シナリオに焦点を当てた,streferとlifereferという2つの新しいデータセットを提案する。
私たちのデータセットは、野生の3d視覚基盤の研究に重要であり、自動運転とサービスロボットの開発を促進する大きな可能性を秘めています。
広範な比較とアブレーション研究により,提案手法が2つのデータセットにおいて最先端の性能を実現することが示された。
コードとデータセットは、論文が公開されたときにリリースされる。
関連論文リスト
- SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene
Understanding [39.085879587406694]
3D視覚言語グラウンドリングは、言語と3D物理環境の整合性に焦点を当て、エンボディエージェントの開発の基盤となっている。
約68Kの屋内シーンを含む最初の100万スケールの3Dビジョン言語データセットであるSceneVerseを紹介した。
このスケーリングにより、3次元視覚言語学習のための一貫した事前学習フレームワーク、Grounded Pre-training for Scenes (GPS) が実現可能であることを実証する。
論文 参考訳(メタデータ) (2024-01-17T17:04:35Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance
Fields [73.97131748433212]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - Multi3DRefer: Grounding Text Description to Multiple 3D Objects [15.54885309441946]
本稿では,自然言語記述を用いて,現実の3Dシーンにおけるフレキシブルなオブジェクトをローカライズするタスクを紹介する。
我々のデータセットには1609個のオブジェクトの61926の記述が含まれており、0、単、複数個の対象オブジェクトがそれぞれの記述によって参照される。
コントラスト学習による提案をオンラインでレンダリングすることで,CLIPの2D機能を活用したより良いベースラインを構築する。
論文 参考訳(メタデータ) (2023-09-11T06:03:39Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - FLAG3D: A 3D Fitness Activity Dataset with Language Instruction [89.60371681477791]
FLAG3Dは,60カテゴリの180Kシーケンスを含む言語命令付き大規模3Dフィットネスアクティビティデータセットである。
FLAG3Dは、クロスドメインなヒューマンアクション認識、動的ヒューマンメッシュリカバリ、言語誘導型ヒューマンアクション生成など、さまざまな課題に対して大きな研究価値を提供する。
論文 参考訳(メタデータ) (2022-12-09T02:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。