Fugu-MT 論文翻訳(概要): WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language

論文の概要: WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language

arxiv url: http://arxiv.org/abs/2304.05645v1
Date: Wed, 12 Apr 2023 06:48:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-13 15:59:37.562334
Title: WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language
Title（参考訳）: WildRefer: マルチモーダルビジュアルデータと自然言語を用いた大規模動的シーンにおける3次元オブジェクトのローカライゼーション
Authors: Zhenxiang Lin, Xidong Peng, Peishan Cong, Yuenan Hou, Xinge Zhu, Sibei Yang, Yuexin Ma
Abstract要約: 本稿では,自然言語記述とオンラインキャプチャによるマルチモーダル視覚データに基づく大規模動的シーンにおける3次元視覚接地作業について紹介する。本研究では,画像の外観特徴,点雲の位置と幾何学的特徴,および連続的な入力フレームにおける動的特徴を言語の意味的特徴にマッチさせる手法であるWildReferを提案する。われわれのデータセットは、野生の3Dビジュアルグラウンドの研究にとって重要なものであり、自動運転とサービスロボットの開発を促進する大きな可能性を秘めている。
参考スコア（独自算出の注目度）: 21.33863007110277
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce the task of 3D visual grounding in large-scale dynamic scenes based on natural linguistic descriptions and online captured multi-modal visual data, including 2D images and 3D LiDAR point clouds. We present a novel method, WildRefer, for this task by fully utilizing the appearance features in images, the location and geometry features in point clouds, and the dynamic features in consecutive input frames to match the semantic features in language. In particular, we propose two novel datasets, STRefer and LifeRefer, which focus on large-scale human-centric daily-life scenarios with abundant 3D object and natural language annotations. Our datasets are significant for the research of 3D visual grounding in the wild and has huge potential to boost the development of autonomous driving and service robots. Extensive comparisons and ablation studies illustrate that our method achieves state-of-the-art performance on two proposed datasets. Code and dataset will be released when the paper is published.
Abstract（参考訳）: 本稿では,2次元画像と3次元LiDAR点雲を含む,自然言語記述とオンラインキャプチャによるマルチモーダル視覚データに基づく大規模動的シーンにおける3次元視覚グラウンドの課題を紹介する。本稿では,画像の出現特性,点雲の位置と幾何学的特徴,連続入力フレームの動的特徴を十分に活用し,言語における意味的特徴に適合させる新しい手法であるwildreferを提案する。特に,3dオブジェクトと自然言語アノテーションが豊富な大規模人間中心の日常シナリオに焦点を当てた,streferとlifereferという2つの新しいデータセットを提案する。私たちのデータセットは、野生の3d視覚基盤の研究に重要であり、自動運転とサービスロボットの開発を促進する大きな可能性を秘めています。広範な比較とアブレーション研究により,提案手法が2つのデータセットにおいて最先端の性能を実現することが示された。コードとデータセットは、論文が公開されたときにリリースされる。

関連論文リスト

MoniRefer: A Real-world Large-scale Multi-modal Dataset based on Roadside Infrastructure for 3D Visual Grounding [30.52190342330071]
3Dビジュアルグラウンドは、与えられた自然言語文に意味的に対応する3Dポイントクラウドシーンでオブジェクトをローカライズすることを目的としている。 MoniReferは、ロードサイドレベルの3Dビジュアルグラウンドのための、世界初の大規模なマルチモーダルデータセットである。
論文参考訳（メタデータ） (2025-12-31T03:56:28Z)
LSVG: Language-Guided Scene Graphs with 2D-Assisted Multi-Modal Encoding for 3D Visual Grounding [15.944945244005952]
3Dビジュアルグラウンドティングは、自然言語で記述されたユニークなターゲットを3Dシーンでローカライズすることを目的としている。本稿では,言語誘導型シーングラフを参照オブジェクト識別で構築する新しい3次元ビジュアルグラウンドディングフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-07T02:02:15Z)
AugRefer: Advancing 3D Visual Grounding via Cross-Modal Augmentation and Spatial Relation-based Referring [49.78120051062641]
3Dビジュアルグラウンドティングは、自然言語記述と対象物とを3Dシーン内で関連付けることを目的としている。既存のアプローチでは、トレーニング用に利用可能なテキスト3Dペアが不足しているのが一般的である。 AugReferは3次元視覚的接地を前進させる新しい手法である。
論文参考訳（メタデータ） (2025-01-16T09:57:40Z)
ViGiL3D: A Linguistically Diverse Dataset for 3D Visual Grounding [9.289977174410824]
3Dビジュアルグラウンドティングは、自然言語テキストによって参照される3Dシーンでエンティティをローカライズする。多様な言語パターンに対して視覚的接地手法を評価するための診断データセットである3D (ViGiL3D) の視覚的接地について紹介する。
論文参考訳（メタデータ） (2025-01-02T17:20:41Z)
3D Scene Graph Guided Vision-Language Pre-training [11.131667398927394]
3次元視覚言語推論(VL)は、3次元物理世界を自然言語記述で橋渡しする可能性から注目されている。既存のアプローチは通常、タスク固有の高度に専門化されたパラダイムに従う。本稿では,3次元シーングラフ誘導型視覚言語事前学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-11-27T16:10:44Z)
g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks [62.74304008688472]
Generalizable 3D-Language Feature Fields (g3D-LF)は、大規模な3D言語データセットで事前訓練された3D表現モデルである。
論文参考訳（メタデータ） (2024-11-26T01:54:52Z)
Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文参考訳（メタデータ） (2024-05-16T18:03:41Z)
Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。 VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文参考訳（メタデータ） (2024-03-21T06:14:46Z)
SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding [37.47195477043883]
3D視覚言語グラウンドリングは、言語と3D物理環境の整合性に焦点を当て、エンボディエージェントの開発の基盤となっている。約68Kの屋内シーンを含む最初の100万スケールの3Dビジョン言語データセットであるSceneVerseを紹介した。このスケーリングにより、3次元視覚言語学習のための一貫した事前学習フレームワーク、Grounded Pre-training for Scenes (GPS) が実現可能であることを実証する。
論文参考訳（メタデータ） (2024-01-17T17:04:35Z)
Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment [26.858034573776198]
視覚言語アライメントに基づく3次元視覚接地のための弱教師付きアプローチを提案する。我々の3D-VLAは、テキストと2D画像のセマンティクスの整合性において、現在の大規模視覚言語モデルの優れた能力を利用する。推論段階では、学習したテキスト3D対応は、2D画像がなくてもテキストクエリを3D対象オブジェクトにグラウンド化するのに役立ちます。
論文参考訳（メタデータ） (2023-12-15T09:08:14Z)
Multi3DRefer: Grounding Text Description to Multiple 3D Objects [15.54885309441946]
本稿では,自然言語記述を用いて,現実の3Dシーンにおけるフレキシブルなオブジェクトをローカライズするタスクを紹介する。我々のデータセットには1609個のオブジェクトの61926の記述が含まれており、0、単、複数個の対象オブジェクトがそれぞれの記述によって参照される。コントラスト学習による提案をオンラインでレンダリングすることで,CLIPの2D機能を活用したより良いベースラインを構築する。
論文参考訳（メタデータ） (2023-09-11T06:03:39Z)
CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文参考訳（メタデータ） (2023-03-22T09:32:45Z)
SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。マルチカメラ画像を用いたSurroundOcc法を提案する。
論文参考訳（メタデータ） (2023-03-16T17:59:08Z)
FLAG3D: A 3D Fitness Activity Dataset with Language Instruction [89.60371681477791]
FLAG3Dは,60カテゴリの180Kシーケンスを含む言語命令付き大規模3Dフィットネスアクティビティデータセットである。 FLAG3Dは、クロスドメインなヒューマンアクション認識、動的ヒューマンメッシュリカバリ、言語誘導型ヒューマンアクション生成など、さまざまな課題に対して大きな研究価値を提供する。
論文参考訳（メタデータ） (2022-12-09T02:33:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。