論文の概要: Cross3DVG: Baseline and Dataset for Cross-Dataset 3D Visual Grounding on
Different RGB-D Scans
- arxiv url: http://arxiv.org/abs/2305.13876v1
- Date: Tue, 23 May 2023 09:52:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 17:18:08.637808
- Title: Cross3DVG: Baseline and Dataset for Cross-Dataset 3D Visual Grounding on
Different RGB-D Scans
- Title(参考訳): Cross3DVG: 異なるRGB-Dスコープ上のクロスデータセットビジュアルグラウンドのためのベースラインとデータセット
- Authors: Taiki Miyanishi, Daichi Azuma, Shuhei Kurita, Motoki Kawanabe
- Abstract要約: そこで我々は,3Dシーンにおけるクロスデータセット視覚接地のための新しいタスクであるCross3DVGを提案する。
我々は,3Dオブジェクトの63万以上の多種多様な記述を含む大規模3次元視覚的グラウンドデータセットを構築した。
- 参考スコア(独自算出の注目度): 7.707887663337803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Cross3DVG, a novel task for cross-dataset visual grounding in 3D
scenes, revealing the limitations of existing 3D visual grounding models using
restricted 3D resources and thus easily overfit to a specific 3D dataset. To
facilitate Cross3DVG, we have created a large-scale 3D visual grounding dataset
containing more than 63k diverse descriptions of 3D objects within 1,380 indoor
RGB-D scans from 3RScan with human annotations, paired with the existing 52k
descriptions on ScanRefer. We perform Cross3DVG by training a model on the
source 3D visual grounding dataset and then evaluating it on the target dataset
constructed in different ways (e.g., different sensors, 3D reconstruction
methods, and language annotators) without using target labels. We conduct
comprehensive experiments using established visual grounding models, as well as
a CLIP-based 2D-3D integration method, designed to bridge the gaps between 3D
datasets. By performing Cross3DVG tasks, we found that (i) cross-dataset 3D
visual grounding has significantly lower performance than learning and
evaluation with a single dataset, suggesting much room for improvement in
cross-dataset generalization of 3D visual grounding, (ii) better detectors and
transformer-based localization modules for 3D grounding are beneficial for
enhancing 3D grounding performance and (iii) fusing 2D-3D data using CLIP
demonstrates further performance improvements. Our Cross3DVG task will provide
a benchmark for developing robust 3D visual grounding models capable of
handling diverse 3D scenes while leveraging deep language understanding.
- Abstract(参考訳): 本研究では,3dシーンにおけるクロスデータセット表示のための新しいタスクであるcross3dvgについて,制約付き3dリソースを用いた既存の3dビジュアルグラウンドモデルの制限を明らかにすることにより,特定の3dデータセットに容易にオーバーフィットする手法を提案する。
そこで我々は,Cross3DVGを実現するために,ScanReferの既存の52k記述と組み合わせて,3RScanの1,380個の屋内RGB-Dスキャンから,63万以上の3Dオブジェクトの多様な記述を含む大規模3D画像グラウンドデータセットを構築した。
我々は,ソース3d視覚接地データセット上でモデルをトレーニングし,ターゲットラベルを使用せずに,異なる方法で構築されたターゲットデータセット(例えば,異なるセンサ,3d再構成方法,言語アノテーション)上で評価することにより,クロス3dvgを行う。
確立された視覚的接地モデルとCLIPに基づく2D-3D統合手法を用いて総合的な実験を行う。
Cross3DVGタスクを実行することで
(i)1つのデータセットによる学習や評価に比べて、データ横断型3d視覚接地の性能は著しく低下しており、3次元視覚接地におけるデータ横断型一般化の改善の余地が大きいことを示唆する。
(ii)3次元接地のためのより良い検出器および変圧器に基づく位置決めモジュールは、3次元接地性能の向上に有用である。
(iii) clipを用いた2d-3dデータの利用は、さらなる性能向上を示す。
私たちのCross3DVGタスクは、多種多様な3Dシーンを深く理解しながら処理できる堅牢な3Dビジュアルグラウンドモデルを開発するためのベンチマークを提供する。
関連論文リスト
- 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - MDT3D: Multi-Dataset Training for LiDAR 3D Object Detection
Generalization [3.8243923744440926]
特定の点分布を持つソースデータセットでトレーニングされた3Dオブジェクト検出モデルは、目に見えないデータセットに一般化する上で困難であることが示されている。
我々は、アノテーション付きソースデータセットから利用可能な情報を、MDT3D(Multi-Dataset Training for 3D Object Detection)メソッドで活用する。
トレーニング中にデータセットの混合をどのように管理し、最後にクロスデータセット拡張メソッド、すなわちクロスデータセットオブジェクトインジェクションを導入するかを示します。
論文 参考訳(メタデータ) (2023-08-02T08:20:00Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - UniG3D: A Unified 3D Object Generation Dataset [75.49544172927749]
UniG3Dは、ShapeNetデータセット上に普遍的なデータ変換パイプラインを用いて構築された、統一された3Dオブジェクト生成データセットである。
このパイプラインは、各生の3Dモデルを包括的なマルチモーダルデータ表現に変換する。
データセットのデータソースの選択は、そのスケールと品質に基づいています。
論文 参考訳(メタデータ) (2023-06-19T07:03:45Z) - MobileBrick: Building LEGO for 3D Reconstruction on Mobile Devices [78.20154723650333]
高品質な3次元地下構造は3次元物体再構成評価に不可欠である。
本稿では,モバイルデバイスを用いた新しいマルチビューRGBDデータセットを提案する。
我々は,ハイエンド3Dスキャナーを使わずに,精密な3次元地下構造が得られる。
論文 参考訳(メタデータ) (2023-03-03T14:02:50Z) - Data Efficient 3D Learner via Knowledge Transferred from 2D Model [30.077342050473515]
我々は、RGB-D画像を介して強力な2Dモデルから知識を伝達することで、3Dタスクのデータ不足に対処する。
擬似ラベルを用いたRGB-D画像の強化には,2次元画像の強いセマンティック・セマンティック・セマンティック・セマンティック・セマンティクス・モデルを用いる。
提案手法は,3次元ラベルの効率向上に適した既存の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2022-03-16T09:14:44Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。