論文の概要: Cross3DVG: Baseline and Dataset for Cross-Dataset 3D Visual Grounding on
Different RGB-D Scans
- arxiv url: http://arxiv.org/abs/2305.13876v1
- Date: Tue, 23 May 2023 09:52:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 17:18:08.637808
- Title: Cross3DVG: Baseline and Dataset for Cross-Dataset 3D Visual Grounding on
Different RGB-D Scans
- Title(参考訳): Cross3DVG: 異なるRGB-Dスコープ上のクロスデータセットビジュアルグラウンドのためのベースラインとデータセット
- Authors: Taiki Miyanishi, Daichi Azuma, Shuhei Kurita, Motoki Kawanabe
- Abstract要約: そこで我々は,3Dシーンにおけるクロスデータセット視覚接地のための新しいタスクであるCross3DVGを提案する。
我々は,3Dオブジェクトの63万以上の多種多様な記述を含む大規模3次元視覚的グラウンドデータセットを構築した。
- 参考スコア(独自算出の注目度): 7.707887663337803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Cross3DVG, a novel task for cross-dataset visual grounding in 3D
scenes, revealing the limitations of existing 3D visual grounding models using
restricted 3D resources and thus easily overfit to a specific 3D dataset. To
facilitate Cross3DVG, we have created a large-scale 3D visual grounding dataset
containing more than 63k diverse descriptions of 3D objects within 1,380 indoor
RGB-D scans from 3RScan with human annotations, paired with the existing 52k
descriptions on ScanRefer. We perform Cross3DVG by training a model on the
source 3D visual grounding dataset and then evaluating it on the target dataset
constructed in different ways (e.g., different sensors, 3D reconstruction
methods, and language annotators) without using target labels. We conduct
comprehensive experiments using established visual grounding models, as well as
a CLIP-based 2D-3D integration method, designed to bridge the gaps between 3D
datasets. By performing Cross3DVG tasks, we found that (i) cross-dataset 3D
visual grounding has significantly lower performance than learning and
evaluation with a single dataset, suggesting much room for improvement in
cross-dataset generalization of 3D visual grounding, (ii) better detectors and
transformer-based localization modules for 3D grounding are beneficial for
enhancing 3D grounding performance and (iii) fusing 2D-3D data using CLIP
demonstrates further performance improvements. Our Cross3DVG task will provide
a benchmark for developing robust 3D visual grounding models capable of
handling diverse 3D scenes while leveraging deep language understanding.
- Abstract(参考訳): 本研究では,3dシーンにおけるクロスデータセット表示のための新しいタスクであるcross3dvgについて,制約付き3dリソースを用いた既存の3dビジュアルグラウンドモデルの制限を明らかにすることにより,特定の3dデータセットに容易にオーバーフィットする手法を提案する。
そこで我々は,Cross3DVGを実現するために,ScanReferの既存の52k記述と組み合わせて,3RScanの1,380個の屋内RGB-Dスキャンから,63万以上の3Dオブジェクトの多様な記述を含む大規模3D画像グラウンドデータセットを構築した。
我々は,ソース3d視覚接地データセット上でモデルをトレーニングし,ターゲットラベルを使用せずに,異なる方法で構築されたターゲットデータセット(例えば,異なるセンサ,3d再構成方法,言語アノテーション)上で評価することにより,クロス3dvgを行う。
確立された視覚的接地モデルとCLIPに基づく2D-3D統合手法を用いて総合的な実験を行う。
Cross3DVGタスクを実行することで
(i)1つのデータセットによる学習や評価に比べて、データ横断型3d視覚接地の性能は著しく低下しており、3次元視覚接地におけるデータ横断型一般化の改善の余地が大きいことを示唆する。
(ii)3次元接地のためのより良い検出器および変圧器に基づく位置決めモジュールは、3次元接地性能の向上に有用である。
(iii) clipを用いた2d-3dデータの利用は、さらなる性能向上を示す。
私たちのCross3DVGタスクは、多種多様な3Dシーンを深く理解しながら処理できる堅牢な3Dビジュアルグラウンドモデルを開発するためのベンチマークを提供する。
関連論文リスト
- E3D-GPT: Enhanced 3D Visual Foundation for Medical Vision-Language Model [23.56751925900571]
3次元医用視覚言語モデルの開発は、疾患の診断と患者の治療に有意な可能性を秘めている。
自己教師付き学習を用いて3次元視覚特徴抽出のための3次元視覚基盤モデルを構築した。
本研究では,3次元空間畳み込みを高精細画像の特徴の集約・投影に応用し,計算複雑性を低減した。
本モデルは,既存の報告生成法,視覚的質問応答法,疾患診断法と比較して,優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-18T06:31:40Z) - 3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination [22.029496025779405]
3D-GRANDは、40,087の世帯シーンと6.2百万の密集したシーン言語命令を組み合わせた、先駆的な大規模データセットである。
この結果から, 3D-GRANDによる指導指導はグラウンド化能力を大幅に向上させ, 3D-LLMの幻覚を低減させることがわかった。
コントリビューションの一環として、3D-LLMの幻覚を体系的に評価するための総合的なベンチマーク3D-POPEを提案する。
論文 参考訳(メタデータ) (2024-06-07T17:59:59Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - UniG3D: A Unified 3D Object Generation Dataset [75.49544172927749]
UniG3Dは、ShapeNetデータセット上に普遍的なデータ変換パイプラインを用いて構築された、統一された3Dオブジェクト生成データセットである。
このパイプラインは、各生の3Dモデルを包括的なマルチモーダルデータ表現に変換する。
データセットのデータソースの選択は、そのスケールと品質に基づいています。
論文 参考訳(メタデータ) (2023-06-19T07:03:45Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。