Fugu-MT 論文翻訳(概要): Cross3DVG: Baseline and Dataset for Cross-Dataset 3D Visual Grounding on Different RGB-D Scans

論文の概要: Cross3DVG: Baseline and Dataset for Cross-Dataset 3D Visual Grounding on Different RGB-D Scans

arxiv url: http://arxiv.org/abs/2305.13876v1
Date: Tue, 23 May 2023 09:52:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 17:18:08.637808
Title: Cross3DVG: Baseline and Dataset for Cross-Dataset 3D Visual Grounding on Different RGB-D Scans
Title（参考訳）: Cross3DVG: 異なるRGB-Dスコープ上のクロスデータセットビジュアルグラウンドのためのベースラインとデータセット
Authors: Taiki Miyanishi, Daichi Azuma, Shuhei Kurita, Motoki Kawanabe
Abstract要約: そこで我々は,3Dシーンにおけるクロスデータセット視覚接地のための新しいタスクであるCross3DVGを提案する。我々は,3Dオブジェクトの63万以上の多種多様な記述を含む大規模3次元視覚的グラウンドデータセットを構築した。
参考スコア（独自算出の注目度）: 7.707887663337803
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present Cross3DVG, a novel task for cross-dataset visual grounding in 3D scenes, revealing the limitations of existing 3D visual grounding models using restricted 3D resources and thus easily overfit to a specific 3D dataset. To facilitate Cross3DVG, we have created a large-scale 3D visual grounding dataset containing more than 63k diverse descriptions of 3D objects within 1,380 indoor RGB-D scans from 3RScan with human annotations, paired with the existing 52k descriptions on ScanRefer. We perform Cross3DVG by training a model on the source 3D visual grounding dataset and then evaluating it on the target dataset constructed in different ways (e.g., different sensors, 3D reconstruction methods, and language annotators) without using target labels. We conduct comprehensive experiments using established visual grounding models, as well as a CLIP-based 2D-3D integration method, designed to bridge the gaps between 3D datasets. By performing Cross3DVG tasks, we found that (i) cross-dataset 3D visual grounding has significantly lower performance than learning and evaluation with a single dataset, suggesting much room for improvement in cross-dataset generalization of 3D visual grounding, (ii) better detectors and transformer-based localization modules for 3D grounding are beneficial for enhancing 3D grounding performance and (iii) fusing 2D-3D data using CLIP demonstrates further performance improvements. Our Cross3DVG task will provide a benchmark for developing robust 3D visual grounding models capable of handling diverse 3D scenes while leveraging deep language understanding.
Abstract（参考訳）: 本研究では,3dシーンにおけるクロスデータセット表示のための新しいタスクであるcross3dvgについて,制約付き3dリソースを用いた既存の3dビジュアルグラウンドモデルの制限を明らかにすることにより,特定の3dデータセットに容易にオーバーフィットする手法を提案する。そこで我々は,Cross3DVGを実現するために,ScanReferの既存の52k記述と組み合わせて,3RScanの1,380個の屋内RGB-Dスキャンから,63万以上の3Dオブジェクトの多様な記述を含む大規模3D画像グラウンドデータセットを構築した。我々は,ソース3d視覚接地データセット上でモデルをトレーニングし,ターゲットラベルを使用せずに,異なる方法で構築されたターゲットデータセット(例えば,異なるセンサ,3d再構成方法,言語アノテーション)上で評価することにより,クロス3dvgを行う。確立された視覚的接地モデルとCLIPに基づく2D-3D統合手法を用いて総合的な実験を行う。 Cross3DVGタスクを実行することで (i)1つのデータセットによる学習や評価に比べて、データ横断型3d視覚接地の性能は著しく低下しており、3次元視覚接地におけるデータ横断型一般化の改善の余地が大きいことを示唆する。 (ii)3次元接地のためのより良い検出器および変圧器に基づく位置決めモジュールは、3次元接地性能の向上に有用である。 (iii) clipを用いた2d-3dデータの利用は、さらなる性能向上を示す。私たちのCross3DVGタスクは、多種多様な3Dシーンを深く理解しながら処理できる堅牢な3Dビジュアルグラウンドモデルを開発するためのベンチマークを提供する。

関連論文リスト

3DGeoDet: General-purpose Geometry-aware Image-based 3D Object Detection [17.502554516157893]
3DGeoDetは幾何学を意識した新しい3Dオブジェクト検出手法である。屋内および屋外環境では、シングルビューとマルチビューのRGBイメージを効果的に処理する。
論文参考訳（メタデータ） (2025-06-11T09:18:36Z)
DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation [51.43837087865105]
大規模な画像データセットに基づいてトレーニングされた視覚基礎モデル(VFM)は、非常に高度な2D視覚認識を備えた高品質な機能を提供する。 3D画像と3Dポイントクラウドデータセットの共通利用にもかかわらず、彼らの3Dビジョンのポテンシャルは依然としてほとんど未解決のままである。 2Dファンデーションモデルの特徴を抽出し,それを3Dに投影し,最終的に3Dポイントクラウドセグメンテーションモデルに注入する,シンプルで効果的なアプローチであるDITRを導入する。
論文参考訳（メタデータ） (2025-03-24T17:59:11Z)
Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。 UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文参考訳（メタデータ） (2025-03-13T17:56:22Z)
AugRefer: Advancing 3D Visual Grounding via Cross-Modal Augmentation and Spatial Relation-based Referring [49.78120051062641]
3Dビジュアルグラウンドティングは、自然言語記述と対象物とを3Dシーン内で関連付けることを目的としている。既存のアプローチでは、トレーニング用に利用可能なテキスト3Dペアが不足しているのが一般的である。 AugReferは3次元視覚的接地を前進させる新しい手法である。
論文参考訳（メタデータ） (2025-01-16T09:57:40Z)
V-MIND: Building Versatile Monocular Indoor 3D Detector with Diverse 2D Annotations [17.49394091283978]
V-MIND(Versatile Monocular Indoor Detector)は,室内3D検出器の性能を向上させる。大規模2次元画像を3次元点雲に変換し,その後に擬似3次元境界ボックスを導出することにより,3次元学習データを生成する。 V-MINDはOmni3D屋内データセット上の幅広いクラスにわたる最先端のオブジェクト検出性能を実現する。
論文参考訳（メタデータ） (2024-12-16T03:28:00Z)
SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding [10.81711535075112]
3Dビジュアルグラウンディングは、テキスト記述に基づいて3Dシーン内のオブジェクトを見つけることを目的としている。大規模2次元データに基づいて訓練された2次元視覚言語モデル(VLM)を活用したゼロショット3DVGフレームワークであるSeeeGroundを紹介する。本稿では,クエリ関連画像レンダリングの視点を動的に選択するパースペクティブ適応モジュールと,2次元画像と3次元空間記述を統合するFusion Alignmentモジュールの2つのモジュールを提案する。
論文参考訳（メタデータ） (2024-12-05T17:58:43Z)
E3D-GPT: Enhanced 3D Visual Foundation for Medical Vision-Language Model [23.56751925900571]
3次元医用視覚言語モデルの開発は、疾患の診断と患者の治療に有意な可能性を秘めている。自己教師付き学習を用いて3次元視覚特徴抽出のための3次元視覚基盤モデルを構築した。本研究では,3次元空間畳み込みを高精細画像の特徴の集約・投影に応用し,計算複雑性を低減した。本モデルは,既存の報告生成法,視覚的質問応答法,疾患診断法と比較して,優れた性能を示す。
論文参考訳（メタデータ） (2024-10-18T06:31:40Z)
3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination [22.029496025779405]
3D-GRANDは、40,087の世帯シーンと6.2百万の密集したシーン言語命令を組み合わせた、先駆的な大規模データセットである。この結果から, 3D-GRANDによる指導指導はグラウンド化能力を大幅に向上させ, 3D-LLMの幻覚を低減させることがわかった。コントリビューションの一環として、3D-LLMの幻覚を体系的に評価するための総合的なベンチマーク3D-POPEを提案する。
論文参考訳（メタデータ） (2024-06-07T17:59:59Z)
DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-06-06T17:58:15Z)
3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文参考訳（メタデータ） (2023-11-07T23:46:41Z)
Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。 Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文参考訳（メタデータ） (2023-10-10T16:49:21Z)
3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文参考訳（メタデータ） (2023-07-24T17:59:02Z)
UniG3D: A Unified 3D Object Generation Dataset [75.49544172927749]
UniG3Dは、ShapeNetデータセット上に普遍的なデータ変換パイプラインを用いて構築された、統一された3Dオブジェクト生成データセットである。このパイプラインは、各生の3Dモデルを包括的なマルチモーダルデータ表現に変換する。データセットのデータソースの選択は、そのスケールと品質に基づいています。
論文参考訳（メタデータ） (2023-06-19T07:03:45Z)
3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文参考訳（メタデータ） (2021-04-06T02:22:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。