論文の概要: Cross3DVG: Cross-Dataset 3D Visual Grounding on Different RGB-D Scans
- arxiv url: http://arxiv.org/abs/2305.13876v2
- Date: Sat, 28 Oct 2023 10:47:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 22:29:15.033953
- Title: Cross3DVG: Cross-Dataset 3D Visual Grounding on Different RGB-D Scans
- Title(参考訳): Cross3DVG: 異なるRGB-Dスコープ上のクロスデータセット3Dビジュアルグラウンド
- Authors: Taiki Miyanishi, Daichi Azuma, Shuhei Kurita, Motoki Kawanabe
- Abstract要約: 3Dシーンにおけるクロスデータセット視覚的グラウンド化のための新しいタスク(Cross3DVG)を提案する。
大規模な3DビジュアルグラウンドデータセットであるROOReferを作成しました。
3RScanの1,380の屋内RGB-Dスキャンで、63万以上の3Dオブジェクトが記述されている。
- 参考スコア(独自算出の注目度): 6.936271803454143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel task for cross-dataset visual grounding in 3D scenes
(Cross3DVG), which overcomes limitations of existing 3D visual grounding
models, specifically their restricted 3D resources and consequent tendencies of
overfitting a specific 3D dataset. We created RIORefer, a large-scale 3D visual
grounding dataset, to facilitate Cross3DVG. It includes more than 63k diverse
descriptions of 3D objects within 1,380 indoor RGB-D scans from 3RScan, with
human annotations. After training the Cross3DVG model using the source 3D
visual grounding dataset, we evaluate it without target labels using the target
dataset with, e.g., different sensors, 3D reconstruction methods, and language
annotators. Comprehensive experiments are conducted using established visual
grounding models and with CLIP-based multi-view 2D and 3D integration designed
to bridge gaps among 3D datasets. For Cross3DVG tasks, (i) cross-dataset 3D
visual grounding exhibits significantly worse performance than learning and
evaluation with a single dataset because of the 3D data and language variants
across datasets. Moreover, (ii) better object detector and localization modules
and fusing 3D data and multi-view CLIP-based image features can alleviate this
lower performance. Our Cross3DVG task can provide a benchmark for developing
robust 3D visual grounding models to handle diverse 3D scenes while leveraging
deep language understanding.
- Abstract(参考訳): 本稿では,既存の3D画像グラウンドモデル,特に制限された3Dリソースの制約を克服し,特定の3Dデータセットに過度に適合する傾向を克服する,3Dシーンにおけるクロスデータセット視覚グラウンドの新たなタスクを提案する。
クロス3dvgを容易にするために、大規模な3dビジュアルグラウンドデータセットであるriareferを作成しました。
3RScanの1,380の屋内RGB-Dスキャンの中に、人間のアノテーションによる3Dオブジェクトの63万以上の多様な記述が含まれている。
ソース3dビジュアルグラウンドデータセットを用いてクロス3dvgモデルをトレーニングした後、ターゲットデータセット、例えば、異なるセンサー、3d再構築方法、言語アノテーションを使用して、ターゲットラベルなしで評価する。
3dデータセット間のギャップを埋めるように設計されたクリップベースのマルチビュー2dおよび3d統合により、確立された視覚接地モデルを用いて包括的な実験を行う。
クロス3dvgタスク。
(i)クロスデータセットの3Dビジュアルグラウンドは、データセット間の3Dデータと言語変異のため、単一のデータセットによる学習や評価よりも大幅にパフォーマンスが低下する。
さらに
2) オブジェクト検出器とローカライゼーションモジュールの改善,3DデータとマルチビューCLIPベースの画像特徴の融合により,この低性能を緩和できる。
私たちのCross3DVGタスクは、深い言語理解を活用しながら、多様な3Dシーンを処理する堅牢な3Dビジュアルグラウンドモデルを開発するためのベンチマークを提供することができる。
関連論文リスト
- E3D-GPT: Enhanced 3D Visual Foundation for Medical Vision-Language Model [23.56751925900571]
3次元医用視覚言語モデルの開発は、疾患の診断と患者の治療に有意な可能性を秘めている。
自己教師付き学習を用いて3次元視覚特徴抽出のための3次元視覚基盤モデルを構築した。
本研究では,3次元空間畳み込みを高精細画像の特徴の集約・投影に応用し,計算複雑性を低減した。
本モデルは,既存の報告生成法,視覚的質問応答法,疾患診断法と比較して,優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-18T06:31:40Z) - 3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination [22.029496025779405]
3D-GRANDは、40,087の世帯シーンと6.2百万の密集したシーン言語命令を組み合わせた、先駆的な大規模データセットである。
この結果から, 3D-GRANDによる指導指導はグラウンド化能力を大幅に向上させ, 3D-LLMの幻覚を低減させることがわかった。
コントリビューションの一環として、3D-LLMの幻覚を体系的に評価するための総合的なベンチマーク3D-POPEを提案する。
論文 参考訳(メタデータ) (2024-06-07T17:59:59Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - UniG3D: A Unified 3D Object Generation Dataset [75.49544172927749]
UniG3Dは、ShapeNetデータセット上に普遍的なデータ変換パイプラインを用いて構築された、統一された3Dオブジェクト生成データセットである。
このパイプラインは、各生の3Dモデルを包括的なマルチモーダルデータ表現に変換する。
データセットのデータソースの選択は、そのスケールと品質に基づいています。
論文 参考訳(メタデータ) (2023-06-19T07:03:45Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。