論文の概要: Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness
- arxiv url: http://arxiv.org/abs/2504.01901v1
- Date: Wed, 02 Apr 2025 16:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 19:59:19.445184
- Title: Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness
- Title(参考訳): Ross3D:3D認識機能を備えた再構築型ビジュアルインストラクションチューニング
- Authors: Haochen Wang, Yucheng Zhao, Tiancai Wang, Haoqiang Fan, Xiangyu Zhang, Zhaoxiang Zhang,
- Abstract要約: 本稿では,3次元視覚指導を訓練手順に組み込んだ3次元視覚指導法(Ross3D)について紹介する。
Ross3Dは様々な3Dシーン理解ベンチマークで最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 73.72335146374543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid development of Large Multimodal Models (LMMs) for 2D images and videos has spurred efforts to adapt these models for interpreting 3D scenes. However, the absence of large-scale 3D vision-language datasets has posed a significant obstacle. To address this issue, typical approaches focus on injecting 3D awareness into 2D LMMs by designing 3D input-level scene representations. This work provides a new perspective. We introduce reconstructive visual instruction tuning with 3D-awareness (Ross3D), which integrates 3D-aware visual supervision into the training procedure. Specifically, it incorporates cross-view and global-view reconstruction. The former requires reconstructing masked views by aggregating overlapping information from other views. The latter aims to aggregate information from all available views to recover Bird's-Eye-View images, contributing to a comprehensive overview of the entire scene. Empirically, Ross3D achieves state-of-the-art performance across various 3D scene understanding benchmarks. More importantly, our semi-supervised experiments demonstrate significant potential in leveraging large amounts of unlabeled 3D vision-only data.
- Abstract(参考訳): 2D画像とビデオのためのLMM(Large Multimodal Models)の急速な開発は、これらのモデルを3Dシーンの解釈に適応させる努力を刺激している。
しかし、大規模な3Dビジョン言語データセットが存在しないことは大きな障害となっている。
この問題に対処するために、典型的なアプローチは、3D入力レベルのシーン表現を設計することで、2D LMMに3D認識を注入することに焦点を当てている。
この作品には新たな視点がある。
本稿では,3次元視覚指導を訓練手順に組み込んだ3次元視覚指導法(Ross3D)について紹介する。
具体的には、クロスビューとグローバルビューの再構築を取り入れている。
前者は、他の視点からの重なり合う情報を集約することで、仮面のビューを再構築する必要がある。
後者は、すべての利用可能なビューから情報を集約して、Bird's-Eye-Viewイメージを復元することを目的としている。
経験的に、Ross3Dは様々な3Dシーン理解ベンチマークで最先端のパフォーマンスを達成する。
さらに重要なことは、我々の半教師による実験は、大量のラベルなしの3Dビジョンのみのデータを活用する大きな可能性を実証している。
関連論文リスト
- NVSMask3D: Hard Visual Prompting with Camera Pose Interpolation for 3D Open Vocabulary Instance Segmentation [14.046423852723615]
本稿では,3次元ガウシアン・スプレイティングに基づくハードビジュアル・プロンプト手法を導入し,対象物に関する多様な視点を創出する。
提案手法は現実的な3次元視点をシミュレートし,既存のハード・ビジュアル・プロンプトを効果的に増強する。
このトレーニングフリー戦略は、事前のハード・ビジュアル・プロンプトとシームレスに統合され、オブジェクト記述的特徴が強化される。
論文 参考訳(メタデータ) (2025-04-20T14:39:27Z) - SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding [10.81711535075112]
3Dビジュアルグラウンディングは、テキスト記述に基づいて3Dシーン内のオブジェクトを見つけることを目的としている。
大規模2次元データに基づいて訓練された2次元視覚言語モデル(VLM)を活用したゼロショット3DVGフレームワークであるSeeeGroundを紹介する。
本稿では,クエリ関連画像レンダリングの視点を動的に選択するパースペクティブ適応モジュールと,2次元画像と3次元空間記述を統合するFusion Alignmentモジュールの2つのモジュールを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:58:43Z) - Agent3D-Zero: An Agent for Zero-shot 3D Understanding [79.88440434836673]
Agent3D-Zeroは、3Dシーン理解に対処する革新的な3D対応エージェントフレームワークである。
本稿では,3次元理解のための視点を積極的に選択し,分析することで,VLM(Large Visual Language Model)を利用する新しい手法を提案する。
Agent3D-Zeroの独特な利点は、新しい視覚的プロンプトの導入である。
論文 参考訳(メタデータ) (2024-03-18T14:47:03Z) - Weakly Supervised Monocular 3D Detection with a Single-View Image [58.57978772009438]
モノクロ3D検出は、単一視点画像からの正確な3Dオブジェクトのローカライゼーションを目的としている。
SKD-WM3Dは弱い教師付き単分子3D検出フレームワークである。
我々は,SKD-WM3Dが最先端技術を超え,多くの完全教師付き手法と同等であることを示した。
論文 参考訳(メタデータ) (2024-02-29T13:26:47Z) - LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding,
Reasoning, and Planning [42.61001274381612]
LL3DA(Large Language 3D Assistant)は、ポイントクラウドを直接入力とし、テキストインストラクションとビジュアルプロンプトの両方に応答する。
実験の結果,LL3DAは3Dキャプションと3D質問応答の両方において,様々な3次元視覚言語モデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-11-30T16:00:23Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - 3D Concept Learning and Reasoning from Multi-View Images [96.3088005719963]
3次元多視点視覚質問応答のための大規模ベンチマーク(3DMV-VQA)を提案する。
このデータセットは、約5kのシーンと600kのイメージで構成され、50kの質問と組み合わせられている。
本稿では,ニューラルネットワーク,2次元事前学習型視覚言語モデル,ニューラル推論演算子をシームレスに組み合わせた新しい3次元概念学習・推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:59:49Z) - Multiview Compressive Coding for 3D Reconstruction [77.95706553743626]
単一オブジェクトの3Dポイントやシーン全体で動作するシンプルなフレームワークを紹介します。
我々のモデルであるMultiview Compressive Codingは、入力の外観と形状を圧縮して3次元構造を予測する。
論文 参考訳(メタデータ) (2023-01-19T18:59:52Z) - Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T15:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。