論文の概要: 3D Question Answering via only 2D Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.22143v1
- Date: Wed, 28 May 2025 09:04:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.521762
- Title: 3D Question Answering via only 2D Vision-Language Models
- Title(参考訳): 2次元視覚言語モデルによる3次元質問応答
- Authors: Fengyun Wang, Sicheng Yu, Jiawei Wu, Jinhui Tang, Hanwang Zhang, Qianru Sun,
- Abstract要約: 大規模視覚言語モデル(LVLM)は、多くの分野を進歩させた。
代表的な例として,3次元質問応答(3D-QA)を用いた3次元シーン理解タスクの活用について検討する。
具体的には、3Dポイントクラウドから2Dビューをサンプリングし、2Dモデルにフィードして、与えられた質問に答える。
我々は3D-QAのための重要かつ多様なビューを自動的に選択する新しいアプローチであるcdViewsを提案する。
- 参考スコア(独自算出の注目度): 87.41421075243103
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large vision-language models (LVLMs) have significantly advanced numerous fields. In this work, we explore how to harness their potential to address 3D scene understanding tasks, using 3D question answering (3D-QA) as a representative example. Due to the limited training data in 3D, we do not train LVLMs but infer in a zero-shot manner. Specifically, we sample 2D views from a 3D point cloud and feed them into 2D models to answer a given question. When the 2D model is chosen, e.g., LLAVA-OV, the quality of sampled views matters the most. We propose cdViews, a novel approach to automatically selecting critical and diverse Views for 3D-QA. cdViews consists of two key components: viewSelector prioritizing critical views based on their potential to provide answer-specific information, and viewNMS enhancing diversity by removing redundant views based on spatial overlap. We evaluate cdViews on the widely-used ScanQA and SQA benchmarks, demonstrating that it achieves state-of-the-art performance in 3D-QA while relying solely on 2D models without fine-tuning. These findings support our belief that 2D LVLMs are currently the most effective alternative (of the resource-intensive 3D LVLMs) for addressing 3D tasks.
- Abstract(参考訳): 大規模視覚言語モデル (LVLM) は、多くの分野において大幅に進歩している。
本研究では,3次元質問応答(3D-QA)を代表例として,その潜在能力を3次元シーン理解タスクに活用する方法を検討する。
3Dのトレーニングデータに制限があるため、LVLMをトレーニングするのではなく、ゼロショットで推論する。
具体的には、3Dポイントクラウドから2Dビューをサンプリングし、2Dモデルにフィードして、与えられた質問に答える。
2Dモデルが選択された場合、例えば、LAVA-OVでは、サンプルビューの品質が最も重要です。
我々は3D-QAのための重要かつ多様なビューを自動的に選択する新しいアプローチであるcdViewsを提案する。
cdViewsは2つの重要なコンポーネントで構成されている。ViewSelectorは、応答固有の情報を提供する可能性に基づいてクリティカルビューを優先順位付けする。
我々は、広く使われているScanQAとSQAのベンチマークでcdViewsを評価し、3D-QAにおける最先端のパフォーマンスを実現し、微調整なしで2Dモデルのみに依存していることを示した。
これらの知見は,2次元LVLMが現在,3次元タスクに対処するための最も効果的な代替(資源集約型3次元LVLM)である,という私たちの信念を支持している。
関連論文リスト
- SplatTalk: 3D VQA with Gaussian Splatting [13.211810095081159]
言語誘導型3Dシーン理解は、ロボット工学、AR/VR、人間とコンピュータの相互作用における応用を進める上で重要である。
SplatTalkは,3次元ガウススティング(3DGS)フレームワークを用いて,事前学習したLSMへの直接入力に適した3次元トークンを生成する手法である。
論文 参考訳(メタデータ) (2025-03-08T16:31:48Z) - EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - Language-Image Models with 3D Understanding [59.499585515469974]
LV3Dと呼ばれる2Dおよび3Dのための大規模事前学習データセットを開発した。
次に,新しいMLLMであるCube-LLMを導入し,LV3Dで事前学習する。
純粋なデータスケーリングは、3D特有のアーキテクチャ設計やトレーニング目的を使わずに、強力な3D知覚能力を実現することを示す。
論文 参考訳(メタデータ) (2024-05-06T17:57:27Z) - Lift3D: Zero-Shot Lifting of Any 2D Vision Model to 3D [95.14469865815768]
2Dビジョンモデルは、大規模な2D画像データセットによって実現されるセマンティックセグメンテーション、スタイル転送、シーン編集に使用できる。
しかし、シーン編集のような単一の2Dビジョン演算子を3Dに拡張するには、通常、そのタスクに特化した非常に創造的な方法が必要である。
本稿では,いくつかの視覚モデルによって生成された特徴空間の未知のビューを予測するためのLift3Dを提案する。
問題のあるタスクに特化した最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-03-27T18:13:16Z) - Bridging the Gap between 2D and 3D Visual Question Answering: A Fusion
Approach for 3D VQA [6.697298321551588]
3D Visual Question Answering (3D VQA)では、完全注釈付きデータの不足と視覚内容の多様性が、新しいシーンや3Dコンセプトへの一般化を妨げている。
本稿では,重要な視覚的手がかりに対する意味的関連2次元入力をピンポイントする質問条件付き2次元ビュー選択手法を提案する。
次に、この2D知識を2分岐トランスフォーマー構造を介して3D-VQAシステムに統合する。
論文 参考訳(メタデータ) (2024-02-24T23:31:34Z) - 3D-Aware Visual Question Answering about Parts, Poses and Occlusions [20.83938624671415]
本稿では,視覚シーンの3次元構造に対して構成的推論を必要とする課題に焦点を当てた3次元認識型VQAの課題を紹介する。
本稿では、3D対応VQAモデルであるPO3D-VQAを提案する。このモデルでは、推論のための確率的ニューラルシンボルプログラム実行と、堅牢な視覚認識のためのオブジェクトの3D生成表現を備えたディープニューラルネットワークの2つの強力なアイデアをマージする。
実験の結果,PO3D-VQAは既存の手法よりも優れていたが,2D VQAベンチマークと比較すると大きな性能差がみられた。
論文 参考訳(メタデータ) (2023-10-27T06:15:30Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。