論文の概要: ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with
GPT and Prototype Guidance
- arxiv url: http://arxiv.org/abs/2303.16894v4
- Date: Tue, 5 Dec 2023 05:34:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 20:18:14.799965
- Title: ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with
GPT and Prototype Guidance
- Title(参考訳): ViewRefer: GPTとプロトタイプガイダンスによる3次元視覚グラウンドの多視点知識
- Authors: Zoey Guo, Yiwen Tang, Ray Zhang, Dong Wang, Zhigang Wang, Bin Zhao,
Xuelong Li
- Abstract要約: 視覚的グラウンドティングのための多視点フレームワークであるViewReferを提案する。
テキストブランチでは、ViewReferは単一の接地テキストを複数の幾何学的な記述に拡張する。
3次元モードでは、ビュー間でのオブジェクトの相互作用を促進するために、ビュー間の注意を伴うトランスフォーマー融合モジュールが導入された。
- 参考スコア(独自算出の注目度): 48.748738590964216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding 3D scenes from multi-view inputs has been proven to alleviate
the view discrepancy issue in 3D visual grounding. However, existing methods
normally neglect the view cues embedded in the text modality and fail to weigh
the relative importance of different views. In this paper, we propose
ViewRefer, a multi-view framework for 3D visual grounding exploring how to
grasp the view knowledge from both text and 3D modalities. For the text branch,
ViewRefer leverages the diverse linguistic knowledge of large-scale language
models, e.g., GPT, to expand a single grounding text to multiple
geometry-consistent descriptions. Meanwhile, in the 3D modality, a transformer
fusion module with inter-view attention is introduced to boost the interaction
of objects across views. On top of that, we further present a set of learnable
multi-view prototypes, which memorize scene-agnostic knowledge for different
views, and enhance the framework from two perspectives: a view-guided attention
module for more robust text features, and a view-guided scoring strategy during
the final prediction. With our designed paradigm, ViewRefer achieves superior
performance on three benchmarks and surpasses the second-best by +2.8%, +1.5%,
and +1.35% on Sr3D, Nr3D, and ScanRefer. Code is released at
https://github.com/Ivan-Tang-3D/ViewRefer3D.
- Abstract(参考訳): マルチビュー入力からの3dシーンの理解は、3dビジュアルグラウンドにおけるビューの不一致を緩和することが証明されている。
しかし、既存の手法は通常、テキストモダリティに埋め込まれたビューキューを無視し、異なるビューの相対的な重要性を測ることに失敗する。
本稿では,テキストと3Dモダリティの両方からビュー知識を把握する方法を探索する3次元視覚基盤のための多視点フレームワークであるViewReferを提案する。
テキストブランチでは、ViewReferはGPTのような大規模言語モデルの多様な言語知識を活用して、単一の基底テキストを複数の幾何学的記述に拡張する。
一方、3次元モードでは、ビュー間でのオブジェクトの相互作用を促進するために、ビュー間の注意を伴うトランスフォーマー融合モジュールが導入された。
さらに,様々な視点からシーン非依存の知識を記憶し,より堅牢なテキスト機能を備えたビューガイド付アテンションモジュールと,最終予測時のビューガイド付スコアリング戦略という2つの視点からフレームワークを強化する,学習可能なマルチビュープロトタイプのセットも提示する。
設計したパラダイムでは、ViewReferは3つのベンチマークで優れたパフォーマンスを達成し、Sr3D、Nr3D、ScanReferでは+2.8%、+1.5%、+1.35%という2番目のベットを上回ります。
コードはhttps://github.com/Ivan-Tang-3D/ViewRefer3Dで公開されている。
関連論文リスト
- SeMv-3D: Towards Semantic and Mutil-view Consistency simultaneously for General Text-to-3D Generation with Triplane Priors [115.66850201977887]
汎用テキストから3d生成のための新しいフレームワークであるSeMv-3Dを提案する。
3次元の空間的特徴を持つ3次元平面先行学習を学習し、3次元の異なる視点間の整合性を維持する三次元平面先行学習器を提案する。
また,3次元空間特徴とテキスト・セマンティクスとの整合性を保持するセマンティック・アラインメント・ビュー・シンセサイザーを設計する。
論文 参考訳(メタデータ) (2024-10-10T07:02:06Z) - Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment [26.858034573776198]
視覚言語アライメントに基づく3次元視覚接地のための弱教師付きアプローチを提案する。
我々の3D-VLAは、テキストと2D画像のセマンティクスの整合性において、現在の大規模視覚言語モデルの優れた能力を利用する。
推論段階では、学習したテキスト3D対応は、2D画像がなくてもテキストクエリを3D対象オブジェクトにグラウンド化するのに役立ちます。
論文 参考訳(メタデータ) (2023-12-15T09:08:14Z) - Mono3DVG: 3D Visual Grounding in Monocular Images [12.191320182791483]
外観情報と幾何情報の両方を用いた言語記述を用いた単眼RGB画像における3次元視覚的グラウンドディングの新たなタスクを提案する。
大規模データセット Mono3DRefer を構築し,それに対応する幾何学的テキスト記述を備えた3Dオブジェクトを対象とする。
テキスト埋め込みにおける外観情報と幾何学情報の両方を利用するエンドツーエンドのトランスフォーマーネットワークであるMono3DVG-TRを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:49:59Z) - Multiview Compressive Coding for 3D Reconstruction [77.95706553743626]
単一オブジェクトの3Dポイントやシーン全体で動作するシンプルなフレームワークを紹介します。
我々のモデルであるMultiview Compressive Codingは、入力の外観と形状を圧縮して3次元構造を予測する。
論文 参考訳(メタデータ) (2023-01-19T18:59:52Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Multi-View Transformer for 3D Visual Grounding [64.30493173825234]
3次元視覚グラウンドリングのためのマルチビュー変換器(MVT)を提案する。
我々は3Dシーンを多視点空間に投影し、異なるビュー下の3Dシーンの位置情報を同時にモデル化して集約する。
論文 参考訳(メタデータ) (2022-04-05T12:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。