論文の概要: Mono3DVG: 3D Visual Grounding in Monocular Images
- arxiv url: http://arxiv.org/abs/2312.08022v1
- Date: Wed, 13 Dec 2023 09:49:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 16:00:26.737151
- Title: Mono3DVG: 3D Visual Grounding in Monocular Images
- Title(参考訳): mono3dvg:単眼画像における3次元視覚接地
- Authors: Yang Zhan, Yuan Yuan, Zhitong Xiong
- Abstract要約: 外観情報と幾何情報の両方を用いた言語記述を用いた単眼RGB画像における3次元視覚的グラウンドディングの新たなタスクを提案する。
大規模データセット Mono3DRefer を構築し,それに対応する幾何学的テキスト記述を備えた3Dオブジェクトを対象とする。
テキスト埋め込みにおける外観情報と幾何学情報の両方を利用するエンドツーエンドのトランスフォーマーネットワークであるMono3DVG-TRを提案する。
- 参考スコア(独自算出の注目度): 12.191320182791483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel task of 3D visual grounding in monocular RGB images
using language descriptions with both appearance and geometry information.
Specifically, we build a large-scale dataset, Mono3DRefer, which contains 3D
object targets with their corresponding geometric text descriptions, generated
by ChatGPT and refined manually. To foster this task, we propose Mono3DVG-TR,
an end-to-end transformer-based network, which takes advantage of both the
appearance and geometry information in text embeddings for multi-modal learning
and 3D object localization. Depth predictor is designed to explicitly learn
geometry features. The dual text-guided adapter is proposed to refine
multiscale visual and geometry features of the referred object. Based on
depth-text-visual stacking attention, the decoder fuses object-level geometric
cues and visual appearance into a learnable query. Comprehensive benchmarks and
some insightful analyses are provided for Mono3DVG. Extensive comparisons and
ablation studies show that our method significantly outperforms all baselines.
The dataset and code will be publicly available at:
https://github.com/ZhanYang-nwpu/Mono3DVG.
- Abstract(参考訳): 外観情報と幾何情報の両方を用いた言語記述を用いた単眼RGB画像における3次元視覚的グラウンドディングの新たなタスクを提案する。
具体的には,ChatGPTによって生成され,手動で洗練される幾何学的テキスト記述を伴う3Dオブジェクトターゲットを含む大規模データセットMono3DReferを構築した。
そこで本稿では,マルチモーダル学習と3次元オブジェクトローカライゼーションのためのテキスト埋め込みにおける外観情報と形状情報の両方を活用した,エンドツーエンドトランスフォーマティブネットワークであるmono3dvg-trを提案する。
深度予測器は、幾何学的特徴を明示的に学習するように設計されている。
参照対象物のマルチスケール視覚・幾何学的特徴を洗練するために,デュアルテキスト誘導アダプタを提案する。
デコーダは、深度テキスト-視覚的積み重ねの注意に基づいて、オブジェクトレベルの幾何学的手がかりと視覚的外観を学習可能なクエリに融合する。
総合的なベンチマークといくつかの洞察に富んだ分析がMono3DVGで提供されている。
広範な比較とアブレーション研究の結果,本手法は全ベースラインを有意に上回っていることがわかった。
データセットとコードは、https://github.com/ZhanYang-nwpu/Mono3DVGで公開される。
関連論文リスト
- RefMask3D: Language-Guided Transformer for 3D Referring Segmentation [32.11635464720755]
RefMask3Dは、総合的なマルチモーダル機能インタラクションと理解を探求することを目的としている。
RefMask3Dは、挑戦的なScanReferデータセットにおいて、3.16% mIoUの大きなマージンで、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-25T17:58:03Z) - TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with
GPT and Prototype Guidance [48.748738590964216]
視覚的グラウンドティングのための多視点フレームワークであるViewReferを提案する。
テキストブランチでは、ViewReferは単一の接地テキストを複数の幾何学的な記述に拡張する。
3次元モードでは、ビュー間でのオブジェクトの相互作用を促進するために、ビュー間の注意を伴うトランスフォーマー融合モジュールが導入された。
論文 参考訳(メタデータ) (2023-03-29T17:59:10Z) - Viewpoint Equivariance for Multi-View 3D Object Detection [35.4090127133834]
最先端の手法は多視点カメラ入力からのオブジェクト境界ボックスの推論と復号化に重点を置いている。
本稿では,3次元多視点幾何を利用した新しい3次元オブジェクト検出フレームワークであるVEDetを紹介する。
論文 参考訳(メタデータ) (2023-03-25T19:56:41Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection [61.89277940084792]
深度誘導型TRansformer(MonoDETR)を用いたモノクロ検出のための最初のDETRフレームワークについて紹介する。
我々は3Dオブジェクト候補を学習可能なクエリとして定式化し、オブジェクトとシーンの深度相互作用を行うための深度誘導デコーダを提案する。
モノクルイメージを入力としてKITTIベンチマークでは、MonoDETRは最先端のパフォーマンスを実現し、追加の深度アノテーションを必要としない。
論文 参考訳(メタデータ) (2022-03-24T19:28:54Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Learning Geometry-Disentangled Representation for Complementary
Understanding of 3D Object Point Cloud [50.56461318879761]
3次元画像処理のためのGDANet(Geometry-Disentangled Attention Network)を提案する。
GDANetは、点雲を3Dオブジェクトの輪郭と平らな部分に切り離し、それぞれ鋭い変化成分と穏やかな変化成分で表される。
3Dオブジェクトの分類とセグメンテーションベンチマークの実験は、GDANetがより少ないパラメータで最先端の処理を実現していることを示している。
論文 参考訳(メタデータ) (2020-12-20T13:35:00Z) - RISA-Net: Rotation-Invariant Structure-Aware Network for Fine-Grained 3D
Shape Retrieval [46.02391761751015]
きめ細かい3D形状の検索は、同じクラスに属するモデルを持つレポジトリのクエリ形状に似た3D形状の検索を目的としている。
回転不変な3次元形状記述子を学習する新しいディープアーキテクチャ RISA-Net を提案する。
本手法は,3次元形状の最終コンパクト潜時特徴を生成する際に,各部分の幾何学的・構造的情報の重要性を学習することができる。
論文 参考訳(メタデータ) (2020-10-02T13:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。