論文の概要: Multi-View Transformer for 3D Visual Grounding
- arxiv url: http://arxiv.org/abs/2204.02174v1
- Date: Tue, 5 Apr 2022 12:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 18:03:37.415441
- Title: Multi-View Transformer for 3D Visual Grounding
- Title(参考訳): 3次元視覚接地用マルチビュートランス
- Authors: Shijia Huang, Yilun Chen, Jiaya Jia, Liwei Wang
- Abstract要約: 3次元視覚グラウンドリングのためのマルチビュー変換器(MVT)を提案する。
我々は3Dシーンを多視点空間に投影し、異なるビュー下の3Dシーンの位置情報を同時にモデル化して集約する。
- 参考スコア(独自算出の注目度): 64.30493173825234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The 3D visual grounding task aims to ground a natural language description to
the targeted object in a 3D scene, which is usually represented in 3D point
clouds. Previous works studied visual grounding under specific views. The
vision-language correspondence learned by this way can easily fail once the
view changes. In this paper, we propose a Multi-View Transformer (MVT) for 3D
visual grounding. We project the 3D scene to a multi-view space, in which the
position information of the 3D scene under different views are modeled
simultaneously and aggregated together. The multi-view space enables the
network to learn a more robust multi-modal representation for 3D visual
grounding and eliminates the dependence on specific views. Extensive
experiments show that our approach significantly outperforms all
state-of-the-art methods. Specifically, on Nr3D and Sr3D datasets, our method
outperforms the best competitor by 11.2% and 7.1% and even surpasses recent
work with extra 2D assistance by 5.9% and 6.6%. Our code is available at
https://github.com/sega-hsj/MVT-3DVG.
- Abstract(参考訳): 3dビジュアルグラウンドタスクは、通常3dポイントクラウドで表現される3dシーン内の対象オブジェクトに自然言語記述をグラウンドすることを目的としている。
以前は、特定の視点で視覚的な接地を研究していた。
この方法で学習した視覚言語対応は、ビューが変わったら容易に失敗する。
本稿では,3次元視覚接地のためのマルチビュートランス (MVT) を提案する。
我々は3Dシーンを多視点空間に投影し、異なるビュー下の3Dシーンの位置情報を同時にモデル化して集約する。
マルチビュー空間により、ネットワークはより堅牢な3次元ビジュアルグラウンドのマルチモーダル表現を学習でき、特定のビューへの依存を排除できる。
大規模な実験により,本手法はすべての最先端手法を著しく上回ることがわかった。
特に、nr3dとsr3dデータセットでは、最も優れた競合相手を11.2%と7.1%上回っており、最近の2dアシストを5.9%と6.6%上回っている。
私たちのコードはhttps://github.com/sega-hsj/MVT-3DVGで利用可能です。
関連論文リスト
- Lift3D: Zero-Shot Lifting of Any 2D Vision Model to 3D [95.14469865815768]
2Dビジョンモデルは、大規模な2D画像データセットによって実現されるセマンティックセグメンテーション、スタイル転送、シーン編集に使用できる。
しかし、シーン編集のような単一の2Dビジョン演算子を3Dに拡張するには、通常、そのタスクに特化した非常に創造的な方法が必要である。
本稿では,いくつかの視覚モデルによって生成された特徴空間の未知のビューを予測するためのLift3Dを提案する。
問題のあるタスクに特化した最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-03-27T18:13:16Z) - SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding [37.47195477043883]
3D視覚言語グラウンドリングは、言語と3D物理環境の整合性に焦点を当て、エンボディエージェントの開発の基盤となっている。
約68Kの屋内シーンを含む最初の100万スケールの3Dビジョン言語データセットであるSceneVerseを紹介した。
このスケーリングにより、3次元視覚言語学習のための一貫した事前学習フレームワーク、Grounded Pre-training for Scenes (GPS) が実現可能であることを実証する。
論文 参考訳(メタデータ) (2024-01-17T17:04:35Z) - Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment [26.858034573776198]
視覚言語アライメントに基づく3次元視覚接地のための弱教師付きアプローチを提案する。
我々の3D-VLAは、テキストと2D画像のセマンティクスの整合性において、現在の大規模視覚言語モデルの優れた能力を利用する。
推論段階では、学習したテキスト3D対応は、2D画像がなくてもテキストクエリを3D対象オブジェクトにグラウンド化するのに役立ちます。
論文 参考訳(メタデータ) (2023-12-15T09:08:14Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with
GPT and Prototype Guidance [48.748738590964216]
視覚的グラウンドティングのための多視点フレームワークであるViewReferを提案する。
テキストブランチでは、ViewReferは単一の接地テキストを複数の幾何学的な記述に拡張する。
3次元モードでは、ビュー間でのオブジェクトの相互作用を促進するために、ビュー間の注意を伴うトランスフォーマー融合モジュールが導入された。
論文 参考訳(メタデータ) (2023-03-29T17:59:10Z) - SAT: 2D Semantics Assisted Training for 3D Visual Grounding [95.84637054325039]
3Dビジュアルグラウンドイングは、通常3Dポイント雲の形で表現される3Dシーンに関する自然言語記述を、対象とする対象領域に基盤付けることを目的としている。
ポイントクラウドはスパースでノイズがあり、2D画像と比較してセマンティック情報が限られている。
本研究では,2次元画像セマンティクスを利用した2次元セマンティクス支援訓練(SAT)を提案する。
論文 参考訳(メタデータ) (2021-05-24T17:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。