Fugu-MT 論文翻訳(概要): Multi-View Transformer for 3D Visual Grounding

論文の概要: Multi-View Transformer for 3D Visual Grounding

arxiv url: http://arxiv.org/abs/2204.02174v1
Date: Tue, 5 Apr 2022 12:59:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-06 18:03:37.415441
Title: Multi-View Transformer for 3D Visual Grounding
Title（参考訳）: 3次元視覚接地用マルチビュートランス
Authors: Shijia Huang, Yilun Chen, Jiaya Jia, Liwei Wang
Abstract要約: 3次元視覚グラウンドリングのためのマルチビュー変換器(MVT)を提案する。我々は3Dシーンを多視点空間に投影し、異なるビュー下の3Dシーンの位置情報を同時にモデル化して集約する。
参考スコア（独自算出の注目度）: 64.30493173825234
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The 3D visual grounding task aims to ground a natural language description to the targeted object in a 3D scene, which is usually represented in 3D point clouds. Previous works studied visual grounding under specific views. The vision-language correspondence learned by this way can easily fail once the view changes. In this paper, we propose a Multi-View Transformer (MVT) for 3D visual grounding. We project the 3D scene to a multi-view space, in which the position information of the 3D scene under different views are modeled simultaneously and aggregated together. The multi-view space enables the network to learn a more robust multi-modal representation for 3D visual grounding and eliminates the dependence on specific views. Extensive experiments show that our approach significantly outperforms all state-of-the-art methods. Specifically, on Nr3D and Sr3D datasets, our method outperforms the best competitor by 11.2% and 7.1% and even surpasses recent work with extra 2D assistance by 5.9% and 6.6%. Our code is available at https://github.com/sega-hsj/MVT-3DVG.
Abstract（参考訳）: 3dビジュアルグラウンドタスクは、通常3dポイントクラウドで表現される3dシーン内の対象オブジェクトに自然言語記述をグラウンドすることを目的としている。以前は、特定の視点で視覚的な接地を研究していた。この方法で学習した視覚言語対応は、ビューが変わったら容易に失敗する。本稿では,3次元視覚接地のためのマルチビュートランス (MVT) を提案する。我々は3Dシーンを多視点空間に投影し、異なるビュー下の3Dシーンの位置情報を同時にモデル化して集約する。マルチビュー空間により、ネットワークはより堅牢な3次元ビジュアルグラウンドのマルチモーダル表現を学習でき、特定のビューへの依存を排除できる。大規模な実験により,本手法はすべての最先端手法を著しく上回ることがわかった。特に、nr3dとsr3dデータセットでは、最も優れた競合相手を11.2%と7.1%上回っており、最近の2dアシストを5.9%と6.6%上回っている。私たちのコードはhttps://github.com/sega-hsj/MVT-3DVGで利用可能です。

関連論文リスト

Learning from Videos for 3D World: Enhancing MLLMs with 3D Vision Geometry Priors [23.66183317100899]
これまで,ビデオとして解釈することで3次元シーンの理解にMLLM(Multimodal Large Language Models)を適用する研究が続けられてきた。ビデオ3次元幾何大言語モデル(VG LLM)を提案する。提案手法では,映像系列から3次元事前情報を抽出する3次元ビジュアルジオメトリエンコーダを用いる。
論文参考訳（メタデータ） (2025-05-30T14:16:41Z)
NVSMask3D: Hard Visual Prompting with Camera Pose Interpolation for 3D Open Vocabulary Instance Segmentation [14.046423852723615]
本稿では,3次元ガウシアン・スプレイティングに基づくハードビジュアル・プロンプト手法を導入し,対象物に関する多様な視点を創出する。提案手法は現実的な3次元視点をシミュレートし,既存のハード・ビジュアル・プロンプトを効果的に増強する。このトレーニングフリー戦略は、事前のハード・ビジュアル・プロンプトとシームレスに統合され、オブジェクト記述的特徴が強化される。
論文参考訳（メタデータ） (2025-04-20T14:39:27Z)
Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness [73.72335146374543]
本稿では,3次元視覚指導を訓練手順に組み込んだ3次元視覚指導法(Ross3D)について紹介する。 Ross3Dは様々な3Dシーン理解ベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-04-02T16:59:55Z)
Lift3D: Zero-Shot Lifting of Any 2D Vision Model to 3D [95.14469865815768]
2Dビジョンモデルは、大規模な2D画像データセットによって実現されるセマンティックセグメンテーション、スタイル転送、シーン編集に使用できる。しかし、シーン編集のような単一の2Dビジョン演算子を3Dに拡張するには、通常、そのタスクに特化した非常に創造的な方法が必要である。本稿では,いくつかの視覚モデルによって生成された特徴空間の未知のビューを予測するためのLift3Dを提案する。問題のあるタスクに特化した最先端の手法よりも優れています。
論文参考訳（メタデータ） (2024-03-27T18:13:16Z)
SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding [37.47195477043883]
3D視覚言語グラウンドリングは、言語と3D物理環境の整合性に焦点を当て、エンボディエージェントの開発の基盤となっている。約68Kの屋内シーンを含む最初の100万スケールの3Dビジョン言語データセットであるSceneVerseを紹介した。このスケーリングにより、3次元視覚言語学習のための一貫した事前学習フレームワーク、Grounded Pre-training for Scenes (GPS) が実現可能であることを実証する。
論文参考訳（メタデータ） (2024-01-17T17:04:35Z)
Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment [26.858034573776198]
視覚言語アライメントに基づく3次元視覚接地のための弱教師付きアプローチを提案する。我々の3D-VLAは、テキストと2D画像のセマンティクスの整合性において、現在の大規模視覚言語モデルの優れた能力を利用する。推論段階では、学習したテキスト3D対応は、2D画像がなくてもテキストクエリを3D対象オブジェクトにグラウンド化するのに役立ちます。
論文参考訳（メタデータ） (2023-12-15T09:08:14Z)
Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文参考訳（メタデータ） (2023-09-08T19:27:01Z)
3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文参考訳（メタデータ） (2023-07-24T17:59:02Z)
ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with GPT and Prototype Guidance [48.748738590964216]
視覚的グラウンドティングのための多視点フレームワークであるViewReferを提案する。テキストブランチでは、ViewReferは単一の接地テキストを複数の幾何学的な記述に拡張する。 3次元モードでは、ビュー間でのオブジェクトの相互作用を促進するために、ビュー間の注意を伴うトランスフォーマー融合モジュールが導入された。
論文参考訳（メタデータ） (2023-03-29T17:59:10Z)
SAT: 2D Semantics Assisted Training for 3D Visual Grounding [95.84637054325039]
3Dビジュアルグラウンドイングは、通常3Dポイント雲の形で表現される3Dシーンに関する自然言語記述を、対象とする対象領域に基盤付けることを目的としている。ポイントクラウドはスパースでノイズがあり、2D画像と比較してセマンティック情報が限られている。本研究では,2次元画像セマンティクスを利用した2次元セマンティクス支援訓練(SAT)を提案する。
論文参考訳（メタデータ） (2021-05-24T17:58:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。