Fugu-MT 論文翻訳(概要): CLIP-Guided Vision-Language Pre-training for Question Answering in 3D Scenes

論文の概要: CLIP-Guided Vision-Language Pre-training for Question Answering in 3D Scenes

arxiv url: http://arxiv.org/abs/2304.06061v1
Date: Wed, 12 Apr 2023 16:52:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-14 16:37:51.500566
Title: CLIP-Guided Vision-Language Pre-training for Question Answering in 3D Scenes
Title（参考訳）: 3dシーンにおける質問応答のためのクリップ誘導視覚言語事前学習
Authors: Maria Parelli, Alexandros Delitzas, Nikolas Hars, Georgios Vlassis, Sotirios Anagnostidis, Gregor Bachmann, Thomas Hofmann
Abstract要約: 我々は,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。符号化された3Dシーン特徴と対応する2D画像とテキスト埋め込みとを一致させることにより、人気のあるCLIPモデルの表現力を3Dエンコーダに注入する。我々は,3次元視覚質問応答の下流課題に対して,我々のモデルによる3次元世界推論能力を評価する。
参考スコア（独自算出の注目度）: 68.61199623705096
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training models to apply linguistic knowledge and visual concepts from 2D images to 3D world understanding is a promising direction that researchers have only recently started to explore. In this work, we design a novel 3D pre-training Vision-Language method that helps a model learn semantically meaningful and transferable 3D scene point cloud representations. We inject the representational power of the popular CLIP model into our 3D encoder by aligning the encoded 3D scene features with the corresponding 2D image and text embeddings produced by CLIP. To assess our model's 3D world reasoning capability, we evaluate it on the downstream task of 3D Visual Question Answering. Experimental quantitative and qualitative results show that our pre-training method outperforms state-of-the-art works in this task and leads to an interpretable representation of 3D scene features.
Abstract（参考訳）: 言語知識と視覚概念を2次元画像から3次元世界理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりである。本研究では,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。一般的なCLIPモデルの表現力を3Dエンコーダに注入し,符号化された3Dシーン特徴と対応する2D画像とCLIPが生成するテキスト埋め込みとを一致させる。モデルの3次元世界推論能力を評価するため,3次元視覚的質問応答の下流タスクで評価した。実験による定量的・定性的な結果から,本手法は最先端の作業よりも優れており,3dシーンの特徴を解釈可能な表現へと導く。

関連論文リスト

Aligning Text, Images, and 3D Structure Token-by-Token [8.521599463802637]
構造化3次元シーンにおける自己回帰モデルの可能性について検討する。言語,画像,3Dシーンを整合させる統一LLMフレームワークを提案する。実世界の3Dオブジェクト認識タスクにおけるモデルの有効性を示す。
論文参考訳（メタデータ） (2025-06-09T17:59:37Z)
3D Scene Graph Guided Vision-Language Pre-training [11.131667398927394]
3次元視覚言語推論(VL)は、3次元物理世界を自然言語記述で橋渡しする可能性から注目されている。既存のアプローチは通常、タスク固有の高度に専門化されたパラダイムに従う。本稿では,3次元シーングラフ誘導型視覚言語事前学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-11-27T16:10:44Z)
SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。 SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。 SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文参考訳（メタデータ） (2024-04-01T21:23:03Z)
POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images [32.33170182669095]
入力された2次元画像からオープンな3次元セマンティックなボクセル占有マップを推定する手法について述べる。アーキテクチャは、2D-3Dエンコーダと、占有率予測と3D言語ヘッドで構成されている。出力は3次元接地言語埋め込みの密度の高いボクセルマップであり、様々なオープン語彙タスクを可能にする。
論文参考訳（メタデータ） (2024-01-17T18:51:53Z)
Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment [26.858034573776198]
視覚言語アライメントに基づく3次元視覚接地のための弱教師付きアプローチを提案する。我々の3D-VLAは、テキストと2D画像のセマンティクスの整合性において、現在の大規模視覚言語モデルの優れた能力を利用する。推論段階では、学習したテキスト3D対応は、2D画像がなくてもテキストクエリを3D対象オブジェクトにグラウンド化するのに役立ちます。
論文参考訳（メタデータ） (2023-12-15T09:08:14Z)
Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。相補的な視点から3次元オブジェクトレベルの表現を開発する。次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文参考訳（メタデータ） (2023-11-03T06:05:36Z)
Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。 Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文参考訳（メタデータ） (2023-10-10T16:49:21Z)
Multi-CLIP: Contrastive Vision-Language Pre-training for Question Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文参考訳（メタデータ） (2023-06-04T11:08:53Z)
CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文参考訳（メタデータ） (2023-03-22T09:32:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。