論文の概要: Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes
- arxiv url: http://arxiv.org/abs/2306.02329v1
- Date: Sun, 4 Jun 2023 11:08:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 18:26:55.235741
- Title: Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes
- Title(参考訳): マルチCLIP:3次元シーンにおける質問応答タスクのためのコントラストビジョンランゲージ事前学習
- Authors: Alexandros Delitzas, Maria Parelli, Nikolas Hars, Georgios Vlassis,
Sotirios Anagnostidis, Gregor Bachmann, Thomas Hofmann
- Abstract要約: 一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
- 参考スコア(独自算出の注目度): 68.61199623705096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training models to apply common-sense linguistic knowledge and visual
concepts from 2D images to 3D scene understanding is a promising direction that
researchers have only recently started to explore. However, it still remains
understudied whether 2D distilled knowledge can provide useful representations
for downstream 3D vision-language tasks such as 3D question answering. In this
paper, we propose a novel 3D pre-training Vision-Language method, namely
Multi-CLIP, that enables a model to learn language-grounded and transferable 3D
scene point cloud representations. We leverage the representational power of
the CLIP model by maximizing the agreement between the encoded 3D scene
features and the corresponding 2D multi-view image and text embeddings in the
CLIP space via a contrastive objective. To validate our approach, we consider
the challenging downstream tasks of 3D Visual Question Answering (3D-VQA) and
3D Situated Question Answering (3D-SQA). To this end, we develop novel
multi-modal transformer-based architectures and we demonstrate how our
pre-training method can benefit their performance. Quantitative and qualitative
experimental results show that Multi-CLIP outperforms state-of-the-art works
across the downstream tasks of 3D-VQA and 3D-SQA and leads to a well-structured
3D scene feature space.
- Abstract(参考訳): 2d画像から3dシーン理解に共通意味言語知識と視覚概念を適用するためのトレーニングモデルは、研究者が最近調査を始めたばかりの有望な方向です。
しかし,2次元蒸留知識が3次元質問応答などの下流3次元視覚言語タスクに有用な表現を提供できるかどうかはまだ検証されていない。
そこで,本稿では,モデルが3dシーンのクラウド表現を学習できる,新たな3d事前学習型視覚言語手法であるmulti-clipを提案する。
符号化された3次元シーン特徴と対応する2次元多視点画像とCLIP空間へのテキスト埋め込みとの一致をコントラスト的目的により最大化することにより、CLIPモデルの表現力を利用する。
本稿では,3次元視覚質問回答(3D-VQA)と3D Situated Question Answering(3D-SQA)の下流課題について検討する。
この目的のために,新しいマルチモーダルトランスフォーマーアーキテクチャを開発し,プリトレーニング手法がパフォーマンスに与える影響を実証する。
定量的および定性的な実験結果から,Multi-CLIPは3D-VQAと3D-SQAの下流タスクにおいて,最先端の作業よりも優れており,良好な3Dシーン特徴空間が得られることが示された。
関連論文リスト
- Unifying 3D Vision-Language Understanding via Promptable Queries [39.55438547712157]
3次元視覚言語(3D-VL)理解のための統一モデル。
PQ3DはPromptable Queriesを使用して、幅広い3D-VLタスクに取り組むことができる。
10の多様な3D-VLデータセットでテストされたPQ3Dは、これらのタスクにおける印象的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-05-19T04:35:05Z) - 3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding [12.823274886850697]
我々は3DMITという新しい高速なプロンプトチューニングパラダイムを導入する。
このパラダイムは、3Dシーンと言語間のアライメントステージを排除し、命令プロンプトを3Dモダリティ情報で拡張する。
本研究では,3次元シーン領域における多様なタスクにまたがる手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-01-06T12:20:18Z) - Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment [26.858034573776198]
視覚言語アライメントに基づく3次元視覚接地のための弱教師付きアプローチを提案する。
我々の3D-VLAは、テキストと2D画像のセマンティクスの整合性において、現在の大規模視覚言語モデルの優れた能力を利用する。
推論段階では、学習したテキスト3D対応は、2D画像がなくてもテキストクエリを3D対象オブジェクトにグラウンド化するのに役立ちます。
論文 参考訳(メタデータ) (2023-12-15T09:08:14Z) - Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。
相補的な視点から3次元オブジェクトレベルの表現を開発する。
次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - CLIP-Guided Vision-Language Pre-training for Question Answering in 3D
Scenes [68.61199623705096]
我々は,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。
符号化された3Dシーン特徴と対応する2D画像とテキスト埋め込みとを一致させることにより、人気のあるCLIPモデルの表現力を3Dエンコーダに注入する。
我々は,3次元視覚質問応答の下流課題に対して,我々のモデルによる3次元世界推論能力を評価する。
論文 参考訳(メタデータ) (2023-04-12T16:52:29Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。