論文の概要: Vision-Language Pre-training with Object Contrastive Learning for 3D
Scene Understanding
- arxiv url: http://arxiv.org/abs/2305.10714v1
- Date: Thu, 18 May 2023 05:25:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 16:52:37.852655
- Title: Vision-Language Pre-training with Object Contrastive Learning for 3D
Scene Understanding
- Title(参考訳): 3次元シーン理解のためのオブジェクトコントラスト学習による視覚言語事前学習
- Authors: Taolin Zhang, Sunan He, Dai Tao, Bin Chen, Zhi Wang, Shu-Tao Xia
- Abstract要約: 3次元視覚言語下流タスクを柔軟に伝達するために,視覚言語事前学習フレームワークを提案する。
本稿では,セマンティック3次元シーン理解における3つの共通課題について検討し,事前学習モデルに対する重要な洞察を導出する。
実験は3つの3次元視覚言語タスクにおけるフレームワークの優れた性能を検証する。
- 参考スコア(独自算出の注目度): 47.48443919164377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, vision language pre-training frameworks have made
significant progress in natural language processing and computer vision,
achieving remarkable performance improvement on various downstream tasks.
However, when extended to point cloud data, existing works mainly focus on
building task-specific models, and fail to extract universal 3D vision-language
embedding that generalize well. We carefully investigate three common tasks in
semantic 3D scene understanding, and derive key insights into the development
of a pre-training model. Motivated by these observations, we propose a
vision-language pre-training framework 3DVLP (3D vision-language pre-training
with object contrastive learning), which transfers flexibly on 3D
vision-language downstream tasks. 3DVLP takes visual grounding as the proxy
task and introduces Object-level IoU-guided Detection (OID) loss to obtain
high-quality proposals in the scene. Moreover, we design Object-level
Cross-Contrastive alignment (OCC) task and Object-level Self-Contrastive
learning (OSC) task to align the objects with descriptions and distinguish
different objects in the scene, respectively. Extensive experiments verify the
excellent performance of 3DVLP on three 3D vision-language tasks, reflecting
its superiority in semantic 3D scene understanding.
- Abstract(参考訳): 近年、視覚言語事前学習フレームワークは自然言語処理やコンピュータビジョンにおいて大きな進歩を遂げており、様々な下流タスクの性能向上を実現している。
しかし、ポイントクラウドデータに拡張する場合、既存の作業は主にタスク固有のモデルの構築に重点を置いており、汎用的な3dビジョン言語埋め込みの抽出に失敗した。
セマンティック3Dシーン理解における3つの共通課題を慎重に検討し,事前学習モデルの開発に関する重要な知見を導き出す。
そこで本研究では,視覚言語前学習フレームワーク3dvlp (3d vision language pre-training with object contrastive learning)を提案する。
3DVLPは、視覚的グラウンドをプロキシタスクとして取り、オブジェクトレベルのIoU誘導検出(OID)損失を導入して、現場で高品質な提案を得る。
さらに,オブジェクトを記述にアライメントし,シーン内の異なるオブジェクトを識別するために,オブジェクトレベルのクロスコントラストアライメント(occ)タスクとオブジェクトレベルの自己コントラスト学習(osc)タスクを設計する。
3次元視覚言語タスクにおける3次元VLPの優れた性能を検証する実験は、セマンティック3次元シーン理解における優位性を反映している。
関連論文リスト
- Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image [70.02187124865627]
Open-vocabulary 3D object detection (OV-3DDet) は、新しい3Dシーン内において、目に見えないものの両方をローカライズし、認識することを目的としている。
視覚基盤モデルを利用して、3Dシーンにおける新しいクラスを発見するための画像的ガイダンスを提供する。
オープン語彙の3Dオブジェクト検出における基礎モデルの可能性を明らかにするとともに,精度と一般化の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-07-07T04:50:04Z) - Naturally Supervised 3D Visual Grounding with Language-Regularized Concept Learners [15.178598145436142]
我々はLARC(Language-Regularized Concept Learner)を提案する。
LARCは言語からの制約を正規化として使用し、ニューロシンボリックな概念学習者の精度を大幅に向上させる。
LARCは自然に監督された3次元視覚グラウンドにおける先行作業の性能を向上させる。
論文 参考訳(メタデータ) (2024-04-30T16:44:18Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - CLIP-Guided Vision-Language Pre-training for Question Answering in 3D
Scenes [68.61199623705096]
我々は,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。
符号化された3Dシーン特徴と対応する2D画像とテキスト埋め込みとを一致させることにより、人気のあるCLIPモデルの表現力を3Dエンコーダに注入する。
我々は,3次元視覚質問応答の下流課題に対して,我々のモデルによる3次元世界推論能力を評価する。
論文 参考訳(メタデータ) (2023-04-12T16:52:29Z) - Self-supervised 3D Semantic Representation Learning for
Vision-and-Language Navigation [30.429893959096752]
ボクセルレベルの3Dセマンティック再構築を3Dセマンティック表現にエンコードする新しいトレーニングフレームワークを開発した。
LSTMに基づくナビゲーションモデルを構築し,提案した3Dセマンティック表現とBERT言語特徴を視覚言語ペア上で学習する。
実験の結果、提案手法は、R2Rデータセットの未確認分割とテスト未確認の検証において、成功率68%と66%を達成することがわかった。
論文 参考訳(メタデータ) (2022-01-26T07:43:47Z) - KD-VLP: Improving End-to-End Vision-and-Language Pretraining with Object
Knowledge Distillation [42.01427946204401]
自己教師付きビジョン・アンド・ランゲージ事前学習は,大規模な画像テキストデータから伝達可能なマルチモーダル表現を学習することを目的としている。
本稿では,CNN から Transformer へのイメージグリッド機能を直接供給し,マルチモーダル表現を協調的に学習するオブジェクト認識型エンドツーエンド QF フレームワークを提案する。
そこで我々は,オブジェクトの特徴とその意味的ラベルを外部検知器から監視することで,2つの新しいプリテキストタスクを設計する。
論文 参考訳(メタデータ) (2021-09-22T03:38:05Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。