Fugu-MT 論文翻訳(概要): Vision-Language Pre-training with Object Contrastive Learning for 3D Scene Understanding

論文の概要: Vision-Language Pre-training with Object Contrastive Learning for 3D Scene Understanding

arxiv url: http://arxiv.org/abs/2305.10714v1
Date: Thu, 18 May 2023 05:25:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-19 16:52:37.852655
Title: Vision-Language Pre-training with Object Contrastive Learning for 3D Scene Understanding
Title（参考訳）: 3次元シーン理解のためのオブジェクトコントラスト学習による視覚言語事前学習
Authors: Taolin Zhang, Sunan He, Dai Tao, Bin Chen, Zhi Wang, Shu-Tao Xia
Abstract要約: 3次元視覚言語下流タスクを柔軟に伝達するために,視覚言語事前学習フレームワークを提案する。本稿では,セマンティック3次元シーン理解における3つの共通課題について検討し,事前学習モデルに対する重要な洞察を導出する。実験は3つの3次元視覚言語タスクにおけるフレームワークの優れた性能を検証する。
参考スコア（独自算出の注目度）: 47.48443919164377
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, vision language pre-training frameworks have made significant progress in natural language processing and computer vision, achieving remarkable performance improvement on various downstream tasks. However, when extended to point cloud data, existing works mainly focus on building task-specific models, and fail to extract universal 3D vision-language embedding that generalize well. We carefully investigate three common tasks in semantic 3D scene understanding, and derive key insights into the development of a pre-training model. Motivated by these observations, we propose a vision-language pre-training framework 3DVLP (3D vision-language pre-training with object contrastive learning), which transfers flexibly on 3D vision-language downstream tasks. 3DVLP takes visual grounding as the proxy task and introduces Object-level IoU-guided Detection (OID) loss to obtain high-quality proposals in the scene. Moreover, we design Object-level Cross-Contrastive alignment (OCC) task and Object-level Self-Contrastive learning (OSC) task to align the objects with descriptions and distinguish different objects in the scene, respectively. Extensive experiments verify the excellent performance of 3DVLP on three 3D vision-language tasks, reflecting its superiority in semantic 3D scene understanding.
Abstract（参考訳）: 近年、視覚言語事前学習フレームワークは自然言語処理やコンピュータビジョンにおいて大きな進歩を遂げており、様々な下流タスクの性能向上を実現している。しかし、ポイントクラウドデータに拡張する場合、既存の作業は主にタスク固有のモデルの構築に重点を置いており、汎用的な3dビジョン言語埋め込みの抽出に失敗した。セマンティック3Dシーン理解における3つの共通課題を慎重に検討し,事前学習モデルの開発に関する重要な知見を導き出す。そこで本研究では,視覚言語前学習フレームワーク3dvlp (3d vision language pre-training with object contrastive learning)を提案する。 3DVLPは、視覚的グラウンドをプロキシタスクとして取り、オブジェクトレベルのIoU誘導検出(OID)損失を導入して、現場で高品質な提案を得る。さらに,オブジェクトを記述にアライメントし,シーン内の異なるオブジェクトを識別するために,オブジェクトレベルのクロスコントラストアライメント(occ)タスクとオブジェクトレベルの自己コントラスト学習(osc)タスクを設計する。 3次元視覚言語タスクにおける3次元VLPの優れた性能を検証する実験は、セマンティック3次元シーン理解における優位性を反映している。

関連論文リスト

Masked Point-Entity Contrast for Open-Vocabulary 3D Scene Understanding [31.40722103849691]
MPECはオープンな3次元セマンティックセグメンテーションのための新しい学習手法である。 3Dエンティティ言語アライメントと、異なるポイントクラウドビュー間でのポイントエンテント一貫性の両方を使用する。本手法は,オープンな3次元セマンティックセマンティックセグメンテーションのためのScanNetの最先端結果を実現する。
論文参考訳（メタデータ） (2025-04-28T05:43:14Z)
A Review of 3D Object Detection with Vision-Language Models [0.31457219084519]
視覚言語モデルを用いた3次元物体検出のための最初の体系的解析を行う。ポイントクラウドとボクセルグリッドを使った従来のアプローチは、CLIPや3D LLMのようなモダンなビジョン言語フレームワークと比較される。私たちは、限られた3D言語データセットや計算要求など、現在の課題を強調します。
論文参考訳（メタデータ） (2025-04-25T23:27:26Z)
3D Scene Graph Guided Vision-Language Pre-training [11.131667398927394]
3次元視覚言語推論(VL)は、3次元物理世界を自然言語記述で橋渡しする可能性から注目されている。既存のアプローチは通常、タスク固有の高度に専門化されたパラダイムに従う。本稿では,3次元シーングラフ誘導型視覚言語事前学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-11-27T16:10:44Z)
g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks [62.74304008688472]
Generalizable 3D-Language Feature Fields (g3D-LF)は、大規模な3D言語データセットで事前訓練された3D表現モデルである。
論文参考訳（メタデータ） (2024-11-26T01:54:52Z)
Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image [70.02187124865627]
Open-vocabulary 3D object detection (OV-3DDet) は、新しい3Dシーン内において、目に見えないものの両方をローカライズし、認識することを目的としている。視覚基盤モデルを利用して、3Dシーンにおける新しいクラスを発見するための画像的ガイダンスを提供する。オープン語彙の3Dオブジェクト検出における基礎モデルの可能性を明らかにするとともに,精度と一般化の大幅な向上を示す。
論文参考訳（メタデータ） (2024-07-07T04:50:04Z)
Naturally Supervised 3D Visual Grounding with Language-Regularized Concept Learners [15.178598145436142]
我々はLARC(Language-Regularized Concept Learner)を提案する。 LARCは言語からの制約を正規化として使用し、ニューロシンボリックな概念学習者の精度を大幅に向上させる。 LARCは自然に監督された3次元視覚グラウンドにおける先行作業の性能を向上させる。
論文参考訳（メタデータ） (2024-04-30T16:44:18Z)
Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文参考訳（メタデータ） (2023-12-13T14:27:45Z)
Multi-CLIP: Contrastive Vision-Language Pre-training for Question Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文参考訳（メタデータ） (2023-06-04T11:08:53Z)
Self-supervised 3D Semantic Representation Learning for Vision-and-Language Navigation [30.429893959096752]
ボクセルレベルの3Dセマンティック再構築を3Dセマンティック表現にエンコードする新しいトレーニングフレームワークを開発した。 LSTMに基づくナビゲーションモデルを構築し,提案した3Dセマンティック表現とBERT言語特徴を視覚言語ペア上で学習する。実験の結果、提案手法は、R2Rデータセットの未確認分割とテスト未確認の検証において、成功率68%と66%を達成することがわかった。
論文参考訳（メタデータ） (2022-01-26T07:43:47Z)
KD-VLP: Improving End-to-End Vision-and-Language Pretraining with Object Knowledge Distillation [42.01427946204401]
自己教師付きビジョン・アンド・ランゲージ事前学習は,大規模な画像テキストデータから伝達可能なマルチモーダル表現を学習することを目的としている。本稿では,CNN から Transformer へのイメージグリッド機能を直接供給し,マルチモーダル表現を協調的に学習するオブジェクト認識型エンドツーエンド QF フレームワークを提案する。そこで我々は,オブジェクトの特徴とその意味的ラベルを外部検知器から監視することで,2つの新しいプリテキストタスクを設計する。
論文参考訳（メタデータ） (2021-09-22T03:38:05Z)
LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文参考訳（メタデータ） (2021-07-07T18:55:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。