論文の概要: Vision-Language Pre-training with Object Contrastive Learning for 3D
Scene Understanding
- arxiv url: http://arxiv.org/abs/2305.10714v1
- Date: Thu, 18 May 2023 05:25:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 16:52:37.852655
- Title: Vision-Language Pre-training with Object Contrastive Learning for 3D
Scene Understanding
- Title(参考訳): 3次元シーン理解のためのオブジェクトコントラスト学習による視覚言語事前学習
- Authors: Taolin Zhang, Sunan He, Dai Tao, Bin Chen, Zhi Wang, Shu-Tao Xia
- Abstract要約: 3次元視覚言語下流タスクを柔軟に伝達するために,視覚言語事前学習フレームワークを提案する。
本稿では,セマンティック3次元シーン理解における3つの共通課題について検討し,事前学習モデルに対する重要な洞察を導出する。
実験は3つの3次元視覚言語タスクにおけるフレームワークの優れた性能を検証する。
- 参考スコア(独自算出の注目度): 47.48443919164377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, vision language pre-training frameworks have made
significant progress in natural language processing and computer vision,
achieving remarkable performance improvement on various downstream tasks.
However, when extended to point cloud data, existing works mainly focus on
building task-specific models, and fail to extract universal 3D vision-language
embedding that generalize well. We carefully investigate three common tasks in
semantic 3D scene understanding, and derive key insights into the development
of a pre-training model. Motivated by these observations, we propose a
vision-language pre-training framework 3DVLP (3D vision-language pre-training
with object contrastive learning), which transfers flexibly on 3D
vision-language downstream tasks. 3DVLP takes visual grounding as the proxy
task and introduces Object-level IoU-guided Detection (OID) loss to obtain
high-quality proposals in the scene. Moreover, we design Object-level
Cross-Contrastive alignment (OCC) task and Object-level Self-Contrastive
learning (OSC) task to align the objects with descriptions and distinguish
different objects in the scene, respectively. Extensive experiments verify the
excellent performance of 3DVLP on three 3D vision-language tasks, reflecting
its superiority in semantic 3D scene understanding.
- Abstract(参考訳): 近年、視覚言語事前学習フレームワークは自然言語処理やコンピュータビジョンにおいて大きな進歩を遂げており、様々な下流タスクの性能向上を実現している。
しかし、ポイントクラウドデータに拡張する場合、既存の作業は主にタスク固有のモデルの構築に重点を置いており、汎用的な3dビジョン言語埋め込みの抽出に失敗した。
セマンティック3Dシーン理解における3つの共通課題を慎重に検討し,事前学習モデルの開発に関する重要な知見を導き出す。
そこで本研究では,視覚言語前学習フレームワーク3dvlp (3d vision language pre-training with object contrastive learning)を提案する。
3DVLPは、視覚的グラウンドをプロキシタスクとして取り、オブジェクトレベルのIoU誘導検出(OID)損失を導入して、現場で高品質な提案を得る。
さらに,オブジェクトを記述にアライメントし,シーン内の異なるオブジェクトを識別するために,オブジェクトレベルのクロスコントラストアライメント(occ)タスクとオブジェクトレベルの自己コントラスト学習(osc)タスクを設計する。
3次元視覚言語タスクにおける3次元VLPの優れた性能を検証する実験は、セマンティック3次元シーン理解における優位性を反映している。
関連論文リスト
- SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene
Understanding [39.085879587406694]
3D視覚言語グラウンドリングは、言語と3D物理環境の整合性に焦点を当て、エンボディエージェントの開発の基盤となっている。
約68Kの屋内シーンを含む最初の100万スケールの3Dビジョン言語データセットであるSceneVerseを紹介した。
このスケーリングにより、3次元視覚言語学習のための一貫した事前学習フレームワーク、Grounded Pre-training for Scenes (GPS) が実現可能であることを実証する。
論文 参考訳(メタデータ) (2024-01-17T17:04:35Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - CLIP-Guided Vision-Language Pre-training for Question Answering in 3D
Scenes [68.61199623705096]
我々は,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。
符号化された3Dシーン特徴と対応する2D画像とテキスト埋め込みとを一致させることにより、人気のあるCLIPモデルの表現力を3Dエンコーダに注入する。
我々は,3次元視覚質問応答の下流課題に対して,我々のモデルによる3次元世界推論能力を評価する。
論文 参考訳(メタデータ) (2023-04-12T16:52:29Z) - PointVST: Self-Supervised Pre-training for 3D Point Clouds via
View-Specific Point-to-Image Translation [64.858505571083]
本稿では,翻訳型事前学習フレームワークであるPointVSTを提案する。
3Dポイントクラウドからそれに対応する多様な2Dレンダリング画像へのクロスモーダル変換という,新たな教師付きプレテキストタスクによって駆動される。
論文 参考訳(メタデータ) (2022-12-29T07:03:29Z) - Self-supervised 3D Semantic Representation Learning for
Vision-and-Language Navigation [30.429893959096752]
ボクセルレベルの3Dセマンティック再構築を3Dセマンティック表現にエンコードする新しいトレーニングフレームワークを開発した。
LSTMに基づくナビゲーションモデルを構築し,提案した3Dセマンティック表現とBERT言語特徴を視覚言語ペア上で学習する。
実験の結果、提案手法は、R2Rデータセットの未確認分割とテスト未確認の検証において、成功率68%と66%を達成することがわかった。
論文 参考訳(メタデータ) (2022-01-26T07:43:47Z) - KD-VLP: Improving End-to-End Vision-and-Language Pretraining with Object
Knowledge Distillation [42.01427946204401]
自己教師付きビジョン・アンド・ランゲージ事前学習は,大規模な画像テキストデータから伝達可能なマルチモーダル表現を学習することを目的としている。
本稿では,CNN から Transformer へのイメージグリッド機能を直接供給し,マルチモーダル表現を協調的に学習するオブジェクト認識型エンドツーエンド QF フレームワークを提案する。
そこで我々は,オブジェクトの特徴とその意味的ラベルを外部検知器から監視することで,2つの新しいプリテキストタスクを設計する。
論文 参考訳(メタデータ) (2021-09-22T03:38:05Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z) - ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through
Scene Graph [38.97228345655337]
ERNIE-ViLは視覚と言語をまたいだ詳細なセマンティック接続(オブジェクト、オブジェクトの属性、オブジェクト間の関係)を構築しようとする。
ERNIE-ViLはScene Graph Predictionタスク、すなわちオブジェクト予測、属性予測、関係予測タスクを構成する。
ERNIE-ViLはこれらの全てのタスクで最先端のパフォーマンスを達成し、VCRのリーダーボードでは3.7%の絶対的な改善で1位にランクインした。
論文 参考訳(メタデータ) (2020-06-30T16:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。