論文の概要: Language-Assisted 3D Feature Learning for Semantic Scene Understanding
- arxiv url: http://arxiv.org/abs/2211.14091v1
- Date: Fri, 25 Nov 2022 13:21:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 17:11:51.778833
- Title: Language-Assisted 3D Feature Learning for Semantic Scene Understanding
- Title(参考訳): セマンティックシーン理解のための言語支援型3次元特徴学習
- Authors: Junbo Zhang, Guofan Fan, Guanghan Wang, Zhengyuan Su, Kaisheng Ma, Li
Yi
- Abstract要約: 言語支援型3D特徴学習は、現代のオブジェクト検出とインスタンスセグメンテーションの手法と組み合わせることができる。
3次元言語タスクと3次元言語タスクのベンチマーク実験により,言語支援型3次元特徴学習の有効性が示された。
- 参考スコア(独自算出の注目度): 26.414294993374543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning descriptive 3D features is crucial for understanding 3D scenes with
diverse objects and complex structures. However, it is usually unknown whether
important geometric attributes and scene context obtain enough emphasis in an
end-to-end trained 3D scene understanding network. To guide 3D feature learning
toward important geometric attributes and scene context, we explore the help of
textual scene descriptions. Given some free-form descriptions paired with 3D
scenes, we extract the knowledge regarding the object relationships and object
attributes. We then inject the knowledge to 3D feature learning through three
classification-based auxiliary tasks. This language-assisted training can be
combined with modern object detection and instance segmentation methods to
promote 3D semantic scene understanding, especially in a label-deficient
regime. Moreover, the 3D feature learned with language assistance is better
aligned with the language features, which can benefit various 3D-language
multimodal tasks. Experiments on several benchmarks of 3D-only and 3D-language
tasks demonstrate the effectiveness of our language-assisted 3D feature
learning. Code is available at
https://github.com/Asterisci/Language-Assisted-3D.
- Abstract(参考訳): 記述的な3D特徴の学習は、多様なオブジェクトと複雑な構造を持つ3Dシーンを理解するために不可欠である。
しかし、重要な幾何学的属性とシーンコンテキストが、エンドツーエンドの訓練された3Dシーン理解ネットワークにおいて十分に強調されるかどうかは通常不明である。
3次元特徴学習を重要な幾何学的属性やシーンコンテキストへ導くために,テキストシーン記述の助けを探る。
3Dシーンと組み合わせた自由形式の記述を考慮し,オブジェクトの関係やオブジェクト属性に関する知識を抽出する。
次に3つの分類に基づく補助タスクを通じて,3次元特徴学習に知識を注入する。
この言語支援トレーニングは、現代のオブジェクト検出とインスタンスセグメンテーション手法と組み合わせて、3Dセマンティックなシーン理解を促進することができる。
さらに、言語支援で学んだ3d機能は、言語機能と連携し、様々な3d言語マルチモーダルタスクに役立つ。
3次元言語タスクと3次元言語タスクのベンチマーク実験により,言語支援型3次元特徴学習の有効性が示された。
コードはhttps://github.com/Asterisci/Language-Assisted-3Dで入手できる。
関連論文リスト
- SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene
Understanding [39.085879587406694]
3D視覚言語グラウンドリングは、言語と3D物理環境の整合性に焦点を当て、エンボディエージェントの開発の基盤となっている。
約68Kの屋内シーンを含む最初の100万スケールの3Dビジョン言語データセットであるSceneVerseを紹介した。
このスケーリングにより、3次元視覚言語学習のための一貫した事前学習フレームワーク、Grounded Pre-training for Scenes (GPS) が実現可能であることを実証する。
論文 参考訳(メタデータ) (2024-01-17T17:04:35Z) - 3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding [12.823274886850697]
我々は3DMITという新しい高速なプロンプトチューニングパラダイムを導入する。
このパラダイムは、3Dシーンと言語間のアライメントステージを排除し、命令プロンプトを3Dモダリティ情報で拡張する。
本研究では,3次元シーン領域における多様なタスクにまたがる手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-01-06T12:20:18Z) - Chat-3D: Data-efficiently Tuning Large Language Model for Universal
Dialogue of 3D Scenes [56.727745047799246]
3Dシーンの理解は幅広い用途で注目されている。
本稿では,事前学習した3次元表現の3次元視覚的知覚能力と,高度なLCMの印象的な推論と会話能力を組み合わせたChat-3Dを提案する。
論文 参考訳(メタデータ) (2023-08-17T03:52:15Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - CLIP-Guided Vision-Language Pre-training for Question Answering in 3D
Scenes [68.61199623705096]
我々は,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。
符号化された3Dシーン特徴と対応する2D画像とテキスト埋め込みとを一致させることにより、人気のあるCLIPモデルの表現力を3Dエンコーダに注入する。
我々は,3次元視覚質問応答の下流課題に対して,我々のモデルによる3次元世界推論能力を評価する。
論文 参考訳(メタデータ) (2023-04-12T16:52:29Z) - NS3D: Neuro-Symbolic Grounding of 3D Objects and Relations [23.378125393162126]
NS3Dは3Dグラウンドリングのための神経シンボリックな枠組みである。
言語を階層構造を持つプログラムに翻訳し、大きな言語からコードへのモデルを活用する。
データ効率と一般化の設定では、パフォーマンスが大幅に向上した。
論文 参考訳(メタデータ) (2023-03-23T17:50:40Z) - PLA: Language-Driven Open-Vocabulary 3D Scene Understanding [57.47315482494805]
オープン語彙シーン理解は、アノテートされたラベル空間を超えて見えないカテゴリをローカライズし、認識することを目的としている。
最近の2次元オープン語彙認識のブレークスルーは、リッチな語彙概念を持つインターネットスケールのペア画像テキストデータによって駆動される。
本稿では,3次元からの多視点画像のキャプションにより,事前学習された視覚言語(VL)基盤モデルに符号化された知識を抽出することを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:52:22Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。