論文の概要: Language-Assisted 3D Feature Learning for Semantic Scene Understanding
- arxiv url: http://arxiv.org/abs/2211.14091v1
- Date: Fri, 25 Nov 2022 13:21:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 17:11:51.778833
- Title: Language-Assisted 3D Feature Learning for Semantic Scene Understanding
- Title(参考訳): セマンティックシーン理解のための言語支援型3次元特徴学習
- Authors: Junbo Zhang, Guofan Fan, Guanghan Wang, Zhengyuan Su, Kaisheng Ma, Li
Yi
- Abstract要約: 言語支援型3D特徴学習は、現代のオブジェクト検出とインスタンスセグメンテーションの手法と組み合わせることができる。
3次元言語タスクと3次元言語タスクのベンチマーク実験により,言語支援型3次元特徴学習の有効性が示された。
- 参考スコア(独自算出の注目度): 26.414294993374543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning descriptive 3D features is crucial for understanding 3D scenes with
diverse objects and complex structures. However, it is usually unknown whether
important geometric attributes and scene context obtain enough emphasis in an
end-to-end trained 3D scene understanding network. To guide 3D feature learning
toward important geometric attributes and scene context, we explore the help of
textual scene descriptions. Given some free-form descriptions paired with 3D
scenes, we extract the knowledge regarding the object relationships and object
attributes. We then inject the knowledge to 3D feature learning through three
classification-based auxiliary tasks. This language-assisted training can be
combined with modern object detection and instance segmentation methods to
promote 3D semantic scene understanding, especially in a label-deficient
regime. Moreover, the 3D feature learned with language assistance is better
aligned with the language features, which can benefit various 3D-language
multimodal tasks. Experiments on several benchmarks of 3D-only and 3D-language
tasks demonstrate the effectiveness of our language-assisted 3D feature
learning. Code is available at
https://github.com/Asterisci/Language-Assisted-3D.
- Abstract(参考訳): 記述的な3D特徴の学習は、多様なオブジェクトと複雑な構造を持つ3Dシーンを理解するために不可欠である。
しかし、重要な幾何学的属性とシーンコンテキストが、エンドツーエンドの訓練された3Dシーン理解ネットワークにおいて十分に強調されるかどうかは通常不明である。
3次元特徴学習を重要な幾何学的属性やシーンコンテキストへ導くために,テキストシーン記述の助けを探る。
3Dシーンと組み合わせた自由形式の記述を考慮し,オブジェクトの関係やオブジェクト属性に関する知識を抽出する。
次に3つの分類に基づく補助タスクを通じて,3次元特徴学習に知識を注入する。
この言語支援トレーニングは、現代のオブジェクト検出とインスタンスセグメンテーション手法と組み合わせて、3Dセマンティックなシーン理解を促進することができる。
さらに、言語支援で学んだ3d機能は、言語機能と連携し、様々な3d言語マルチモーダルタスクに役立つ。
3次元言語タスクと3次元言語タスクのベンチマーク実験により,言語支援型3次元特徴学習の有効性が示された。
コードはhttps://github.com/Asterisci/Language-Assisted-3Dで入手できる。
関連論文リスト
- Functionality understanding and segmentation in 3D scenes [6.1744362771344]
Fun3DUは、3Dシーンで機能を理解するために設計された最初のアプローチである。
Fun3DUは言語モデルを使用して、Chain-of-Thought推論を通じてタスク記述を解析する。
我々はFun3DUをSceneFun3D上で評価する。
論文 参考訳(メタデータ) (2024-11-25T11:57:48Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - Agent3D-Zero: An Agent for Zero-shot 3D Understanding [79.88440434836673]
Agent3D-Zeroは、3Dシーン理解に対処する革新的な3D対応エージェントフレームワークである。
本稿では,3次元理解のための視点を積極的に選択し,分析することで,VLM(Large Visual Language Model)を利用する新しい手法を提案する。
Agent3D-Zeroの独特な利点は、新しい視覚的プロンプトの導入である。
論文 参考訳(メタデータ) (2024-03-18T14:47:03Z) - SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding [37.47195477043883]
3D視覚言語グラウンドリングは、言語と3D物理環境の整合性に焦点を当て、エンボディエージェントの開発の基盤となっている。
約68Kの屋内シーンを含む最初の100万スケールの3Dビジョン言語データセットであるSceneVerseを紹介した。
このスケーリングにより、3次元視覚言語学習のための一貫した事前学習フレームワーク、Grounded Pre-training for Scenes (GPS) が実現可能であることを実証する。
論文 参考訳(メタデータ) (2024-01-17T17:04:35Z) - 3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding [12.823274886850697]
我々は3DMITという新しい高速なプロンプトチューニングパラダイムを導入する。
このパラダイムは、3Dシーンと言語間のアライメントステージを排除し、命令プロンプトを3Dモダリティ情報で拡張する。
本研究では,3次元シーン領域における多様なタスクにまたがる手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-01-06T12:20:18Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Chat-3D: Data-efficiently Tuning Large Language Model for Universal
Dialogue of 3D Scenes [56.727745047799246]
3Dシーンの理解は幅広い用途で注目されている。
本稿では,事前学習した3次元表現の3次元視覚的知覚能力と,高度なLCMの印象的な推論と会話能力を組み合わせたChat-3Dを提案する。
論文 参考訳(メタデータ) (2023-08-17T03:52:15Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。