論文の概要: VL-SAT: Visual-Linguistic Semantics Assisted Training for 3D Semantic
Scene Graph Prediction in Point Cloud
- arxiv url: http://arxiv.org/abs/2303.14408v1
- Date: Sat, 25 Mar 2023 09:14:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 19:51:09.755673
- Title: VL-SAT: Visual-Linguistic Semantics Assisted Training for 3D Semantic
Scene Graph Prediction in Point Cloud
- Title(参考訳): VL-SAT:ポイントクラウドにおける3次元セマンティックシーングラフ予測のための学習支援
- Authors: Ziqin Wang, Bowen Cheng, Lichen Zhao, Dong Xu, Yang Tang, Lu Sheng
- Abstract要約: 点雲における3次元意味的シーングラフ(DSSG)の予測は、3次元点雲が2次元画像と比較して限られた意味を持つ幾何学的構造のみを捉えているため困難である。
本稿では,3DSSG予測モデルに対して,長い尾とあいまいな意味関係を識別できる視覚言語セマンティックス支援トレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 51.063494002003154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of 3D semantic scene graph (3DSSG) prediction in the point cloud is
challenging since (1) the 3D point cloud only captures geometric structures
with limited semantics compared to 2D images, and (2) long-tailed relation
distribution inherently hinders the learning of unbiased prediction. Since 2D
images provide rich semantics and scene graphs are in nature coped with
languages, in this study, we propose Visual-Linguistic Semantics Assisted
Training (VL-SAT) scheme that can significantly empower 3DSSG prediction models
with discrimination about long-tailed and ambiguous semantic relations. The key
idea is to train a powerful multi-modal oracle model to assist the 3D model.
This oracle learns reliable structural representations based on semantics from
vision, language, and 3D geometry, and its benefits can be heterogeneously
passed to the 3D model during the training stage. By effectively utilizing
visual-linguistic semantics in training, our VL-SAT can significantly boost
common 3DSSG prediction models, such as SGFN and SGGpoint, only with 3D inputs
in the inference stage, especially when dealing with tail relation triplets.
Comprehensive evaluations and ablation studies on the 3DSSG dataset have
validated the effectiveness of the proposed scheme. Code is available at
https://github.com/wz7in/CVPR2023-VLSAT.
- Abstract(参考訳): ポイントクラウドにおける3次元意味シーングラフ(3dssg)予測の課題は、(1)3次元ポイントクラウドは2次元画像と比較して意味論の限られた幾何学的構造のみを捉え、(2)ロングテール関係分布は本質的に偏りのない予測の学習を妨げるため、難しい。
本研究では,2次元画像がリッチなセマンティクスを提供し,シーングラフが言語に対処しているため,長い尾とあいまいなセマンティクス関係を識別した3DSSG予測モデルを大幅に強化する視覚言語セマンティクス支援トレーニング(VL-SAT)方式を提案する。
重要なアイデアは、3dモデルを支援するために強力なマルチモーダルオラクルモデルをトレーニングすることだ。
このオラクルは、視覚、言語、および3d幾何学からセマンティクスに基づく信頼できる構造表現を学び、その利点はトレーニング段階で異種に3dモデルに渡される。
学習における視覚言語的意味論を効果的に活用することにより、VL-SATはSGFNやSGGpointのような一般的な3DSSG予測モデルを大幅に向上させることができる。
3DSSGデータセットの総合評価とアブレーション研究により,提案手法の有効性が検証された。
コードはhttps://github.com/wz7in/CVPR2023-VLSATで入手できる。
関連論文リスト
- Bayesian Self-Training for Semi-Supervised 3D Segmentation [59.544558398992386]
3Dセグメンテーションはコンピュータビジョンの中核的な問題である。
完全に教師されたトレーニングを採用するために、3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価です。
半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
論文 参考訳(メタデータ) (2024-09-12T14:54:31Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Large Generative Model Assisted 3D Semantic Communication [51.17527319441436]
本稿では,GAM-3DSC(Generative AI Model Assisted 3D SC)システムを提案する。
まず,ユーザ要求に基づいて3次元シナリオからキーセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティクスを抽出する。
次に、これらの多視点画像を符号化するための適応意味圧縮モデル(ASCM)を提案する。
最後に、物理チャネルのチャネル状態情報(CSI)を推定・精査するために、条件付き生成逆数ネットワークと拡散モデル支援チャネル推定(GDCE)を設計する。
論文 参考訳(メタデータ) (2024-03-09T03:33:07Z) - POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images [32.33170182669095]
入力された2次元画像からオープンな3次元セマンティックなボクセル占有マップを推定する手法について述べる。
アーキテクチャは、2D-3Dエンコーダと、占有率予測と3D言語ヘッドで構成されている。
出力は3次元接地言語埋め込みの密度の高いボクセルマップであり、様々なオープン語彙タスクを可能にする。
論文 参考訳(メタデータ) (2024-01-17T18:51:53Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。