Fugu-MT 論文翻訳(概要): Language-Assisted 3D Scene Understanding

論文の概要: Language-Assisted 3D Scene Understanding

arxiv url: http://arxiv.org/abs/2312.11451v2
Date: Sun, 31 Dec 2023 07:38:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-02 21:02:39.048255
Title: Language-Assisted 3D Scene Understanding
Title（参考訳）: 言語支援型3次元シーン理解
Authors: Yanmin Wu, Qiankun Gao, Renrui Zhang, and Jian Zhang
Abstract要約: 我々は,ポイントクラウド特徴学習(LAST-PCL)のための言語支援アプローチを提案する。我々は,テキストの先行性を損なうことなく,非冗長性と特徴次元の低減を実現する。提案手法は意味的に意味のあるポイントクラウドの特徴を学習し、3Dセマンティックセグメンテーション、3Dオブジェクト検出、3Dシーン分類タスクにおける最先端または同等のパフォーマンスを実現する。
参考スコア（独自算出の注目度）: 17.663583203177197
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The scale and quality of point cloud datasets constrain the advancement of point cloud learning. Recently, with the development of multi-modal learning, the incorporation of domain-agnostic prior knowledge from other modalities, such as images and text, to assist in point cloud feature learning has been considered a promising avenue. Existing methods have demonstrated the effectiveness of multi-modal contrastive training and feature distillation on point clouds. However, challenges remain, including the requirement for paired triplet data, redundancy and ambiguity in supervised features, and the disruption of the original priors. In this paper, we propose a language-assisted approach to point cloud feature learning (LAST-PCL), enriching semantic concepts through LLMs-based text enrichment. We achieve de-redundancy and feature dimensionality reduction without compromising textual priors by statistical-based and training-free significant feature selection. Furthermore, we also delve into an in-depth analysis of the impact of text contrastive training on the point cloud. Extensive experiments validate that the proposed method learns semantically meaningful point cloud features and achieves state-of-the-art or comparable performance in 3D semantic segmentation, 3D object detection, and 3D scene classification tasks.
Abstract（参考訳）: ポイントクラウドデータセットの規模と品質は、ポイントクラウド学習の進歩を制約している。近年,マルチモーダル学習の発展に伴い,画像やテキストといった他のモダリティからドメインに依存しない事前知識を取り入れ,ポイントクラウド機能学習を支援することが有望な道のりとなってきた。既存手法は点雲におけるマルチモーダルコントラストトレーニングと特徴蒸留の有効性を示した。しかし、ペア三重項データの必要性、教師付き特徴の冗長性とあいまいさ、元の先行事項の破壊など、課題は残る。本稿では,llmsに基づくテキストエンリッチメントを通じて意味概念を豊かにする,ポイントクラウド機能学習(last-pcl)のための言語支援手法を提案する。統計的・訓練不要の有意特徴選択により,先行文を妥協することなく,冗長性と特徴次元の削減を実現する。さらに、テキストコントラストトレーニングがポイントクラウドに与える影響について、詳細な分析も行っています。提案手法は,3次元セマンティックセグメンテーション,3次元オブジェクト検出,および3次元シーン分類タスクにおいて,意味的に意味のあるポイントクラウドの特徴を学習し,最先端ないし同等のパフォーマンスを実現する。

関連論文リスト

UniPLV: Towards Label-Efficient Open-World 3D Scene Understanding by Regional Visual Language Supervision [10.587237925455211]
総合的な3Dシーン理解のための単一の学習パラダイム内に,ポイントクラウド,イメージ,テキストを統一する堅牢なフレームワークであるUniPLVを提案する。我々はUniPLVが最先端の手法をはるかに上回り、Base-AnnotatedおよびBase-Annotatedのセマンティックセグメンテーションが平均15.6%と14.8%向上したことを示す。フリータスク。
論文参考訳（メタデータ） (2024-12-24T03:40:05Z)
PointMoment:Mixed-Moment-based Self-Supervised Representation Learning for 3D Point Clouds [11.980787751027872]
我々は,ポイントクラウドによる自己教師型表現学習のための新しいフレームワークであるPointMomentを提案する。我々のフレームワークは、非対称ネットワークアーキテクチャや勾配停止など特別な技術を必要としない。
論文参考訳（メタデータ） (2023-12-06T08:49:55Z)
Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文参考訳（メタデータ） (2023-12-01T15:47:04Z)
Edge Aware Learning for 3D Point Cloud [8.12405696290333]
本稿では,階層型エッジ対応3Dポイントクラウドラーニング(HEA-Net)における革新的なアプローチを提案する。ポイントクラウドデータにおけるノイズの課題に対処し、エッジ機能に注目してオブジェクト認識とセグメンテーションを改善することを目指している。我々は,ポイントクラウドの分類とセグメンテーションを強化するために,革新的なエッジアウェアラーニング手法を提案する。
論文参考訳（メタデータ） (2023-09-23T20:12:32Z)
PointLLM: Empowering Large Language Models to Understand Point Clouds [63.39876878899682]
PointLLMは人間の指示で色のついたオブジェクトポイントクラウドを理解する。文脈的に適切な応答を生成し、点雲と常識の把握を図示する。
論文参考訳（メタデータ） (2023-08-31T17:59:46Z)
Point Contrastive Prediction with Semantic Clustering for Self-Supervised Learning on Point Cloud Videos [71.20376514273367]
本稿では,オブジェクト中心およびシーン中心のデータを対象とした一元的クラウドビデオ自己教師型学習フレームワークを提案する。本手法は、広範囲の下流タスクにおいて教師付きタスクよりも優れる。
論文参考訳（メタデータ） (2023-08-18T02:17:47Z)
Explore In-Context Learning for 3D Point Cloud Understanding [71.20912026561484]
我々は,特に3Dポイントクラウドにおけるコンテキスト内学習のために設計された,ポイント・イン・コンテキストという新しいフレームワークを紹介した。一般点サンプリング演算子とタンデムで協調して動作するように慎重に設計したJoint Smplingモジュールを提案する。提案手法の汎用性と適応性を検証するため,幅広いタスクを扱うための広範囲な実験を行った。
論文参考訳（メタデータ） (2023-06-14T17:53:21Z)
A Survey of Label-Efficient Deep Learning for 3D Point Clouds [109.07889215814589]
本稿では,点雲のラベル効率学習に関する包括的調査を行う。本稿では,ラベルの種類によって提供されるデータ前提条件に基づいて,ラベル効率のよい学習手法を整理する分類法を提案する。それぞれのアプローチについて、問題設定の概要と、関連する進展と課題を示す広範な文献レビューを提供する。
論文参考訳（メタデータ） (2023-05-31T12:54:51Z)
CLR-GAM: Contrastive Point Cloud Learning with Guided Augmentation and Feature Mapping [12.679625717350113]
本稿では、効率的な動的探索戦略のためのガイド拡張(GA)を備えた対照的な学習ベースのフレームワークであるCLR-GAMを提案する。提案手法がシミュレーションおよび実世界の3Dポイントクラウドデータセット上で最先端のパフォーマンスを実現することを実証的に実証した。
論文参考訳（メタデータ） (2023-02-28T04:38:52Z)
PointVST: Self-Supervised Pre-training for 3D Point Clouds via View-Specific Point-to-Image Translation [64.858505571083]
本稿では,翻訳型事前学習フレームワークであるPointVSTを提案する。 3Dポイントクラウドからそれに対応する多様な2Dレンダリング画像へのクロスモーダル変換という,新たな教師付きプレテキストタスクによって駆動される。
論文参考訳（メタデータ） (2022-12-29T07:03:29Z)
Self-Supervised Feature Learning from Partial Point Clouds via Pose Disentanglement [35.404285596482175]
部分点雲から情報表現を学習するための,新たな自己教師型フレームワークを提案する。コンテンツとポーズ属性の両方を含むLiDARでスキャンされた部分点雲を利用する。提案手法は,既存の自己教師付き手法に勝るだけでなく,合成および実世界のデータセット間でのより優れた一般化性を示す。
論文参考訳（メタデータ） (2022-01-09T14:12:50Z)
Point Discriminative Learning for Unsupervised Representation Learning on 3D Point Clouds [54.31515001741987]
3次元点雲上での教師なし表現学習のための点識別学習法を提案する。我々は、中間レベルとグローバルレベルの特徴に新しい点識別損失を課すことにより、これを達成した。提案手法は強力な表現を学習し,新しい最先端性能を実現する。
論文参考訳（メタデータ） (2021-08-04T15:11:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。