Fugu-MT 論文翻訳(概要): Generalized Label-Efficient 3D Scene Parsing via Hierarchical Feature Aligned Pre-Training and Region-Aware Fine-tuning

論文の概要: Generalized Label-Efficient 3D Scene Parsing via Hierarchical Feature Aligned Pre-Training and Region-Aware Fine-tuning

arxiv url: http://arxiv.org/abs/2312.00663v1
Date: Fri, 1 Dec 2023 15:47:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-04 14:11:05.453094
Title: Generalized Label-Efficient 3D Scene Parsing via Hierarchical Feature Aligned Pre-Training and Region-Aware Fine-tuning
Title（参考訳）: 階層的特徴型事前学習と領域対応微調整による一般化ラベル効率3次元シーン解析
Authors: Kangcheng Liu, Yong-Jin Liu, Kai Tang, Ming Liu, Baoquan Chen
Abstract要約: 本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。室内と屋外の両方で実験を行ったところ、データ効率のよい学習とオープンワールドの複数ショット学習の両方において、我々のアプローチの有効性が示された。
参考スコア（独自算出の注目度）: 55.517000360348725
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep neural network models have achieved remarkable progress in 3D scene understanding while trained in the closed-set setting and with full labels. However, the major bottleneck for current 3D recognition approaches is that they do not have the capacity to recognize any unseen novel classes beyond the training categories in diverse kinds of real-world applications. In the meantime, current state-of-the-art 3D scene understanding approaches primarily require high-quality labels to train neural networks, which merely perform well in a fully supervised manner. This work presents a generalized and simple framework for dealing with 3D scene understanding when the labeled scenes are quite limited. To extract knowledge for novel categories from the pre-trained vision-language models, we propose a hierarchical feature-aligned pre-training and knowledge distillation strategy to extract and distill meaningful information from large-scale vision-language models, which helps benefit the open-vocabulary scene understanding tasks. To leverage the boundary information, we propose a novel energy-based loss with boundary awareness benefiting from the region-level boundary predictions. To encourage latent instance discrimination and to guarantee efficiency, we propose the unsupervised region-level semantic contrastive learning scheme for point clouds, using confident predictions of the neural network to discriminate the intermediate feature embeddings at multiple stages. Extensive experiments with both indoor and outdoor scenes demonstrated the effectiveness of our approach in both data-efficient learning and open-world few-shot learning. All codes, models, and data are made publicly available at: https://drive.google.com/drive/folders/1M58V-PtR8DBEwD296zJkNg_m2qq-MTAP?usp=sharing.
Abstract（参考訳）: ディープニューラルネットワークモデルは、クローズドセット設定とフルラベルでトレーニングしながら、3dシーン理解において著しく進歩した。しかし、現在の3D認識アプローチの大きなボトルネックは、様々な種類の現実世界のアプリケーションにおいて、トレーニングカテゴリを超えて、目に見えない新しいクラスを認識する能力がないことである。その間、現在の最先端の3dシーン理解アプローチでは、ニューラルネットワークをトレーニングするための高品質なラベルが必要である。本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のための,汎用的でシンプルな枠組みを提示する。事前学習された視覚言語モデルから新しいカテゴリの知識を抽出するために,大規模視覚言語モデルから意味のある情報を抽出・抽出する階層的特徴整合型事前学習・知識蒸留手法を提案する。境界情報を活用するために,領域レベル境界予測の恩恵を受ける境界認識を伴う新しいエネルギーベース損失を提案する。潜在インスタンスの識別を奨励し、効率性を確保するため、ニューラルネットワークの確実な予測を用いて、複数の段階における中間特徴埋め込みを識別する非教師付き領域レベル意味論的学習手法を提案する。室内と屋外の両方で大規模な実験を行い、データ効率の学習とオープンワールドのショット学習の両方において、我々のアプローチの有効性を実証した。 https://drive.google.com/drive/folders/1M58V-PtR8DBEwD296zJkNg_m2q-MTAP? usp=共有。

関連論文リスト

PGOV3D: Open-Vocabulary 3D Semantic Segmentation with Partial-to-Global Curriculum [20.206273757144547]
PGOV3Dはオープンな3Dセマンティックセマンティックセグメンテーションを改善するための部分言語カリキュラムを導入した新しいフレームワークである。我々は、密接な意味情報を提供する部分的なシーンでモデルを事前訓練するが、比較的単純な幾何学である。第2段階では、よりスペーサーで構造的に複雑である、完全なシーンレベルの点雲上でモデルを微調整する。
論文参考訳（メタデータ） (2025-06-30T08:13:07Z)
Masked Point-Entity Contrast for Open-Vocabulary 3D Scene Understanding [31.40722103849691]
MPECはオープンな3次元セマンティックセグメンテーションのための新しい学習手法である。 3Dエンティティ言語アライメントと、異なるポイントクラウドビュー間でのポイントエンテント一貫性の両方を使用する。本手法は,オープンな3次元セマンティックセマンティックセグメンテーションのためのScanNetの最先端結果を実現する。
論文参考訳（メタデータ） (2025-04-28T05:43:14Z)
3D-AffordanceLLM: Harnessing Large Language Models for Open-Vocabulary Affordance Detection in 3D Worlds [81.14476072159049]
3D Affordance Detectionは、様々なロボットタスクの幅広い応用において難しい問題である。我々は従来の割当検出パラダイムをテキスト推論改善(IRAS)タスクに再構成する。本研究では,3次元オープンシーンにおけるアベイランス検出のためのフレームワークである3D-ADLLMを提案する。
論文参考訳（メタデータ） (2025-02-27T12:29:44Z)
ZeroKey: Point-Level Reasoning and Zero-Shot 3D Keypoint Detection from Large Language Models [57.57832348655715]
3次元形状のキーポイント検出のための新しいゼロショット手法を提案する。提案手法は,マルチモーダル大規模言語モデルに埋め込まれた豊富な知識を利用する。
論文参考訳（メタデータ） (2024-12-09T08:31:57Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
CLIPose: Category-Level Object Pose Estimation with Pre-trained Vision-Language Knowledge [18.57081150228812]
本稿では、事前学習された視覚言語モデルを用いて、オブジェクトカテゴリ情報の学習を改善する新しい6Dポーズフレームワークを提案する。 CLIPoseは、2つの主要なベンチマークデータセットであるREAL275とCAMERA25で最先端のパフォーマンスを達成し、推論中(40FPS)にリアルタイムに実行される。
論文参考訳（メタデータ） (2024-02-24T05:31:53Z)
A Review and A Robust Framework of Data-Efficient 3D Scene Parsing with Traditional/Learned 3D Descriptors [10.497309421830671]
既存の最先端の3Dポイントクラウド理解手法は、完全に教師された方法でのみうまく機能する。この研究は、ラベルが限定されている場合のポイントクラウド理解に取り組むための、汎用的でシンプルなフレームワークを提供する。
論文参考訳（メタデータ） (2023-12-03T02:51:54Z)
A Data-efficient Framework for Robotics Large-scale LiDAR Scene Parsing [10.497309421830671]
既存の最先端の3Dポイントクラウド理解手法は、完全に教師された方法でのみうまく機能する。この研究は、ラベルが制限されているときのポイントクラウドを理解するための、汎用的でシンプルなフレームワークを提示している。
論文参考訳（メタデータ） (2023-12-03T02:38:51Z)
Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文参考訳（メタデータ） (2023-11-03T15:41:15Z)
Lowis3D: Language-Driven Open-World Instance-Level 3D Scene Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文参考訳（メタデータ） (2023-08-01T07:50:14Z)
Weakly Supervised 3D Open-vocabulary Segmentation [104.07740741126119]
学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。我々はCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力をニューラルラディアンス場(NeRF)に蒸留する。提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。
論文参考訳（メタデータ） (2023-05-23T14:16:49Z)
RegionPLC: Regional Point-Language Contrastive Learning for Open-World 3D Scene Understanding [46.253711788685536]
複数の2次元基礎モデルから派生した3次元視覚言語対を融合する3次元認識型SFusion戦略を導入する。我々は、堅牢で効果的な3D学習を実現するために、地域対応のポイント識別型コントラスト学習目標を考案する。我々のモデルは、セマンティックスとインスタンスセグメンテーションにおいて、平均17.2%と9.1%の3Dオープンワールドシーン理解アプローチよりも優れている。
論文参考訳（メタデータ） (2023-04-03T13:30:04Z)
Box2Seg: Learning Semantics of 3D Point Clouds with Box-Level Supervision [65.19589997822155]
我々は3Dポイントクラウドのポイントレベルのセマンティクスをバウンディングボックスレベルの監視で学習するために,Box2Segと呼ばれるニューラルアーキテクチャを導入する。提案するネットワークは,安価な,あるいは既定のバウンディングボックスレベルのアノテーションやサブクラウドレベルのタグでトレーニング可能であることを示す。
論文参考訳（メタデータ） (2022-01-09T09:07:48Z)
Point Discriminative Learning for Unsupervised Representation Learning on 3D Point Clouds [54.31515001741987]
3次元点雲上での教師なし表現学習のための点識別学習法を提案する。我々は、中間レベルとグローバルレベルの特徴に新しい点識別損失を課すことにより、これを達成した。提案手法は強力な表現を学習し,新しい最先端性能を実現する。
論文参考訳（メタデータ） (2021-08-04T15:11:48Z)
Weakly-Supervised Action Localization and Action Recognition using Global-Local Attention of 3D CNN [4.924442315857227]
3D Convolutional Neural Network (3D CNN)は、ビデオシーケンスなどの3Dデータの空間的および時間的情報をキャプチャします。 3D CNNの視覚的説明と分類を改善するための2つのアプローチを提案します。
論文参考訳（メタデータ） (2020-12-17T12:29:16Z)
PointContrast: Unsupervised Pre-training for 3D Point Cloud Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文参考訳（メタデータ） (2020-07-21T17:59:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。