論文の概要: A Deep Learning-based Global and Segmentation-based Semantic Feature
Fusion Approach for Indoor Scene Classification
- arxiv url: http://arxiv.org/abs/2302.06432v1
- Date: Mon, 13 Feb 2023 15:12:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 15:12:45.267825
- Title: A Deep Learning-based Global and Segmentation-based Semantic Feature
Fusion Approach for Indoor Scene Classification
- Title(参考訳): 深層学習に基づくグローバル・セグメンテーションに基づくセマンティック特徴融合による屋内シーン分類
- Authors: Ricardo Pereira, Tiago Barros, Lu\'is Garrote, Ana Lopes, Urbano J.
Nunes
- Abstract要約: セマンティックセグメンテーションマスクを用いてシーン横断のオブジェクトカテゴリの2次元空間レイアウトを求める手法を提案する。
2分岐ネットワークであるGS2F2Appは、RGB画像から抽出したCNNベースのグローバル機能と、提案したSSFから抽出したセグメンテーションベースの機能を利用する。
- 参考スコア(独自算出の注目度): 0.27298989068857493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Indoor scene classification has become an important task in perception
modules and has been widely used in various applications. However, problems
such as intra-category variability and inter-category similarity have been
holding back the models' performance, which leads to the need for new types of
features to obtain a more meaningful scene representation. A semantic
segmentation mask provides pixel-level information about the objects available
in the scene, which makes it a promising source of information to obtain a more
meaningful local representation of the scene. Therefore, in this work, a novel
approach that uses a semantic segmentation mask to obtain a 2D spatial layout
of the object categories across the scene, designated by segmentation-based
semantic features (SSFs), is proposed. These features represent, per object
category, the pixel count, as well as the 2D average position and respective
standard deviation values. Moreover, a two-branch network, GS2F2App, that
exploits CNN-based global features extracted from RGB images and the
segmentation-based features extracted from the proposed SSFs, is also proposed.
GS2F2App was evaluated in two indoor scene benchmark datasets: the SUN RGB-D
and the NYU Depth V2, achieving state-of-the-art results on both datasets.
- Abstract(参考訳): 屋内シーンの分類は知覚モジュールにおいて重要なタスクとなり、様々な用途で広く使われている。
しかし,カテゴリ内変動やカテゴリ間類似性といった問題は,モデルの性能を抑えているため,より意味のあるシーン表現を得るためには,新たなタイプの機能が必要である。
意味セグメンテーションマスクは、シーンで利用可能なオブジェクトに関するピクセルレベルの情報を提供するので、シーンをより有意義な局所表現を得るための有望な情報ソースとなる。
そこで本研究では,セグメンテーション・セグメンテーション・マスクを用いて,セグメンテーションに基づくセグメンテーション特徴(ssfs)によって指定されたシーン全体のオブジェクトカテゴリの2次元空間レイアウトを得る新しいアプローチを提案する。
これらの特徴は、対象のカテゴリごとに、ピクセル数、および2d平均位置およびそれぞれの標準偏差値を表す。
さらに,RGB画像から抽出したCNNによるグローバルな特徴と,提案したSSFから抽出したセグメンテーションに基づく特徴を活かした2分岐ネットワークGS2F2Appを提案する。
GS2F2Appは、SUN RGB-DとNYU Depth V2の2つの屋内シーンベンチマークデータセットで評価され、両方のデータセットで最先端の結果が得られた。
関連論文リスト
- SAM-OCTA2: Layer Sequence OCTA Segmentation with Fine-tuned Segment Anything Model 2 [2.314516220934268]
SAM(Segment Anything Model)バージョン2の微調整には低ランク適応方式が採用されている。
メソッドはSAM-OCTA2と呼ばれ、OCTA-500データセットで実験されている。
正常な2次元の面にFoveal avascular zone(FAZ)を分断し、スキャン層をまたいだ局所血管を効果的に追跡する。
論文 参考訳(メタデータ) (2024-09-14T03:28:24Z) - Exploiting Object-based and Segmentation-based Semantic Features for Deep Learning-based Indoor Scene Classification [0.5572976467442564]
本稿では,オブジェクト検出から得られたセマンティック情報とセマンティックセグメンテーション技術の両方を用いる。
セグメンテーションマスクを用いて,Hu-Moments Features (SHMFs)によって指定されたHu-Momentsベースのセグメンテーションカテゴリの形状特徴を提供する手法を提案する。
GOS$2$F$2$Appによって指定された3つのメインブランチネットワークも提案されている。
論文 参考訳(メタデータ) (2024-04-11T13:37:51Z) - GP-NeRF: Generalized Perception NeRF for Context-Aware 3D Scene Understanding [101.32590239809113]
Generalized Perception NeRF (GP-NeRF) は、広く使われているセグメンテーションモデルとNeRFを統一されたフレームワークで相互に動作させる新しいパイプラインである。
本稿では,セマンティック蒸留損失(Semantic Distill Loss)とDepth-Guided Semantic Distill Loss(Depth-Guided Semantic Distill Loss)という2つの自己蒸留機構を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:59:41Z) - Interactive Segmentation as Gaussian Process Classification [58.44673380545409]
クリックベースのインタラクティブセグメンテーション(IS)は、ユーザインタラクション下で対象オブジェクトを抽出することを目的としている。
現在のディープラーニング(DL)ベースの手法のほとんどは、主にセマンティックセグメンテーションの一般的なパイプラインに従っている。
本稿では,各画像上でガウス過程(GP)に基づく画素単位のバイナリ分類モデルとしてISタスクを定式化することを提案する。
論文 参考訳(メタデータ) (2023-02-28T14:01:01Z) - Geometry-Aware Network for Domain Adaptive Semantic Segmentation [64.00345743710653]
本稿では,ドメイン間のギャップを小さくするために,ドメイン適応のための幾何学的ネットワーク(GANDA)を提案する。
我々は、RGB-D画像から生成された点雲上の3Dトポロジを利用して、対象領域における座標色歪みと擬似ラベルの微細化を行う。
我々のモデルは,GTA5->CityscapesとSynTHIA->Cityscapesの最先端技術より優れている。
論文 参考訳(メタデータ) (2022-12-02T00:48:44Z) - NeRF-SOS: Any-View Self-supervised Object Segmentation from Complex
Real-World Scenes [80.59831861186227]
本論文では,複雑な現実世界のシーンに対して,NeRFを用いたオブジェクトセグメンテーションのための自己教師型学習の探索を行う。
我々のフレームワークは、NeRF(NeRF with Self-supervised Object NeRF-SOS)と呼ばれ、NeRFモデルがコンパクトな幾何認識セグメンテーションクラスタを蒸留することを奨励している。
他の2Dベースの自己教師付きベースラインを一貫して上回り、既存の教師付きマスクよりも細かなセマンティクスマスクを予測する。
論文 参考訳(メタデータ) (2022-09-19T06:03:17Z) - SemAffiNet: Semantic-Affine Transformation for Point Cloud Segmentation [94.11915008006483]
ポイントクラウドセマンティックセグメンテーションのためのSemAffiNetを提案する。
我々はScanNetV2とNYUv2データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-05-26T17:00:23Z) - Semantic Dense Reconstruction with Consistent Scene Segments [33.0310121044956]
RGB-Dシーケンスから高レベルなシーン理解タスクを解くために,RGB-Dシーケンスから高密度なセマンティック3Dシーンを再構築する手法を提案する。
まず、各RGB-Dペアは、カメラ追跡バックボーンに基づいて、一貫して2Dセマンティックマップに分割される。
入力されたRGB-Dシーケンスから未知環境の高密度3Dメッシュモデルを漸進的に生成する。
論文 参考訳(メタデータ) (2021-09-30T03:01:17Z) - Improving Semi-Supervised and Domain-Adaptive Semantic Segmentation with
Self-Supervised Depth Estimation [94.16816278191477]
本稿では,セミアダプティブなセマンティックセマンティックセマンティックセグメンテーションのためのフレームワークを提案する。
ラベルのない画像シーケンスでのみ訓練された自己教師付き単眼深度推定によって強化される。
提案したモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2021-08-28T01:33:38Z) - Attention-based Multi-modal Fusion Network for Semantic Scene Completion [35.93265545962268]
本稿では,セマンティック・シーン・コンプリート(SSC)タスクのための,アテンションベースマルチモーダル・フュージョン・ネットワーク(AMFNet)というエンドツーエンドの3D畳み込みネットワークを提案する。
RGB-D画像から抽出した意味的特徴のみを利用する従来の手法と比較して,提案するAMFNetは,効果的な3Dシーン補完とセマンティックセグメンテーションを同時に行うことを学習する。
2次元セマンティックセグメンテーションと、3次元セマンティックコンプリートネットワークにより強化されたマルチモーダルフュージョンアーキテクチャを用いて実現されている。
論文 参考訳(メタデータ) (2020-03-31T02:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。