論文の概要: Self-supervised Pre-training for Semantic Segmentation in an Indoor
Scene
- arxiv url: http://arxiv.org/abs/2210.01884v1
- Date: Tue, 4 Oct 2022 20:10:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 14:02:35.819990
- Title: Self-supervised Pre-training for Semantic Segmentation in an Indoor
Scene
- Title(参考訳): 室内シーンにおけるセマンティックセグメンテーションのための自己指導型プレトレーニング
- Authors: Sulabh Shrestha, Yimeng Li, Jana Kosecka
- Abstract要約: 本稿ではセグメンテーションモデルの自己教師型事前学習手法であるRegConsistを提案する。
我々は,対象環境におけるRGBビューからのセマンティックセグメンテーションを予測するために,コントラスト学習の変種を用いてDCNNモデルを訓練する。
提案手法は、ImageNetで事前訓練されたモデルよりも優れており、全く同じタスクでトレーニングされたモデルと異なるデータセットでトレーニングされたモデルを使用する場合の競合性能を実現する。
- 参考スコア(独自算出の注目度): 8.357801312689622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to endow maps of indoor scenes with semantic information is an
integral part of robotic agents which perform different tasks such as target
driven navigation, object search or object rearrangement. The state-of-the-art
methods use Deep Convolutional Neural Networks (DCNNs) for predicting semantic
segmentation of an image as useful representation for these tasks. The accuracy
of semantic segmentation depends on the availability and the amount of labeled
data from the target environment or the ability to bridge the domain gap
between test and training environment. We propose RegConsist, a method for
self-supervised pre-training of a semantic segmentation model, exploiting the
ability of the agent to move and register multiple views in the novel
environment. Given the spatial and temporal consistency cues used for pixel
level data association, we use a variant of contrastive learning to train a
DCNN model for predicting semantic segmentation from RGB views in the target
environment. The proposed method outperforms models pre-trained on ImageNet and
achieves competitive performance when using models that are trained for exactly
the same task but on a different dataset. We also perform various ablation
studies to analyze and demonstrate the efficacy of our proposed method.
- Abstract(参考訳): 屋内シーンの地図に意味情報を与える能力は、ターゲット駆動ナビゲーション、オブジェクト探索、オブジェクト再構成といった様々なタスクを実行するロボットエージェントの不可欠な部分である。
最先端の手法では、Deep Convolutional Neural Networks(DCNN)を使用して、画像の意味的セグメンテーションをこれらのタスクに有用な表現として予測する。
セマンティクスのセグメンテーションの正確性は、ターゲット環境からのラベル付きデータの可用性と量、あるいはテスト環境とトレーニング環境の間のドメイン間ギャップを埋める能力に依存する。
本稿では,セマンティックセグメンテーションモデルの自己教師型事前学習手法であるRegConsistを提案する。
画素レベルのデータアソシエーションに使用される空間的・時間的一貫性を考慮し,対象環境におけるRGBビューからのセマンティックセグメンテーションを予測するためのDCNNモデルを訓練するために,コントラスト学習の変種を用いる。
提案手法はimagenetで事前トレーニングされたモデルよりも優れており、全く同じタスクに対して異なるデータセットでトレーニングされたモデルを使用する場合の競合性能を実現する。
また,提案手法の有効性を解析・実証するために,様々なアブレーション研究を行った。
関連論文リスト
- Labeling Indoor Scenes with Fusion of Out-of-the-Box Perception Models [4.157013247909771]
ボトムアップセグメンテーション(SAM)、オブジェクト検出(Detic)、セマンティックセグメンテーション(MaskFormer)の最先端モデルを活用することを提案する。
室内環境におけるセマンティックセグメンテーションとオブジェクトインスタンス検出のための擬似ラベルを得るための,コスト効率の高いラベリング手法を開発することを目的とする。
提案手法の有効性を,Active VisionデータセットとADE20Kデータセットに示す。
論文 参考訳(メタデータ) (2023-11-17T21:58:26Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - Unsupervised Domain Adaptation for Medical Image Segmentation via
Feature-space Density Matching [0.0]
本稿ではセマンティックセグメンテーションのための教師なしドメイン適応手法を提案する。
対象データ分布を特徴空間のソースとマッチングする。
提案手法の有効性を2つのデータセット,多部位前立腺MRI,病理組織像に示す。
論文 参考訳(メタデータ) (2023-05-09T22:24:46Z) - IFSeg: Image-free Semantic Segmentation via Vision-Language Model [67.62922228676273]
目的は,対象のセマンティックなカテゴリの集合にのみ依存するセマンティックセマンティックセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなタスクを実現することである。
本研究では、ランダムな意味圏の2次元マップと、対応する単語トークンの別のマップを作成することで、この人工的なトレーニングデータを構築する。
本モデルでは,本課題の効果的なベースラインを確立するだけでなく,既存手法と比較して高い性能を示す。
論文 参考訳(メタデータ) (2023-03-25T08:19:31Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Unsupervised Continual Semantic Adaptation through Neural Rendering [32.099350613956716]
セマンティックセグメンテーションの課題に対する連続的マルチシーン適応について検討する。
本稿では,セグメンテーションモデルの予測を融合させることで,シーン毎にセマンティック・NeRFネットワークを訓練する。
我々は,Voxelベースのベースラインと最先端の教師なしドメイン適応手法の両方より優れているScanNetに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-11-25T09:31:41Z) - Improving Semi-Supervised and Domain-Adaptive Semantic Segmentation with
Self-Supervised Depth Estimation [94.16816278191477]
本稿では,セミアダプティブなセマンティックセマンティックセマンティックセグメンテーションのためのフレームワークを提案する。
ラベルのない画像シーケンスでのみ訓練された自己教師付き単眼深度推定によって強化される。
提案したモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2021-08-28T01:33:38Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Self-supervised Segmentation via Background Inpainting [96.10971980098196]
移動可能なカメラで撮影された単一の画像で、自己教師付き検出とセグメンテーションのアプローチを導入する。
我々は、提案に基づくセグメンテーションネットワークのトレーニングに利用する自己教師付き損失関数を利用する。
本手法は,標準ベンチマークから視覚的に切り離された画像の人間の検出とセグメント化に応用し,既存の自己監督手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-11T08:34:40Z) - Towards Adaptive Semantic Segmentation by Progressive Feature Refinement [16.40758125170239]
セグメンテーションネットワークの転送可能性を高めるために,ドメイン逆学習とともに,革新的なプログレッシブな特徴改善フレームワークを提案する。
その結果、ソース・ドメイン・イメージで訓練されたセグメンテーション・モデルは、大幅な性能劣化を伴わずにターゲット・ドメインに転送できる。
論文 参考訳(メタデータ) (2020-09-30T04:17:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。