論文の概要: Copy-Pasting Coherent Depth Regions Improves Contrastive Learning for
Urban-Scene Segmentation
- arxiv url: http://arxiv.org/abs/2211.14074v1
- Date: Fri, 25 Nov 2022 12:52:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 17:12:35.362728
- Title: Copy-Pasting Coherent Depth Regions Improves Contrastive Learning for
Urban-Scene Segmentation
- Title(参考訳): Copy-Pasting Coherent Depth Regionsは都市シーンセグメンテーションのためのコントラスト学習を改善する
- Authors: Liang Zeng, Attila Lengyel, Nergis T\"omen, Jan van Gemert
- Abstract要約: 我々は,その推定深度から,コヒーレントな意味的関連画素をコヒーレントな深度領域にグループ化する。
我々の方法は、過去の最先端のベースラインを +7.14% の mIoU と +6.65% の KITTI で上回る。
- 参考スコア(独自算出の注目度): 14.742591401997048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we leverage estimated depth to boost self-supervised
contrastive learning for segmentation of urban scenes, where unlabeled videos
are readily available for training self-supervised depth estimation. We argue
that the semantics of a coherent group of pixels in 3D space is self-contained
and invariant to the contexts in which they appear. We group coherent,
semantically related pixels into coherent depth regions given their estimated
depth and use copy-paste to synthetically vary their contexts. In this way,
cross-context correspondences are built in contrastive learning and a
context-invariant representation is learned. For unsupervised semantic
segmentation of urban scenes, our method surpasses the previous
state-of-the-art baseline by +7.14% in mIoU on Cityscapes and +6.65% on KITTI.
For fine-tuning on Cityscapes and KITTI segmentation, our method is competitive
with existing models, yet, we do not need to pre-train on ImageNet or COCO, and
we are also more computationally efficient. Our code is available on
https://github.com/LeungTsang/CPCDR
- Abstract(参考訳): 本研究では,無ラベル映像が自己教師あり深度推定の訓練に利用できる都市シーンのセグメンテーションのための自己教師ありコントラスト学習を促進するために,推定深度を活用する。
3次元空間におけるコヒーレントなピクセル群の意味論は自己完結であり、それらが現れる文脈に不変であると主張する。
我々は,コヒーレントな意味的関連画素を推定深度からコヒーレントな深度領域に分類し,その文脈を合成的に変化させるためにコピーペーストを用いる。
このように、相互文脈対応は対照的な学習で構築され、文脈不変表現が学習される。
都市景観の非教師なしセマンティクスセグメンテーションでは,従来のベースラインを7.14%上回り,都市景観では7.14%,kittiでは6.65%上回った。
都市景観とkittiセグメンテーションを微調整するには,既存のモデルと競合するが,imagenetやcocoを事前学習する必要はなく,計算効率も優れている。
私たちのコードはhttps://github.com/LeungTsang/CPCDRで利用可能です。
関連論文リスト
- S3PT: Scene Semantics and Structure Guided Clustering to Boost Self-Supervised Pre-Training for Autonomous Driving [12.406655155106424]
そこで本稿では,S3PTによるシーンセマンティクスと構造案内クラスタリングを提案する。
まず、セマンティックな分布一貫したクラスタリングを取り入れて、オートバイや動物のような稀なクラスをよりよく表現できるようにします。
第2に,広い背景領域から歩行者や交通標識などの小さな物体まで,不均衡で多様な物体の大きさを扱うために,一貫した空間クラスタリングを導入する。
第3に,シーンの幾何学的情報に基づいて学習を規則化するための深度誘導空間クラスタリングを提案する。
論文 参考訳(メタデータ) (2024-10-30T15:00:06Z) - Transferring to Real-World Layouts: A Depth-aware Framework for Scene Adaptation [34.786268652516355]
教師なしドメイン適応(UDA)によるシーンセグメンテーションは、ソース合成データから取得した知識を現実のターゲットデータに転送することを可能にする。
深度推定を明示的に活用してカテゴリを混合し,2つの補完的タスク,すなわちセグメンテーションと深度学習を促進するための奥行き認識フレームワークを提案する。
特に、このフレームワークには、DCF(Depth-guided Contextual Filter)フォーンデータ拡張と、コンテキスト学習のためのクロスタスクエンコーダが含まれている。
論文 参考訳(メタデータ) (2023-11-21T15:39:21Z) - Learning to Adapt CLIP for Few-Shot Monocular Depth Estimation [31.34615135846137]
単眼深度推定に視覚言語モデルを適用することを学習する,数発のショットベース手法を提案する。
具体的には、異なるシーンに異なる深度ビンを割り当て、推論中にモデルによって選択できる。
トレーニング用シーンあたりのイメージが1つしかないため、NYU V2とKITTIデータセットによる大規模な実験結果から、我々の手法が従来の最先端の手法を最大10.6%上回っていることが示された。
論文 参考訳(メタデータ) (2023-11-02T06:56:50Z) - X-Distill: Improving Self-Supervised Monocular Depth via Cross-Task
Distillation [69.9604394044652]
そこで本研究では,クロスタスク知識蒸留による単眼深度の自己指導的訓練を改善する手法を提案する。
トレーニングでは,事前訓練されたセマンティックセグメンテーション教師ネットワークを使用し,そのセマンティック知識を深度ネットワークに転送する。
提案手法の有効性をKITTIベンチマークで評価し,最新技術と比較した。
論文 参考訳(メタデータ) (2021-10-24T19:47:14Z) - Improving Semi-Supervised and Domain-Adaptive Semantic Segmentation with
Self-Supervised Depth Estimation [94.16816278191477]
本稿では,セミアダプティブなセマンティックセマンティックセマンティックセグメンテーションのためのフレームワークを提案する。
ラベルのない画像シーケンスでのみ訓練された自己教師付き単眼深度推定によって強化される。
提案したモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2021-08-28T01:33:38Z) - Learning Depth via Leveraging Semantics: Self-supervised Monocular Depth
Estimation with Both Implicit and Explicit Semantic Guidance [34.62415122883441]
シーン認識深度推定のための暗黙的意味特徴と深度特徴とを一致させるセマンティック認識空間特徴アライメント方式を提案する。
また,推定深度マップを実シーンの文脈特性と整合性に明示的に制約する意味誘導型ランキング損失を提案する。
複雑なシーンや多様なセマンティックカテゴリで一貫して優れた、高品質な深度マップを作成します。
論文 参考訳(メタデータ) (2021-02-11T14:29:51Z) - Exploring Cross-Image Pixel Contrast for Semantic Segmentation [130.22216825377618]
完全教師付きセッティングにおけるセマンティックセグメンテーションのための画素単位のコントラストフレームワークを提案する。
中心となる考え方は、同じセマンティッククラスに属するピクセルの埋め込みを、異なるクラスの埋め込みよりもよく似ているように強制することである。
テスト中に余分なオーバーヘッドを伴わずに既存のセグメンテーションフレームワークに懸命に組み込むことができる。
論文 参考訳(メタデータ) (2021-01-28T11:35:32Z) - Three Ways to Improve Semantic Segmentation with Self-Supervised Depth
Estimation [90.87105131054419]
ラベルなし画像列からの自己教師付き単眼深度推定により強化された半教師付きセマンティックセマンティックセマンティックセマンティクスのフレームワークを提案する。
提案されたモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2020-12-19T21:18:03Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z) - Context Prior for Scene Segmentation [118.46210049742993]
我々はアフィニティ・ロスを監督する文脈優先を開発する。
学習されたコンテキスト優先は、同じカテゴリに属するピクセルを抽出し、逆のコンテキスト優先は異なるクラスのピクセルに焦点を当てる。
本アルゴリズムはADE20Kで46.3% mIoU,PASCAL-Contextで53.9% mIoU,Cityscapesで81.3% mIoUを達成した。
論文 参考訳(メタデータ) (2020-04-03T13:16:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。