論文の概要: Weakly Supervised Semantic Segmentation for Driving Scenes
- arxiv url: http://arxiv.org/abs/2312.13646v1
- Date: Thu, 21 Dec 2023 08:16:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 15:42:10.168640
- Title: Weakly Supervised Semantic Segmentation for Driving Scenes
- Title(参考訳): 運転シーンに対する弱監督型セマンティックセグメンテーション
- Authors: Dongseob Kim, Seungho Lee, Junsuk Choe, Hyunjung Shim
- Abstract要約: 弱教師付きセマンティックセグメンテーション(WSSS)における最先端技術は、駆動シーンデータセットに深刻な性能劣化を示す。
シーンデータセットの駆動に適した新しいWSSSフレームワークを開発した。
- 参考スコア(独自算出の注目度): 27.0285166404621
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: State-of-the-art techniques in weakly-supervised semantic segmentation (WSSS)
using image-level labels exhibit severe performance degradation on driving
scene datasets such as Cityscapes. To address this challenge, we develop a new
WSSS framework tailored to driving scene datasets. Based on extensive analysis
of dataset characteristics, we employ Contrastive Language-Image Pre-training
(CLIP) as our baseline to obtain pseudo-masks. However, CLIP introduces two key
challenges: (1) pseudo-masks from CLIP lack in representing small object
classes, and (2) these masks contain notable noise. We propose solutions for
each issue as follows. (1) We devise Global-Local View Training that seamlessly
incorporates small-scale patches during model training, thereby enhancing the
model's capability to handle small-sized yet critical objects in driving scenes
(e.g., traffic light). (2) We introduce Consistency-Aware Region Balancing
(CARB), a novel technique that discerns reliable and noisy regions through
evaluating the consistency between CLIP masks and segmentation predictions. It
prioritizes reliable pixels over noisy pixels via adaptive loss weighting.
Notably, the proposed method achieves 51.8\% mIoU on the Cityscapes test
dataset, showcasing its potential as a strong WSSS baseline on driving scene
datasets. Experimental results on CamVid and WildDash2 demonstrate the
effectiveness of our method across diverse datasets, even with small-scale
datasets or visually challenging conditions. The code is available at
https://github.com/k0u-id/CARB.
- Abstract(参考訳): 画像レベルラベルを用いたweakly supervised semantic segmentation(wsss)における最先端技術は、都市景観などの運転シーンデータセットにおいて深刻な性能低下を示す。
この課題に対処するため、シーンデータセットの駆動に適した新しいWSSSフレームワークを開発しました。
データセットの特徴を広範囲に分析し,提案するベースラインとしてコントラスト言語画像事前学習(CLIP)を用いて擬似マスクを得る。
しかし、CLIPは、(1)CLIPの擬似マスクが小さなオブジェクトクラスを表現していないこと、(2)これらのマスクが顕著なノイズを含んでいること、の2つの主要な課題を紹介している。
それぞれの問題に対する解決策を次のように提案する。
1)モデルトレーニング中に小規模パッチをシームレスに組み込んだグローバルローカルビュートレーニングを考案し,モデルが運転シーン(例えば交通信号)において小型で重要なオブジェクトを扱う能力を高める。
2)CLIPマスクとセグメンテーション予測の整合性を評価することによって,信頼性と雑音の領域を識別する新しい手法であるCARBを導入する。
適応的な損失重み付けによってノイズの多いピクセルよりも信頼性の高いピクセルを優先する。
特に,提案手法はCityscapesテストデータセット上で51.8\% mIoUを達成し,シーンデータセットを駆動するWSSSベースラインとしての可能性を示した。
camvidとwilddash2の実験結果は、小規模のデータセットや視覚的に困難な状況でも、さまざまなデータセットにまたがる手法の有効性を示しています。
コードはhttps://github.com/k0u-id/CARBで公開されている。
関連論文リスト
- Finding Meaning in Points: Weakly Supervised Semantic Segmentation for Event Cameras [45.063747874243276]
本稿では,イベントベースセマンティックセマンティックセグメンテーションのための新しい弱教師付きアプローチEV-WSSSを提案する。
提案フレームワークは,(1)前向きのイベントデータと(2)逆向きのイベントデータとの間に非対称な二重学習を行う。
提案手法は,画素レベルの高密度地下真実に頼らずとも,かなりのセグメンテーション結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-15T20:00:50Z) - CPCM: Contextual Point Cloud Modeling for Weakly-supervised Point Cloud
Semantic Segmentation [60.0893353960514]
疎アノテーションを用いた弱教師付きポイントクラウドセマンティックセマンティックセグメンテーションの課題について検討する。
本研究では,地域マスキング(RegionMask)戦略とコンテキストマスキングトレーニング(CMT)手法の2つの部分からなるコンテキストポイントクラウドモデリング(CPCM)手法を提案する。
論文 参考訳(メタデータ) (2023-07-19T04:41:18Z) - High-fidelity Pseudo-labels for Boosting Weakly-Supervised Segmentation [17.804090651425955]
画像レベルの弱い教師付きセグメンテーション(WSSS)は、トレーニング中にセグメンテーションマスクを代理することで、通常膨大なデータアノテーションコストを削減する。
本研究は,GAPの代替となる重要サンプリングと特徴類似性損失という,CAMを改善するための2つの手法に基づく。
複数の独立二項問題の後部二項問題に基づいて両手法を再構成する。
パフォーマンスが向上し、より一般的なものになり、事実上あらゆるWSSSメソッドを増強できるアドオンメソッドが出来上がります。
論文 参考訳(メタデータ) (2023-04-05T17:43:57Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - 1st Place Solution of The Robust Vision Challenge (RVC) 2022 Semantic
Segmentation Track [67.56316745239629]
本報告では,ECCV 2022におけるロバストビジョンチャレンジのセマンティックセグメンテーション課題に対する勝利解について述べる。
本手法では,エンコーダとしてFAN-B-Hybridモデルを採用し,セグメンテーションフレームワークとしてSegformerを使用している。
提案手法は,マルチドメインセグメンテーションタスクの強力なベースラインとして機能し,今後の作業に役立てることができる。
論文 参考訳(メタデータ) (2022-10-23T20:52:22Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Large-scale Unsupervised Semantic Segmentation [163.3568726730319]
本稿では, 大規模無教師付きセマンティックセマンティックセグメンテーション (LUSS) の新たな課題を提案する。
ImageNetデータセットに基づいて、120万のトレーニング画像と40万の高品質なセマンティックセグメンテーションアノテーションを用いた画像Net-Sデータセットを提案する。
論文 参考訳(メタデータ) (2021-06-06T15:02:11Z) - Railroad is not a Train: Saliency as Pseudo-pixel Supervision for Weakly
Supervised Semantic Segmentation [16.560870740946275]
EPS (Explicit Pseudo-Pixel Supervision) は2つの弱い監督と組み合わせることでピクセルレベルのフィードバックから学習する。
両情報間の補完関係を完全に活用するための共同学習戦略を考案する。
提案手法は, 正確なオブジェクト境界を求め, 共起画素を破棄することにより, 擬似マスクの品質を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-05-19T07:31:11Z) - Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T21:58:06Z) - Reinforced active learning for image segmentation [34.096237671643145]
深部強化学習(RL)に基づく意味的セグメンテーションのための新しいアクティブラーニング戦略を提案する。
エージェントは、ラベルなしデータのプールからラベル付けされる小さな情報領域(画像全体とは対照的に)のサブセットを選択するポリシーを学ぶ。
本手法では, 意味的セグメンテーション問題の大規模性質に適応して, 能動的学習のための深部Q-network (DQN) の定式化を新たに提案する。
論文 参考訳(メタデータ) (2020-02-16T14:03:06Z) - SVIRO: Synthetic Vehicle Interior Rear Seat Occupancy Dataset and
Benchmark [11.101588888002045]
SVIROは10台の異なる車両の旅客室におけるシーンの合成データセットである。
限られたバリエーションに基づいて学習した際の一般化能力と信頼性について、機械学習に基づくアプローチを解析する。
論文 参考訳(メタデータ) (2020-01-10T14:44:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。