論文の概要: Unsupervised semantic segmentation of high-resolution UAV imagery for
road scene parsing
- arxiv url: http://arxiv.org/abs/2402.02985v1
- Date: Mon, 5 Feb 2024 13:16:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 16:10:33.756421
- Title: Unsupervised semantic segmentation of high-resolution UAV imagery for
road scene parsing
- Title(参考訳): 道路シーン解析のための高分解能uav画像の教師なし意味セグメンテーション
- Authors: Zihan Ma, Yongshang Li, Ronggui Ma, Chen Liang
- Abstract要約: 視覚言語モデルを用いて、超高解像度UAV画像を処理し、画像に注目する道路領域を迅速に検出する。
自己教師付き表現学習ネットワークは、すべてのマスキング領域から特徴表現を抽出する。
提案手法は,手動のアノテーションを使わずに,開発データセット上で89.96%のmIoUを実現する。
- 参考スコア(独自算出の注目度): 13.7188704292622
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Two challenges are presented when parsing road scenes in UAV images. First,
the high resolution of UAV images makes processing difficult. Second,
supervised deep learning methods require a large amount of manual annotations
to train robust and accurate models. In this paper, an unsupervised road
parsing framework that leverages recent advances in vision language models and
fundamental computer vision model is introduced.Initially, a vision language
model is employed to efficiently process ultra-large resolution UAV images to
quickly detect road regions of interest in the images. Subsequently, the vision
foundation model SAM is utilized to generate masks for the road regions without
category information. Following that, a self-supervised representation learning
network extracts feature representations from all masked regions. Finally, an
unsupervised clustering algorithm is applied to cluster these feature
representations and assign IDs to each cluster. The masked regions are combined
with the corresponding IDs to generate initial pseudo-labels, which initiate an
iterative self-training process for regular semantic segmentation. The proposed
method achieves an impressive 89.96% mIoU on the development dataset without
relying on any manual annotation. Particularly noteworthy is the extraordinary
flexibility of the proposed method, which even goes beyond the limitations of
human-defined categories and is able to acquire knowledge of new categories
from the dataset itself.
- Abstract(参考訳): UAV画像で道路シーンを解析する際に2つの課題が提示される。
まず,UAV画像の高解像度化により,処理が困難になる。
第二に、教師付きディープラーニング手法は、堅牢で正確なモデルをトレーニングするために、大量の手動アノテーションを必要とする。
本稿では,近年のビジョン言語モデルと基礎的コンピュータビジョンモデルを活用する,教師なしの道路解析フレームワークを導入し,まず,超高解像度UAV画像を効率よく処理し,画像の関心領域を迅速に検出するビジョン言語モデルを提案する。
その後、ビジョンファウンデーションモデルSAMを用いて、カテゴリ情報のない道路領域のマスクを生成する。
その後、自己教師表現学習ネットワークは、すべてのマスク領域から特徴表現を抽出する。
最後に、これらの特徴表現をクラスタ化するために教師なしクラスタリングアルゴリズムを適用し、各クラスタにIDを割り当てる。
マスク領域は対応するidと結合して初期擬似ラベルを生成し、正規意味セグメンテーションのための反復的な自己学習プロセスを開始する。
提案手法は,手動アノテーションを使わずに開発データセット上で89.96%のmiouを実現する。
特に注目すべきなのは、提案手法の異常な柔軟性であり、人間定義のカテゴリの制限を超え、データセット自体から新しいカテゴリの知識を得ることができる。
関連論文リスト
- Semantic Refocused Tuning for Open-Vocabulary Panoptic Segmentation [42.020470627552136]
Open-vocabulary Panoptic segmentationは、イメージを意味のあるマスクに正確に分割することを目的とした、新たなタスクである。
マスク分類は、オープンボキャブ・パノプティクスのセグメンテーションにおける主要なパフォーマンスボトルネックである。
オープンボキャブ・パノプティクスのセグメンテーションを大幅に強化する新しいフレームワークであるセマンティック・リフォーカス・タニングを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:50:28Z) - Pseudo-RIS: Distinctive Pseudo-supervision Generation for Referring Image Segmentation [10.958014189747356]
画像セグメンテーション(RIS)を参照するための疑似監督として,参照表現を用いた高品質セグメンテーションマスクを自動生成する新しいフレームワークを提案する。
本手法は, RISベンチマークデータセットにおいて, 弱いSoTA法とゼロショットSoTA法の両方を著しく上回っている。
また、未確認領域における完全に教師された手法を超越し、RIS内のオープンワールドの課題に取り組む能力を証明している。
論文 参考訳(メタデータ) (2024-07-10T07:14:48Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - Weakly-Supervised Semantic Segmentation with Image-Level Labels: from
Traditional Models to Foundation Models [33.690846523358836]
弱教師付きセマンティックセマンティックセグメンテーション(WSSS)はピクセルレベルのラベルを避ける効果的なソリューションである。
私たちは、WSSSの最も難しい形態であるイメージレベルのラベルによるWSSSに焦点を当てています。
本稿では,WSSS の文脈において,Segment Anything Model (SAM) などの視覚基盤モデルの適用性について検討する。
論文 参考訳(メタデータ) (2023-10-19T07:16:54Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - IFSeg: Image-free Semantic Segmentation via Vision-Language Model [67.62922228676273]
目的は,対象のセマンティックなカテゴリの集合にのみ依存するセマンティックセマンティックセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなタスクを実現することである。
本研究では、ランダムな意味圏の2次元マップと、対応する単語トークンの別のマップを作成することで、この人工的なトレーニングデータを構築する。
本モデルでは,本課題の効果的なベースラインを確立するだけでなく,既存手法と比較して高い性能を示す。
論文 参考訳(メタデータ) (2023-03-25T08:19:31Z) - Unsupervised Image Segmentation by Mutual Information Maximization and
Adversarial Regularization [7.165364364478119]
InMARS(Information Maximization and Adrial Regularization)と呼ばれる新しい教師なしセマンティックセマンティックセマンティクス手法を提案する。
シーンを知覚群に解析する人間の知覚に触発され、提案手法はまず、入力画像を意味のある領域(スーパーピクセルとも呼ばれる)に分割する。
次に、相互情報最大化(Multual-Information-Maximization)と、それらの領域を意味論的に意味のあるクラスにクラスタ化するための敵対的トレーニング戦略を利用する。
提案手法は2つの非教師付きセマンティックセグメンテーションデータセット上での最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2021-07-01T18:36:27Z) - Unsupervised Person Re-identification via Simultaneous Clustering and
Consistency Learning [22.008371113710137]
静止画からの視覚的一貫性とトレーニングプロセス中の時間的一貫性を学習することにより、教師なし再IDのプリテキストタスクを設計します。
2つのエンコードされたビューを同じクラスタにグループ化し、ビュー間の視覚的一貫性を高めることで、モデルを最適化する。
論文 参考訳(メタデータ) (2021-04-01T02:10:42Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。