論文の概要: Towards holistic scene understanding: Semantic segmentation and beyond
- arxiv url: http://arxiv.org/abs/2201.07734v1
- Date: Sun, 16 Jan 2022 19:18:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-20 13:31:27.012540
- Title: Towards holistic scene understanding: Semantic segmentation and beyond
- Title(参考訳): 総合的なシーン理解に向けて:セマンティックセグメンテーションとその先
- Authors: Panagiotis Meletis
- Abstract要約: この論文は、視覚的なシーン理解に対処し、セグメンテーション性能と一般化、ネットワークのトレーニング効率、全体的理解を高める。
まず,街路シーンの文脈におけるセマンティックセグメンテーションと,各種データセットの組み合わせによるセマンティックセグメンテーションネットワークについて検討する。
第2章では、単一の畳み込みバックボーン上に階層型分類器のフレームワークを設計し、ピクセルラベル付きデータセットの組み合わせでエンドツーエンドにトレーニングする。
第3章では,画素単位の監督に代えて,ボックスレベルとイメージレベルを境界としたトレーニングを行うための弱教師付きアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 2.7920304852537536
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This dissertation addresses visual scene understanding and enhances
segmentation performance and generalization, training efficiency of networks,
and holistic understanding. First, we investigate semantic segmentation in the
context of street scenes and train semantic segmentation networks on
combinations of various datasets. In Chapter 2 we design a framework of
hierarchical classifiers over a single convolutional backbone, and train it
end-to-end on a combination of pixel-labeled datasets, improving
generalizability and the number of recognizable semantic concepts. Chapter 3
focuses on enriching semantic segmentation with weak supervision and proposes a
weakly-supervised algorithm for training with bounding box-level and
image-level supervision instead of only with per-pixel supervision. The memory
and computational load challenges that arise from simultaneous training on
multiple datasets are addressed in Chapter 4. We propose two methodologies for
selecting informative and diverse samples from datasets with weak supervision
to reduce our networks' ecological footprint without sacrificing performance.
Motivated by memory and computation efficiency requirements, in Chapter 5, we
rethink simultaneous training on heterogeneous datasets and propose a universal
semantic segmentation framework. This framework achieves consistent increases
in performance metrics and semantic knowledgeability by exploiting various
scene understanding datasets. Chapter 6 introduces the novel task of part-aware
panoptic segmentation, which extends our reasoning towards holistic scene
understanding. This task combines scene and parts-level semantics with
instance-level object detection. In conclusion, our contributions span over
convolutional network architectures, weakly-supervised learning, part and
panoptic segmentation, paving the way towards a holistic, rich, and sustainable
visual scene understanding.
- Abstract(参考訳): この論文は視覚的なシーン理解に対処し、セグメンテーション性能と一般化、ネットワークのトレーニング効率、全体的理解を高める。
まず,街路シーンの文脈におけるセマンティックセグメンテーションと,各種データセットの組み合わせによるセマンティックセグメンテーションネットワークについて検討する。
第2章では、単一の畳み込みバックボーン上の階層型分類器のフレームワークを設計し、ピクセルラベル付きデータセットの組み合わせでエンドツーエンドにトレーニングし、一般化性と認識可能な意味概念の数を改善する。
第3章は, セマンティックセグメンテーションを弱監督で強化することに焦点を当て, ボックスレベルと画像レベルのバウンディングによるトレーニングを, ピクセル単位の監督でのみ行うのではなく, 弱監督するアルゴリズムを提案する。
第4章では、複数のデータセットの同時トレーニングから生じるメモリおよび計算負荷の問題に対処する。
本稿では,ネットワークの生態的フットプリントを損なうことなく,データから情報的および多様なサンプルを選択するための2つの手法を提案する。
第5章では、メモリと計算効率の要求により、異種データセットの同時トレーニングを再考し、普遍的なセマンティックセグメンテーションフレームワークを提案する。
このフレームワークは、様々なシーン理解データセットを活用することで、パフォーマンスメトリクスとセマンティックナレッジビリティの一貫性の向上を実現する。
第6章では,部分認識パンオプティカルセグメンテーション(part-aware panoptic segmentation)の新たなタスクを紹介します。
このタスクはシーンと部分レベルのセマンティクスとインスタンスレベルのオブジェクト検出を組み合わせる。
結論として、私たちの貢献は、畳み込み型ネットワークアーキテクチャ、弱い教師付き学習、パートセグメンテーションとパンオプティカルセグメンテーションにまたがり、総合的でリッチで持続可能な視覚シーン理解への道を開いた。
関連論文リスト
- A Lightweight Clustering Framework for Unsupervised Semantic
Segmentation [28.907274978550493]
教師なしセマンティックセグメンテーションは、注釈付きデータを用いることなく、画像の各ピクセルを対応するクラスに分類することを目的としている。
教師なしセマンティックセグメンテーションのための軽量クラスタリングフレームワークを提案する。
本フレームワークは,PASCAL VOCおよびMS COCOデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2023-11-30T15:33:42Z) - ContextSeg: Sketch Semantic Segmentation by Querying the Context with Attention [7.783971241874388]
本稿では、この問題を2段階に分けて扱うための、シンプルかつ高効率なアプローチであるContextSegについて述べる。
第1段階では、ストロークの形状と位置情報をよりよく符号化するために、オートエンコーダネットワークにおける余分な密度距離場を予測することを提案する。
第2段階では、全ストロークを単一のエンティティとして扱い、デフォルトのアテンション機構を備えた自動回帰変換器を用いて、同じ意味部分内でストロークのグループをラベル付けする。
論文 参考訳(メタデータ) (2023-11-28T10:53:55Z) - AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。
また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文 参考訳(メタデータ) (2023-05-28T16:28:49Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - HS3: Learning with Proper Task Complexity in Hierarchically Supervised
Semantic Segmentation [81.87943324048756]
本稿では,タスクの複雑さによって意味のある表現を学習するためのセグメンテーションネットワークの中間層を監督するトレーニングスキームである階層的意味論(Hierarchically Supervised Semantic,HS3)を提案する。
提案するHS3-Fuseフレームワークはセグメンテーション予測をさらに改善し、2つの大きなセグメンテーションベンチマークであるNYUD-v2とCityscapesで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-03T16:33:29Z) - Unsupervised Image Segmentation by Mutual Information Maximization and
Adversarial Regularization [7.165364364478119]
InMARS(Information Maximization and Adrial Regularization)と呼ばれる新しい教師なしセマンティックセマンティックセマンティクス手法を提案する。
シーンを知覚群に解析する人間の知覚に触発され、提案手法はまず、入力画像を意味のある領域(スーパーピクセルとも呼ばれる)に分割する。
次に、相互情報最大化(Multual-Information-Maximization)と、それらの領域を意味論的に意味のあるクラスにクラスタ化するための敵対的トレーニング戦略を利用する。
提案手法は2つの非教師付きセマンティックセグメンテーションデータセット上での最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2021-07-01T18:36:27Z) - Three Ways to Improve Semantic Segmentation with Self-Supervised Depth
Estimation [90.87105131054419]
ラベルなし画像列からの自己教師付き単眼深度推定により強化された半教師付きセマンティックセマンティックセマンティックセマンティクスのフレームワークを提案する。
提案されたモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2020-12-19T21:18:03Z) - Bidirectional Graph Reasoning Network for Panoptic Segmentation [126.06251745669107]
本稿では,BGRNet(Bidirectional Graph Reasoning Network)を導入し,前景物と背景物間のモジュラー内およびモジュラー間関係について検討する。
BGRNetはまず、インスタンスとセマンティックセグメンテーションの両方でイメージ固有のグラフを構築し、提案レベルとクラスレベルで柔軟な推論を可能にする。
論文 参考訳(メタデータ) (2020-04-14T02:32:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。