論文の概要: Hierarchical Pyramid Representations for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2104.01792v1
- Date: Mon, 5 Apr 2021 06:39:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 14:33:16.075282
- Title: Hierarchical Pyramid Representations for Semantic Segmentation
- Title(参考訳): 意味セグメンテーションのための階層的ピラミッド表現
- Authors: Hiroaki Aizawa, Yukihiro Domae, Kunihito Kato
- Abstract要約: コンテキストはこれらの固有の特性に基づいているため、オブジェクトの構造とオブジェクト間の階層構造を学ぶ。
本研究では,新しい階層的,文脈的,マルチスケールのピラミッド表現を設計し,入力画像から特徴を捉える。
提案手法はPASCALコンテキストにおける最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the context of complex and cluttered scenes is a challenging
problem for semantic segmentation. However, it is difficult to model the
context without prior and additional supervision because the scene's factors,
such as the scale, shape, and appearance of objects, vary considerably in these
scenes. To solve this, we propose to learn the structures of objects and the
hierarchy among objects because context is based on these intrinsic properties.
In this study, we design novel hierarchical, contextual, and multiscale
pyramidal representations to capture the properties from an input image. Our
key idea is the recursive segmentation in different hierarchical regions based
on a predefined number of regions and the aggregation of the context in these
regions. The aggregated contexts are used to predict the contextual
relationship between the regions and partition the regions in the following
hierarchical level. Finally, by constructing the pyramid representations from
the recursively aggregated context, multiscale and hierarchical properties are
attained. In the experiments, we confirmed that our proposed method achieves
state-of-the-art performance in PASCAL Context.
- Abstract(参考訳): 複雑で散らばったシーンのコンテキストを理解することは、セマンティックセグメンテーションにとって難しい問題である。
しかし、これらの場面では、大きさ、形状、外観などの場面の要素がかなり異なるため、事前・追加の監督なしに文脈をモデル化することは困難である。
そこで本研究では,これらの固有性に基づいて,オブジェクトの構造とオブジェクト間の階層構造を学習することを提案する。
本研究では,新しい階層的,文脈的,マルチスケールのピラミッド表現を設計し,入力画像から特徴を捉える。
我々のキーとなる考え方は、予め定義された領域数とこれらの領域におけるコンテキストの集約に基づいて、異なる階層領域における再帰的セグメンテーションである。
集約されたコンテキストは、各領域間のコンテキスト関係を予測し、以下の階層レベルで分割するために使用される。
最後に、再帰的に集約されたコンテキストからピラミッド表現を構築することにより、マルチスケールおよび階層的特性が得られる。
実験では,提案手法がPASCALコンテキストにおける最先端性能を実現することを確認した。
関連論文リスト
- From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - AttrSeg: Open-Vocabulary Semantic Segmentation via Attribute
Decomposition-Aggregation [33.25304533086283]
オープンボキャブラリセマンティックセグメンテーションは、推論時に新しいオブジェクトカテゴリをセグメンテーションする必要がある難しいタスクである。
最近の研究では、この課題に対処するために視覚言語による事前訓練が検討されているが、現実的なシナリオでは非現実的な仮定に悩まされている。
本研究は,新しい概念を理解する上で,人間の認知に触発された新しい属性分解集約フレームワークであるAttrSegを提案する。
論文 参考訳(メタデータ) (2023-08-31T19:34:09Z) - How Deep Neural Networks Learn Compositional Data: The Random Hierarchy
Model [50.45582596865073]
言語と画像の階層構造にインスパイアされた合成タスクのファミリーであるランダム階層モデルを紹介する。
深層ネットワークは、等価なグループを交換するために不変な内部表現を開発することでタスクを学習する。
この結果から, ネットワークは次元の呪いを克服し, 不変表現を構築できることが示唆された。
論文 参考訳(メタデータ) (2023-07-05T09:11:09Z) - Neural Constraint Satisfaction: Hierarchical Abstraction for
Combinatorial Generalization in Object Rearrangement [75.9289887536165]
基礎となるエンティティを明らかにするための階層的抽象化手法を提案する。
本研究では,エージェントのモデルにおける実体の状態の介入と,環境中の物体に作用する状態の対応関係を学習する方法を示す。
この対応を利用して、オブジェクトの異なる数や構成に一般化する制御法を開発する。
論文 参考訳(メタデータ) (2023-03-20T18:19:36Z) - Semantically Enhanced Global Reasoning for Semantic Segmentation [37.64601713565947]
画像特徴を潜在領域表現に投影し,グローバルな推論を行うことを学ぶ。
結果として生じる意味的グローバル推論(SGR)は、エンドツーエンドのトレーニングが可能で、任意の意味的セグメンテーションフレームワークと組み合わせることができる。
オブジェクトクラスとインスタンスレベルの両方で表現の意味を計測できる新しいメトリクスを提案する。
論文 参考訳(メタデータ) (2022-12-06T21:42:05Z) - Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised
Semantic Segmentation and Localization [98.46318529630109]
画像分解をグラフ分割問題として再フレーミングすることで,従来のスペクトル分割法から着想を得た。
これらの固有ベクトルはすでにイメージを意味のあるセグメントに分解しており、シーン内のオブジェクトのローカライズに容易に利用できる。
データセットにまたがるこれらのセグメントに関連する機能をクラスタ化することで、明確に定義された、名前付き可能なリージョンを得ることができる。
論文 参考訳(メタデータ) (2022-05-16T17:47:44Z) - Compositional Temporal Grounding with Structured Variational Cross-Graph
Correspondence Learning [92.07643510310766]
ビデオの時間的接地は、あるクエリ文に意味的に対応する1つのターゲットビデオセグメントをローカライズすることを目的としている。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
出現した単語の新たな組み合わせによるクエリの一般化に失敗したことを実証的に見出した。
本稿では,ビデオと言語を複数の階層構造に明示的に分解する多変分グラフ推論フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-24T12:55:23Z) - A Unified Efficient Pyramid Transformer for Semantic Segmentation [40.20512714144266]
我々はコンテキスト情報と境界アーティファクトの両方を考慮してオブジェクトをセグメント化する統一フレームワーク(UN-EPT)を提唱する。
我々はまず,効率的なコンテキストモデリングのために,トランスフォーマーに基づくアテンション機構を組み込むため,スパースサンプリング戦略を適用した。
メモリフットプリントの少ないセマンティックセグメンテーションのための3つの人気のあるベンチマークで有望な性能を示す。
論文 参考訳(メタデータ) (2021-07-29T17:47:32Z) - Exploring Set Similarity for Dense Self-supervised Representation
Learning [96.35286140203407]
本研究では,高密度自己教師型表現学習のためのtextbfset textbfsimilarity (SetSim) を提案する。
ピクセルワイドの類似性学習をセットワイドに一般化し,よりセマンティックな情報や構造的な情報を含むため,ロバスト性を向上させる。
具体的には、ビューの注意的特徴に頼って対応する集合を定め、不適切な対応を引き起こす可能性のあるノイズの多い背景をフィルタリングする。
論文 参考訳(メタデータ) (2021-07-19T09:38:27Z) - GMNet: Graph Matching Network for Large Scale Part Semantic Segmentation
in the Wild [23.29789882934198]
課題に対処するために,より高いオブジェクトレベルのコンテキスト条件と部分レベルの空間関係を組み合わせたフレームワークを提案する。
オブジェクトレベルの曖昧性に取り組むために、クラスレベルのセマンティクスを保持するためにクラスコンディショニングモジュールが導入される。
また,地中真実と予測部分との相対空間関係のマッチングを目的とした,新しい隣接グラフベースモジュールを提案する。
論文 参考訳(メタデータ) (2020-07-17T15:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。