論文の概要: MEDOE: A Multi-Expert Decoder and Output Ensemble Framework for
Long-tailed Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2308.08213v1
- Date: Wed, 16 Aug 2023 08:30:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 14:25:45.002918
- Title: MEDOE: A Multi-Expert Decoder and Output Ensemble Framework for
Long-tailed Semantic Segmentation
- Title(参考訳): medoe:ロングテール意味セグメンテーションのためのマルチエキスパートデコーダと出力アンサンブルフレームワーク
- Authors: Junao Shen, Long Chen, Kun Kuang, Fei Wu, Tian Feng, Wei Zhang
- Abstract要約: セマンティックカテゴリの長期分布は、セマンティックセグメンテーションにおいて不満足なパフォーマンスを引き起こす。
本稿では,コンテキスト情報アンサンブル・グループ化による長期的セマンティックセマンティックセグメンテーションのための新しいフレームワークMEDOEを提案する。
実験の結果,提案フレームワークは,CityscapesとADE20Kデータセットの両方において,現在の手法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 36.03023287593103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-tailed distribution of semantic categories, which has been often ignored
in conventional methods, causes unsatisfactory performance in semantic
segmentation on tail categories. In this paper, we focus on the problem of
long-tailed semantic segmentation. Although some long-tailed recognition
methods (e.g., re-sampling/re-weighting) have been proposed in other problems,
they can probably compromise crucial contextual information and are thus hardly
adaptable to the problem of long-tailed semantic segmentation. To address this
issue, we propose MEDOE, a novel framework for long-tailed semantic
segmentation via contextual information ensemble-and-grouping. The proposed
two-sage framework comprises a multi-expert decoder (MED) and a multi-expert
output ensemble (MOE). Specifically, the MED includes several "experts". Based
on the pixel frequency distribution, each expert takes the dataset masked
according to the specific categories as input and generates contextual
information self-adaptively for classification; The MOE adopts learnable
decision weights for the ensemble of the experts' outputs. As a model-agnostic
framework, our MEDOE can be flexibly and efficiently coupled with various
popular deep neural networks (e.g., DeepLabv3+, OCRNet, and PSPNet) to improve
their performance in long-tailed semantic segmentation. Experimental results
show that the proposed framework outperforms the current methods on both
Cityscapes and ADE20K datasets by up to 1.78% in mIoU and 5.89% in mAcc.
- Abstract(参考訳): 従来の手法では無視されることが多いセマンティックカテゴリの長期分布は、セマンティックセマンティックセマンティクスにおける不満足な性能を引き起こす。
本稿では,長い尾のセマンティックセグメンテーションの問題に焦点を当てる。
いくつかの長い尾の認識法(例:再サンプリング/再重み付け)は他の問題でも提案されているが、重要な文脈情報を妥協することは可能であり、したがって長い尾のセマンティックセマンティックセグメンテーションの問題には適応できない。
そこで本研究では,コンテキスト情報アンサンブル・グループ化による長期的セマンティックセグメンテーションのための新しいフレームワークMEDOEを提案する。
提案手法は,マルチエキスパートデコーダ (med) とマルチエキスパート出力アンサンブル (moe) から構成される。
具体的には、MEDにはいくつかの「専門家」が含まれている。
画素周波数分布に基づいて、各専門家は、特定のカテゴリに従ってマスクされたデータセットを入力として取り、分類のために文脈情報を自己適応的に生成する。
モデルに依存しないフレームワークとして、私たちのMEDOEは、様々な人気のあるディープニューラルネットワーク(例えば、DeepLabv3+、OCRNet、PSPNet)と柔軟かつ効率的に結合して、長い尾のセマンティックセグメンテーションのパフォーマンスを向上させることができる。
実験の結果,提案手法はCityscapesとADE20Kの両方のデータセットにおいて,mIoUが1.78%,mAccが5.89%向上していることがわかった。
関連論文リスト
- Frequency-based Matcher for Long-tailed Semantic Segmentation [22.199174076366003]
我々は、比較的未探索なタスク設定、長い尾のセマンティックセマンティックセグメンテーション(LTSS)に焦点を当てる。
本稿では,セマンティックセグメンテーション手法と長鎖解の性能を示すために,二値評価システムを提案し,LTSSベンチマークを構築した。
また,1対1のマッチングによって過剰な圧縮問題を解決する周波数ベースのマーカであるLTSSを改善するトランスフォーマーベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-06T09:57:56Z) - Universal Segmentation at Arbitrary Granularity with Language
Instruction [59.76130089644841]
言語命令のガイダンスを用いて任意の意味レベルでセグメンテーションを行うことができるユニバーサルセグメンテーションモデルUniLSegを提案する。
UniLSegをトレーニングするために、元の多様な分布から統一されたデータ形式にタスク群を再構成し、セグメンテーションターゲットを入力として記述したテキストと対応するマスクを出力する。
論文 参考訳(メタデータ) (2023-12-04T04:47:48Z) - Inter-Rater Uncertainty Quantification in Medical Image Segmentation via
Rater-Specific Bayesian Neural Networks [7.642026462053574]
医用画像セグメンテーションにおけるレータ間不確実性を推定するための新しいベイズニューラルネットワークアーキテクチャを提案する。
まず,不確実性推定に適したワンエンコーダ・マルチデコーダアーキテクチャを提案する。
次に,新しいアーキテクチャのベイズモデルを提案する。
論文 参考訳(メタデータ) (2023-06-28T20:52:51Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - An Efficient Multi-Scale Fusion Network for 3D Organ at Risk (OAR)
Segmentation [2.6770199357488242]
我々はOARFocalFuseNetと呼ばれる新しいOARセグメンテーションフレームワークを提案する。
マルチスケールの特徴を融合させ、複数のスケールにわたるグローバルローカルコンテキストのキャプチャに焦点変調を用いる。
OARFocalFuseNetはOpenKBPデータセット上で0.7995のダイス係数と5.1435のハウスドルフ距離を得た。
論文 参考訳(メタデータ) (2022-08-15T19:40:18Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - CTNet: Context-based Tandem Network for Semantic Segmentation [77.4337867789772]
本研究では,空間コンテキスト情報とチャネルコンテキスト情報とを対話的に探索し,新しいコンテキストベースタンデムネットワーク(CTNet)を提案する。
セマンティックセグメンテーションのための学習表現の性能をさらに向上するため、2つのコンテキストモジュールの結果を適応的に統合する。
論文 参考訳(メタデータ) (2021-04-20T07:33:11Z) - Three Ways to Improve Semantic Segmentation with Self-Supervised Depth
Estimation [90.87105131054419]
ラベルなし画像列からの自己教師付き単眼深度推定により強化された半教師付きセマンティックセマンティックセマンティックセマンティクスのフレームワークを提案する。
提案されたモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2020-12-19T21:18:03Z) - Boundary-aware Context Neural Network for Medical Image Segmentation [15.585851505721433]
医用画像のセグメンテーションは、さらなる臨床分析と疾患診断のための信頼性の高い基盤を提供することができる。
既存のCNNベースのほとんどの手法は、正確なオブジェクト境界のない不満足なセグメンテーションマスクを生成する。
本稿では,2次元医用画像分割のための境界認識コンテキストニューラルネットワーク(BA-Net)を定式化する。
論文 参考訳(メタデータ) (2020-05-03T02:35:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。