論文の概要: Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2309.12557v1
- Date: Fri, 22 Sep 2023 01:02:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 16:22:02.057514
- Title: Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation
- Title(参考訳): 半監督セマンティックセグメンテーションのためのトリプルビュー知識蒸留
- Authors: Ping Li and Junjie Chen and Li Yuan and Xianghua Xu and Mingli Song
- Abstract要約: 半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
- 参考スコア(独自算出の注目度): 54.23510028456082
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: To alleviate the expensive human labeling, semi-supervised semantic
segmentation employs a few labeled images and an abundant of unlabeled images
to predict the pixel-level label map with the same size. Previous methods often
adopt co-training using two convolutional networks with the same architecture
but different initialization, which fails to capture the sufficiently diverse
features. This motivates us to use tri-training and develop the triple-view
encoder to utilize the encoders with different architectures to derive diverse
features, and exploit the knowledge distillation skill to learn the
complementary semantics among these encoders. Moreover, existing methods simply
concatenate the features from both encoder and decoder, resulting in redundant
features that require large memory cost. This inspires us to devise a
dual-frequency decoder that selects those important features by projecting the
features from the spatial domain to the frequency domain, where the
dual-frequency channel attention mechanism is introduced to model the feature
importance. Therefore, we propose a Triple-view Knowledge Distillation
framework, termed TriKD, for semi-supervised semantic segmentation, including
the triple-view encoder and the dual-frequency decoder. Extensive experiments
were conducted on two benchmarks, \ie, Pascal VOC 2012 and Cityscapes, whose
results verify the superiority of the proposed method with a good tradeoff
between precision and inference speed.
- Abstract(参考訳): 高価な人間のラベル付けを緩和するため、半教師付きセマンティックセグメンテーションでは、いくつかのラベル付き画像と多くのラベルなし画像を用いて、同じ大きさのピクセルレベルのラベルマップを予測する。
従来の手法では、同じアーキテクチャを持つ2つの畳み込みネットワークを用いたコトレーニングを採用するが、初期化は異なる。
これにより、三重学習を用いて、異なるアーキテクチャのエンコーダを使用して多様な特徴を導き、知識蒸留技術を利用して、それらのエンコーダ間の相補的意味学を学ぶことができる。
さらに、既存のメソッドは、エンコーダとデコーダの両方から機能を結合するだけで、メモリコストが大きい冗長な機能を実現できる。
これにより、空間領域から周波数領域へ特徴を投影することで重要な特徴を選択するデュアル周波数デコーダを考案し、その特徴をモデル化するためのデュアル周波数チャネルアテンション機構を導入する。
そこで,我々は,トリプルビューエンコーダとデュアル周波数デコーダを含む半教師付き意味セグメンテーションのための三重ビュー知識蒸留フレームワークtrikdを提案する。
提案手法の精度と推定速度のトレードオフを良好に保ちながら, 提案手法の優位性を検証した, 2つのベンチマーク, \ie, Pascal VOC 2012, Cityscapes を用いて実験を行った。
関連論文リスト
- A Simple Baseline with Single-encoder for Referring Image Segmentation [14.461024566536478]
本稿では,単一エンコーダ(BEiT-3)を用いたRIS法を提案する。
単一エンコーダによる単純なベースラインは、RISベンチマークデータセット上で優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-28T04:14:01Z) - 4D ASR: Joint Beam Search Integrating CTC, Attention, Transducer, and Mask Predict Decoders [53.297697898510194]
我々は、4つのデコーダが同一のエンコーダを共有する共同モデリング手法を提案し、これを4Dモデリングと呼ぶ。
4Dモデルを効率的に訓練するために,マルチタスク学習を安定化させる2段階のトレーニング戦略を導入する。
さらに,3つのデコーダを組み合わせることで,新しい1パスビーム探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T05:18:20Z) - Scribble-based 3D Multiple Abdominal Organ Segmentation via
Triple-branch Multi-dilated Network with Pixel- and Class-wise Consistency [20.371144313009122]
そこで本研究では,CTからスクリブル制御された多発性腹部臓器分節に対する2つの整合性制約を有する新しい3Dフレームワークを提案する。
より安定した教師なし学習のために、voxel-wiseの不確実性を用いて、ソフトな擬似ラベルを修正し、各デコーダの出力を監督する。
公開WORDデータセットの実験により,本手法は既存の5つのスクリブル教師付き手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-09-18T12:50:58Z) - Towards Complex Backgrounds: A Unified Difference-Aware Decoder for
Binary Segmentation [4.6932442139663015]
本稿では、差分認識デコーダと呼ばれる新しい統合二重分岐デコーダパラダイムを提案する。
差分認識デコーダは、エンコーダによって出力されるマルチレベル特徴を用いて、人間の目を3段階に模倣する。
その結果、差認識デコーダは、他の最先端のバイナリセグメンテーション手法よりも高い精度で実現できることを示した。
論文 参考訳(メタデータ) (2022-10-27T03:45:29Z) - LoopITR: Combining Dual and Cross Encoder Architectures for Image-Text
Retrieval [117.15862403330121]
共同学習のためのネットワークにおいて,デュアルエンコーダとクロスエンコーダを組み合わせたLoopITRを提案する。
具体的には、二重エンコーダをクロスエンコーダに強陰性を与え、より識別性の高いクロスエンコーダを用いてその予測を二重エンコーダに戻す。
論文 参考訳(メタデータ) (2022-03-10T16:41:12Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - Crosslink-Net: Double-branch Encoder Segmentation Network via Fusing
Vertical and Horizontal Convolutions [58.71117402626524]
医用画像分割のための新しいダブルブランチエンコーダアーキテクチャを提案する。
1)正方形畳み込みカーネルによる特徴の識別をさらに改善する必要があるため,非正方形および水平畳み込みカーネルの利用を提案する。
実験では,4つのデータセット上でのモデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-24T02:58:32Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。