論文の概要: The revenge of BiSeNet: Efficient Multi-Task Image Segmentation
- arxiv url: http://arxiv.org/abs/2404.09570v1
- Date: Mon, 15 Apr 2024 08:32:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 13:00:02.002225
- Title: The revenge of BiSeNet: Efficient Multi-Task Image Segmentation
- Title(参考訳): BiSeNetの復讐: 効率的なマルチタスクイメージセグメンテーション
- Authors: Gabriele Rosi, Claudia Cuttano, Niccolò Cavagnero, Giuseppe Averta, Fabio Cermelli,
- Abstract要約: BiSeNetFormerは、効率的なマルチタスク画像セグメンテーションのための新しいアーキテクチャである。
複数のタスクをシームレスにサポートすることで、BiSeNetFormerはマルチタスクセグメンテーションのための汎用的なソリューションを提供する。
以上の結果から, BiSeNetFormerは高速, 効率的, マルチタスクセグメンテーションネットワークへの大きな進歩を示していることが示唆された。
- 参考スコア(独自算出の注目度): 6.172605433695617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in image segmentation have focused on enhancing the efficiency of the models to meet the demands of real-time applications, especially on edge devices. However, existing research has primarily concentrated on single-task settings, especially on semantic segmentation, leading to redundant efforts and specialized architectures for different tasks. To address this limitation, we propose a novel architecture for efficient multi-task image segmentation, capable of handling various segmentation tasks without sacrificing efficiency or accuracy. We introduce BiSeNetFormer, that leverages the efficiency of two-stream semantic segmentation architectures and it extends them into a mask classification framework. Our approach maintains the efficient spatial and context paths to capture detailed and semantic information, respectively, while leveraging an efficient transformed-based segmentation head that computes the binary masks and class probabilities. By seamlessly supporting multiple tasks, namely semantic and panoptic segmentation, BiSeNetFormer offers a versatile solution for multi-task segmentation. We evaluate our approach on popular datasets, Cityscapes and ADE20K, demonstrating impressive inference speeds while maintaining competitive accuracy compared to state-of-the-art architectures. Our results indicate that BiSeNetFormer represents a significant advancement towards fast, efficient, and multi-task segmentation networks, bridging the gap between model efficiency and task adaptability.
- Abstract(参考訳): 画像セグメント化の最近の進歩は、特にエッジデバイスにおけるリアルタイムアプリケーションのニーズを満たすために、モデルの効率を向上させることに重点を置いている。
しかし、既存の研究は主にシングルタスク設定、特にセマンティックセグメンテーションに集中しており、冗長な取り組みと異なるタスクのための特殊なアーキテクチャにつながっている。
この制限に対処するために、効率や精度を犠牲にすることなく、様々なセグメンテーションタスクを処理できる、効率的なマルチタスク画像セグメンテーションのための新しいアーキテクチャを提案する。
本稿では,2ストリームセマンティックセグメンテーションアーキテクチャの効率性を活用したBiSeNetFormerを紹介し,それをマスク分類フレームワークに拡張する。
提案手法は,2次マスクとクラス確率を演算する効率的な変換型セグメンテーションヘッドを活用しながら,詳細情報と意味情報を捕捉するための効率的な空間パスとコンテキストパスを維持している。
BiSeNetFormerは、セマンティックとパン光学セグメンテーションという複数のタスクをシームレスにサポートすることによって、マルチタスクセグメンテーションのための汎用的なソリューションを提供する。
我々は、一般的なデータセットであるCityscapesとADE20Kに対するアプローチを評価し、最先端のアーキテクチャと比較して競争精度を維持しながら、印象的な推論速度を示した。
この結果から, BiSeNetFormerは高速, 効率的, マルチタスクセグメンテーションネットワークへの大幅な進歩を示し, モデル効率とタスク適応性のギャップを埋めることが示唆された。
関連論文リスト
- TraceNet: Segment one thing efficiently [12.621208412232733]
本稿では,ユーザが選択した単一インスタンスを肯定的なタップで分割する,ワンタップ駆動の単一インスタンスセグメンテーションタスクを提案する。
選択したインスタンスを受容的フィールドトレースによって明示的に特定するTraceNetを提案する。
我々は、例えばIoU平均におけるTraceNetの性能と、ユーザーがタップした領域の比率を、高品質なシングルインスタンスマスクで評価する。
論文 参考訳(メタデータ) (2024-06-21T05:46:46Z) - PEM: Prototype-based Efficient MaskFormer for Image Segmentation [10.795762739721294]
最近のトランスベースのアーキテクチャは、画像セグメンテーションの分野で印象的な成果を上げている。
複数のセグメンテーションタスクで動作可能な効率的なトランスフォーマーベースのアーキテクチャであるPEM(Prototype-based Efficient MaskFormer)を提案する。
論文 参考訳(メタデータ) (2024-02-29T18:21:54Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - Masked Supervised Learning for Semantic Segmentation [5.177947445379688]
Masked Supervised Learning (MaskSup)は、短いコンテキストと長距離コンテキストの両方をモデル化する効果的なシングルステージ学習パラダイムである。
提案手法は計算効率が良く,平均交叉和(mIoU)において10%向上することを示す。
論文 参考訳(メタデータ) (2022-10-03T13:30:19Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised
Semantic Segmentation [88.49669148290306]
そこで我々はAuxSegNetと呼ばれる弱教師付きマルチタスク・フレームワークを提案し,サリエンシ検出とマルチラベル画像分類を補助タスクとして活用する。
同様の構造的セマンティクスに着想を得て,サリエンシとセグメンテーションの表現から,クロスタスクなグローバル画素レベルの親和性マップを学習することを提案する。
学習されたクロスタスク親和性は、両方のタスクに対して改善された擬似ラベルを提供するために、唾液度予測を洗練し、CAMマップを伝播するために使用することができる。
論文 参考訳(メタデータ) (2021-07-25T11:39:58Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Multi-task GANs for Semantic Segmentation and Depth Completion with
Cycle Consistency [7.273142068778457]
本稿では, セマンティックセグメンテーションと深度補完に優れたマルチタスク生成対向ネットワーク(Multi-task GANs)を提案する。
本稿では,マルチスケール空間プーリングブロックと構造的類似性復元損失を導入することにより,CycleGANに基づく生成セマンティック画像の詳細を改善する。
CityscapesデータセットとKITTI深度補完ベンチマークの実験は、マルチタスクGANが競合性能を達成することができることを示している。
論文 参考訳(メタデータ) (2020-11-29T04:12:16Z) - BiSeNet V2: Bilateral Network with Guided Aggregation for Real-time
Semantic Segmentation [118.46210049742993]
バイラテラル空間ネットワーク(BiSeNet V2)と呼ばれる,速度と精度のトレードオフが良好である効率的なアーキテクチャを提案する。
2,048x1の入力に対して、我々はCityscapesテストセットで72.6%の平均IoUを1つのNVIDIA GeForce 1080 Tiカードで156 FPSで達成した。
論文 参考訳(メタデータ) (2020-04-05T10:26:38Z) - CRNet: Cross-Reference Networks for Few-Shot Segmentation [59.85183776573642]
少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。
相互参照機構により、我々のネットワークは2つの画像に共起する物体をよりよく見つけることができる。
PASCAL VOC 2012データセットの実験は、我々のネットワークが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2020-03-24T04:55:43Z) - EPSNet: Efficient Panoptic Segmentation Network with Cross-layer
Attention Fusion [5.815742965809424]
高速な推論速度でパノプティカルセグメンテーションタスクに取り組むために,EPSNet(Efficient Panoptic Network)を提案する。
基本的に、EPSNetはプロトタイプマスクとマスク係数の単純な線形結合に基づいてマスクを生成する。
共有プロトタイプの品質を高めるために,我々は"クロスレイヤーアテンション融合モジュール"と呼ばれるモジュールを採用した。
論文 参考訳(メタデータ) (2020-03-23T09:11:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。