論文の概要: Golden Cudgel Network for Real-Time Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2503.03325v1
- Date: Wed, 05 Mar 2025 09:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:52:07.955554
- Title: Golden Cudgel Network for Real-Time Semantic Segmentation
- Title(参考訳): リアルタイムセマンティックセグメンテーションのためのゴールデンキャッシュネットワーク
- Authors: Guoyu Yang, Yuan Wang, Daming Shi, Yanzhong Wang,
- Abstract要約: リアルタイムセマンティックセグメンテーションのためのGolden Cudgel Network(GCNet)を提案する。
GCNetはトレーニングに垂直のマルチ畳み込みと水平のマルチパスを使用し、推論のために単一の畳み込みにパラメータ化され、パフォーマンスとスピードの両方を最適化する。
実験の結果、GCNetはCityscapes、CamVid、Pascal VOC 2012データセットのパフォーマンスと速度において、既存の最先端モデルよりも優れています。
- 参考スコア(独自算出の注目度): 14.498947204637817
- License:
- Abstract: Recent real-time semantic segmentation models, whether single-branch or multi-branch, achieve good performance and speed. However, their speed is limited by multi-path blocks, and some depend on high-performance teacher models for training. To overcome these issues, we propose Golden Cudgel Network (GCNet). Specifically, GCNet uses vertical multi-convolutions and horizontal multi-paths for training, which are reparameterized into a single convolution for inference, optimizing both performance and speed. This design allows GCNet to self-enlarge during training and self-contract during inference, effectively becoming a "teacher model" without needing external ones. Experimental results show that GCNet outperforms existing state-of-the-art models in terms of performance and speed on the Cityscapes, CamVid, and Pascal VOC 2012 datasets. The code is available at https://github.com/gyyang23/GCNet.
- Abstract(参考訳): 最近のリアルタイムセマンティックセグメンテーションモデルでは、シングルブランチでもマルチブランチでも、優れたパフォーマンスとスピードを実現している。
しかし、その速度はマルチパスブロックによって制限されており、訓練には高性能な教師モデルに依存するものもある。
これらの問題を克服するために,我々はGolden Cudgel Network (GCNet)を提案する。
具体的には、GCNetはトレーニングに垂直のマルチ畳み込みと水平のマルチパスを使用し、推論のために単一の畳み込みに再パラメータ化され、パフォーマンスとスピードの両方を最適化する。
この設計により、GCNetは推論中のトレーニングと自己収縮の間、自己拡張が可能となり、外部のモデルを必要とせずに事実上"教師モデル"になる。
実験の結果、GCNetはCityscapes、CamVid、Pascal VOC 2012データセットのパフォーマンスと速度において、既存の最先端モデルよりも優れています。
コードはhttps://github.com/gyyang23/GCNetで公開されている。
関連論文リスト
- DSNet: A Novel Way to Use Atrous Convolutions in Semantic Segmentation [8.240211805240023]
我々は、現代の畳み込みニューラルネットワーク(CNN)におけるアトラス畳み込みの設計を再考する。
本稿では,モデルアーキテクチャの浅い層にアトラス畳み込みを組み込んだDual-Branch CNNアーキテクチャDSNetを提案する。
私たちのモデルは、ADE20K、Cityscapes、BDDデータセットの正確性とスピードの新たな最先端のトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-06-06T02:51:57Z) - SPPNet: A Single-Point Prompt Network for Nuclei Image Segmentation [6.149725843029721]
核画像分割のためのシングルポイントプロンプトネットワークを提案する。
オリジナル画像エンコーダを軽量な視覚変換器に置き換える。
提案モデルはMoNuSeg-2018データセットで評価される。
論文 参考訳(メタデータ) (2023-08-23T16:13:58Z) - Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。
理論的には、再発と注意の関係を導出する。
言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文 参考訳(メタデータ) (2023-07-17T16:40:01Z) - DistTGL: Distributed Memory-Based Temporal Graph Neural Network Training [18.52206409432894]
DistTGLは、分散GPUクラスタ上でメモリベースのTGNNをトレーニングするための、効率的でスケーラブルなソリューションである。
実験では、DistTGLはほぼ直線収束のスピードアップを実現し、最先端のシングルマシン法を14.5%、トレーニングスループットは10.17倍に向上した。
論文 参考訳(メタデータ) (2023-07-14T22:52:27Z) - Lightweight Real-time Semantic Segmentation Network with Efficient
Transformer and CNN [34.020978009518245]
LETNetと呼ばれる軽量なリアルタイムセマンティックセグメンテーションネットワークを提案する。
LETNetは、U字型のCNNとTransformerをカプセル埋め込みスタイルで効果的に組み合わせ、それぞれの欠陥を補う。
挑戦的なデータセットで実施された実験は、LETNetが精度と効率のバランスにおいて優れたパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-02-21T07:16:53Z) - LegoNet: A Fast and Exact Unlearning Architecture [59.49058450583149]
機械学習は、トレーニングされたモデルから削除された要求に対する特定のトレーニングサンプルの影響を削除することを目的としている。
固定エンコーダ+複数アダプタのフレームワークを採用した新しいネットワークである textitLegoNet を提案する。
我々は、LegoNetが許容できる性能を維持しつつ、高速かつ正確な未学習を実現し、未学習のベースラインを総合的に上回っていることを示す。
論文 参考訳(メタデータ) (2022-10-28T09:53:05Z) - RTFormer: Efficient Design for Real-Time Semantic Segmentation with
Transformer [63.25665813125223]
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。
CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。
主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
論文 参考訳(メタデータ) (2022-10-13T16:03:53Z) - SegNeXt: Rethinking Convolutional Attention Design for Semantic
Segmentation [100.89770978711464]
セマンティックセグメンテーションのための単純な畳み込みネットワークアーキテクチャであるSegNeXtを提案する。
コンボリューションアテンションは、トランスフォーマーの自己認識メカニズムよりも、文脈情報をエンコードするより効率的で効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-09-18T14:33:49Z) - SALA: Soft Assignment Local Aggregation for Parameter Efficient 3D
Semantic Segmentation [65.96170587706148]
3dポイントクラウドセマンティクスセグメンテーションのためのパラメータ効率の良いネットワークを生成するポイントローカルアグリゲーション関数の設計に着目する。
グリッド型アグリゲーション関数における学習可能な隣り合わせソフトアロケーションの利用について検討する。
論文 参考訳(メタデータ) (2020-12-29T20:16:37Z) - Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T21:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。