論文の概要: Revisiting Efficient Semantic Segmentation: Learning Offsets for Better Spatial and Class Feature Alignment
- arxiv url: http://arxiv.org/abs/2508.08811v1
- Date: Tue, 12 Aug 2025 10:10:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.381807
- Title: Revisiting Efficient Semantic Segmentation: Learning Offsets for Better Spatial and Class Feature Alignment
- Title(参考訳): 効率的なセマンティックセグメンテーションを再考する: 空間的およびクラス的特徴整合性向上のためのオフセット学習
- Authors: Shi-Chen Zhang, Yunheng Li, Yu-Huan Wu, Qibin Hou, Ming-Ming Cheng,
- Abstract要約: 本稿では,クラス表現と空間像の特徴の両方を動的に洗練するために,特徴とクラスオフセットを学習するデュアルブランチオフセット学習パラダイムを提案する。
提案手法に基づいて,効率的なセマンティックセグメンテーションネットワークOffSegを構築した。
ADE20K、Cityscapes、COCO-Stuff-164K、Pascal Contextを含む4つのデータセットの実験は、無視可能なパラメータによる一貫した改善を示している。
- 参考スコア(独自算出の注目度): 67.94226713255732
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Semantic segmentation is fundamental to vision systems requiring pixel-level scene understanding, yet deploying it on resource-constrained devices demands efficient architectures. Although existing methods achieve real-time inference through lightweight designs, we reveal their inherent limitation: misalignment between class representations and image features caused by a per-pixel classification paradigm. With experimental analysis, we find that this paradigm results in a highly challenging assumption for efficient scenarios: Image pixel features should not vary for the same category in different images. To address this dilemma, we propose a coupled dual-branch offset learning paradigm that explicitly learns feature and class offsets to dynamically refine both class representations and spatial image features. Based on the proposed paradigm, we construct an efficient semantic segmentation network, OffSeg. Notably, the offset learning paradigm can be adopted to existing methods with no additional architectural changes. Extensive experiments on four datasets, including ADE20K, Cityscapes, COCO-Stuff-164K, and Pascal Context, demonstrate consistent improvements with negligible parameters. For instance, on the ADE20K dataset, our proposed offset learning paradigm improves SegFormer-B0, SegNeXt-T, and Mask2Former-Tiny by 2.7%, 1.9%, and 2.6% mIoU, respectively, with only 0.1-0.2M additional parameters required.
- Abstract(参考訳): セマンティックセグメンテーションは、ピクセルレベルのシーン理解を必要とする視覚システムの基本であるが、リソース制約のあるデバイスにそれをデプロイするには効率的なアーキテクチャが必要である。
既存の手法は, 軽量な設計によりリアルタイムな推論を実現するが, クラス表現と画素単位の分類パラダイムによる画像特徴の相違という, それら固有の制約を明らかにする。
実験により,このパラダイムは,効率的なシナリオに対する極めて困難な仮定をもたらすことがわかった。
このジレンマに対処するために、クラス表現と空間像の特徴の両方を動的に洗練するために、特徴とクラスオフセットを明確に学習する二重分岐オフセット学習パラダイムを提案する。
提案手法に基づいて,効率的なセマンティックセグメンテーションネットワークOffSegを構築した。
特に、オフセット学習パラダイムは、アーキテクチャの変更を加えることなく、既存のメソッドに適用することができる。
ADE20K、Cityscapes、COCO-Stuff-164K、Pascal Contextを含む4つのデータセットに対する大規模な実験は、無視可能なパラメータによる一貫した改善を示している。
例えば、ADE20Kデータセットでは、SegFormer-B0、SegNeXt-T、Mask2Former-Tinyが2.7%、Mask2Former-Tinyが1.9%、mIoUが2.6%改善された。
関連論文リスト
- SSA-Seg: Semantic and Spatial Adaptive Pixel-level Classifier for Semantic Segmentation [11.176993272867396]
本稿ではセマンティック・空間適応(SSA-Seg)を提案し,セマンティックセグメンテーションの課題に対処する。
具体的には、固定されたプロトタイプから得られた粗いマスクを用いて、テスト画像のセマンティック領域と空間領域の中心に向けて固定されたプロトタイプを調整する。
その結果,提案したSSA-Segは,計算コストを最小限に抑えながら,ベースラインモデルのセグメンテーション性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-10T15:14:23Z) - Learning Invariant Inter-pixel Correlations for Superpixel Generation [12.605604620139497]
学習可能な特徴は、制約付き判別能力を示し、不満足なピクセルグループ化性能をもたらす。
本稿では,不変画素間相関と統計特性を選択的に分離するContentangle Superpixelアルゴリズムを提案する。
4つのベンチマークデータセットの実験結果は、既存の最先端手法に対するアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-02-28T09:46:56Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。
提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。