論文の概要: A Decoding Scheme with Successive Aggregation of Multi-Level Features for Light-Weight Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2402.11201v2
- Date: Fri, 14 Jun 2024 06:48:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 19:02:29.839403
- Title: A Decoding Scheme with Successive Aggregation of Multi-Level Features for Light-Weight Semantic Segmentation
- Title(参考訳): 重み付きセマンティックセマンティックセグメンテーションのための逐次アグリゲーションを用いたデコード方式
- Authors: Jiwon Yoo, Jangwon Lee, Gyeonghwan Kim,
- Abstract要約: セマンティックセグメンテーションのための新しいデコード方式を提案する。
エンコーダからマルチレベルの機能をマルチスケールアーキテクチャで取り出す。
計算コストの削減だけでなく、セグメンテーションの精度の向上も目指している。
- 参考スコア(独自算出の注目度): 4.454210876879237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-scale architecture, including hierarchical vision transformer, has been commonly applied to high-resolution semantic segmentation to deal with computational complexity with minimum performance loss. In this paper, we propose a novel decoding scheme for semantic segmentation in this regard, which takes multi-level features from the encoder with multi-scale architecture. The decoding scheme based on a multi-level vision transformer aims to achieve not only reduced computational expense but also higher segmentation accuracy, by introducing successive cross-attention in aggregation of the multi-level features. Furthermore, a way to enhance the multi-level features by the aggregated semantics is proposed. The effort is focused on maintaining the contextual consistency from the perspective of attention allocation and brings improved performance with significantly lower computational cost. Set of experiments on popular datasets demonstrates superiority of the proposed scheme to the state-of-the-art semantic segmentation models in terms of computational cost without loss of accuracy, and extensive ablation studies prove the effectiveness of ideas proposed.
- Abstract(参考訳): 階層型視覚変換器を含むマルチスケールアーキテクチャは、性能損失を最小限に抑えた計算複雑性を扱うために、高分解能なセマンティックセマンティックセグメンテーションに一般的に応用されている。
本稿では,マルチスケールアーキテクチャを用いたエンコーダのマルチレベル特徴を取り入れた,セマンティックセマンティックセマンティクスのための新しいデコード方式を提案する。
マルチレベル視覚変換器に基づく復号方式は, 計算コストの削減だけでなく, セグメント化精度の向上を目的とし, 多レベル特徴の集約に連続的な相互アテンションを導入する。
さらに,集合的セマンティクスによるマルチレベル特徴の強化手法を提案する。
この取り組みは、注意割当の観点からコンテキスト整合性を維持することに重点を置いており、計算コストを大幅に削減してパフォーマンスを向上させる。
一般的なデータセットに対する実験のセットは、精度を損なうことなく計算コストの観点から、最先端のセマンティックセグメンテーションモデルに対する提案手法の優位性を証明し、広範囲にわたるアブレーション研究は提案されたアイデアの有効性を証明している。
関連論文リスト
- Segformer++: Efficient Token-Merging Strategies for High-Resolution Semantic Segmentation [12.249546377051438]
トークンマージは、画像分類タスクにおける推論速度、トレーニング効率、メモリ利用の大幅な向上を示した。
本稿では,資源制約のあるデバイスやリアルタイムアプリケーションへのトランスフォーマーアーキテクチャの展開を容易にする。
論文 参考訳(メタデータ) (2024-05-23T11:54:27Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - Category Feature Transformer for Semantic Segmentation [34.812688388968525]
CFTは、各アグリゲーションプロセス中の高レベル特徴から、個々のセマンティックカテゴリのための統合された機能埋め込みを学習する。
一般的なセマンティックセグメンテーションベンチマークについて広範な実験を行う。
提案したCFTは、挑戦的なADE20Kデータセット上のモデルパラメータと計算を大幅に削減した、説得力のある55.1% mIoUを得る。
論文 参考訳(メタデータ) (2023-08-10T13:44:54Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - Generalizing Interactive Backpropagating Refinement for Dense Prediction [0.0]
本稿では,G-BRSレイヤの集合を導入し,グローバル・ローカライズド・リファインメントとローカライズド・リファインメントの両立を可能にした。
提案手法は,数クリックで既存の事前訓練された最先端モデルの性能を向上する。
論文 参考訳(メタデータ) (2021-12-21T03:52:08Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - A Holistically-Guided Decoder for Deep Representation Learning with
Applications to Semantic Segmentation and Object Detection [74.88284082187462]
一般的な戦略の1つは、バックボーンネットワークに拡張畳み込みを採用し、高解像度のフィーチャーマップを抽出することです。
本稿では,高分解能なセマンティクスリッチな特徴マップを得るために紹介される,新たなホリスティック誘導デコーダを提案する。
論文 参考訳(メタデータ) (2020-12-18T10:51:49Z) - BiSeNet V2: Bilateral Network with Guided Aggregation for Real-time
Semantic Segmentation [118.46210049742993]
バイラテラル空間ネットワーク(BiSeNet V2)と呼ばれる,速度と精度のトレードオフが良好である効率的なアーキテクチャを提案する。
2,048x1の入力に対して、我々はCityscapesテストセットで72.6%の平均IoUを1つのNVIDIA GeForce 1080 Tiカードで156 FPSで達成した。
論文 参考訳(メタデータ) (2020-04-05T10:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。