論文の概要: Semantic Segmentation by Early Region Proxy
- arxiv url: http://arxiv.org/abs/2203.14043v1
- Date: Sat, 26 Mar 2022 10:48:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 14:40:38.336888
- Title: Semantic Segmentation by Early Region Proxy
- Title(参考訳): 早期領域プロキシによるセマンティックセグメンテーション
- Authors: Yifan Zhang, Bo Pang, Cewu Lu
- Abstract要約: 本稿では,学習可能な領域のテッセルレーションとしてイメージを解釈することから始まる,新規で効率的なモデリングについて述べる。
領域のコンテキストをモデル化するために,Transformerを用いてシーケンス・ツー・シーケンス方式で領域を符号化する。
現在、符号化された領域埋め込みの上に、領域ごとのセマンティックセグメンテーションを行う。
- 参考スコア(独自算出の注目度): 53.594035639400616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Typical vision backbones manipulate structured features. As a compromise,
semantic segmentation has long been modeled as per-point prediction on dense
regular grids. In this work, we present a novel and efficient modeling that
starts from interpreting the image as a tessellation of learnable regions, each
of which has flexible geometrics and carries homogeneous semantics. To model
region-wise context, we exploit Transformer to encode regions in a
sequence-to-sequence manner by applying multi-layer self-attention on the
region embeddings, which serve as proxies of specific regions. Semantic
segmentation is now carried out as per-region prediction on top of the encoded
region embeddings using a single linear classifier, where a decoder is no
longer needed. The proposed RegProxy model discards the common Cartesian
feature layout and operates purely at region level. Hence, it exhibits the most
competitive performance-efficiency trade-off compared with the conventional
dense prediction methods. For example, on ADE20K, the small-sized RegProxy-S/16
outperforms the best CNN model using 25% parameters and 4% computation, while
the largest RegProxy-L/16 achieves 52.9mIoU which outperforms the
state-of-the-art by 2.1% with fewer resources. Codes and models are available
at https://github.com/YiF-Zhang/RegionProxy.
- Abstract(参考訳): 典型的な視覚バックボーンは構造化された特徴を操作する。
妥協として、セマンティックセグメンテーションは、密集した正規格子上の点ごとの予測として長い間モデル化されてきた。
本稿では,イメージを学習可能な領域のテッセレーションとして解釈することから始まり,それぞれが柔軟な幾何学的特徴を持ち,均質な意味論を持つ,新しい効率的なモデリングを提案する。
領域毎のコンテキストをモデル化するために、トランスフォーマは、特定の領域のプロキシとして機能する領域埋め込みに多層自己アテンションを適用することにより、シーケンシャル・ツー・シーケンス方式で領域をエンコードする。
現在、デコーダが不要な単一線形分類器を用いて、エンコードされた領域埋め込みの上の領域ごとのセマンティックセグメンテーションが実施されている。
提案するregproxyモデルは,共通デカルト特徴レイアウトを破棄し,純粋に領域レベルで動作させる。
したがって、従来の高密度予測法と比較して、最も競争力のある性能効率トレードオフを示す。
例えばADE20Kでは、小さなRegProxy-S/16が25%のパラメータと4%の計算で最高のCNNモデルより優れており、最大のRegProxy-L/16は52.9mIoUを達成し、より少ないリソースで2.1%向上している。
コードとモデルはhttps://github.com/yif-zhang/regionproxyで入手できる。
関連論文リスト
- Differentiable Reasoning about Knowledge Graphs with Region-based Graph Neural Networks [62.93577376960498]
知識グラフ(KG)の完成法は、意味的正則性を捕捉し、これらの正則性を用いて、明示的に記述されていない妥当な知識を推測する必要がある。
ほとんどの埋め込みベースの手法はキャプチャ可能な正規性には不透明であるが、領域ベースのKG埋め込みモデルはより透明な代替手段として現れている。
命令制約に基づくシンプルなモデルであるRESHUFFLEを提案し、既存のアプローチよりもはるかに大きなルールベースを忠実に捉えることができる。
論文 参考訳(メタデータ) (2024-06-13T18:37:24Z) - Adaptive Region Selection for Active Learning in Whole Slide Image
Semantic Segmentation [3.1392713791311766]
リージョンベースアクティブラーニング(AL)では、限られた数の注釈付き画像領域でモデルをトレーニングする。
本稿では,このALハイパーパラメータに依存しないアノテーション領域を適応的に選択する手法を提案する。
CAMELYON16データセットを用いた乳癌セグメンテーションの課題を用いて本手法の評価を行った。
論文 参考訳(メタデータ) (2023-07-14T05:34:13Z) - Region-Enhanced Feature Learning for Scene Semantic Segmentation [19.20735517821943]
計算負担を軽減するために,細粒度点やボクセルの代わりに点雲の中間表現として領域を用いることを提案する。
本研究では,セマンティック空間領域抽出段階と領域依存モデリング段階からなるRFEモジュールを設計する。
我々のREFL-NetはScanNetV2で1.8% mIoUゲイン、S3DISデータセットで1.7% mIoUゲインを無視可能な計算コストで達成している。
論文 参考訳(メタデータ) (2023-04-15T06:35:06Z) - Semantic Diffusion Network for Semantic Segmentation [1.933681537640272]
セマンティック境界認識を強化する演算子レベルのアプローチを導入する。
意味拡散ネットワーク(SDN)と呼ばれる新しい学習可能なアプローチを提案する。
我々のSDNは、元の機能からクラス間境界強化機能への微分可能なマッピングを構築することを目的としています。
論文 参考訳(メタデータ) (2023-02-04T01:39:16Z) - Dense Siamese Network [86.23741104851383]
本稿では,Dense Siamese Network(DenseSiam)を提案する。
画像の2つのビュー間の類似性を最大化し、ピクセルの一貫性と領域の一貫性という2種類の一貫性を学習する。
最先端のセグメンテーション手法を2.1 mIoUで28%のトレーニングコストで上回っている。
論文 参考訳(メタデータ) (2022-03-21T15:55:23Z) - Region-Based Semantic Factorization in GANs [67.90498535507106]
本稿では,任意の画像領域についてGAN(Generative Adversarial Networks)が学習した潜在意味を分解するアルゴリズムを提案する。
適切に定義された一般化されたレイリー商を通して、アノテーションや訓練なしにそのような問題を解く。
様々な最先端のGANモデルに対する実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-02-19T17:46:02Z) - Consistency-Regularized Region-Growing Network for Semantic Segmentation
of Urban Scenes with Point-Level Annotations [17.13291434132985]
アノテーションの負担を軽減するために,整合性規則化領域成長ネットワーク(CRGNet)を提案する。
CRGNetは、アノテート領域を元のスパースポイントから拡張するために、信頼度の高いラベル付き画素を反復的に選択する。
このような単純な正規化戦略は、領域の成長するメカニズムの品質を制御するのに非常に有用である。
論文 参考訳(メタデータ) (2022-02-08T09:27:01Z) - Global Aggregation then Local Distribution for Scene Parsing [99.1095068574454]
提案手法は,エンドツーエンドのトレーニング可能なブロックとしてモジュール化され,既存のセマンティックセグメンテーションネットワークに容易に接続可能であることを示す。
私たちのアプローチでは、Cityscapes、ADE20K、Pascal Context、Camvid、COCO-stuffといった主要なセマンティックセグメンテーションベンチマークに基づいて、新しい最先端の技術を構築できます。
論文 参考訳(メタデータ) (2021-07-28T03:46:57Z) - Boundary-assisted Region Proposal Networks for Nucleus Segmentation [89.69059532088129]
大量の核が混在しているため、機械学習モデルはうまく機能しない。
我々は、堅牢なインスタンスレベルの核分割を実現する境界支援領域提案ネットワーク(BRP-Net)を考案する。
論文 参考訳(メタデータ) (2020-06-04T08:26:38Z) - FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution [14.226301825772174]
Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。
これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
論文 参考訳(メタデータ) (2020-03-09T03:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。