論文の概要: FBNet: Feature Balance Network for Urban-Scene Segmentation
- arxiv url: http://arxiv.org/abs/2111.03286v1
- Date: Fri, 5 Nov 2021 06:27:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-08 15:08:09.600669
- Title: FBNet: Feature Balance Network for Urban-Scene Segmentation
- Title(参考訳): FBNet:都市シーンセグメンテーションのための特徴バランスネットワーク
- Authors: Lei Gan, Huabin Huang, Banghuai Li, Ye Yuan
- Abstract要約: 都市・シーンのセグメンテーションにおける特徴カモフラージュを排除するために,FBNet(Feature Balance Network)と呼ばれる新しいアドオンモジュールを提案する。
FBNetは2つのキーコンポーネント、すなわちBlock-wise BCE(BwBCE)とDual Feature Modulator(DFM)で構成されている。
提案手法は,都市景観とBDD100Kの2つの挑戦的な都市景観ベンチマークにおいて,最先端のセグメンテーション性能を実現する。
- 参考スコア(独自算出の注目度): 7.769094451908574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image segmentation in the urban scene has recently attracted much attention
due to its success in autonomous driving systems. However, the poor performance
of concerned foreground targets, e.g., traffic lights and poles, still limits
its further practical applications. In urban scenes, foreground targets are
always concealed in their surrounding stuff because of the special camera
position and 3D perspective projection. What's worse, it exacerbates the
unbalance between foreground and background classes in high-level features due
to the continuous expansion of the reception field. We call it Feature
Camouflage. In this paper, we present a novel add-on module, named Feature
Balance Network (FBNet), to eliminate the feature camouflage in urban-scene
segmentation. FBNet consists of two key components, i.e., Block-wise BCE(BwBCE)
and Dual Feature Modulator(DFM). BwBCE serves as an auxiliary loss to ensure
uniform gradients for foreground classes and their surroundings during
backpropagation. At the same time, DFM intends to enhance the deep
representation of foreground classes in high-level features adaptively under
the supervision of BwBCE. These two modules facilitate each other as a whole to
ease feature camouflage effectively. Our proposed method achieves a new
state-of-the-art segmentation performance on two challenging urban-scene
benchmarks, i.e., Cityscapes and BDD100K. Code will be released for
reproduction.
- Abstract(参考訳): 都市景観におけるイメージセグメンテーションは, 自動運転システムの成功により近年注目されている。
しかし、例えば交通信号や電柱など、懸念される前景目標の性能の低下は、そのさらなる実用的応用を制限している。
都市のシーンでは、特別なカメラの位置と3D視点投影のため、前景のターゲットは常に周囲の物に隠されている。
さらに悪いことに、受信フィールドの連続的な拡張により、フォアグラウンドとバックグラウンドクラスの高レベルな特徴のバランスが悪化します。
これをFeature Camouflageと呼びます。
本稿では,都市間セグメンテーションにおける特徴カモフラージュをなくすために,機能バランスネットワーク(fbnet)と呼ばれる新しいアドオンモジュールを提案する。
FBNetはBlock-wise BCE(BwBCE)とDual Feature Modulator(DFM)の2つの重要なコンポーネントで構成されている。
BwBCEは、バックプロパゲーション中に前景や周囲の均一な勾配を確保する補助的損失として機能する。
同時に、dfmはbwbceの監督下で、高レベル特徴における前景クラスの深い表現を適応的に強化することを意図している。
これら2つのモジュールは、機能カモフラージュを効果的に容易にするために、全体として相互に役立ちます。
提案手法は,都市景観とBDD100Kの2つの挑戦的な都市景観ベンチマークにおいて,最先端のセグメンテーション性能を実現する。
コードは再生のためにリリースされます。
関連論文リスト
- DVPE: Divided View Position Embedding for Multi-View 3D Object Detection [7.791229698270439]
現在の研究は、受容場間のバランスと、多視点の特徴を集約する際の干渉を減らすことの課題に直面している。
本稿では,視覚的クロスアテンション機構を通じて特徴を世界規模でモデル化する分割ビュー手法を提案する。
我々のフレームワークはDVPEと呼ばれ、nuScenesテストセット上で最先端のパフォーマンス(57.2% mAPと64.5% NDS)を達成する。
論文 参考訳(メタデータ) (2024-07-24T02:44:41Z) - Unifying Global and Local Scene Entities Modelling for Precise Action Spotting [5.474440128682843]
本稿では,アダプティブ・アテンション・メカニズムを用いてシーン・エンティティを解析・モデル化する手法を提案する。
我々のモデルは優れたパフォーマンスを示しており、サッカーネットv2アクションスポッティング、ファインディビング、ファインジムの課題において、第1位を確保している。
論文 参考訳(メタデータ) (2024-04-15T17:24:57Z) - 2D Feature Distillation for Weakly- and Semi-Supervised 3D Semantic
Segmentation [92.17700318483745]
合成訓練された2Dセマンティックセマンティックセグメンテーションネットワークから高レベル特徴情報を蒸留するアイデアに基づく画像誘導ネットワーク(IGNet)を提案する。
IGNetは、ScribbleKITTI上の弱い教師付きLiDARセマンティックセマンティックセグメンテーションの最先端の結果を達成し、8%のラベル付きポイントしか持たない完全な教師付きトレーニングに対して最大98%のパフォーマンスを誇っている。
論文 参考訳(メタデータ) (2023-11-27T07:57:29Z) - BlobGAN: Spatially Disentangled Scene Representations [67.60387150586375]
本研究では,シーン生成モデルのための教師なし中間レベル表現を提案する。
この表現は、ピクセル単位でもイメージ単位でもなく、むしろ空間的に、奥行き順に並べられた特徴の「ブロブ」の集合としてモデル化されている。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z) - Location-Free Camouflage Generation Network [82.74353843283407]
カモフラージュ(Camouflage)は一般的な視覚現象で、前景の物体を背景のイメージに隠すことで、人間の目からは一時的に見えなくなる。
本稿では,前景と背景像の高次特徴を融合させ,一つの推論によって結果を生成する,ロケーションフリーなカモフラージュ生成ネットワーク(LCG-Net)を提案する。
実験により,本手法は単一外観領域における最先端技術と同程度に良好であり,完全に見えない可能性が低いが,多外観領域における最先端技術の品質をはるかに上回っていることが示された。
論文 参考訳(メタデータ) (2022-03-18T10:33:40Z) - Structured Bird's-Eye-View Traffic Scene Understanding from Onboard
Images [128.881857704338]
本研究では,BEV座標における局所道路網を表す有向グラフを,単眼カメラ画像から抽出する問題について検討する。
提案手法は,BEV平面上の動的物体を検出するために拡張可能であることを示す。
我々は、強力なベースラインに対するアプローチを検証するとともに、ネットワークが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-10-05T12:40:33Z) - F2Net: Learning to Focus on the Foreground for Unsupervised Video Object
Segmentation [61.74261802856947]
本研究では,フォアグラウンド・ネットワーク(F2Net)について,フォアグラウンド・オブジェクトのイントラ・フレームの詳細について考察する。
提案するネットワークは,Siamese Module,Center Guiding Outearance Diffusion Module,Dynamic Information Fusion Moduleの3つの主要部分から構成される。
DAVIS2016、Youtube-object、FBMSデータセットの実験から、提案したF2Netは最先端のパフォーマンスを実現し、大幅な改善を実現している。
論文 参考訳(メタデータ) (2020-12-04T11:30:50Z) - Dense Attention Fluid Network for Salient Object Detection in Optical
Remote Sensing Images [193.77450545067967]
光リモートセンシング画像(RSI)における有意物体検出のためのエンド・ツー・エンドDense Attention Fluid Network(DAFNet)を提案する。
GCA(Global Context-Aware Attention)モジュールは、長距離の意味的関係を適応的にキャプチャするために提案される。
我々は、2000枚の画像とピクセルワイドなサリエンシアノテーションを含むSODのための新しい、挑戦的な光学RSIデータセットを構築した。
論文 参考訳(メタデータ) (2020-11-26T06:14:10Z) - Cars Can't Fly up in the Sky: Improving Urban-Scene Segmentation via
Height-driven Attention Networks [32.01932474622993]
本稿では,都市景観画像の本質的な特徴を活かし,ハイトドリブンアテンションネットワーク(HANet)と呼ばれる汎用アドオンモジュールを提案する。
画素の垂直位置に応じて情報的特徴やクラスを選択的に強調する。
提案手法は,ResNet-101をベースとしたセグメンテーションモデルにおいて,Cityscapesベンチマークにおける新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T06:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。