論文の概要: Fast and Accurate Scene Parsing via Bi-direction Alignment Networks
- arxiv url: http://arxiv.org/abs/2105.11651v1
- Date: Tue, 25 May 2021 04:04:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-27 03:37:45.905149
- Title: Fast and Accurate Scene Parsing via Bi-direction Alignment Networks
- Title(参考訳): 双方向アライメントネットワークによる高速かつ正確なシーン解析
- Authors: Yanran Wu, Xiangtai Li, Chen Shi, Yunhai Tong, Yang Hua, Tao Song,
Ruhui Ma, Haibing Guan
- Abstract要約: 双方向アライメントネットワーク(BiAlignNet)と呼ばれる,高速かつ高精度なシーン解析手法を提案する。
本手法は,30FPSでフル解像度入力を行い,80.1%,78.5%mIoUの検証およびテストセットを実現する。
- 参考スコア(独自算出の注目度): 29.428040803320652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose an effective method for fast and accurate scene
parsing called Bidirectional Alignment Network (BiAlignNet). Previously, one
representative work BiSeNet~\cite{bisenet} uses two different paths (Context
Path and Spatial Path) to achieve balanced learning of semantics and details,
respectively. However, the relationship between the two paths is not well
explored. We argue that both paths can benefit each other in a complementary
way. Motivated by this, we propose a novel network by aligning two-path
information into each other through a learned flow field. To avoid the noise
and semantic gaps, we introduce a Gated Flow Alignment Module to align both
features in a bidirectional way. Moreover, to make the Spatial Path learn more
detailed information, we present an edge-guided hard pixel mining loss to
supervise the aligned learning process. Our method achieves 80.1\% and 78.5\%
mIoU in validation and test set of Cityscapes while running at 30 FPS with full
resolution inputs. Code and models will be available at
\url{https://github.com/jojacola/BiAlignNet}.
- Abstract(参考訳): 本論文では,双方向アライメントネットワーク(bialignnet)と呼ばれる,高速かつ高精度なシーン解析手法を提案する。
以前は、bisenet~\cite{bisenet}が2つの異なる経路(コンテキストパスと空間パス)を使用して、それぞれ意味と詳細のバランスのとれた学習を実現していた。
しかし、この2つの経路の関係はよく調べられていない。
両方のパスが相補的な方法で相互に利益をもたらすと我々は主張する。
そこで我々は,学習フロー場を通じて2経路情報を相互にアライメントすることで,新たなネットワークを提案する。
ノイズやセマンティクスのギャップを避けるために,両特徴を双方向にアライメントするゲート型フローアライメントモジュールを導入する。
さらに,空間経路がより詳細な情報を知るために,エッジガイド付きハードピクセルマイニング損失を提示し,アライメント学習プロセスを監督する。
本手法は,30FPSでフル解像度入力を行いながら,都市景観の検証とテストにおいて 80.1\% と 78.5\% mIoU を達成する。
コードとモデルは \url{https://github.com/jojacola/BiAlignNet} で入手できる。
関連論文リスト
- Grid and Road Expressions Are Complementary for Trajectory Representation Learning [40.94269411061165]
トラジェクトリ表現学習(TRL)は、多くの下流タスクに使用できるベクトルにトラジェクトリをマッピングする。
既存のTRL法では、グリッドトラジェクトリ、自由空間における移動のキャプチャー、道路トラジェクトリ、道路ネットワークにおける移動のキャプチャーのいずれかを入力として使用する。
GREENと呼ばれる新しいマルチモーダルTRL手法を提案する。
論文 参考訳(メタデータ) (2024-11-22T07:15:46Z) - Path-LLM: A Shortest-Path-based LLM Learning for Unified Graph Representation [6.401420962078335]
統一グラフ表現を学習するための新しいパス-LLMモデルを提案する。
まず,長短経路(L2SP)選択のための新しいメカニズムを提案する。
そして、L2SPベースのトレーニングテキストを得るために経路テキスト化を設計する。
次に,テキストを自己教師型LLM学習プロセスに入力し,埋め込み学習を行う。
論文 参考訳(メタデータ) (2024-08-10T06:35:11Z) - Image Captioning via Dynamic Path Customization [100.15412641586525]
画像キャプションのための新しい動的トランスフォーマーネットワーク(DTNet)を提案する。
提案するDTNetの有効性を検証するため,MS-COCOデータセットの広範な実験を行い,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-01T07:23:21Z) - Graph-based Topology Reasoning for Driving Scenes [102.35885039110057]
TopoNetは、従来の知覚タスクを超えてトラフィック知識を抽象化できる最初のエンドツーエンドフレームワークである。
TopoNetを,難解なシーン理解ベンチマークOpenLane-V2で評価した。
論文 参考訳(メタデータ) (2023-04-11T15:23:29Z) - DPTNet: A Dual-Path Transformer Architecture for Scene Text Detection [34.42038300372715]
我々は,シーンテキスト検出タスクのグローバルおよびローカル情報をモデル化する,シンプルで効果的なアーキテクチャであるDPTNetを提案する。
本稿では,コンボリューションネットワークと強力な自己認識機構を統合した並列設計を提案し,注目経路と畳み込み経路の相補的な手がかりを提供する。
我々のDPTNetはMSRA-TD500データセットの最先端結果を実現し、検出精度と速度の両面で他の標準ベンチマーク上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-08-21T12:58:45Z) - DecoupleNet: Decoupled Network for Domain Adaptive Semantic Segmentation [78.30720731968135]
セマンティックセグメンテーションにおける教師なしドメイン適応は、高価なピクセル単位のアノテーションへの依存を軽減するために提起されている。
我々は、ソースドメインのオーバーフィットを軽減し、最終的なモデルをセグメント化タスクに集中できるようにするDecoupleNetを提案する。
我々はまた、自己識別(SD)を推進し、擬似ラベルでより識別可能なターゲットドメイン特徴を学習するための補助分類器を導入した。
論文 参考訳(メタデータ) (2022-07-20T15:47:34Z) - Scribble-based Weakly Supervised Deep Learning for Road Surface
Extraction from Remote Sensing Images [7.1577508803778045]
そこで我々は,ScRoadExtractor という,スクリブルに基づく弱制御路面抽出手法を提案する。
スパーススクリブルからラベルなし画素への意味情報を伝達するために,道路ラベルの伝搬アルゴリズムを導入する。
道路ラベル伝搬アルゴリズムから生成された提案マスクを用いて、デュアルブランチエンコーダデコーダネットワークを訓練する。
論文 参考訳(メタデータ) (2020-10-25T12:40:30Z) - RANSAC-Flow: generic two-stage image alignment [53.11926395028508]
単純な教師なしのアプローチは、様々なタスクにおいて驚くほどうまく機能することを示す。
その単純さにもかかわらず、我々の手法は様々なタスクやデータセットで競合する結果を示す。
論文 参考訳(メタデータ) (2020-04-03T12:37:58Z) - AlignSeg: Feature-Aligned Segmentation Networks [109.94809725745499]
本稿では,機能集約プロセスにおける誤アライメント問題に対処するために,特徴適応型ネットワーク(AlignSeg)を提案する。
我々のネットワークは、それぞれ82.6%と45.95%という新しい最先端のmIoUスコアを達成している。
論文 参考訳(メタデータ) (2020-02-24T10:00:58Z) - Weakly-Supervised Semantic Segmentation by Iterative Affinity Learning [86.45526827323954]
弱教師付きセマンティックセグメンテーションは、トレーニングのためにピクセル単位のラベル情報が提供されないため、難しい課題である。
このようなペア関係を学習するための反復アルゴリズムを提案する。
本稿では,提案アルゴリズムが最先端手法に対して好適に動作することを示す。
論文 参考訳(メタデータ) (2020-02-19T10:32:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。