論文の概要: Multi-domain semantic segmentation with pyramidal fusion
- arxiv url: http://arxiv.org/abs/2009.01636v5
- Date: Thu, 7 Oct 2021 13:55:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 19:37:48.211120
- Title: Multi-domain semantic segmentation with pyramidal fusion
- Title(参考訳): ピラミッド融合による多領域セマンティックセグメンテーション
- Authors: Petra Bevandi\'c, Marin Or\v{s}i\'c, Ivan Grubi\v{s}i\'c, Josip
\v{S}ari\'c, and Sini\v{s}a \v{S}egvi\'c
- Abstract要約: 我々は,ECCV 2020で開かれたロバスト・ビジョン・チャレンジに応募する。
コンテストでは、同じモデルを3つの異なるドメインから7つのベンチマークに送信する必要がある。
私たちのアプローチは、ピラミッド融合を備えたSwiftNetアーキテクチャに基づいています。
- 参考スコア(独自算出の注目度): 1.0291625571470189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present our submission to the semantic segmentation contest of the Robust
Vision Challenge held at ECCV 2020. The contest requires submitting the same
model to seven benchmarks from three different domains. Our approach is based
on the SwiftNet architecture with pyramidal fusion. We address inconsistent
taxonomies with a single-level 193-dimensional softmax output. We strive to
train with large batches in order to stabilize optimization of a hard
recognition problem, and to favour smooth evolution of batchnorm statistics. We
achieve this by implementing a custom backward step through log-sum-prob loss,
and by using small crops before freezing the population statistics. Our model
ranks first on the RVC semantic segmentation challenge as well as on the
WildDash 2 leaderboard. This suggests that pyramidal fusion is competitive not
only for efficient inference with lightweight backbones, but also in
large-scale setups for multi-domain application.
- Abstract(参考訳): 我々は,ECCV 2020で開催されたロバストビジョンチャレンジのセマンティックセグメンテーションコンテストに応募する。
コンテストでは、3つの異なるドメインから7つのベンチマークに同じモデルを提出する必要がある。
我々のアプローチは、ピラミッド型融合によるswiftnetアーキテクチャに基づいている。
単一レベル 193-次元ソフトマックス出力を持つ不整合な分類法を扱う。
我々は,認識問題の最適化を最適化し,バッチノーム統計のスムーズな発展を促すために,大規模バッチで訓練する。
我々は,ログ・サム・プロブの損失を回避し,個体数統計を凍結する前に小型作物を使用することで,独自の後退ステップを実現する。
我々のモデルは、RVCセマンティックセマンティックセグメンテーションチャレンジとWildDash 2のリーダーボードで第1位です。
これは、ピラミッド融合が軽量なバックボーンによる効率的な推論だけでなく、マルチドメインアプリケーションのための大規模なセットアップにおいても競合していることを示している。
関連論文リスト
- Missing Modality Robustness in Semi-Supervised Multi-Modal Semantic
Segmentation [27.23513712371972]
簡単なマルチモーダル核融合機構を提案する。
また,マルチモーダル学習のためのマルチモーダル教師であるM3Lを提案する。
我々の提案は、最も競争力のあるベースラインよりも、ロバストmIoUで最大10%の絶対的な改善を示す。
論文 参考訳(メタデータ) (2023-04-21T05:52:50Z) - Diverse Motion In-betweening with Dual Posture Stitching [11.776629142119768]
In-betweeningは、初期およびターゲットの文字状態に与えられた遷移を生成する技術である。
我々は,開始フレームと終了フレームから前後の遷移を生成する双方向方式を実装した。
提案手法は,LaFAN1とHuman3.6mの両方のデータセットにおいて,既存の手法よりも高い動作品質と多様な結果が得られることを示す。
論文 参考訳(メタデータ) (2023-03-25T12:36:46Z) - 1st Place Solution of The Robust Vision Challenge (RVC) 2022 Semantic
Segmentation Track [67.56316745239629]
本報告では,ECCV 2022におけるロバストビジョンチャレンジのセマンティックセグメンテーション課題に対する勝利解について述べる。
本手法では,エンコーダとしてFAN-B-Hybridモデルを採用し,セグメンテーションフレームワークとしてSegformerを使用している。
提案手法は,マルチドメインセグメンテーションタスクの強力なベースラインとして機能し,今後の作業に役立てることができる。
論文 参考訳(メタデータ) (2022-10-23T20:52:22Z) - Unsupervised Cross-Modality Domain Adaptation for Vestibular Schwannoma
Segmentation and Koos Grade Prediction based on Semi-Supervised Contrastive
Learning [1.5953825926551457]
クロスモダリティ前庭神経新生(VS)とコチェリーセグメンテーションとKoosグレード予測のための教師なしドメイン適応フレームワーク。
nnU-NetモデルはVSとcochleaセグメンテーションに利用され、半教師付きコントラクティブ学習事前訓練アプローチがモデル性能を改善するために使用される。
平均Diceスコアが0.8394のタスク1では4位,平均平均値が0.3941のタスク2では2位であった。
論文 参考訳(メタデータ) (2022-10-09T13:12:20Z) - PointInst3D: Segmenting 3D Instances by Points [136.7261709896713]
本稿では,ポイント単位の予測方式で機能する,完全畳み込み型3Dポイントクラウドインスタンスセグメンテーション手法を提案する。
その成功の鍵は、各サンプルポイントに適切なターゲットを割り当てることにある。
提案手法はScanNetとS3DISのベンチマークで有望な結果が得られる。
論文 参考訳(メタデータ) (2022-04-25T02:41:46Z) - Stratified Transformer for 3D Point Cloud Segmentation [89.9698499437732]
Stratified Transformerは、長距離コンテキストをキャプチャし、強力な一般化能力と高性能を示す。
不規則な点配置によって引き起こされる課題に対処するために,局所情報を集約する第1層点埋め込みを提案する。
S3DIS, ScanNetv2およびShapeNetPartデータセットにおける本手法の有効性と優位性を示す実験を行った。
論文 参考訳(メタデータ) (2022-03-28T05:35:16Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - 1st Place Solutions for OpenImage2019 -- Object Detection and Instance
Segmentation [116.25081559037872]
この記事では,2つのチャンピオンチーム,検出トラックのMMfruit'とセグメンテーショントラックのMMfruitSeg'のソリューションについて,OpenImage Challenge 2019で紹介する。
一般に、対象検出器の場合、バックボーンの端の共有特徴は分類と回帰の両方に適さないことが知られている。
自己学習型最適特徴抽出によりオブジェクトの分類と回帰を分離するデカップリングヘッド(DH)を提案する。
論文 参考訳(メタデータ) (2020-03-17T06:45:07Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z) - Dual-Stream Pyramid Registration Network [34.65021683954268]
本稿では,教師なし3次元医用画像登録のためのDual-Stream Pyramid Registration Network(Dual-PRNet)を提案する。
畳み込み特徴ピラミッドからマルチスケールの登録フィールドを計算できる2ストリームアーキテクチャを設計する。
提案したDual-PRNetは、脳MRI登録のための2つの標準ベンチマークで評価されている。
論文 参考訳(メタデータ) (2019-09-26T08:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。