論文の概要: Rethinking Dilated Convolution for Real-time Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2111.09957v3
- Date: Mon, 27 Nov 2023 07:46:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 18:03:46.014313
- Title: Rethinking Dilated Convolution for Real-time Semantic Segmentation
- Title(参考訳): リアルタイム意味セグメンテーションのための拡張畳み込み再考
- Authors: Roland Gao
- Abstract要約: 背骨全体に大きな拡張率を持つ拡張畳み込みを用いて異なるアプローチをとる。
我々のモデルであるRegSegは、リアルタイムのCityscapesとCamVidデータセットの競合的な結果を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The field-of-view is an important metric when designing a model for semantic
segmentation. To obtain a large field-of-view, previous approaches generally
choose to rapidly downsample the resolution, usually with average poolings or
stride 2 convolutions. We take a different approach by using dilated
convolutions with large dilation rates throughout the backbone, allowing the
backbone to easily tune its field-of-view by adjusting its dilation rates, and
show that it's competitive with existing approaches. To effectively use the
dilated convolution, we show a simple upper bound on the dilation rate in order
to not leave gaps in between the convolutional weights, and design an
SE-ResNeXt inspired block structure that uses two parallel $3\times 3$
convolutions with different dilation rates to preserve the local details.
Manually tuning the dilation rates for every block can be difficult, so we also
introduce a differentiable neural architecture search method that uses gradient
descent to optimize the dilation rates. In addition, we propose a lightweight
decoder that restores local information better than common alternatives. To
demonstrate the effectiveness of our approach, our model RegSeg achieves
competitive results on real-time Cityscapes and CamVid datasets. Using a T4 GPU
with mixed precision, RegSeg achieves 78.3 mIOU on Cityscapes test set at $37$
FPS, and 80.9 mIOU on CamVid test set at $112$ FPS, both without ImageNet
pretraining.
- Abstract(参考訳): フィールド・オブ・ビューはセマンティックセグメンテーションのモデルの設計において重要な指標である。
視野を大きくするために、従来のアプローチでは、通常平均的なプールやストライド2の畳み込みで、解像度を急速に下方修正する。
我々は,バックボーン全体の拡張率が大きい拡張畳み込みを用いることで,拡張率を調整することでバックボーンの視野調整を容易に行えるようにし,既存のアプローチと競合することを示すことにより,異なるアプローチをとる。
拡張畳み込みを効果的に利用するために、畳み込み重み付けの間にギャップを残さないために、ダイレーションレートの単純な上限を示すとともに、2つの平行3倍の3$畳み込みを用いたSE-ResNeXtインスピレーションブロック構造を設計し、局所的な詳細を保存する。
各ブロックのディレーションレートを手動で調整することは難しいため、ディレーションレートを最適化するために勾配勾配を用いた微分可能なニューラルアーキテクチャ探索手法も導入する。
さらに、ローカル情報を一般的な代替手段よりもよく復元する軽量デコーダを提案する。
提案手法の有効性を示すため,我々のモデルであるRegSegは,リアルタイムCityscapesとCamVidデータセットの競合的な結果を得る。
混合精度のT4 GPUを使用して、RegSegはCityscapesテストセットの78.3mIOUを37ドルFPSで、CamVidテストセットの80.9mIOUを12ドルFPSで達成する。
関連論文リスト
- AIR-HLoc: Adaptive Retrieved Images Selection for Efficient Visual Localisation [8.789742514363777]
最先端の階層的ローカライゼーションパイプライン(HLOC)は2D-3D対応を確立するために画像検索(IR)を使用している。
本稿では,グローバルディスクリプタとローカルディスクリプタの関係について検討する。
本稿では,クエリのグローバルな記述子とデータベース内の記述子との類似性に基づいて$k$を調整する適応型戦略を提案する。
論文 参考訳(メタデータ) (2024-03-27T06:17:21Z) - GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting [51.96353586773191]
我々は,まず3次元ガウス表現を利用したtextbfGS-SLAM を提案する。
提案手法は,地図の最適化とRGB-Dレンダリングの大幅な高速化を実現するリアルタイム微分可能なスプレイティングレンダリングパイプラインを利用する。
提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-20T12:08:23Z) - FocusTune: Tuning Visual Localization through Focus-Guided Sampling [61.79440120153917]
FocusTuneは、視覚的ローカライゼーションアルゴリズムの性能を改善するための焦点誘導サンプリング技術である。
ACEの魅力ある低ストレージと計算要求を維持しながら、FocusTuneは最先端のパフォーマンスを改善したり、一致させたりします。
ハイパフォーマンスとローコンピュートとストレージの要件の組み合わせは、特にモバイルロボティクスや拡張現実といった分野のアプリケーションには有望だ。
論文 参考訳(メタデータ) (2023-11-06T04:58:47Z) - MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose
Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。
本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。
さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文 参考訳(メタデータ) (2022-03-02T04:20:59Z) - Correlate-and-Excite: Real-Time Stereo Matching via Guided Cost Volume
Excitation [65.83008812026635]
本稿では,GCE ( Guided Cost Volume Excitation) を構築し,画像によって誘導されるコストボリュームの簡単なチャネル励磁により,性能が大幅に向上することを示す。
我々はCorrelate-and-Excite(CoEx)と呼ぶエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-12T14:32:26Z) - Sequential Place Learning: Heuristic-Free High-Performance Long-Term
Place Recognition [24.70946979449572]
学習ベースのCNN+LSTMアーキテクチャを開発し、バックプロパゲーションを通じてトレーニングし、視点および外観不変の場所認識を実現します。
我々のモデルは、新しい最先端パフォーマンス標準を設定しながら、15の古典的手法より優れています。
さらに, SPL は 729 km の経路において, 従来の方法よりも 70 倍高速に展開可能であることを示す。
論文 参考訳(メタデータ) (2021-03-02T22:57:43Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z) - Displacement-Invariant Cost Computation for Efficient Stereo Matching [122.94051630000934]
ディープラーニング手法は、前例のない不一致の精度を得ることによって、ステレオマッチングのリーダーボードを支配してきた。
しかし、その推測時間は一般的に540p画像の秒数で遅い。
本研究では,4次元特徴量を必要としないEmphdisplacement-invariant cost moduleを提案する。
論文 参考訳(メタデータ) (2020-12-01T23:58:16Z) - AANet: Adaptive Aggregation Network for Efficient Stereo Matching [33.39794232337985]
現在の最先端ステレオモデルは、ほとんどが高価な3D畳み込みに基づいている。
エッジフェットング問題を緩和するために,スパースポイントに基づくスケール内コストアグリゲーション手法を提案する。
また、従来のクロススケールなコスト集約アルゴリズムをニューラルネットワーク層に近似して、大きなテクスチャレス領域を処理する。
論文 参考訳(メタデータ) (2020-04-20T18:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。