論文の概要: Rethink Dilated Convolution for Real-time Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2111.09957v1
- Date: Thu, 18 Nov 2021 22:08:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-22 15:52:52.666084
- Title: Rethink Dilated Convolution for Real-time Semantic Segmentation
- Title(参考訳): リアルタイム意味セグメンテーションのための拡張畳み込みの再考
- Authors: Roland Gao
- Abstract要約: セマンティックセグメンテーションの最近の進歩は、一般的にImageNet事前訓練されたバックボーンに特別なコンテキストモジュールを付加して、ビューのフィールドを素早く増やす。
我々はResNeXtにインスパイアされたブロック構造を2つの並列な3x3畳み込み層を用いて設計することで異なるアプローチをとる。
我々のモデルであるRegSegは、リアルタイムCityscapesとCamVidデータセットの最先端結果を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in semantic segmentation generally adapt an ImageNet
pretrained backbone with a special context module after it to quickly increase
the field-of-view. Although successful, the backbone, in which most of the
computation lies, does not have a large enough field-of-view to make the best
decisions. Some recent advances tackle this problem by rapidly downsampling the
resolution in the backbone while also having one or more parallel branches with
higher resolutions. We take a different approach by designing a ResNeXt
inspired block structure that uses two parallel 3x3 convolutional layers with
different dilation rates to increase the field-of-view while also preserving
the local details. By repeating this block structure in the backbone, we do not
need to append any special context module after it. In addition, we propose a
lightweight decoder that restores local information better than common
alternatives. To demonstrate the effectiveness of our approach, our model
RegSeg achieves state-of-the-art results on real-time Cityscapes and CamVid
datasets. Using a T4 GPU with mixed precision, RegSeg achieves 78.3 mIOU on
Cityscapes test set at 30 FPS, and 80.9 mIOU on CamVid test set at 70 FPS, both
without ImageNet pretraining.
- Abstract(参考訳): セマンティクスセグメンテーションの最近の進歩は、一般的にimagenetプリトレーニングされたバックボーンを特別なコンテキストモジュールに適応させ、視野を素早く拡大する。
成功したが、計算のほとんどが存在しているバックボーンは、最善の決定を下すのに十分な視野を持っていない。
最近の進歩では、バックボーンの解像度を迅速にダウンサンプリングし、さらに1つ以上の並列ブランチを高い解像度で持つことで、この問題に対処している。
異なる拡張率を持つ2つの並列3x3畳み込み層を用いて,局所的な詳細を保ちながら視野を拡大する,再帰的インスパイアされたブロック構造を設計することにより,異なるアプローチをとる。
このブロック構造をバックボーンに繰り返すことで、その後に特別なコンテキストモジュールを追加する必要はない。
さらに、ローカル情報を一般的な代替手段よりもよく復元する軽量デコーダを提案する。
提案手法の有効性を示すため,我々のモデルであるRegSegは,リアルタイムCityscapesとCamVidデータセットの最先端結果を実現する。
混合精度のT4 GPUを用いて、RegSegは30FPSのCityscapesテストセットで78.3mIOU、70FPSのCamVidテストセットで80.9mIOUを達成した。
関連論文リスト
- AIR-HLoc: Adaptive Retrieved Images Selection for Efficient Visual Localisation [8.789742514363777]
最先端の階層的ローカライゼーションパイプライン(HLOC)は2D-3D対応を確立するために画像検索(IR)を使用している。
本稿では,グローバルディスクリプタとローカルディスクリプタの関係について検討する。
本稿では,クエリのグローバルな記述子とデータベース内の記述子との類似性に基づいて$k$を調整する適応型戦略を提案する。
論文 参考訳(メタデータ) (2024-03-27T06:17:21Z) - GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting [51.96353586773191]
我々は,まず3次元ガウス表現を利用したtextbfGS-SLAM を提案する。
提案手法は,地図の最適化とRGB-Dレンダリングの大幅な高速化を実現するリアルタイム微分可能なスプレイティングレンダリングパイプラインを利用する。
提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-20T12:08:23Z) - FocusTune: Tuning Visual Localization through Focus-Guided Sampling [61.79440120153917]
FocusTuneは、視覚的ローカライゼーションアルゴリズムの性能を改善するための焦点誘導サンプリング技術である。
ACEの魅力ある低ストレージと計算要求を維持しながら、FocusTuneは最先端のパフォーマンスを改善したり、一致させたりします。
ハイパフォーマンスとローコンピュートとストレージの要件の組み合わせは、特にモバイルロボティクスや拡張現実といった分野のアプリケーションには有望だ。
論文 参考訳(メタデータ) (2023-11-06T04:58:47Z) - MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose
Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。
本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。
さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文 参考訳(メタデータ) (2022-03-02T04:20:59Z) - Correlate-and-Excite: Real-Time Stereo Matching via Guided Cost Volume
Excitation [65.83008812026635]
本稿では,GCE ( Guided Cost Volume Excitation) を構築し,画像によって誘導されるコストボリュームの簡単なチャネル励磁により,性能が大幅に向上することを示す。
我々はCorrelate-and-Excite(CoEx)と呼ぶエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-12T14:32:26Z) - Sequential Place Learning: Heuristic-Free High-Performance Long-Term
Place Recognition [24.70946979449572]
学習ベースのCNN+LSTMアーキテクチャを開発し、バックプロパゲーションを通じてトレーニングし、視点および外観不変の場所認識を実現します。
我々のモデルは、新しい最先端パフォーマンス標準を設定しながら、15の古典的手法より優れています。
さらに, SPL は 729 km の経路において, 従来の方法よりも 70 倍高速に展開可能であることを示す。
論文 参考訳(メタデータ) (2021-03-02T22:57:43Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z) - Displacement-Invariant Cost Computation for Efficient Stereo Matching [122.94051630000934]
ディープラーニング手法は、前例のない不一致の精度を得ることによって、ステレオマッチングのリーダーボードを支配してきた。
しかし、その推測時間は一般的に540p画像の秒数で遅い。
本研究では,4次元特徴量を必要としないEmphdisplacement-invariant cost moduleを提案する。
論文 参考訳(メタデータ) (2020-12-01T23:58:16Z) - AANet: Adaptive Aggregation Network for Efficient Stereo Matching [33.39794232337985]
現在の最先端ステレオモデルは、ほとんどが高価な3D畳み込みに基づいている。
エッジフェットング問題を緩和するために,スパースポイントに基づくスケール内コストアグリゲーション手法を提案する。
また、従来のクロススケールなコスト集約アルゴリズムをニューラルネットワーク層に近似して、大きなテクスチャレス領域を処理する。
論文 参考訳(メタデータ) (2020-04-20T18:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。