Fugu-MT 論文翻訳(概要): Rethinking Dilated Convolution for Real-time Semantic Segmentation

論文の概要: Rethinking Dilated Convolution for Real-time Semantic Segmentation

arxiv url: http://arxiv.org/abs/2111.09957v3
Date: Mon, 27 Nov 2023 07:46:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 18:03:46.014313
Title: Rethinking Dilated Convolution for Real-time Semantic Segmentation
Title（参考訳）: リアルタイム意味セグメンテーションのための拡張畳み込み再考
Authors: Roland Gao
Abstract要約: 背骨全体に大きな拡張率を持つ拡張畳み込みを用いて異なるアプローチをとる。我々のモデルであるRegSegは、リアルタイムのCityscapesとCamVidデータセットの競合的な結果を達成する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The field-of-view is an important metric when designing a model for semantic segmentation. To obtain a large field-of-view, previous approaches generally choose to rapidly downsample the resolution, usually with average poolings or stride 2 convolutions. We take a different approach by using dilated convolutions with large dilation rates throughout the backbone, allowing the backbone to easily tune its field-of-view by adjusting its dilation rates, and show that it's competitive with existing approaches. To effectively use the dilated convolution, we show a simple upper bound on the dilation rate in order to not leave gaps in between the convolutional weights, and design an SE-ResNeXt inspired block structure that uses two parallel $3\times 3$ convolutions with different dilation rates to preserve the local details. Manually tuning the dilation rates for every block can be difficult, so we also introduce a differentiable neural architecture search method that uses gradient descent to optimize the dilation rates. In addition, we propose a lightweight decoder that restores local information better than common alternatives. To demonstrate the effectiveness of our approach, our model RegSeg achieves competitive results on real-time Cityscapes and CamVid datasets. Using a T4 GPU with mixed precision, RegSeg achieves 78.3 mIOU on Cityscapes test set at $37$ FPS, and 80.9 mIOU on CamVid test set at $112$ FPS, both without ImageNet pretraining.
Abstract（参考訳）: フィールド・オブ・ビューはセマンティックセグメンテーションのモデルの設計において重要な指標である。視野を大きくするために、従来のアプローチでは、通常平均的なプールやストライド2の畳み込みで、解像度を急速に下方修正する。我々は,バックボーン全体の拡張率が大きい拡張畳み込みを用いることで,拡張率を調整することでバックボーンの視野調整を容易に行えるようにし,既存のアプローチと競合することを示すことにより,異なるアプローチをとる。拡張畳み込みを効果的に利用するために、畳み込み重み付けの間にギャップを残さないために、ダイレーションレートの単純な上限を示すとともに、2つの平行3倍の3$畳み込みを用いたSE-ResNeXtインスピレーションブロック構造を設計し、局所的な詳細を保存する。各ブロックのディレーションレートを手動で調整することは難しいため、ディレーションレートを最適化するために勾配勾配を用いた微分可能なニューラルアーキテクチャ探索手法も導入する。さらに、ローカル情報を一般的な代替手段よりもよく復元する軽量デコーダを提案する。提案手法の有効性を示すため,我々のモデルであるRegSegは,リアルタイムCityscapesとCamVidデータセットの競合的な結果を得る。混合精度のT4 GPUを使用して、RegSegはCityscapesテストセットの78.3mIOUを37ドルFPSで、CamVidテストセットの80.9mIOUを12ドルFPSで達成する。

関連論文リスト

InstantSplat: Sparse-view Gaussian Splatting in Seconds [91.77050739918037]
InstantSplatは,光速でスパークビュー3Dシーンを再現する新しい手法である。 InstantSplatでは,3Dシーン表現とカメラポーズを最適化する,自己管理フレームワークを採用している。 3D-GSの従来のSfMと比較して、30倍以上の再現を達成し、視覚的品質(SSIM)を0.3755から0.7624に改善する。
論文参考訳（メタデータ） (2024-03-29T17:29:58Z)
AIR-HLoc: Adaptive Retrieved Images Selection for Efficient Visual Localisation [8.789742514363777]
最先端の階層的ローカライゼーションパイプライン(HLOC)は2D-3D対応を確立するために画像検索(IR)を使用している。本稿では,グローバルディスクリプタとローカルディスクリプタの関係について検討する。本稿では,クエリのグローバルな記述子とデータベース内の記述子との類似性に基づいて$k$を調整する適応型戦略を提案する。
論文参考訳（メタデータ） (2024-03-27T06:17:21Z)
GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting [51.96353586773191]
我々は,まず3次元ガウス表現を利用したtextbfGS-SLAM を提案する。提案手法は,地図の最適化とRGB-Dレンダリングの大幅な高速化を実現するリアルタイム微分可能なスプレイティングレンダリングパイプラインを利用する。提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。
論文参考訳（メタデータ） (2023-11-20T12:08:23Z)
FocusTune: Tuning Visual Localization through Focus-Guided Sampling [61.79440120153917]
FocusTuneは、視覚的ローカライゼーションアルゴリズムの性能を改善するための焦点誘導サンプリング技術である。 ACEの魅力ある低ストレージと計算要求を維持しながら、FocusTuneは最先端のパフォーマンスを改善したり、一致させたりします。ハイパフォーマンスとローコンピュートとストレージの要件の組み合わせは、特にモバイルロボティクスや拡張現実といった分野のアプリケーションには有望だ。
論文参考訳（メタデータ） (2023-11-06T04:58:47Z)
MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文参考訳（メタデータ） (2022-03-02T04:20:59Z)
Correlate-and-Excite: Real-Time Stereo Matching via Guided Cost Volume Excitation [65.83008812026635]
本稿では,GCE ( Guided Cost Volume Excitation) を構築し,画像によって誘導されるコストボリュームの簡単なチャネル励磁により,性能が大幅に向上することを示す。我々はCorrelate-and-Excite(CoEx)と呼ぶエンドツーエンドネットワークを提案する。
論文参考訳（メタデータ） (2021-08-12T14:32:26Z)
Sequential Place Learning: Heuristic-Free High-Performance Long-Term Place Recognition [24.70946979449572]
学習ベースのCNN+LSTMアーキテクチャを開発し、バックプロパゲーションを通じてトレーニングし、視点および外観不変の場所認識を実現します。我々のモデルは、新しい最先端パフォーマンス標準を設定しながら、15の古典的手法より優れています。さらに, SPL は 729 km の経路において, 従来の方法よりも 70 倍高速に展開可能であることを示す。
論文参考訳（メタデータ） (2021-03-02T22:57:43Z)
Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文参考訳（メタデータ） (2020-12-25T14:58:35Z)
Displacement-Invariant Cost Computation for Efficient Stereo Matching [122.94051630000934]
ディープラーニング手法は、前例のない不一致の精度を得ることによって、ステレオマッチングのリーダーボードを支配してきた。しかし、その推測時間は一般的に540p画像の秒数で遅い。本研究では,4次元特徴量を必要としないEmphdisplacement-invariant cost moduleを提案する。
論文参考訳（メタデータ） (2020-12-01T23:58:16Z)
AANet: Adaptive Aggregation Network for Efficient Stereo Matching [33.39794232337985]
現在の最先端ステレオモデルは、ほとんどが高価な3D畳み込みに基づいている。エッジフェットング問題を緩和するために,スパースポイントに基づくスケール内コストアグリゲーション手法を提案する。また、従来のクロススケールなコスト集約アルゴリズムをニューラルネットワーク層に近似して、大きなテクスチャレス領域を処理する。
論文参考訳（メタデータ） (2020-04-20T18:07:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。