論文の概要: Geo-ConvGRU: Geographically Masked Convolutional Gated Recurrent Unit for Bird-Eye View Segmentation
- arxiv url: http://arxiv.org/abs/2412.20171v1
- Date: Sat, 28 Dec 2024 14:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:06:29.905045
- Title: Geo-ConvGRU: Geographically Masked Convolutional Gated Recurrent Unit for Bird-Eye View Segmentation
- Title(参考訳): Geo-ConvGRU:Bird-Eye Viewセグメンテーションのための地理的にマスキングされた畳み込みGated Recurrent Unit
- Authors: Guanglei Yang, Yongqiang Zhang, Wanlong Li, Yu Tang, Weize Shang, Feng Wen, Hongbo Zhang, Mingli Ding,
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は様々なコンピュータビジョンタスクに大きな影響を与えている。
CNNは、畳み込み操作の局所的な性質のために、長距離依存を明示的にモデル化するのに苦労している。
我々は,Bird's-Eye Viewセグメンテーションに適したシンプルな,かつ効果的なモジュールであるGeo-ConvGRU(Geo-ConvGRU)を紹介した。
- 参考スコア(独自算出の注目度): 17.023625615663665
- License:
- Abstract: Convolutional Neural Networks (CNNs) have significantly impacted various computer vision tasks, however, they inherently struggle to model long-range dependencies explicitly due to the localized nature of convolution operations. Although Transformers have addressed limitations in long-range dependencies for the spatial dimension, the temporal dimension remains underexplored. In this paper, we first highlight that 3D CNNs exhibit limitations in capturing long-range temporal dependencies. Though Transformers mitigate spatial dimension issues, they result in a considerable increase in parameter and processing speed reduction. To overcome these challenges, we introduce a simple yet effective module, Geographically Masked Convolutional Gated Recurrent Unit (Geo-ConvGRU), tailored for Bird's-Eye View segmentation. Specifically, we substitute the 3D CNN layers with ConvGRU in the temporal module to bolster the capacity of networks for handling temporal dependencies. Additionally, we integrate a geographical mask into the Convolutional Gated Recurrent Unit to suppress noise introduced by the temporal module. Comprehensive experiments conducted on the NuScenes dataset substantiate the merits of the proposed Geo-ConvGRU, revealing that our approach attains state-of-the-art performance in Bird's-Eye View segmentation.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、様々なコンピュータビジョンタスクに大きな影響を与えているが、畳み込み操作の局所的な性質のため、本質的には長距離依存をモデル化するのに苦労している。
トランスフォーマーは空間次元の長距離依存性の制限に対処してきたが、時間次元は未探索のままである。
本稿では,3次元CNNが長期の時間的依存を捉えるのに限界があることを最初に強調する。
トランスフォーマーは空間次元問題を緩和するが、パラメータが大幅に増加し、処理速度が低下する。
これらの課題を克服するために,我々は,Bird's-Eye Viewセグメンテーションに適したシンプルな,かつ効果的なモジュールであるGeo-ConvGRU(Geo-ConvGRU)を導入する。
具体的には,3次元CNN層を時間モジュールのConvGRUに置換し,時間依存性を扱うネットワークの容量を増強する。
さらに、時間モジュールが導入したノイズを抑制するために、地理的マスクを畳み込みGated Recurrent Unitに統合する。
提案したGeo-ConvGRUのメリットを裏付けるNuScenesデータセットの総合的な実験により,Bird's-Eye Viewセグメンテーションにおける最先端のパフォーマンスを実現することができた。
関連論文リスト
- Point Cloud Denoising With Fine-Granularity Dynamic Graph Convolutional Networks [58.050130177241186]
ノイズの摂動は、しばしば3次元の点雲を破損させ、表面の再構成、レンダリング、さらなる処理といった下流のタスクを妨げる。
本稿では,GDGCNと呼ばれる粒度動的グラフ畳み込みネットワークについて紹介する。
論文 参考訳(メタデータ) (2024-11-21T14:19:32Z) - Multivariate Time-Series Anomaly Detection based on Enhancing Graph Attention Networks with Topological Analysis [31.43159668073136]
時系列における教師なし異常検出は、手動による介入の必要性を大幅に低減するため、産業応用において不可欠である。
従来の手法では、グラフニューラルネットワーク(GNN)やトランスフォーマーを使用して空間を解析し、RNNは時間的依存をモデル化していた。
本稿では,TopoGDNと呼ばれる多変量時系列異常検出のための拡張グラフ注意ネットワーク(GAT)上に構築された新しい時間モデルを提案する。
論文 参考訳(メタデータ) (2024-08-23T14:06:30Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - Temporally Consistent Transformers for Video Generation [80.45230642225913]
正確なビデオを生成するには、アルゴリズムは世界の空間的および時間的依存関係を理解する必要がある。
時間依存性のあるビデオ生成を厳格に評価するために、複雑なデータに関する確立されたベンチマークは存在しない。
本稿では,長期間の一貫性を著しく向上し,サンプリング時間を短縮するTemporally Consistent Transformer(TECO)を提案する。
論文 参考訳(メタデータ) (2022-10-05T17:15:10Z) - Multi-Scale Spatial Temporal Graph Convolutional Network for
Skeleton-Based Action Recognition [13.15374205970988]
本稿では,マルチスケール空間グラフ畳み込み (MS-GC) モジュールとマルチスケール時間グラフ畳み込み (MT-GC) モジュールを提案する。
MS-GCおよびMT-GCモジュールは対応する局所グラフ畳み込みをサブグラフ畳み込みの集合に分解し、階層的残差アーキテクチャを形成する。
本稿では,マルチスケールな時空間グラフ畳み込みネットワーク(MST-GCN)を提案する。
論文 参考訳(メタデータ) (2022-06-27T03:17:33Z) - Contextual Attention Network: Transformer Meets U-Net [0.0]
畳み込みニューラルネットワーク(CNN)はデファクトスタンダードとなり、医療画像セグメンテーションにおいて大きな成功を収めた。
しかし、CNNベースのメソッドは、長距離依存関係とグローバルコンテキスト接続を構築するのに失敗する。
最近の論文では、医療画像分割タスクにTransformerの変種を活用している。
論文 参考訳(メタデータ) (2022-03-02T21:10:24Z) - Deep Geospatial Interpolation Networks [15.942343748489376]
我々はDGIN(Deep Geospatial Interpolation Network)と呼ばれる新しいディープニューラルネットワークを提案する。
DGINは空間的および時間的関係を持ち、トレーニング時間を大幅に短縮する。
2つの異なる領域からMODISデータセット上でDGINを評価する。
論文 参考訳(メタデータ) (2021-08-15T06:57:36Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。