論文の概要: SSGA-Net: Stepwise Spatial Global-local Aggregation Networks for for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2405.18857v1
- Date: Wed, 29 May 2024 08:12:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 18:19:10.988882
- Title: SSGA-Net: Stepwise Spatial Global-local Aggregation Networks for for Autonomous Driving
- Title(参考訳): SSGA-Net: 自律運転のためのステップワイドグローバルローカルアグリゲーションネットワーク
- Authors: Yiming Cui, Cheng Han, Dongfang Liu,
- Abstract要約: 現在のモデルは、通常、タスクヘッドのオブジェクト表現を強化するために隣のフレームから特徴を集約します。
これらの手法は将来のフレームからの情報に依存し、高い計算複雑性に悩まされる。
本稿では,これらの問題を解決するために,段階的に空間的局所集約ネットワークを導入する。
- 参考スコア(独自算出の注目度): 27.731481134782577
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Visual-based perception is the key module for autonomous driving. Among those visual perception tasks, video object detection is a primary yet challenging one because of feature degradation caused by fast motion or multiple poses. Current models usually aggregate features from the neighboring frames to enhance the object representations for the task heads to generate more accurate predictions. Though getting better performance, these methods rely on the information from the future frames and suffer from high computational complexity. Meanwhile, the aggregation process is not reconfigurable during the inference time. These issues make most of the existing models infeasible for online applications. To solve these problems, we introduce a stepwise spatial global-local aggregation network. Our proposed models mainly contain three parts: 1). Multi-stage stepwise network gradually refines the predictions and object representations from the previous stage; 2). Spatial global-local aggregation fuses the local information from the neighboring frames and global semantics from the current frame to eliminate the feature degradation; 3). Dynamic aggregation strategy stops the aggregation process early based on the refinement results to remove redundancy and improve efficiency. Extensive experiments on the ImageNet VID benchmark validate the effectiveness and efficiency of our proposed models.
- Abstract(参考訳): 視覚に基づく知覚は、自動運転の鍵となるモジュールである。
これらの視覚的認識タスクの中で、ビデオオブジェクト検出は、高速な動きや複数のポーズによって生じる特徴劣化のため、主要かつ困難なタスクである。
現在のモデルは、通常、隣接するフレームから特徴を集約してタスクヘッドのオブジェクト表現を強化し、より正確な予測を生成する。
性能は向上するが、これらの手法は将来のフレームの情報に依存し、高い計算複雑性に悩まされる。
一方、アグリゲーションプロセスは、推論時間中に再構成できない。
これらの問題により、既存のモデルのほとんどがオンラインアプリケーションでは利用できない。
これらの問題を解決するために、段階的に空間的にグローバルな集約ネットワークを導入する。
提案するモデルは,主に3つの部分を含む。
多段階のステップワイドネットワークは、前段階からの予測とオブジェクト表現を徐々に洗練する。
空間的グローバル・ローカル・アグリゲーションは、隣接するフレームからの局所情報と現在のフレームからのグローバル・セマンティクスを融合させ、特徴劣化を解消する。
ダイナミックアグリゲーション戦略は、リファインメント結果に基づいて早期にアグリゲーションプロセスを停止し、冗長性を除去し、効率を向上する。
ImageNet VIDベンチマークの大規模な実験により、提案モデルの有効性と効率が検証された。
関連論文リスト
- EraW-Net: Enhance-Refine-Align W-Net for Scene-Associated Driver Attention Estimation [17.0226030258296]
2つの視野にわたる運転シーンにドライバーの注意を関連付けることは、クロスドメインな認識の問題である。
従来の手法は、通常、単一の視点に焦点を当てたり、推定された視線を通してシーンに注意を向ける。
エンド・ツー・エンドのシーン関連運転注意度推定手法であるEraWNetを提案する。
論文 参考訳(メタデータ) (2024-08-16T07:12:47Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - Attention-based Spatial-Temporal Graph Convolutional Recurrent Networks
for Traffic Forecasting [12.568905377581647]
交通予測は交通科学と人工知能における最も基本的な問題の一つである。
既存の手法では、長期的相関と短期的相関を同時にモデル化することはできない。
本稿では,GCRN(Graph Convolutional Recurrent Module)とグローバルアテンションモジュールからなる新しい時空間ニューラルネットワークフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-25T03:37:00Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z) - Enhancing Object Detection for Autonomous Driving by Optimizing Anchor
Generation and Addressing Class Imbalance [0.0]
本研究では,より高速なR-CNNに基づく拡張型2次元物体検出器を提案する。
より高速なr-cnnに対する修正は計算コストを増加させず、他のアンカーベースの検出フレームワークを最適化するために容易に拡張できる。
論文 参考訳(メタデータ) (2021-04-08T16:58:31Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z) - PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object
Detection [57.49788100647103]
LiDARベースの3Dオブジェクト検出は、自動運転にとって重要なタスクです。
現在のアプローチでは、遠方および閉ざされた物体の偏りと部分的な点雲に苦しむ。
本稿では,この課題を2つの解決法で解決する新しい二段階アプローチ,pc-rgnnを提案する。
論文 参考訳(メタデータ) (2020-12-18T18:06:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。