論文の概要: HybridNets: End-to-End Perception Network
- arxiv url: http://arxiv.org/abs/2203.09035v1
- Date: Thu, 17 Mar 2022 02:29:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-19 04:53:24.071621
- Title: HybridNets: End-to-End Perception Network
- Title(参考訳): HybridNets: エンドツーエンドの知覚ネットワーク
- Authors: Dat Vu, Bao Ngo and Hung Phan
- Abstract要約: 本稿では,マルチタスクのためのエンド・ツー・エンドの知覚ネットワークを体系的に研究する。
交通物体検出, 乾燥領域分割, レーン検出を同時に行うHybridNets という, マルチタスクを実現するエンド・ツー・エンドの知覚ネットワークを開発した。
- 参考スコア(独自算出の注目度): 1.4287758028119788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end Network has become increasingly important in multi-tasking. One
prominent example of this is the growing significance of a driving perception
system in autonomous driving. This paper systematically studies an end-to-end
perception network for multi-tasking and proposes several key optimizations to
improve accuracy. First, the paper proposes efficient segmentation head and
box/class prediction networks based on weighted bidirectional feature network.
Second, the paper proposes automatically customized anchor for each level in
the weighted bidirectional feature network. Third, the paper proposes an
efficient training loss function and training strategy to balance and optimize
network. Based on these optimizations, we have developed an end-to-end
perception network to perform multi-tasking, including traffic object
detection, drivable area segmentation and lane detection simultaneously, called
HybridNets, which achieves better accuracy than prior art. In particular,
HybridNets achieves 77.3 mean Average Precision on Berkeley DeepDrive Dataset,
outperforms lane detection with 31.6 mean Intersection Over Union with 12.83
million parameters and 15.6 billion floating-point operations. In addition, it
can perform visual perception tasks in real-time and thus is a practical and
accurate solution to the multi-tasking problem. Code is available at
https://github.com/datvuthanh/HybridNets.
- Abstract(参考訳): エンドツーエンドネットワークは、マルチタスクにおいてますます重要になっている。
この顕著な例は、自動運転における運転認識システムの重要性の高まりである。
本稿では,マルチタスクのためのエンド・ツー・エンド知覚ネットワークを体系的に研究し,精度向上のためのいくつかの鍵最適化を提案する。
まず,重み付き双方向特徴ネットワークに基づく効率的なセグメンテーションヘッドとボックス/クラス予測ネットワークを提案する。
第2に,重み付き双方向特徴ネットワークにおいて,各レベルに対して自動カスタマイズアンカーを提案する。
第3に,ネットワークのバランスと最適化のための効率的なトレーニング損失関数とトレーニング戦略を提案する。
これらの最適化に基づき,交通物体検出,乾燥領域分割,車線検出を同時に行う「HybridNets」など,先行技術よりも精度の高いマルチタスクを実現するエンド・ツー・エンド認識ネットワークを開発した。
特に、hybridnetsはバークレーのdeepdriveデータセットで77.3平均精度を達成し、12.83億のパラメータと15.6億浮動小数点演算を持つユニオン上の31.6平均交点でレーン検出を上回っている。
さらに,視覚認知タスクをリアルタイムに行うことが可能であり,マルチタスク問題に対する実用的かつ正確な解決法である。
コードはhttps://github.com/datvuthanh/hybridnetsで入手できる。
関連論文リスト
- A Point-Based Approach to Efficient LiDAR Multi-Task Perception [49.91741677556553]
PAttFormerは、ポイントクラウドにおける共同セマンティックセグメンテーションとオブジェクト検出のための効率的なマルチタスクアーキテクチャである。
他のLiDARベースのマルチタスクアーキテクチャとは異なり、提案したPAttFormerはタスク固有のポイントクラウド表現のために別の機能エンコーダを必要としない。
マルチタスク学習では,mIouでは+1.7%,mAPでは3Dオブジェクト検出では+1.7%,LiDARセマンティックセマンティックセグメンテーションは+1.7%向上した。
論文 参考訳(メタデータ) (2024-04-19T11:24:34Z) - Active search and coverage using point-cloud reinforcement learning [50.741409008225766]
本稿では,目的探索とカバレッジのためのエンドツーエンドの深層強化学習ソリューションを提案する。
RLの深い階層的特徴学習は有効であり、FPS(Fastthest Point sample)を用いることで点数を削減できることを示す。
また、ポイントクラウドに対するマルチヘッドの注意がエージェントの学習を高速化する上で有効であるが、同じ結果に収束することを示す。
論文 参考訳(メタデータ) (2023-12-18T18:16:30Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - HeteroEdge: Addressing Asymmetry in Heterogeneous Collaborative
Autonomous Systems [1.274065448486689]
2台の無人地上車両(UGV)と2台のNVIDIA Jetsonデバイスからなるテストベッドの自己適応最適化フレームワークを提案する。
このフレームワークは、異種ノード上の複数のタスク(ストレージ、処理、計算、送信、推論)を同時に効率的に管理する。
入力された画像フレームの圧縮とマスキング、類似したフレームの識別、および最適化のための境界条件を得るためにプロファイリング装置を含む。
論文 参考訳(メタデータ) (2023-05-05T02:43:16Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - High Efficiency Pedestrian Crossing Prediction [0.0]
歩行者の横断意図を予測する最先端の手法は、入力として複数の情報ストリームに依存することが多い。
入力には歩行者のフレームのみのネットワークを導入する。
実験は、我々のモデルが常に優れたパフォーマンスを提供することを検証します。
論文 参考訳(メタデータ) (2022-04-04T21:37:57Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Fully Dynamic Inference with Deep Neural Networks [19.833242253397206]
Layer-Net(L-Net)とChannel-Net(C-Net)と呼ばれる2つのコンパクトネットワークは、どのレイヤやフィルタ/チャネルが冗長であるかをインスタンス毎に予測する。
CIFAR-10データセットでは、LC-Netは11.9$times$ less floating-point Operations (FLOPs) となり、他の動的推論手法と比較して最大3.3%精度が向上する。
ImageNetデータセットでは、LC-Netは最大1.4$times$ FLOPsを減らし、Top-1の精度は他の方法よりも4.6%高い。
論文 参考訳(メタデータ) (2020-07-29T23:17:48Z) - FairMOT: On the Fairness of Detection and Re-Identification in Multiple
Object Tracking [92.48078680697311]
マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要な問題である。
本稿では,FairMOTと呼ばれる,アンカーフリーなオブジェクト検出アーキテクチャCenterNetをベースとした,シンプルかつ効果的なアプローチを提案する。
このアプローチは、検出と追跡の両方において高い精度を達成する。
論文 参考訳(メタデータ) (2020-04-04T08:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。